CN109582962B

CN109582962B - 分词方法及装置

Info

Publication number: CN109582962B
Application number: CN201811437179.1A
Authority: CN
Inventors: 梁永星; 潘希阳
Original assignee: Beijing Chuangxin Journey Network Technology Co ltd
Current assignee: Beijing Chuangxin Journey Network Technology Co ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2020-08-04
Anticipated expiration: 2038-11-28
Also published as: CN109582962A

Abstract

本发明实施例提供一种分词方法及装置，在该方法中，获取待分词文本；选择对所述待分词文本进行分词的至少一种预设分词方法组合，其中，所述分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法；利用选择的所述预设分词方法组合，对所述待分词文本进行分词，可以提高分词结果的准确率。

Description

分词方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种分词方法及装置。

背景技术

随着互联网时代的发展，分词技术作为机器识别自然语言的一项重要基础技术，广泛应用于文本自动标注、搜索引擎、机器翻译、语音识别等领域，并且不同的分词方法在具体应用过程中起着至关重要的作用。例如，搜索引擎使用的分词方法，直接影响搜索中得到的有用信息的占比。

目前，常见的分词方法有基于词典匹配的分词方法、基于统计的分词方法以及基于知识理解的分词方法等基础分词方法，以及针对上述三种方法存在问题进行优化的优化分词方法，例如，分词消歧优化方法、单字优化方法、专有名词优化方法等。

但是，应用目前已有的分词方法进行分词时，在不同的分词应用场景中，仍会出现分词准确度低的问题，例如在搜索应用时，经常会出现搜索不够精确，涵盖范围不够广的问题。

发明内容

本发明实施例提供一种分词方法及装置，以提高分词准确率。

本发明实施例的一个方面提供了一种分词方法，包括获取待分词文本；选择对所述待分词文本进行分词的预设分词方法组合，其中，所述分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法；利用选择的所述预设分词方法组合，对所述待分词文本进行分词。

本发明实施例的另一个方面提供了一种分词装置，其中，所述装置包括：获取单元，用于获取待分词文本；选择单元，选择至少一种预设分词方法组合，其中，所述分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法；分词单元，用于利用选择的所述预设分词方法组合，对所述待分词文本进行分词。

本发明实施例中提供的分词方法及装置，利用至少一种分词方法组合，对待分词文本进行分词，适用多种分词场景，提高了分词结果的准确率。在搜索应用时，分别对每一种分词结果分别进行搜索，并根据每一种分词方法组合的预设权重值，对搜索结果进行排序，根据需求提高搜索结果的精确度和覆盖范围。

附图说明

图1是本发明实施例中提供的一种分词方法实施流程图；

图2是本发明实施例提供的一种利用基础分词方法和分词消歧优化方法对待分词文本进行分词的方法实施流程图；

图3是本发明实施例提供的一种利用基础分词方法和单字优化方法对待分词文本进行分词的方法实施流程图；

图4是本发明实施例提供的一种利用基础分词方法和专有名词优化方法对待分词文本进行分词的方法实施流程图；

图5是本发明实施例提供的一种搜索方法实施流程图；

图6是本发明实施例提供的一种分词装置结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

本发明实施例中提供的分词方法可以应用于需要将文本切分为分词的场景，例如针对旅游垂直领域中各类文本资源的分词。

目前，对文本进行分词时，通常只采用单一的一种分词方法进行分词，而单一的分词方法导致分词准确度较低。有鉴于此，本发明实施例中提供一种分词方法，在该分词方法中，利用多种分词方法的组合进行分词，以提高分词准确度。

图1所示为本发明实施例中提供的一种分词方法实施流程图，图1所示的方法执行主体可以是具有执行相应分词功能的分词装置，例如分词器等。参阅图1所示，本发明实施例中提供的分词方法包括：

S101：获取待分词文本。

本发明实施例中的待分词文本可以是用户输入的文本，也可以是已存储的文本。针对不同的应用领域，该待分词文本可以不同，例如，在使用搜索引擎进行短文本内容分词后搜索场景中，待分词文本即为所需搜索的文本；在对数据库中的文本内容进行分词时，待分词文本为数据库中存储的文本内容(例如游记，攻略等)。

S102：选择对待分词文本进行分词的预设分词方法组合。

本发明实施例中分词方法组合中涉及的分词方法可以是基础分词方法和不同分词优化方法的组合，该分词优化方法可以包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种。

本发明实施例中，上述涉及的基础分词方法可以理解为是基于词典匹配的分词方法、基于统计的分词方法或基于知识理解的分词方法。可能的实施方式中，本发明实施例涉及的基础分词方法可以理解为是基于词典匹配的以最细粒度划分出待分词文本中所包括的全部词元，得到的最细粒度词元组的分词方法，例如采用基于词典的“正向迭代最细粒度切分算法”进行分词的方法。

本发明实施例中涉及的分词消歧优化方法可以理解为是对采用基础分词方法对待分词文本进行分词后得到的分词结果中相交词元组中存在交叉歧义的词元进行消除的方法。

本发明实施例中涉及的单字优化方法可以理解为是对采用基础分词方法对待分词文本进行分词后得到的分词结果中的单字词元进行消除的方法。

本发明实施例中涉及的专有名词优化方法可以理解为对采用基础分词方法对待分词文本进行分词后得到的分词结果中的专有名词保留不切分的方法，例如对特定领域(例如旅游垂直领域)中的专有名词保留不切分。

本发明实施例中，可根据实际分词场景和需求，预设分词方法组合。通常，基础分词方法适合于大多数需要细颗粒分词并切分出所有分词可能的通用场景中。本发明实施例中可选择不同的分词优化方法与基础分词方法进行组合，以适应不同的应用场景和需求。例如，在需要精确分词、分词颗粒较粗、召回较为准确的通用场景中，可预设分词方法组合为基础分词方法和分词消歧优化方法。在需要对文本资源切分准确率需求较高的旅游垂直领域场景中，可预设分词方法组合为基础分词方法和专有名词优化方法。在需要细颗粒度划分待分词文本并需要避免单字误召回场景中，可预设分词方法组合为基础分词方法和单字优化方法。在需要分词准确率非常高的精确分词的旅游垂直领域场景中，可预设分词方法组合为基础分词方法、分词消歧优化方法和专有名词优化方法。

本发明实施例中，在获取到待分词文本后，可根据该待分词文本的应用场景、切分准确度需求，选择适合待分词文本应用场景和切分准确度需求的预设分词方法组合。可能的实施方式中，本发明实施例中可选择一种或多种预设的分词方法组合，以提高分词的准确度。

S103：利用选择的预设分词方法组合，对待分词文本进行分词。

本发明实施例中在对分词文本进行分词时，可根据预设分词方法组合中包括的分词方法，对待分词文本进行分词。

以下，本发明实施例将结合实际应用，对利用分词方法组合中的分词方法对待分词文本进行分词的过程进行说明。

本发明实施例中，首先以预设分词方法组合包括基础分词方法和分词消歧优化方法为例，对利用分词方法组合中的分词方法对待分词文本进行分词的过程进行说明。

图2所示为本发明实施例提供的一种利用基础分词方法和分词消歧优化方法对待分词文本进行分词的方法实施流程图。参阅图2所示，该方法包括：

S201：采用基础分词方法对待分词文本进行分词，得到基础分词结果。

本发明实施例中，采用基础分词方法对待分词文本进行分词时，可以以最细粒度划分出所述待分词文本中所包括的全部词元，将得到的最细粒度词元组作为基础分词结果。例如，本发明实施例中可首先对词典进行加载，生成词典trie树，同时把各个词汇的频率(离线计算对每个词计算好对应的频次值)加载，并算出总词数以及最小词频数。然后采用基于词典机械切词“正向迭代最细粒度切分算法”，与上述加载的词典中的词汇进行匹配，以切分出所有词元，以组成最细粒度词元组，并将该最细粒度词元组作为基础分词结果。例如待分词文本为：“广西阳朔如何去”，采用基础分词方法进行分词后得到的分词结果可以为：[广，广西，西阳，阳朔，溯，如，如何，何去，去]。

S202：获取基础分词结果中包括的相交词元组和非相交词元组。

本发明实施例中，可遍历基础分词结果中的全部词元，根据词元的起始位置和终止位置，确定基础分词结果中包括的相交词元组和非相交词元组。可以理解的是，本发明实施例中涉及的词元是指分词后得到的最小单位。词元组表示多个词元组成的具有完整语义的词。其中，相交词元组可以理解为是词元的起始位置和终止位置之间存在交叉的词元组，例如，[广，广西，西阳，阳朔，朔，如，如何，何去，去]中的[广，广西，西阳，阳朔，朔]和[如，如何，何去，去]为相交词元组，相交词元组是可能存在交叉歧义的词元组。非相交词元组可以理解为是词元的起始位置和终止位置之间不存在交叉的词元组，例如，[广，广西，西阳，阳朔，朔，如，如何，何去，去]中的[如，何去]、[如何]、[如何，去]、[何去]为非相交词元组。

S203：针对每个相交词元组分别确定出该相交词元组中的不交叉词元组合。

本发明实施例中不交叉词元组合可以理解为是非相交词元组，例如[广，广西，西阳，阳朔，朔]中的[广，西阳]、[广，阳朔]、[广，西阳，朔]、[广西，阳朔]、[广西，朔]为该相交词元组中的不交叉词元组合。[如，如何，何去，去]中的[如，何去]、[如何]、[如何，去]、[何去]为该相交词元组中的不交叉词元组合。

S204：在不交叉词元组合中确定不存在歧义的词元。

本发明实施例中可采用诸如比较词元组有效文本长度、比较词元组词元个数、比较词元组路径跨域、比较词元组平均词长、比较词元组成词概率、比较词元组位置权重中的一种或多种在不交叉词元组合中确定不存在歧义的词元。

一种可能的实施方式中，本发明实施例中可根据不交叉词元组合中各词元的成词概率，确定不存在歧义的词元。具体的，例如可采用如下方式：确定各个不交叉词元组合中各词元的成词概率的乘积；将乘积最大的不交叉词元组合中的词元，作为不存在歧义的词元。

可能的示例中，本发明实施例中词元的成词概率可采用如下公式计算：

P(W)＝log(词元出现的频次*100)；公式1

其中，P(W)标识词元的成词概率。

本发明实施例中，可依照以上公式1，分别计算出各个不交叉词元组合中各个词元的成词概率。

进一步的，不交叉词元组合中各词元的成词概率的乘积可表示为：

P(S1|C)≈P(W1)*P(W2)..*P(Wn)；公式2

其中，P(S1|C)可表示不交叉词元组合中各词元的成词概率的乘积，S1表示词串，C表示字符串，P(Wn)表示不交叉词元组合中第n个词元的成词概率，n表示不交叉词元组合中词元的数量。

本发明实施例中，可按照上述公式2分别计算得出各个不交叉词元组合中各词元的成词概率的乘积，并确定出乘积最大的不交叉词元组合，将乘积最大的不交叉词元组合中的词元，作为不存在歧义的词元。例如[如何，去]和[如，何去]两个不交叉词元组合中，P(如何)*P(去)>P(如)*P(何去)，则可确定不交叉词元组合[如何，去]中的词元“如何”、“去”为不存在歧义的词元。[广西，阳朔]和[广，阳朔]两个不交叉词元组合中，P(广西)*P(阳朔)>P(广)*P(阳朔)，则可确定不交叉词元组合[广西，阳朔]中的词元“广西”、“阳朔”为不存在歧义的词元。

另一种可能的实施方式中，本发明实施例中可结合比较词元组有效文本长度、比较词元组词元个数、比较词元组路径跨域和比较词元组成词概率，确定不存在歧义的词元。例如，可能的示例中，本发明实施例可采用如下方式确定不存在歧义的词元：

第一步，确定各个不交叉词元组合的有效文本长度，本发明实施例中有效文本长度是指不交叉词元组合中，最靠后的一个词元距离最靠前的一个词元的长度，此处的靠前和靠后是指该词元在待分词文本中的相对位置。通常，有效文本长度较长的词元组存在歧义的可能性相对有效文本长度较短的词元组存在歧义的可能性会小一些，故本发明实施例中可筛选出有效文本长度较长的词元组，具体筛选出的有效文本长度以及数量可根据实际情况设定。在筛选出的有效文本长度较长的词元组中，若存在有效文本长度相同的词元组，则可进一步通过比较词元组中的词元个数进行不存在歧义词元的确定。例如本发明实施例中以不交叉词元组合[如，何去]、[如何]、[如何，去]、[何去]为例进行说明，分别确定[如，何去]、[如何]、[如何，去]、[何去]的有效文本长度，可得出[如，何去]和[如何，去]的有效文本长度为3[如何]和[何去]的有效文本长度为2，故，可保留有效文本长度为3的不交叉词元组合[如，何去]和[如何，去]，并进一步比较词元组中的词元个数。

第二步，确定各个不交叉词元组合中的词元个数。通常，词元个数较少的词元组存在歧义的可能性相对词元个数较多的词元组存在歧义的可能性会小一些，故，本发明实施例中可筛选出词元个数较少的词元组。其中，具体筛选出词元个数，以及筛选出的词元组数量可根据实际情况设定。若筛选出的词元个数较少的词元组中存在词元个数相同的词元组，本发明实施例中可进一步通过比较词元组路径跨域进行不存在歧义词元的确定。例如，[如，何去]和[如何，去]中词元个数都为2，则可进一步比较词元组路径跨域。

第三步，确定各个不交叉词元组合中的词元组路径跨域。其中，本发明实施例中词元组路径跨域是指词元组内所有词的长度的总和。例如，[如，何去]的词元组路径跨域为3。通常，词元组路径跨域较小的词元组存在歧义的可能性相对词元组路径跨域较长的词元组存在歧义的可能性会大一些，故，本发明实施例中可筛选出词元组路径跨域较长的词元组。其中，具体筛选出的词元组路径跨域长度，以及筛选出的词元组数量可根据实际情况设定。若筛选出的词元组路径跨域较长的词元组中存在词元组路径跨域相同的词元组，本发明实施例中可进一步通过比较词元组成词概率进行不存在歧义词元的确定。例如：[如，何去]和[如何，去]的词元路径跨域都为3，则可进一步比较词元组成词概率。

第四步，确定各个不交叉词元组合中的词元组成词概率。其中，确定不交叉词元组合中词元组成词概率的方法可参考上述实施例涉及的根据不交叉词元组合中各词元的成词概率，确定不存在歧义的词元的方式，本发明实施例在此不再详述。例如：[如何，去]和[如，何去]两个不交叉词元组合中，词元组[如何，去]的成词概率大于词元组[如，何去]的成词概率，故“如何”“去”为不存在歧义的词元。

S205：将非相交词元组中的词元和不存在歧义的词元，作为待分词文本的分词结果。

例如：待分词文本为“广西阳朔如何去”的非相交词元组中的词元为空，不存在歧义的词元为[广西，阳朔，如何，去]，所以[广西，阳朔，如何，去]为分词结果。

本发明实施例以下以预设分词方法组合包括基础分词方法和单字优化方法为例，对利用分词方法组合中的分词方法对待分词文本进行分词的过程进行说明。

图3所示为本发明实施例提供的一种利用基础分词方法和单字优化方法对待分词文本进行分词的方法实施流程图。参阅图3所示，该方法包括：

S301：采用基础分词方法对待分词文本进行分词，得到基础分词结果。

本发明实施例中，采用基础分词方法对待分词文本进行分词时，可以以最细粒度划分出所述待分词文本中所包括的全部词元，将得到的最细粒度词元组作为基础分词结果。例如：待分词文本“成都一日游”、“北京到上海”，通过基础分词方法切分，分为[成都，一日游，一日，一，日，游]和[北京，到，上海]。

S302：遍历基础分词结果中的各个词元，得到非单字词元组合和单字词元组合。

本发明实施例中，可遍历基础分词结果中的全部词元，根据词元是否为单字词元，分成非单字词元组合和单字词元组合。本发明实施例中单字词元组合，可以是词元长度为1的词元组合成的词元组。例如：基础分词结果[成都，一日游，一日，一，日，游]中，[一，日，游]为单字词元组合，[成都，一日游，一日]为非单字词元组合。基础分词结果[北京，到，上海]中，[到]为单字词元组合，[北京，上海]为非单字词元组合。

S303：将非单字词元组合，以及单字词元组合中未被非单字词元组合中的词元语义所覆盖的单字，作为待分词文本的分词结果。

本发明实施例中，可将确定的基础分词结果中单字词元组合中的每个词元，分别与非单字词元组合中的词元进行循环匹配，以确定单字词元组合中的词元是否被非单字词元组合中的词元语义所覆盖。当单字词元组合中的词元被非单字词元组合中的词元语义所覆盖时，则可丢弃该被非单字词元组合中的词元语义所覆盖的单字词元。例如：单字词元组合[一，日，游]中的词元“一”“日”“游”都被[成都，一日游，一日]中的“一日游”所覆盖，则可丢弃“一”“日”“游”三个单字，故待分词文本“成都一日游”的分词结果为[成都，一日游，一日]。当单字词元组合中的词元未被非单字词元组合中的词元语义所覆盖时，则可保留单字词元组合中的词元。例如：单字词元组合[到]中的词元“到”未被非单字词元组合[北京，上海]中的词元所覆盖，故可保留该单字词元组合[到]中的词元“到”。待分词文本“北京到上海”的分词结果为[北京，到，上海]。

本发明实施例以下以预设分词方法组合包括基础分词方法和专有名词优化方法为例，对利用分词方法组合中的分词方法对待分词文本进行分词的过程进行说明。

图4所示为本发明实施例提供的一种利用基础分词方法和专有名词优化方法对待分词文本进行分词的方法实施流程图。参阅图4所示，该方法包括：

S401：采用基础分词方法对待分词文本进行分词，得到基础分词结果。

本发明实施例中，采用基础分词方法对待分词文本进行分词时，可以最细粒度划分出所述待分词文本中所包括的全部词元，将得到的最细粒度词元组作为基础分词结果。例如：待分词文本“去普吉岛”“印度尼西亚如何去”，通过基础分词方法进行分词，得到基础分词结果为[去，普吉岛，普吉]和[印度尼西亚，印度，如，如何，何去，去]。

S402：根据预设专有词库中的专有名词，在基础分词结果中确定非专有词元组合和专有词元组合。

本发明实施例中涉及的专有名词可以理解为是一个固定的词语，该固定的词语通常可以是目的地，景点以及人工干预的特征词等，这类特征词对于地理位置、购物行为、商场、机场名字等可进行合理限制。并且在特定的垂直领域也会有特定的专有名词。例如在旅游垂直领域中“龙门石窟”，“少林寺”等可以理解为是专有名词。

本发明实施例可根据实际应用场景需求，预设专有词库，该专有词库中包括预设的专有名词。例如在旅游垂直领域内，可预设由目的地，景点以及人工干预的特征词等组成的专有词库。

本发明实施例中根据基础分词结果中的词元与预设专有词库中的专有名词进行循环匹配，可确定出与专有名词匹配的词元，以及与专有名词不匹配的词元。

为了描述方便，本发明实施例中，可将确定出的与专有名词匹配的词元组合称为专有词元组合，将确定出的与专有名词不匹配的词元组合称为非专有词元组合。

可能的实施方式中，本发明实施例中可将基础分词结果中的词元与预设专有词库中的专有名词进行循环匹配，得到非专有词元组合和专有词元组合。

例如，本发明实施例中假设预设的专有词库中包括“普吉岛”、“普吉”、“印度尼西亚”以及“印度”等专有名词，则将基础分词结果[去，普吉岛，普吉]，与预设专有词库中的专有名词进行循环匹配后可确定出专有词元组合为[普吉岛，普吉]，非专有词元组合为[去]。将基础分词结果[印度尼西亚，印度，如，如何，何去，去]，与预设专有词库中的专有名词进行循环匹配后可确定出专有词元组合为[印度尼西亚，印度]、非专有词元组合为[如，如何，何去，去]。

本发明实施例中为了提高分词结果准确性，可进一步预设别名型专有词库，该别名型专有词库包括别名型专有词。本发明实施例中别名型专有词可以理解为是专有名词的别名。例如，“普吉”可以理解为是专有名词“普吉岛”的别名型专有词。

为了描述方便，本发明实施例中将包含有别名型专有词的专有名词称为第一专有名词，将词元长度小于所述第一专有名词长度，且包含在所述第一专有名词中的专有名词称为第二专有名词。

进一步的，本发明实施例中得到专有词元组合后，可进一步确定专有词元组合中的第一专有名词和第二专有名词，并确定第二专有名词是否为别名型专有词，以进一步确定是否保留该第二专有名词，进而提高分词结果的准确性。

S403：根据预设别名型专有词库中的别名型专有词，在专有词元组合中确定出非别名词元组合。

本发明实施例中为描述方便，可将与别名型专有词不匹配的专有名词的组合称为非别名词元组合。

根据别名型专有词库中的别名型专有词，在专有词元组合中确定出非别名词元组合，删除该非别名词元组合中的词元，可提高分词结果的准确性。

通常别名型专有词是包含在具有别名的专有名词内并且词元长度小于该具有别名的专有名词。为了描述方便，本发明实施例中本发明实施例中将包含有别名型专有词的专有名词称为第一专有名词，将词元长度小于所述第一专有名词长度，且包含在所述第一专有名词中的专有名词称为第二专有名词。

本发明实施例中得到专有词元组合后，可进一步确定专有词元组合中的第一专有名词和第二专有名词，并确定第二专有名词是否为别名型专有词，以进一步确定是否保留该第二专有名词，进而提高分词结果的准确性。

可能的示例中，本发明实施例可采用如下方式根据预设别名型专有词库中的别名型专有词，在专有词元组合中确定出非别名词元组合：

S4031：将专有词元组合中的各个第二专有名词与预设别名型专有词库中的别名型专有词进行循环匹配，以确定第二专有名词是否为第一专有名词的别名型专有词。

本发明实施例中，预设别名型专有词库中包括第一专有名词的别名型专有词，若第二专有名词与第一专有名词的别名型专有词相匹配，则该第二专有名词为第一专有名词的别名型专有词。若第二专有名词与第一专有名词的别名型专有词不匹配，则该第二专有名词为第一专有名词的非别名型专有词。

例如：专有词元组合[普吉岛，普吉]中的“普吉”与“普吉岛”的别名型专有词“普吉”相匹配，则可确定“普吉”为“普吉岛”的别名型专有词。专有词元组合[印度尼西亚，印度]中“印度”与“印度尼西亚”的别名型专有词“印尼”不匹配，则“印度”为“印度尼西亚”的非别名型专有词。

S4032：将与别名型专有词不匹配的第二专有名词添加进非别名词元组合。

S404：将非专有词元组合中的词元以及专有词元组合中除非别名词元组合中的词元以外的词元，作为待分词文本的分词结果。

例如，待分词文本为印度尼西亚如何去，将待分词文本进行基础分词后的分词结果[印度尼西亚，印度，如，如何，何去，去]与专有词库中的专有名词进行循环匹配后得到非专有词元组合为[如，如何，何去，去]，专有词元组合为[印度尼西亚，印度]。专有词元组合中的“印度尼西亚”为第一专有名词，“印度”为第二专有名词。“印度”为“印度尼西亚”的非别名型专有词，则“印度尼西亚如何去”的分词结果为[印度尼西亚，如，如何，何去，去]。

可选的，本发明实施例中对待分词文本进行分词时，可以根据实际需求选择一种分词方法组合，或者多种(两种或两种以上)的分词方法组合进行分词。例如，本发明实施例中可对利用基础分词方法和专有名词优化方法进行分词后得到的分词结果，再采用单字优化方法和/或分词消歧优化方法进行进一步优化，以得到更为准确的分词结果。例如，上述利用基础分词方法和专有名词优化方法进行分词后得到的分词结果[印度尼西亚，如，如何，何去，去]，在利用分词消歧优化方法进行优化后，可得到分词结果为[印度尼西亚，如何，去]。

本发明实施例中上述提供的分词方法可应用到多种分词场景中，并且可根据具体的分词场景选择适合当前分词场景的分词组合方法，实现方式灵活。

可能的示例中，本发明实施例上述提供的分词方法可应用于搜索场景中。

进一步的，本发明实施例提供的本发明实施例中应用上述涉及的分词方法进行搜索时，可利用一种或多种分词方法组合进行搜索，以优化采用单一分词方法进行搜索时，导致的搜索不够精确，涵盖范围不够广的问题。

具体的，本发明实施例中以下结合实际应用对应用本发明实施例提供的分词方法进行搜索的方法进行说明。

图5所示为本发明实施例提供的一种搜索方法实施流程图。参阅图5所示，该方法包括：

S501：选择至少一种分词方法组合，对搜索时使用的文本内容进行分词。

本发明实施例中，用户在搜索引擎中输入文本内容后，可获取该文本内容，并对该文本内容进行分词。

本发明实施例中可选取一种或多种分词方法组合对文本内容进行分词。假设本发明实施例中选取两种分词方法组合对文本内容进行分词。该选取的分词方法组合例如可以是：第一种分词方法组合为基础分词方法、分词消歧优化方法和专有名词优化方法；第二种分词方法组合是基础分词方法和单字优化方法。

本发明实施例中可利用选择的每一种分词方法组合分别对文本内容进行分词，并得到各自的分词结果。

可以理解的是，本发明实施例中利用分词方法组合对文本内容进行分词的过程，可参考本发明实施例上述涉及的分词方法的描述过程，在此不再赘述。

S502：利用每一种分词方法组合的分词结果，分别进行搜索。

本发明实施例中，在利用选择的每一种分词方法组合分别对文本内容进行分词后，可利用得到的分词结果分别进行搜索，并得到各自的搜索结果。例如，利用上述选择的两种分词方法对文本内容进行分词后可得到两种分词结果，在使用搜索引擎进行搜索时，可分别使用这两种分词结果进行搜索，并得到各自的搜索结果。

S503：根据每一种分词方法组合的预设权重值，对搜索结果进行排序。

由于利用不同的分词方法组合进行分词的分词结果不同，故利用该不同的分词结果进行搜索时得到的搜索结果的准确率和召回率也不同。本发明实施例中可对利用不同分词结果进行搜索得到的搜索结果预设不同的权重值，按照该预设的权重值对搜索结果进行排序，以优化搜索结果的召回率和准确率之间的平衡。

可能的示例中，本发明实施例中可根据不同分词方法组合得到的分词结果的分词准确度，为不同的分词方法组合预设不同的权重值，以使利用不同分词结果进行搜索得到的搜索结果对应不同的权重值。

本发明实施例中仍以上述选择的两种不同分词方法组合为例进行说明。例如，对于分词准确率相对较高的第一种分词方法组合(基础分词方法、分词消歧优化方法和专有名词优化方法)预设权重值为5；对于分词准确率相对较低的第二种分词方法组合(基础分词方法和单字优化方法)预设权重值为3。利用第一种分词方法组合和第二种分词方法分别进行搜索后，可得到第一种分词方法组合对应的搜索结果，以及第二种分词方法组合对应的搜索结果。第一种分词方法组合对应的搜索结果的权重值可为5，第二种分词方法组合对应的搜索结果的权重值为3。对第一种分词方法组合对应的搜索结果和第二种分词方法组合对应的搜索结果按照权重值进行排序时，可根据实际需求进行排序。例如若对准确度要求较高，则可按照权重值由高到低的顺序进行排序；若对召回率要求较高，则也可按照权重值由低到高的顺序进行排序。

本发明实施例提供的分词方法还可应用于搜索场景中数据库文本内容的分词。

可能的示例中，若搜索场景中数据库文本内容的分词方法与搜索时输入的文本内容的分词方法一致，则可保证针对同一内容的分词结果保持一致，提高搜索的召回率。

基于相同的发明构思，本发明实施例还提供了一种分词的装置。

图6所示为本发明实施例提供的一种分词的装置600的结构示意图。参阅图6所示，一种分词的装置600可以包括获取单元601，选择单元602，分词单元603。其中，获取单元601，用于获取待分词文本。选择单元602，用于选择至少一种预设分词方法组合，其中，分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法。分词单元603，用于利用选择的预设分词方法组合，对待分词文本进行分词。

一种可能的实施例中，预设分词方法组合包括基础分词方法和分词消歧优化方法。分词单元603可以采用如下方式，利用选择的预设分词方法组合，对待分词文本进行分词：

采用基础分词方法对待分词文本进行分词，得到基础分词结果。获取基础分词结果中包括的相交词元组和非相交词元组。针对每个相交词元组分别确定出该相交词元组中的不交叉词元组合，根据不交叉词元组合中各词元的成词概率，确定不存在歧义的词元。将非相交词元组中的词元，和不存在歧义的词元，作为待分词文本的分词结果。

其中，根据不交叉词元组合中各词元的成词概率，确定不存在歧义的词元，包括：确定各个不交叉词元组合中各词元的成词概率的乘积，将乘积最大的不交叉词元组合中的词元，作为不存在歧义的词元。

另一种可能的实施例中，预设分词方法组合包括基础分词方法和单字优化方法，分词单元603可以采用如下方式，利用选择的预设分词方法组合，对待分词文本进行分词：

采用基础分词方法对待分词文本进行分词，得到基础分词结果。遍历基础分词结果中的各个词元，得到非单字词元组合和单字词元组合。将非单字词元组合，以及单字词元组合中未被非单字词元组合中的词元语义所覆盖的单字，作为待分词文本的分词结果。

又一种可能的实施例中，预设分词方法组合包括基础分词方法和专有名词优化方法，分词单元603可以采用如下方式，利用选择的预设分词方法组合，对待分词文本进行分词：

采用基础分词方法对待分词文本进行分词，得到基础分词结果。根据预设专有词库中的专有名词，在基础分词结果中确定非专有词元组合和专有词元组合。根据预设别名型专有词库中的别名型专有词，在专有词元组合中确定出非别名词元组合。将非专有词元组合中的词元以及专有词元组合中除非别名词元组合中的词元以外的词元，作为待分词文本的分词结果。

其中，根据预设别名型专有词库中的别名型专有词，在专有词元组合中确定出非别名词元组合，包括：

确定专有词元组合中的第一专有名词和第二专有名词，第二专有名词的词元长度小于第一专有名词长度，且包含在第一专有名词中。将第二专有名词与预设别名型专有词库中的别名型专有词进行循环匹配，得到非别名词元组合，别名型专有词库中包括第一专有名词的别名型专有词，非别名词元组合中包括与第一专有名词的别名型专有词不匹配的第二专有名词。

本发明实施例中，采用基础分词方法对待分词文本进行分词，得到基础分词结果。基础分词方法可能是以最细粒度划分出待分词文本中所包括的全部词元，将得到的最细粒度词元组作为基础分词结果。

再一种可能实施方式中，分词装置600还包括搜索单元604，搜索单元604用于：在利用至少一种分词方法组合，对待分词文本进行分词之后，再利用每一种分词方法组合的分词结果，分别进行搜索，最后根据每一种分词方法组合的预设权重值，对搜索结果进行排序。

本发明实例中，搜索单元604中采用的预设权重值是根据分词结果的分词准确度进行设定。

可以理解的是，本发明实施例中涉及的分词装置600中的各个模块单元所实现的功能与上文描述的分词方法中的步骤相对应，其具体实现和技术效果请参见上文对于方法步骤的描述，在此不再赘述。

进一步可以理解的是，本发明实施例上述涉及的分词装置600的结构(包括的各模块单元的名称、连接关系)仅是进行示意性说明，该基于与本发明实施例涉及的分词方法相同发明构思所提供的调用业务内容的装置的结构并不局限于图6所示的结构，也不局限于包括上述涉及的模块单元，还可能包括其它的模块单元，或者上述涉及的模块单元可进一步进行细分。

在一些实施方式中，本发明实施例还提供了一种服务器，该服务器包括存储器以及处理器。存储器配置用于存储指令。处理器配置用于调用指令执行上文所述的任何方法。

在一些实施方式中，本发明提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令。计算机可执行指令在由处理器执行时，执行上文所述的任何方法。

可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本发明实施例涉及的方法和装置能够利用标准编程技术来完成，利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是，此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中，软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现，其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

可能的实施方式中，本发明实施例还提供了以下实施方式：

一种可能的实施方式中，本发明实施例提供一种分词方法，其中，该方法包括：获取待分词文本；选择至少一种预设分词方法组合，其中，所述分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法；利用选择的所述预设分词方法组合，对所述待分词文本进行分词。

一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和分词消歧优化方法。所述利用选择的所述预设分词方法组合，对所述待分词文本进行分词，包括：

采用基础分词方法对所述待分词文本进行分词，得到基础分词结果；获取所述基础分词结果中包括的相交词元组和非相交词元组；针对每个相交词元组分别确定出该相交词元组中的不交叉词元组合；根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元；将所述非相交词元组中的词元，和所述不存在歧义的词元，作为所述待分词文本的分词结果。

其中，所述根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元，包括：

确定各个不交叉词元组合中各词元的成词概率的乘积；将乘积最大的不交叉词元组合中的词元，作为不存在歧义的词元。

另一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和单字优化方法。所述利用选择的所述预设分词方法组合，对所述待分词文本进行分词，包括：

采用基础分词方法对所述待分词文本进行分词，得到基础分词结果；遍历所述基础分词结果中的各个词元，得到非单字词元组合和单字词元组合；将所述非单字词元组合，以及所述单字词元组合中未被所述非单字词元组合中的词元语义所覆盖的单字，作为所述待分词文本的分词结果。

又一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和专有名词优化方法。所述利用选择的所述预设分词方法组合，对所述待分词文本进行分词，包括：

采用基础分词方法对所述待分词文本进行分词，得到基础分词结果；根据预设专有词库中的专有名词，在所述基础分词结果中确定非专有词元组合和专有词元组合；根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合；将所述非专有词元组合中的词元以及所述专有词元组合中除所述非别名词元组合中的词元以外的词元，作为所述待分词文本的分词结果。

其中，所述根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合，包括：

确定专有词元组合中的第一专有名词和第二专有名词，所述第二专有名词的词元长度小于所述第一专有名词长度，且包含在所述第一专有名词中；将所述第二专有名词与预设别名型专有词库中的别名型专有词进行循环匹配，得到非别名词元组合，所述别名型专有词库中包括所述第一专有名词的别名型专有词，所述非别名词元组合中包括与所述第一专有名词的别名型专有词不匹配的第二专有名词。

可能的实施方式中，所述采用基础分词方法对所述待分词文本进行分词，得到基础分词结果，包括：

以最细粒度划分出所述待分词文本中所包括的全部词元，将得到的最细粒度词元组作为基础分词结果。

又一种可能的实施方式中，利用至少一种分词方法组合，对所述待分词文本进行分词之后，所述方法还包括：

利用每一种分词方法组合的分词结果，分别进行搜索；根据每一种分词方法组合的预设权重值，对搜索结果进行排序。

其中，所述预设权重值根据分词结果的分词准确度进行设定。

可能的实施方式中，本发明实施例还提供一种分词装置，其中，所述装置包括：

获取单元，用于获取待分词文本；选择单元，选择至少一种预设分词方法组合，其中，所述分词方法组合包括分词消歧优化方法、单字优化方法和专有名词优化方法中的至少一种，以及基础分词方法；分词单元，用于利用选择的所述预设分词方法组合，对所述待分词文本进行分词。

一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和分词消歧优化方法。所述分词单元采用如下方式利用选择的所述预设分词方法组合，对所述待分词文本进行分词：

其中，所述根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元，包括：确定各个不交叉词元组合中各词元的成词概率的乘积；

将乘积最大的不交叉词元组合中的词元，作为不存在歧义的词元。

另一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和单字优化方法。所述分词单元采用如下方式利用选择的所述预设分词方法组合，对所述待分词文本进行分词：

又一种可能的实施方式中，所述预设分词方法组合包括基础分词方法和专有名词优化方法。所述分词单元采用如下方式利用选择的所述预设分词方法组合，对所述待分词文本进行分词：

又一种可能的实施方式中，所述装置还包括搜索单元，所述搜索单元用于：

在利用至少一种分词方法组合，对所述待分词文本进行分词之后，利用每一种分词方法组合的分词结果，分别进行搜索；根据每一种分词方法组合的预设权重值，对搜索结果进行排序。

其中，所述预设权重值是根据分词结果的分词准确度进行设定。

可能的实施方式中，本发明实施例还提供一种服务器，其中，所述服务器包括：存储器，配置用于存储指令；以及处理器，配置用于调用所述指令执行上述任一可能实施方式中所述的分词方法。

可能的实施方式中，本发明实施例还一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行上述任一可能实施方式中所述的分词方法。

出于示例和描述的目的，已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式，根据上述教导还可能存在各种变形和修改，或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用，以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims

1.一种分词方法，其中，包括：

获取待分词文本；

选择预设分词方法组合，其中，所述预设分词方法组合包括专有名词优化方法和基础分词方法，所述专有名词包括别名型专有名词；

利用选择的所述预设分词方法组合，对所述待分词文本进行分词，包括：

采用基础分词方法对所述待分词文本进行分词，得到基础分词结果；

根据预设专有词库中的专有名词，在所述基础分词结果中确定非专有词元组合和专有词元组合；

根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合；

将所述非专有词元组合中的词元以及所述专有词元组合中除所述非别名词元组合中的词元以外的词元，作为所述待分词文本的分词结果。

2.根据权利要求1所述的方法，其中，所述根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合，包括：

确定专有词元组合中的第一专有名词和第二专有名词，所述第二专有名词的词元长度小于所述第一专有名词长度，且包含在所述第一专有名词中；

将所述第二专有名词与预设别名型专有词库中的别名型专有词进行循环匹配，得到非别名词元组合，所述别名型专有词库中包括所述第一专有名词的别名型专有词，所述非别名词元组合中包括与所述第一专有名词的别名型专有词不匹配的第二专有名词。

3.根据权利要求1所述的方法，其中，所述预设分词方法组合还包括基础分词方法和分词消歧优化方法，

所述利用选择的所述预设分词方法组合，对所述待分词文本进行分词，还包括：

获取所述基础分词结果中包括的相交词元组和非相交词元组；

针对每个相交词元组分别确定出该相交词元组中的不交叉词元组合；

根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元；

将所述非相交词元组中的词元，和所述不存在歧义的词元，作为所述待分词文本的分词结果。

4.根据权利要求3所述的方法，其中，所述根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元，包括：

确定各个不交叉词元组合中各词元的成词概率的乘积；

5.根据权利要求1所述的方法，其中，所述预设分词方法组合还包括基础分词方法和单字优化方法，

遍历所述基础分词结果中的各个词元，得到非单字词元组合和单字词元组合；

将所述非单字词元组合，以及所述单字词元组合中未被所述非单字词元组合中的词元语义所覆盖的单字，作为所述待分词文本的分词结果。

6.根据权利要求1所述的方法，其中，所述采用基础分词方法对所述待分词文本进行分词，得到基础分词结果，包括：

7.根据权利要求1-5中任一项所述的方法，其中，所述方法还包括：

利用每一种分词方法组合的分词结果，分别进行搜索；

根据每一种分词方法组合的预设权重值，对搜索结果进行排序。

8.根据权利要求7所述的方法，其中，所述预设权重值根据分词结果的分词准确度进行设定。

9.一种分词装置，其中，所述装置包括：

获取单元，用于获取待分词文本；

选择单元，选择预设分词方法组合，其中，所述预设分词方法组合包括专有名词优化方法和基础分词方法，所述专有名词包括别名型专有名词；

分词单元，用于：采用基础分词方法对所述待分词文本进行分词，得到基础分词结果；根据预设专有词库中的专有名词，在所述基础分词结果中确定非专有词元组合和专有词元组合；根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合；将所述非专有词元组合中的词元以及所述专有词元组合中除所述非别名词元组合中的词元以外的词元，作为所述待分词文本的分词结果。

10.根据权利要求9所述的装置，其中，所述分词单元采用如下方式根据预设别名型专有词库中的别名型专有词，在所述专有词元组合中确定出非别名词元组合：

11.根据权利要求9所述的装置，其中，所述预设分词方法组合还包括基础分词方法和分词消歧优化方法，

所述分词单元，还用于：

12.根据权利要求11所述的装置，其中，所述根据所述不交叉词元组合中各词元的成词概率，确定不存在歧义的词元：

确定各个不交叉词元组合中各词元的成词概率的乘积；

13.根据权利要求9所述的装置，其中,所述预设分词方法组合还包括基础分词方法和单字优化方法，

所述分词单元，还用于：

14.根据权利要求9所述的装置，其中，所述采用基础分词方法对所述待分词文本进行分词，得到基础分词结果，包括：

15.根据权利要求9-13中任一项所述的装置，其中,所述装置还包括搜索单元，所述搜索单元用于：

在利用至少一种分词方法组合，对所述待分词文本进行分词之后，利用每一种分词方法组合的分词结果，分别进行搜索；

16.根据权利要求15所述的装置，其中，所述预设权重值是根据分词结果的分词准确度进行设定。

17.一种服务器，其中，所述服务器包括：

存储器，配置用于存储指令；以及处理器，配置用于调用所述指令执行权利要求1-权利要求8中任一项所述的分词的方法。

18.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-权利要求8中任一项所述的分词方法。