CN106372060B

CN106372060B - 搜索文本的标注方法和装置

Info

Publication number: CN106372060B
Application number: CN201610789478.6A
Authority: CN
Inventors: 孙珂; 孙叔琦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2019-05-03
Anticipated expiration: 2036-08-31
Also published as: CN106372060A

Abstract

本发明提出一种搜索文本的标注方法和装置，该搜索文本的标注方法包括获取搜索文本的候选分词集；从语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息；根据预设信息对候选分词集中的候选分词进行标注，得到初始标注结果；获取初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果；根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果；根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息。通过本发明能够有效提高搜索文本标注的精确度。

Description

搜索文本的标注方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种搜索文本的标注方法和装置。

背景技术

在移动搜索时代，随着移动终端操作界面的缩小和用户传统输入的困难增加，依赖键盘输入且一屏返回十条搜索结果的搜索引擎产品模式已不能满足用户的需求。基于语音、图像的输入模式以及更加精确化、聚合化、推荐化的搜索返回结果，将成为新一代移动搜索产品的“标配”。相关技术中，词法分析的流程是按照任务划分的串行模式，即，分阶段处理分词、词性标注、专名识别，粒度问题在分词中解决，词性问题在词性标注中解决，专名问题(包括粒度和专名类别)在专名识别中解决。

这种方式下，由于分词、词性标注、专名识别是分阶段处理的，是松耦合状态，领域适配较为困难，且制约条件缺失，错误易累加，导致标注效果的精确度不高。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种搜索文本的标注方法，能够有效提高搜索文本标注的精确度。

本发明的另一个目的在于提出一种搜索文本的标注装置。

为达到上述目的，本发明第一方面实施例提出的搜索文本的标注方法，包括：获取所述搜索文本的候选分词集，其中，所述候选分词集中包括：至少一个的候选分词；从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息；根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果；获取所述初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果；根据预设规则、每个候选分词的关联信息、所述初始标注结果，以及所述中间标注结果生成目标标注结果；根据所述目标标注结果对所述搜索文本进行标注，其中，所述标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息；其中，所述标注信息为：词性、类别、专名，以及超链接信息中的一种或多种。

本发明第一方面实施例提出的搜索文本的标注方法，通过根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果，根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息，其中，标注信息为：词性、类别、专名，以及超链接信息中的一种或多种，能够有效提高搜索文本标注的精确度。

为达到上述目的，本发明第二方面实施例提出的搜索文本的标注装置，包括：第一获取模块，用于获取所述搜索文本的候选分词集，其中，所述候选分词集中包括：至少一个的候选分词；第一读取模块，用于从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息；第一标注模块，用于根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果；第二获取模块，用于获取所述初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果；生成模块，用于根据预设规则、每个候选分词的关联信息、所述初始标注结果，以及所述中间标注结果生成目标标注结果；第二标注模块，用于根据所述目标标注结果对所述搜索文本进行标注，其中，所述标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息；其中，所述标注信息为：词性、类别、专名，以及超链接信息中的一种或多种。

本发明第二方面实施例提出的搜索文本的标注装置，通过根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果，根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息，其中，标注信息为：词性、类别、专名，以及超链接信息中的一种或多种，能够有效提高搜索文本标注的精确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的搜索文本的标注方法的流程示意图；

图2是本发明实施例中在线动态标注策略框架示意图；

图3是本发明另一实施例提出的搜索文本的标注方法的流程示意图；

图4是本发明另一实施例提出的搜索文本的标注方法的流程示意图；

图5是本发明另一实施例提出的搜索文本的标注方法的流程示意图；

图6是本发明另一实施例提出的搜索文本的标注方法的流程示意图；

图7是本发明一实施例提出的搜索文本的标注装置的结构示意图；

图8是本发明另一实施例提出的搜索文本的标注装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的搜索文本的标注方法的流程示意图。以该搜索文本的标注方法被配置为搜索文本的标注装置中来举例说明。该搜索文本的标注方法可以例如应用在搜索引擎中，对此不作限制。

参见图1，该搜索文本的标注方法包括：

S11：获取搜索文本的候选分词集，其中，候选分词集中包括：至少一个的候选分词。

在本发明的实施例中，候选分词集中包含了对搜索文本进行标注时，一段搜索文本可能的分词结果，可以理解的是，搜索文本的可能的分词结果，不一定是搜索文本的最优的分词结果，因此，在本发明的实施例中，可以结合图2中的在线动态标注策略框架对搜索文本的语义进行识别，对此不作限制。

参见图2，图2中包括字典匹配21、规则匹配22、序列标注23、浅层词法结果打平24，其他垂类标注器25、作品标注器26、通用类别标注器27，以及实体链接器28、篇章级实体打平29，以及词典流更新和管理210，其中，字典匹配21、规则匹配22、序列标注23、浅层词法结果打平24共同构成分词标注器211，分词标注器211用于对搜索文本的分词的粒度进行控制，即对搜索文本的候选分词进行词性和专名进行标注，其他垂类标注器25、作品标注器26、通用类别标注器27，以及实体链接器28用于对搜索文本的候选分词中的实体分词进行概念名称标注，篇章级实体打平29用于消解搜索文本实体分词中的不一致结果和指代型结果，实体链接器28用于标记搜索文本的候选分词的敏感特征，而词典流更新和管理210用于生成在线动态标注词典，以生成动态的标注策略，用于简化领域切换时所消耗的重新开发挖掘策略的人力资源。例如，当搜索文本为：香辣大闸蟹备菜是过水还是过油？,则该搜索文本可能的候选分集词可以例如为：香辣大闸蟹备菜是过水还是过油？，对此不作限制。

S12：从语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息。

在本发明的实施例中，预设信息包括：与匹配的词汇所关联的置信度、匹配的词汇的内部特征和外部特征，其中，内部特征用于表征词汇在构词方式上的共性特征，外部特征用于表征词汇的上下文匹配特征。

在本发明的实施例中，语义资源库可以为预先建立的。

可选地，可以根据参见图2中的在线动态标注策略框架对搜索文本的候选分词集中的候选分词进行标注。

例如，搜索引擎的后台服务器可以基于语义资源库中的词汇集判断候选分词集中每个候选分词是否在语义资源库中存在匹配的词汇，在本发明的实施例中，可以采用相关技术实现匹配的过程，例如，前向最大匹配算法，获取在语义资源库中的词汇集里候选分词的所有匹配的词汇，对此不作限制。

可以理解的是，分词资源的内部特征和外部特征的识别需要使用语料统计分析技术，并结合人工干预的过程。

可选地，内部特征用于表征分词资源在构词方式上的共性特征，例如，公司名称的写法为(xx市yy有限公司)等，地址的写法为(xx市yy区zz街##号』等。而外部特征用于表征分词资源的上下文匹配特性，例如，对于城市类的词汇而言，一个搜索文本较常见的形式为(到xxx市的车票多少钱)、(yyy市天气)等，对于产品类的词汇而言，一个搜索文本较常见的形式为(xxx价格)等。在本发明的实施例中，可以通过分词资源的内部特征和外部特征来标记分词资源的是否为合理词汇，对此不作限制。

可以理解的是，根据搜索文本的候选分词的上下文关联，该至少一个的候选分词不一定全部是合理的，因此，可以基于语义资源库中的与匹配的词汇所关联的置信度判断与其对应的候选分词是否为合理的分词。例如，匹配的词汇所关联的置信度越高，该匹配的词汇所对应的候选分词不是合理词汇的概率越大。

可选地，一些实施例中，参见图3，其中，可以通过以下步骤建立语义资源库：

S31：从网络侧挖掘预设类型的分词资源，并获取至少一个分词资源的信息。

在本发明的实施例中，预设类型可以由后台服务器根据对用户在搜索引擎上输入的搜索文本进行统计，将搜索次数较多的搜索文本中候选分词的类型保存在数据库中。或者，也可以采用机器学习的方式确定预设类型，例如，用网页相关技术如爬虫技术等从网页上得到用户搜索次数较多的候选分词的类型作为预设类型，预设类型可以例如为专名、名词、动词，以及形容词等，对此不作限制。

可选地，从网络资源中自动挖掘预设类型的分词资源，挖掘规则可以例如为，分词无切分歧义，且具有完整、独立的语义标注能力，并获取至少一个分词资源的信息。

S32：根据分词资源和分词资源的信息建立语义资源库。

其中，分词资源的信息包括以下至少之一：分词资源的先验类别分布特征；分词资源的内部特征和外部特征；分词资源所关联的置信度；以及分词资源的超链接信息。

在本发明的实施例中，分词资源的内部特征和外部特征：内部特征用于表征分词资源在构词方式上的共性特征，外部特征用于表征分词资源的上下文匹配特性。

在本发明的实施例中，分词资源的先验类别分布特征例如可以为：分词资源的先验词性分布，即专名、名词、动词以及形容词的分布概率；专名、实体词汇的类别先验分布，类别包括但不限于：人物、地理位置、机构组织、小型物品、产品、作品(例如，影视、书籍、音乐、软件、现场演出等)、动物、植物、交通位置、食品、网站、事件、产品、运动项目、活动(例如，会议、赛事)等，其目标为能够动态识别出候选分词的类别；或者，也可以例如为分词资源使用习惯的先验分布概率，用于标注不同的应用领域，由于分词的应用领域随应用需求而变化，分词资源使用情况的先验分布概率由领域资源自身的分布情况决定，其目标为分析候选分词在当前语境下更倾向于被哪种领域的应用场景所使用，对此不作限制。

可选地，可以通过分词资源的内部特征和外部特征来优化对搜索文本的标注的效果。

可以理解的是，根据搜索文本的候选分词的上下文关联，候选分词不一定全部是合理的，因此，可以基于语义资源库中的与匹配的词汇所关联的置信度判断与其对应的候选分词是否为合理的分词。例如，匹配的词汇所关联的置信度越高，该匹配的词汇所对应的候选分词不是合理词汇的概率越大。

在本发明的实施例中，分词资源的超链接信息是指将实体链指到知识库对应的入口上，通过使用敏感、高准确率的实体表示特征和离线的冷门实体剪枝技术对实体进行标注。

具体地，可以基于实体对应的知识库入口中包含的大量的描述性信息建立实体特征，通过在大规模语料上统计实体与描述性信息中的关键词汇的关联强度，将实体表示成若干个向量和/或标量，即为实体特征，向量型的实体特征可以是具体的词汇向量，也可以是任意的抽象向量。其中权重越高的维度，对实体语义的表达越重要；标量型的实体特征可以是词汇的各种先验统计值，从知识库和大规模预料中得出。对于歧义性非常强的实体，例如人物、作品等，只保留与实体语义最相关、对消解歧义性最敏感的特征，例如人物的职业、作品的作者等；对于极端冷门的实体，可以在实体特征的建立阶段直接跳过，以避免引入因数据稀疏导致的识别错误，对此不作限制。

可选地，根据分词资源和分词资源的信息建立语义资源库，以基于语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息。

本实施例中，通过从网络侧挖掘预设类型的分词资源，并获取至少一个分词资源的信息，其中，分词资源的信息包括以下至少之一：分词资源的先验类别分布特征；分词资源的内部特征和外部特征；分词资源所关联的置信度；以及分词资源的超链接信息，根据分词资源和分词资源的信息建立语义资源库，能够简化领域切换时所消耗的重新开发挖掘策略的人力资源，且基于语义资源库中的词汇集获取与候选分词集中每个候选分词匹配的词汇，有效提高搜索文本标注的精确度。

S13：根据预设信息对候选分词集中的候选分词进行标注，得到初始标注结果。

其中，关联信息包括：每个候选分词的类别、类别优先级，以及置信度。

在本发明的实施例中，在根据预设信息对候选分词集中的候选分词进行标注，得到初始标注结果之前，还包括：从语义资源库中读取候选分词集中每个候选分词的关联信息。

可选地，候选分词集中的每个候选分词的类别包括但不限于：人物、地理位置、机构组织、小型物品、产品、作品(例如，影视、书籍、音乐、软件、现场演出等)、动物、植物、交通位置、食品、网站、事件、产品、运动项目、活动(例如，会议、赛事)等，通过从语义资源库中读取候选分词集的每个候选分词的类别，能够动态标注搜索文本中的每一个候选分词的具体类别。

可选地，可以根据图2在线动态标注策略框架中的字典匹配21实现从语义资源库中读取候选分词集的关联信息。可以理解的是，内部特征用于表征词汇在构词方式上的共性特征，外部特征用于表征词汇的上下文匹配特性，可以通过匹配的词汇的内部特征和外部特征来优化对搜索文本的标注的效果，且进一步可以基于语义资源库中的与匹配的词汇所关联的置信度判断与其对应的候选分词是否为合理的分词，得到初始标注结果。

一些实施例中，参见图4，步骤S13具体包括：

S41：从候选分词集中，选取所关联的置信度大于第一预设阈值的匹配的词汇对应的候选分词,并将所选取的候选分词和对应的标注信息作为第一标注结果。

在本发明的实施例中，所选取的候选分词为根据所关联的置信度从候选分词集中确定的候选分词，所选取的候选分词可以包括至少一个的候选分词，所选取的候选分词中的候选分词可以具体为从候选分词集中选取的部分或者全部候选分词，即，所选取的候选分词可以为候选分词集的子集或者真子集，对此不作限制。

在本发明实施例中，第一预设阈值可由后台服务器的内置程序预先设定，或者，第一预设阈值也可以由用户根据自身需求进行设置，对此不作限制。

可以理解的是，由于匹配的词汇所关联的置信度越高，该匹配的词汇对应的候选分词为合理词汇的概率越高，因此，可以将在匹配的词汇所关联的置信度大于第一预设阈值时，认为匹配的词汇为合理的词汇，则从候选分词集中选取匹配的词汇所关联的置信度大于第一预设阈值的匹配的词汇对应的候选分词，对此不作限制。

在本发明的实施例中，标注信息为：词性、类别、专名，以及超链接信息中的一种或多种。

可选地，所选取的候选分词中的每个候选分词的类别包括但不限于：人物、地理位置、机构组织、小型物品、产品、作品(例如，影视、书籍、音乐、软件、现场演出等)、动物、植物、交通位置、食品、网站、事件、产品、运动项目、活动(例如，会议、赛事)等，通过从语义资源库中读取所选取的候选分词的每个候选分词的类别，能够动态标注搜索文本中的每个候选分词的具体类别。

可选地，可以根据图2在线动态标注策略框架中的字典匹配21实现从语义资源库中读取所选取的候选分词的词性、类别、专名，并将所选取的候选分词和所选取的候选分词的对应的标注信息作为第一标注结果。

S42：从候选分词集中选取与匹配的词汇的内部特征和外部特征相同的候选分词，并将所选取的候选分词和对应的标注信息作为第二标注结果。

在本发明的实施例中，所选取的候选分词为根据与匹配的词汇的内部特征和外部特征从候选分词集中确定的候选分词，所选取的候选分词中可以包括至少一个的候选分词，所选取的候选分词中的候选分词可以具体为从候选分词集中选取的部分或者全部候选分词，即，所选取的候选分词可以为候选分词集的子集或者真子集，可以理解的是，根据不同的读取规则，步骤S41所选取的候选分词和步骤S42所选取的候选分词中的候选分词可以相同或者不同，对此不作限制。

可选地，可以根据图2在线动态标注策略框架中的规则匹配22以及序列标注23实现步骤S42，即自动从搜索文本的候选分词集中选取与匹配的词汇的内部特征和外部特征相同的候选分词。

可选地，所选取的候选分词中的每个候选分词的类别包括但不限于：人物、地理位置、机构组织、小型物品、产品、作品(例如，影视、书籍、音乐、软件、现场演出等)、动物、植物、交通位置、食品、网站、事件、产品、运动项目、活动(例如，会议、赛事)等，通过从语义资源库中读取所选取的候选分词的每个候选分词的类别，能够动态识别出搜索文本中的每个候选分词的具体类别。

可选地，可以根据图2在线动态标注策略框架中的字典匹配21实现从语义资源库中读取所选取的候选分词的词性、类别、专名，从语义资源库中读取所选取的候选分词对应的标注信息，并将所选取的候选分词和对应的标注信息作为第二标注结果。

S43：根据预设规则、关联信息、第一标注结果和第二标注结果对搜索文本进行标注，得到初始标注结果。

在本发明的实施例中，初始标注结果为根据预设规则、关联信息、第一标注结果和第二标注结果对搜索文本进行标注得到的标注结果，可以根据图2在线动态标注策略框架中的浅层词法结果打平24得到初始标注结果。可以理解的是，初始标注结果不是最优的标注结果，可选地，可以进一步获取初始标注结果中的实体分词，并根据实体分词的预设特征对每个实体分词的类别进行标注，得到中间标注结果；聚合初始标注结果和中间标注结果，以对搜索文本进行标注。

在本发明实施例中，预设规则可以预先配置在电子设备的数据库中，也可以配置在服务器侧，对此不作限制。

可选地，根据预设规则、关联信息、第一标注结果和第二标注结果对搜索文本进行标注，得到初始标注结果。

一些实施例中，参见图5，预设规则包括：

S51：若不同的标注结果中的候选分词产生边界冲突，则丢弃产生边界冲突的候选分词，获取至少一个的未丢弃的候选分词。

可以理解的是，根据图2在线动态标注策略框架中的字典匹配21、规则匹配22以及序列标注23三个方面直接选取的候选分词可能存在冲突，可选地，在从候选分词集中选取所关联的置信度大于第一预设阈值的匹配的词汇对应的候选分词和从候选分词集中选取与匹配的词汇的内部特征和外部特征相同的候选分词中的候选分词产生边界冲突时，例如，对于(百度翻译)，在从候选分词集中选取与匹配的词汇的内部特征和外部特征相同的候选分词中被标记为(百度翻译)，在从候选分词集中选取所关联的置信度大于第一预设阈值的匹配的词汇对应的候选分词中可能被标记为(百度翻译)，对于每个边界冲突，丢弃产生边界冲突的候选分词，例如，(33人参与)的标注结果为(33人参与)，虽然(人参)也是词汇，但是需要丢弃。

在本发明的实施例中，根据候选分词的边界冲突，丢弃产生边界冲突的候选分词，获取至少一个的未丢弃的候选分词，可以理解的是，至少一个的未丢弃的候选分词的数量可以为一个或者多个，对此不作限制。

S52：选取未丢弃的候选分词中，置信度大于第二预设阈值的候选分词。

在本发明的实施例中，第二预设阈值可由移动终端的内置程序预先设定，或者，第二预设阈值也可以由用户进行设置，对此不作限制。

可选地，获取未丢弃的候选分词中，候选分词的置信度大于第二预设阈值的候选分词，即获取未丢弃的候选分词中置信度较高的候选分词。

S53：在选取后候选分词中包含置信度相同的候选分词时，筛选出置信度相同的候选分词中最大长度的候选分词。

可选地，在大于第二预设阈值的候选分词中包含置信度相同的候选分词时，选择长度最大的候选分词，筛选出置信度相同的候选分词中最大长度的候选分词。

S54：在筛选后候选分词中包含长度和置信度均相同的候选分词时，根据筛选后候选分词中每个候选分词的类别优先级获取至少一个的目标候选分词。

可选地，在筛选后候选分词中包含长度和置信度均相同的候选分词时，根据候选分词的类别优先级获取至少一个的目标候选分词，例如可以选择类别的优先级最高的候选分词作为至少一个的目标候选分词。

S55：根据至少一个的目标候选分词和每个目标候选分词的标注信息对搜索文本进行标注。

可选地，根据至少一个的目标候选分词生成中间分词集，并根据至少一个的目标候选分词和每个目标候选分词对应的词性、类别、专名，以及超链接信息中的一种或多种对搜索文本进行标注。即，从语义资源库中读取至少一个的目标候选分词对应的标注信息，并根据至少一个的目标候选分词和对应的标注信息对搜索文本进行标注。

本实施例中，通过根据至少一个的目标候选分词和每个目标候选分词的标注信息对搜索文本进行标注，能够有效提高搜索文本标注的精确度。

本实施例中，通过根据预设规则、关联信息、第一标注结果和第二标注结果对搜索文本进行标注别，得到初始标注结果，能够根据初始标注结果对搜索文本进行标注，有效提高搜索文本标注的精确度。

S14：获取初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词的类别进行识别，得到中间标注结果。

在本发明的实施例中，预设特征包括以下至少之一：实体分词和/或专名分词的先验类别分布特征；实体分词和/或专名分词外部特征，与语义资源库中匹配的词汇外部特征的相似程度特征；搜索引擎的搜索日志中实体分词和/或专名分词的类别特征；以及实体分词和/或专名分词的超链接信息。可以理解的是，实体分词和/或专名分词外部特征，即为实体分词和/或专名分词的上下文匹配特性，语义资源库中匹配的词汇外部特征，即为语义资源库中匹配的词汇的上下文匹配特性。

可选地，获取初始标注结果中的实体分词和/或专名分词，通过分析当前实体分词和/或专名分词所处的上下文环境，配合专名的标识信息，对初始标注结果中的实体分词和/或专名分词进行动态标注。

可选地，可以根据图2在线动态标注策略框架中的通用类别标注器27对每个实体分词和/或专名分词的先验类别分布特征；实体分词和/或专名分词外部特征，与语义资源库中匹配的词汇外部特征的相似程度特征；搜索引擎的搜索日志中实体分词和/或专名分词的类别特征进行识别，根据图2在线动态标注策略框架中的实体链接器28对每个实体分词和/或专名分词的超链接信息进行识别。

可选地，可以根据图2在线动态标注策略框架中的作品类标注器26或其他垂类标注器25对作品类或其他垂直类别的实体分词和/或专名分词的先验类别分布特征；实体分词和/或专名分词外部特征，与语义资源库中匹配的词汇外部特征的相似程度特征；搜索引擎的搜索日志中实体分词和/或专名分词的类别特征进行识别，直接对作品类或其他垂直类别的实体分词和/或专名分词的超链接信息进行识别。

例如，对于实体分词和/或专名分词，根据语义资源库，从实体分词和/或专名分词所处的上下文中抽取预设特征，即：实体分词和/或专名分词的先验类别分布特征；实体分词和/或专名分词的上下文特征与语义资源库中匹配的词汇的上下文特征的相似程度特征；搜索引擎的搜索日志中实体分词和/或专名分词的类别特征；以及实体分词和/或专名分词的超链接信息，根据上述预设特征，判定实体分词所属的类别，即，根据实体分词和/或专名分词的预设特征对每个实体分词的类别进行标注，得到中间标注结果。

S15：根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果。

可以理解的是，目标标注结果为根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果对搜索文本进行标注得到的标注结果，得到的标注结果为最优的标注结果。

S16：根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息。

可选地，聚合预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果对搜索文本进行标注，得到的标注结果为最优的标注结果，有效提高搜索文本标注的精确度。

可选地，一些实施例中，参见图6，在步骤S16后还包括：

S61：根据目标标注结果对语义资源库进行更新。

可选地，根据目标标注结果对语义资源库进行更新，能够简化领域切换时所消耗的重新开发挖掘策略的人力资源，释放下游应用技术的人力资源。

本实施例中，通过根据目标标注结果对语义资源库进行更新，能够简化领域切换时所消耗的重新开发挖掘策略的人力资源，释放下游应用技术的人力资源。

本实施例中，通过根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果，根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息，其中，标注信息为：词性、类别、专名，以及超链接信息中的一种或多种，能够有效提高搜索文本标注的精确度。

图7为本发明一实施例提出的搜索文本的标注装置的结构示意图。该搜索文本的标注装置700可以通过软件、硬件或者两者的结合实现，该搜索文本的标注装置700可以包括：第一获取模块701、第一读取模块702、第一标注模块703、第二获取模块704、生成模块705，以及第二标注模块706。其中，

第一获取模块701，用于获取搜索文本的候选分词集，其中，候选分词集中包括：至少一个的候选分词。

第一读取模块702，用于从语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息。

可选地，预设信息包括：与匹配的词汇所关联的置信度、匹配的词汇的内部特征和外部特征，其中，内部特征用于表征词汇在构词方式上的共性特征，外部特征用于表征词汇的上下文匹配特征。

第一标注模块703，用于根据预设信息对候选分词集中的候选分词进行标注，得到初始标注结果。

第二获取模块704，用于获取初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果。

可选地，预设特征包括以下至少之一：实体分词和/或专名分词的先验类别分布特征；实体分词和/或专名分词外部特征，与语义资源库中匹配的词汇外部特征的相似程度特征；搜索引擎的搜索日志中实体分词和/或专名分词的类别特征；以及实体分词和/或专名分词的超链接信息。

生成模块705，用于根据预设规则、每个候选分词的关联信息、初始标注结果，以及中间标注结果生成目标标注结果。

第二标注模块706，用于根据目标标注结果对搜索文本进行标注，其中，标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息。

其中，标注信息为：词性、类别、专名，以及超链接信息中的一种或多种。

一些实施例中，参见图8，该搜索文本的标注装置700还可以包括：

第二读取模块707，用于从语义资源库中读取候选分词集中每个候选分词的关联信息。

可选地，关联信息包括：每个候选分词的类别、类别优先级，以及置信度。

可选地，第一标注模块703包括：

第一选取子模块7031，用于从候选分词集中，选取所关联的置信度大于第一预设阈值的匹配的词汇对应的候选分词，并将所选取的候选分词和对应的标注信息作为第一标注结果。

第二选取子模块7032，从候选分词集中选取与匹配的词汇的内部特征和外部特征相同的候选分词，并将所选取的候选分词和对应的标注信息作为第二标注结果。

标注子模块7033，用于根据预设规则、关联信息、第一标注结果和第二标注结果对搜索文本的进行标注，得到初始标注结果。

可选地，预设规则为：若不同的标注结果中的候选分词产生边界冲突，则丢弃产生边界冲突的候选分词，获取至少一个的未丢弃的候选分词；选取未丢弃的候选分词中，置信度大于第二预设阈值的候选分词；在选取后候选分词中包含置信度相同的候选分词时，筛选出置信度相同的候选分词中最大长度的候选分词；在筛选后候选分词中包含长度和置信度均相同的候选分词时，根据筛选后候选分词中每个候选分词的类别优先级获取至少一个的目标候选分词；根据至少一个的目标候选分词和每个目标候选分词的标注信息对搜索文本进行标注。

挖掘模块708，用于从网络侧挖掘预设类型的分词资源，并获取至少一个分词资源的信息。

建立模块709，用于根据分词资源和分词资源的信息建立语义资源库。

更新模块710，用于根据目标标注结果对语义资源库进行更新。

需要说明的是，前述图1-图6实施例中对搜索文本的标注方法实施例的解释说明也适用于该实施例的搜索文本的标注装置700，其实现原理类似，此处不再赘述。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种搜索文本的标注方法，其特征在于，包括以下步骤：

获取所述搜索文本的候选分词集，其中，所述候选分词集中包括：至少一个的候选分词；

从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息；

根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果；

获取所述初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果；

根据预设规则、每个候选分词的关联信息、所述初始标注结果，以及所述中间标注结果生成目标标注结果；

根据所述目标标注结果对所述搜索文本进行标注，其中，所述目标标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息；

其中，所述标注信息为：词性、类别、专名，以及超链接信息中的一种或多种。

2.如权利要求1所述的搜索文本的标注方法，其特征在于，所述预设信息包括：与所述匹配的词汇所关联的置信度、所述匹配的词汇的内部特征和外部特征，其中，所述内部特征用于表征所述词汇在构词方式上的共性特征，所述外部特征用于表征所述词汇的上下文匹配特征。

3.如权利要求2所述的搜索文本的标注方法，其特征在于，所述预设特征包括以下至少之一：

所述实体分词和/或专名分词的先验类别分布特征；

所述实体分词和/或专名分词外部特征，与所述语义资源库中所述匹配的词汇外部特征的相似程度特征；

搜索引擎的搜索日志中所述实体分词和/或专名分词的类别特征；以及

所述实体分词和/或专名分词的超链接信息。

4.如权利要求2所述的搜索文本的标注方法，其特征在于，在所述根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果之前，还包括：

从所述语义资源库中读取所述候选分词集中每个候选分词的关联信息。

5.如权利要求4所述的搜索文本的标注方法，其特征在于，所述关联信息包括：每个候选分词的类别、类别优先级，以及置信度。

6.如权利要求4所述的搜索文本的标注方法，其特征在于，所述根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果，包括：

从所述候选分词集中，选取所述所关联的置信度大于第一预设阈值的所述匹配的词汇对应的候选分词，并将所选取的候选分词和对应的标注信息作为第一标注结果；

从所述候选分词集中选取与所述匹配的词汇的内部特征和外部特征相同的候选分词，并将所选取的候选分词和对应的标注信息作为第二标注结果；

根据所述预设规则、所述关联信息、所述第一标注结果和所述第二标注结果对所述搜索文本的进行标注，得到初始标注结果。

7.如权利要求6所述的搜索文本的标注方法，其特征在于，所述预设规则为：

若不同的标注结果中的候选分词产生边界冲突，则丢弃产生所述边界冲突的候选分词，获取至少一个的未丢弃的候选分词；

选取所述未丢弃的候选分词中，置信度大于第二预设阈值的候选分词；

在选取后候选分词中包含所述置信度相同的候选分词时，筛选出所述置信度相同的候选分词中最大长度的候选分词；

在筛选后候选分词中包含所述长度和所述置信度均相同的候选分词时，根据所述筛选后候选分词中每个候选分词的类别优先级获取至少一个的目标候选分词；

根据所述至少一个的目标候选分词和每个目标候选分词的标注信息对所述搜索文本进行标注。

8.如权利要求1或3或4所述的搜索文本的标注方法，其特征在于，通过以下步骤建立所述语义资源库：

从网络侧挖掘预设类型的分词资源，并获取至少一个所述分词资源的信息；

根据所述分词资源和所述分词资源的信息建立所述语义资源库；

其中，所述分词资源的信息包括以下至少之一：

所述分词资源的先验类别分布特征；

所述分词资源的内部特征和外部特征；

所述分词资源所关联的置信度；以及

所述分词资源的超链接信息。

9.如权利要求1所述的搜索文本的标注方法，其特征在于，还包括：

根据所述目标标注结果对所述语义资源库进行更新。

10.一种搜索文本的标注装置，其特征在于，包括：

第一获取模块，用于获取所述搜索文本的候选分词集，其中，所述候选分词集中包括：至少一个的候选分词；

第一读取模块，用于从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息；

第一标注模块，用于根据所述预设信息对所述候选分词集中的候选分词进行标注，得到初始标注结果；

第二获取模块，用于获取所述初始标注结果中的实体分词和/或专名分词，并根据预设特征对每个实体分词和/或专名分词进行标注，得到中间标注结果；

生成模块，用于根据预设规则、每个候选分词的关联信息、所述初始标注结果，以及所述中间标注结果生成目标标注结果；

第二标注模块，用于根据所述目标标注结果对所述搜索文本进行标注，其中，所述目标标注结果中包括：至少一个的目标候选分词和每个目标候选分词的标注信息；

11.如权利要求10所述的搜索文本的标注装置，其特征在于，所述预设信息包括：与所述匹配的词汇所关联的置信度、所述匹配的词汇的内部特征和外部特征，其中，所述内部特征用于表征所述词汇在构词方式上的共性特征，所述外部特征用于表征所述词汇的上下文匹配特征。

12.如权利要求11所述的搜索文本的标注装置，其特征在于，所述预设特征包括以下至少之一：

所述实体分词和/或专名分词的先验类别分布特征；

所述实体分词和/或专名分词的超链接信息。

13.如权利要求11所述的搜索文本的标注装置，其特征在于，还包括：

第二读取模块，用于从所述语义资源库中读取所述候选分词集中每个候选分词的关联信息。

14.如权利要求13所述的搜索文本的标注装置，其特征在于，所述关联信息包括：每个候选分词的类别、类别优先级，以及置信度。

15.如权利要求13所述的搜索文本的标注装置，其特征在于，所述第一标注模块包括：

第一选取子模块，用于从所述候选分词集中，选取所述所关联的置信度大于第一预设阈值的所述匹配的词汇对应的候选分词，并将所选取的候选分词和对应的标注信息作为第一标注结果；

第二选取子模块，从所述候选分词集中选取与所述匹配的词汇的内部特征和外部特征相同的候选分词，并将所选取的候选分词和对应的标注信息作为第二标注结果；

标注子模块，用于根据所述预设规则、所述关联信息、所述第一标注结果和所述第二标注结果对所述搜索文本的进行标注，得到初始标注结果。

16.如权利要求15所述的搜索文本的标注装置，其特征在于，所述预设规则为：

根据至少一个的目标候选分词和每个目标候选分词的标注信息对所述搜索文本进行标注。

17.如权利要求10或12或13所述的搜索文本的标注装置，其特征在于，还包括：

挖掘模块，用于从网络侧挖掘预设类型的分词资源，并获取至少一个所述分词资源的信息；

建立模块，用于根据所述分词资源和所述分词资源的信息建立所述语义资源库；

其中，所述分词资源的信息包括以下至少之一：

所述分词资源的先验类别分布特征；

所述分词资源的内部特征和外部特征；

所述分词资源所关联的置信度；以及

所述分词资源的超链接信息。

18.如权利要求10所述的搜索文本的标注装置，其特征在于，还包括：

更新模块，用于根据所述目标标注结果对所述语义资源库进行更新。