CN107239455A

CN107239455A - 核心词识别方法及装置

Info

Publication number: CN107239455A
Application number: CN201610182170.5A
Authority: CN
Inventors: 吴振元; 廖剑
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2017-10-10
Anticipated expiration: 2036-03-28
Also published as: CN107239455B

Abstract

本申请提供一种核心词识别方法及装置。核心词识别方法包括：对待处理文本进行分词处理，以获得所述待处理文本包含的分词片段；查询预先建立的分词修饰词典，以确定所述待处理文本包含的分词片段之间的修饰关系；根据所述待处理文本包含的分词片段之间的修饰关系，确定所述待处理文本中的核心词。本申请可以提高核心词识别的精准度。

Description

核心词识别方法及装置

【技术领域】

本申请涉及互联网技术领域，尤其涉及一种核心词识别方法及装置。

【背景技术】

在互联网搜索领域中，用户输入搜索词(Query)，搜索引擎根据用户输入的搜索词进行搜索并向用户返回搜索结果。在搜索过程中，搜索引擎一般采用核心词匹配原理进行搜索，即识别查询词中的核心词，以及待搜索内容(例如文档或产品标题)中的核心词，然后计算核心词之间的相关性作为查询词与待搜索内容之间的相关性，根据查询词与待搜索内容之间的相关性返回搜索结果。

在现有技术中，最常用的核心词识别方法主要包括以下步骤：以单词(Word)为粒度，对每个单词进行词性标注；利用线下预先生成的核心词词性标注规则来匹配查询词中的核心词；统计核心词的词频等特征，并利用机器学习模型(例如svm模型)对核心词进行优化。

在上述核心词识别方法中，词性标注规则是基于正常语言模型顺序设置的(例如，正常产品的标题都是“形容词1+形容词2+形容词3…+产品名称”)，但是目前好多文档或产品的标题并不是按正常语言模型顺序，例如“LunchBox Plastic”，就是把产品名称(Lunch Box)放在前面，而修饰短语(Plastic)放在后面，按照现有词性标注规则，上述Plastic会被识别为名词，并最终被识别为核心词，实际上这是错误的，导致核心词识别不够精准。

【发明内容】

本申请的多个方面提供一种核心词识别方法及装置，用以提高核心词识别的精准度。

本申请的一方面，提供一种核心词识别方法，包括：

对待处理文本进行分词处理，以获得所述待处理文本包含的分词片段；

查询预先建立的分词修饰词典，以确定所述待处理文本包含的分词片段之间的修饰关系；

根据所述待处理文本包含的分词片段之间的修饰关系，确定所述待处理文本中的核心词。

本申请的另一方面，提供一种核心词识别装置，包括：

分词处理模块，用于对待处理文本进行分词处理，以获得所述待处理文本包含的分词片段；

关系确定模块，用于查询预先建立的分词修饰词典，以确定所述待处理文本包含的分词片段之间的修饰关系；

短语确定模块，用于根据所述待处理文本包含的分词片段之间的修饰关系，确定所述待处理文本中的核心词。

在本申请中，对待处理文本进行分词处理，获得待处理文本包含的分词片段，之后，查询预先建立的分词修饰词典，确定待处理文本包含的分词片段之间的修饰关系，根据待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。本申请基于分词片段之间的修饰关系确定核心词，由于分词片段之间的修饰关系并不受文本中词语之间先后顺序的限定，所以能够解决现有技术方案中词性标注规则对正常语言模型顺序严重依赖的问题，有利于提高核心词识别的精准度。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的核心词识别方法的流程示意图；

图2为本申请另一实施例提供的建立分词词库的方法的流程示意图；

图3为本申请又一实施例提供的建立的分词修饰词典的方法的流程示意图；

图4为本申请又一实施例提供的核心词识别装置的结构示意图；

图5为本申请又一实施例提供的核心词识别装置的结构示意图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有核心词识别方法中，由于词性标注规则是基于正常语言模型顺序设置的，但是目前好多文档或产品的标题并不是按正常语言模型顺序，这导致现有核心词识别方法识别出的核心词有可能是错误的，导致核心词识别不够精准。

针对上述问题，本申请提供一种核心词识别方法，主要原理是：预先建立分词修饰词典，用于存储分词片段之间的修饰关系；在对待处理文本进行核心词识别时，查询分词修饰词典，确定待处理文本包含的分词片段之间的修饰关系，基于待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。由于分词片段之间的修饰关系并不受文本中词语之间先后顺序的限定，所以能够解决现有技术方案中词性标注规则对正常语言模型顺序严重依赖的问题，有利于提高核心词识别的精准度。

下面将通过具体实施方式对本申请技术方案进行详细说明。

图1为本申请一实施例提供的核心词识别方法的流程示意图。如图1所示，该方法包括：

101、对待处理文本进行分词处理，以获得待处理文本包含的分词片段。

102、查询预先建立的分词修饰词典，以确定待处理文本包含的分词片段之间的修饰关系。

103、根据待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。

本实施例提供一种核心词识别方法，可由核心词识别装置来执行，用以更加精准地进行核心词识别。本实施例提供的核心词识别方法可应用于各种需要识别核心词的场景中，例如互联网搜索领域。

以互联网搜索领域为例，核心词识别装置可作为搜索引擎中的一个功能模块实现，或者，也可以独立于搜索引擎但与搜索引擎相互通信，用以对用户输入的搜索词或待搜索网络对象的描述信息进行核心词识别。

具体的，核心词识别装置首先获取需要进行核心词识别的文本，为便于描述，将需要进行核心词识别的文本称为待处理文本。以互联网搜索领域为例，待处理文本可以是用户输入的搜索词，或者是待搜索网络对象的描述信息。以互联网搜索领域中的电子商务场景为例，待搜索网络对象一般为电商平台提供的商品或服务，而待搜索网络对象的描述信息包括但不限于：商品或服务的标题、关键词、用户评论、详情信息等中的至少一个。

可选的，在获得待处理文本之后，可以对待处理文本进行预处理。所述预处理包括以下至少一种操作：大小写统一；去掉乱码；去掉特殊的标点符号；以及英文的去词干等。其中，在对待处理文本进行核心词识别之前，对待处理文本进行预处理，使得待识别文本比较规范，有利于提高后续识别核心词的精准度。

在获得待处理文本后，核心词识别装置对待处理文本进行分词处理，以获得待处理文本包含的分词片段。

在本实施例中，核心词识别装置可以采用任何分词处理方式对待处理文本进行分词处理。在一种较为简单的实施方式中，核心词识别装置可以采用较为常见的以单词(Word)为粒度的分词工具，对待处理文本进行分词处理，从而获得单词粒度的分词片段。

在以单词为粒度对待处理文本进行分词处理的基础上，由于切分粒度较细，核心词识别装置最终识别出的核心词大多也是单词，这有可能导致核心词识别错误，例如对于“Body Kit”识别出的核心词是“Kit”，对于“DinnerSet”识别出的核心词是“Set”，而实际上“Body Kit”和“Dinner Set”的语义表达更加准确，所以作为核心词更为合适。

基于上述考虑，在一优选实施方式中，核心词识别装置以短语(Phrase)为粒度，对待处理文本进行分词处理，以获得待处理文本包含的分词片段。在以短语为例的分词处理中，所述分词处理实际上是指短语切分，所述切分出的分词片段实际上是分词短语。例如，对于“Body Kit”和“Dinner Set”不会被切分为单词，而是视为短语。具体的，核心词识别装置可以采用N-Gram模型对待处理文本进行短语切分，以获得待处理文本包含的分词短语。其中，N-Gram模型中常用的有Uni-Gram，Bi-Gram或Tri-Gram。

另外，从具体处理过程来看，核心词识别装置可以根据预先建立的分词词库，对待处理文本进行分词处理，以获得待处理文本包含的分词片段。具体的，核心词识别装置可以采用正向最大匹配规则或逆向最大匹配规则，查询预先建立的分词词库，以获得待处理文本包含的分词片段。

在继续介绍本实施例提供的核心词识别方法之前，先对预先建立分词词库的过程进行说明。

本实施例的分词词库可以采用现有建立分词词库的方法来建立，关于现有建立分词词库的方法可参见现有技术，本实施例对此不做详述。

除了采用现有方法建立分词词库之外，本实施例还提供一种建立分词词库的方法，如图2所示，该方法包括：

201、对日志语料库中的用户历史点击日志进行分词处理，以获得候选分词片段。

202、计算候选分词片段的语义特征，语义特征用于表达候选分词片段在语法语义上的独立表达能力。

203、根据候选分词片段的语义特征，确定候选分词片段中具有独立语义的分词片段。

204、将具有独立语义的分词片段加入分词词库。

例如，可以获取一段时间范围的用户历史点击日志构成日志语料库。所述一段时间范围可以是最近一个月内、最近半年内、或者指定三个月内等。

在互联网搜索领域中，一般会通过用户点击日志记录用户提交的搜索词以及用户点击该搜索词对应的某个搜索结果而返回的文档信息。其中，用户历史点击日志中记录有某个历史时间段内用户提交的搜索词与用户点击该搜索词对应的某个搜索结果而返回的文档信息。

在建立分词词库的过程中，首先对日志语料库中的用户历史点击日志进行分词处理，以获得候选分词片段。

在本实施例中，可以采用任何分词处理方式对用户历史点击日志进行分词处理。在一种较为简单的实施方式中，可以采用较为常见的以单词(Word)为粒度的分词工具，对用户历史点击日志进行分词处理，从而获得单词粒度的分词片段。

其中，考虑到以单词为粒度的分词处理，其切分粒度较细，分词片段是单词，其语义表达可能不够准确，所以在一优选实施方式中，以短语(Phrase)为粒度，对用户历史点击日志进行分词处理，以获得候选分词片段。在以短语为例的分词处理中，所述分词处理实际上是指短语切分，所述切分出的分词片段实际上是分词短语。具体的，可以采用N-Gram模型对用户历史点击日志进行短语切分，以获得用户历史点击日志包含的分词短语。

在获得候选分词片段之后，计算候选分词片段的语义特征，这里的语义特征主要用于表达候选分词片段在语法语义上的独立表达能力，而不是简单的词频等特征信息。

较为优选的，上述能够表达候选分词片段在语法语义上的独立表达能力的语义特征包括但不限于以下至少一种：点间互信息(Point-wise MutualInformation，PMI)特征、点间相对熵(Point Kullback–Leibler，PKL)特征以及表达质量特征。则计算候选分词片段的语义特征具体为：计算候选分词片段的PMI特征、PKL特征以及表达质量特征中的至少一种语义特征。

PMI特征：可以根据候选分词片段在日志语料库中的出现概率、左邻分词片段在日志语料库中的出现概率以及右邻分词片段在日志语料库中的出现概率，计算候选分词片段的PMI特征。其中，PMI特征可以反映各个相邻分词片段之间的共现程度，即结合度。

具体的，可以根据公式(1)，计算候选分词片段的PMI特征。

在上述公式(1)中，f₁表示候选分词片段的PMI特征；v表示候选分词片段；u_l表示左邻分词片段；u_r表示右邻分词片段；p(v)表示候选分词片段在日志语料库中的出现概率；p(u_l)表示左邻分词片段在日志语料库中的出现概率；p(u_r)表示右邻分词片段在日志语料库中的出现概率。

PKL特征：可以根据候选分词片段在日志语料库中的出现概率、左邻分词片段在日志语料库中的出现概率以及右邻分词片段在日志语料库中的出现概率，计算候选分词片段的PKL特征。其中，PKL特征反映分词片段作为一个具有独立语义的分词片段的完整性，即体现了是否需要结合一个分词片段左右相邻的分词片段才能形成具有独立语义的分词片段。

具体的，可以根据公式(2)，计算候选分词片段的PKL特征。

上述公式(2)中，f₂表示候选分词片段的PKL特征，其它各参数的含义与公式(1)中相应参数的含义相同，在此不再赘述。

上述左邻分词片段是指日志语料库中位于候选分词片段左侧且与所述候选分词片段相邻的分词片段，相应的，右邻分词片段是指日志语料库中位于候选分词片段右侧且与所述候选分词片段相邻的分词片段。

表达质量特征：可以根据预先指定的质量因素与质量得分之间的对应关系，计算候选分词片段的表达质量特征。

例如，这里综合以下几个方面的质量因素：

是否是停用词(stopword)，例如是否是‘Iam’等词，如果候选分词片段不是停用词，对应一质量得分，例如5分，如果候选分词片段是停用词，则对应另一质量得分，例如-1分；

逆向文件频率(Inverse document frequency，IDF)，不同IDF值对应不同的质量得分，一般来说IDF越大，对应的质量得分越小；

是否带有特殊的标点符号，例如双引号，括号等，如果候选分词片段不带有特殊的标点符号，则对应一质量得分，例如3分，如果候选分词片段带有特殊的标点符号，则对应另一质量得分，例如-1分。

上述质量得分的取值仅是一种示例性说明，并不限于上述取值，具体可根据应用场景适应性设置。

基于上述，可以将候选分词片段与上述三个质量因素进行比较，并根据比较结果，将相应质量得分进行相加，获得候选分词片段的最终质量得分，以作为表达质量特征。

基于上述候选分词片段的语义特征，确定候选分词片段中具有独立语义的分词片段。例如，可以利用机器学习模型，综合判断候选分词片段成为一个具有独立语义的分词片段的概率，然后基于该概率最终确定候选分词片段是否为具有独立语义的分词片段。

其中，机器学习模型的算法的原理可以表示为下述公式(3)：

prop(m)＝F(f₁,...,f_n) (3)

在上述公式(3)中，m表示候选分词片段；prop(m)表示候选分词片段m成为一个具有独立语义的分词片段的概率；F()表示机器学习模型使用的算法函数；f_i表示第i个语义特征，1≤i≤n，n为自然数。这里的算法函数F()可以是随机森林(Random Forest，RF)算法或逻辑回归(Logistic Regression，LR)算法。

在确定候选分词片段中具有独立语义的分词片段之后，可以将具有独立语义的分词判断加入分词词库。

在本实施例提供的建立分词词库的方法中，一方面以短语为粒度进行分词处理，将短语作为最小粒度，使得基于分词词库识别出的核心词属于短语级别的，有利于提高识别核心词的精准度，另一方面基于PMI特征、PKL特征以及表达质量特征等挖掘分词词库，有利于提高识别出的具有独立语义的分词片段的精准度。

返回参见图1，在获得待处理文本包含的分词片段之后，核心词识别装置查询预先建立的分词修饰词典，以确定待处理文本包含的分词片段之间的修饰关系。

在介绍详细如何查询预先建立的分词修饰词典，以确定待处理文本包含的分词片段之间的修饰关系之前，首先对预先建立分词修饰词典的过程进行详细说明。

如图3所示，建立分词修饰词典的方法流程包括：

301、对日志语料库中的每条用户历史点击日志，从用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合。

302、对每个分词片段集合，确定该分词片段集合中的核心分词片段和修饰分词片段，将该分词片段集合中的核心分词片段分别与该分词片段集合中的修饰分词片段进行组合，以获得该分词片段集合包含的分词片段对，生成该分词片段集合包含的分词片段对对应的修饰信息，修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个。

303、对所有分词片段集合包含的分词片段对进行合并处理，并将合并后的分词片段对以及合并后的分词片段对对应的修饰信息加入分词修饰词典中。

在互联网搜索领域中，一般会通过用户点击日志记录用户提交的搜索词以及用户点击该搜索词对应的搜索结果而返回的文档信息。其中，用户历史点击日志中是指记录某个历史时间段内用户提交的搜索词与用户点击该搜索词对应的搜索结果而返回的文档信息。

在建立分词修饰词典的过程中，首先对日志语料库中的日志进行整理，按照搜索词与用户点击行为形成一条条的用户历史搜索日志，其中，用户针对历史搜索词对应的搜索结果的一次点击，形成一条用户历史搜索日志。然后，对每条用户历史搜索日志，从该用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合。

其中，上述从用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合的过程类似建立分词词库的过程。例如，对于每条用户历史点击日志，可以对该用户历史点击日志进行分词处理，以获得候选分词片段；计算候选分词片段的语义特征，语义特征用于表达候选分词片段在语法语义上的独立表达能力；根据候选分词片段的语义特征，确定候选分词片段中具有独立语义的分词片段，将具有独立语义的分词片段加入分词片段集合。

值得说明的是，关于上述形成分词片段集合过程中各步骤的详细描述，具体可参见建立分词词库中的相应步骤，在此不再赘述。

基于上述处理，可以获得日志语料库中各用户历史点击日志对应的分词片段集合。对每个分词片段集合，要建立该分词片段集合中各分词片段之间的修饰关系。具体的，对每个分词片段集合，确定该分词片段集合中的核心分词片段和修饰分词片段；然后，将该分词片段集合中的核心分词片段分别与该分词片段集合中的修饰分词片段进行组合，以获得该分词片段集合包含的分词片段对，并生成该分词片段集合包含的分词片段对对应的修饰信息。

可选的，可以采用现有基于词性标注的核心词识别方法，识别出每个分词片段集合中的核心分词片段。值得说明的是，在初始阶段，可以采用现有基于词性标注的核心词识别方法，识别出每个分词片段集合中的核心分词片段，但是随着分词修饰词典的不断丰富，可以采用本实施例提供的核心词识别方法来识别出每个分词片段集合中的核心分词片段，从而形成循环迭代的处理逻辑。对于每个分词片段集合，除了核心分词片段之外的分词片段称为修饰分词片段。例如，假设一分词片段集合包括分词片段A、B和C，若确定B为核心分词片段，则A和C为修饰分词片段。

可选的，对每个分词片段集合中的每个分词片段，判断该分词片段是否在该分词片段集合对应的用户历史点击日志包含的搜索词和用户点击的文档中共现，若该分词片段在用户历史点击日志包含的搜索词和用户点击的文档中共现，则确定该分词片段为核心分词片段，若该分词片段在用户历史点击日志包含的搜索词和用户点击的文档中不共现，则确定该分词片段为修饰分词片段。

对于每个分词片段集合，在确定该分词片段集合中的核心分词片段和修饰分词片段之后，将该分词片段集合中的核心分词片段分别与该分词片段集合中的修饰分词片段进行组合，以获得该分词片段集合包含的分词片段对。例如，假设一分词片段集合包括分词片段A、B和C，确定B为核心分词片段，A和C为修饰分词片段，则可以将A和B形成一个分词片段对，B和C形成一个分词片段对。值得说明的是，这里的分词片段对仅限定包含的分词片段，并不限定分词片段在用户历史点击日志中出现位置的先后顺序，也不限定分词片段在分词片段对中的先后顺序。

在获得分词片段对之后，需要生成分词片段对对应的修饰信息，该修饰信息用于描述分词片段对，主要描述分词片段对之间修饰关系的方向以及修饰程度等。以A和B形成的分词片段对为例，可以表示为：A|B(+/-)修饰程度得分。其中，修饰程度得分用于表示A和B两个分词片段之间的修饰程度，修饰程度得分前面的+或-为修饰关系指向信息，用于指示A和B之间的修饰方向。如果是+，则表示B是核心分词片段，A是修饰分词片段，A修饰B，B被A修饰；如果是-，则表示A是核心分词片段，B是修饰分词片段，B修饰A，A被B修饰。

可选的，修饰程度得分可以用分词片段对中两个分词片段之间的共现度来表示，或者也可以用两个分词片段的行为分数的加权平均值来表示。其中，分词片段的行为分数可以是在用户历史点击日志中针对该分词片段产生的各行为权重与时间衰减函数乘积的累加，用户针对该分词片段产生的行为(简称为用户行为)主要包括点击，收藏或下单等行为，其中不同用户行为可以设置不同的权重。例如，分词片段的行为分数可以表示为下述公式(4)：

在上述公式(4)中，ActionScore表示分词片段的行为分数，表示时间衰减函数，w_i表示第i种用户行为的权重，a_i表示第i种用户行为。

在获得每个分词片段集合包含的分词片段对及分词片段对对应的修饰信息之后，可以对所有分词片段集合包含的分词片段对进行合并处理，然后将合并后的分词片段对以及合并后的分词片段对对应的修饰信息加入分词修饰词典中。

可选的，若上述修饰信息包括修饰程度得分，则对所有分词片段集合包含的分词片段对进行合并处理，具体包括：将所有分词片段集合包含的分词片段对中的相同分词片段对的修饰程度得分进行累加，以作为相同分词片段对的修饰程度得分，并保留相同分词片段对中的一个。

假设，第一分词片段集合包括分词片段对A|B+2，B|C-13.1，第二分词片段集合包括分词片段对A|B+1.5，B|C-10，则合并后的分词片段对为A|B+3.5，B|C-23.1。

可选的，在获得分词修饰词典之后，可以对分词修饰词典中的各分词片段进行预处理，例如大小写统一，去掉乱码，去掉特殊的标点符号以及英文的去词干等，以提高分词修饰词典的质量，为后续查询分词修饰词典打下基础。

可选的，在获得分词修饰词典之后，还可以利用Trie Build将分词修饰词典建成键值对(KV)形式，以便于线上查询使用。其中，键值对中的K是分词片段对，V是分词片段对对应的修饰信息。

在上述分词修饰词典中，包括存在修饰关系的分词片段对以及分词片段对对应的修饰信息，该修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个。

基于上述分词修饰词典，一种查询预先建立的分词修饰词典，以确定待处理文本包含的分词片段之间的修饰关系的实施方式包括：

将待处理文本包含的分词片段进行两两组合，以形成待处理分词片段对；

将待处理分词片段对作为查询条件，在分词修饰词典中进行查询；

若在分词修饰词典中查询到待处理分词片段对，确定待处理分词片段对之间存在修饰关系；

若未在分词修饰词典中查询到所述待处理分词片段对，确定待处理分词片段对之间不存在修饰关系。

经过上述查询判断，即可确定待处理文本包含的分词片段之间的修饰关系。

进一步，除了获得待处理分词片段对之间是否存在修饰关系之外，还可以在待处理分词片段对之间存在修饰关系时，获取待处理分词片段对对应的修饰信息。

返回继续参考图1，在获得待处理文本包含的分词片段之间的修饰关系之后，可以根据待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。

在一可选实施方式中，核心词识别装置可以从分词修饰词典中获取上述存在修饰关系的待处理分词片段对对应的修饰信息，该修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；然后，对待处理文本包含的每个分词片段，根据上述存在修饰关系的待处理分词片段对对应的修饰信息，统计该分词片段被修饰的次数和修饰得分中的至少一个，并根据该分词片段被修饰的次数和修饰得分中的至少一个，确定该分词片段是否为待处理文本中的核心词。

可选的，关于分词片段的修饰得分，可以根据包含该分词片段的待处理分词片段对对应的修饰信息中的修饰程度得分计算获得。例如，可以将包含该分词片段的待处理分词片段对对应的修饰信息中的修饰程度得分直接相加作为该分词片段的修饰得分。又例如，可以对包含该分词片段的待处理分词片段对对应的修饰信息中的修饰程度得分进行加权平均作为该分词片段的修饰得分。

例如，根据分词片段被修饰的次数，判断该分词片段是否是待处理文本包含的分词片段中被修饰次数最多的一个分词片段，若判断结果为是，则确定该分词片段为待处理文本的核心词。

又例如，判断分词片段被修饰的次数是否大于指定次数阈值，若判断结果为是，则确定该分词片段为待处理文本的核心词。

又例如，判断分词片段的修饰得分是否大于指定得分阈值，若判断结果为是，则确定该分词片段为待处理文本的核心词。

又例如，判断分词片段被修饰的次数是否大于指定次数阈值，并判断分词片段的修饰得分是否大于指定得分阈值，若两个判断操作的判断结果均为是，则确定该分词片段为待处理文本的核心词。

由上述分析可知，本申请实施例基于分词片段之间的修饰关系确定核心词，由于分词片段之间的修饰关系并不受文本中词语之间先后顺序的限定，所以能够解决现有技术方案中词性标注规则对正常语言模型顺序严重依赖的问题，有利于提高核心词识别的精准度。

例如，在电商网站搜索召回产品的流程中，需要识别和理解用户输入的搜索词中的核心词，即搜索意图，另外，在搜索召回的产品中，为了精选与用户搜索意图最相关的文档或产品，也需要识别文档或产品标题的核心词。其中，可以采用本申请实施例提供的核心词识别方法来识别搜索词中的核心词以及文档或产品标题中的核心词，之后将搜索词中的核心词与文档或产品标题中的核心词进行匹配，从而快速发现与用户搜索意图最相关的文档或产品。由于本申请实施例提供的核心词识别方法能够更加精准的识别核心词，因此基于识别出的核心词进行文档或产品匹配，有利于提高匹配效率，提高匹配结果的精准度，便于用户快速获取所需文档或产品。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图4为本申请又一实施例提供的核心词识别装置的结构示意图。如图4所示，该装置包括：分词处理模块41、关系确定模块42和短语确定模块43。

分词处理模块41，用于对待处理文本进行分词处理，以获得待处理文本包含的分词片段。

关系确定模块42，用于查询预先建立的分词修饰词典，以确定待处理文本包含的分词片段之间的修饰关系。

短语确定模块43，用于根据待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。

在一可选实施方式中，分词处理模块41具体用于：

以短语为粒度，对待处理文本进行分词处理，以获得待处理文本包含的分词片段。

在一可选实施方式中，分词处理模块41具体用于：

根据预先建立的分词词库，对待处理文本进行分词处理，以获得待处理文本包含的分词片段。

在一可选实施方式中，如图5所示，该装置还包括：用于预先建立分词词库的分词词库建立模块44。

如图5，分词词库建立模块44的一种实现结构包括：分词处理单元441、特征计算单元442、短语确定单元443以及短语添加单元444。

分词处理单元441，用于对日志语料库中的用户历史点击日志进行分词处理，以获得候选分词片段。

特征计算单元442，用于计算候选分词片段的语义特征，语义特征用于表达候选分词片段在语法语义上的独立表达能力。

短语确定单元443，用于根据候选分词片段的语义特征，确定候选分词片段中具有独立语义的分词片段。

短语添加单元444，用于将具有独立语义的分词片段加入分词词库。

在一可选实施方式中，特征计算单元442具体用于执行以下至少一种计算操作：

根据候选分词片段在日志语料库中的出现概率、左邻分词片段在日志语料库中的出现概率以及右邻分词片段在日志语料库中的出现概率，计算候选分词片段的点间互信息特征；

根据候选分词片段在日志语料库中的出现概率、左邻分词片段在日志语料库中的出现概率以及右邻分词片段在日志语料库中的出现概率，计算候选分词片段的点间相对熵特征；

根据预先指定的质量因素与质量得分之间的对应关系，计算候选分词片段的表达质量特征；

其中，左邻分词片段是指日志语料库中位于候选分词片段左侧且与所述候选分词片段相邻的分词片段，右邻分词片段是指日志语料库中位于候选分词片段右侧且与所述候选分词片段相邻的分词片段。

在一可选实施方式中，关系确定模块42具体用于：

若未在分词修饰词典中查询到待处理分词片段对，确定待处理分词片段对之间不存在修饰关系。

在一可选实施方式中，短语确定模块43具体用于：

从分词修饰词典中获取存在修饰关系的待处理分词片段对对应的修饰信息，修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；

对待处理文本包含的每个分词片段，根据存在修饰关系的待处理分词片段对对应的修饰信息，统计分词片段被修饰的次数和修饰得分中的至少一个，并根据分词片段被修饰的次数和修饰得分中的至少一个，确定分词片段是否为待处理文本中的核心词。

在一可选实施方式中，如图5所示，该装置还包括：修饰词典建立模块45。

如图5，修饰词典建立模块45的一种实现结构包括：短语提取单元451、分词片段对处理单元452以及合并处理单元453。

短语提取单元451，用于对日志语料库中的每条用户历史点击日志，从用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合；

分词片段对处理单元452，用于对每个分词片段集合，确定分词片段集合中的核心分词片段和修饰分词片段，将分词片段集合中的核心分词片段分别与分词片段集合中的修饰分词片段进行组合，以获得分词片段集合包含的分词片段对，生成分词片段集合包含的分词片段对对应的修饰信息，修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；

合并处理单元453，用于对所有分词片段集合包含的分词片段对进行合并处理，并将合并后的分词片段对以及合并后的分词片段对对应的修饰信息加入分词修饰词典中。

在一可选实施方式中，合并处理单元453具体用于：

若修饰信息包括修饰程度得分，将所有分词片段集合包含的分词片段对中的相同分词片段对的修饰程度得分进行累加，以作为相同分词片段对的修饰程度得分，并保留相同分词片段对中的一个。

在一可选实施方式中，上述待处理文本为用户输入的搜索词，或待搜索网络对象的描述信息。

本实施例提供的核心词识别装置，对待处理文本进行分词处理，获得待处理文本包含的分词片段，之后，查询预先建立的分词修饰词典，确定待处理文本包含的分词片段之间的修饰关系，根据待处理文本包含的分词片段之间的修饰关系，确定待处理文本中的核心词。本实施例提供的核心词识别装置，基于分词片段之间的修饰关系确定核心词，由于分词片段之间的修饰关系并不受文本中词语之间先后顺序的限定，所以能够解决现有技术方案中词性标注规则对正常语言模型顺序严重依赖的问题，有利于提高核心词识别的精准度。

进一步，本实施例提供的核心词识别装置，以短语为粒度，对待处理文本进行分词处理，切分粒度相对较粗，语义表达更加准确，基于切分出的短语进行核心词识别，所识别出的核心词为短语，有利于提高识别核心词的精准度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种核心词识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行分词处理，以获得所述待处理文本包含的分词片段，包括：

根据预先建立的分词词库，对所述待处理文本进行分词处理，以获得所述待处理文本包含的分词片段；

其中，预先建立分词词库包括：

对日志语料库中的用户历史点击日志进行分词处理，以获得候选分词片段；

计算所述候选分词片段的语义特征，所述语义特征用于表达所述候选分词片段在语法语义上的独立表达能力；

根据所述候选分词片段的语义特征，确定所述候选分词片段中具有独立语义的分词片段；

将所述具有独立语义的分词片段加入所述分词词库。

3.根据权利要求2所述的方法，其特征在于，所述计算所述候选分词片段的语义特征，包括执行以下至少一种计算操作：

根据所述候选分词片段在所述日志语料库中的出现概率、左邻分词片段在所述日志语料库中的出现概率以及右邻分词片段在所述日志语料库中的出现概率，计算所述候选分词片段的点间互信息特征；

根据所述候选分词片段在所述日志语料库中的出现概率、左邻分词片段在所述日志语料库中的出现概率以及右邻分词片段在所述日志语料库中的出现概率，计算所述候选分词片段的点间相对熵特征；

根据预先指定的质量因素与质量得分之间的对应关系，计算所述候选分词片段的表达质量特征；

其中，所述左邻分词片段是指所述日志语料库中位于所述候选分词片段左侧且与所述候选分词片段相邻的分词片段，所述右邻分词片段是指所述日志语料库中位于所述候选分词片段右侧且与所述候选分词片段的分词片段。

4.根据权利要求1所述的方法，其特征在于，所述查询预先建立的分词修饰词典，以确定所述待处理文本包含的分词片段之间的修饰关系，包括：

将所述待处理文本包含的分词片段进行两两组合，以形成待处理分词片段对；

将所述待处理分词片段对作为查询条件，在所述分词修饰词典中进行查询；

若在所述分词修饰词典中查询到所述待处理分词片段对，确定所述待处理分词片段对之间存在修饰关系；

若未在所述分词修饰词典中查询到所述待处理分词片段对，确定所述待处理分词片段对之间不存在修饰关系。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待处理文本包含的分词片段之间的修饰关系，确定所述待处理文本中的核心词，包括：

从所述分词修饰词典中获取所述存在修饰关系的待处理分词片段对对应的修饰信息，所述修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；

对所述待处理文本包含的每个分词片段，根据所述存在修饰关系的待处理分词片段对对应的修饰信息，统计所述分词片段被修饰的次数和修饰得分中的至少一个，并根据所述分词片段被修饰的次数和修饰得分中的至少一个，确定所述分词片段是否为所述待处理文本中的核心词。

6.根据权利要求1所述的方法，其特征在于，所述预先建立分词修饰词典包括：

对日志语料库中的每条用户历史点击日志，从所述用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合；

对每个分词片段集合，确定所述分词片段集合中的核心分词片段和修饰分词片段，将所述分词片段集合中的核心分词片段分别与所述分词片段集合中的修饰分词片段进行组合，以获得所述分词片段集合包含的分词片段对，生成所述分词片段集合包含的分词片段对对应的修饰信息，所述修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；

对所有分词片段集合包含的分词片段对进行合并处理，并将合并后的分词片段对以及所述合并后的分词片段对对应的修饰信息加入所述分词修饰词典中。

7.根据权利要求6所述的方法，其特征在于，所述对所有分词片段集合包含的分词片段对进行合并处理，包括：

若所述修饰信息包括修饰程度得分，将所述所有分词片段集合包含的分词片段对中的相同分词片段对的修饰程度得分进行累加，以作为所述相同分词片段对的修饰程度得分，并保留所述相同分词片段对中的一个。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述待处理文本为用户输入的搜索词，或待搜索网络对象的描述信息。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述对待处理文本进行分词处理，以获得所述待处理文本包含的分词片段，包括：

以短语为粒度，对所述待处理文本进行分词处理，以获得所述待处理文本包含的分词片段。

10.一种核心词识别装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述分词处理模块具体用于：

所述装置还包括：用于预先建立所述分词词库的分词词库建立模块；

所述分词词库建立模块包括：

分词处理单元，用于对日志语料库中的用户历史点击日志进行分词处理，以获得候选分词片段；

特征计算单元，用于计算所述候选分词片段的语义特征，所述语义特征用于表达所述候选分词片段在语法语义上的独立表达能力；

短语确定单元，用于根据所述候选分词片段的语义特征，确定所述候选分词片段中具有独立语义的分词片段；

短语添加单元，用于将所述具有独立语义的分词片段加入所述分词词库。

12.根据权利要求11所述的装置，其特征在于，所述特征计算单元具体用于执行以下至少一种计算操作：

其中，所述左邻分词片段是指所述日志语料库中位于所述候选分词片段左侧且与所述候选分词片段相邻的分词片段，所述右邻分词片段是指所述日志语料库中位于所述候选分词片段右侧且与所述候选分词片段相邻的分词片段。

13.根据权利要求10所述的装置，其特征在于，所述关系确定模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述短语确定模块具体用于：

15.根据权利要求10所述的装置，其特征在于，还包括：

修饰词典建立模块，用于预先建立所述分词修饰词典；

所述修饰词典建立模块包括：

短语提取单元，用于对日志语料库中的每条用户历史点击日志，从所述用户历史点击日志中提取具有独立语义的分词片段形成分词片段集合；

分词片段对处理单元，用于对每个分词片段集合，确定所述分词片段集合中的核心分词片段和修饰分词片段，将所述分词片段集合中的核心分词片段分别与所述分词片段集合中的修饰分词片段进行组合，以获得所述分词片段集合包含的分词片段对，生成所述分词片段集合包含的分词片段对对应的修饰信息，所述修饰信息包括修饰关系指向信息和修饰程度得分中的至少一个；

合并处理单元，用于对所有分词片段集合包含的分词片段对进行合并处理，并将合并后的分词片段对以及所述合并后的分词片段对对应的修饰信息加入所述分词修饰词典中。

16.根据权利要求15所述的装置，其特征在于，所述合并处理单元具体用于：

17.根据权利要求10-16任一项所述的装置，其特征在于，所述待处理文本为用户输入的搜索词，或待搜索网络对象的描述信息。

18.根据权利要求10-16任一项所述的装置，其特征在于，所述分词处理模块具体用于：