CN110019658B

CN110019658B - 检索项的生成方法及相关装置

Info

Publication number: CN110019658B
Application number: CN201710642152.5A
Authority: CN
Inventors: 谢润泉; 连凤宗; 黄泽谦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2023-01-20
Anticipated expiration: 2037-07-31
Also published as: CN110019658A; US11416708B2; US20190370605A1; WO2019024838A1

Abstract

本申请提供了本申请提供了一种检索项的生成方法，该方法使用机器学习模型来确定检索词语中各个词的去留情况，机器学习模型是由具有目标词特征的检索词语样本训练而成的，相比现有的检索项的生成方法而言，目标词特征能反映词对查询结果重要程度，使用该种目标词特征训练而成的机器学习模型，对检索词语中词选择结果更加精确，从而生成更加准确的检索项，进而避免召回不相关的查询结果。另外，本申请还提供了用于生成检索项的相关装置，用以保证上述方法在实际中的实现及应用。

Description

检索项的生成方法及相关装置

技术领域

本申请涉及检索技术领域，更具体地，涉及检索项的生成方法及相关装置。

背景技术

搜索，是指获得检索词语(query)后，按照一定的查询策略从网络中搜集与检索词语相匹配的信息，将信息组织及处理后进行展示等操作。

具体地，在搜索时会对检索词语进行分词操作，得到若干独立的词(term)，并检索与各个词相关的信息列表，再求取每个词所对应的信息列表的交集，从而得到召回文档。通常地，使用所有词的信息列表求交得到的召回文档数量过少且优质文档不能召回，因此需要对检索词语获得的词进行筛选，选择出用于检索的词，这些词的集合可以称为检索项，然后仅使用所选择的词的信息列表获得召回文档即可。

目前在生成检索项时，选择的词准确度不高，容易造成召回文档与检索词语相关性较差的问题。

发明内容

有鉴于此，本申请提供了一种检索项的生成方法，使用该方法生成的检索项得到的查询结果准确度更高。

第一方面，本申请提供了一种检索项的生成方法，包括：

获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；

获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；

将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

第二方面，本申请提供了一种检索项的生成装置，包括：

机器学习模型获得单元，用于获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；

目标词特征值获得单元，用于获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；

检索项生成单元，用于将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

第三方面，本申请提供了一种检索项的生成设备，包括：

输入单元，用于输入检索词语样本；

处理器，用于训练所述检索词语样本训练，以得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；以及将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

由以上技术方案可知，本申请提供了一种检索项的生成方法，该方法使用机器学习模型来确定检索词语中各个词的去留情况，机器学习模型是使用具有目标词特征的检索词语样本训练而成的，相比现有的检索项的生成方法而言，目标词特征能反映词对查询结果重要程度的特征，使用该种目标词特征训练而成的机器学习模型，能够更加准确地确定检索词语中词的去留情况，从而生成更加准确的检索项，进而避免召回不相关的查询结果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1A及1B为使用不同的检索项得到的查询结果示意图；

图2为本申请提供的检索项的生成方法的一种流程图；

图3为本申请提供的检索词语的搜索量曲线的一种示意图；

图4为本申请提供的训练集的生成方式的一种流程图；

图5为本申请提供的检索词语的句法依存树的一种示意图；

图6为本申请提供的词与其他词的紧密度特征的一种示意图；

图7为本申请提供的检索项的生成装置的一种结构示意图；

图8为本申请提供的检索项的生成装置的另一种结构示意图；

图9为本申请提供的检索项的生成装置的又一种结构示意图；

图10为本申请提供的检索项的生成设备的一种硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

搜索，是指获得检索词语(query)后，按照一定的查询策略从网络中搜集与检索词语相匹配的信息，将信息组织及处理后进行展示等操作。其中，检索词语也可以称为搜索语句，搜集与检索词语相匹配的信息这一过程也可以称为召回文档。

在搜索时，会对检索词语进行分词操作。若使用所有词召回文档，则所得到的文档数量过少且优质文档不能召回。例如，检索词语为“儿歌简谱大全100首”，分词结果包括“儿歌”“简谱”“大全”及“100首”。若使用所有的词检索，则召回文档如图1A所示，检索结果与检索词语相关性不高。在用户检索的场景中，用户检索体验较差。

因此，为了保证召回文档的准确性，需要对检索词语获得的词进行筛选，选择出用于检索的词及可以丢弃的词。其中，用于检索的词可以称为必留词，丢弃的词可以称为非必留词；选择的过程可以称为查非必留词或查必留词；选择出的用于检索的词的集合可以称为查询项或检索项。在实际应用中，使用舍弃部分词后的检索项进行检索，会比使用完整的检索词语效果更好。

可以理解的是，确定必留词及非必留词是检索中的一个重要步骤，确定结果准确与否能够决定召回文档是否优质。目前的检索项的生成方法，对哪些词属于必留词哪些词属于非必留词的判断准确度不高，生成的检索项不够准确，从而造成召回的文档也不够准确。

究其原因，目前的检索项的生成方法，是根据词赋权得到每个词的权重，按照权重对词进行排序，然后结合模板及后验规则来判断哪些词可以保留，哪些词可以丢弃。例如，检索词语为“民国时期人物”，将该检索词语进行分词操作后得到的词包括“民国”“时期”及“人物”，其中词赋权方法为词“民国”设置的权重为0.8357，为词“时期”设置的权重为0.8045，为词“人物”设置的权重为0.3494，根据权重大小的排序，将词“民国”及词“时期”确定为必留词，将词“人物”确定为非必留词。

在使用词赋权设置词权重时，该方法仅仅使用词的独立特征如词出现次数等对每个词进行判断，并未考虑词与词之间的联系性特征，因此导致词的去留结果不准确。

在实际应用中，词的去留结果不准确的一种表现是，有意义的片段词语中的一部分被丢弃，这种情况会导致语义漂移，召回不相关文档。例如，检索词语为“怎样查看陌生人的朋友圈”，其分词结果包括“怎样”“查看”“陌生”“人”“的”“朋友”及“圈”。其中“朋友”和“圈”是两个紧密度比较高的词，目前的选择方法可能会出现丢弃“朋友”保留“圈”，或丢弃“圈”保留“朋友”的情况，从而出现语义漂移，检索到不相关文档。

词的去留结果不准确的又一种表现是，一些对检索词语较为关键的词被丢弃，相反一些对检索词语并不关键的词被保留。以上述检索词语“民国时期人物”为例，从权重值上可知词“时期”比词“人物”被保留的可能性更大，但是依据人工经验可知“人物”这个词更应该被保留。

对此，本申请提供了一种检索项的生成方法，该方法根据词对查询结果的重要程度来判断词的去留情况，在较大程度上提高了所生成的检索项的准确度，进而提高了检索结果的准确度。仍以图1A中的检索词语“儿歌简谱大全100首”为例，本申请针对该检索词语生成的检索项包括“儿歌”及“简谱”，使用该检索项检索到的文档如图1B所示，对比图1A及图1B可知，本申请得到的检索项召回的文档明显比图1A中召回的文档更加准确。

如图2所示，本申请提供的检索项的生成方法具体包括以下步骤S201～S203。

S201：获得预先使用检索词语样本训练得到的机器学习模型，其中检索词语样本具有目标词特征，目标词特征用于表示词对查询结果的重要程度；

其中，机器学习是一种人工智能的科学，其使用已有经验数据自动学习出模型，用于对未知数据进行结果预测。在搜索领域中的生成检索项这一具体应用场景下，已有经验数据是检索词语(query)，机器学习模型是使用机器学习算法对包含多条检索词语样本的训练集进行训练得到的，例如机器学习模型的一种训练方式可以为但不局限于GBDT(Gradient Boosting Decision Tree，梯度提升决策树)。

机器学习模型在训练时所使用的检索词语样本具有目标词特征，需要说明的是，目标词特征可以表示出词对于查询结果(即召回文档)的重要程度。目标词特征可以是一项或多项，例如其可以包括以下几项中的任意一项或多项：词性特征、句法依存特征、反文档频率特征、点互信息特征、词向量类特征、重要性(Importance，IMP)特征、紧密度特征、词维度特征。以下将介绍这几项目标词特征的含义及计算方式，此处并不赘述。需要说明的是，在实际应用中目标词特征并不局限于以上几种，还可以是其他。

具体来讲，目标词特征对于查询结果的重要程度可以体现在，目标词特征不仅包含词的独立特征，还包含词与其他词的联系性特征，该联系性特征也可以称为词与词之间的相对特征。以上述几种目标词特征为例，联系性特征可以具体包括句法依存特征、点互信息特征、词向量类特征及紧密度特征等。

词与其他词的联系性特征可以避免有意义的词片段中的一部分丢弃，从而避免语义漂移导致的查询到不相关的结果，例如防止将“朋友圈”中的词“朋友”或词“圈”丢弃，从而避免查询到与“朋友”相关的文档或查询到与“圈”相关的文档。

另外，检索词语样本具有对应的查询结果，目标词特征的值可以是根据查询结果的命中情况计算得到的，因此，词对于查询结果的重要程度还可以体现在，目标词特征可以反映查询结果是否准确。这种能够反映查询结果命中情况的目标词特征，体现了查询结果的准确度，因此在一定程度上可以提高机器学习模型预测结果的准确度。

例如，用户在搜索引擎中输入某条检索词语，搜索引擎向用户展示查询到的相关文档，用户点击某条展示文档则说明该文档命中。因此便可以使用该条检索词语、该条检索词语的召回文档及各个文档的命中与否等情况，来计算该检索词语中各个词的一项目标词特征，该项目标词特征用于训练机器学习模型。以上述几项目标词特征为例，计算的IMP特征便可以达到该效果。

S202：获得目标检索词语，确定目标检索词语中的词在目标词特征上的特征值。

其中，目标检索词语即待生成检索项的检索词语，也就是待确定词去留情况的检索词语。在用户搜索的应用场景中，目标检索词语可以是用户输入的检索词语如“插口灯泡怎么换”。在获得目标检索词语后，可以首先对目标检索词语进行分词操作，如分词结果为“插口”“灯泡”“怎么”“换”，然后计算每个词在目标词特征上的特征值。

需要说明的是，该目标词特征为上述训练机器学习模型所使用的目标词特征。若目标词特征为多项，则确定每个词在每项目标词特征上的特征值，也就是说这种情况下，每个词具有多个目标词特征值。

假设，目标词特征包括紧密度，某目标检索词语为“一代宗师宋慧乔结局”，该目标检索词语分词后的结果为“一代”“宗师”“宋”“慧”“乔”“结局”，计算各个词的紧密度值为：一代0.678宗师0.057宋0.568慧0.670乔0.061结局，因此可知，词“一代”和词“宗师”之间的紧密度为0.678，词“宗师”和词“宋”之间的紧密度为“0.057”，词“宋”和词“慧”之间的紧密度为“0.568”等等。可见，词“一代”和词“宗师”的紧密度0.678远大于词“宗师”和词“宋”的紧密度0.057。

目标词特征可能并非仅仅包括参数，因此目标词特征的特征值也不一定仅仅包括数值。例如目标词特征包括词性特征的情况下，词性特征的特征值就是词性标记。以词集合为“插口”“灯泡”“怎么”“换”为例，各个词的词性特征的特征值分别为名词、名词、代词及动词。

S203：将目标检索词语及目标检索词语中词的目标词特征值输入至机器学习模型中，得到目标检索词语对应的检索项。

其中，词在目标词特征上的特征值可以简称为目标词特征值，在得到目标检索词语中词的目标词特征值后，便可以将目标检索词语及目标词特征值输入至机器学习模型中。

机器学习模型具有自身的计算方式，可以计算得到每个词的保留概率，进而可以根据保留概率确定词的去留情况。例如，目标检索词语为“上班甲醛超标怎么办”的词去留情况为：上班(非必留)甲醛(保留)超标(保留)怎么(非必留)办(非留)。

在一个示例中，可以按照由大到小的保留概率对词进行排序，从中选择保留概率排序在前的预设数量的词作为保留的词，其余词则作为可以舍弃的词。在另一个示例中，可以从中选择保留概率超过预设阈值的词作为保留的词，其余词则作为可以舍弃的词。当然，还可以是其他的去留选择方式，并不局限于以上两种。

确定为保留的词的集合可以称为检索项，使用检索项去进行查询，得到该检索词语对应的查询结果。或者，在使用机器学习模型确定词的去留情况时，机器学习模型可以仅仅输出词的保留概率，然后由其他模块根据保留概率生成检索项。

由以上的技术方案可知，本申请提供了一种检索项的生成方法，该方法使用机器学习模型来确定检索词语中各个词的去留情况，机器学习模型是使用具有目标词特征的检索词语样本训练而成的，相比现有的检索项的生成方法而言，目标词特征能反映词对查询结果重要程度的特征，使用该种目标词特征训练而成的机器学习模型，对检索词语中词选择结果更加精确，避免召回不相关的查询结果。

现有的检索项的生成方法的另一个问题是，需要依据用户的点击行为日志，对检索词语中的词的去留进行判断选择，搜索量不同的检索词语，其在点击行为日志中的数据量也不同，搜索量较少的检索词语中的词的去留判断准确性较低。

具体地，可以根据点击行为日志得到各个检索词语的搜索量曲线，如图3所示，搜索量曲线包括头部及尾部，头部对应的是搜索量较大的检索词语，尾部对应的是搜索量较小的检索词语。例如“微信”是一个处于头部的检索词语，“微信通讯录”是一个处于尾部的检索词语。处于头部的检索词语的搜索量较大，其在点击行为日志中的相关数据也较多，相反，处于尾部的检索词语的搜索量较小，其在点击行为日志中的相关数据也较少。在使用点击行为日志选择处于尾部检索词语的词时，相关数据较少，从而选择准确度不高。

然而，本申请提供的检索项的生成方法，并不依赖于点击行为日志进行判断，对于头部检索词语和尾部检索词语均能有较好的确定结果。

以下具体说明机器学习模型的训练过程。

如图4所示，机器学习模型的训练过程包括如下步骤S401～S404。

S401：获得检索词语样本，并对检索词语样本进行分词操作得到若干词。

在实施前，可以预先收集一些基础数据，如用户的查询日志、查询日志中的检索词语召回的文档。检索词语样本可以从基础数据中的查询日志中得到，例如收集大量用户的查询日志，将这些用户的查询日志中的检索词语作为检索词语样本。对每条检索词语样本进行分词操作，得到每条检索词语样本的词结果。

S402：确定词的去留情况。

其中，针对每条检索词语样本的每个词，需要确定该词的去留情况，去留情况用于表示该词是否用于生成检索项。一种确定方式是由人工进行标注，但该种方式需要耗费人工成本且主观性较强容易出现标准不准确的情况，因此，可以使用如下基于统计的确定的方式。

获得检索词语样本对应的召回文档，例如用户在搜索引擎中输入某条检索词语，搜索引擎会展示一定数量的文档，若该条检索词语作为用于机器学习训练的样本，则将搜索引擎展示的全部文档、或排序在前的部分文档、或用户点击的文档作为召回文档。

得到检索词语样本对应的召回文档后，统计检索词语样本的词在召回文档中的特征如出现次数，根据所述特征，确定所述检索词样本中的词的去留情况。

在一个示例中，根据统计的特征计算词的分数，并根据分数的大小确定词的去留情况。

计算词分数的一种具体方式为，统计词在召回文档的标题、摘要、标红信息、正文等位置出现的次数，根据词出现的位置、该位置对应的权重、及在该位置出现的次数，来计算词的分数。其中，不同的位置具有不同的权重，这样因为词在不同位置出现，其对查询结果的重要程度不同，例如词在某召回文档的标题、摘要及标红信息中出现，更能代表该召回的文档准确，因此，这些位置的权重更高一些。

根据分数的大小确定词去留情况的一种实现方式为，根据分数的大小进行排序，将排序在前的预设数量的词确定为必留，其余词确定为非必留。另一种实现方式是，将分数达到预设分数阈值的词确定为必留，其余词确定为非必留。

如上基于统计方式自动构建的训练集可能含有噪音，因此可以使用人工标注的方式对上述自动标注的结果进行修正，例如将某必留词修正为非必留词，或者将某非必留词修正为必留词。在人工修正时，由于人工主观标准不同，可能存在多种修正结果，其中非必留词较多的修正结果可以称为激进结果，非必留词较少的修正结果可以称为保守结果。

例如，检索词语样本为“上班甲醛超标怎么办”，保守结果和激进结果如下表1所示，其中1表示必留，0表示非必留。

表1

	保守结果	激进结果
			上班	1	0
甲醛	1	1
			超标	1	1
怎么	0	0
			办	0	0

S403：确定词在目标词特征上的特征值。

需要说明的是，目标词特征指的是步骤S201中的目标词特征，这种目标词特征可以表征词对于查询结果的重要程度。需要说明的是，以上步骤S402与步骤S403并无执行顺序上的限定，可以是先执行步骤S402，也可以是先执行步骤S403，也可以是同时执行。

其中词在目标词特征上的特征值可以称为目标词特征值，目标词特征值可以是根据预先生成的目标词特征词典或目标词特征树进行计算。以下介绍几种目标词特征值的具体计算方式。

1、对于词性特征，即确定词的词性。

例如，检索词语“插口灯泡怎么换”的分词结果为“插口”“灯泡”“怎么”“换”，词性分别为名词、名词、代词及动词。

需要说明的是，名词、实体词、人名、地名等词性的重要程度大于形容词及动词等，形容词及动词等词性大于连词、介词、助词及语句词等无意义的词。在训练机器学习模型及使用机器学习模型确定词的去留时，重要性高的词性的权重大于重要性低的词性，从而被保留的概率更大。

2、对于句法依存特征。获得预先依据语料生成的句法依存树，从句法依存树中提取词的句法依存特征。

具体地，可以预先搜集语料如各种新闻、论文等，在这些语料中提取语句的句法依存树。其中语料可以包含检索词语样本召回的文档，也可以包含其他文档，也可以两者都包含。

例如，检索词语“插口灯泡怎么换”的句法依存树如图5所示，其中HED(head)指的是核心关系，ATT(attribute)指的是定中关系，SBV(subject-verb)指的是主谓关系，ADV(adverbial)状中关系。

从句法依存树中可以词的句法依存特征，例如词“灯泡”有两个句法依存特征，分别为外指向的ATT关系及内指向的SBV关系，分别可以记为：灯泡_to_ATT＝1及灯泡_from_SBV＝1。

需要说明的是，某些关系如主谓宾关系、核心关系指向及被指向的词重要性更高一些，因此，在训练机器学习模型及使用机器学习模型确定词的去留时，重要性高的句法依存特征的权重大于重要性低的句法依存特征，从而被保留的概率更大。

3、关于反文档频率(inverse document frequency，IDF)。其是文档频率(DFdocument frequency)的倒数，与文档的召回数量相关，反文档频率越大则召回的文档越少，反文档频率越小则召回的文档越多。

在计算词的反文档频率时，获得预先依据语料生成的反文档频率词典(IDF词典)，反文档频率词典中包含多个词的反文档频率，因此可以从反文档频率词典中查询词的反文档频率。

反文档频率可以包括单词的反文档频率(uni_idf)、两词的反文档频率(bi_idf)及基于两词的反文档频率得到的综合两词反文档频率特征。在生成反文档频率词典时，可以通过以下方式来计算词的各种反文档频率。

其中，uni_idf可以由总文件数目除以包含该词的文件的数目，再将得到的商取对数得到。bi_idf的计算方式与uni_idf的计算方式相同，只不过在计算bi_idf时，只有两个词均出现在文件中且出现的间隔距离小于预设的距离阈值如5才作为两个词出现在某个文件中。

得到词与其他词的bi_idf后，基于bi_idf计算该词的综合两词反文档频率，如最大两词反文档频率(max_bi_idf)、最小两词反文档频率(min_bi_idf)、平均两词反文档频率(avg_bi_idf)、变异两词反文档频率(cov_bi_idf)。其中，变异两词反文档频率的计算方式可以是该词的avg_bi_idf除以该词的各个bi_idf的标准差。

如图6所示，词“小说”分别与词“网游”、词“长枪”、词“主角”、词“的”及词“用”的bi_idf值为3.33003，5.40573，2.4141，1.54426，3.27171，通过计算可知max_bi_idf为5.40573，min_bi_idf为1.54426，avg_bi_idf为3.193166，cov_bi_idf为0.402179。

需要说明的是，两词的反文档频率bi_idf能够反映两个词的联系，这个目标词特征能够提高词去留的判断准确性。

4、对于点互信息(Pointwise Mutual Information，PMI)特征。其统计两个词在文档中同时出现的概率，可以用来衡量两个词的语义相关性。

确定词的点互信息特征时，可以获得预先依据语料生成的点互信息特征词典(PMI词典)，点互信息特征词典中包含多个词的点互信息特征，因此可以从点互信息特征词典中查询词的点互信息特征。

与反文档频率类似，点互信息特征可以包括两词的点互信息特征及基于两词的点互信息特征得到的综合两词点互信息特征。在生成点互信息特征词典时，可以通过以下方式来计算词的各种点互信息特征。

两词点互信息特征PMI(term1，term2)的计算方式为：

PMI(term1,term2)＝p(term1,term2)/p(term1)*p(term2)；其中，p(term1,term2)是词1和词2在文本中同时出现的概率，p(term1)是词1在文本中出现的概率，p(term2)是term2在文本中出现的概率。其中，词在文本中出现的概率的计算方式是，词出现的文本数除以计算总文本数。

得到词与多个其他词的PMI后，基于各个PMI计算该词的综合PMI，如最大PMI、最小PMI、平均PMI、变异PMI。计算方式可以参见上述反文档频率，此处并不赘述。

需要说明的是，两词PMI能够反映两个词的语义相关性，这个目标词特征能够提高词去留的判断准确性。

5、对于词向量类特征。词向量类特征可以反映词在语义上的特征，具体体现为可以反映词与检索词语在语义(如主题意图)是否相似。

在计算词的词向量类特征时，可以获得预先根据语料训练得到的词向量提取工具，使用词向量提取工具训练词的词向量类特征。例如词向量提取工具为word2vec。

词向量提取工具提取词的词向量类特征的具体方式可以有多种，例如一种方式可以是，计算词与检索词语中其他词的向量余弦相似性，然后类似bi_idf可以求出词向量类特征；又如一种方式可以是将检索词语中所有词的平均词向量作为检索词语的词向量，然后计算词的词向量与检索词语的词向量的余弦相似性。

6、对于重要性(Importance，IMP)特征。基于有明确点击意图的检索词语，迭代的计算每个词的IMP值和词在每个检索词语中的重要性占比，多轮迭代后，每个词的IMP值逐渐收敛，直至前后两轮IMP的值变化不大，从而得到IMP词典。其中明确点击意图可以从用户的点击日志中确定出来的。

相比于反向文档频率等目标词特征，这个目标词特征能表示词对于查询结果的重要程度，因此在训练机器学习模型及使用机器学习模型确定词的去留情况时，该目标词特征的权重可能会比反向文档频率的权重更大。

计算词的IMP特征时，可以获得检索词语样本、检索词语样本的召回文档及召回文档的命中情况，通过多轮迭代计算IMP。

7、对于紧密度特征。该目标词特征可以体现词与左右词的紧密程度。例如，检索词语“一代宗师宋慧乔结局”的紧密度结果为：一代0.678宗师0.057宋0.568慧0.670乔0.061结局。其中，词“一代”和词“宗师”的紧密度为0.678，词“宗师”和词“宋”的紧密度为0.057等等。

在计算词的紧密度特征时，一种计算方式是，获得预先依据语料生成的检索词语关系树，使用检索词语关系树计算词的紧密度特征。具体地，根据各个检索词语内的词的包含关系构建检索词语关系树，基于检索词语关系树自下而上逐层计算并多次递归计算相邻词的紧密度。具体地，可以计算词所在节点的权重及连接相邻词的边的权重，使用两个权重计算相邻词的紧密度。

另一种计算方式是，根据词与其他词在同一文档中出现的概率计算。需要说明的是，出现的位置间隔要小于预设间隔阈值。又一种计算方式是，计算词的多种紧密度特征，然后计算多种紧密度特征的综合值。又一种计算方式是，在通过以上任意方式得到词的紧密度特征后，可以使用词间的依存关系对紧密度特征进行修正。

该目标词特征可以体现词与其他词的联系程度，在构建机器学习模型时，使用该目标词特征可以提高机器学习模型的准确度，从而提高机器学习模型对输入的检索词语中词的去留情况的判断准确度。

8、关于词维度特征。该特征针对检索词语，可以具体为检索词语中包含的词个数、检索词语的长度等。

步骤S401得到检索词语样本的词后，可以计算词在以上8种目标词特征上的特征值。当然，在实际应用中，也可以是其他目标词特征值，只要目标词特征值能够表示目标词特征对查询结果的重要程度即可。

需要说明的是，以上各种词典及各种树结构都是由语料生成的，用于确定词在目标词特征值上的特征值，因此其可以被称为目标词特征值确定工具。

S404：将检索词语样本、检索词语样本中词的去留情况及词的目标词特征组成训练集。

其中，步骤S401得到了检索词语样本，步骤S402得到了检索词语样本中词的去留情况，本步骤即步骤S403得到词的目标词特征，此三项便可以组成训练集，训练集进而用于训练机器学习模型。

需要说明的是，在得到机器学习模型后，使用机器训练模型对某条检索词语中词的去留情况进行预测时，需要输入该条检索词语中词的目标词特征值。该条检索词语中词的目标词特征值也可以按照以上方法进行计算。

在实际应用中，还可以将机器学习模型的确定结果与其他方式如词赋权方式确定的结果进行结合，使用其他方式确定的结果对机器学习模型的确定结果进行修正。其中其他方式确定的结果可以称为修正检索项。

具体他，判断机器学习模型对应的确定结果中，被确定为非必留的词是否被其他方式确定为保留概率较大的词，若是，则将该非必留词修改为必留词。其中保留概率较大可以体现为该词被其他方式确定为排序在前预设数量的词。在进行此种修正后，若必留词的个数超过检索词语中词个数对应的阈值，则将所有必留词中保留概率较小的词修改为非必留词。

例如，针对检索词语“Swisse多种维生素哺乳期能吃吗”，使用机器学习模型确定的必留词包括“维生”“素”“哺乳”及“期”，确定的非必留词包括“Swisse”“多种”“能”“吃”及“吗”。但假设使用词赋权方式计算的权重最大词为“Swisse”，权重最小词为“期”，则将词“Swisse”由非必留词修改为必留词。修正后的必留词包括5个，分别为“Swisse”“维生”“素”“哺乳”及“期”。假设预设阈值为4个，此时必留词的个数大于该预设阈值，则需要将所有必留词中权重最小的词“期”修改为非必留词，因此，最终的必留词包括“Swisse”“维生”“素”及“哺乳”。

或者，还可以结合目标词特征如紧密度特征、句法依存特征对机器学习模型得到的确定结果进行修正。例如，机器学习模型将词“一代”和“宗师”中的某个词确定为必留，某个词确定为非必留，而由紧密度特征确定出两个词之间的紧密度较高，因此将其中的非必留词修改为必留词。

可见，结合多种确定方式所得到的词去留情况结果更加准确。

以下通过实验数据说明本申请提供的词确定方法的准确度。

在一个实验中，收集到105829条检索词语，按照8与2的比例划分为训练集及测试集。使用GBDT方法对训练集进行训练后得到机器学习模型，对机器学习模型进行调优后，使用测试集对机器学习模型的确定结果进行测试，得到该机器学习模型确定的词去留情况准确度为0.80702。在另一项实验中，本申请生成的检索项相较于现有技术而言胜出率为67.5％。

见图7，其示出了本申请提供的检索项的生成装置的一种结构，具体包括：机器学习模型获得单元701、目标词特征值获得单元702及检索项生成单元703。

机器学习模型获得单元701，用于获得预先由检索词语样本训练得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；

目标词特征值获得单元702，用于获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；

检索项生成单元703，用于将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

见图8，其示出了本申请提供的检索项的生成装置的另一种结构，具体包括：机器学习模型获得单元701、目标词特征值获得单元702、检索项生成单元703及机器学习模型训练单元704。

机器学习模型训练单元704，用于训练检索词语样本训练，以得到机器学习模型；

其中，所述机器学习模型训练单元704具体包括：词去留情况确定子单元、目标词特征值确定子单元、及机器学习模型训练子单元。

词去留情况确定子单元，用于获得检索词语样本后，确定所述检索词语样本中的词的去留情况，所述去留情况用于表示所述词是否用于生成检索项；

目标词特征值确定子单元，用于确定所述词在所述目标词特征上的特征值；

机器学习模型训练子单元，用于对所述检索词语样本、所述词的去留情况及所述词的特征值进行训练后，得到所述机器学习模型。

在一个示例中，所述目标词特征值确定子单元在执行确定所述词在所述目标词特征上的特征值的步骤时，具体用于：获得依据语料生成的目标词特征值确定工具；以及使用所述目标词特征值确定工具，确定所述词在所述目标词特征上的特征值。

在一个示例中，所述词去留情况确定子单元在执行确定所述检索词语样本中的词的去留情况的步骤时，具体用于：根据所述特征计算所述检索词样本中的词的分数，并根据所述分数确定所述词的去留情况。

在一个示例中，所述检索项生成单元包括：保留概率确定子单元及检索项生成子单元。

保留概率确定子单元，用于将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语中的词的保留概率；

检索项生成子单元，用于根据所述保留概率，确定所述目标检索词语中的词的去留情况，其中必留的词的集合为检索项。

见图9，其示出了本申请提供的检索项的生成装置的又一种结构，具体包括：机器学习模型获得单元701、目标词特征值获得单元702、检索项生成单元703、机器学习模型训练单元704及检索项修正单元705。

检索项修正单元705，用于获得非机器学习模型为所述目标检索词语生成的修正检索项；以及使用所述修正检索项，对所述机器学习模型生成的检索项进行修正。

在一个示例中，所述检索项修正单元包括：检索项修正子单元。

检索项修正子单元，用于判断所述机器学习模型确定为非必留的词是否被所述非机器学习模型确定为符合必留条件的词；若是，则将所述机器学习模型确定为非必留的词修正为必留。

下面对本申请实施例提供的检索项的生成设备的硬件结构进行描述。图10为本申请实施例提供的检索项的生成设备的硬件结构示意图，参照图10，该设备可以包括：输入单元1、处理器2、存储器3及通信总线4。

其中输入单元1、处理器2、存储器3通过通信总线4完成相互间的通信；

可选地，输入单元1用于输入数据；处理器2用于执行程序；存储器3用于存放程序。

程序可以包括程序代码，所述程序代码包括处理器的操作指令。

处理器2可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

输入单元1，用于输入检索词语样本。

处理器2，用于训练所述检索词语样本训练，以得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值；以及将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种检索项的生成方法，其特征在于，包括：

获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值，所述目标检索词语为待生成检索项的检索词语，所述目标词特征包括词性特征、句法依存特征、反文档频率特征、点互信息特征、词向量类特征、重要性特征、紧密度特征以及词维度特征，所述点互信息特征包括两词的点互信息特征及基于两词的点互信息特征得到的综合两词点互信息特征，所述词向量类特征反映词与检索词语在语义是否相似，所述紧密度特征体现词与左右词的紧密程度；

将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项；

其中，所述机器学习模型的训练方法包括：

获得检索词语样本后，获得所述检索词语样本对应的召回文档；

确定所述检索词语样本中的词在所述召回文档中的特征，所述特征为所述检索词语样本的词在所述召回文档中的标题、摘要、标红信息以及正文出现次数；

根据词出现的位置、所述位置对应的权重及在所述位置出现的次数来计算词的分数，并根据所述分数的大小确定词的去留情况，所述去留情况用于表示所述词是否用于生成检索项；

确定所述词在所述目标词特征上的特征值；

对所述检索词语样本、所述词的去留情况及所述词的特征值进行训练后，得到所述机器学习模型。

2.根据权利要求1所述的检索项的生成方法，其特征在于，所述确定所述词在所述目标词特征上的特征值，包括：

获得依据语料生成的目标词特征值确定工具；

使用所述目标词特征值确定工具，确定所述词在所述目标词特征上的特征值。

3.根据权利要求1所述的检索项的生成方法，其特征在于，所述将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项，包括：

将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语中的词的保留概率；

根据所述保留概率，确定所述目标检索词语中的词的去留情况，其中必留的词的集合为检索项。

4.根据权利要求1至3任意一项所述的检索项的生成方法，其特征在于，还包括：

获得非机器学习模型为所述目标检索词语生成的修正检索项；

使用所述修正检索项，对所述机器学习模型生成的检索项进行修正。

5.根据权利要求4所述的检索项的生成方法，其特征在于，所述使用所述修正检索项，对所述机器学习模型生成的检索项进行修正，包括：

判断所述机器学习模型确定为非必留的词是否被所述非机器学习模型确定为符合必留条件的词；

若是，则将所述机器学习模型确定为非必留的词修正为必留。

6.一种检索项的生成装置，其特征在于，包括：

目标词特征值获得单元，用于获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值，所述目标检索词语为待生成检索项的检索词语，所述目标词特征包括词性特征、句法依存特征、反文档频率特征、点互信息特征、词向量类特征、重要性特征、紧密度特征以及词维度特征，所述点互信息特征包括两词的点互信息特征及基于两词的点互信息特征得到的综合两词点互信息特征，所述词向量类特征反映词与检索词语在语义是否相似，所述紧密度特征体现词与左右词的紧密程度；

检索项生成单元，用于将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项；

机器学习模型训练单元，用于训练检索词语样本训练，以得到机器学习模型；

其中，所述机器学习模型训练单元包括：

词去留情况确定子单元，用于获得检索词语样本后，获得所述检索词语样本对应的召回文档；确定所述检索词语样本中的词在所述召回文档中的特征，所述特征为所述检索词语样本的词在所述召回文档中的标题、摘要、标红信息以及正文出现次数；根据词出现的位置、所述位置对应的权重及在所述位置出现的次数来计算词的分数，并根据所述分数的大小确定词的去留情况，所述去留情况用于表示所述词是否用于生成检索项；

7.根据权利要求6所述的检索项的生成装置，其特征在于，所述检索项生成单元包括：

8.根据权利要求6至7任意一项所述的检索项的生成装置，其特征在于，还包括：

检索项修正单元，用于获得非机器学习模型为所述目标检索词语生成的修正检索项；以及使用所述修正检索项，对所述机器学习模型生成的检索项进行修正。

9.根据权利要求8所述的检索项的生成装置，其特征在于，所述检索项修正单元，包括：

10.一种检索项的生成设备，其特征在于，包括：

输入单元，用于输入检索词语样本；

处理器，用于训练所述检索词语样本训练，以得到的机器学习模型，其中所述检索词语样本包含词，所述词具有目标词特征，所述目标词特征用于表示所述词对查询结果的重要程度；获得目标检索词语，并确定所述目标检索词语中的词在所述目标词特征上的特征值，所述目标检索词语为待生成检索项的检索词语，所述目标词特征包括词性特征、句法依存特征、反文档频率特征、点互信息特征、词向量类特征、重要性特征、紧密度特征以及词维度特征，所述点互信息特征包括两词的点互信息特征及基于两词的点互信息特征得到的综合两词点互信息特征，所述词向量类特征反映词与检索词语在语义是否相似，所述紧密度特征体现词与左右词的紧密程度；以及将所述目标检索词语及所述特征值输入至所述机器学习模型中，得到所述目标检索词语对应的检索项；

其中，所述机器学习模型的训练方法包括：

获得检索词语样本后，获得所述检索词语样本对应的召回文档；确定所述检索词语样本中的词在所述召回文档中的特征，所述特征为所述检索词语样本的词在所述召回文档中的标题、摘要、标红信息以及正文出现次数；根据词出现的位置、所述位置对应的权重及在所述位置出现的次数来计算词的分数，并根据所述分数的大小确定词的去留情况，所述去留情况用于表示所述词是否用于生成检索项；

确定所述词在所述目标词特征上的特征值；