CN109948036A - 一种分词词项权重的计算方法和装置 - Google Patents
一种分词词项权重的计算方法和装置 Download PDFInfo
- Publication number
- CN109948036A CN109948036A CN201711132707.8A CN201711132707A CN109948036A CN 109948036 A CN109948036 A CN 109948036A CN 201711132707 A CN201711132707 A CN 201711132707A CN 109948036 A CN109948036 A CN 109948036A
- Authority
- CN
- China
- Prior art keywords
- query word
- lexical item
- historical
- term vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。本发明实施例提供一种分词词项权重的计算方法,所述方法包括:使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种分词词项权重的计算方法和装置。
背景技术
在搜索引擎中用户可以输入查询词(query),对查询词做分词后可以得到多个分词词项(term)。当用户输入一个查询词时,目标是获取到与该查询词相关的有用信息,一个好的搜索引擎在于能准确返回用户想找的信息并将它们排前。文档的召回正是根据query中各个term在文档中求交所得,若query过长,很可能导致某些文档不能正确召回展现给用户,因此有必要对query中的各个term计算其权重,根据权重等进行处理对文档召回并排序。term权重作为其中的有效模块,对文档的召回及排序至关重要。
现有技术中,在计算查询词中每个term权重时,主要采用的计算方法是从多文本数据集中获取词的相关共现统计特征,例如常见的词频-逆向文件频率(Term Frequency–Inverse Document frequency,TF-IDF)、互信息等特征,现有技术提供的相关共现统计特征仅仅考虑了文本中的词的共现等信息,而这些信息都是与查询词本身是独立的,使得对term权重的计算结果并不能反映不同查询词中相同term的重要程度。
发明内容
本发明实施例提供了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种分词词项权重的计算方法,所述方法包括:
使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;
以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;
使用所述回归算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
第二方面,本发明实施例还提供一种分词词项权重的计算装置,所述装置包括:
词向量训练模块,用于使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;
机器学习算法训练模块,用于以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;
权重计算模块,用于使用所述回归算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到,然后以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,最后使用机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于目标查询词的多个分词词项的权重值。本发明实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息,并通过历史搜索数据可以得到历史查询词的统计特征,因此本发明实施例有效地结合了统计特征、语义和用户点击行为特征,从而预测分词词项权重时,可以取得很好的计算效果,实现对各个分词词项权重的准确预测。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分词词项权重的计算方法的流程方框示意图;
图2为本发明实施例提供的分词词项权重的计算流程示意图;
图3为本发明实施例提供的分词词项的词向量特征的计算方式示意图;
图4-a为本发明实施例提供的一种分词词项权重的计算装置的组成结构示意图;
图4-b为本发明实施例提供的一种词向量训练模块的组成结构示意图;
图4-c为本发明实施例提供的一种机器学习算法训练模块的组成结构示意图;
图4-d为本发明实施例提供的一种目标值获取模块的组成结构示意图;
图4-e为本发明实施例提供的一种分词词项权重的计算装置的组成结构示意图;
图5为本发明实施例提供的分词词项权重的计算方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种分词词项权重的计算方法和装置,用于实现对查询词中的各个分词词项权重的准确预测。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明分词词项权重的计算方法的一个实施例,具体可以应用于对查询词(query)中各个分词词项(term)的权重预测场景中。请参阅图1所示,本发明一个实施例提供的分词词项权重的计算方法,可以包括如下步骤:
101、使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到。
在本发明实施例中,历史搜索数据是用户进行搜索产生的历史数据,该历史搜索数据主要包括浏览器日志及各垂直领域用户搜索数据,特别是需要运用到词权重结果的相关领域,通过该历史搜索数据可以获取到用户之前使用过的查询词,定义为“历史查询词”。本发明实施例中还可以获取到文本语料,该文本语料也可以称为语料文档信息,具体可以包括新闻页面中的摘要及正文,或者权威性较高的相关文档,这些文本语料可用于对历史查询词的词向量训练,得到历史查询词的词向量。其中,本发明实施例中采用的词向量训练方法可以包括:word2vector,word2vector是一个将单词转换成向量形式的工具,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。本发明实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息。
在本发明的一些实施例中,步骤101使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,具体可以包括如下步骤:
A1、根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到历史查询词;
A2、对文本语料进行分词处理,得到查询词处理结果;
A3、使用查询词处理结果对历史查询词进行词向量计算,得到历史查询词的词向量。
其中,历史搜索次数是指用户搜索查询词的次数,对历史搜索数据进行排重、过滤,主要参考历史搜索次数,查询词长度等特征,从历史搜索数据中获取到历史查询词。在获取到文本语料之后,可以对获取到的所有语料进行分词。在所有语料进行分词处理之后,采用word2vector调整最佳参数进行词向量的计算,得到词向量特征。
102、以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练。
在本发明实施例中,历史行为数据可以包括用户通过点击行为产生的历史数据,或者用户通过控制操作产生的历史数据,该历史行为数据也可以称为“用户历史行为数据”。使用该历史行为数据和通过对历史查询词搜索后得到的召回结果可以计算出回归算法的目标值。通过对历史查询词进行分词处理后可以得到多个分词词项,每个分词词项都对应有一个词向量,基于前述的目标值可以使用机器学习算法对多个分词词项权重进行训练,得到每个词向量后,最后每个词的用于去训练的向量是每个词向量减去一个句子的所有词与该词向量两个的平均。以最小平均误差为准则进行训练,当误差达到最小值时结束训练,或者,模型的代次数达到次数阈值时结束训练。例如,基于词向量为特征以及目标值进行训练,训练特征权值,取最小平均误差为损失函数(loss function)进行特征值权重训练。在本发明实施例可以使用的机器学习算可以有多种,例如回归算法、循环神经网络(Recurrent Neural Networks,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)。举例说明,回归算法的实现方式可以有多种,例如,逻辑回归(英文全称:LogistRegression,英文简称:LR)模型,也可以是随机森林回归(英文全称:Random FrorestRegressor,英文简称:RFReg)模型,随机梯度下降(英文全称:Stochastic GradientDescent Regressor,英文简称:SGD Reg),支持向量回归(英文全称:Support VectorRegression,英文简称:SVR)模型等,具体实现方式不做限定。
在本发明的一些实施例中,步骤102以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,包括:
B1、对历史查询词进行分词处理,得到多个分词词项;
B2、根据多个分词词项中每个分词词项对应的词向量和历史查询词的词向量计算出多个分词词项中每个分词词项的词向量特征;
B3、根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取回归算法的目标值;
B4、基于多个分词词项中每个分词词项的词向量特征和目标值,使用机器学习算法对多个分词词项权重进行训练。
其中,在上述步骤B1的实现过程中,分词处理所采用的分词粒度的大小可以根据应用场景确定,在对历史查询词做分词之后可以得到每一个分词词项,例如,查询词为“申请文件”可分为“申请”和“文件”这两个词项。在步骤B2中,可以定义历史查询词的词向量为其包含的所有词向量的均值,分词词项的词向量特征可以为分词词项对应的词向量与历史查询词的词向量的差值,其表征了分词词项与历史查询词中心的距离,历史查询词和分词词项可属于同一语义空间,并且使用词向量特征可以表征分词词项的自身特征。在步骤B3中,使用用户的历史行为数据和召回结果可以计算出回归算法所使用的目标值,最后再执行步骤B4,使用机器学习算法对多个分词词项权重进行特征值权重训练,得到分词词项权重后,需要再根据特征进行预测。例如可以使用的回归算法可以是逻辑回归算法。
进一步的,在本发明的另一些实施例中,前述的步骤B3根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取回归算法的目标值,包括:
步骤B31、使用历史查询词在搜索引擎中检索;
步骤B32、获取通过搜索引擎反馈的召回结果,该召回结果包括:通过搜索引擎召回的对应文档以及点击文档;
步骤B33、从对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量;
步骤B34、根据包含分词词项的文档数量以及包含历史查询词的文档数量计算出回归算法的目标值。
其中,在前述步骤B31至步骤B34的实现过程中,可以利用用户的历史行为数据计算目标值,将所需训练的历史查询词在搜索引擎中检索,例如相关浏览器搜索、社交应用程序搜索等,获取召回的对应文档及用户点击文档,其中包括文档的标题、摘要和正文信息,综合通过搜索引擎召回的对应文档以及用户点击文档可以得到包含分词词项的文档数量和包含各历史查询词的文档数量,将它们的比值作为所需训练的目标值。在计算时还可以对用户点击过的文档在数量上进行一定加权,从而优化计算结果。
103、使用机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于目标查询词的多个分词词项的权重值。
在本发明实施例中,前述步骤中采用了词向量特征,将分词词项和历史查询词映射到同一语义空间,并结合用户反馈行为对目标值进行计算,接下来可以使用训练完成后的回归算法对应的回归模型进行分词词项权重的计算,即采用有监督的方式对目标查询词中的不同分词词项的权重进行预测,从而输出依赖于目标查询词的多个分词词项的权重值。
在本发明的一些实施例中,步骤103中输出目标查询词的多个分词词项的权重值之后,本发明实施例提供的分词词项权重的计算方法,还可以包括如下步骤:
C1、对分词词项的权重值进行后验处理。
其中,为了进一步提高回归算法预测出的各个分词词项的权重精确度,在回归算法预测出各个分词词项的权重之后,还可以对该分词词项的权重值进行后验处理,即可以进一步的校正权重值,从而提高分词词项的权重值预测结果。
进一步的,在本发明的前述实施例中,步骤C1对分词词项的权重值进行后验处理,包括:
C11、分别判断多个分词词项是否属于停用词;
C12、获取属于停用词的分词词项和其左右两个词的紧密度;
C13、根据紧密度减小属于停用词的分词词项对应的权重值。
其中,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。这些停用词在生成后可形成一个停用词表。停用词可以存储在停用词表中,对于目标查询词分词后得到的每一个分词词项,都可以判断该分词词项是否属于停用词,对于属于停用词的分词词项,计算该停用词与该词左右两个词的紧密度,以该紧密度的大小不同可以减少该分词词项的权重值。例如,判断该停用词和其左右两个词的紧密度,若紧密度较高,减小程度可能会不同,例如美的,当“美”和“的”分成两个词时,“的”是一个停用词,但是权值不会减少很多。举例说明,由于在训练阶段计算分词词项的目标权值的时候参考其召回的文档包含分词词项的次数,可能会导致某些词出现得过多,从而预测到的某些词并不重要但权重特别高,而此部分词其实大都属于停用词,基于此,对此部分词的计算得到的权重值降低其权重,即可得到最后的分词词项的权重值。
通过以上实施例对本发明实施例的描述可知,首先使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到,然后以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,最后使用机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于目标查询词的多个分词词项的权重值。本发明实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息,并通过历史搜索数据可以得到历史查询词的统计特征,因此本发明实施例有效地结合了统计特征、语义和用户点击行为特征,从而预测分词词项的权重时,可以取得很好的计算效果,实现对各个分词词项权重的准确预测。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
本发明实施例中可以采用有监督的学习方法计算term的权重,其中,term的权重是指在搜索引擎用户的查询中,查询词(query)中的每个term的重要程度。本发明实施例中词向量训练时引入word2vector词向量特征,通过用户多个搜索日志中的数据训练query中多个term的先验term向量后,再结合query的信息获取依赖于query中各个词的后验term向量作为特征,同时在训练阶段目标值的获取计算中利用用户点击行为数据,当预测到term的权重后,再后验处理停用词的相关权重。本发明实施例提供的方法有效地结合了统计、语义和用户的行为特征,将term和query映射到同一个特征空间中,采用有监督的方式预测term的权重,并后验处理相关词的权重,取得了很好的效果。
如图2所示,本发明实施例采用了词向量特征,将term和query映射到同一语义空间,并结合用户反馈行为对目标值进行计算,采用有监督的方式对query中的不同term的权重进行预测,并后验处理部分词的权重信息,方法的大致流程如下:
本发明实施例提供的方法主要分为两部分,第一部分为训练阶段,首先通过用户的历史搜索数据及相关文本语料训练词向量,基于词向量得到依赖于query的term向量。在目标值的获取中参考用户对相关文档的点击数据计算目标,之后采用回归算法训练各特征的权值。第二部分为基于训练得到的特征权重和基于预测query重新获取的term向量,然后对query中的各term权重进行预测,之后再后验处理部分term的权重信息。详细方法如下:
步骤一、获取用户搜索数据。主要包括浏览器日志及各垂直领域用户搜索数据,特别是需要运用到此词权重结果的相关领域。对搜索数据进行排重、过滤,主要参考搜索次数,query长度等特征。获取语料文档信息,包括新闻页面中的摘要及正文,主要获取权威性较高的相关文档。对获取到的所有语料进行分词处理,然后采用word2vector调整最佳参数进行训练,得到词向量特征。
步骤二、基于训练得到的词向量特征获取依赖于query的term向量。对query进行分词,分词时采用的粗细粒度可以根据场景确定,根据词向量特征得到query的向量特征,定义query的向量特征为其包含的所有词向量特征的均值,term的向量特征为term对应的词向量与query的向量的差值,其表征了term与query中心的距离,依赖于query信息,和query属于同一语义空间,并且可以表征自身特征,如图3所示为term的向量特征的计算过程,一个query为“动感单车怎么样啊”,对该query进行分词处理后,可以得到多个term,分别为:动感、单车、怎么、样、啊。
步骤三、利用用户点击行为数据计算目标值,将所需训练query在搜索引擎中检索,例如相关浏览器搜索、微信搜索等,获取召回的对应文档及用户点击文档,其中包括文档的标题、摘要和正文信息,综合上述信息得到包含term的文档数量和包含各query的文档数量,将它们的比值作为所需训练的目标,在计算中,根据用户点击及包含各term及query的位置对相关数量赋于一定的权重,使目标值更加精确。
步骤四、采用机器学习方法训练特征值的权重,例如本发明实施例可以采用逻辑回归方式进行训练,在训练时正则化选择多种形式,获取特征值的权重。
步骤五、获取到特征值权重后,对于需要预测的query重新分词,根据词向量特征计算query中各term的向量特征,采用机器学习方法,如逻辑回归进行预测,得到term词权重。
步骤六、由于在训练阶段计算term目标权值的时候参考其召回的文档包含term的次数,可能会导致某些词出现得过多,从而预测到的某些词并不重要但权重特别高,而此部分词其实大都属于停用词,基于此,对此部分词的计算得到的权重值降低其权重即可得到最后的term权重值,例如可以计算停用词与其左右两个词的紧密度,若紧密度较高,减小程度可能会不同。
本发明实施例中,在获取term的词权重中取得了很好效果,不仅可以作为词权重特征单独使用,还可作为term的特征用于更多特征的获取中。比如query的非必留词计算,即query中哪些词应该留哪些应该不留。
需要说明的是,本发明实施例中采用的机器学习方法用于训练预测term权重不仅限于逻辑回归,也包括其他机器学习模型。在计算目标值的时候不仅限于本发明实施例中所参考的特征。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图4-a所示,本发明实施例提供的一种分词词项权重的计算装置400,可以包括:词向量训练模块401、机器学习算法训练模块402、权重计算模块403,其中,
词向量训练模块401,用于使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;
机器学习算法训练模块402,用于以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;
权重计算模块403,用于使用所述回归算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
在本发明的一些实施例中,请参阅图4-b所示,所述词向量训练模块401,包括:
历史查询词获取模块4011,用于根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到所述历史查询词;
语料处理模块4012,用于对所述文本语料进行分词处理,得到查询词处理结果;
词向量计算模块4013,用于使用所述查询词处理结果对所述历史查询词进行词向量计算,得到所述历史查询词的词向量。
在本发明的一些实施例中,请参阅图4-c所示,所述机器学习算法训练模块402,包括:
分词模块4021,用于对所述历史查询词进行分词处理,得到多个分词词项;
词向量特征计算模块4022,用于根据所述多个分词词项中每个分词词项对应的词向量和所述历史查询词的词向量计算出所述多个分词词项中每个分词词项的词向量特征;
目标值获取模块4023,用于根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取回归算法的目标值;
权重训练模块4024,用于基于所述多个分词词项中每个分词词项的词向量特征和所述目标值,使用所述回归算法对多个分词词项权重进行训练。
在本发明的一些实施例中,请参阅图4-d所示,所述目标值获取模块4023,包括:
检索模块40231,用于使用所述历史查询词在搜索引擎中检索;
文档召回模块40232,用于获取通过所述搜索引擎反馈的召回结果,所述召回结果包括:通过所述搜索引擎对应文档以及点击文档;
文档统计模块40233,用于从所述对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量;
目标值计算模块40234,用于根据所述包含分词词项的文档数量以及包含历史查询词的文档数量计算出所述回归算法的目标值。
在本发明的一些实施例中,请参阅图4-e所示,所述分词词项权重的计算装置400,还包括:
后验处理模块404,用于所述权重计算模块403输出所述目标查询词的多个分词词项的权重值之后,对所述分词词项的权重值进行后验处理。
进一步的,在本发明的一些实施例中,所述后验处理模块404,具体用于分别判断所述多个分词词项是否属于停用词;获取属于停用词的分词词项和其左右两个词的紧密度;根据所述紧密度减小所述属于停用词的分词词项对应的权重值。
通过以上对本发明实施例的描述可知,首先使用文本语料和历史查询词进行词向量训练,得到历史查询词的词向量,历史查询词通过历史搜索数据得到,然后以历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,最后使用机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于目标查询词的多个分词词项的权重值。本发明实施例中通过对历史查询词的词向量训练,可以使用词向量来反映历史查询词的语义信息,并通过历史搜索数据可以得到历史查询词的统计特征,因此本发明实施例有效地结合了统计特征、语义和用户点击行为特征,从而预测分词词项的权重时,可以取得很好的计算效果,实现对各个分词词项权重的准确预测。
图5是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的分词词项权重的计算方法步骤可以基于该图5所示的服务器结构。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种分词词项权重的计算方法,其特征在于,所述方法包括:
使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;
以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;
使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
2.根据权利要求1所述的方法,其特征在于,所述使用文本语料和历史查询词进行词向量训练,得到所述历史查询词的词向量,包括:
根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到所述历史查询词;
对所述文本语料进行分词处理,得到查询词处理结果;
使用所述查询词处理结果对所述历史查询词进行词向量计算,得到所述历史查询词的词向量。
3.根据权利要求1所述的方法,其特征在于,所述以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练,包括:
对所述历史查询词进行分词处理,得到多个分词词项;
根据所述多个分词词项中每个分词词项对应的词向量和所述历史查询词的词向量计算出所述多个分词词项中每个分词词项的词向量特征;
根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值;
基于所述多个分词词项中每个分词词项的词向量特征和所述目标值,使用所述机器学习算法对多个分词词项权重进行训练。
4.根据权利要求3所述的方法,其特征在于,所述根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值,包括:
使用所述历史查询词在搜索引擎中检索;
获取通过所述搜索引擎反馈的召回结果,所述召回结果包括:通过所述搜索引擎召回的对应文档以及点击文档;
从所述对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量;
根据所述包含分词词项的文档数量以及包含历史查询词的文档数量计算出所述机器学习算法的目标值。
5.根据权利要求1所述的方法,其特征在于,所述输出所述目标查询词的多个分词词项的权重值之后,所述方法还包括:
对所述分词词项的权重值进行后验处理。
6.根据权利要求5所述的方法,其特征在于,所述对所述分词词项的权重值进行后验处理,包括:
分别判断所述多个分词词项是否属于停用词;
获取属于停用词的分词词项和其左右两个词的紧密度;
根据所述紧密度减小所述属于停用词的分词词项对应的权重值。
7.一种分词词项权重的计算装置,其特征在于,所述装置包括:
词向量训练模块,用于使用文本语料对历史查询词进行词向量训练,得到所述历史查询词的词向量,所述历史查询词通过历史搜索数据得到;
机器学习算法训练模块,用于以所述历史查询词的词向量作为特征,基于历史行为数据和通过对历史查询词搜索后得到的召回结果计算出的目标值,使用机器学习算法对依赖于所述历史查询词的多个分词词项权重进行训练,当误差最小或迭代次数达到次数阈值时结束训练;
权重计算模块,用于使用所述机器学习算法对目标查询词进行分词词项权重的计算,输出依赖于所述目标查询词的多个分词词项的权重值。
8.根据权利要求7所述的装置,其特征在于,所述词向量训练模块,包括:
历史查询词获取模块,用于根据历史搜索次数、查询词长度对历史搜索数据进行排除重复数据以及过滤,得到所述历史查询词;
语料处理模块,用于对所述文本语料进行分词处理,得到查询词处理结果;
词向量计算模块,用于使用所述查询词处理结果对所述历史查询词进行词向量计算,得到所述历史查询词的词向量。
9.根据权利要求7所述的装置,其特征在于,所述机器学习算法训练模块,包括:
分词模块,用于对所述历史查询词进行分词处理,得到多个分词词项;
词向量特征计算模块,用于根据所述多个分词词项中每个分词词项对应的词向量和所述历史查询词的词向量计算出所述多个分词词项中每个分词词项的词向量特征;
目标值获取模块,用于根据历史行为数据和通过对历史查询词搜索后得到的召回结果获取机器学习算法的目标值;
权重训练模块,用于基于所述多个分词词项中每个分词词项的词向量特征和所述目标值,使用所述机器学习算法对多个分词词项权重进行训练。
10.根据权利要求7所述的装置,其特征在于,所述目标值获取模块,包括:
检索模块,用于使用所述历史查询词在搜索引擎中检索;
文档召回模块,用于获取通过所述搜索引擎反馈的召回结果,所述召回结果包括:通过所述搜索引擎对应文档以及点击文档;
文档统计模块,用于从所述对应文档以及点击文档中统计出包含分词词项的文档数量以及包含历史查询词的文档数量;
目标值计算模块,用于根据所述包含分词词项的文档数量以及包含历史查询词的文档数量计算出所述机器学习算法的目标值。
11.根据权利要求7所述的装置,其特征在于,所述分词词项权重的计算装置,还包括:
后验处理模块,用于所述权重计算模块输出所述目标查询词的多个分词词项的权重值之后,对所述分词词项的权重值进行后验处理。
12.根据权利要求11所述的装置,其特征在于,所述后验处理模块,具体用于分别判断所述多个分词词项是否属于停用词;获取属于停用词的分词词项和其左右两个词的紧密度;根据所述紧密度减小所述属于停用词的分词词项对应的权重值。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711132707.8A CN109948036B (zh) | 2017-11-15 | 2017-11-15 | 一种分词词项权重的计算方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711132707.8A CN109948036B (zh) | 2017-11-15 | 2017-11-15 | 一种分词词项权重的计算方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948036A true CN109948036A (zh) | 2019-06-28 |
CN109948036B CN109948036B (zh) | 2022-10-04 |
Family
ID=67003961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711132707.8A Active CN109948036B (zh) | 2017-11-15 | 2017-11-15 | 一种分词词项权重的计算方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948036B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347795A (zh) * | 2019-07-05 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 搜索文本与库文件的相关度计算方法、装置、设备及介质 |
CN110598067A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 词语权重获取方法、装置及存储介质 |
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN111274808A (zh) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 文本检索方法、模型训练方法、文本检索装置及存储介质 |
CN111460264A (zh) * | 2020-03-30 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 语义相似度匹配模型的训练方法及装置 |
CN111709227A (zh) * | 2020-07-13 | 2020-09-25 | 拉扎斯网络科技(上海)有限公司 | 对象权重确定方法、装置、电子设备及可读存储介质 |
CN111708911A (zh) * | 2020-06-17 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 搜索方法、装置、电子设备及计算机可读存储介质 |
CN113495947A (zh) * | 2020-04-08 | 2021-10-12 | 中国移动通信集团安徽有限公司 | 工单搜索方法、装置及计算设备 |
CN114490396A (zh) * | 2022-01-27 | 2022-05-13 | 北京京航计算通讯研究所 | 一种软件测试需求挖掘方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521526B1 (en) * | 2010-07-28 | 2013-08-27 | Google Inc. | Disambiguation of a spoken query term |
CN103870505A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种查询词推荐方法和查询词推荐系统 |
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN106339383A (zh) * | 2015-07-07 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种搜索排序方法及系统 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
-
2017
- 2017-11-15 CN CN201711132707.8A patent/CN109948036B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521526B1 (en) * | 2010-07-28 | 2013-08-27 | Google Inc. | Disambiguation of a spoken query term |
CN103870505A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种查询词推荐方法和查询词推荐系统 |
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN106339383A (zh) * | 2015-07-07 | 2017-01-18 | 阿里巴巴集团控股有限公司 | 一种搜索排序方法及系统 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN106599278A (zh) * | 2016-12-23 | 2017-04-26 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347795A (zh) * | 2019-07-05 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 搜索文本与库文件的相关度计算方法、装置、设备及介质 |
CN110598067A (zh) * | 2019-09-12 | 2019-12-20 | 腾讯音乐娱乐科技(深圳)有限公司 | 词语权重获取方法、装置及存储介质 |
CN111078546A (zh) * | 2019-12-05 | 2020-04-28 | 北京云聚智慧科技有限公司 | 一种表达页面特征的方法和电子设备 |
CN111274808A (zh) * | 2020-02-11 | 2020-06-12 | 支付宝(杭州)信息技术有限公司 | 文本检索方法、模型训练方法、文本检索装置及存储介质 |
CN111460264A (zh) * | 2020-03-30 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 语义相似度匹配模型的训练方法及装置 |
CN113495947A (zh) * | 2020-04-08 | 2021-10-12 | 中国移动通信集团安徽有限公司 | 工单搜索方法、装置及计算设备 |
CN113495947B (zh) * | 2020-04-08 | 2024-05-10 | 中国移动通信集团安徽有限公司 | 工单搜索方法、装置及计算设备 |
CN111708911A (zh) * | 2020-06-17 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 搜索方法、装置、电子设备及计算机可读存储介质 |
CN111709227A (zh) * | 2020-07-13 | 2020-09-25 | 拉扎斯网络科技(上海)有限公司 | 对象权重确定方法、装置、电子设备及可读存储介质 |
CN111709227B (zh) * | 2020-07-13 | 2023-04-07 | 拉扎斯网络科技(上海)有限公司 | 对象权重确定方法、装置、电子设备及可读存储介质 |
CN114490396A (zh) * | 2022-01-27 | 2022-05-13 | 北京京航计算通讯研究所 | 一种软件测试需求挖掘方法和系统 |
CN114490396B (zh) * | 2022-01-27 | 2023-05-05 | 北京京航计算通讯研究所 | 一种软件测试需求挖掘方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109948036B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948036A (zh) | 一种分词词项权重的计算方法和装置 | |
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
Li et al. | Embedding-based product retrieval in taobao search | |
CN109766423A (zh) | 基于神经网络的问答方法及装置、存储介质、终端 | |
CN103377232B (zh) | 标题关键词推荐方法及系统 | |
CN104933100B (zh) | 关键词推荐方法和装置 | |
JP2021166109A (ja) | 融合順序付けモデルの訓練方法と装置、検索の順序付け方法と装置、電子デバイス、記憶媒体、及びプログラム | |
CN105389349A (zh) | 词典更新方法及装置 | |
CN111275172B (zh) | 一种基于搜索空间优化的前馈神经网络结构搜索方法 | |
WO2015188006A1 (en) | Method and apparatus of matching text information and pushing a business object | |
CN110909182A (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN112988969A (zh) | 用于文本检索的方法、装置、设备以及存储介质 | |
CN107220384B (zh) | 一种基于相关性的搜索词处理方法、装置及计算设备 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN110046298A (zh) | 一种查询词推荐方法、装置、终端设备及计算机可读介质 | |
CN110968564A (zh) | 一种数据处理方法及数据状态预测模型的训练方法 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN111078858A (zh) | 文章搜索方法、装置及电子设备 | |
Yue et al. | LlamaRec: Two-stage recommendation using large language models for ranking | |
Mabroukeh et al. | Semantic-rich markov models for web prefetching | |
Yang et al. | Prediction of the resource consumption of distributed deep learning systems | |
Yildiz et al. | Improving word embedding quality with innovative automated approaches to hyperparameters | |
Zhang et al. | Clustering based behavior sampling with long sequential data for CTR prediction | |
CN104391982B (zh) | 信息推荐方法和信息推荐系统 | |
CN106951548B (zh) | 基于rm算法提升特写词语搜索精度的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |