CN105975459A

CN105975459A - 一种词项的权重标注方法和装置

Info

Publication number: CN105975459A
Application number: CN201610349578.7A
Authority: CN
Inventors: 胡军; 陈英傑; 王天畅; 叶澄灿
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2016-09-28
Anticipated expiration: 2036-05-24
Also published as: CN105975459B

Abstract

本申请实施例提供了一种词项的权重标注方法和装置，涉及网络搜索技术领域。所述方法包括：获取待确定权重的各个词项；结合搜索日志，计算所述各个词项的词项搜索权重；根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。解决了在网络搜索领域使用TF‑IDF计算词项权重的方法，在基于搜索词以短文本为主的搜索任务时，重要的词项反而被标记较小权重的问题，使词项权重计算主要基于搜索日志，取得了加深词项和搜索词之间联系的同时，更提高了在搜索环境下词项和文档之间相关性计算的精度，提升了搜索排序质量的效果。

Description

一种词项的权重标注方法和装置

技术领域

本申请涉及网络搜索技术领域，特别是涉及一种词项的权重标注方法和一种词项的权重标注装置。

背景技术

随着网络搜索技术的普及，在日常生活中的方方面面都会涉及到网络搜索，而用户在搜索网站中输入搜索词后，搜索网站会列出与搜索词相关的搜索结果。搜索结果是根据搜索词和搜索结果的相关性进行排列的，搜索词与搜索结果的相关性越高，用户得到的搜索结果的质量越高，更加能满足用户的搜索需求。所以，如何衡量用户搜索词与文档集合(被搜索对象的集合)的相关性是网络搜索技术中非常重要的一个环节，其中，文档和搜索词的词项权重标注效果会直接影响到搜索词与文档集合相关性计算的精度。

目前，在学术界和工业界，人们通常使用TF-IDF(Term Frequency-InverseDocument Frequency,词频-逆向文件词频)方法来表示分词词项权重，TF-IDF中，TF表示词项在文档中出现的频率，IDF表示逆向文件频率。通常情况下，是通过计算文档中提取的词项的TF值和IDF值的乘积作为词项权重，然后将词项权重代入相关性算法(比如BM25算法和向量空间模型)中，得到搜索词和文档的相关性。

在商品、视频、图片等垂直业务的搜索任务中，用户搜索词和文档都以短文本为主。在这种情况下，词项频率一般都是1，TF-IDF方法退化为IDF，而IDF认为词项在文档集合中出现的概率越大，词项越不重要，词项在文档中出现的概率越小，词项更加具备很好的类别区分能力，所以更重要。在很多情况下，该结论并不成立，比如，一些明星、剧名等词项，其出现在文档集合中的概率非常高，计算得到的IDF值相对偏小。如果采用TF-IDF方法表示此类词项的权重，得到的权重值较小，而实际上，此类词项具有很高的类别区分能力，应该设置较大的词项权重。因此，采用TF-IDF方法计算得到的词项权重，效果并不理想。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种词项的权重标注方法和相应的一种词项的权重标注装置。

为了解决上述问题，本申请公开了一种词项的权重标注方法，包括：获取待确定权重的各个词项；结合搜索日志，计算所述各个词项的词项搜索权重；根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。

优选地，结合搜索日志，计算所述各个词项的词项搜索权重包括：提取所述各个词项的词项特征；所述词项特征包括词项搜索特征，所述词项搜索特征通过所述搜索日志获取；基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重。

优选地，在所述基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重的步骤之前，还包括：通过词项训练集中的各个词项的所述词项特征训练获得所述词项搜索权重标注模型。

优选地，所述通过词项训练集中的各个词项的所述词项特征训练获得所述词项搜索权重标注模型，包括：获取词项训练集；所述词项训练集包括词项和与所述词项相对应的所述词项搜索权重；对所述词项训练集中的各个词项，获取与所述词项相对应的词项特征；其中，所述词项特征包括所述词项搜索特征，所述词项搜索特征通过所述搜索日志获取；基于与所述词项相对应的所述词项特征以及所述词项搜索权重进行训练，获得所述词项搜索权重标注模型。

优选地，所述词项搜索特征包括：词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率其中一个或多个；其中，所述词项搜索热度根据词项作为搜索词时的搜索次数获得；所述词项点击率根据词项作为搜索词时，搜索结果的点击率获得；所述词项平均点击率根据包含词项的所有搜索词的搜索次数和点击次数获得；所述词项作为搜索词的概率根据词项作为搜索词的搜索次数和包含词项的搜索词的搜索次数获得。

优选地，所述词项特征还包括：词项词性、词项长度其中一个或多个；其中，所述词项词性为词项的词性，所述词项长度为词项包含的字符个数。

优选地，所述根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重的步骤包括：计算所述逆向文件频率与所述词项搜索权重的乘积，获得所述词项权重。

为了解决上述问题，本申请还公开了一种词项的权重标注装置，包括：

词项获取模块，用于获取待确定权重的各个词项；

词项搜索权重标注模块，用于结合搜索日志，计算所述各个词项的词项搜索权重；

逆向文件频率计算模块，用于根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；

权重计算模块，用于根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。

优选地，词项搜索权重计算模块包括：

词项特征提取子模块，用于提取所述各个词项的词项特征；所述词项特征包括词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

模型计算词项搜索权重子模块，用于基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重。

优选地，所述词项搜索权重计算模块，还包括：

词项搜索权重标注模型训练子模块，用于通过词项训练集中的各个词项的所述词项特征训练获得所述词项搜索权重标注模型。

优选地，所述词项搜索权重标注模型训练模块，包括：

词项训练集获取子模块，所述词项训练集包括词项和与所述词项相对应的所述词项搜索权重；

词项特征提取子模块，对所述词项训练集中的各个词项，获取与所述词项相对应的词项特征；其中，所述词项特征包括所述词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

模型训练子模块，用于基于与所述词项相对应的所述词项特征以及所述词项搜索权重进行训练，获得所述词项搜索权重标注模型。

优选地

所述词项搜索特征包括：词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率其中一个或多个；

其中，所述词项搜索热度根据词项作为搜索词时的搜索次数获得；

所述词项点击率根据词项作为搜索词时，搜索结果的点击率获得；

所述词项平均点击率根据包含词项的所有搜索词的搜索次数和点击次数获得；

所述词项作为搜索词的概率根据词项作为搜索词的搜索次数和包含词项的搜索词的搜索次数获得。

优选地，所述词项特征还包括：

词项词性、词项长度其中一个或多个；其中，所述词项词性为词项的词性，所述词项长度为词项包含的字符个数。

优选地，所述权重计算模块，包括：

权重计算子模块，用于计算逆向文件频率与词项搜索权重的乘积，获得词项权重。

本申请实施例包括以下优点：

本申请实施例，根据词项训练集中的词项的词项特征训练词项搜索权重标注模型，其中，词项特征包括通过搜索日志获取的词项搜索特征。对于待确定权重的词项，提取词项相应的词项特征，再将该词项特征代入词项搜索权重标注模型，计算词项权重。

通过上述过程得到的词项权重，不同于在先技术中常用的TF-IDF，只是基于词项在搜索文档中出现的频率，和包含词项的文档数目来标注词项权重的方法，本发明实施例中得到的词项权重，是基于搜索日志得到的，加深了词项和搜索词之间的联系。所以通过本发明提供的方法标注词项搜索权重，并根据词项搜索权重计算得到的词项权重，更能体现在搜索环境下词项和文档的关系，能够有效的提高词项权重标注的效果，从而提高了搜索词和搜索文档之间相关性计算的精度，提升了搜索排序质量。

附图说明

图1是本申请实施例提供的一种词项的权重标注方法实施例的步骤流程图；

图2是本申请实施例提供的另一种词项的权重标注方法实施例的步骤流程图；

图3是本申请实施例提供的再一种词项的权重标注方法实施例的步骤流程图；

图4是是本申请实施例提供的一种词项的权重标注装置实施例的结构框图；

图5是是本申请实施例提供的另一种词项的权重标注装置实施例的结构框图；

图6是是本申请实施例提供的再一种词项的权重标注装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

参照图1，示出了本申请的一种词项的权重标注方法实施例的步骤流程图，具体可以包括如下步骤：

步骤110，获取待确定权重的各个词项。

在本发明实施例中，将搜索日志中所有的用户搜索词进行分词，然后将得到的分词结果作为待确定权重的词项。例如，在搜索日志中有搜索词为“好看的电影”，分词后的结果为“好看”、“的”、“电影”三个词项。

当然，上述待确定权重的词项可以通过多种方式产生，又比如对待搜索对象的文档进行分词，然后提取词项。该待搜索对象比如描述视频网站中的视频页面、电子商务平台的商品页面，或者互联网中的其他网页、用户的相关评论等。

当然，实际应用中对文档进行分词后，还可以对分词结果根据预置的过滤词典进行过滤，去掉一些无用词，对于汉语来说，比如语气助词，比如“的”“啊”等词。当然，针对不同的语言可以设置不同的过滤词典。比如前述“好看”、“的”、“电影”三个词项中，将词项“的”删除，保留“好看”、“电影”两个个词项。

对于获取待确定权重的词项的方式，本发明实施例不对其加以限定。

步骤120，结合搜索日志，计算所述各个词项的词项搜索权重。

在本发明的实施例中，对于提取的各个词项，可以根据搜索日志中对应词项的一些重要特征，来计算词项搜索权重，这些特征可以建立词项与搜索词之间的联系，更好的体现词项作为搜索词所体现出来的特性。

步骤130，根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率。

在本发明实施例中，使用IDF表示逆向文件频率，通过统计词项在文档集合各文档中出现的次数和文档总数来计算IDF，其计算公式可以是：

{IDF}_{j} = \log_{n} \frac{| D |}{| {j} |}, n > 1 - - - (1.1)

其中，IDF_j表示词项j的逆向文件频率，D表示总文档数，{j}表示包含词项j的文档数目，n表示大于1的自然数，对数计算结果大于零，保证IDF的计算结果大于零。总文档数目表示的是用来提取所有词项的文档的总数，其中，文档可以是搜索日志、带搜索的相关网页文档等，本发明实施例对此不加以限制。逆向文件频率是计算总文档数和包含词项的文档数的商，然后将得到的商取对数得到的。由公式可以看出，一个词在文档中出现的频率越大，那么此词项的IDF值越小，IDF认为词项在文档集合中出现的概率越大，词项越不重要，词项在文档中出现的概率越小，词项更加具备很好的类别区分能力。

步骤140，根据所述各个词项的所述词项搜索权重和逆向文件频率，计算词项权重。

在本发明实施例中，对于各个词项，由于获得了其逆向文件频率和词项搜索权重，则可以通过计算获得词项权重。

在获得各个词项的词项权重之后，可以将词项及其词项权重进行记录，比如存储在数据库。

在后续搜索过程中，对于用户输入的搜索词，对该搜索词进行分词，得到各分词，然后利用各分词与上述的“词项及其词项权重进行记录”中的词项进行匹配，从而可以获得各分词对应的词项权重。然后利用各分词的词项权重，代入相关性算法中，计算前述搜索词与各个文档之间的相关性。

本实施例使用词项特征标记各词项的权重，词项特征都是基于搜索日志中关于词项作为搜索词或者包含词项的搜索词的统计数据计算得到的，再结合词项在文档集合中出现的频率来计算词项权重，相较于其他词项权重标注方法，用本实施例得到的词项权重不仅基于文档集合，还基于搜索词在搜索日志中的重要性来标注词项权重，更多维度的建立了词项、搜索词和搜索文档之间的联系。

所以，本实施例中，利用词项搜索权重和逆向文档词频来计算词项权重，用该技术方案计算搜索词与搜索文档的相关性的时候，不仅解决了因为在搜索词的词频很小的情况下，TF-IDF方法退化成IDF后，词项权重只由IDF决定的问题，而且词项搜索权重是基于搜索日志的，将词项作为搜索词，或者包含词项的搜索词等多方面因素作为词项权重的标注特征。更加大了词项作为搜索词对搜索结果的影响性，而其中词项权重由所计算得到的词项搜索权重和逆向文件频率共同决定，所以在文本相关性算法中，将本方法中得到的词项权重取代在先技术中常用的TF-IDF方法得到的词项权重进行搜索词和搜索无文档的相关性计算，明确的提高了搜索词和搜索文档相关性计算的精度，提升搜索排序质量和用户对搜索结果的点击率。

实施例二

参照图2，示出了本申请的一种词项的权重标注方法实施例的步骤流程图，具体可以包括如下步骤：

步骤210，获取待确定权重的各个词项。

此步骤在与实施例一中步骤110相同，在此不再详述。

步骤220，提取所述各个词项的词项特征；所述词项特征包括词项搜索特征，所述词项搜索特征通过所述搜索日志获取。

本发明实施例对于各个词项，可以结合提取其词项特征。其中，可以通过搜索日志提取该词项特征中的词项搜索特征。当然，还可以针对词项本身提取特征。

对于搜索日志，以视频网站为例，用户在客户端中登录视频网站的网页，然后用户在该网页的搜索栏中输入搜索词，视频网站则根据该搜索词返回结果页面，那么视频网站则在搜索日志进行相应记录，如用户ID，时间，搜索词，结果页面列表。如果用户在结果页面中点击了某条结果，则还可以记录用户ID，时间，搜索词，结果页面列表，被点击的各条结果。当然，实际应用中，搜索日志可以采用多种方式对用户的搜索行为进行记录，本发明实施例不对其加以限制。

那么，基于搜索日志中与上述词项相关的记录，可以统计其各个词项搜索特征。

需要说明的是，上述搜索日志，可以是任意具有搜索功能的服务器所记录的日志，本发明实施例不对其加以限制。

优选的，所述词项搜索特征包括：词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率其中一个或者多个。

上述各个词项搜索特征，都可以通过对搜索日志进行统计获得。

其中，上述词项搜索热度根据相应词项作为搜索词时的搜索次数获得；在本发明实施例中，可以通过搜索日志统计所述词项作为搜索词时的搜索次数，计算词项搜索热度。

在实际应用中，统计固定时间段内的用户以词项作为搜索词的搜索次数imp_count。其中固定时间段可以根据需求设置，比如最近一天或最近两周，本申请实施例不对其加以限定。然后基于上述imp_count，计算该词项的词项搜索热度，计算公式可以如下：

HotIndex＝a+b*log_n(imp_count),n>1 (2.1)

其中，公式(2.1)中，Hot Index表示词项搜索热度，a、b为常数，n为大于1的自然数，保证对数计算结果大于零，并通过设置a、b的大小，和对imp_count值用对数进行拟合可以将HotIndex值最后限定在一定范围之间。例如，在搜索日志范围很广情况下，用户将词项作为搜索词的次数并不平均。例如，1000个不相同的词项中，在固定时间段内，有些词项作为搜索词被用户使用的次数会达到上万次，而有些词项作为搜索词被用户使用的次数只有一两次，所以为了在一个固定的范围内分析各词项作为搜索词的搜索次数，采用对数方法对词项作为搜索词的搜索次数进行拟合而a和b的值，可以通过限定的范围得到。例如，若想将HotIndex值限定在0到1之间，那么在n的值已经确定的前提下，可以通过0<a+b*log_n(imp_count)<1，来计算出a、b的值，a、b和n的值都是根据搜索日志的范围和所有词项的数目大小来调整。

其中，上述词项点击率根据相应词项作为搜索词时，对搜索结果的点击率获得；本发明实施例中，可以通过搜索日志统计所述词项作为搜索词时，对搜索结果的点击率，计算词项点击率。

在实际应用中，统计在固定时间段内用户以词项作为搜索词的搜索次数，和用户点击相应词项作为搜索词的搜索结果的次数，来计算词项点击率。其中，用click_count来表示点击搜索结果的次数，固定时间段可以根据需求设置，比如最近一天或最近两周，本申请实施例不对其加以限定。然后基于上述imp_count和click_count，计算该词项的词项搜索热度，计算公式可以如下：

QueryCTR＝click_count/imp_count (2.2)

其中，公式(2.2)中，Query CTR表示词项点击率，imp_count是用户以词项作为搜索词的搜索次数，click_count是用户点击相应词项作为搜索词的搜索结果的次数，词项点击率是imp_count和click_count的比值，如在上述固定时间段内，词项作为搜索词的搜索次数为0，即imp_count为0的话，则Query CTR的取值也为0。

其中，上述词项平均点击率根据包含相应词项的所有搜索词的搜索次数和点击次数获得；本发明实施例中，可以通过搜索日志统计固定时间段内，包含词项的所有搜索词的搜索次数和点击次数，计算词项平均点击率。

在实际应用中，统计在固定时间段内，包含词项的所有搜索词的搜索次数，结合用户点击该搜索词对应的搜索结果的次数，来计算词项平均点击率。其中固定时间段可以根据需求设置，比如最近一天或最近两周，本申请实施例不对其加以限定。计算公式为：

Term CTR＝t_click_count/t_imp_click

(2.3)

其中，公式(2.3)中，TermCTR表示词项平均点击率，t_imp_count表示在固定时间段内包含词项的搜索词的搜索次数，t_click_count表示用户点击该搜索词对应的搜索结果的次数。词项平均点击率为在固定时间段内用户点击搜索词对应的搜索结果的次数，和包含词项的搜索词的搜索次数的比值。若在固定时间段内，包含词项的搜索词的搜索次数为0的话，那么词项平均点击率取0，即t_imp_click为0的话，Term CTR也取0。

其中，上述词项作为搜索词的概率根据词项作为搜索词的搜索次数和包含词项的搜索词的搜索次数获得。本发明实施例中，通过搜索日志统计，词项作为搜索词的搜索次数和包含词项的搜索词的搜索次数，计算词项作为搜索词的概率。

在实际应用中，统计在固定时间段内，包含词项的搜索词的搜索次数，结合包含词项的搜索词的搜索次数，计算词项作为搜索词的概率。其中固定时间段可以根据需求设置，比如最近一天或最近两周，本申请实施例不对其加以限定。计算公式为：

IC＝imp_count/t_imp_count (2.4)

其中，公式(2.4)中，IC表示词项作为搜索词的概率，imp_count表示词项作为搜索词的搜索次数，t_imp_count表示包含词项的搜索词的搜索次数，词项作为搜索词的概率为imp_count和t_imp_count的比值。若在固定时间段内，包含词项的搜索词的搜索次数为0的话，那么词项平均点击率取0，即t_imp_click为0的话，IC也取0。

优选的，词项特征还包括：

词项词性通过预设置好的词性标记来标识不同词项，在实际应用中，通过词项的属性和分类用特殊的数字、编码或者字母设置成词性标记来标识词项词性，例如，nz标识的是“专用名词，特指剧名”，ns标识的是“地名”，nr标识的是“人名，重要为明星”，v标识的是“动词”，m标识的是“数词”等等。其中，预设置的词性标记，可以是任意类型的标记，可以通过数字、英文字母或者任何具有标记性质的标识来标识，本发明实施例不对其加以限制。

词项长度可以是词项的编码字节个数。在实际应用中，可以使用编码转换器工具，将汉字转换成计算机可以识别的编码，然后计算与词项对应的汉字的编码的字符数，来表示词项长度。例如，使用unicode编码转换器，将词项转换成unicode编码。在unicode编码中，一个汉字等于两个字节(即16位)，根据词项的编码可以计算出其unicode的字节数，从而得到其对应的字长来作为词项长度。其中，可以使用不同的方式计算词项长度，例如只是通过字符格式来统计词项长度，本发明实施例不对其加以限制。

步骤230，基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重。

在得到搜索词项权重标注模型后，将待确定权重的词项和对应的词项特征输入词项搜索权重标注模型，保证输入词项特征和训练词项搜索权重标注模型时使用的词项特征是一致的，这样词项搜索权重标注模型会根据训练数据计算并标注所有的输入词项的词项搜索特征，并输出。

优选的，在步骤230之前，还包括：

通过词项训练集中的各个词项的所述词项特征训练获得词项搜索权重标注模型。

根据提取的词项和对应的词项特征，生成一个数据集作为训练集，利用训练集中各词项特征的计算数值，人工标注对应的词项搜索权重，并将该训练集带入机器学习算法，得到一个标注词项搜索权重的模型。

步骤220和步骤230是实施例一中步骤120优选的步骤。

步骤240，根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率。

此步骤在与实施例一中步骤130相同，在此不再详述。

步骤250，根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。

此步骤在与实施例一中步骤140相同，在此不再详述。

本实施例使用结合搜索日志的词项特征来计算各词项的词项搜索权重，词项特征包括词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率、词项词性和词项长度，其中的词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率，都是基于搜索日志中关于词项作为搜索词或者包含词项的搜索词的统计数据计算得到的，另外词项词性和词项长度是反应词项本身的特征，所以相较于其他词项权重标注方法，本实施例中的词项特征是基于搜索日志和词项本身的特征得到的。而词项权重的计算结合词项的逆向文件频率，体现出词项权重不仅基于搜索日志，再结合词项在文档集合中出现的频率来计算词项权重，加深了词项和搜索词之间的联系。所以通过本发明提供的方法标注词项搜索权重，并根据词项搜索权重计算得到的词项权重，更能体现在搜索环境下词项和文档的关系，能够有效的提高词项权重标注的效果，从而提高了搜索词和搜索文档之间相关性计算的精度，提升了搜索排序质量。

实施例三

参照图3，示出了本申请的一种词项的权重标注方法实施例的步骤流程图，具体可以包括如下步骤：

步骤310，获取词项训练集；所述词项训练集包括词项和与所述词项相对应的所述词项搜索权重。

对文档集合进行分词，分词后的结果为词项集合，抽取词项集合中一定数量的词项作为一个数据集，该一定数量可以大于100个。然后对这个数据集中的每一个词项进行人工标注，标注这个词项的搜索词项权重，标注完成的数据集作为一个训练集，用来训练词项搜索权重标注模型。在实际应用中，训练集中词项可以从待搜索文档集合，搜索日志等能提供符合搜索任务的资料中获取，本发明实施例对此不加以限制。

步骤320，对所述词项训练集中的各个词项，获取与所述词项相对应的词项特征；其中，所述词项特征包括所述词项搜索特征，所述词项搜索特征通过所述搜索日志获取。

对训练集中的各个词项，通过计算得到的词项特征的值，词项特征包括词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率、词项词性和词项长度，，然后根据结果分析出词项与搜索文档之间的相关性，人工标记为词项搜索权重。在实际应用中，分析词项搜索权重时候，使用词项特征中的一项或多项作为参考值，视具体情况决定，本发明实施例不对其加以限制。

步骤330，基于与所述词项相对应的所述词项特征以及所述词项搜索权重进行训练，获得所述词项搜索权重标注模型。

通过步骤310和320获得训练集后，训练集包括词项和相应的词项搜索权重，在机器学习模型中输入训练集，得到相应的词项搜索权重标注模型。将训练集中的词项的词项特征作为机器学习模型的自变量，预先标注的该词项的词项搜索权重为机器学习模型的因变量，进行训练，训练结果为词项搜索权重标注模型。

上述机器学习模型包括但不限于最小二乘、逻辑回归、GBDT等模型，本申请实施例对此加以限制。

步骤310至步骤330，是步骤S201优选的步骤。

步骤340，获取待确定权重的各个词项。

此步骤在与实施例一中步骤110相同，在此不再详述。

步骤350，结合搜索日志，计算所述各个词项的词项搜索权重。

基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重；

将待确定权重的各个词项，输入通过步骤330训练得到的词项搜索权重标注模型，输出词项和词项的搜索词项权重，格式为“词项#TWS”。训练词项搜索权重标注模型时使用的词项特征项，与使用该词项搜索权重标注模型标注待确定权重的各个词项时，提取词项的词项特征项一致，使标注结果更加准确。例如，在步骤310、320、330中训练词项搜索权重标注模型时，提取的词项特征包括“词项平均点击率”、“词项作为搜索词的概率”和“词项词性”，那么在步骤340、350、360中使用词项搜索权重标注模型对待确定权重的各个词项进行标注词项搜索权重时，仍然提取词项的“词项平均点击率”、“词项作为搜索词的概率”和“词项词性”这三项词项特征值。当然，在实际使用时，通过需要可以提取词项特征中的一项或者多项，本发明对此不加以限制。

步骤360，根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率。

此步骤在与实施例一中步骤130相同，在此不再详述。

步骤370，计算所述逆向文件频率与所述词项搜索权重的乘积，获得所述词项权重。

步骤370是实施例一中步骤140的优选的步骤。

通过步骤370计算出逆向文件频率，以及通过施例一中的步骤130获得词项搜索权重后，词项权重是由逆向文件频率和词项搜索权重的乘积计算得到，即：词项权重＝TWS*IDF。

本实施例利用机器学习算法训练词项搜索权重标注模型，该词项搜索权重标注模型基于训练集中各词项的词项特征、以及各词项相应的预先标注的词项搜索权重，代入机器训练模型进行训练获得。本发明实施例对于各个词项，将前述提取的该词项的词项特征代入词项搜索权重标注模型，则可以计算该词项的词项搜索权重。在已经训练好的词项搜索权重标注模型，输入待确定词项搜索权重的所有词项，输出为带确定词项搜索权重的词项及其搜索词项权重，格式为“词项#TWS”，其中，TWS(Term Weight in Search，表示搜索词项权重)。

所以本实施例实现了批量为待标注权重的词项，按照预先设置好的词项特征，标注词项搜索权重，可以利用网络中大量存在的搜索数据进行模型的训练，得到更为优化的模型，还可以批量标注待确定搜索权重的数据集，快速有效的标注词项的搜索词项权重。不仅如此，还可以根据不同的需求设置不同训练集和相对应的词项特征训练模型，满足搜索领域基于不同角度，确定搜索词与搜索文档之间的关系来确定词项权重的需求。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

实施例四

参照图4，示出了本申请的一种词项的权重标注装置实施例的结构框图，具体可以包括如下模块：

词项获取模块410，用于获取待确定权重的各个词项；

词项搜索权重标注模块420，用于结合搜索日志，计算所述各个词项的词项搜索权重；

逆向文件频率计算模块430，用于根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；

权重计算模块440，根据所述各个词项的所述词项搜索权重和逆向文件频率，计算词项权重。

所以，本实施例中，利用词项搜索权重和逆向文档词频来计算词项权重，用此方法计算搜索词与搜索文档的相关性的时候，不仅解决了因为在搜索词的词频很小的情况下，TF-IDF方法退化成IDF后，词项权重只由IDF决定的问题，而且词项搜索权重是基于搜索日志的，将词项作为搜索词，或者包含词项的搜索词等多方面因素作为词项权重的标注特征。更加大了词项作为搜索词对搜索结果的影响性，而其中词项权重由所计算得到的词项搜索权重和逆向文件频率共同决定，所以在文本相关性算法中，将本方法中得到的词项权重取代在先技术中常用的TF-IDF方法得到的词项权重进行搜索词和搜索无文档的相关性计算，明确的提高了搜索词和搜索文档相关性计算的精度，提升搜索排序质量和用户对搜索结果的点击率。

实施例五

参照图5，示出了本申请的一种词项的权重标注装置实施例的结构框图，具体可以包括如下模块：

词项获取模块510，用于获取待确定权重的各个词项；

词项搜索权重标注模块520，用于结合搜索日志，计算所述各个词项的词项搜索权重，具体包括：

词项特征提取子模块521，用于提取所述各个词项的词项特征；所述词项特征包括词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

优选的，在模型计算词项搜索权重子模块522之前，还包括：

词项搜索权重标注模型训练模块，用于通过词项训练集中的各个词项的所述词项特征训练获得词项搜索权重标注模型。

模型计算词项搜索权重子模块522，用于基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重；所述词项搜索权重标注模型通过词项训练集中的各词项的所述词项特征训练获得。

逆向文件频率计算模块530，用于根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；

权重计算模块540，用于根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。

优选的，所述词项搜索特征包括：词项搜索热度、词项点击率、词项平均点击率、词项作为搜索词的概率其中一个或多个；

优选的，所述词项特征还包括：

实施例六

参照图6，示出了本申请的一种词项的权重标注装置实施例的结构框图，具体可以包括如下模块：

词项搜索权重标注模型训练模块610，用于通过词项训练集中的各个词项的所述词项特征训练词项搜索权重标注模型，具体包括

训练集获取子模块611，用于获取词项训练集；所述词项训练集包括词项和与所述词项相对应的所述词项搜索权重；

词项特征提取子模块612，用于对所述词项训练集中的各个词项，获取与所述词项相对应的词项特征；其中，所述词项特征包括所述词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

模型训练子模块613，用于基于与所述词项相对应的所述词项特征以及所述词项搜索权重进行训练，获得所述词项搜索权重标注模型；

词项获取模块630，用于获取待确定权重的各个词项；

词项搜索权重标注模块640，用于基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重；

逆向文件频率计算模块650，用于根据词项在文档集合中出现的的频率，计算逆向文件频率；

权重计算模块660，用于根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重，具体包括：

权重计算子模块661，用于计算所述逆向文件频率与所述词项搜索权重的乘积，获得词项权重。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种词项的权重标注方法和一种词项的权重标注装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种词项的权重标注方法，其特征在于，

获取待确定权重的各个词项；

结合搜索日志，计算所述各个词项的词项搜索权重；

根据所述各个词项在文档集合中出现的频率，计算所述各个词项的逆向文件频率；

根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重。

2.根据权利要求1所述的方法，其特征在于，所述结合搜索日志，计算所述各个词项的词项搜索权重包括：

提取所述各个词项的词项特征；所述词项特征包括词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重。

3.根据权利要求2所述的方法，其特征在于，在所述基于各个词项的所述词项特征，利用词项搜索权重标注模型计算各个词项的所述词项搜索权重的步骤之前，还包括：

通过词项训练集中的各个词项的所述词项特征训练获得所述词项搜索权重标注模型。

4.根据权利要求3所述的方法，其特征在于，所述通过词项训练集中的各个词项的所述词项特征训练获得所述词项搜索权重标注模型，包括：

获取词项训练集；所述词项训练集包括词项和与所述词项相对应的所述词项搜索权重；

对所述词项训练集中的各个词项，获取与所述词项相对应的词项特征；其中，所述词项特征包括所述词项搜索特征，所述词项搜索特征通过所述搜索日志获取；

基于与所述词项相对应的所述词项特征以及所述词项搜索权重进行训练，获得所述词项搜索权重标注模型。

5.根据权利要求2-4其中之一所述的方法，其特征在于，

6.根据权利要求2-4其中之一所述的方法，其特征在于，所述词项特征还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述各个词项的所述词项搜索权重和所述逆向文件频率，计算词项权重的步骤包括：

计算所述逆向文件频率与所述词项搜索权重的乘积，获得所述词项权重。

8.一种词项的权重标注装置，其特征在于，

词项获取模块，用于获取待确定权重的各个词项；

9.根据权利要求8所述的装置，其特征在于，所述词项搜索权重计算模块包括：

10.根据权利要求9所述的装置，其特征在于，所述词项搜索权重计算模块，还包括：

11.根据权利要求10所述的装置，其特征在于，所述词项搜索权重标注模型训练模块，包括：

12.根据权利要求9-11其中之一所述的装置，其特征在于，

13.根据权利要求9-11其中之一所述的装置，其特征在于，所述词项特征还包括：

14.根据权利要求8所述的装置，其特征在于，所述权重计算模块，包括：