CN105653553B - 词权重生成方法和装置 - Google Patents

词权重生成方法和装置 Download PDF

Info

Publication number
CN105653553B
CN105653553B CN201410650467.0A CN201410650467A CN105653553B CN 105653553 B CN105653553 B CN 105653553B CN 201410650467 A CN201410650467 A CN 201410650467A CN 105653553 B CN105653553 B CN 105653553B
Authority
CN
China
Prior art keywords
word
segmentation
training
processed
query string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410650467.0A
Other languages
English (en)
Other versions
CN105653553A (zh
Inventor
赵琳
王迪
周连强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410650467.0A priority Critical patent/CN105653553B/zh
Publication of CN105653553A publication Critical patent/CN105653553A/zh
Application granted granted Critical
Publication of CN105653553B publication Critical patent/CN105653553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供了一种词权重生成方法和装置,该方法包括:获取待处理查询串;对所述待处理查询串进行分词处理以获得待处理切分词;将所述待处理切分词和连续多个所述待处理切分词的顺序组合形成待处理词片段的集合;获取所述待处理切分词相对于每个包含该待处理切分词的所述待处理词片段的预训练词权重;根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重。本发明提供的词权重生成方法和装置,考虑了待处理查询串中各个词在该待处理查询串中的词权重,能够准确反映出用户的检索需求,利用该拟合词权重对检索结果排序后使得检索结果更加贴近检索需求,提升检索准确性以及效率。

Description

词权重生成方法和装置
技术领域
本发明涉及互联网信息处理技术领域,特别是涉及一种词权重生成方法和装置。
背景技术
词权重是一个词的重要程度的量化表示,一个词的词权重越大表示这个词越重要。在搜索时词权重是搜索排序的重要依据,比如可以将查询串进行分词处理后按照各个切分词的词权重高低来进行搜索排序,将词权重高的优先显示,可以提供更贴近用户搜索需求的搜索结果。
目前计算词权重一般采用TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文档频率)算法计算获得。TF-IDF算法的主要思想是,如果某个词或短语在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。词频(Term Frequency)指的是某一个给定的词语在该文档中出现的次数或频率,反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。使用TF-IDF算法可以计算出某个词或短语在某篇文档里面的重要性。
然而,目前采用TF-IDF算法计算词权重,仅仅是基于静态语料库的,该静态语料库包含若干事先人为选定的文档。这样计算出的词权重的准确性依赖于静态语料库中的文档,并不能准确反映出词对于广大用户的真实重要程度,从而影响搜索结果的准确性。
发明内容
基于此,有必要针对目前采用TF-IDF算法计算词权重不能准确反映出词对于广大用户的真实重要程度导致影响搜索结果准确性的问题,提供一种词权重生成方法和装置。
一种词权重生成方法,所述方法包括:
获取待处理查询串;
对所述待处理查询串进行分词处理以获得待处理切分词;
将所述待处理切分词和连续多个所述待处理切分词的顺序组合形成待处理词片段的集合;
获取所述待处理切分词相对于每个包含该待处理切分词的所述待处理词片段的预训练词权重;
根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重。
一种词权重生成装置,所述装置包括:
待处理查询串获取模块,用于获取待处理查询串;
待处理查询串分词模块,用于对所述待处理查询串进行分词处理以获得待处理切分词;
待处理词片段生成模块,用于将所述待处理切分词和连续多个所述待处理切分词的顺序组合形成待处理词片段的集合;
预训练词权重获取模块,用于获取所述待处理切分词相对于每个包含该待处理切分词的所述待处理词片段的预训练词权重;
拟合词权重计算模块,用于根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重。
上述词权重生成方法和装置,利用待处理查询串中切分出的各个待处理切分词相对于各个待处理词片段的预训练词权重,来拟合出待处理切分词相对于待处理查询串的拟合词权重。这样考虑了待处理查询串中各个词在该待处理查询串中的词权重,能够准确反映出用户的检索需求,利用该拟合词权重对检索结果排序后使得检索结果更加贴近检索需求,提升检索准确性以及效率。
附图说明
图1为一个实施例中用于实现词权重生成方法的电子设备的内部结构图;
图2为一个实施例中词权重生成方法的流程示意图;
图3为一个具体实例中根据获取的预训练词权重计算出待处理切分词相对于待处理查询串的拟合词权重的步骤的流程示意图;
图4为一个实施例中预先训练获得预训练词权重的步骤的流程示意图;
图5-1为一个具体实例中计算预训练切分词相对于一个主锚文本查询串的切分词权重的步骤的流程示意图;
图5-2为另一个具体实例中计算预训练切分词相对于一个主锚文本查询串的切分词权重的步骤的流程示意图;
图6为一个具体实例中查询串与文档的点击关系的示意图;
图7为一个具体实例中一个查询串中的切分词的重要程度分析示意图;
图8为一个具体实例中根据预训练切分词相对于主锚文本查询串的切分词权重,计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重的步骤的流程示意图;
图9为一个实施例中词权重生成装置的结构框图;
图10为另一个实施例中词权重生成装置的结构框图;
图11为一个实施例中图10中的切分词权重计算模块的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种电子设备,该电子设备包括通过系统总线连接的处理器、内存、存储介质和网络接口。其中,该电子设备的存储介质存储有操作系统、数据库和一种词权重生成装置,该词权重生成装置用于实现一种词权重生成方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存为存储介质中的词权重生成装置提供运行环境。该服务器可以是一个独立的设备,或者可以是多个可互联通信的设备组成的设备群,词权重生成装置的各个功能模块可分别分布在设备群中的各个设备上。该电子设备可以是台式计算机。
如图2所示,在一个实施例中,提供了一种词权重生成方法,本实施例以该方法应用于上述电子设备来举例说明。该方法具体包括如下步骤:
步骤202,获取待处理查询串。
查询串是指具有检索需求的用户所输入的用于表示查询需求的字符串,这里待处理查询串则是用户当下为了检索所需内容而实时录入的查询串。待处理查询串可以包括中文字符、英文字符和标点符号中的至少一种。比如用户为了检索最新的即时通信聊天工具,则在搜索框中录入待处理查询串为“最新版即时通信聊天工具”,或者“即时通信聊天工具”。
步骤204,对待处理查询串进行分词处理以获得待处理切分词。
对待处理查询串进行分词处理,是指从待处理查询串中分离出具有独立意思的词的过程,这里切分出的词为待处理切分词。可以采用已有的分词手段来对待处理查询串进行分词处理,包括但不限于最大匹配分词法、语义分词法和统计分词法。其中最大匹配分词法又包括正向最大匹配分词法、反向最大匹配分词法和最短路径匹配分词法;其主要原理都是从待处理查询串中切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止。
举例来说,将待处理查询串“最新版即时通信聊天工具”进行分词处理可以获得的待处理切分词可为“最新”、“版”、“即时通信”、“聊天”和“工具”。再比如,若待处理查询串为“即时通信聊天工具”,则对其进行分词处理可获得待处理切分词为“即时通信”、“聊天”和“工具”。
步骤206,将待处理切分词和连续多个待处理切分词的顺序组合形成待处理词片段的集合。
连续多个待处理切分词的顺序组合,这里的连续是指该待处理切分词在其所属的待处理查询串中是连续的,顺序组合则是将这连续多个待处理切分词按照其在所属的待处理查询串中的顺序进行组合。为了简化计算,这里连续多个待处理切分词的顺序组合可以都以在待处理查询串中排首位的待处理切分词为前缀。一个待处理词片段可以称为一个FRAG。
举例说明,若从待处理查询串“即时通信聊天工具”中切分出的待处理切分词为“即时通信”、“聊天”和“工具”,则连续多个待处理切分词的顺序组合为“即时通信聊天”和“即时通信聊天工具”,则形成的待处理词片段的集合可为“即时通信”、“聊天”、“工具”、“即时通信聊天”和“即时通信聊天工具”。
步骤208,获取待处理切分词相对于每个包含该待处理切分词的待处理词片段的预训练词权重。
预训练词权重是预先训练获得的词权重。待处理切分词相对于包含该待处理切分词的待处理词片段的预训练词权重,是指预先通过训获得的该待处理切分词在该待处理词片段中的词权重。
在一个实施例中,预训练词权重根据若干锚文本查询串训练获得,若干锚文本查询串均与至少一个相同文档具有点击关系。锚文本(anchor text)是指指向文档的关键词。这里锚文本查询串是指用户在输入了一个查询串之后点击到一个文档,那么该查询串就是该文档的锚文本查询串,这里定义该锚文本查询串与该文档之间具有点击关系。若干锚文本查询串均与至少一个相同文档具有点击关系,也可以说该若干锚文本查询串具有相似点击。比如锚文本查询串ABC与文档doc1和doc2具有点击关系,而查询串CDE与文档doc1和doc3具有点击关系,则锚文本查询串ABC与查询串CDE均与doc1具有点击关系,即锚文本查询串ABC与查询串CDE具有相似点击。
举例来说,参照图3,若根据待处理查询串“即时通信聊天工具”所形成的待处理词片段的集合为“即时通信”、“聊天”、“工具”、“即时通信聊天”和“即时通信聊天工具”。对于待处理切分词“即时通信”,获取到其相对于待处理词片段“即时通信”的预训练词权重为0.70,获取到其相对于待处理词片段“即时通信聊天”的预训练词权重为0.78,获取到其相对于待处理词片段“即时通信聊天工具”的预训练词权重为0.84。对于待处理切分词“聊天”,获取到其相对于待处理词片段“聊天”的预训练词权重为0.76,获取到其相对于待处理词片段“即时通信聊天”的预训练词权重为0.73,获取到其相对于待处理词片段“即时通信聊天工具”的预训练词权重为0.73。对于待处理切分词“工具”,获取到其相对于待处理词片段“工具”的预训练词权重为0.56,获取到其相对于待处理词片段“即时通信聊天工具”的预训练词权重为0.47。
步骤210,根据获取的预训练词权重计算出待处理切分词相对于待处理查询串的拟合词权重。
具体地,对于每个待处理切分词,根据获取到的该待处理切分词所对应的所有预训练词权重来拟合计算该待处理切分词相对于待处理查询串的拟合词权重。步骤210之后,可根据计算出的拟合词权重对根据该待处理查询串所检索到的文档进行排序,可以将排序结果返回给检索侧并显示。
在一个实施例中,步骤210具体包括:对于每个待处理切分词,计算该待处理切分词相对于所有包含有该待处理切分词的待处理词片段的预训练词权重的平均值,以获得该待处理切分词相对于待处理查询串的拟合词权重。
这里的平均值可以是算术平均值,计算的平均值可以直接作为该待处理切分词相对于待处理查询串的拟合词权重,也可以再将其拟合词权重除以所有待处理切分词相对于待处理查询串的拟合词权重中的最大值,以获得最终的该待处理切分词相对于待处理查询串的拟合词权重。
具体可以采用下述公式(1)来计算拟合词权重。公式(1)如下:
Figure BDA0000608408620000061
公式(1)中,TERMi和TERMj表示待处理切分词,i和j分别表示序号,QUERY表示待处理查询串,FRAG表示包含待处理切分词TERMi的待处理词片段。WEIGHT(TERMi,FRAG)表示待处理切分词TERMi相对于待处理词片段的预训练词权重,
Figure BDA0000608408620000062
表示待处理切分词TERMi相对于所有包含有该待处理切分词TERMi的待处理词片段的预训练词权重的和,N表示待处理切分词TERMi相对于所有包含有该待处理切分词TERMi的待处理词片段的数量,那么
Figure BDA0000608408620000063
就表示待处理切分词TERMi相对于所有包含有该待处理切分词的待处理词片段的预训练词权重的算术平均值,将该算术平均值作为待处理切分词TERMi相对于待处理查询串QUERY的拟合词权重中间值WEIGHT(TERMj,QUERY)后,筛选出其中的最大值,再将每个拟合词权重中间值WEIGHT(TERMj,QUERY)除以该最大值,就是最终的待处理切分词TERMi相对于待处理查询串QUERY的拟合词权重WEIGHT(TERMi,QUERY)。
举例说明,参照图3,对于待处理切分词“即时通信”,可以计算其相对于所有包含该“即时通信”的待处理词片段“即时通信”、“即时通信聊天”以及“即时通信聊天工具”的预训练词权重的算术平均值,即WEIGHT(“即时通信”,“即时通信聊天工具”)=1/3*(0.7+0.78+0.84)=0.77。对于待处理切分词“聊天”,可以计算其相对于包含该“聊天”的待处理词片段“聊天”、即时通信聊天”以及“即时通信聊天工具”的预训练词权重的算术平均值,即WEIGHT(“聊天”,“即时通信聊天工具”)=1/3*(0.76+0.73+0.72)=0.74。对于待处理切分词“工具”,可以计算其相对于所有包含该“工具”的待处理词片段“即时通信聊天”以及“即时通信聊天工具”的预训练词权重的算术平均值,即WEIGHT(“工具”,“即时通信聊天工具”)=1/2*(0.56+0.47)=0.52。然后对所有计算出的算术平均值除以算术平均值中的最大值0.77,获得归一化的拟合词权重,即WEIGHT(“即时通信”,“即时通信聊天工具”)=0.77/0.77=1,WEIGHT(“聊天”,“即时通信聊天工具”)=0.74/0.77≈0.96,WEIGHT(“工具”,“即时通信聊天工具”)=0.52/0.77≈0.68。
上述词权重生成方法,利用待处理查询串中切分出的各个待处理切分词相对于各个待处理词片段的预训练词权重,来拟合出待处理切分词相对于待处理查询串的拟合词权重。这样考虑了待处理查询串中各个词在该待处理查询串中的词权重,能够准确反映出用户的检索需求,利用该拟合词权重对检索结果排序后使得检索结果更加贴近检索需求,提升检索准确性以及效率。
如图4所示,在一个实施例中,该词权重生成方法还包括预先训练获得预训练词权重的步骤,具体包括如下步骤:
步骤402,获取主锚文本查询串和属于该主锚文本查询串的子串的子锚文本查询串;主锚文本查询串和子锚文本查询串均与至少一个相同文档具有点击关系。
具体地,本实施例中预训练词权重根据若干锚文本查询串训练获得,若干锚文本查询串均与至少一个相同文档具有点击关系。这里将若干锚文本查询串中包含其他主锚文本查询串的作为主锚文本查询串,而将属于该主锚文本查询串的子串的作为其子锚文本查询串。为了计算方便,这里的子串可以不考虑顺序,比如“聊天工具即时通信”也是“即时通信聊天工具”的子串。
锚文本是指指向文档的关键词。这里锚文本查询串是指用户在输入了一个查询串之后点击到一个文档,那么该查询串就是该文档的锚文本查询串,这里定义该锚文本查询串与该文档之间具有点击关系。若干锚文本查询串均与至少一个相同文档具有点击关系,也可以说该若干锚文本查询串具有相似点击。比如锚文本查询串ABC与文档doc1和doc2具有点击关系,而查询串CDE与文档doc1和doc3具有点击关系,则锚文本查询串ABC与查询串CDE均与doc1具有点击关系,即锚文本查询串ABC与查询串CDE具有相似点击。
主锚文本查询串和子锚文本查询串均与至少一个相同文档具有点击关系,也就是具有相似点击的锚文本查询串之间才具有主锚文本查询串和子锚文本查询串的关系。比如主锚文本查询串“即时通信聊天工具”和子锚文本查询串“聊天工具即时通信”都至少与同一个即时通信聊天工具下载页面具有点击关系。
步骤404,对主锚文本查询串进行分词处理而获得若干预训练切分词。
对主锚文本查询串进行分词处理,是指从主锚文本查询串中分离出具有独立意思的词的过程,这里切分出的词为预训练切分词。可以采用已有的分词手段来对主锚文本查询串进行分词处理,包括但不限于最大匹配分词法、语义分词法和统计分词法。其中最大匹配分词法又包括正向最大匹配分词法、反向最大匹配分词法和最短路径匹配分词法。获得预训练切分词所采用的分词处理方法和获得待处理切分词所采用的分词处理方法可以是一致的。
步骤406,计算每个预训练切分词相对于主锚文本查询串的切分词权重。
预训练切分词相对于主锚文本查询串的切分词权重,是指该预训练切分词在该主锚文本查询串中的词权重。
在一个实施例中,步骤406包括:对于每个预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量;根据统计的数量来计算每个预训练切分词相对于主锚文本查询串的切分词权重。
本实施例中,对于每个预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量,也就是统计该预训练切分词在主锚文本查询串的所有子锚文本查询串中出现的次数,且统计的次数在一个子锚文本查询串中至多统计1次。就是说若子锚文本查询串包含至少一个该预训练切分词,则记为1次,若不包含该预训练切分词则记为0次。
举例来说,参照图5-1,将一个主锚文本查询串“即时通信聊天工具”进行分词而获得若干预训练切分词为“即时通信”、“聊天”和“工具”,该主锚文本查询串的子锚文本查询串有“即时通信”、“即时通信即时通信”和“聊天工具即时通信”,那么经过统计“即时通信”在这3个子锚文本查询串中均出现记为3次,“聊天”和“工具”各自仅出现在这3个子锚文本查询串中的一个,则分别记为1次。将统计的次数除以统计的次数的最大值就可以计算出“即时通信”“聊天”和“工具”各自相对于“即时通信聊天工具”的切分词权重为1.00、0.33和0.33。
类似地,参照图5-1,将一个主锚文本查询串“最新版即时通信聊天工具”进行分词而获得若干预训练切分词为“最新”、“版”、“即时通信”、“聊天”和“工具”,该主锚文本查询串的子锚文本查询串有“即时通信”、“即时通信即时通信”、“即时通信聊天工具”和“聊天工具即时通信”,那么经过统计“即时通信”在这4个子锚文本查询串中均出现记为3次,“聊天”和“工具”各自仅出现在这4个子锚文本查询串中的2个,则分别记为2次,“最新”和“版”没有在这4个子锚文本查询串中出现,均记为0次。将统计的次数除以统计的次数的最大值就可以计算出“即时通信”、“聊天”、“工具”、“最新”和“版”各自相对于“即时通信聊天工具”的切分词权重为1.00、0.50、0.50、0.00和0.00。
计算切分词权重时,考虑到一个词在具有相似点击的锚文本查询串中出现的次数越多,说明该词越重要,预训练切分词相对于主锚文本查询串的切分词权重与统计的数量是正相关的关系。举例来说,参照图6,查询串“即时通信聊天工具”、“即时通信”、“即时通信即时通信”以及“聊天工具即时通信”都与同一个文档具有点击关系。参照图7,可见,在主锚文本查询串“即时通信聊天工具”中,“即时通信”是重要的,它可以反应更多用户的搜索需求,而相对来说“聊天”和“工具”就比较不重要。因此,可以采用以上述统计的次数或者将该统计的次数带入自变量与因变量正相关的函数中所得到的函数值,都可以作为预训练切分词相对于主锚文本查询串的切分词权重。比如可以将统计的数量分别除以一个常数或者分别乘以一个常系数等。
在一个实施例中,根据统计的数量来计算每个预训练切分词相对于主锚文本查询串的切分词权重,包括:将对应于每个预训练切分词所统计的数量除以对应于主锚文本查询串的所有统计的数量中的最大值,以获得该预训练切分词相对于该主锚文本查询串的切分词权重。本实施例中,计算获得归一化的切分词权重,这样最大的切分词权重为1,便于后续应用时计算方便。
具体可以采用下述公式(2)来计算预训练切分词相对于该主锚文本查询串的切分词权重。公式(2)如下:
Figure BDA0000608408620000101
公式(2)中,termi和termj表示预训练切分词,i和j分别表示序号,query表示主锚文本查询串,fre(termi)表示预训练切分词termi在一个子锚文本查询串中是否出现,出现记为1,不出现记为0。
Figure BDA0000608408620000102
则表示统计该预训练切分词termi在主锚文本查询串的所有子锚文本查询串中出现的次数,也就是统计该主锚文本查询串的包含该预训练切分词termi的子锚文本查询串的数量,其中subqanchor表示子锚文本查询串。将统计的出现的次数或者是统计的子锚文本查询串的数量作为预训练切分词TERMi的切分词权重中间值weight(termj,query)后,筛选出其中的最大值,再将每个切分词权重中间值weight(termj,query)除以该最大值,就是最终的预训练切分词termi相对于该主锚文本查询串query的切分词权重weight(termi,query)。
步骤408,将预训练切分词和连续多个预训练切分词的顺序组合形成对应于主锚文本查询串的预训练词片段的集合。
连续多个预训练切分词的顺序组合,这里的连续是指该预训练切分词在其所属的主锚文本查询串中是连续的,顺序组合则是将这连续多个预训练切分词按照其在所属的主锚文本查询串中的顺序进行组合。为了简化计算,这里连续多个预训练切分词的顺序组合可以都以在主锚文本查询串中排首位的预训练切分词为前缀。一个预训练词片段可以称为一个frag。
举例说明,若从主锚文本查询串“即时通信聊天工具”中切分出的预训练切分词为“即时通信”、“聊天”和“工具”,则连续多个预训练切分词的顺序组合为“即时通信聊天”和“即时通信聊天工具”,则形成的预训练词片段的集合可为“即时通信”、“聊天”、“工具”、“即时通信聊天”和“即时通信聊天工具”。
步骤410,根据每个预训练切分词相对于主锚文本查询串的切分词权重,计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储。
计算出切分词权重的目的是为了计算预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重。将计算出的预训练词权对应于该预训练切分词存储,以备执行上述步骤208时使用。
在一个实施例中,步骤410具体包括:对于每个预训练切分词,计算该预训练切分词相对于以包含有该预训练切分词的预训练词片段为子串的所有主锚文本查询串的切分词权重的平均值,以获得该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重并存储;其中,所有主锚文本查询串均与至少一个相同文档具有点击关系。
本实施例中,多个主锚文本查询串具有相似点击,即均与至少一个相同文档具有点击关系。这里的子串可以不考虑词的顺序。本实施例中的平均值可以是算数平均值,计算的平均值可以直接作为该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重。
具体可以采用下述公式(3)来计算预训练词权重。公式(3)如下:
Figure BDA0000608408620000121
公式(3)中,term表示预训练切分词,frag表示预训练词片段,query表示主锚文本查询串,n表示以包含有该预训练切分词term的预训练词片段frag为子串的所有主锚文本查询串query的数量。weight(term,query)表示该预训练切分词term相对于以包含有该预训练切分词term的预训练词片段frag为子串的主锚文本查询串query的切分词权重,
Figure BDA0000608408620000122
则表示该预训练切分词term相对于以包含有该预训练切分词term的预训练词片段frag为子串的所有主锚文本查询串query的切分词权重的算术平均值。weight(term,query)表示预训练切分词term相对于该主锚文本查询串query的切分词权重。
举例来说,参照图8,weight(“聊天”,“即时通信聊天工具”,“即时通信聊天工具”)=weight(“聊天”,“即时通信聊天工具”)=0.33,weight(“聊天”,“即时通信聊天工具”,“最新版即时通信聊天工具”)=weight(“聊天”,“最新版即时通信聊天工具”)=0.5,则weight(“聊天”,“即时通信聊天工具”)=1/2*[weight(“聊天”,“即时通信聊天工具”,“即时通信聊天工具”)+weight(“聊天”,“即时通信聊天工具”,“最新版即时通信聊天工具”)]≈0.41。
类似地,图8中,weight(“工具”,“即时通信聊天工具”,“即时通信聊天工具”)=weight(“工具”,“即时通信聊天工具”)=0.33,weight(“工具”,“即时通信聊天工具”,“最新版即时通信聊天工具”)=weight(“工具”,“最新版即时通信聊天工具”)=0.5,则weight(“工具”,“即时通信聊天工具”)=1/2*[weight(“工具”,“即时通信聊天工具”,“即时通信聊天工具”)+weight(“工具”,“即时通信聊天工具”,“最新版即时通信聊天工具”)]≈0.41。
本实施例中,通过主锚文本查询串和其子锚文本查询串来训练获得预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储,预训练词权重是基于用户点击来训练获得的,可以反映出广大用户检索时录入的锚文本查询串中词的重要程度的不同。这样利用该预训练词权重计算出的拟合词权重,可以更加准确地反映出用户的检索需求,从而进一步提升检索准确性以及效率。
如图9所示,在一个实施例中,提供了一种词权重生成装置900,包括:待处理查询串获取模块901、待处理查询串分词模块902、待处理词片段生成模块903、预训练词权重获取模块904和拟合词权重计算模块905。
待处理查询串获取模块901,用于获取待处理查询串。查询串是指具有检索需求的用户所输入的用于表示查询需求的字符串,这里待处理查询串则是用户当下为了检索所需内容而实时录入的查询串。待处理查询串可以包括中文字符、英文字符和标点符号中的至少一种。
待处理查询串分词模块902,用于对待处理查询串进行分词处理以获得待处理切分词。待处理查询串分词模块902用于对待处理查询串进行分词处理,是指从待处理查询串中分离出具有独立意思的词,这里切分出的词为待处理切分词。可以采用已有的分词手段来对待处理查询串进行分词处理,包括但不限于最大匹配分词法、语义分词法和统计分词法。其中最大匹配分词法又包括正向最大匹配分词法、反向最大匹配分词法和最短路径匹配分词法。待处理查询串分词模块902可用于从待处理查询串中切分出单字串,然后和词库进行比对,如果是一个词就记录下来,否则通过增加或者减少一个单字,继续比较,一直还剩下一个单字则终止。
待处理词片段生成模块903,用于将待处理切分词和连续多个待处理切分词的顺序组合形成待处理词片段的集合。这里的连续是指该待处理切分词在其所属的待处理查询串中是连续的,顺序组合则是将这连续多个待处理切分词按照其在所属的待处理查询串中的顺序进行组合。为了简化计算,这里连续多个待处理切分词的顺序组合可以都以在待处理查询串中排首位的待处理切分词为前缀。一个待处理词片段可以称为一个FRAG。
预训练词权重获取模块904,用于获取待处理切分词相对于每个包含该待处理切分词的待处理词片段的预训练词权重。预训练词权重是预先训练获得的词权重。待处理切分词相对于包含该待处理切分词的待处理词片段的预训练词权重,是指预先通过训获得的该待处理切分词在该待处理词片段中的词权重。
在一个实施例中,预训练词权重根据若干锚文本查询串训练获得,若干锚文本查询串均与至少一个相同文档具有点击关系。
拟合词权重计算模块905,用于根据获取的预训练词权重计算出待处理切分词相对于待处理查询串的拟合词权重。锚文本是指指向文档的关键词。这里锚文本查询串是指用户在输入了一个查询串之后点击到一个文档,那么该查询串就是该文档的锚文本查询串,这里定义该锚文本查询串与该文档之间具有点击关系。若干锚文本查询串均与至少一个相同文档具有点击关系,也可以说该若干锚文本查询串具有相似点击。
具体地,拟合词权重计算模块905用于对于每个待处理切分词,根据获取到的该待处理切分词所对应的所有预训练词权重来拟合计算该待处理切分词相对于待处理查询串的拟合词权重。拟合词权重计算模块905还可用于根据计算出的拟合词权重对根据该待处理查询串所检索到的文档进行排序,可以将排序结果返回给检索侧并显示。
在一个实施例中,拟合词权重计算模块905具体用于对于每个待处理切分词,计算该待处理切分词相对于所有包含有该待处理切分词的待处理词片段的预训练词权重的平均值,获得该待处理切分词相对于待处理查询串的拟合词权重。这里的平均值可以是算术平均值,拟合词权重计算模块905可用于将计算的平均值可以直接作为该待处理切分词相对于待处理查询串的拟合词权重,也可以用于再将其拟合词权重除以所有待处理切分词相对于待处理查询串的拟合词权重中的最大值,以获得最终的该待处理切分词相对于待处理查询串的拟合词权重。拟合词权重计算模块905具体可用于根据上述公式(1)来计算拟合词权重。
如图10所示,在一个实施例中,词权重生成装置900还包括:锚文本查询串获取模块906、主锚文本查询串分词模块907、切分词权重计算模块908、预训练词片段生成模块909和预训练词权重计算模块910。
锚文本查询串获取模块906,用于获取主锚文本查询串和属于该主锚文本查询串的子串的子锚文本查询串;主锚文本查询串和子锚文本查询串均与至少一个相同文档具有点击关系。
具体地,本实施例中预训练词权重根据若干锚文本查询串训练获得,若干锚文本查询串均与至少一个相同文档具有点击关系。这里将若干锚文本查询串中包含其他主锚文本查询串的作为主锚文本查询串,而将属于该主锚文本查询串的子串的作为其子锚文本查询串。为了计算方便,这里的子串可以不考虑顺序。主锚文本查询串和子锚文本查询串均与至少一个相同文档具有点击关系,也就是具有相似点击的锚文本查询串之间才具有主锚文本查询串和子锚文本查询串的关系。
主锚文本查询串分词模块907,用于对主锚文本查询串进行分词处理而获得若干预训练切分词。主锚文本查询串分词模块907用于从主锚文本查询串中分离出具有独立意思的词,这里切分出的词为预训练切分词。可以采用已有的分词手段来对主锚文本查询串进行分词处理,包括但不限于最大匹配分词法、语义分词法和统计分词法。其中最大匹配分词法又包括正向最大匹配分词法、反向最大匹配分词法和最短路径匹配分词法。获得预训练切分词所采用的分词处理方法和获得待处理切分词所采用的分词处理方法可以是一致的。
切分词权重计算模块908,用于计算每个预训练切分词相对于主锚文本查询串的切分词权重。预训练切分词相对于主锚文本查询串的切分词权重,是指该预训练切分词在该主锚文本查询串中的词权重。
预训练词片段生成模块909,用于将预训练切分词和连续多个预训练切分词的顺序组合形成对应于主锚文本查询串的预训练词片段的集合。连续多个预训练切分词的顺序组合,这里的连续是指该预训练切分词在其所属的主锚文本查询串中是连续的,顺序组合则是将这连续多个预训练切分词按照其在所属的主锚文本查询串中的顺序进行组合。为了简化计算,这里连续多个预训练切分词的顺序组合可以都以在主锚文本查询串中排首位的预训练切分词为前缀。一个预训练词片段可以称为一个frag。
预训练词权重计算模块910,用于根据每个预训练切分词相对于主锚文本查询串的切分词权重,计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储。计算出切分词权重的目的是为了计算预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重。
在一个实施例中,预训练词权重计算模块910具体用于对于每个预训练切分词,计算该预训练切分词相对于以包含有该预训练切分词的预训练词片段为子串的所有主锚文本查询串的切分词权重的平均值,以获得该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重并存储;其中,所有主锚文本查询串均与至少一个相同文档具有点击关系。
本实施例中,多个主锚文本查询串具有相似点击,即均与至少一个相同文档具有点击关系。这里的子串可以不考虑词的顺序。本实施例中的平均值可以是算数平均值,预训练词权重计算模块910可用于将计算的平均值直接作为该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重。预训练词权重计算模块910具体可用于采用上述公式(3)来计算预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重。
如图11所示,在一个实施例中,切分词权重计算模块908包括:统计模块908a和计算执行模块908b。
统计模块908a,用于对于每个预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量。本实施例中,统计模块908a用于对于每个预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量,也就是统计该预训练切分词在主锚文本查询串的所有子锚文本查询串中出现的次数,且统计的次数在一个子锚文本查询串中至多统计1次。就是说若子锚文本查询串包含至少一个该预训练切分词,则记为1次,若不包含该预训练切分词则记为0次。
计算执行模块908b,用于根据统计的数量来计算每个预训练切分词相对于主锚文本查询串的切分词权重。计算切分词权重时,考虑到一个词在具有相似点击的锚文本查询串中出现的次数越多,说明该词越重要,预训练切分词相对于主锚文本查询串的切分词权重与统计的数量是正相关的关系。因此,可以采用以上述统计的次数或者将该统计的次数带入自变量与因变量正相关的函数中所得到的函数值,都可以作为预训练切分词相对于主锚文本查询串的切分词权重。比如可以将统计的数量分别除以一个常数或者分别乘以一个常系数等。
在一个实施例中,计算执行模块908b具体用于将对应于每个预训练切分词所统计的数量除以对应于主锚文本查询串的所有统计的数量中的最大值,以获得该预训练切分词相对于该主锚文本查询串的切分词权重。本实施例中,计算获得归一化的切分词权重,这样最大的切分词权重为1,便于后续应用时计算方便。计算执行模块908b具体可用于采用上述公式(2)来计算预训练切分词相对于该主锚文本查询串的切分词权重。
上述词权重生成装置900,利用待处理查询串中切分出的各个待处理切分词相对于各个待处理词片段的预训练词权重,来拟合出待处理切分词相对于待处理查询串的拟合词权重。这样考虑了待处理查询串中各个词在该待处理查询串中的词权重,能够准确反映出用户的检索需求,利用该拟合词权重对检索结果排序后使得检索结果更加贴近检索需求,提升检索准确性以及效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种词权重生成方法,所述方法包括:
获取待处理查询串;
对所述待处理查询串进行分词处理以获得待处理切分词;
将所述待处理切分词和连续多个所述待处理切分词的顺序组合形成待处理词片段的集合;
获取所述待处理切分词相对于每个包含该待处理切分词的所述待处理词片段的预训练词权重;所述预训练词权重是预先通过主锚文本查询串和所述主锚文本查询串的子锚文本查询串训练获得的词权重;
根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重;所述拟合词权重是利用各个所述待处理切分词相对于各个所述待处理词片段的所述预训练词权重拟合出的词权重。
2.根据权利要求1所述的方法,其特征在于,所述预训练词权重根据若干锚文本查询串训练获得,所述若干锚文本查询串均与至少一个相同文档具有点击关系。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取主锚文本查询串和属于该主锚文本查询串的子串的子锚文本查询串;所述主锚文本查询串和所述子锚文本查询串均与至少一个相同文档具有点击关系;
对所述主锚文本查询串进行分词处理而获得若干预训练切分词;
计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重;
将所述预训练切分词和连续多个所述预训练切分词的顺序组合形成对应于所述主锚文本查询串的预训练词片段的集合;
根据每个所述预训练切分词相对于所述主锚文本查询串的切分词权重,计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储。
4.根据权利要求3所述的方法,其特征在于,所述计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重,包括:
对于每个所述预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量;
根据所述统计的数量来计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重。
5.根据权利要求4所述的方法,其特征在于,所述根据所述统计的数量来计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重,包括:
将对应于每个所述预训练切分词所统计的数量除以对应于所述主锚文本查询串的所有统计的数量中的最大值,以获得该预训练切分词相对于该主锚文本查询串的切分词权重。
6.根据权利要求3所述的方法,其特征在于,所述根据每个所述预训练切分词相对于所述主锚文本查询串的切分词权重计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储,包括:
对于每个所述预训练切分词,计算该预训练切分词相对于以包含有该预训练切分词的预训练词片段为子串的所有主锚文本查询串的切分词权重的平均值,以获得该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重并存储;其中,所述所有主锚文本查询串均与至少一个相同文档具有点击关系。
7.根据权利要求1所述的方法,其特征在于,所述根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重,包括:
对于每个所述待处理切分词,计算该待处理切分词相对于所有包含有该待处理切分词的待处理词片段的预训练词权重的平均值,获得该待处理切分词相对于所述待处理查询串的拟合词权重。
8.一种词权重生成装置,其特征在于,所述装置包括:
待处理查询串获取模块,用于获取待处理查询串;
待处理查询串分词模块,用于对所述待处理查询串进行分词处理以获得待处理切分词;
待处理词片段生成模块,用于将所述待处理切分词和连续多个所述待处理切分词的顺序组合形成待处理词片段的集合;
预训练词权重获取模块,用于获取所述待处理切分词相对于每个包含该待处理切分词的所述待处理词片段的预训练词权重;所述预训练词权重是预先通过主锚文本查询串和所述主锚文本查询串的子锚文本查询串训练获得的词权重;
拟合词权重计算模块,用于根据所述获取的预训练词权重计算出所述待处理切分词相对于所述待处理查询串的拟合词权重;所述拟合词权重是利用各个所述待处理切分词相对于各个所述待处理词片段的所述预训练词权重拟合出的词权重。
9.根据权利要求8所述的装置,其特征在于,所述预训练词权重根据若干锚文本查询串训练获得,所述若干锚文本查询串均与至少一个相同文档具有点击关系。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
锚文本查询串获取模块,用于获取主锚文本查询串和属于该主锚文本查询串的子串的子锚文本查询串;所述主锚文本查询串和所述子锚文本查询串均与至少一个相同文档具有点击关系;
主锚文本查询串分词模块,用于对所述主锚文本查询串进行分词处理而获得若干预训练切分词;
切分词权重计算模块,用于计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重;
预训练词片段生成模块,用于将所述预训练切分词和连续多个所述预训练切分词的顺序组合形成对应于所述主锚文本查询串的预训练词片段的集合;
预训练词权重计算模块,用于根据每个所述预训练切分词相对于所述主锚文本查询串的切分词权重,计算该预训练切分词相对于包含该预训练切分词的预训练词片段的预训练词权重并存储。
11.根据权利要求10所述的装置,其特征在于,所述切分词权重计算模块包括:
统计模块,用于对于每个所述预训练切分词,统计包含该预训练切分词的子锚文本查询串的数量;
计算执行模块,用于根据所述统计的数量来计算每个所述预训练切分词相对于所述主锚文本查询串的切分词权重。
12.根据权利要求11所述的装置,其特征在于,所述计算执行模块具体用于将对应于每个所述预训练切分词所统计的数量除以对应于所述主锚文本查询串的所有统计的数量中的最大值,以获得该预训练切分词相对于该主锚文本查询串的切分词权重。
13.根据权利要求10所述的装置,其特征在于,所述预训练词权重计算模块具体用于对于每个所述预训练切分词,计算该预训练切分词相对于以包含有该预训练切分词的预训练词片段为子串的所有主锚文本查询串的切分词权重的平均值,以获得该预训练切分词相对于以该预训练切分词为子串的预训练词片段的预训练词权重并存储;其中,所述所有主锚文本查询串均与至少一个相同文档具有点击关系。
14.根据权利要求8所述的装置,其特征在于,所述拟合词权重计算模块具体用于对于每个所述待处理切分词,计算该待处理切分词相对于所有包含有该待处理切分词的待处理词片段的预训练词权重的平均值,获得该待处理切分词相对于所述待处理查询串的拟合词权重。
15.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
16.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201410650467.0A 2014-11-14 2014-11-14 词权重生成方法和装置 Active CN105653553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410650467.0A CN105653553B (zh) 2014-11-14 2014-11-14 词权重生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410650467.0A CN105653553B (zh) 2014-11-14 2014-11-14 词权重生成方法和装置

Publications (2)

Publication Number Publication Date
CN105653553A CN105653553A (zh) 2016-06-08
CN105653553B true CN105653553B (zh) 2020-04-03

Family

ID=56480001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410650467.0A Active CN105653553B (zh) 2014-11-14 2014-11-14 词权重生成方法和装置

Country Status (1)

Country Link
CN (1) CN105653553B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956195B (zh) * 2016-06-17 2019-03-29 广州视源电子科技股份有限公司 简历搜索方法和装置
CN109948036B (zh) * 2017-11-15 2022-10-04 腾讯科技(深圳)有限公司 一种分词词项权重的计算方法和装置
CN110020420B (zh) * 2018-01-10 2023-07-21 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN111680130A (zh) * 2020-06-16 2020-09-18 深圳前海微众银行股份有限公司 文本检索方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737021A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425691B (zh) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737021A (zh) * 2011-03-31 2012-10-17 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN103544309A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种中文垂直搜索的检索串拆分方法

Also Published As

Publication number Publication date
CN105653553A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
US20190362267A1 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
KR101109236B1 (ko) 복수-의미 질의에 대한 관련 용어 제안
US20100205198A1 (en) Search query disambiguation
CN110287309B (zh) 快速提取文本摘要的方法
US20080189273A1 (en) System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
WO2019217096A1 (en) System and method for automatically responding to user requests
Bailey et al. Mining historic query trails to label long and rare search engine queries
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
US20130036076A1 (en) Method for keyword extraction
US7818278B2 (en) Large scale item representation matching
WO2014028860A2 (en) System and method for matching data using probabilistic modeling techniques
WO2011152925A2 (en) Detection of junk in search result ranking
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
US20110145269A1 (en) System and method for quickly determining a subset of irrelevant data from large data content
WO2011091442A1 (en) System and method for optimizing search objects submitted to a data resource
US20170193291A1 (en) System and Methods for Determining Language Classification of Text Content in Documents
CN105653553B (zh) 词权重生成方法和装置
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN109522275B (zh) 基于用户生产内容的标签挖掘方法、电子设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US10474700B2 (en) Robust stream filtering based on reference document
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant