CN110362813B

CN110362813B - 基于bm25的搜索相关性度量方法、存储介质、设备及系统

Info

Publication number: CN110362813B
Application number: CN201810311995.1A
Authority: CN
Inventors: 王璐; 陈少杰; 张文明
Original assignee: Lewanjia Fortune Beijing Technology Co ltd
Current assignee: Lewanjia Fortune Beijing Technology Co ltd
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2023-12-05
Anticipated expiration: 2038-04-09
Also published as: CN110362813A

Abstract

本发明公开了一种基于BM25的搜索相关性度量方法、存储介质、设备及系统，涉及大数据搜索领域，包括对用户的搜索查询文本进行分词处理，得到多个分词；基于得到的分词，对用户的搜索意图匹配的相关性进行计算；对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效。本发明基于BM25算法进行搜索意图识别相关性度量计算，对意图匹配的相关性进行有效衡量。

Description

基于BM25的搜索相关性度量方法、存储介质、设备及系统

技术领域

本发明涉及大数据搜索领域，具体涉及一种基于BM25的搜索相关性度量方法、存储介质、设备及系统。

背景技术

在直播领域，直播服务器可以根据用户的搜索词或短句查询来猜测用户的真实意图，即根本用户的模糊或不太准确的搜索词来猜测用户真实要搜索的内容，通过其真实意图返回给用户更加准确的搜索结果。然而，返回的结果究竟能够在多大程度上反映用户的真实意图是需要进行度量的，如果相关性较差，那么这种识别出来的弱意图产生的实际效用会非常低。因此，我们需要解决的问题是如何对意图匹配的相关性进行衡量，从而判断意图识别的有效性。

不同于直接根据搜索词的文本匹配返回结果的场景，在使用意图识别算法后返回的搜索结果与搜索词之间可能并没有文本上的相关性，因此采用文本距离去衡量相关性就显得十分片面。而采用TF-IDF的搜索意图识别相关性度量方法，虽然可以解决传统相关性度量方法无法适用的问题，然而在该算法中，意图域中词的总数对相关性的影响非常大。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于BM25的搜索相关性度量方法，基于BM25算法进行搜索意图识别相关性度量计算，对意图匹配的相关性进行有效衡量。

为达到以上目的，本发明采取的技术方案是，包括：

对用户的搜索查询文本进行分词处理，得到多个分词；

基于得到的分词，对用户的搜索意图匹配的相关性进行计算：

其中，R_Q为搜索意图匹配相关性得分，t_i表示得到的分词中的第i个分词，H为意图域集合，由多个不同的意图域f组成，表示分词t_i在意图域f中可以匹配到的次数，w_f为意图域f在意图域集合H中的权重，/>是分词t_i的倒排文档频率，K_f＝k₁*(1-b+b*n_f/avg(n_f))，其中，n_f是意图域f中词的个数，k₁和b是调节因子，avg(n_f)是意图域集合中所有意图域的平均含有词个数；

对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效。

在上述技术方案的基础上，对于其计算公式为：

其中，N是在设定时间段内所有分词查询的次数，N(t_i)为在设定时间段内分词t_i的查询次数。

在上述技术方案的基础上，所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。

在上述技术方案的基础上，所述意图域为根据业务经验对用户的搜索意图进行划分的意图集合，且每个意图域由多个索引词组成。

在上述技术方案的基础上，在直播领域的搜索中，意图域集合包括主播意图域和分区意图域。

本发明还提供一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的方法。

本发明还提供一种基于BM25的搜索相关性度量系统，包括：

分词处理模块，其用于对用户的搜索查询文本进行分词处理，得到多个分词；

计算模块，其用于基于得到的分词，对用户的搜索意图匹配的相关性进行计算：

判断模块，其用于对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效。

在上述技术方案的基础上，对于其计算公式为：

与现有技术相比，本发明的优点在于：对用户的搜索查询文本进行分词处理，得到多个分词，然后基于得到的分词，对用户的搜索意图匹配的相关性进行计算，最后对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效，基于BM25算法进行搜索意图识别相关性度量计算，对意图匹配的相关性进行有效衡量，判断意图识别的有效性，计算准确。

附图说明

图1为本发明实施例中一种基于BM25的搜索相关性度量方法的流程图；

图2为本发明实施例中一种基于BM25的搜索相关性度量设备的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种基于BM25的搜索相关性度量方法，用于对搜索意图匹配的相关性进行度量，搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容，例如某用户要搜索某位主播，而不记得该主播的名字，该用户的搜索文本为对该主播的外观描述和直播内容描述，则该用户的搜索意图为该主播的名字。BM25算法是一种常见的查询文本和文档之间相似度的计算方法。本发明实施例的基于BM25的搜索相关性度量方法具体包括以下步骤：

S1：对用户的搜索查询文本进行分词处理，得到多个分词，用户在进行搜索时，所输入的搜索查询文本通常是一段对搜索目标描述性的话，一般由形容词和名词组成，因此可以对用户的搜索查询文本进行拆分，拆分成单个的词语，拆分得到的词语变为分词，若搜索查询文本由2个词语组成，则拆分得到2个分词，如用户的搜索查询文本为户外生存，则分词处理后得到“户外”和“生存”两个分词，若搜索查询文本由2个以上的词语组成，则拆分对应得到2个以上的分词，在一种极端情况下，搜索查询文本为一个词语，则拆分得到的分词为一个，且就是搜索查询文本本身。

S2：基于得到的分词，对用户的搜索意图匹配的相关性进行计算：

其中，R_Q为搜索意图匹配相关性得分，t_i表示得到的分词中的第i个分词，H为意图域集合，由多个不同的意图域f组成，表示分词t_i在意图域f中可以匹配到的次数，即意图域f中与分词t_i相关的词的个数，w_f为意图域f在意图域集合H中的权重，/>是分词t_i的倒排文档频率，K_f＝k₁*(1-b+b*n_f/avg(n_f))，其中，n_f是意图域f中词的个数，k₁和b是调节因子，在对R_Q的计算过程中，结合实际情景，人为对k₁和b进行取值，以满足计算的需要，avg(n_f)是意图域集合中所有意图域的平均含有词个数，意图域集合包括多个意图域。

意图域为根据业务经验对用户的搜索意图进行划分的意图集合，如在直播领域，则对用户的搜索意图划分为主播意图、分区意图等，且每个意图域由多个索引词组成。在直播领域的搜索中，意图域集合包括主播意图域和分区意图域，则与主播相关的分词搜索意图均属于直播意图域。直播中分区包括户外、游戏、颜值等，则与户外、游戏、颜值相关的分词搜索意图均属于分区意图域。

对于其计算公式为：

其中，N是在设定时间段内所有分词查询的次数，N(t_i)为在设定时间段内分词t_i的查询次数，设定的时间段一般为最近30天。

S3：对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效，从而对用户搜索结果的相关性进行有效度量。

以下结合一实例对本发明实施例的基于BM25的搜索相关性度量方法进行具体说明。

假设意图域集合中有三个意图域，每个意图域的词个数以及意图域在意图域集合汇中的权重分别是：

意图域A：词个数为1000，权重为1.0

意图域B：词个数为400，权重为0.5

意图域C：词个数为100，权重为0.8

avg(n_f)＝(1000+400+100)/3＝500

设置调节因子k₁＝0.3,b＝0.5,于是：

K_A＝0.3*(1-0.5+0.5*1000/500)＝0.45

K_B＝0.3*(1-0.5+0.5*400/500)＝0.27

K_C＝0.3*(1-0.5+0.5*100/500)＝0.18

假设用户的搜索查询文本根据分词可以分成两个分词t₁、t₂；

其中t₁匹配到了意图域A中的词语5次，t₂匹配到了意图域B中的词语2次、意图域C中的词语1次；

总共有100000次查询，其中包含词语t₁的查询有100次，包含词语t₂的查询有200次；

于是该次查询的意图匹配相关性得分为：

1.3*(5/1000)/0.45*1.0*log(100000/100)+max(1.3*(2/400)/0.27*0.5,1.3*(1/100)/0.18*0.8)*log(100000/200)＝0.4588

然后将0.4588与设定的阈值进行比较，即可判断用户此次搜索查询的意图识别是否有效，阈值的大小根据具体应用场景灵活设定。

本发明实施例的基于BM25的搜索相关性度量方法，对用户的搜索查询文本进行分词处理，得到多个分词，然后基于得到的分词，对用户的搜索意图匹配的相关性进行计算，最后对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效，基于BM25算法进行搜索意图识别相关性度量计算，对意图匹配的相关性进行有效衡量，判断意图识别的有效性，计算准确。

另外，对应上述基于BM25的搜索相关性度量方法，本发明还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例所述的基于BM25的搜索相关性度量方法的步骤。需要说明的是，所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图2所示，对应上述基于BM25的搜索相关性度量方法，本发明还提供一种基于BM25的搜索相关性度量设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述各实施例的基于BM25的搜索相关性度量方法。

本发明还提供一种基于上述基于BM25的搜索相关性度量方法的基于BM25的搜索相关性度量系统，包括分词处理模块、计算模块和判断模块。

分词处理模块用于对用户的搜索查询文本进行分词处理，得到多个分词；计算模块用于基于得到的分词，对用户的搜索意图匹配的相关性进行计算：

其中，R_Q为搜索意图匹配相关性得分，t_i表示得到的分词中的第i个分词，H为意图域集合，由多个不同的意图域f组成，表示分词t_i在意图域f中可以匹配到的次数，w_f为意图域f在意图域集合H中的权重，/>是分词t_i的倒排文档频率，K_f＝k₁*(1-b+b*n_f/avg(n_f))，其中，n_f是意图域f中词的个数，k₁和b是调节因子，avg(n_f)是意图域集合中所有意图域的平均含有词个数。搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。

判断模块，用于对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效。

对于其计算公式为：

本发明实施例的基于BM25的搜索相关性度量系统，分词处理模块对用户的搜索查询文本进行分词处理，得到多个分词，然后计算模块基于得到的分词，对用户的搜索意图匹配的相关性进行计算，最后判断模块对计算得到的搜索意图匹配相关性得分进行判断，若搜索意图匹配相关性得分大于设定阈值，则用户此次搜索查询的意图识别有效，否则用户此次搜索查询的意图识别无效，基于BM25算法进行搜索意图识别相关性度量计算，对意图匹配的相关性进行有效衡量，判断意图识别的有效性，计算准确。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于BM25的搜索相关性度量方法，用于对搜索意图匹配的相关性进行度量，其特征在于，包括以下步骤：

对用户的搜索查询文本进行分词处理，得到多个分词；

2.如权利要求1所述的一种基于BM25的搜索相关性度量方法，其特征在于：对于其计算公式为：

3.如权利要求1所述的一种基于BM25的搜索相关性度量方法，其特征在于：所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。

4.如权利要求3所述的一种基于BM25的搜索相关性度量方法，其特征在于：所述意图域为根据业务经验对用户的搜索意图进行划分的意图集合，且每个意图域由多个索引词组成。

5.如权利要求4所述的一种基于BM25的搜索相关性度量方法，其特征在于：在直播领域的搜索中，意图域集合包括主播意图域和分区意图域。

6.一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至5任一项所述的方法。

7.一种基于BM25的搜索相关性度量设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的方法。

8.一种基于BM25的搜索相关性度量系统，其特征在于，包括：

9.如权利要求8所述的一种基于BM25的搜索相关性度量系统，其特征在于：对于其计算公式为：

10.如权利要求8所述的一种基于BM25的搜索相关性度量系统，其特征在于：所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。