CN106599304B

CN106599304B - 一种针对中小型网站的模块化用户检索意图建模方法

Info

Publication number: CN106599304B
Application number: CN201611244184.1A
Authority: CN
Inventors: 郭克华; 李婷
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2020-03-24
Anticipated expiration: 2036-12-29
Also published as: CN106599304A

Abstract

本发明公开了一种针对中小型网站的模块化用户检索意图建模方法，基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型，取得了不要求用户进行额外的反馈操作，在用户正常检索时可以实现用户意图的即时建模过程的进步，达到了不需要用户任何反馈的条件下，为用户推荐更满意的检索结果的效果，节省了用户查找目标结果的时间和精力，提高了用户查询的效率，以及使得目标结果更符合用户检索意图。

Description

一种针对中小型网站的模块化用户检索意图建模方法

技术领域

本发明涉及计算机领域，特别是一种针对中小型网站的模块化用户检索意图建模方法。

背景技术

近年来，各大型搜索引擎公司始终致力于搜索引擎算法的优化，来预测用户搜索意图。与大型搜索引擎公司相比，中小型网站投入成本一般较低，在网站建设和维护中常忽略搜索算法的优化，用户在浏览这些网站时，可能耗费更多的精力和时间来得到符合自己检索意图的结果。因此，就需要为中小型网站提供一种检索优化方法，使其能为用户提供更加优质的检索服务。

目前，成熟的商用搜索引擎在用户检索意图研究方面颇有成果，已经提出的技术方案主要有以下几种：将用户查询意图分为导航类、信息类和事务类三种；通过分析用户搜索上下文猜测其检索意图；将查询结果分类后让用户粗略选择，并以此为依据对结果再提取；通过分析Web日志得到用户历史模型；通过分析浏览器的公共查询日志和用户个人查询活动来理解用户意图。对于中小型网站的优化，提出的技术有：基于缓冲、压缩编码等技术或思想的系统优化策略；站内优化策略和站外优化策略。这些方法都是对网站设计方案的研究。对于中小型网站的文本检索通常采用的检索模式是将用户输入的查询条件作为查询依据，仅以用户提交的关键词与数据库中的数据进行匹配，得到查询结果列表。

成熟的商用搜索引擎在用户检索意图研究方面提出的技术方案并未广泛应用于中小型网站的优化；对于中小型网站提出的技术方案都是对网站设计方案的研究。而针对中小型网站的文本检索所采用的检索模式仅以用户提交的关键词作为查询依据，较少考虑用户检索意图。一般情况下，用户只输入简短的词语作为查询条件，这样就导致在该检索模式下的检索结果滥而不准，用户则需要耗费更多的时间和精力去通过查看链接的详细信息来查找目标结果。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种针对中小型网站的模块化用户检索意图建模方法。

为解决上述技术问题，本发明所采用的技术方案是：一种针对中小型网站的模块化用户检索意图建模方法，包括以下步骤：

1)将从用户与中小型网站服务器交互中提取的文本信息记为T，从文本T中提取初始关键词集K₁＝{(k_i,w₁(k_i))|1≤i≤R}，其中，k_i代表第i个关键词，R表示集合K₁的元素个数，w₁(k_i)表示关键词k_i的权重值，w₁(k_i)的值等于词语k_i的交叉信息熵值TFIDF(k_i)，并计算关键词的词性因子权重p(k_i)、词语k_i在文本T中的频率freq(k_i)和TFIDF(k_i)；

2)计算K₁＝{(k_i,w₁(k_i))|1≤i≤R}中各关键词的综合权重值w(k_i)，得到关键词集K₂＝{(k_i,w(k_i))|1≤i≤R}；k_i的综合权重值计算公式如下：

w(k_i)＝a*F(k_i)+b*P(k_i)+c*S(k_i)+d*L(k_i)+e*TFIDF(k_i)；

其中，a、b、c、d、e分别为各特征权重的比例系数；F(k_i)为词语k_i的词频权重；S(k_i)为词语k_i的词跨度权重；L(k_i)为词语k_i的词位置权重；

3)对所述关键词集K₂＝{(k_i,w(k_i))|1≤i≤R}进行遍历，从第i个关键词k_i开始判断，将第i个之后的关键词k_j依次与k_i进行比较，其中i+1≤j≤R；若k_i包含k_j，且w(k_i)>w(k_j)，则将k_i加入到过滤后的关键词集中；否则，若k_j包含k_i，且w(k_j)>w(k_i)，则将k_j加入到过滤后的关键词集中；若上述两种情况都不满足，则将k_i和k_j都加入到过滤后的关键词集中，直到第i个之后的关键词全部和第i个比较完毕；当关键词集K₂中的元素全部遍历一遍之后，结束，最后返回过滤后的关键词集K＝{(k_r,w(k_r))|1≤r≤M}，其中M表示集合K中的元素个数；

4)按降序对集合K中关键词的综合权重值w(k_r)排序，得到向量U＝[w₁,w₂,…,w_M]，即为用户意图模型，其中w₁,w₂,…,w_M分别对应排好序的K中关键词的综合权重值w(k_r)；

5)遍历文本的特征向量T_i＝[w_t1,w_t2,…,w_tM]，依次判断w_ti是否为0，若不为0，则将用户意图模型U＝[w₁,w₂,…,w_M]中对应的w_i除以1+w_i，直到T_i中所有的元素遍历完成，将所求的w_i/1+w_i求和，得到一个值w_sum；再将用户意图模型U＝[w₁,w₂,…,w_M]中所有的w_i除以1+w_i，并求和，即

最后将w_sum除以

即得到用户意图模型与文本的特征向量T_i的加权海明距离dis(U,T_i)；

6)利用以下公式计算U与T_i的最终相似度值Sim(U,T_i)：

Sim(U,T_i)＝p₁*W(T_i,U)+p₂*dis(U,T_i)；

其中，p₁、p₂为比例系数；

7)将集合Ts中的所有文本按Sim(U,T_i)降序排列并返回给用户，从而实现基于用户意图检索的建模过程。

本发明中，a＝1.5，b＝1.1，c＝0.8，d＝1.0，e＝0.8；p₁＝p₂＝1.0。

与现有技术相比，本发明所具有的有益效果为：本发明由于采用了基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型，取得了不要求用户进行额外的反馈操作，在用户正常检索时可以实现用户意图的即时建模过程的进步，在不需要用户任何反馈的条件下，为用户推荐更满意的检索结果的效果，节省了用户查找目标结果的时间和精力，提高了用户查询的效率，以及使得目标结果更符合用户检索意图。

附图说明

图1为本发明基于用户意图检索系统流程图；

图2为本发明关键词提取过程；

图3为本发明模块包图。

具体实施方式

基于中小型网站网页结构简单的特点，本发明通过充分分析用户与服务器交互过程中的访问行为，从中挖掘出用户意图模型。该模型采用结合交互信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法。它首先从用户浏览的网页中提取出关键词集并建立意图模型。然后将新关键词集作为查询条件重新检索，最后对检索结果重新排序，从而为用户提供更加符合用户检索意图的结果。该方案不要求用户进行额外的反馈操作，在用户正常检索时可以实现用户意图的即时建模过程。其具体流程如附图中的图1。该技术实现方案包括三部分：关键词提取、结果集排序和系统模块化。

关键词提取部分采用结合交叉信息熵和词语特征信息的方法计算关键词权重，用户浏览网页可以反映其兴趣方向，因此，利用该网页中的文本信息建立用户意图模型。关键词提取过程如附图中的图2。

NLPIR分词系统在提取关键词采用的是交叉信息熵算法，较少考虑词语特征信息，本发明同时考虑词语特征信息和交叉信息熵来决定关键词权重。对于词的特征信息，考虑以下方面：(1)词频权重(2)词性因子权重(3)词位置权重(4)词跨度权重。具体定义如下：

(1)词频权重(F)

F(k_i)＝freq(k_i)/(1+freq(k_i))

其中，freq(k_i)表示词语k_i在T中的频率。

(2)词性因子权重(P)

(3)词位置权重(L)

(4)词跨度权重(S)

S(k_i)＝(last(k_i)-first(k_i))/N

其中，last(k_i)、first(k_i)分别表示词语k_i最后一次和第一次出现在从用户与中小型网站服务器交互中提取的文本信息中的位置，N表示提取的文本信息分词后词语的总数。

关键词提取步骤如下。

第一步：利用网络爬虫将从用户与中小型网站服务器交互中提取的文本信息记为T，利用NLPIR分词系统从文本T中提取初始关键词集K₁＝{(k_i,w₁(k_i))|1≤i≤R}，其中，k_i代表第i个关键词，R表示集合K₁的元素个数，w₁(k_i)表示关键词k_i的权重值，w₁(k_i)的值等于词语k_i的交叉信息熵值TFIDF(k_i)。并保留由NLPIR系统分析计算得到的关键词的p(k_i)、freq(k_i)和TFIDF(k_i)。

第二步：计算K₁＝{(k_i,w₁(k_i))|1≤i≤R}中各关键词的综合权重值w(k_i)，得到K₂＝{(k_i,w(k_i))|1≤i≤R}。k_i的综合权重值计算公式如下：

w(k_i)＝a*F(k_i)+b*P(k_i)+c*S(k_i)+d*L(k_i)+e*TFIDF(k_i)

其中，a、b、c、d、e分别为各特征权重的比例系数，用来调节不同特征权重对于综合权重的重要程度，在此公式中，设置各比例系数为：a＝1.5，b＝1.1，c＝0.8，d＝1.0，e＝0.8。TFIDF(k_i)已由第一步计算得到。

第三步：为了消除同一关键词重复提取和父串子串共现问题，采用如下算法进行父串子串过滤：

对第二步计算所得的关键词集K₂＝{(k_i,w(k_i))|1≤i≤R}进行遍历，从第i个关键词k_i(1≤i≤R)开始判断，将第i个之后的关键词k_j(i+1≤j≤R)依次与k_i进行比较；若k_i包含k_j，且w(k_i)>w(k_j)，则将k_i加入到过滤后的关键词集中；否则，若k_j包含k_i，且w(k_j)>w(k_i)，则将k_j加入到过滤后的关键词集中；若上述两种情况都不满足，则将k_i和k_j都加入到过滤后的关键词集中，直到第i个之后的关键词全部和第i个比较完毕。当K₂中的元素全部遍历一遍之后算法结束，最后返回过滤后的关键词集K＝{(k_r,w(k_r))|1≤r≤M}，其中M表示集合K中的元素个数。

第四步：按降序对集合K中关键词的综合权重值w(k_r)排序，得到向量U＝[w₁,w₂,…,w_M]，即为用户意图模型，其中w₁,w₂,…,w_M分别对应排好序的K中关键词的综合权重值w(k_r)。

在结果集排序算法模型中，把利用关键词提取算法提取出的K中的Q(1≤Q≤M)个元素作为重新检索的条件在该搜索引擎中重新检索，得到Ts＝{t_i|1≤i≤H},t_i表示Ts中第i个文本信息，H表示Ts中文本个数，采用上述方法计算每个文本的特征向量T_i＝[w_t1,w_t2,…,w_tM]。然后采用余弦相似性与加权海明距离相结合的方法计算Ts中每个文本与U的相似度大小Sim(U,T_i)。T_i与U的余弦相似度计算公式如下：

由关键词提取部分得到的U中的特征值按降序排列，而余弦相似性方法未考虑不同关键词的重要性差异，因此，本发明采用加权海明距离算法来弥补该不足点。加权海明距离指按照关键词作用不同，在海明距离基础上添加合适的权值，然后对不同的关键词的权值进行求和计算。不同位置关键词的距离权值定义为：

本发明中计算两个文本空间向量的加权海明距离算法如下：

遍历文本的特征向量T_i＝[w_t1,w_t2,…,w_tM]，依次判断w_ti是否为0，若不为0，则将用户意图模型U＝[w₁,w₂,…,w_M]中对应的w_i除以1+w_i，直到T_i中所有的元素遍历完成，将所求的w_i/1+w_i求和，得到一个值w_sum；再将用户意图模型U＝[w₁,w₂,…,w_M]中所有的w_i除以1+w_i，并求和，即

最后将所得的w_sum除以

即可得到用户意图模型与文本的特征向量T_i的加权海明距离dis(U,T_i)。

利用以下公式计算U与T_i的最终相似度值Sim(U,T_i)：

Sim(U,T_i)＝p₁*W(T_i,U)+p₂*dis(U,T_i)

其中，p₁、p₂为比例系数，并取p₁＝p₂＝1.0。

最后将集合Ts中的所有文本按Sim(U,T_i)降序排列并返回给用户，从而实现基于用户意图检索的建模过程。

对于系统模块化部分，由于不同的中小型网站采用不同的开发技术，且拥有各自的系统框架，如果将本发明的基于用户意图建模方法分别在不同的中小型网站实现，可能会导致大量的代码修改或增加。因此，本发明将该方法进行模块化处理，网站开发者只需进行少量配置和代码增加就可以实现中小型网站搜索性能的优化。模块化结构图如附图3。

利用该模块对中小型网站进行优化的步骤如下。

第一步：将mainpackage包和nlpir包放入工程中。

第二步：在工程中添加过滤器并在web.xml中配置。

第三步：新建一个web页面用于显示推荐结果。

Claims

1.一种针对中小型网站的模块化用户检索意图建模方法，其特征在于，包括以下步骤：

w(k_i)＝a*F(k_i)+b*P(k_i)+c*S(k_i)+d*L(k_i)+e*TFIDF(k_i)；

3)对所述关键词集K₂＝{(k_i,w(k_i))|1≤i≤R}进行遍历，从第i个关键词k_i开始判断，将第i个之后的关键词k_j依次与k_i进行比较，其中i+1≤j≤R；若k_i包含k_j，且w(k_i)>w(k_j)，则将k_i加入到过滤后的关键词集中；否则，若k_j包含k_i，且w(k_j)>w(k_i)，则将k_j加入到过滤后的关键词集中；若上述两种情况都不满足，则将k_i和k_j都加入到过滤后的关键词集中，直到第i个之后的关键词全部和第i个比较完毕；当关键词集K₂中的元素全部遍历一遍之后，结束，最后返回过滤后的关键词集K＝{(k_r,w(k_r))|1≤r≤M}，其中M表示集合K中的元素个数；将K中的Q个元素作为重新检索的条件在搜索引擎中重新检索，得到Ts＝{t_i|1≤i≤H},t_i表示Ts中第i个文本信息，H表示Ts中文本个数；1≤Q≤M；

最后将w_sum除以

6)利用以下公式计算U与T_i的最终相似度值Sim(U,T_i)：

Sim(U,T_i)＝p₁*W(T_i,U)+p₂*dis(U,T_i)；

其中，p₁、p₂为比例系数；

2.根据权利要求1所述的针对中小型网站的模块化用户检索意图建模方法，其特征在于，a＝1.5，b＝1.1，c＝0.8，d＝1.0，e＝0.8。

3.根据权利要求1所述的针对中小型网站的模块化用户检索意图建模方法，其特征在于，p₁＝p₂＝1.0。