CN106599304B - 一种针对中小型网站的模块化用户检索意图建模方法 - Google Patents

一种针对中小型网站的模块化用户检索意图建模方法 Download PDF

Info

Publication number
CN106599304B
CN106599304B CN201611244184.1A CN201611244184A CN106599304B CN 106599304 B CN106599304 B CN 106599304B CN 201611244184 A CN201611244184 A CN 201611244184A CN 106599304 B CN106599304 B CN 106599304B
Authority
CN
China
Prior art keywords
user
keyword
intention
word
medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611244184.1A
Other languages
English (en)
Other versions
CN106599304A (zh
Inventor
郭克华
李婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201611244184.1A priority Critical patent/CN106599304B/zh
Publication of CN106599304A publication Critical patent/CN106599304A/zh
Application granted granted Critical
Publication of CN106599304B publication Critical patent/CN106599304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对中小型网站的模块化用户检索意图建模方法,基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,达到了不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。

Description

一种针对中小型网站的模块化用户检索意图建模方法
技术领域
本发明涉及计算机领域,特别是一种针对中小型网站的模块化用户检索意图建模方法。
背景技术
近年来,各大型搜索引擎公司始终致力于搜索引擎算法的优化,来预测用户搜索意图。与大型搜索引擎公司相比,中小型网站投入成本一般较低,在网站建设和维护中常忽略搜索算法的优化,用户在浏览这些网站时,可能耗费更多的精力和时间来得到符合自己检索意图的结果。因此,就需要为中小型网站提供一种检索优化方法,使其能为用户提供更加优质的检索服务。
目前,成熟的商用搜索引擎在用户检索意图研究方面颇有成果,已经提出的技术方案主要有以下几种:将用户查询意图分为导航类、信息类和事务类三种;通过分析用户搜索上下文猜测其检索意图;将查询结果分类后让用户粗略选择,并以此为依据对结果再提取;通过分析Web日志得到用户历史模型;通过分析浏览器的公共查询日志和用户个人查询活动来理解用户意图。对于中小型网站的优化,提出的技术有:基于缓冲、压缩编码等技术或思想的系统优化策略;站内优化策略和站外优化策略。这些方法都是对网站设计方案的研究。对于中小型网站的文本检索通常采用的检索模式是将用户输入的查询条件作为查询依据,仅以用户提交的关键词与数据库中的数据进行匹配,得到查询结果列表。
成熟的商用搜索引擎在用户检索意图研究方面提出的技术方案并未广泛应用于中小型网站的优化;对于中小型网站提出的技术方案都是对网站设计方案的研究。而针对中小型网站的文本检索所采用的检索模式仅以用户提交的关键词作为查询依据,较少考虑用户检索意图。一般情况下,用户只输入简短的词语作为查询条件,这样就导致在该检索模式下的检索结果滥而不准,用户则需要耗费更多的时间和精力去通过查看链接的详细信息来查找目标结果。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种针对中小型网站的模块化用户检索意图建模方法。
为解决上述技术问题,本发明所采用的技术方案是:一种针对中小型网站的模块化用户检索意图建模方法,包括以下步骤:
1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);
2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:
w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);
其中,a、b、c、d、e分别为各特征权重的比例系数;F(ki)为词语ki的词频权重;S(ki)为词语ki的词跨度权重;L(ki)为词语ki的词位置权重;
3)对所述关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki开始判断,将第i个之后的关键词kj依次与ki进行比较,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕;当关键词集K2中的元素全部遍历一遍之后,结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数;
4)按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr);
5)遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即
Figure BDA0001196785010000021
最后将w_sum除以
Figure BDA0001196785010000022
即得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti);
6)利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):
Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);
其中,p1、p2为比例系数;
Figure BDA0001196785010000031
Figure BDA0001196785010000032
7)将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。
本发明中,a=1.5,b=1.1,c=0.8,d=1.0,e=0.8;p1=p2=1.0。
与现有技术相比,本发明所具有的有益效果为:本发明由于采用了基于结合交叉信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法的用户意图检索模型,取得了不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程的进步,在不需要用户任何反馈的条件下,为用户推荐更满意的检索结果的效果,节省了用户查找目标结果的时间和精力,提高了用户查询的效率,以及使得目标结果更符合用户检索意图。
附图说明
图1为本发明基于用户意图检索系统流程图;
图2为本发明关键词提取过程;
图3为本发明模块包图。
具体实施方式
基于中小型网站网页结构简单的特点,本发明通过充分分析用户与服务器交互过程中的访问行为,从中挖掘出用户意图模型。该模型采用结合交互信息熵和词语特征信息的关键词提取方法以及结合余弦相似度和加权海明距离的文本排序方法。它首先从用户浏览的网页中提取出关键词集并建立意图模型。然后将新关键词集作为查询条件重新检索,最后对检索结果重新排序,从而为用户提供更加符合用户检索意图的结果。该方案不要求用户进行额外的反馈操作,在用户正常检索时可以实现用户意图的即时建模过程。其具体流程如附图中的图1。该技术实现方案包括三部分:关键词提取、结果集排序和系统模块化。
关键词提取部分采用结合交叉信息熵和词语特征信息的方法计算关键词权重,用户浏览网页可以反映其兴趣方向,因此,利用该网页中的文本信息建立用户意图模型。关键词提取过程如附图中的图2。
NLPIR分词系统在提取关键词采用的是交叉信息熵算法,较少考虑词语特征信息,本发明同时考虑词语特征信息和交叉信息熵来决定关键词权重。对于词的特征信息,考虑以下方面:(1)词频权重(2)词性因子权重(3)词位置权重(4)词跨度权重。具体定义如下:
(1)词频权重(F)
F(ki)=freq(ki)/(1+freq(ki))
其中,freq(ki)表示词语ki在T中的频率。
(2)词性因子权重(P)
Figure BDA0001196785010000041
(3)词位置权重(L)
Figure BDA0001196785010000042
(4)词跨度权重(S)
S(ki)=(last(ki)-first(ki))/N
其中,last(ki)、first(ki)分别表示词语ki最后一次和第一次出现在从用户与中小型网站服务器交互中提取的文本信息中的位置,N表示提取的文本信息分词后词语的总数。
关键词提取步骤如下。
第一步:利用网络爬虫将从用户与中小型网站服务器交互中提取的文本信息记为T,利用NLPIR分词系统从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki)。并保留由NLPIR系统分析计算得到的关键词的p(ki)、freq(ki)和TFIDF(ki)。
第二步:计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到K2={(ki,w(ki))|1≤i≤R}。ki的综合权重值计算公式如下:
w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki)
其中,a、b、c、d、e分别为各特征权重的比例系数,用来调节不同特征权重对于综合权重的重要程度,在此公式中,设置各比例系数为:a=1.5,b=1.1,c=0.8,d=1.0,e=0.8。TFIDF(ki)已由第一步计算得到。
第三步:为了消除同一关键词重复提取和父串子串共现问题,采用如下算法进行父串子串过滤:
对第二步计算所得的关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki(1≤i≤R)开始判断,将第i个之后的关键词kj(i+1≤j≤R)依次与ki进行比较;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕。当K2中的元素全部遍历一遍之后算法结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数。
第四步:按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr)。
在结果集排序算法模型中,把利用关键词提取算法提取出的K中的Q(1≤Q≤M)个元素作为重新检索的条件在该搜索引擎中重新检索,得到Ts={ti|1≤i≤H},ti表示Ts中第i个文本信息,H表示Ts中文本个数,采用上述方法计算每个文本的特征向量Ti=[wt1,wt2,…,wtM]。然后采用余弦相似性与加权海明距离相结合的方法计算Ts中每个文本与U的相似度大小Sim(U,Ti)。Ti与U的余弦相似度计算公式如下:
Figure BDA0001196785010000051
Figure BDA0001196785010000052
由关键词提取部分得到的U中的特征值按降序排列,而余弦相似性方法未考虑不同关键词的重要性差异,因此,本发明采用加权海明距离算法来弥补该不足点。加权海明距离指按照关键词作用不同,在海明距离基础上添加合适的权值,然后对不同的关键词的权值进行求和计算。不同位置关键词的距离权值定义为:
Figure BDA0001196785010000053
本发明中计算两个文本空间向量的加权海明距离算法如下:
遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即
Figure BDA0001196785010000061
最后将所得的w_sum除以
Figure BDA0001196785010000062
即可得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti)。
利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):
Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti)
其中,p1、p2为比例系数,并取p1=p2=1.0。
最后将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。
对于系统模块化部分,由于不同的中小型网站采用不同的开发技术,且拥有各自的系统框架,如果将本发明的基于用户意图建模方法分别在不同的中小型网站实现,可能会导致大量的代码修改或增加。因此,本发明将该方法进行模块化处理,网站开发者只需进行少量配置和代码增加就可以实现中小型网站搜索性能的优化。模块化结构图如附图3。
利用该模块对中小型网站进行优化的步骤如下。
第一步:将mainpackage包和nlpir包放入工程中。
第二步:在工程中添加过滤器并在web.xml中配置。
第三步:新建一个web页面用于显示推荐结果。

Claims (3)

1.一种针对中小型网站的模块化用户检索意图建模方法,其特征在于,包括以下步骤:
1)将从用户与中小型网站服务器交互中提取的文本信息记为T,从文本T中提取初始关键词集K1={(ki,w1(ki))|1≤i≤R},其中,ki代表第i个关键词,R表示集合K1的元素个数,w1(ki)表示关键词ki的权重值,w1(ki)的值等于词语ki的交叉信息熵值TFIDF(ki),并计算关键词的词性因子权重p(ki)、词语ki在文本T中的频率freq(ki)和TFIDF(ki);
2)计算K1={(ki,w1(ki))|1≤i≤R}中各关键词的综合权重值w(ki),得到关键词集K2={(ki,w(ki))|1≤i≤R};ki的综合权重值计算公式如下:
w(ki)=a*F(ki)+b*P(ki)+c*S(ki)+d*L(ki)+e*TFIDF(ki);
其中,a、b、c、d、e分别为各特征权重的比例系数;F(ki)为词语ki的词频权重;S(ki)为词语ki的词跨度权重;L(ki)为词语ki的词位置权重;
3)对所述关键词集K2={(ki,w(ki))|1≤i≤R}进行遍历,从第i个关键词ki开始判断,将第i个之后的关键词kj依次与ki进行比较,其中i+1≤j≤R;若ki包含kj,且w(ki)>w(kj),则将ki加入到过滤后的关键词集中;否则,若kj包含ki,且w(kj)>w(ki),则将kj加入到过滤后的关键词集中;若上述两种情况都不满足,则将ki和kj都加入到过滤后的关键词集中,直到第i个之后的关键词全部和第i个比较完毕;当关键词集K2中的元素全部遍历一遍之后,结束,最后返回过滤后的关键词集K={(kr,w(kr))|1≤r≤M},其中M表示集合K中的元素个数;将K中的Q个元素作为重新检索的条件在搜索引擎中重新检索,得到Ts={ti|1≤i≤H},ti表示Ts中第i个文本信息,H表示Ts中文本个数;1≤Q≤M;
4)按降序对集合K中关键词的综合权重值w(kr)排序,得到向量U=[w1,w2,…,wM],即为用户意图模型,其中w1,w2,…,wM分别对应排好序的K中关键词的综合权重值w(kr);
5)遍历文本的特征向量Ti=[wt1,wt2,…,wtM],依次判断wti是否为0,若不为0,则将用户意图模型U=[w1,w2,…,wM]中对应的wi除以1+wi,直到Ti中所有的元素遍历完成,将所求的wi/1+wi求和,得到一个值w_sum;再将用户意图模型U=[w1,w2,…,wM]中所有的wi除以1+wi,并求和,即
Figure FDA0002325691770000021
最后将w_sum除以
Figure FDA0002325691770000022
即得到用户意图模型与文本的特征向量Ti的加权海明距离dis(U,Ti);
6)利用以下公式计算U与Ti的最终相似度值Sim(U,Ti):
Sim(U,Ti)=p1*W(Ti,U)+p2*dis(U,Ti);
其中,p1、p2为比例系数;
Figure FDA0002325691770000023
Figure FDA0002325691770000024
7)将集合Ts中的所有文本按Sim(U,Ti)降序排列并返回给用户,从而实现基于用户意图检索的建模过程。
2.根据权利要求1所述的针对中小型网站的模块化用户检索意图建模方法,其特征在于,a=1.5,b=1.1,c=0.8,d=1.0,e=0.8。
3.根据权利要求1所述的针对中小型网站的模块化用户检索意图建模方法,其特征在于,p1=p2=1.0。
CN201611244184.1A 2016-12-29 2016-12-29 一种针对中小型网站的模块化用户检索意图建模方法 Active CN106599304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611244184.1A CN106599304B (zh) 2016-12-29 2016-12-29 一种针对中小型网站的模块化用户检索意图建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611244184.1A CN106599304B (zh) 2016-12-29 2016-12-29 一种针对中小型网站的模块化用户检索意图建模方法

Publications (2)

Publication Number Publication Date
CN106599304A CN106599304A (zh) 2017-04-26
CN106599304B true CN106599304B (zh) 2020-03-24

Family

ID=58604840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611244184.1A Active CN106599304B (zh) 2016-12-29 2016-12-29 一种针对中小型网站的模块化用户检索意图建模方法

Country Status (1)

Country Link
CN (1) CN106599304B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451120B (zh) * 2017-08-01 2020-10-30 中国人民解放军火箭军工程大学 一种公开文本情报的内容冲突检测方法及系统
CN108735003B (zh) * 2018-05-28 2020-10-30 中科编程(广州)教育科技有限公司 一种基于信息熵的教学系统
CN110598127B (zh) * 2019-09-05 2022-03-22 腾讯科技(深圳)有限公司 一种群组推荐方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246164A (zh) * 2008-12-11 2011-11-16 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5740228B2 (ja) * 2011-07-01 2015-06-24 Kddi株式会社 代表的なコメント抽出方法およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102246164A (zh) * 2008-12-11 2011-11-16 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN102880723A (zh) * 2012-10-22 2013-01-16 深圳市宜搜科技发展有限公司 一种识别用户检索意图的搜索方法和系统
CN105095187A (zh) * 2015-08-07 2015-11-25 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置

Also Published As

Publication number Publication date
CN106599304A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN105488024B (zh) 网页主题句的抽取方法及装置
CN103631929B (zh) 一种用于搜索的智能提示的方法、模块和系统
EP2499569B1 (en) Clustering method and system
TWI547815B (zh) Information retrieval method and device
CN102637170A (zh) 一种问题推送方法及系统
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN106708929B (zh) 视频节目的搜索方法和装置
CN103186574A (zh) 一种搜索结果的生成方法和装置
Nguyen et al. A math-aware search engine for math question answering system
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US10795895B1 (en) Business data lake search engine
CN106599304B (zh) 一种针对中小型网站的模块化用户检索意图建模方法
CN106547864A (zh) 一种基于查询扩展的个性化信息检索方法
CN106528768A (zh) 一种咨询热点分析方法及装置
KR102091633B1 (ko) 연관법령 제공 방법
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
Wei et al. Online education recommendation model based on user behavior data analysis
CN110083809A (zh) 合同条款相似度计算方法、装置、设备及可读存储介质
CN108334573A (zh) 基于聚类信息的高相关微博检索方法
CN110245275B (zh) 一种大规模相似新闻标题快速归一化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant