CN102880723A - 一种识别用户检索意图的搜索方法和系统 - Google Patents

一种识别用户检索意图的搜索方法和系统 Download PDF

Info

Publication number
CN102880723A
CN102880723A CN2012104041247A CN201210404124A CN102880723A CN 102880723 A CN102880723 A CN 102880723A CN 2012104041247 A CN2012104041247 A CN 2012104041247A CN 201210404124 A CN201210404124 A CN 201210404124A CN 102880723 A CN102880723 A CN 102880723A
Authority
CN
China
Prior art keywords
intention
retrieval
similarity
search
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104041247A
Other languages
English (en)
Other versions
CN102880723B (zh
Inventor
车天文
雷大伟
石志伟
周步恋
杨振东
王更生
王喜民
何宏靖
徐忆苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen easou world Polytron Technologies Inc
Original Assignee
Shenzhen Yisou Science & Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yisou Science & Technology Development Co Ltd filed Critical Shenzhen Yisou Science & Technology Development Co Ltd
Priority to CN201210404124.7A priority Critical patent/CN102880723B/zh
Publication of CN102880723A publication Critical patent/CN102880723A/zh
Application granted granted Critical
Publication of CN102880723B publication Critical patent/CN102880723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种识别用户检索意图的搜索方法和系统,应用于信息检索领域,该方法包括以下步骤:接收用户的检索请求;计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;根据上述计算的三种度量确定用户检索意图;根据确定的用户检索意图进行搜索并输出搜索结果。通过本发明实施例,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持,同时不完全依赖于线上搜索引擎的结果信息,更易于实现。

Description

一种识别用户检索意图的搜索方法和系统
技术领域
本发明涉及信息检索领域,尤其涉及一种基于识别用户检索意图的搜索方法和系统。
背景技术
搜索引擎的出现,让用户有了可以从海量数据中查找信息的工具。但是并非每个用户都了解搜索引擎的原理,所以用户在使用搜索引擎的过程一般是自己组织检索关键字来搜索,结果不满意时再变换一下检索关键字来重新获得搜索结果。如何能让用户更少的输入,使用搜索引擎来更快的获取自己需要的信息,那就有一项非常重要的工作——如何根据用户输入的检索请求来挖掘、识别用户的潜在检索意图。一旦搜索引擎能够把握住用户检索的意图,就可以利用更少的资源来满足用户更大的需求。
截止目前为止,有关搜索引擎中用户检索意图识别的方法,可归纳不外乎以下几种:1、基于用户对搜索结果的点击信息;2、基于检索关键字的语义分析;3、基于检索关键字含有的特有的语义特征。
中国专利CN101782909A的专利(基于用户操作意图的搜索引擎)公开了一种基于用户对网页搜索和操作网页的记录来计算用户后续需求意向的方法。通过记录用户对网页的点击数、点击速率、网页速度、浏览时长、浏览次数和链接文字的操作,计算出用户对搜索结果的喜好分值和后续需求意向。当用户点击一个超链接时,搜索引擎要实时的计算一个喜好分值,并将链接上的文字和检索请求相联系起来,可认为是相关联。其不足之处在于:首先对搜索引擎要求高,要求搜索引擎实时的计算每个点击的分值,线上承载负荷会高;其次要求搜索引擎性能、效果稳定,搜索结果基本能满足用户的需求,否则记录的对结果的点击反馈将与用户实际需求相差太远;再次用户在搜索过程中的点击是多变的,多数时候是随意的,看到某个话题的链接,某个广告链接,可能都会点击进去查看,这样的点击信息其实是一种噪声,与检索请求关系不大,但是依然会被记录下来。最后也是很重要的一点,这样得到的结果作为一种意图,只是在后续有相同的检索请求时,才会将这类结果展现出来,使得召回较低。
中国专利CN102246164A的专利(基于用户意图的信息搜索以及信息提供方法)提供了一种基于对检索关键字分析结果来检测搜索者的意图的方法。该方法的实施是将关键字(可为单词单元、短语单元以及句子单元)按词性分离为语意单词,对分离后的关键字参考语法文法规则字典,执行语法分析,通过分析句子内分离后的单词是否具有任何文法关系以及语义关联,来获取所述语法表达式(逻辑表达式、修饰-被修饰以及语法列表表达式)进而来检测搜索者的意图。该方法不依赖于用户的搜索结果信息,是一种事前处理的方法,但不足之处是如何根据不同类型的检索意图做不同的分析,没有明确的方法。只能将检索关键字按每种词性全部处理一遍,得到的分析结果也会有多种形式,哪个最优不得而知。
基于事后搜索的检索意图识别,过分依赖于搜索结果和用户的反应,容易引入一些不必要的噪音(如广告、其它信息等),而且对搜索引擎有较高要求,在系统性能稳定,效果比较好的情况下才能支持。且在获取的用户检索意图的应用上,只能在后续用户输入相同的检索时起到借鉴作用,从而召回率较低。
基于事前检索意图识别,利用的信息较少,仅局限于检索的局部词汇的完全匹配,对明显检索意图的检索有一定的效果,但也容易造成局部最优问题,且对更多的无明显检索意图字眼的检索,无法给出意图结果。虽然可以对检索关键字做语义分析,但不同类别的检索,含有的词性分布不同,如果按每个词性分离造成的分析结果会有多样性,不容易进一步择优。
发明内容
针对上述技术问题,本发明提出一种识别用户检索意图的搜索方法和系统,从局部和整体上对检索关键字做意图识别的基础上进行搜索。
根据本发明的一方面,本发明提供的一种识别用户检索意图的搜索方法包括以下步骤:
接收用户的检索请求;
计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
综合上述三种度量的计算结果确定用户检索意图;
根据确定的用户检索意图进行搜索并输出搜索结果。
根据本发明的另一方面,本发明提供的一种识别用户检索意图的搜索系统包括接收模块、计算模块、确定模块和搜索模块,其中:
接收模块用于接收用户的检索请求;
计算模块用于计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
识别模块用于根据计算模块的计算的三种度量的权重确定用户检索意图;
搜索模块用于根据识别模块确定的用户检索意图进行搜索并输出搜索结果。
通过本发明实施例的方法和系统,从用户检索内容着手,建立检索意图打分模型,通过计算意图特征相似度、实体词关联度、句法格式相似度三种度量综合给检索意图打分来挖掘、识别检索的潜在意图,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,避免了仅依靠检索词汇做完全匹配造成的局部最优问题,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持。同时不完全依赖于线上搜索引擎的结果信息,更易于实现。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的一种识别用户检索意图的搜索方法流程图;
图2为本发明优选实施例提供的一种意图空间相似度计算的方法流程图;
图3为本发明优选实施例提供的一种实体词关联度计算的方法流程图;
图4为本发明实施例提供的一种识别用户检索意图的搜索系统的模块结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明地是,在使用本发明实施例之前,要先建立意图特征空间,具体包括:建立意图特征库(Intension Feature Database,简称IFD),其中,意图特征库中包括每类检索意图的意图特征;意图特征包括与检索意图相关的词汇、短语、和/或规则;将所述意图特征库中的意图特征转换为向量数据格式的意图特征空间。
所谓意图特征空间,是将意图特征库中的每类意图的特征转换为向量数据格式。意图特征空间可由m*n的矩阵IM来表示,其中m为意图类数目,n为意图特征库的特征的总数目,IM(k,j)表示第j个意图特征Fj是否在意图Ik中,其中k为1到m的整数,j为1到n的整数。
关于检索意图的分类,早期的研究将其分为三类:导航类、信息类和事务类。导航类是访问某一特定网站,事务类是进行一些活动(比如购物、下载等),而信息类是获取某一话题的相关信息。用户输入的信息类检索类,其实是很复杂多样的,也是搜索引擎检索的弱项。
本发明在用户实际检索分析基础上,将检索意图分为五大类:导航类(访问某个网址)、下载类(下载某项资源)、信息查找类(关于某话题的相关信息,可具有类别属性)、信息问答类(相关问题的直接答案、具有唯一性)、信息建议类(想得到建议,不唯一)。其中下载类又可细分为限制性下载(对具体某类资源的下载)和一般性下载,信息查找类又可细分为限制性信息查找(对具体某类资源的信息查找)和一般性信息查找。举例来说,导航类的意图特征包括了一系列的网站相关特征,如“网址”、“网站”、“URL”、“主页”以及实体词网站名称等;信息查找类的意图特征包括但不限于“检索”、“查找”、“列举”等;信息建议类的意图特征包括但不限于 “怎么”、“怎样”、“如何”等;下载类的意图特征包含的特征词就比较直接,如“下载”、“软件”、“歌曲”、“小说”、“电影”等一系列与下载或资源频道有关的词。意图特征库挖掘属于线下的挖掘工作,挖掘同类型的词汇和短语,可以采用词聚类等方法,通过一部分明显的特征词汇,来得到更多的同类词汇。意图特征识别库是各类意图特征的并集合,且有一个逐步更新完善的机制,定期的利用各类信息更新。
其中,针对上述资源频道,需要建立一套拥有当前各类资源名称,如小说名、软件名、电影名等的资源频道库,这可以从检索日志中挖掘或从各垂直网站抓取、提取所需信息,尽可能保证资源库的资源信息完备。
实施例一
如图1所示是本发明实施例提供的一种识别用户检索意图的搜索方法流程图,图中:
S102、接收用户的检索请求;
S104、计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
优选地,本步骤中计算检索请求的意图特征相似度可以为:对检索请求的检索关键字进行分词处理,得到检索特征向量;计算检索特征向量与每类意图的意图特征向量的相似度。其中,计算检索特征向量与每类意图的意图特征向量的相似度的方法包括但不限于:经典余弦距离相似度、欧氏相似度、指数相似度、相关相似度、海明相似度或格相似度。
优选地,本步骤中计算实体词关联度包括:将检索关键字中含有的实体词E转换成针对资源频道的向量;计算意图与资源频道的关联矩阵;计算实体词向量与意图的关联度
意图特征相似度和实体词关联度是从词汇的角度来看检索与意图的关系,为了避免局部最优问题,本发明实施例还提出了句法格式相似度计算,即判断检索是否满足检索意图的某些特定的句法格式,当不满足时结果为0,满足时结果为1。如信息查找的句法格式PTk包括“$adress.*$adress怎么|如何”($address为地址)、“怎样.*$verb”($verb为动词)等。
检索与意图Ik的句法相似度为:
Ep j = 1 E ∈ P j 0 E ∈ P j , j = 1,2 . . . q
其中,Score3(Q,Ik)表示用户检索的语句是否满足意图Ik的句法格式,Query表示用户检索的语句,PTk代表意图Ik的句法格式,m表示意图类数目。
S106、根据上述计算的三种度量综合确定用户检索意图;
本步骤中,可以先按所述三种度量权重的线性组合计算该检索对每个意图的权重分数;然后将权重分数最高的检索意图确定为用户检索意图。
具体来说,最终计算的检索属于意图Ik的得分为以上三种度量权重的线性组合,即:
Score 1 ( Q , I k ) = 1 - 1 n Σ j = 1 n | Q j - IM kj | , k = 1,2 , . . . m
其中,参数因子α,β,γ可按侧重点不同做自由调整,也可定为三分之一,Score1(Q,Ik)、Score2(Q,Ik)、Score3(Q,Ik)分别表示该检索对应意图Ik的意图特征相似度、实体词关联度和句法格式相似度,Score(Q,Ik)为该检索对应意图Ik的分数权重。
针对每个检索条件,以上步骤获得了该检索对每个意图的权重分数,将分数最高的检索意图赋予该检索。
对下载意图、信息查找意图进一步细分。如果意图属于其中二者之一,则可细分为限制性、还是一般性。当实体词与意图的关联度权重Score2(Q,Ik)为零时,认为是一般性,否则认为是限制性,且可获取限制性的类别。例如检索“斗破苍穹下载”,其意图输出结果类似于下载意图&对小说“斗破苍穹”下载。
需要说明的是,当最高的权重Score(Q,Ik)不唯一时,即用户检索对应至少两个意图,实际在打分上这种情况应该出现的较少,如果出现,就输出至少两个意图。例如检索“天龙八部”,计算出属于下载意图、信息查找意图的权重如果相同,则这两个意图均输出,意图识别结果类似于下载意图&对小说、影视、游戏“天龙八部”的下载或信息查找意图&对小说、影视、游戏“天龙八部”的信息查找。
当最高的权重Score(Q,Ik)不存在时,即最终得到的每个意图权重均为零,也就是在计算用户检索意图的每个中间步骤的度量权重均为零。一方面可能是用到的意图特征及资源还不完备,有待补充;另一方面可能是用户检索意图不是非常的明显,可认为用户输入此类检索对检索结果没有十分特定的需求,只要是相关的结果就可以满足,故这类可作为信息查找意图处理。
S108、根据确定的用户检索意图进行搜索并输出搜索结果。
实施例二
检索属于哪类意图,可以用该检索特征向量Q与意图特征空间IM的相似度来表示,如图2所示是本发明优选实施例提供的一种意图特征相似度计算的方法流程图,图中:
S202、当接收用户输入的检索请求后,对检索关键字进行分词处理,得到检索特征向量Q(Q1,Q2,Q3,…Qs),其中Qj的值表示意图特征Fj是否在该检索条件中。
具体来说,本步骤中可利用NLP分词技术对检索关键字进行分词处理,分词后得到了一系列的词汇T(T1,T2,T3,…Ts),将该系列词汇转化为特征向量Q(Q1,Q2,Q3,…Qn)。其中
Q j = 1 F j ∈ T 0 F j ∉ T , j = 1,2 . . . n
其中,Fj表示第j个意图特征,任何一个用户的检索转换成的特征向量的维度都是一样的,都等于意图特征空间的维度n。如用户输入“斗破苍穹小说txt下载”分词后的词汇系列为T(斗破苍穹,小说,txt,下载),转换成一个n维的特征向量Q(0,…1,0,…1,0,…1…),里面的元素Qj如上述计算。
S204、计算检索特征向量Q与每类意图的意图特征向量的相似度。
本步骤中,意图特征向量是从意图特征空间(矩阵IM)中提取,相似度的计算公式包括但不限于:根据经典余弦距离相似度、欧氏相似度、指数相似度、相关相似度、海明相似度或格相似度进行计算,其中:
经典余弦距离相似度计算按公式(1)进行:
Score 1 ( Q , I k ) = Σ j = 1 n Q j IM kj ( Σ j = 1 n Q j 2 ) ( Σ j = 1 n IM kj 2 ) , k = 1,2 , . . . m        公式(1)
其中,Score1(Q,Ik)表示检索向量Q与意图Ik的特征相似度,Q为用户检索特征向量,Ik是意图k的特征向量,m是意图总数目,n为各类意图的特征总数目,IM为意图特征空间,IMkj表示第j个意图特征Fj是否在意图Ik中,k为1到m的整数,j为1到n的整数。
欧氏相似度计算按公式(2)进行:
Score 1 ( Q , I k ) = 1 - Eud ( Q , I k ) = 1 - Σ j = 1 n ( Q j - IM kj ) 2 ( Σ j = 1 n Q j 2 ) ( Σ j = 1 n IM kj 2 ) , k = 1,2 , . . . m    公式(2)
其中,Score1(Q,Ik)表示检索向量Q与意图Ik的特征相似度,其中,Qj表示Q的元素值,IMkj表示第j个意图特征Fj是否在意图Ik中,k为1到m的整数,j为1到n的整数。
指数相似度计算按公式(3)进行:
Score 1 ( Q , I k ) = 1 n Σ j = 1 n exp ( - 3 4 ( Q j - IM kj s k ) 2 ) , k = 1,2 , . . . m      公式(3)
其中,Score1(Q,Ik)表示检索向量Q与意图Ik的特征相似度,其中,Qj表示Q的元素值,IMkj表示第j个意图特征Fj是否在意图Ik中,k为1到m的整数,j为1到n的整数,Sk为适当选定的正数。
相关相似度计算按公式(4)进行:
Score 1 ( Q , I k ) = Σ j = 1 n | Q j - Q ‾ | | IM kj - IM k ‾ | Σ j = 1 n ( Q j - Q ‾ ) 2 Σ j = 1 n ( IM kj - IM k ‾ ) 2          公式(4)
其中,Score1(Q,Ik)表示检索向量Q与意图Ik的特征相似度,其中Qj表示Q的元素值,IMkj表示第j个意图特征Fj是否在意图Ik中,k为1到m的整数,j为1到n的整数,为Q的平均值,为IMk的平均值。
海明相似度计算按公式(5)进行:
Score 1 ( Q , I k ) = 1 - 1 n Σ j = 1 n | Q j - IM kj | , k = 1,2 , . . . m      公式(5)
其中,Score1(Q,Ik)表示检索向量Q与意图Ik的特征相似度,其中Qj表示Q的元素值,IMkj表示第j个意图特征Fj是否在意图Ik中,k为1到m的整数,j为1到n的整数。
格相似度计算按公式(6)进行:
Figure BDA00002289625212
Figure BDA00002289625213
其中,Score1(Q,Ik)表示检索Q与意图Ik的特征相似度,内积Q·Ik,外积
Figure BDA00002289625214
两个向量的内积计算,是对应的元素先取较小的,得到一个新的向量,再从中取最大的元素。如(0.1, 0.2, 0.3)^(0.2, 0.3,0.1) =(0.1, 0,2, 0.1)->0.2
两个向量的外积计算,是对应的元素先取较大的,得到一个新的向量,再从中取最小的元素。如(0.1, 0.2, 0.3)v(0.2, 0.3,0.1) =(0.2, 0,3, 0.3)->0.2
最后(0.1,0.2,0.3)与(0.2,0.3,0.1)的格贴近度为(0.2+0.2)/2=0.2
通过本发明实施例,考虑到检索词汇与意图的相似度。通过计算检索特征向量与意图的特征向量的相似度,将用户检索作为一个整体,得到检索与每类意图的相似度,而非仅靠检索中的个别词汇来判断意图。
实施例三
用户输入的检索条件中含有的词汇的重要度、等级是不同的,相对而言,如何区分更重要的词汇,实体词更为重要。如果检索关键字中含有实体词,则要计算实体词与意图的关联度。如图3所示是本发明优选实施例提供的一种实体词关联度计算的方法流程图,图中:
S302、将检索关键字中含有的实体词E转换成针对资源频道P的向量Ep(Ep1,Ep2,Ep3,....Epq),其中:
Ep j = 1 E ∈ P j 0 E ∈ P j , j = 1,2 . . . q
其中,E表示检索关键字中的实体词,Epj表示实体词E针对资源频道Pj的向量,Pj表示第j个资源频道,q为资源频道总数目。
S304、计算每类意图与资源频道的关联矩阵;
意图与资源频道P的关系可由关联矩阵RM表示,RM(k,j)表示意图Ik是否与资源频道Pj有关联。如"下载意图"与“小说”有关联,“导航意图”与“小说”无关联。
S306、计算实体词向量Ep与意图Ik的关联度。
通过RM最终可以将检索中的实体词与意图联系起来,具体可以下公式计算:
Cor ( Ep , I k ) = Ep * RM k T = Σ j = 1 q Ep j RM jk ( Σ j = 1 q Ep j 2 ) ( Σ j = 1 q RM jk 2 ) , k = 1,2 , . . . m
Score 2 ( Q , I k ) = Σ j = 1 u Cor ( E j , I k )
其中,Cor(EP,Ik)表示实体词Ep与意图Ik的关联度,EP为检索的实体词向量,RM为意图与频道的关联矩阵,RMjk表示意图Ik是否与资源频道Pj有关联,q为频道数目,m为意图数目,u为检索包含的实体词数目。
一个检索中可能多个实体词,所以Score2(Q,Ik)求和代表这个检索的实体关联度。Score2(Q,Ik)不仅表示检索中实体词与意图Ik的关联度权重,还可以进一步作为细分意图的依据,可根据实体词向量Ep来确定检索侧重于哪类资源。
通过本发明实施例,考虑到检索实体词与意图的关联度。而检索中的实体词是有特殊作用,暗含潜在意图的。该步从重要的实体词着手,计算实体词与意图的关联度,考虑了用户检索的特殊性、和实用性。
实施例四
如图4所示是本发明实施例提供的一种识别用户检索意图的搜索系统模块结构图,该系统包括该系统包括接收模块41、计算模块42、确定模块43和搜索模块44,其中:
接收模块41用于接收用户的检索请求;
计算模块42用于计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
识别模块43用于根据计算模块的计算的三种度量确定用户检索意图;
搜索模块44用于根据识别模块确定的用户检索意图进行搜索并输出搜索结果。
优选地,计算模块42可进一步包括意图特征相似计算单元421、实体词关联度计算单元422、句法格式相似度计算单元423,其中:
意图特征相似计算单元421具体用于:对所述检索请求的检索关键字进行分词处理,得到检索特征向量;计算所述检索特征向量与每类意图的意图特征向量的相似度;
实体词关联度计算单元422具体用于:将检索关键字中含有的实体词转换成针对资源频道的向量,计算意图与资源频道的关联矩阵,计算实体词向量与意图的关联度;
句法格式相似度计算单元423具体用于判断检索是否满足每类检索意图的句法格式。
优选地,识别模块43可进一步包括意图权重计算单元431和意图确定单元432,其中:意图权重计算单元431用于按所述三种度量权重的线性组合计算该检索对每类意图的权重分数;意图确定单元432用于将权重分数最高的检索意图确定为用户检索意图。
通过本发明实施例的方法和系统,从用户检索内容着手,建立检索意图打分模型,通过计算意图特征相似度、实体词关联度、句法格式相似度三种度量,综合给检索的意图打分来挖掘、识别检索的潜在意图,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,避免了仅依靠检索的词汇做完全匹配造成的局部最优问题,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持。同时不完全依赖于线上搜索引擎的结果信息,更易于实现。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (11)

1.一种识别用户检索意图的搜索方法,其特征在于,该方法包括以下步骤:
接收用户的检索请求;
计算所述检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
根据所述计算的三种度量确定用户检索意图;
根据所述确定的用户检索意图进行搜索并输出搜索结果。
2.根据权利要求1所述的搜索方法,其特征在于,所述方法之前还包括建立意图特征空间的步骤,该步骤具体包括:
建立意图特征库;其中,所述意图特征库中包括每类检索意图的意图特征;所述意图特征包括与检索意图相关的词汇、短语、和/或规则;
将所述意图特征库中的意图特征转换为向量数据格式的意图特征空间。
3.根据权利要求2所述的搜索方法,其特征在于,所述计算所述检索请求的意图特征相似度包括以下步骤:
对所述检索请求的检索关键字进行分词处理,得到检索特征向量;
计算所述检索特征向量与每类意图的意图特征向量的相似度。
4.根据权利要求3所述的搜索方法,其特征在于,所述计算所述检索特征向量与每类意图的意图特征向量的相似度包括:根据经典余弦距离相似度、欧氏相似度、指数相似度、相关相似度、海明相似度或格相似度进行计算。
5.根据权利要求1所述的搜索方法,其特征在于,所述计算实体词关联度包括以下步骤:
将检索关键字中含有的实体词转换成针对资源频道的向量;
计算意图与资源频道的关联矩阵;
计算实体词向量与意图的关联度。
6.根据权利要求5所述的搜索方法,其特征在于,所述将检索关键字中含有的实体词转换成针对资源频道的向量按下述公式进行:
Ep j = 1 E ∈ P j 0 E ∈ P j , j = 1,2 . . . q
其中,E表示检索关键字中的实体词,Epj表示实体词E针对资源频道Pj的向量,Pj表示第j个资源频道,q为资源频道总数目;
所述计算意图与资源频道的关联矩阵包括:RM(k,j)表示意图Ik是否与资源频道Pj有关联;
所述计算实体词向量与意图Ik的关联度按下述公式:
Cor ( Ep , I k ) = Ep * RM k T = Σ j = 1 q Ep j RM jk ( Σ j = 1 q Ep j 2 ) ( Σ j = 1 q RM jk 2 ) , k = 1,2 , . . . m
Score 2 ( Q , I k ) = Σ j = 1 u Cor ( E j , I k )
其中,Cor(EP,Ik)表示实体词EP与意图Ik的关联度,EP为检索的实体词向量,RM为意图与频道的关联矩阵,RMjk表示意图Ik是否与资源频道Pj有关联,q为频道数目,m为意图数目,u为检索包含的实体词数目。
7.根据权利要求1所述的搜索方法,其特征在于,所述计算所述检索请求的句法格式相似度具体为:判断检索是否满足每类检索意图的句法格式,当不满足时结果为0,满足时结果为1。
8.根据权利要求1所述的搜索方法,其特征在于,所述根据所述三种度量确定用户检索意图包括以下步骤:
按所述三种度量权重的线性组合计算该检索对每类意图的权重分数;
将权重分数最高的检索意图确定为用户检索意图。
9.一种识别用户检索意图的搜索系统,其特征在于,该系统包括接收模块、计算模块、确定模块和搜索模块,其中:
所述接收模块用于接收用户的检索请求;
所述计算模块用于计算所述检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量;
所述识别模块用于根据所述计算模块的计算的三种度量确定用户检索意图;
所述搜索模块用于根据所述识别模块确定的用户检索意图进行搜索并输出搜索结果。
10.根据权利要求9所述的搜索系统,其特征在于,所述计算模块包括意图特征相似计算单元、实体词关联度计算单元、句法格式相似度计算单元,其中:
所述意图特征相似计算单元具体用于:对所述检索请求的检索关键字进行分词处理,得到检索特征向量;计算所述检索特征向量与每类意图的意图特征向量的相似度;
所述实体词关联度计算单元具体用于:将检索关键字中含有的实体词转换成针对资源频道的向量,计算意图与资源频道的关联矩阵,计算实体词向量与意图的关联度;
所述句法格式相似度计算单元具体用于判断检索是否满足每类检索意图的句法格式。
11.根据权利要求9所述的搜索系统,其特征在于,所述识别模块进一步包括意图权重计算单元和意图确定单元,其中:
所述意图权重计算单元用于按所述三种度量权重的线性组合计算该检索对每类意图的权重分数;
所述意图确定单元用于将权重分数最高的检索意图确定为用户检索意图。
CN201210404124.7A 2012-10-22 2012-10-22 一种识别用户检索意图的搜索方法和系统 Active CN102880723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210404124.7A CN102880723B (zh) 2012-10-22 2012-10-22 一种识别用户检索意图的搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210404124.7A CN102880723B (zh) 2012-10-22 2012-10-22 一种识别用户检索意图的搜索方法和系统

Publications (2)

Publication Number Publication Date
CN102880723A true CN102880723A (zh) 2013-01-16
CN102880723B CN102880723B (zh) 2015-08-05

Family

ID=47482049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210404124.7A Active CN102880723B (zh) 2012-10-22 2012-10-22 一种识别用户检索意图的搜索方法和系统

Country Status (1)

Country Link
CN (1) CN102880723B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077407A (zh) * 2014-07-10 2014-10-01 中国工商银行股份有限公司 一种智能数据搜索系统及方法
CN104199822A (zh) * 2014-07-11 2014-12-10 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和系统
CN104462272A (zh) * 2014-11-25 2015-03-25 百度在线网络技术(北京)有限公司 搜索需求分析方法和装置
CN104866554A (zh) * 2015-05-15 2015-08-26 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
US9239737B2 (en) 2013-11-15 2016-01-19 Sap Se Concise resource addressing
CN105808737A (zh) * 2016-03-10 2016-07-27 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN106372956A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种基于用户搜索日志进行意图实体识别的方法和系统
CN106599304A (zh) * 2016-12-29 2017-04-26 中南大学 一种针对中小型网站的模块化用户检索意图建模方法
CN106779817A (zh) * 2016-11-29 2017-05-31 竹间智能科技(上海)有限公司 基于多维度信息的意图识别方法及系统
US9692633B2 (en) 2013-11-15 2017-06-27 Sap Se Role-based resource navigation
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN107357830A (zh) * 2017-06-19 2017-11-17 北京百度网讯科技有限公司 基于人工智能的检索语句语义片段获取方法、装置及终端
CN107480162A (zh) * 2017-06-15 2017-12-15 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
CN107665189A (zh) * 2017-06-16 2018-02-06 平安科技(深圳)有限公司 一种提取中心词的方法、终端以及设备
CN108073576A (zh) * 2016-11-09 2018-05-25 上海诺悦智能科技有限公司 智能搜索方法、搜索装置以及搜索引擎系统
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN108804429A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种基于深度学习的访客搜索行为特征提取方法
CN109299383A (zh) * 2018-11-02 2019-02-01 北京字节跳动网络技术有限公司 生成推荐词的方法、装置、电子设备及存储介质
CN109660580A (zh) * 2017-10-11 2019-04-19 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质
JP2019537768A (ja) * 2016-09-16 2019-12-26 オラクル・インターナショナル・コーポレイション エンティティベースの通信を有する、インターネットクラウドによってホストされた自然言語インタラクティブメッセージングシステム
CN111597433A (zh) * 2020-04-10 2020-08-28 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN112559696A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种法律法规查找方法及装置
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359896B2 (en) * 2003-07-02 2008-04-15 Oki Electric Industry Co., Ltd. Information retrieving system, information retrieving method, and information retrieving program
CN101520777A (zh) * 2008-02-28 2009-09-02 株式会社东芝 用于机器翻译的设备和方法
CN101763211A (zh) * 2009-04-30 2010-06-30 广东国笔科技股份有限公司 语意实时分析联想操控系统及方法
CN102246164A (zh) * 2008-12-11 2011-11-16 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN102609444A (zh) * 2010-11-08 2012-07-25 微软公司 呈现与实体相关联的动作和提供商

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359896B2 (en) * 2003-07-02 2008-04-15 Oki Electric Industry Co., Ltd. Information retrieving system, information retrieving method, and information retrieving program
CN101520777A (zh) * 2008-02-28 2009-09-02 株式会社东芝 用于机器翻译的设备和方法
CN102246164A (zh) * 2008-12-11 2011-11-16 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
CN101763211A (zh) * 2009-04-30 2010-06-30 广东国笔科技股份有限公司 语意实时分析联想操控系统及方法
CN102609444A (zh) * 2010-11-08 2012-07-25 微软公司 呈现与实体相关联的动作和提供商
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨艺,周元: "《基于用户查询意图识别的Web搜索优化模型》", 《计算机科学》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9692633B2 (en) 2013-11-15 2017-06-27 Sap Se Role-based resource navigation
US9239737B2 (en) 2013-11-15 2016-01-19 Sap Se Concise resource addressing
CN104077407A (zh) * 2014-07-10 2014-10-01 中国工商银行股份有限公司 一种智能数据搜索系统及方法
CN104077407B (zh) * 2014-07-10 2017-06-16 中国工商银行股份有限公司 一种智能数据搜索系统及方法
CN104199822A (zh) * 2014-07-11 2014-12-10 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和系统
CN104199822B (zh) * 2014-07-11 2018-05-18 五八同城信息技术有限公司 一种识别搜索对应的需求分类的方法和系统
CN104462272A (zh) * 2014-11-25 2015-03-25 百度在线网络技术(北京)有限公司 搜索需求分析方法和装置
CN104866554A (zh) * 2015-05-15 2015-08-26 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN104866554B (zh) * 2015-05-15 2018-04-27 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN106372956A (zh) * 2015-07-23 2017-02-01 苏宁云商集团股份有限公司 一种基于用户搜索日志进行意图实体识别的方法和系统
CN105808737B (zh) * 2016-03-10 2021-04-06 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN105808737A (zh) * 2016-03-10 2016-07-27 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
JP2019537768A (ja) * 2016-09-16 2019-12-26 オラクル・インターナショナル・コーポレイション エンティティベースの通信を有する、インターネットクラウドによってホストされた自然言語インタラクティブメッセージングシステム
JP7441650B2 (ja) 2016-09-16 2024-03-01 オラクル・インターナショナル・コーポレイション エンティティベースの通信を有する、インターネットクラウドによってホストされた自然言語インタラクティブメッセージングシステム
CN108073576A (zh) * 2016-11-09 2018-05-25 上海诺悦智能科技有限公司 智能搜索方法、搜索装置以及搜索引擎系统
CN106779817A (zh) * 2016-11-29 2017-05-31 竹间智能科技(上海)有限公司 基于多维度信息的意图识别方法及系统
CN106599304B (zh) * 2016-12-29 2020-03-24 中南大学 一种针对中小型网站的模块化用户检索意图建模方法
CN106599304A (zh) * 2016-12-29 2017-04-26 中南大学 一种针对中小型网站的模块化用户检索意图建模方法
CN108804429A (zh) * 2017-04-26 2018-11-13 广东原昇信息科技有限公司 一种基于深度学习的访客搜索行为特征提取方法
CN107480162A (zh) * 2017-06-15 2017-12-15 北京百度网讯科技有限公司 基于人工智能的搜索方法、装置、设备及计算机可读存储介质
WO2018227767A1 (zh) * 2017-06-16 2018-12-20 平安科技(深圳)有限公司 提取中心词的方法、终端、设备以及计算机可读存储介质
CN107665189B (zh) * 2017-06-16 2019-12-13 平安科技(深圳)有限公司 一种提取中心词的方法、终端以及设备
CN107665189A (zh) * 2017-06-16 2018-02-06 平安科技(深圳)有限公司 一种提取中心词的方法、终端以及设备
CN107357830A (zh) * 2017-06-19 2017-11-17 北京百度网讯科技有限公司 基于人工智能的检索语句语义片段获取方法、装置及终端
CN107357830B (zh) * 2017-06-19 2020-07-28 北京百度网讯科技有限公司 基于人工智能的检索语句语义片段获取方法、装置及终端
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质
CN109660580A (zh) * 2017-10-11 2019-04-19 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN109660580B (zh) * 2017-10-11 2021-06-22 苏州跃盟信息科技有限公司 一种信息推送方法及装置
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN109299383A (zh) * 2018-11-02 2019-02-01 北京字节跳动网络技术有限公司 生成推荐词的方法、装置、电子设备及存储介质
CN109684633A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN109684633B (zh) * 2018-12-14 2023-05-16 北京百度网讯科技有限公司 搜索处理方法、装置、设备及存储介质
CN112559696A (zh) * 2019-09-25 2021-03-26 北京国双科技有限公司 一种法律法规查找方法及装置
CN111597433A (zh) * 2020-04-10 2020-08-28 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN111597433B (zh) * 2020-04-10 2023-08-01 北京百度网讯科技有限公司 资源搜索方法、装置以及电子设备
CN113420113A (zh) * 2021-06-21 2021-09-21 平安科技(深圳)有限公司 语义召回模型训练、召回问答方法、装置、设备及介质

Also Published As

Publication number Publication date
CN102880723B (zh) 2015-08-05

Similar Documents

Publication Publication Date Title
CN102880723B (zh) 一种识别用户检索意图的搜索方法和系统
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US9251786B2 (en) Method, medium and apparatus for providing mobile voice web service
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN102419778B (zh) 一种挖掘查询语句子话题并聚类的信息搜索方法
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
EP2798540A1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN105488196A (zh) 一种基于互联语料的热门话题自动挖掘系统
WO2008151466A1 (en) Dictionary word and phrase determination
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
CN102722498A (zh) 搜索引擎及其实现方法
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
WO2009026850A1 (en) Domain dictionary creation
CN103177036A (zh) 一种标签自动提取方法和系统
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
Tur et al. Towards unsupervised spoken language understanding: Exploiting query click logs for slot filling
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
CN102982025A (zh) 一种搜索需求识别方法及装置
CN113918702A (zh) 一种基于语义匹配的在线法律自动问答方法及系统
WO2012091541A1 (en) A semantic web constructor system and a method thereof
KR20180113444A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China

Patentee after: Shenzhen easou world Polytron Technologies Inc

Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A

Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd.