CN102253982A - 一种基于查询语义和点击流数据的查询建议方法 - Google Patents

一种基于查询语义和点击流数据的查询建议方法 Download PDF

Info

Publication number
CN102253982A
CN102253982A CN2011101727664A CN201110172766A CN102253982A CN 102253982 A CN102253982 A CN 102253982A CN 2011101727664 A CN2011101727664 A CN 2011101727664A CN 201110172766 A CN201110172766 A CN 201110172766A CN 102253982 A CN102253982 A CN 102253982A
Authority
CN
China
Prior art keywords
inquiry
query
user
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101727664A
Other languages
English (en)
Other versions
CN102253982B (zh
Inventor
彭学平
牛振东
黄胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN 201110172766 priority Critical patent/CN102253982B/zh
Publication of CN102253982A publication Critical patent/CN102253982A/zh
Application granted granted Critical
Publication of CN102253982B publication Critical patent/CN102253982B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于查询语义和点击流数据的查询建议方法,包括以下步骤:一、对收集的查询日志数据进行预处理;二、对用户输入的查询数据进行分词、过滤停用词的预处理;三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算;五、将相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;六、按照步骤五中的相关度由大到小,取出Top-N推荐给用户。本发明可以有效的消除查询歧义,并对输入错误进行提醒,提高信息检索系统的易用性和交互能力。

Description

一种基于查询语义和点击流数据的查询建议方法
技术领域
本发明涉及一种新的查询建议方法——基于查询语义和点击流数据的查询建议方法QSQSCD(Query Suggestion Based on the Query Semantics andClick-through Data),属于信息检索领域。
背景技术
目前搜索引擎采用的主要交互方式是用户自主输入查询,搜索系统根据用户输入的查询提供检索结果。但是,很多时候用户输入的查询词并不能准确表达其搜索需求。一方面,用户输入的查询词通常比较短——平均只有两三个词;另一方面,很多搜索引擎含有歧义或意图模糊;此外,很多时候,用户之所以要使用搜索引擎进行信息的搜索就是因为对要检索话题知之甚少甚至毫无概念,这时候用户很难构造准确的查询。研究表明只有25%的查询能清晰表达用户的意图。
为了更好地帮助用户构造查询,搜索引擎普遍采用查询建议技术,在搜索结果页面中的“相关搜索”就是查询建议的一个具体应用。查询建议指发现或构造一组与原查询Q相关的查询{Q1,Q2,...},可以通过修改原查询Q或整个替换Q来实现这些相关查询。例如,对用户查询“苹果iphone”,可以通过修改查询词“iphone”来推荐查询“苹果手机”,也可以将整个查询替换为“ipad”。
由于有着巨大的应用需求和价值,查询建议成为近年来的研究热点。从技术实现上看,查询建议可以看作一个以搜索引擎查询为检索对象的信息检索问题。然而,不同于文档或网页,查询的自身特点使查询建议面临诸多挑战:
首先,不同于文档或网页,查询通常只包含两到三个查询词,缺乏充分的文本内容,传统信息检索模型不适合直接对其进行处理;
其次,用户查询信息稀疏。用户查询日志数据中多数查询出现次数很少,在对这些查询处理时,可利用的相关属性信息有限;
最后,用户查询复杂多样。用户查询日志数据中通常包含几千万甚至上亿条不同的查询,即使是同一查询不同用户可能表示不同意图。此外,用户查询受时间、突发事件等因素影响。
查询建议方法根据所依赖的数据不同可分为两类:基于文档的方法和基于日志的方法。1)第一种方法主要通过处理包含查询词的文档来分析查询,从相关文档或人工编辑语料中搜索找出与输入查询相关的词或短语,然后利用这些相关词或短语构建推荐查询。2)第二种方法主要通过分析用户的搜索引擎查询日志寻找曾经出现过的相似查询,然后向用户给予推荐。这两种方法各有利弊,基于日志的方法对处理出现频率小的稀疏查询比较困难,基于文档的方法虽能处理稀疏查询,但是查找相关文档也是一个难题。
发明内容
本发明的目的是针对目前查询建议缺乏有效语义处理的问题,提出一种基于查询语义和点击流数据的查询建议方法。
本发明提供了一种基于查询语义和点击流数据的查询建议方法,包括以下步骤:
一、对收集的查询日志数据进行预处理,去掉非中文查询串、乱码数据及无意义的符号,形成规范的查询日志库;
二、对用户输入的查询数据进行分词、过滤停用词的预处理,形成包含多个关键词的查询数据串;
三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;
四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算;
五、将步骤三和步骤四计算出的相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;
六、按照步骤五中的相关度由大到小,取出Top-N推荐给用户。
本发明还提出了基于点击流矩阵模型的矩阵相关度计算方法,并将其与查询语义相关度相融合,具体方法为:
在得到用户查询数据串与查询日志库中每条日志信息的查询语义相关度之后,判断查询日志库中是否包含用户查询数据串,若不包含,则将用户查询数据串的矩阵相关度设为0;若包含,则以用户提交的查询数据与该数据对应的点击URL之间的关系为基础,逐条计算用户查询数据串与查询日志库中其他查询日志信息之间的矩阵相关度;
将查询语义相关度和矩阵相关度进行融合,计算查询数据与查询日志库中每条日志信息的相关度,作为推荐给用户的依据。
有益效果
本发明所述基于查询语义和点击流数据的查询建议方法,将查询语义信息以及查询数据与该数据对应的点击URL之间的关系作为查询建议的依据,可以有效的消除查询歧义,并对输入错误进行提醒,提高信息检索系统的易用性和交互能力。
附图说明
附图1.QSQSCD的查询建议方法流程图;
附图2.查询-点击二步图;
附图3.查询建议平均精度比较。
具体实施方式
下面结合附图,具体说明本发明的优选实施方式。
本实施方式具体实现了本发明所述的基于查询语义和点击流数据的查询建议方法,其流程如图1所示,包括以下步骤:
一、对收集的查询日志数据进行预处理,去掉非中文查询串、乱码数据及无意义的符号,形成规范的查询日志库;
二、对用户输入的查询数据进行分词、过滤停用词的预处理,形成包含多个关键词的查询数据串;
三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;
进行相似度计算可以使用多种方法,例如余弦相似度计算、皮尔森系数相似度计算等。此步骤是传统的文本相似度计算,通常基于词频统计计算文档相似度。但是如果仅仅只通过该步骤获得相似度,将会缺乏对文档语义的处理。如果相关文档之间的公共词较多,通过单纯基于词频的相似度计算方法可以达到相关计算的目的,如果相关文档之间的公共词较少,这种计算方法就难以取得较好的效果,特别对于较短的查询串。因为查询串中词汇的出现频率很小,如果把与之关联紧密的其他概念考虑进来,则可以凸现查询的语义。因此,本实施例在进行传统的相似度计算之后,在步骤四中进行语义相关度的计算。
四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算。
(1)知网中的词概念相关度计算方法:
知网中的每个词语均由DEF来描述其概念定义,DEF的值由若干个义原以及它们与主干词之间的语义关系描述组成。知网中的概念是对词汇语义的描述,每个词的语义描述包含一个或多个概念,每个概念描述形成一个记录,概念的定义以及与之相关的同义、反义、上位、下位等关系,均描述于记录的DEF项中。比如:DEF(高兴)={aValue|属性值,circumstances|境况,happy|福,desired|良}。由于义原是HowNet中最小的语义单位,所以义原的相似度计算是概念相似度计算的基础。由于所有的义原根据上下位关系构成了一个树状的义原层次体系,所以采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d,两个义原p1,p2之间的语义距离为:
Sim ( p 1 , p 2 ) = α d + α
其中,d是p1和p2在义原层次体系中的路径长度,是一个正整数。α是一个可调节的参数,一般取经验值α=1.6。
知网中词语概念相似度计算的基本方法是通过计算部分之间的相似度得到整体的相似度。知网将一个词语概念的描述分成四个部分:
1)第一基本义原:其值为一个基本义原,我们将两个概念的这一部分的相似度记为Sim1(S1,S2);
2)其它基本义原:对应于语义表达式中除第一基本义原描述式以外的所有基本义原描述式,其值为一个基本义原的集合,我们将两个概念的这一部分的相似度记为Sim2(S1,S2);
3)关系义原:对应于语义表达式中所有的关系义原描述式,其值是一个特征结构,对于该特征结构的每一个特征,其属性是一个关系义原,其值是一个基本义原,或一个具体词。我们将两个概念的这一部分的相似度记为Sim3(S1,S2);
4)关系符号:对应于语义表达式中所有的关系符号描述式,其值也是一个特征结构,对于该特征结构的每一个特征,其属性是一个关系义原,其值是一个集合,该集合的元素是一个基本义原,或一个具体词。我们将两个概念的这一部分的相似度记为Sim4(S1,S2)。
于是,知网的词之间概念相似度由下式计算
Sim ( S 1 , S 2 ) = Σ i = 1 4 β i Π j = 1 i Sim j ( S 1 , S 2 )
其中,βi(1≤i≤4)是可调节的参数,且有:β1234=1,β1≥β2≥β3≥β4。由于第一义原描述式反映了一个概念最主要的特征,所以一般将其权值定义得比较大,一般取在0.5以上。
(2)语义相关度计算方法:
本发明提出的语义相关度是以知网中的词概念相关度为基础的。例如,可以直接计算两个查询串中每个词的概念相关度的加权和,来计算两个查询串的语义相关度;或者将两个查询串中概念相似度最大的两个词的概念相似度,作为两个查询串的语义相关度。总之要通过语义相关度的计算,将查询串之间的语义联系考虑进来,作为推荐给用户的一个重要依据。
本实施例优选的语义相关度计算方法为:
将用户查询数据串以及查询日志库中的每条日志信息均表示为规范化向量V(q)=(t1,w1;t2,w2;L;tn,wn),其中ti为特征项,wi为ti在q中的权值;查询向量V(q)中的每个元素的权值wi由下面公式来计算,
w i = freq i max { freq j | j = ( 1,2 , . . . , n ) }
其中,freqi表示查询特征项ti在查询q中的出现频率,而查询字符串q中总共包含n个特征项;
设用户查询数据串为V(q1)=(t1,w1;t2,w2;L;tn,wn),查询日志库中的一条日志信息为V(q2)=(t1,w1;t2,w2;L;tm,wm),则其语义相关度为:
ConcRel ( q 1 , q 2 ) = Σ i = 1 n Σ j = 1 m w i · w j · Sim ( t i , t j )
其中i∈[1,n],j∈[1,m],Sim(ti,tj)是知网定义的词之间的概念相似度;如果该词语不在知网的语义库中,则其概念相似度定义为0;
五、将步骤三和步骤四计算出的相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;本实施例中采用的融合方法为:
Sim(q1,q2)=α·SimKeywords(q1,q2)+(1-α)·Conc Rel(q1,q2)
其中SimKeywords(q1,q2)是步骤三得到的相似度,ConcRel(q1,q2)是步骤四得到的语义相关度,α是平衡系数,其取值范围在[0,1]范围内。
六、判断查询日志库中是否包含用户查询数据串,若不包含,则将用户查询数据串的矩阵相关度设为0;若包含,则以用户提交的查询数据与该数据对应的点击URL之间的关系为基础,计算用户查询数据串与查询日志库中其他查询日志信息之间的矩阵相关度;
点击流数据记录了Web用户的检索和点击活动,这些活动反映用户的兴趣及用户和查询、查询和点击文档之间的潜在语义关系。点击流数据的每一行包含下列信息:用户ID(u),用户提交的查询(q),用户点击的URL(l),点击的URL排序(r),查询提交的时间(t),如下表所示。
Figure BDA0000070973790000061
因此点击流数据可以表示为(u,q,l,r,t)五元组集合。从统计学的观点来看,对应一个网页的查询词集包含人对网页和提交查询之间的关系认知。因此,本发明基于用户提交的查询数据与该数据对应的点击URL之间的关系,定义了矩阵相关性,作为为用户提供查询建议的一个重要依据。例如,可以直接为对应相同网页的查询串设置一个非常大的矩阵相关性值,或者直接计算两个查询串对应相同网页的个数,并将该数值设置为矩阵相关性值。本实施例采取的矩阵相关度计算方法为:
(1)构建一个二步图Bql=(Vql,Eql),其中所有顶点集Vql=Q∪L,Q={q1,q2,...,qm}即用户提交查询的集合,L={l1,l2,...,ln}即用户点击的URL的集合;所有边的集合Eql={(qi,lj)|存在从qi到lj的一条边};当且仅当一个用户提交了查询qi,然后点击了URLlj,边(qi,lj)存在;
为了方便对Bql执行矩阵降维和分解,把二步图Bql转换为一个矩阵S,对于m×n查询-URL矩阵S,行表示查询,列表示URL,sij的值表明一个查询qi被不同用户连接到URLlj的次数,这里的“不同”是指如果一个用户多次点击同一查询-URL对,只记为1次。这样能够较好的发现查询和URL之间的关系,如图2所示。
(2)矩阵分解与相似度计算
对于m和n都达到千万级的时候,矩阵S非常的庞大,同时查询在二步图Bql中是很稀疏的。比如,在我们的实验数据中,一个查询连接到平均4.04个URL上,而且,一个URL也仅涉及到很少的查询。在我们的实验中URL顶点的平均度只有1.22。
基于对查询-链接矩阵S的分析,可以通过S的矩阵分解得到高质量低维度的查询Q和链接L的特征向量表示。新的特征表示提取了查询和链接的主要成分,对进一步的处理更加有效。这里Q是一个d×m的矩阵,每一列是查询的d维特征向量,同时L是一个d×n矩阵,每一列是链接的d维特征向量。
我们可以使用类似于潜在语义索引(LSI)的方法,应用著名的主成分分析(PCA)来得到Q和L,我们定义优化函数如下:
min Q , L | | S - Q T L | | F 2 + α | | Q | | F 2 + β | | L | | F 2
其中α,β为不大于0.1的正数,||·||F是弗罗宾尼斯范数(Frobenius norm),最优化的目的是使两个规范化的低维矩阵乘积QTL近似于S;
根据对上面公式做矩阵运算求解,得到最优的d×m矩阵Q,矩阵的每一列是查询的d维特征向量;向量的每个项用wij表示主成分,其中i为列标,j为行标,且1≤i≤m,1≤j≤d;两个查询的矩阵相关度采用空间余弦夹角进行计算,其公式如下:
simMatrix ( q i , q j ) = Σ k = 1 d w i , k × w j , k Σ k = 1 d w 2 i , k × Σ k = 1 d w 2 j , k
七、将查询语义相关度和矩阵相关度进行融合,计算查询数据与查询日志库中每条日志信息的相关度,作为推荐给用户的依据。
本实施方式中采用将查询语义相关度和矩阵相关度直接相乘的融合方法:
S ( q , q i ) = simMatrix ( q , q i ) · Sim ( q , q i )
其中S(q,qi)为查询q和qi融合基于查询语义和点击流矩阵的相关度。但考虑到simMatrix(q,qi)和Sim(q,qi)中一个或俩个可能等于0。我们设定一个不大于0.1的正数,比如为0.01,使得当simMatrix(q,qi)=0或Sim(q,qi)=0时,把这个较小的正数赋值给simMatrix(q,qi)或Sim(q,qi),这样可以对模型做一个简单的平滑,不至于出现零值。
八、按照步骤七中的相关度由大到小,取出Top-N推荐给用户。
下表针对三组查询测试串:“教育”、“旅游”和“健身”,对本实施方式采用的查询建议方法(QSQSCD)与Google、百度的“相关搜索”功能提供的查询建议进行比较。
在Google、百度的“相关搜索”中均包含被测试的查询词,是对查询词进行查询扩展而得到的查询建议结果,不包含查询词的语义关系。而本发明提出的查询建议结果能反映查询词的相关语义信息,如用户查询“教育”在查询建议结果中会出现“考试”和“培训”相关词语,该词语能反映“教育”的语义信息,给用户有更深层次的提示和引导。在用户检索“旅游”时QSQSCD的查询建议结果中列出“驴友”、“宾馆”,经过分析发现是用户在搜索“旅游”和“驴友”时,有很多相同的点击URL,同时“旅游”与用户的住宿存在语义关系,故“宾馆”被作为查询建议列举出来。
在本实验中将本发明提出的查询建议方法QSQSCD和SimRank相似度计算方法进行了比较。SimRank是利用图的结构信息计算对象间的相似度:一个节点与自身的相似度最高,相同或相似节点的邻居节点也相似。也就是说,节点间的相似性可以沿着边传递到他们的邻居间。下表展示的是对“教育”这个查询关键词在查询建议列表中次序为1,5,10,20的查询建议精度。实验发现,本发明提出的查询建议方法在这四个位置的查询建议精度好于SimRank方法。
Figure BDA0000070973790000091
图3展示了QSQSCD和SimRank的平均查询建议精度,其中横坐标是位置K的值(从1到10),纵坐标为在位置为K时的查询建议平均精度。在K=1时,QSQSCD和SimRank的平均查询建议精度都在80%以上,且非常的接近。但随着K的增多,也就是随着查询建议条目的增加,QSQSCDS建议精度下降比SimRank更趋于平缓,前者的查询建议效果好于后者。

Claims (7)

1.一种基于查询语义和点击流数据的查询建议方法,包括以下步骤:
一、对收集的查询日志数据进行预处理,去掉非中文查询串、乱码数据及无意义的符号,形成规范的查询日志库;
二、对用户输入的查询数据进行分词、过滤停用词的预处理,形成包含多个关键词的查询数据串;
三、将用户查询数据串与查询日志库中日志信息逐条进行相似度计算;
四、基于知网中的词概念相关度计算方法,将用户查询数据串与查询日志库中日志信息逐条进行语义相关度计算;
五、将步骤三和步骤四计算出的相似度和语义相关度进行融合,计算用户查询数据串与查询日志库中每条日志信息的查询语义相关度;
六、按照步骤五中的相关度由大到小,取出Top-N推荐给用户。
2.根据权利要求1所述的基于查询语义和点击流数据的查询建议方法,其特征在于,在得到用户查询数据串与查询日志库中每条日志信息的查询语义相关度之后,判断查询日志库中是否包含用户查询数据串,若不包含,则将用户查询数据串的矩阵相关度设为0;若包含,则以用户提交的查询数据与该数据对应的点击URL之间的关系为基础,逐条计算用户查询数据串与查询日志库中其他查询日志信息之间的矩阵相关度;
将查询语义相关度和矩阵相关度进行融合,计算查询数据与查询日志库中每条日志信息的相关度,作为推荐给用户的依据。
3.根据权利要求1或2所述的基于查询语义和点击流数据的查询建议方法,其特征在于,所述语义相关度计算方法为:
将用户查询数据串以及查询日志库中的每条日志信息均表示为规范化向量V(q)=(t1,w1;t2,w2;L;tn,wn),其中ti为特征项,wi为ti在q中的权值;查询向量V(q)中的每个元素的权值wi由下面公式来计算,
w i = freq i max { freq j | j = ( 1,2 , . . . , n ) }
其中,freqi表示查询特征项ti在查询q中的出现频率,而查询字符串q中总共包含n个特征项;
设用户查询数据串为V(q1)=(t1,w1;t2,w2;L;tn,wn),查询日志库中的一条日志信息为V(q2)=(t1,w1;t2,w2;L;tm,wm),则其语义相关度为:
ConcRel ( q 1 , q 2 ) = Σ i = 1 n Σ j = 1 m w i · w j · Sim ( t i , t j )
其中i∈[1,n],j∈[1,m],Sim(ti,tj)是知网定义的词之间的概念相似度;如果该词语不在知网的语义库中,则其概念相似度定义为0。
4.根据权利要求1或2所述的基于查询语义和点击流数据的查询建议方法,其特征在于,所述将相似度和语义相关度进行融合的方法为:
Sim(q1,q2)=α·SimKeywords(q1,q2)+(1-α)·Conc Rel(q1,q2)
其中SimKeywords(q1,q2)是步骤三得到的相似度,ConcRel(q1,q2)是步骤四得到的语义相关度,α是平衡系数,其取值范围在[0,1]范围内。
5.根据权利要求1或2所述的基于查询语义和点击流数据的查询建议方法,其特征在于,所述矩阵相关度计算方法为:
(1)构建一个二步图Bql=(Vql,Eql),其中所有顶点集Vql=Q∪L,Q={q1,q2,...,qm}即用户提交查询的集合,L={l1,l2,...,ln}即用户点击的URL的集合;所有边的集合Eql={(qi,lj)|存在从qi到lj的一条边};当且仅当一个用户提交了查询qi,然后点击了URLlj,边(qi,lj)存在;
把二步图Bql转换为一个矩阵S,对于m×n查询-URL矩阵S,行表示查询,列表示URL,sij的值表明一个查询qi被不同用户连接到URLlj的次数,这里的“不同”是指如果一个用户多次点击同一查询-URL对,只记为1次;
(2)矩阵分解与相似度计算
定义优化函数如下:
min Q , L | | S - Q T L | | F 2 + α | | Q | | F 2 + β | | L | | F 2
其中α,β为不大于0.1的正数,||·||F是弗罗宾尼斯范数,最优化的目的是使两个规范化的低维矩阵乘积QTL近似于S;
对上面公式做矩阵运算求解,得到最优的d×m矩阵Q,矩阵的每一列是查询的d维特征向量;向量的每个项用wij表示主成分,其中i为列标,j为行标,且1≤i≤m,1≤j≤d;两个查询的矩阵相关度采用空间余弦夹角进行计算,其公式如下:
simMatrix ( q i , q j ) = Σ k = 1 d w i , k × w j , k Σ k = 1 d w 2 i , k × Σ k = 1 d w 2 j , k
通过该公式计算得到两个查询的矩阵相关度。
6.根据权利要求1或2所述的基于查询语义和点击流数据的查询建议方法,其特征在于,将查询语义相关度和矩阵相关度进行融合的方法为:
S ( q , q i ) = simMatrix ( q , q i ) · Sim ( q , q i )
其中S(q,qi)为查询q和qi融合基于查询语义和点击流矩阵的相关度。
7.根据权利要求6所述的基于查询语义和点击流数据的查询建议方法,其特征在于,设定一个不大于0.1的正数,当simMatrix(q,qi)=0或Sim(q,qi)=0时,把这个正数赋值给simMatrix(q,qi)或Sim(q,qi)。
CN 201110172766 2011-06-24 2011-06-24 一种基于查询语义和点击流数据的查询建议方法 Expired - Fee Related CN102253982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110172766 CN102253982B (zh) 2011-06-24 2011-06-24 一种基于查询语义和点击流数据的查询建议方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110172766 CN102253982B (zh) 2011-06-24 2011-06-24 一种基于查询语义和点击流数据的查询建议方法

Publications (2)

Publication Number Publication Date
CN102253982A true CN102253982A (zh) 2011-11-23
CN102253982B CN102253982B (zh) 2013-03-20

Family

ID=44981246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110172766 Expired - Fee Related CN102253982B (zh) 2011-06-24 2011-06-24 一种基于查询语义和点击流数据的查询建议方法

Country Status (1)

Country Link
CN (1) CN102253982B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103294814A (zh) * 2013-06-07 2013-09-11 百度在线网络技术(北京)有限公司 搜索结果推荐方法、系统和搜索引擎
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN103942204A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备
CN104182468A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种文档语义相似度计算方法
CN104298676A (zh) * 2013-07-18 2015-01-21 佳能株式会社 主题挖掘方法和设备、以及查询扩展方法和设备
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN105243149A (zh) * 2015-10-26 2016-01-13 深圳市智搜信息技术有限公司 一种基于语义的查询推荐方法和系统
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN105653620A (zh) * 2015-12-25 2016-06-08 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和系统
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN106682022A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种日志查询方法和装置
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN108268535A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种基于知网HowNet的查询扩展方法和装置
CN110442593A (zh) * 2019-08-12 2019-11-12 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1723455A (zh) * 2002-11-15 2006-01-18 皇家飞利浦电子股份有限公司 基于语义关联的内容检索
CN1763739A (zh) * 2004-10-21 2006-04-26 北京大学 搜索引擎中的基于语义的检索方法
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1723455A (zh) * 2002-11-15 2006-01-18 皇家飞利浦电子股份有限公司 基于语义关联的内容检索
CN1763739A (zh) * 2004-10-21 2006-04-26 北京大学 搜索引擎中的基于语义的检索方法
CN101251841A (zh) * 2007-05-17 2008-08-27 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李泽军等: "基于相关性和语义相似度融合的查询扩展方法", 《计算机技术与发展》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609433A (zh) * 2011-12-16 2012-07-25 北京大学 基于用户日志进行查询推荐的方法及系统
CN102609433B (zh) * 2011-12-16 2013-11-20 北京大学 基于用户日志进行查询推荐的方法及系统
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN102880600B (zh) * 2012-08-30 2015-10-28 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN102880600A (zh) * 2012-08-30 2013-01-16 北京航空航天大学 基于通用知识网络的词语语义倾向性预测方法
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103020212B (zh) * 2012-12-07 2017-05-10 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN103942204A (zh) * 2013-01-18 2014-07-23 佳能株式会社 用于挖掘意图的方法和设备
CN103942204B (zh) * 2013-01-18 2017-09-01 佳能株式会社 用于挖掘意图的方法和设备
CN103294814A (zh) * 2013-06-07 2013-09-11 百度在线网络技术(北京)有限公司 搜索结果推荐方法、系统和搜索引擎
CN104298676A (zh) * 2013-07-18 2015-01-21 佳能株式会社 主题挖掘方法和设备、以及查询扩展方法和设备
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN104182468B (zh) * 2014-07-21 2018-01-19 安徽华贞信息科技有限公司 一种文档语义相似度计算方法
CN104182468A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种文档语义相似度计算方法
CN106156023A (zh) * 2015-03-23 2016-11-23 华为技术有限公司 语义匹配的方法、装置和系统
CN106156023B (zh) * 2015-03-23 2020-02-21 华为技术有限公司 语义匹配的方法、装置和系统
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN105243149A (zh) * 2015-10-26 2016-01-13 深圳市智搜信息技术有限公司 一种基于语义的查询推荐方法和系统
CN105243149B (zh) * 2015-10-26 2018-12-25 深圳市智搜信息技术有限公司 一种基于语义的查询推荐方法和系统
CN106682022A (zh) * 2015-11-10 2017-05-17 中国电信股份有限公司 一种日志查询方法和装置
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN105653620B (zh) * 2015-12-25 2020-05-22 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105653620A (zh) * 2015-12-25 2016-06-08 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN106294786A (zh) * 2016-08-12 2017-01-04 北京创新乐知信息技术有限公司 一种代码搜索方法和系统
CN108268535A (zh) * 2016-12-30 2018-07-10 中移(苏州)软件技术有限公司 一种基于知网HowNet的查询扩展方法和装置
CN107122469B (zh) * 2017-04-28 2019-12-17 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN110442593A (zh) * 2019-08-12 2019-11-12 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法
CN110442593B (zh) * 2019-08-12 2022-02-01 四川长虹电器股份有限公司 基于用户搜索信息跨应用共享的方法

Also Published As

Publication number Publication date
CN102253982B (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
US9734192B2 (en) Producing sentiment-aware results from a search query
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
Gu et al. Service package recommendation for mashup creation via mashup textual description mining
CN105183803A (zh) 一种社交网络平台中的个性化搜索方法及其搜索装置
Minkov et al. Improving graph-walk-based similarity with reranking: Case studies for personal information management
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
Khalid et al. Topic detection from conversational dialogue corpus with parallel dirichlet allocation model and elbow method
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
Ma et al. Content Feature Extraction-based Hybrid Recommendation for Mobile Application Services.
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130320

Termination date: 20140624

EXPY Termination of patent right or utility model