CN102637179B - 词项加权函数确定及基于该函数进行搜索的方法及装置 - Google Patents

词项加权函数确定及基于该函数进行搜索的方法及装置 Download PDF

Info

Publication number
CN102637179B
CN102637179B CN 201110037465 CN201110037465A CN102637179B CN 102637179 B CN102637179 B CN 102637179B CN 201110037465 CN201110037465 CN 201110037465 CN 201110037465 A CN201110037465 A CN 201110037465A CN 102637179 B CN102637179 B CN 102637179B
Authority
CN
China
Prior art keywords
term
feature representation
vector
determining
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110037465
Other languages
English (en)
Other versions
CN102637179A (zh
Inventor
赵京雷
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN 201110037465 priority Critical patent/CN102637179B/zh
Publication of CN102637179A publication Critical patent/CN102637179A/zh
Priority to HK12108973.0A priority patent/HK1168917A1/xx
Application granted granted Critical
Publication of CN102637179B publication Critical patent/CN102637179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种词项加权函数确定及基于确定的函数进行搜索的方法及装置,解决词项加权函数的确定不准确扩展不灵活问题。该方法服务器根据数据库中保存的查询点击日志信息,确定查询关键词中相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数样本数据,在特征表示的基础上,采用排序学习方法对预设的词项加权函数进行学习。本申请中采用排序学习方法确定最优的词项加权函数,可以保证确定的词项加权函数的准确性,并且排序学习所依赖的样本数据完全自动生成,其可扩展性比较高。

Description

词项加权函数确定及基于该函数进行搜索的方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种词项加权函数确定及基于该函数进行搜索的方法及装置。
背景技术
在电子商务领域中,词项加权技术在智能搜索中具有广泛的应用,当搜索引擎接收到用户输入的查询关键词后,根据该查询关键词可以匹配非常多的产品描述信息,按照每个产品描述信息与用户输入的查询关键词的相关性,对每个产品描述信息进行排序是影响搜索引擎质量的核心因素。
用户输入的查询关键词以及每个产品描述信息是由多个词项构成的,因此可以表征为词项的集合,用户输入的查询关键词以及每个产品描述信息的相关性程度,可以通过产品描述信息中每个词项与用户输入的查询关键词中每个词项的匹配重要程度来确定,因此一个精确的词项加权模型是提高用户搜索产品质量的基础及关键。
对于一个给定的语言文本语句或语段,词项加权模型可以评测每个词项在表示该语言文本语句或语段内容上的重要性。词项加权模型可以广泛应用于电子商务搜索各种相关应用中,例如,搜索结果排序、查询改写、相关查询推荐和搜索广告匹配等。
目前一般通过某一词项在每个产品描述信息中出现的频率进行词项分析,确定搜索结果,但是由于电子商务技术领域中产品描述信息一般较短,即其包含的词项一般较少,单单根据每个词项出现的频率很难准确的确定搜索结果。或者,在现有技术中也可以根据每个词项出现的频率,及人工对每个词项进行加权处理实现词项分析,但是该方法需要人工根据每个词项的重要性进行加权处理,对人工的要求很高,并且由于人工根据自己的经验对每个词项进行加权处理,很难保证在词项分析的过程中不出现错误,另外当每个产品的对应的类目发生变化时,还需要人工重新学习相应的规则,无法实现灵活扩展。
发明内容
有鉴于此,本申请实施例提供一种词项加权函数确定及基于该函数进行搜索的方法及装置,用以解决现有词项加权函数的确定不准确,扩展不灵活,以及导致的搜索结果不准确的问题。
本申请实施例提供的一种词项加权函数的确定方法,包括:
服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;
针对用户发送的查询关键词中的相应词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤:
根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式中的至少一种,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
本申请实施例提供的一种基于上述词项加权函数确定方法进行搜索的方法,包括:
服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;
在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;
根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值;
根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
本申请实施例提供的一种词项加权函数的确定装置,包括:
获取模块,用于获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;
加权分值确定模块,用于针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式中的至少一种,确定该相应词项针对每种特征表示方式的特征表示向量;
排序学习模块,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
本申请实施例提供的一种基于上述词项加权函数确定装置进行搜索的装置,包括:
查询结果确定模块,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;
特征向量确定模块,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;
分析提供模块,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
本申请实施例提供了一种词项加权函数确定及基于该函数进行搜索的方法及装置,该方法中,服务器根据数据库中保存的查询点击日志信息,确定查询关键词中的相应词项与点击的产品描述信息中产品标题信息中相应其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。由于在本申请实施例中根据保存的查询点击日志信息中每个词项间的重要性关系,生成训练词项加权函数的词项序对样本数据,以及每个词项对应的特征表示向量,采用排序学习方法确定词项加权函数,从而可以保证确定的词项加权函数的准确性,另外本申请实现方案中排序学习所依赖的样本数据完全是自动生成的,因此其可扩展性比较高。
附图说明
图1为本申请实施例提供的进行词项加权函数确定的系统结构示意图;
图2为本申请实施例提供的进行词项加权函数确定的过程;
图3为本申请实施例提供的词项加权函数的详细确定过程;
图4为本申请实施例提供的一种基于确定的词项加权函数进行搜索的过程;
图5为本申请实施例提供的一种词项加权函数确定装置的结构示意图;
图6为本申请实施例提供的一种基于词项加权函数确定装置进行词项搜索的装置的结构示意图。
具体实施方式
本申请为了有效的提高词项加权函数确定的准确性,以及提高词项加权函数确定方法的可扩展性,提供了一种词项加权函数的确定方法,以及基于确定的该词项加权函数进行搜索的方法。在本申请中进行词项加权函数确定的为服务器,并且服务器基于用户通过客户端输入的查询关键词,以及该用户对返回的对应该查询关键词的信息点击的产品描述信息,进行词项加权函数的生成。
下面结合说明书附图,对本申请实施例进行详细说明。
图1为本申请实施例提供的进行词项加权函数确定的系统结构示意图,在该系统中包含服务器11和客户端12。
其中,当训练生成词项加权函数时,服务器11从数据库中获取保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,针对用户发送的查询关键词中的相应词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
在本申请实施例中,当用户通过客户端向服务器发送查询关键词时,服务器接收到该查询关键词,将该查询关键词发送到数据库中进行记录,并根据该查询关键词向用户返回对应该查询关键词的信息。当客户端接收到服务器返回的对应该查询关键词的信息后,将该信息提供给用户,其中该信息即为查询结果信息,并将接收到的用户在该返回的信息中所点击的产品描述信息发送给服务器,服务器将客户端发送的用户在该信息点击的产品描述信息发送到数据库,数据库将该查询关键词信息,以及用户在返回的对应该查询关键词信息中所点击的产品描述信息进行记录,生成查询点击日志信息。
其中,该数据库可以位于服务器中,也可以位于进行信息统计的其他平台或终端内,具体的该服务器中可以包括数据库和搜索引擎,数据库用于生成并保存查询点击日志信息,搜索引擎具体用于根据接收到的客户端发送的查询关键词进行相应信息的查询。数据库在生成该查询点击日志信息时,可以根据服务器发送的查询关键词以及用户在返回的对应该查询关键词的信息中所点击的产品描述信息生成每个查询集合,即在每个查询集合中包含一个查询关键词,以及用户针对该查询关键词返回的信息点击的产品描述信息。
例如,数据库接收到的服务器发送的查询关键词为A,此时服务器将对应该查询关键词A的信息a、b、c和d返回给客户端,通过客户端显示给用户,用户点击的产品描述信息为a和c的产品描述信息,因此客户端将用户点击的产品描述信息发送到服务器,服务器将该a和c的产品描述信息发送到数据库,此时数据库将查询关键词A以及a和c的产品描述信息,确定为查询点击日志中的一个查询集合,保存在该查询点击日志中。
当服务器进行词项加权函数的训练生成时,由于数据库中记录有查询点击日志信息,服务器从数据库获取该查询点击日志信息,根据该查询点击日志信息训练生成词项加权函数。
具体的为了便于服务器进行词项加权函数的训练生成,服务器可以根据接收到的进行词项加权函数训练的指示,获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,或者,也可以当数据库中保存的查询点击日志记录了设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息时,数据库主动向服务器发起词项加权函数的训练生成的请求,服务器根据该请求,获取数据库中保存的查询点击日志信息,进行词项加权函数的生成。
服务器获取了数据库中保存的查询点击日志信息后,根据该查询点击日志信息进行词项加权函数的确定。图2为本申请实施例提供的进行词项加权函数确定的过程,该过程包括以下步骤:
S201:服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有一段时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息。
S202:针对用户发送的每个查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据。
其中该其他词项为该产品标题信息包含的词项中,与该查询关键中包含的词项不同的词项,例如该产品标题信息包含词项A、B、C、D,该查询关键词中包含词项A、C,则该产品标题信息中的其他词项为词项B、D。该词项序对样本数据包含多组词项序对,其中每组词项序对包括两个词项,且包含该两个词项的重要性关系,另外每组词项序对中包括查询关键词中包含的一个词项。例如词项序对样本数据包括的一组词项序对包括词项A、B,其中词项A的重要性大于词项B的重要性,并且词项A为查询关键词中包含的词项。
S203:对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量。
S204:根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
本申请实施例中描述的关键词中的每个词项,如:A、C,以及产品标题信息中的每个词项,如:A、B、C、D,并不必然是指关键词或产品标题信息中的每一个文字或字符,可以是除去一些干扰词,如:的、吗等之后进行分词获得的词项。本申请实施例中所用措辞“每个”,仅仅是为了方便描述本申请的具体实施方式,并不能做为对本申请思想的限制。
具体的在本申请实施例中,当服务器从数据库中基于数据库保存的查询点击日志信息,获取了进行训练的数据后,基于获取的训练数据确定词项序对样本数据,当确定了词项序对样本数据后,根据设置的至少一种特征表示方式,确定每个词项的针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对词项加权函数进行学习,确定进行词项分析的词项加权函数。本申请实施例中该排序学习方法可以为排序支持向量机(Rank SVM)方法、排序神经网络(Rank Net)方法、排序集成算法(Rank Boost)等。
在本申请实施例中数据库中保存的查询点击日志,可以是用户对电子商务搜索引擎的用户点击信息,记录的查询点击日志信息。该查询点击日志(ClickThrough)信息中,记录用户的历史查询和用户对该查询结果文档的点击情况。在该查询点击日志中记录有每个查询集合,该查询集合可以表示为:
CT={<q,d>|q∈Q,d∈Dq}
其中,q为某时间段内用户基于客户端向搜索引擎提交的产生点击行为的每个查询关键词,Q是某个时间段内用户提交到搜索引擎的产生点击行为的查询关键词的集合,d为用户输入查询关键词后基于搜索引擎返回的信息点击的信息,Dq表示用户在输入查询关键词q后基于搜索引擎返回的信息点击的信息的集合,q=q1q2...qn为每个查询关键词q对应的词项序列,其序列长度为n;d=d1d2...dm为点击信息的产品描述信息所对应的词项序列,其序列长度为m,在本申请中,一种典型的实现是用产品描述信息中的产品标题信息(title)来表征d。
在本申请实施例中在确定每个词项与点击的产品描述信息中产品标题信息中每个其他词项的重要性关系之前,所述方法还包括:
确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
其中设置的规则包括以下一种或几种:判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数;判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现;针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复;针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
具体的在对获取的查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息进行过滤时,根据从数据库中获取的查询点击日志信息,针对该查询点击日志信息中记录的每个查询集合,例如该查询集合为CT',
CT &prime; = { < q &prime; , d &prime; > | q &prime; &Element; Q &prime; , d &prime; &Element; D q &prime; } q &prime; = q 1 q 2 &CenterDot; &CenterDot; &CenterDot; q n d &prime; = d 1 d 2 &CenterDot; &CenterDot; &CenterDot; d m
在该查询集合中包括查询关键词q',该查询关键词由词项q1、q2、...、qn构成,针对该查询关键词q'用户在返回的对应该查询关键词的信息中所点击的产品描述信息中的产品标题信息为d',该产品标题信息由词项d1、d2、...、dm构成。
当针对该查询集合进行过滤时,根据以下至少一种设置的规则进行:
n < m &ForAll; i , j ( i &Element; n &And; j &Element; n &And; i &NotEqual; j &RightArrow; q i &NotEqual; q j ) &ForAll; i , j ( i &Element; m &And; j &Element; m &And; i &NotEqual; j &RightArrow; d i &NotEqual; d j ) &ForAll; i ( i &Element; n &RightArrow; &Exists; j ( j &Element; m &And; q i = d j ) )
即该产品标题信息中包含的词项的个数m不小于查询关键词包含的词项的个数n;对于查询关键词包含的词项中的任意两个不相同,即查询关键词中包含的每两个词项不重复;对于产品标题信息中包含的词项中任意两个都不相同,即产品描述信息的产品标题信息中包含的每两个词项不重复;对于查询关键词包含的任意一个词项,在该产品标题信息中包含的词项中都需要出现,即查询关键词包含的每个词项在产品标题信息中包含的词项中全部出现。
图3为本申请实施例提供的词项加权函数的详细确定过程,该过程包括以下步骤:
S301:服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息。
S302:确定查询点击日志中每个查询集合,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
所述设置的规则包括以下一种或几种,
判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数;
判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现;
针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复;
针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
S303:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据。
S304:对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量。
S305:根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
当然不进行上述过滤的步骤,直接根据获取的查询点击日志信息,确定词项加权函数也是可以的,只是根据上述设置的规则中的至少一种,对每个查询集合中的查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息进行过滤,可以过滤掉不必要的信息,减小后续词项加权函数确定的工作量,并且由于在确定词项加权函数时,过滤了一些不必要的信息,从而可以保证确定的词项加权函数的准确性。
服务器针对过滤后的查询点击日志信息,生成词项序对样本,即根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据。在生成词项序对样本时,根据如下条件生成:
即该产品标题信息包含的词项中,与该查询关键词包含的词项相同的词项的重要性,大于与该查询关键词包含的词项不同的词项的重要性,即该产品标题信息包含的词项中dj与查询关键词词项中qi词项相同,但产品标题信息包含的词项中dk词项,与查询关键词包含的任意一个词项都不相同,则可知词项dj在该产品标题信息中的加权分值高于词项dk,也即词项dj在该产品标题信息重要性大于词项dk的重要性。
具体的例如,当服务器获取到的查询点击日志信息中包含该查询集合CT'时,在该查询集合中包含如下信息:
<led bulb,MR16LED light Bulb12V>
其中led bulb为用户输入的查询关键词,在该查询关键词中包含词项led和bulb,MR16LED light Bulb12V为用户对返回的对应该查询关键词的信息点击的产品描述信息中的产品标题信息d,在该产品标题信息中包含词项MR16、LED、light、Bulb和12V。
根据上述生成词项序对样本数据的条件,可知根据上述查询集合可以生成如下的词项序对样本数据:
Figure GDA00003110426700121
在该词项序对样本数据中包括6组词项序对,其中每组词项序对包括2个词项,且包含该两个词项间的重要性关系,并且其中一个词项为查询关键词中包含的一个词项。
即由于产品标题信息中的词项bulb和led,与用户输入的查询关键词中的词项bulb和led对应相同,而产品标题信息中的其他词项与该查询关键词中词项都不相同,因此可知,在该产品标题信息d中词项bulb和led的重要性,大于词项MR16、light和12V的重要性。在本申请实施例中词项“led”和“bulb”之间并没有生成相应的重要性关系,但这并不会对确定的词项加权函数的性能造成多大影响,在训练阶段,词项学习并不是需要确定产品标题信息中所有的词项中,每两个词项之间的重要性关系。
当根据查询关键词中的相应词项,确定了该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系后,需要对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该每个词项针对每种特征表示方式的特征表示向量,根据该特征表示向量以及预设的每个加权函数确定该词项的加权分值。
在本申请实施例中该预设的每个加权函数可以表示为fw(x)=w·x,其中x为词项针对每种特征表示方式的特征表示向量,w为针对每种特征表示方式设置的参数向量。针对确定了产品描述信息中产品标题信息中每个词项的重要性关系后,根据该产品描述信息中的每个词项,根据设置的至少一种特征表示方式,确定该词项对应的特征向量,之后,根据确定的该特征向量,以及该特征表示方式对应的参数向量,确定该词项的加权分值。
词项的特征表示方式是保证加权算法准确率的关键之一,具体的在本申请实施例中该设置的特征表示方式包括:统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式。
在统计特征表示方式中又可以包括:词项类目特指特征表示方式、词项独立特征表示方式、词项修饰特征表示方式以及词项主题中心性特征表示方式中的一种或几种。
由于电子商务中产品描述信息通常分布在不同的类目中,即针对不同类别的产品,其产品描述信息归属于不同的类目。词项在不同类目中的一个分布情况对该词项的其加权分值是有影响的。其中,词项类目特指特征表示方式中,可以根据词项的出项频率在不同类目的一个分布熵,如果一个词项经常出现,并且分布于较少的特定类目中,则其主题特指性比较高。在基于词项类目特指特征表示方式中根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的题目中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,具体的可以根据以下公式,确定该词项针对词项类目特指特征表示方式的特征表示子向量:
TS C ( t ) = &Sigma; i = 1 n g i ( t ) g ( t ) log ( g i ( t ) g ( t ) ) 其中,gi(t)为词项t在类目Ci的标题中出现频率,g(t)为词项t在所有类目的标题中总的出现频率,TSC(t)为词项t针对词项类目特指特征表示方式的特征表示子向量。
词项能否以独立形式查询在很大程度上表明了该词项蕴含信息的多少,作为查询结果或查询关键词中单独出现过的词项,表示特定信息主题的权重比较高。在本申请实施例中,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,具体的可以根据下述公式确定:
Ind(t)=log(gind(t)+c)
其中,gind(t)为词项t在查询点击日志中单独作为查询关键词出现的次数,C为预先设置的平滑因子,Ind(t)为词项t针对词项独立特征表示方式的特征表示子向量。
不同的词项作为属性来修饰另一词项的可能性是不一样的,词项的修饰性可以定义为词项在修饰词位置上出现频率和其总的出现频率的比值。在本申请实施例中,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户对返回的针对该查询关键词的信息点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量。具体的在本申请实施例中可以根据下述公式确定:
Mod ( t ) = g mod ( t ) g b ( t )
其中,Qb为查询惦记日志中仅包括两个词项的查询集合,gb(t)为词项t出现在Qb中的次数,gmod(t)为词项t出现在Qb中时位于左边修饰位置的次数,Mod(t)为词项t针对词项修饰特征表示方式的特征表示子向量。
当词项是否为其所在语句或语段的主题中心与词项所出现的具体自然语言语句或语段相关,标明了词项在该语句或语段中的一个语义中心程度。在本申请实施例中,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量。具体的在本申请实施例中可以根据下述公式确定:
TC = &Sigma; j = 1 n coll ( t j , t i ) n
其中fb(tj,ti)为包含两个词项的查询关键词tjti在查询点击日志的每个查询集合Qb中出现的次数,Qb为查询惦记日志中仅包括两个词项的查询集合,TC为词项针对词项主题中心性特征表示方式的特征表示子向量。
当根据上述至少一种统计特征表示方式,确定了词项的特征表示子向量后,根据该词项的的每个特征表示子向量,以及每个特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
在本申请实施例中该特征表示方式还可以是词级特征表示方式,当该特征表示方式为词级特征表示方式时,确定该每个词项针对词级特征表示方式的特征表示向量时,可以根据词项的长度、词项是否由纯数字组成,以及词项的后缀,确定词项针对词级特征表示方式的特征表示向量。
具体的词项的长度对词项的重要性是有影响的,因此在本申请实施例中可以根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量。由纯数字组成的词项与其他词项相比可能具有不同的主题重要性,因此可以根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量。词项的后缀在一定程度上表明了词项的类别信息,如“er”、“or”等,因此可以根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量。当根据词级特征确定了上述至少一个子向量后,根据确定的该子向量,以及该子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
在本申请实施例中该特征表示方式还可以是语法特征表示方式,当该特征表示方式为语法特征表示方式时,可以根据每个词项的词性,浅层语段(Chunk)以及该词项是否为词法中心词,确定词项针对语法特征表示方式的特征表示向量。
具体的词性在一定程度上反映了词项的重要程度,比如形容词,副词反映主题焦点的可能性比较小,更多反映的是对信息焦点的属性以及类别修饰关系,而名词性词汇则对信息主题的贡献相对较大,因此在本申请实施例中可以根据词项的词性,确定该词项对应的语法特征表示方式的特征表示第一子向量。短语信息反映了词汇之间在短语层次上的一种整体关系,可以作为由统计信息获取的词间关系在具体查询处理应用的一个有效补充,其中短语由至少两个词项构成,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量。语法中心词表示在语句或语段中在语法修饰上处于中心位置的词项。在本申请实施例中可以将每个词项,与保存的词法中心词进行匹配,根据是否匹配成功,确定该词项对应该语法特征表示方式的特征表示第三子向量。当根据语法特征确定了上述至少一个子向量后,根据确定的该子向量,以及该子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
在本申请实施例中该特征表示方式还可以是语义特征表示方式,当该特征表示方式为语义特征表示方式时,确定该每个词项针对语义特征表示方式的特征表示向量时,根据每个词项是否为产品名词项,或产品名中的部分词项、词项是否为品牌名词项,或品牌名中的部分词项,以及词项是否为型号名词项,或型号名中的部分词项,确定该词项针对语义特征表示方式的特征表示向量。
具体的根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量;根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量;根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量。当根据语义特征确定了上述至少一个子向量后,根据确定的该子向量,以及该子向量对应的参数子向量,确定该词项针对语义特征的特征表示向量。
在本申请实施例中当根据至少一种特征表示方式,确定了词项针对每种特征表示方式的特征表示向量后,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。具体的在确定词项加权函数时,可以预先设置多个词项加权函数,其中每个词项加权函数存在其对应的至少一种特征表示方式,以及与每种特征表示方式对应的参数向量,通过预先设置的每个词项加权函数,可以确定每个词项的加权分值。当词项的加权分值间的关系,与确定的每个词项与点击的产品描述信息中产品标题信息中每个其他词项的重要性关系的符合度满足设定的阈值条件时,将确定该加权分值的加权函数确定为进行词项分析的词项加权函数。即通过某一预先设置的词项加权函数,确定的每个词项的加权分值之间的关系,与确定的词项序对之间的词项之间的重要性关系的符合度满足设定的阈值条件时,则确定该预先设置的词项加权函数为进行词项分析的词项加权函数。
在本申请实施例中,对于一个给定的自然语言语句或语段s=t1t2...tn,其中ti为语句中的词项,x为词项针对每种特征表示方式的特征表示向量,w为针对每种特征表示方式设置的参数向量,fw(x)为确定的该词项针对该加权函数的加权分值,当满足
Figure GDA00003110426700174
其中
Figure GDA00003110426700175
表示词项之间(由词项的对应特征向量表示)在该自然语言语句或语段中的重要性关系。
由于在本申请实施例中,已经确定了每两个词项在每个产品标题信息中的重要性关系,并且可以根据设置的至少一种特征表示方式,确定该每个词项针对每种特征表示方式的特征表示向量,根据该特征表示向量以及预设的每个加权函数确定该词项的加权分值。可以采用排序学习方法确定进行词项分析的词项加权函数。例如该排序学习方法排序支持向量机(Rank SVM)方法时,基于排序支持向量机罚分函数来学习上述词项评分模型。假设词项加权评分函数具有线性形式fw(x)=w·x,其中w为参数向量,w·x为两向量间的点积,则排序支持向量机的罚分函数可以表示为:
min w M ( w ) = 1 2 | | w | | 2 + C &Sigma; i = 1 n &xi; i
subject to &xi; i &GreaterEqual; 0 , z i [ w &CenterDot; ( x i 1 - x i 2 ) ] &GreaterEqual; 1 - &xi; i i = 1 , . . . , n
其中,为转为分类问题后样本词项序对所对应的标注类别,C为正则化常量。因此根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
当确定了词项加权函数后,可以根据该词项加权函数进行排序、缩写查找、广告匹配等搜索工作。由于本申请实施例在确定词项加权函数时,预先设置多个词项加权函数,每个词项加权函数对应不同的参数向量,和特征表示方式。针对每个词项加权函数,根据该词项加权函数对应的至少一种特征表示方式,采用该至少一种特征表示方式,确定每个词项的加权分值。而该特征表示方式包括统计特征表示方式、词级特征表示方式、语法特征表示方式以及语义特征表示方式,而每种表示方法都能从一定程度上反映每个词项的重要性,从而可以确定每个词项的加权分值。
当确定了每个词项的加权分值后,由于根据查询关键词和每个产品标题信息中包含的词项,确定了词项序对数据,该词项序对数据也体现了每两个词项间的重要性关系。当由预先设置的词项加权函数,确定的每个词项的加权分值,与确定的词项序对中每两个词项间的重要性关系符合度达到设定的阈值时,则可以确定可以进行准确进行词项分析的词项加权函数。
由于在本申请实施例中在确定词项加权函数时,综合考虑了词项的统计特征、词级特征、语法特征以及语义特征等词项的自然属性等特征,因此可以保证确定的词项的特征表示向量的准确性,从而为后续词项加权函数的确定的准确性提供基础。另外,在本申请实施例中在确定词项加权函数时,采用排序学习的方法,即根据确定的每个词项的加权分值,与确定的词项序对中每两个词项间的重要性关系符合度,确定进行词项分析的词项加权函数,进一步保证了确定的词项加权函数的准确性。由于通过本申请实施例确定的词项加权函数的准确性,因此也可以在采用该词项加权函数进行搜索时,保证搜索结果的准确性。
图4为本申请实施例提供的一种基于确定的词项加权函数进行搜索的过程,该过程包括以下步骤:
S401:服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息。
S402:在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量。
S403:根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值。
S404:根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
在电子商务的搜索系统中,当服务器获取用户输入的一个查询关键词,根据该查询关键词会匹配一个非常庞大的搜索集,对查询结果,根据确定的词项加权函数,及该词项加权函数对应的特征表示方式,确定每个查询结果的产品标题信息中每个词项的分值,并确定每个产品标题信息中词项的总分值的大小,将该每个产品描述信息进行排序,将排序后的产品描述信息提供给所述用户,可以帮助用户找到与其信息需求最相关的查询结果。相关性排序是影响搜索质量和用户体验的关键之一。利用本申请确定的词项加权函数,针对用户输入的查询关键词,以及确定的进行词项分析的词项加权函数对应的特征表示向量,采用对应的特征表示方式,确定该查询结果中每个词项的分值。
所述相应的特征表示方式包括以下一种或几种:
统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式。
当特征表示方式为统计特征表示方式时,确定词项对应统计特征表示方式的特征表示向量包括:
根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量;
根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量;
确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量;和
确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量;
根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
当特征表示方式为词级特征表示方式时,确定词项对应词级特征表示方式的特征表示向量包括:
根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量;
根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量;
根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
当特征表示方式为语法特征表示方式时,确定词项对应语法特征表示方式的特征表示向量包括:
根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量;
根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量;
根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
当特征表示方式为语义特征表示方式时,确定词项对应语义特征表示方式的特征表示向量包括:
根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量;
根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量;和
根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
具体的在确定每个词项的分值时,当该进行词项分析的词项加权函数对应的特征表示向量为采用统计特征表示方式确定的特征向量时,则在确定每个词项的特征表示向量时,也采用统计特征表示方式确定该词项的特征表示向量。当该词项加权函数对应的特征表示向量为采用统计特征表示方式和语法特征表示方式确定的特征向量时,则采用统计特征表示方式和语法特征表示方式确定该词项的特征表示向量。
在服务器根据用户输入的查询关键词进行查询之前,还可以包括:基于确定的词项加权函数,对用户输出的查询关键词查询缩写。这是因为,用户可能某些时候使用比较详细的语言形式对其进行查询关键词的表述。然而现有的搜索引擎大都是基于词袋模型构建,过于详尽和冗长的用户查询关键词表述会对查询准确率和召回率产生副作用。
具体的进行查询缩写包括:根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量,根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中每个词项的分值,根据确定的每个词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
查询缩写任务的目标在于对用户输入的查询关键词中,针对确定的词项加权函数,以及至少一种特征表示方式,确定该查询关键词中加权分值较高的词项,进行有选择的自动筛选,保留那些能反映用户需求的词而去掉噪音词,可对检索性能进行提升,改善搜索引擎的用户体验水平。即利用本申请实施例确定的词项加权函数,可以对用户输入的查询关键词中的词项的重要性进行衡量,去除那些重要性低的词,保留重要性较高的词项,实现查询缩写的功能。
另在,当确定了词项加权函数后,可以将该词项加权函数应用于关键词竞价广告中。由于广告用语与普通用语可能存在语义鸿沟问题,即可能存在很多描述性和夸张性的修饰用语,当服务器获取了一个查询关键词后,对关键词与广告描述信息的匹配造成很大困难。本申请确定的词项加权函数可以用于对广告描述的主题内容词汇进行重要性衡量,提高关键词与广告描述信息之间相关性匹配的精度,从而可以提供精确的广告描述信息。
图5为本申请实施例提供的一种词项加权函数确定装置的结构示意图,该装置包括:
获取模块51,用于服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;
加权分值确定模块52,用于针对用户发送的每个查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量;
排序学习模块53,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
所述装置还包括:
过滤模块54,用于确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
所述过滤模块54,具体用于根据设置的规则的一种或几种进行过滤,其中设置的规则包括判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数,判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现,针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复,针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
加权分值确定模块52,具体用于当设置的特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量,根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
加权分值确定模块52,具体用于当设置的特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
加权分值确定模块52,具体用于当设置的特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
加权分值确定模块52,具体用于当设置的特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语义特征表示方式的特征表示向量。
具体的该装置可以位于服务器内。
图6为本申请实施例提供的一种基于词项加权函数的确定装置进行搜索的装置的结构示意图,该装置包括:
查询结果确定模块61,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;
特征向量确定模块62,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;
其中,该词项加权函数为服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,针对用户发送的每个查询关键词中的每个词项,及用户对返回的对应该查询关键词的信息点击的产品描述信息,执行以下步骤,根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的至少一种特征表示方式,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
分析提供模块63,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
所述装置还包括:
缩写确定模块64,用于根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量,根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中相应词项的分值,根据确定的相应词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
所述特征向量确定模块62,具体用于当特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量,根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
所述特征向量确定模块62,具体用于当特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
所述特征向量确定模块62,具体用于当特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
所述特征向量确定模块62,具体用于当特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
具体的该装置可以位于服务器内。
本申请实施例提供了一种词项加权函数确定及基于该函数进行搜索的方法及装置,该方法中,服务器根据数据库中保存的查询点击日志信息,确定查询关键词中的相应词项与点击的产品描述信息中产品标题信息中相应其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,并根据设置的至少一种特征表示方式,确定相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。由于在本申请实施例中根据保存的查询点击日志信息中每个词项间的重要性关系,生成训练词项加权函数的词项序对样本数据,以及每个词项对应的特征表示向量,采用排序学习方法确定词项加权函数,从而可以保证确定的词项加权函数的准确性,另外本申请实现方案中排序学习所依赖的样本数据完全是自动生成的,因此其可扩展性比较高。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (28)

1.一种词项加权函数确定方法,其特征在于,包括:
服务器获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;
针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤:
根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式中的至少一种,确定该相应词项针对每种特征表示方式的特征表示向量,根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
2.如权利要求1所述的方法,其特征在于,所述确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系之前,所述方法还包括:
确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
3.如权利要求2所述的方法,其特征在于,所述设置的规则包括以下一种或几种,
判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数;
判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现;
针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复;
针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
4.如权利要求1所述的方法,其特征在于,当设置的特征表示方式为统计特征表示方式时,确定该相应词项针对统计特征表示方式的特征表示向量包括:
根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量;
根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量;
确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的针对该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量;和
确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量;
根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
5.如权利要求1所述的方法,其特征在于,当设置的特征表示方式为词级特征表示方式时,确定该相应词项针对词级特征表示方式的特征表示向量包括:
根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量;
根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量;
根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
6.如权利要求1所述的方法,其特征在于,当设置的特征表示方式为语法特征表示方式时,确定该相应词项针对语法特征表示方式的特征表示向量包括:
根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量;
根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量;
将每个词项,与保存的词法中心词进行匹配,根据是否匹配成功,确定该词项对应该语法特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
7.如权利要求1所述的方法,其特征在于,当设置的特征表示方式为语义特征表示方式时,确定该相应词项针对语义特征表示方式的特征表示向量包括:
根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量;
根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量;和
根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语义特征表示方式的特征表示向量。
8.如权利要求1所述的方法,其特征在于,所述排序学习方法包括:
排序支持向量机方法、排序神经网络方法和排序集成算法。
9.一种基于权利要求1所述的词项加权函数确定方法进行搜索的方法,其特征在于,所述方法包括:
服务器根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;
在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;
根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值;
根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
10.如权利要求9所述的方法,其特征在于,所述确定该查询关键词对应的查询结果信息之前,所述方法还包括:
根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量;
根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中相应词项的分值;
根据确定的相应词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
11.如权利要求9或10所述的方法,其特征在于,所述相应的特征表示方式包括以下一种或几种:
统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式。
12.如权利要求11所述的方法,其特征在于,当特征表示方式为统计特征表示方式时,确定词项对应统计特征表示方式的特征表示向量包括:
根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量;
根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量;
确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量;和
确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量;
根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
13.如权利要求11所述的方法,其特征在于,当特征表示方式为词级特征表示方式时,确定词项对应词级特征表示方式的特征表示向量包括:
根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量;
根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量;
根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
14.如权利要求11所述的方法,其特征在于,当特征表示方式为语法特征表示方式时,确定词项对应语法特征表示方式的特征表示向量包括:
根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量;
根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量;
根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
15.如权利要求11所述的方法,其特征在于,当特征表示方式为语义特征表示方式时,确定词项对应语义特征表示方式的特征表示向量包括:
根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量;
根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量;和
根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量;
根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
16.一种词项加权函数确定装置,其特征在于,所述装置包括:
获取模块,用于获取数据库中保存的查询点击日志信息,其中该查询点击日志信息中记录有设定时间长度内每个用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息;
加权分值确定模块,用于针对用户发送的查询关键词中的相应词项,及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,执行以下步骤:根据该查询关键词中的相应词项,确定该相应词项与点击的产品描述信息中产品标题信息中其他词项的重要性关系,生成训练词项加权函数的词项序对样本数据,对该点击的产品描述信息中产品标题信息中的相应词项,按照设置的统计特征表示方式、词级特征表示方式、语法特征表示方式和语义特征表示方式中的至少一种,确定该相应词项针对每种特征表示方式的特征表示向量;
排序学习模块,用于根据生成的词项加权函数的样本数据,以及确定的特征向量,采用排序学习的方法对预设的词项加权函数进行学习,确定进行词项分析的词项加权函数。
17.如权利要求16所述的装置,其特征在于,所述装置还包括:
过滤模块,用于确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据设置的规则,对获取的每个查询集合中查询关键词及用户在返回的对应该查询关键词的信息中所点击的产品描述信息,进行过滤。
18.如权利要求17所述的装置,其特征在于,所述过滤模块,具体用于根据设置的规则的一种或几种进行过滤,其中设置的规则包括判断产品描述信息的产品标题信息中包含的词项的个数是否不小于查询关键词包含的词项的个数,判断查询关键词包含的词项,是否在产品描述信息的产品标题信息中包含的词项中全部出现,针对每个查询关键词,判断该查询关键词中包含的每两个词项是否不重复,针对每个产品描述信息,判断产品描述信息的产品标题信息中包含的每两个词项是否不重复。
19.如权利要求16所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户对返回的针对该查询关键词的信息点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量,根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项针对统计特征表示方式的特征表示向量。
20.如权利要求16所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对词级特征的特征表示向量。
21.如权利要求16所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语法特征的特征表示向量。
22.如权利要求16所述的装置,其特征在于,加权分值确定模块,具体用于当设置的特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项针对语义特征表示方式的特征表示向量。
23.一种基于权利要求16所述的词项加权函数确定装置进行词项搜索的装置,其特征在于,所述装置包括:
查询结果确定模块,用于根据获取的用户基于客户端输入的查询关键词,确定该查询关键词对应的查询结果信息;
特征向量确定模块,用于在该查询结果信息中,根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定相应产品描述信息的产品标题信息包含的词项对应该相应特征表示方式的特征表示向量;
分析提供模块,用于根据该特征表示向量,以及该进行词项分析的词项加权函数,确定相应词项的分值,根据确定的相应产品标题信息中词项的总分值的大小,将所述产品描述信息进行排序,将排序后的产品描述信息提供给所述用户。
24.如权利要求23所述的装置,其特征在于,所述装置还包括:
缩写确定模块,用于根据进行词项分析的词项加权函数采用的特征表示向量,采用相应的特征表示方式,确定用户输入的所述查询关键词包含的每个词项对应相应特征表示方式的特征表示向量,根据该特征表示向量,以及该进行词项分析的词项加权函数,确定该查询关键词中相应词项的分值,根据确定的相应词项的分值,选择分值较大的词项作为查询结果信息确定的查询关键词中的词项。
25.如权利要求23或24所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为统计特征表示方式时,根据词项在每种产品类别的标题中出现的频率,以及该词项在所有产品类别的标题中出现的频率,确定该词项针对词项类目特指特征表示方式的特征表示子向量,根据词项在查询点击日志中独立作为查询关键词出现的次数,确定该词项针对词项独立特征表示方式的特征表示子向量,确定查询点击日志中每个查询集合,其中该查询集合中包含用户发送的查询关键词,以及该用户在返回的对应该查询关键词的信息中所点击的产品描述信息,根据词项在仅包含两个词项的查询集合中出现的次数,及该词项在仅包含两个词项的查询集合中位于左边位置的次数,确定该词项针对词项修饰特征表示方式的特征表示子向量,和,确定查询点击日志中每个查询集合,根据词项在仅包含两个词项的查询集合中出现的次数,确定该词项针对词项主题中心性特征表示方式的特征表示子向量,根据至少一种特征表示子向量,以及该特征表示子向量对应的参数子向量,确定该词项对应统计特征表示方式的特征表示向量。
26.如权利要求23或24所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为词级特征表示方式时,根据词项包含的字节数,确定该词项对应词级特征表示方式的特征表示第一子向量,根据词项是否仅由数字组成,确定该词项对应词级特征表示方式的特征表示第二子向量,根据词项的后缀,确定该词项对应词级特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应词级特征的特征表示向量。
27.如权利要求23或24所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为语法特征表示方式时,根据词项的词性,确定该词项对应语法特征表示方式的特征表示第一子向量,根据短语对应的词性,确定构成该短语的每个词项对应语法特征表示方式的特征表示第二子向量,根据每个词项是否为语法中心词,确定该词项对应语法特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语法特征的特征表示向量。
28.如权利要求23或24所述的装置,其特征在于,所述特征向量确定模块,具体用于当特征表示方式为语义特征表示方式时,根据词项是否为产品名词项,或产品名中的部分词项,确定该词项对应词义特征表示方式的特征表示第一子向量,根据词项是否为品牌名词项,或品牌名中的部分词项,确定该词项对应词义特征表示方式的特征表示第二子向量,和,根据词项是否为型号名词项,或型号名中的部分词项,确定该词项对应词义特征表示方式的特征表示第三子向量,根据确定的至少一个子向量,以及每个子向量对应的参数子向量,确定该词项对应语义特征表示方式的特征表示向量。
CN 201110037465 2011-02-14 2011-02-14 词项加权函数确定及基于该函数进行搜索的方法及装置 Active CN102637179B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 201110037465 CN102637179B (zh) 2011-02-14 2011-02-14 词项加权函数确定及基于该函数进行搜索的方法及装置
HK12108973.0A HK1168917A1 (en) 2011-02-14 2012-09-13 Method and device for determining word item weighting function and searching according to the function

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110037465 CN102637179B (zh) 2011-02-14 2011-02-14 词项加权函数确定及基于该函数进行搜索的方法及装置

Publications (2)

Publication Number Publication Date
CN102637179A CN102637179A (zh) 2012-08-15
CN102637179B true CN102637179B (zh) 2013-09-18

Family

ID=46621576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110037465 Active CN102637179B (zh) 2011-02-14 2011-02-14 词项加权函数确定及基于该函数进行搜索的方法及装置

Country Status (2)

Country Link
CN (1) CN102637179B (zh)
HK (1) HK1168917A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252456B (zh) * 2013-06-25 2018-10-09 阿里巴巴集团控股有限公司 一种权重估计方法、装置及系统
CN103455564B (zh) * 2013-08-15 2018-11-13 复旦大学 一种根据维基百科中话题信息使查询词项多样化的方法
CN106294661B (zh) * 2016-08-04 2019-09-20 百度在线网络技术(北京)有限公司 一种扩展搜索方法与装置
CN106570075A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本检索分类特征选择方法
CN107180098B (zh) * 2017-05-16 2019-11-12 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN110020181B (zh) * 2018-01-02 2021-05-25 中国移动通信有限公司研究院 一种推荐信息的处理方法、装置及计算机可读存储介质
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN110807138B (zh) * 2019-09-10 2022-07-05 国网电子商务有限公司 一种搜索对象类别的确定方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1268711A (zh) * 1999-03-31 2000-10-04 国际商业机器公司 文件或数据库管理器以及基于其的系统
CN1667615A (zh) * 2004-03-09 2005-09-14 微软公司 用户意向的发现
CN101189608A (zh) * 2005-03-31 2008-05-28 谷歌公司 用于分析用户的Web历史的系统和方法
EP1941402A1 (en) * 2005-10-04 2008-07-09 Thomson Global Resources Systems, methods, and software for identifying relevant legal documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1268711A (zh) * 1999-03-31 2000-10-04 国际商业机器公司 文件或数据库管理器以及基于其的系统
CN1667615A (zh) * 2004-03-09 2005-09-14 微软公司 用户意向的发现
CN101189608A (zh) * 2005-03-31 2008-05-28 谷歌公司 用于分析用户的Web历史的系统和方法
EP1941402A1 (en) * 2005-10-04 2008-07-09 Thomson Global Resources Systems, methods, and software for identifying relevant legal documents

Also Published As

Publication number Publication date
CN102637179A (zh) 2012-08-15
HK1168917A1 (en) 2013-01-11

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US10896212B2 (en) System and methods for automating trademark and service mark searches
CN102637179B (zh) 词项加权函数确定及基于该函数进行搜索的方法及装置
US10565533B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US11100124B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
CN102929873B (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN102253982B (zh) 一种基于查询语义和点击流数据的查询建议方法
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
CN103838833B (zh) 基于相关词语语义分析的全文检索系统
US8560513B2 (en) Searching for information based on generic attributes of the query
CN103678576B (zh) 基于动态语义分析的全文检索系统
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
US20100235311A1 (en) Question and answer search
US20040249808A1 (en) Query expansion using query logs
US20060026152A1 (en) Query-based snippet clustering for search result grouping
CN104298776B (zh) 基于lda模型的搜索引擎结果优化系统
CN102609433A (zh) 基于用户日志进行查询推荐的方法及系统
EP2524348A2 (en) User communication analysis systems and methods
CN104111925B (zh) 项目推荐方法和装置
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
CN109829045A (zh) 一种问答方法和装置
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
CN116414968A (zh) 信息搜索方法、装置、设备、介质及产品
CN116738065B (zh) 一种企业搜索方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1168917

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1168917

Country of ref document: HK