CN102063468B - 一种用于确定查询序列的查询类别的设备及其方法 - Google Patents

一种用于确定查询序列的查询类别的设备及其方法 Download PDF

Info

Publication number
CN102063468B
CN102063468B CN201010579518.7A CN201010579518A CN102063468B CN 102063468 B CN102063468 B CN 102063468B CN 201010579518 A CN201010579518 A CN 201010579518A CN 102063468 B CN102063468 B CN 102063468B
Authority
CN
China
Prior art keywords
search sequence
spread vector
vector
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010579518.7A
Other languages
English (en)
Other versions
CN102063468A (zh
Inventor
吴中勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201010579518.7A priority Critical patent/CN102063468B/zh
Publication of CN102063468A publication Critical patent/CN102063468A/zh
Application granted granted Critical
Publication of CN102063468B publication Critical patent/CN102063468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种用于确定查询序列的查询类别的设备及其方法,包括:获取待确定查询类别的查询序列;对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;根据所述相关度,确定所述查询序列的查询类别。与现有技术相比,本发明对查询序列进行扩展,并将扩展后的扩展向量与多个查询分类匹配,根据所述扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别,显著地提高检索的准确率和召回率,增强了用户体验。

Description

一种用于确定查询序列的查询类别的设备及其方法
技术领域
本发明涉及涉及自然语言处理技术,尤其涉及用于确定查询序列的查询类别的技术。
背景技术
在现有技术中,对用户的查询序列进行查询分类时,往往通过静态专有名词词典结合查询类别需求后缀来简单识别。然而,该分类方法过多地依赖于词典中专有名词挖掘的准确率和召回率,加上专有名词相对比较固定,并不能真正满足用户查询分类的要求。此处的召回率和准确率是广泛应用于信息检索和统计学分类领域的两个度量值,用于评价检索或统计结果的质量,召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,其主要用于衡量检索系统的查全率;而准确率是指检索出的相关文档数与检索出的文档总数的比率,其主要用于衡量检索系统的精度。
此外,上述传统的分类方法无法实时添加互联网上的新增词,当用户输入新的查询序列时,与这些新增词相对应的相关搜索资源可能无法提供给用户,极大地影响了检索的召回率。
有鉴于此,如何对查询序列进行扩展,并根据扩展后的查询序列来确定所述查询序列的查询类别,提高检索的准确率和召回率,是相关技术人员亟待解决的一项课题。
发明内容
本发明的目的是提供一种用于确定查询序列的查询类别的设备及其方法。
根据本发明的一个方面,提供一种计算机实现的用于确定查询序列的查询类别的方法,其中,该方法包括以下步骤:
a获取待确定查询类别的查询序列;
b对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
c将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
d根据所述相关度,确定所述查询序列的查询类别。
根据本发明的另一个方面,还提供了一种用于确定查询序列的查询类别的设备,其中,该设备包括:
查询序列获取装置,用于获取待确定查询类别的查询序列;
扩展向量获取装置,用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
匹配装置,用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
类别确定装置,用于根据所述相关度,确定所述查询序列的查询类别。
与现有技术相比,本发明首先对查询序列进行扩展,并将扩展后的扩展向量与多个查询分类匹配,根据所述扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别,显著地提高检索的准确率和召回率,增强了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定查询序列的查询类别的设备示意图;
图2示出根据本发明一个优选实施例的用于确定查询序列的查询类别的设备示意图;
图3示出根据本发明另一个方面的用于确定查询序列的查询类别的方法流程图;
图4示出根据本发明一个优选实施例的用于确定查询序列的查询类别的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定查询序列的查询类别的设备示意图。其中,网络设备1包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备1仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
该网络设备1包括查询序列获取装置11、扩展向量获取装置12、匹配装置13和类别确定装置14。其中,查询序列获取装置11用于获取待确定查询类别的查询序列。具体地,查询序列获取装置11可以获取由用户通过用户设备输入的查询序列,也可以获取由诸如搜索引擎服务器的查询序列数据库中得到的查询序列。以获取查询序列数据库的查询序列为例,当查询序列获取装置11向所述查询序列数据库发出查询序列请求时,所述查询序列数据库对该请求作出响应,并将特定的查询序列返回至查询序列获取装置11。此外,查询序列获取装置11还可以定期地接收来自查询序列数据库的多个查询序列,以便更准确地确定这些查询序列的查询类别。本领域技术人员应能理解上述待确定查询类别的查询序列的获取方式仅为举例,其他现有的或今后可能出现的查询序列的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
扩展向量获取装置12用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当查询序列获取装置11获取待确定查询类别的查询序列后,扩展向量获取装置12对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量,从而实现对所述查询序列的扩展。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
匹配装置13用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,当所述扩展向量获取装置12获取与所述查询序列相对应的扩展向量后,所述匹配装置13将对应于所述查询序列的所述扩展向量与查询分类的多个词进行匹配。例如,首先将所述查询分类的多个词进行扩展,然后将扩展后的向量与所述查询序列的所述扩展向量进行匹配。对所述查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量,其中,将搜索结果中与所述查询分类的词相对应的所有词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
类别确定装置14用于根据所述相关度,确定所述查询序列的查询类别。具体地,当匹配装置13获取所述查询序列的扩展向量与所述查询分类的相关度后,类别确定装置14根据所述相关度,确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。此外,对所述查询分类的多个词进行扩展,并将扩展后的向量与所述查询序列的扩展向量进行匹配时,所述查询分类的每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,所述类别确定装置14根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频以及词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的集合进行统计分析,从统计分析结果中得到与所述查询序列的词相对应的多个词,并利用这些词构成词向量,从而得到与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述匹配装置13还包括:第一获取单元和第二获取单元(图1均未示出)。其中,第一获取单元用于根据预设规则,获取与所述查询分类相对应的中心词向量;第二获取单元用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度最高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图1所描述的实施例的基础上,所述匹配装置13还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述多个查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图2示出根据本发明一个优选实施例的用于确定查询序列的查询类别的设备示意图。其中,网络设备1’包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。本领域技术人员应能理解上述网络设备1’仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
该网络设备1’包括查询序列获取装置11’、扩展向量获取装置12’、匹配装置13’、类别确定装置14’和提供装置15’。其中,查询序列获取装置11’用于获取用户通过用户设备输入的查询序列。具体地,查询序列获取装置11’可以主动地向所述用户设备发送查询序列请求,当用户通过用户设备输入查询序列时,用户设备对所述查询序列请求作出响应并将所述用户输入的查询序列作为响应结果返回至所述查询序列获取装置11’。此外,查询序列获取装置11’也可以接收来自所述用户设备的查询序列,当所述用户设备检测到存在由用户输入的查询序列时,所述用户设备即发送所述查询序列至所述查询序列获取装置11’。本领域技术人员应能理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
扩展向量获取装置12’用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当查询序列获取装置11’获取用户通过用户设备输入的所述查询序列后,扩展向量获取装置12’对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11’获取用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述查询序列获取装置11’获取所述用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
匹配装置13’用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,当所述扩展向量获取装置12’获取与所述查询序列相对应的扩展向量后,所述匹配装置13’将对应于所述查询序列的扩展向量与查询分类的多个词进行匹配。例如,可以对所述查询分类的多个词进行扩展,然后将扩展后的向量与所述查询序列的扩展向量进行匹配。对所述查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量,其中,将搜索结果中与所述查询分类的词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
类别确定装置14’用于根据所述相关度,确定所述查询序列的查询类别。具体地,当匹配装置13’获取所述查询序列的扩展向量与所述查询分类的相关度后,类别确定装置14’根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。在上例中,对所述查询分类的多个词进行扩展,并将扩展后的向量与所述查询序列的扩展向量进行匹配时,所述查询分类的每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述类别确定装置14’根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
提供装置15’用于根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果,并将所述搜索结果提供给所述用户设备。具体地,当类别确定装置14’根据所述查询序列的扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别后,所述提供装置15’根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果并将该结果提供给所述用户设备。优选地,所述提供装置15’还可以根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。此处的所述相关查询信息包括以下至少任一项:查询类型;搜索结果的点击率;搜索结果的更新时间;所述用户关于查询的偏好设置。以搜索结果的点击率为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以依据所述搜索结果的点击率高低,将具有最高点击率的搜索结果中的一个或多个应用提供给所述用户设备。以搜索结果的更新时间为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以将更新时间最快的搜索结果中的一个或多个应用提供给所述用户设备。例如,当搜索结果包括最近3年的所有相关网页时,根据用户对于搜索结果的更新时间的要求,可以仅将最近1周的所有搜索结果相对应的一个或多个应用提供至所述用户设备。本领域技术人员应能理解上述将搜索结果中的一个或多个应用提供给用户设备的方式仅为举例,其他现有的或今后可能出现的将搜索结果中的一个或多个应用提供给用户设备的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。当所述查询序列获取装置11’获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结构中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。当所述查询序列获取装置11’获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从统计分析结果中得到与所述查询序列的词相对应的多个词,并利用这些词构成词向量,从而得到与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,例如,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述匹配装置13’还包括:第一获取单元和第二获取单元(图2均未示出)。其中,第一获取单元用于根据预设规则,获取与所述查询分类相对应的中心词向量;第二获取单元用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取相应的检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图2所描述的实施例的基础上,所述匹配装置13’还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,首先,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词的扩展向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图3示出根据本发明另一个方面的用于确定查询序列的查询类别的方法流程图。其中,用于确定查询序列的查询类别的网络设备包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S1中,所述网络设备用于获取待确定查询类别的查询序列。具体地,所述网络设备既可以获取由用户通过用户设备输入的查询序列,也可以获取由诸如搜索引擎服务器的查询序列数据库中得到的查询序列。以获取查询序列数据库的查询序列为例,当所述网络设备向所述查询序列数据库发出查询序列请求时,所述查询序列数据库对该请求作出响应,并将选取的查询序列返回至所述网络设备。此外,所述网络设备还可以定期地接收来自查询序列数据库的多个查询序列,以便更准确地确定这些查询序列的查询类别。本领域技术人员应能理解上述待确定查询类别的查询序列的获取方式仅为举例,其他现有的或今后可能出现的查询序列的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S2中,所述网络设备用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当所述网络设备获取待确定查询类别的查询序列后,对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,当所述网络设备获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述网络设备获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3中,所述网络设备用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,所述网络设备获取与所述查询序列相对应的扩展向量后,将对应于所述查询序列的扩展向量与多个查询分类的多个词进行匹配。例如,可以将所述查询分类的多个词进行扩展,然后将这些词扩展后的向量与所述查询序列的扩展向量进行匹配。对查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量。其中,将搜索结果中与所述词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S4中,所述网络设备用于根据所述相关度,确定所述查询序列的查询类别。具体地,所述网络设备获取所述查询序列的扩展向量与所述查询分类的相关度后,根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配时,每个词的扩展向量与所述查询序列的扩展向量匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述网络设备根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S3还包括:根据预设规则,获取与所述查询分类相对应的中心词向量;根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S3还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的所述扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图4示出根据本发明一个优选实施例的用于确定查询序列的查询类别的方法流程图。其中,用于确定查询序列的查询类别的网络设备包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S1’中,所述网络设备用于获取用户通过用户设备输入的查询序列。具体地,所述网络设备可以主动地向所述用户设备发送查询序列请求,当用户通过用户设备输入查询序列时,用户设备对所述查询序列请求作出响应并将所述用户输入的查询序列作为响应结果返回至所述网络设备。此外,所述网络设备也可以接收来自所述用户设备的查询序列,当所述用户设备检测到存在由用户输入的查询序列时,所述用户设备即发送所述查询序列至所述网络设备。本领域技术人员应能理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S2’中,所述网络设备用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,所述网络设备获取用户通过用户设备输入的所述查询序列后,对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,所述网络设备获取所述用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3’中,所述网络设备用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,所述网络设备获取与所述查询序列相对应的扩展向量后,将对应于所述查询序列的扩展向量与多个查询分类的多个词进行匹配。例如,可以将所述查询分类的多个词进行扩展,然后将这些词扩展后的向量与所述查询序列的扩展向量进行匹配。对所述查询分类中的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类中的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量。其中,将搜索结果中与所述词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S4’中,所述网络设备用于根据所述相关度,确定所述查询序列的查询类别。具体地,所述网络设备获取所述查询序列的扩展向量与所述查询分类的相关度后,根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。对所述多个查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配时,每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述网络设备根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S5’中,所述网络设备用于根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果,并将所述搜索结果提供给所述用户设备。具体地,所述网络设备根据所述查询序列的扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别后,根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果并将该结果提供给所述用户设备。优选地,所述步骤S5’还用于根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。此处的所述相关查询信息包括以下至少任一项:查询类型;搜索结果的点击率;搜索结果的更新时间;所述用户关于查询的偏好设置。以搜索结果的点击率为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以依据搜索结果的点击率,将具有高点击率的搜索结果中的一个或多个应用提供给所述用户设备。以搜索结果的更新时间为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以将更新时间最快的搜索结果的一个或多个应用提供给所述用户设备。例如,当搜索结果包括最近3年的所有相关网页时,根据用户对于搜索结果的更新时间的要求,可以仅将最近1周的搜索结果中的一个或多个应用优先提供至所述用户设备。本领域技术人员应能理解上述将搜索结果提供给用户设备的方式仅为举例,其他现有的或今后可能出现的将搜索结果提供给用户设备的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S3’还包括:根据预设规则,获取与所述查询分类相对应的中心词向量;根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S3’还包括:根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种计算机实现的用于确定查询序列的查询类别的方法,其中,该方法包括以下步骤:
a获取待确定查询类别的查询序列;
b获取与所述查询序列相对应的多个词,利用这些词进行搜索,并基于搜索结果执行以下任一种操作,以获取与所述查询序列相对应的扩展向量:
-从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量;
-从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量;
c将所述查询序列对应的所述扩展向量与多个查询分类中各个查询分类对应的扩展向量进行匹配,以获取所述查询序列对应的所述扩展向量与所述查询分类的相关度;
d根据所述相关度,确定所述查询序列的查询类别。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。
3.根据权利要求1或2所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。
4.根据权利要求1所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。
5.根据权利要求1所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,结合用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。
6.根据权利要求1所述的方法,其中,所述步骤c还包括:
c1根据预设规则,获取与所述查询分类相对应的中心词向量;
c2根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。
7.根据权利要求6所述的方法,其中,所述预设规则包括但不限于以下至少任一项:
-向量的迭代处理;
-从所述查询分类中随机抽取的一个词;
-与所述查询分类相对应的多个特征词。
8.根据权利要求1所述的方法,其中,所述步骤c还包括:
-根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;
-根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。
9.根据权利要求1所述的方法,其中,所述步骤a还包括:
-获取用户通过用户设备输入的所述查询序列;
其中,该方法还包括步骤e:
-根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户设备。
10.根据权利要求9所述的方法,其中,所述步骤e还包括:
-根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。
11.根据权利要求10所述的方法,其中,所述相关查询信息包括以下至少任一项:
-查询类型;
-搜索结果的点击率;
-搜索结果的更新时间;
-所述用户关于查询的偏好设置。
12.一种用于确定查询序列的查询类别的设备,其中,该设备包括:
查询序列获取装置,用于获取待确定查询类别的查询序列;
扩展向量获取装置,用于获取与所述查询序列相对应的多个词,利用这些词进行搜索,并基于搜索结果执行以下任一种操作,以获取与所述查询序列相对应的扩展向量:
-从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量;
-从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量;
匹配装置,用于将所述查询序列对应的所述扩展向量与多个查询分类中各个查询分类对应的扩展向量进行匹配,以获取所述查询序列对应的所述扩展向量与所述查询分类的相关度;
类别确定装置,用于根据所述相关度,确定所述查询序列的查询类别。
13.根据权利要求12所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。
14.根据权利要求12或13所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。
15.根据权利要求12所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。
16.根据权利要求12所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,结合用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。
17.根据权利要求12所述的设备,其中,所述匹配装置还包括:
第一获取单元,用于根据预设规则,获取与所述查询分类相对应的中心词向量;
第二获取单元,用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。
18.根据权利要求17所述的设备,其中,所述预设规则包括但不限于以下至少任一项:
-向量的迭代处理;
-从所述查询分类中随机抽取的一个词;
-与所述查询分类相对应的多个特征词。
19.根据权利要求12所述的设备,其中,所述匹配装置还用于:
-根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;
-根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。
20.根据权利要求12所述的设备,其中,所述查询序列获取装置还用于:
-获取用户通过用户设备输入的所述查询序列;
其中,该设备还包括提供装置,用于:
-根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户设备。
21.根据权利要求20所述的设备,其中,所述提供装置还用于:
-根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。
22.根据权利要求21所述的设备,其中,所述相关查询信息包括以下至少任一项:
-查询类型;
-搜索结果的点击率;
-搜索结果的更新时间;
-所述用户关于查询的偏好设置。
CN201010579518.7A 2010-12-03 2010-12-03 一种用于确定查询序列的查询类别的设备及其方法 Active CN102063468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010579518.7A CN102063468B (zh) 2010-12-03 2010-12-03 一种用于确定查询序列的查询类别的设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010579518.7A CN102063468B (zh) 2010-12-03 2010-12-03 一种用于确定查询序列的查询类别的设备及其方法

Publications (2)

Publication Number Publication Date
CN102063468A CN102063468A (zh) 2011-05-18
CN102063468B true CN102063468B (zh) 2014-04-16

Family

ID=43998744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010579518.7A Active CN102063468B (zh) 2010-12-03 2010-12-03 一种用于确定查询序列的查询类别的设备及其方法

Country Status (1)

Country Link
CN (1) CN102063468B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375885A (zh) * 2011-10-21 2012-03-14 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN103870507B (zh) * 2012-12-17 2017-04-12 阿里巴巴集团控股有限公司 一种基于类目的搜索方法和装置
US20150088921A1 (en) 2013-09-20 2015-03-26 Ebay Inc. Search guidance
CN106557476A (zh) * 2015-09-24 2017-04-05 北京奇虎科技有限公司 相关信息的获取方法及装置
US11222064B2 (en) 2015-12-31 2022-01-11 Ebay Inc. Generating structured queries from images
US10831797B2 (en) * 2018-03-23 2020-11-10 International Business Machines Corporation Query recognition resiliency determination in virtual agent systems
CN108776901B (zh) * 2018-04-27 2021-01-15 微梦创科网络科技(中国)有限公司 基于搜索词的广告推荐方法及系统
CN110472058B (zh) * 2018-05-09 2023-03-03 华为技术有限公司 实体搜索方法、相关设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111837A (zh) * 2004-12-06 2008-01-23 雅虎公司 查询自动分类的搜索处理
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111837A (zh) * 2004-12-06 2008-01-23 雅虎公司 查询自动分类的搜索处理
CN101334773A (zh) * 2007-06-28 2008-12-31 联想(北京)有限公司 一种过滤搜索引擎查询结果的方法

Also Published As

Publication number Publication date
CN102063468A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102063468B (zh) 一种用于确定查询序列的查询类别的设备及其方法
US7861151B2 (en) Web site structure analysis
US8150846B2 (en) Content searching and configuration of search results
KR101475466B1 (ko) 모바일 검색 결과 혼합
US8645369B2 (en) Classifying documents using implicit feedback and query patterns
US10606853B2 (en) Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials
US20100306166A1 (en) Automatic fact validation
JP2005302043A (ja) 検索語提案のためのマルチ型データオブジェクトの強化されたクラスタリング
JP2006164246A (ja) エンティティ固有の調整された検索
US20070094250A1 (en) Using matrix representations of search engine operations to make inferences about documents in a search engine corpus
CN102236710A (zh) 一种用于在查询结果中展现新闻信息的方法与设备
Al-asadi et al. A survey on web mining techniques and applications
US8949254B1 (en) Enhancing the content and structure of a corpus of content
Chopra et al. A survey on improving the efficiency of different web structure mining algorithms
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
CN105159898A (zh) 一种搜索的方法和装置
Yu et al. Mining user context based on interactive computing for personalized Web search
CN105224555A (zh) 一种搜索的方法、装置和系统
JP5084796B2 (ja) 関連性判定装置、関連性判定方法およびプログラム
JP3567861B2 (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
US20100268723A1 (en) Method of partitioning a search query to gather results beyond a search limit
CN108959579B (zh) 一种获取用户和文档个性化特征的系统
JP4922274B2 (ja) 社会的な人気・関心を反映したディレクトリを作成、検索及び表示する情報管理装置、方法及びプログラム
JP2004259083A (ja) 情報検索方法、情報検索サーバ、及び情報検索プログラム
Li et al. Research on hot news discovery model based on user interest and topic discovery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant