CN102063468A - 一种用于确定查询序列的查询类别的设备及其方法 - Google Patents
一种用于确定查询序列的查询类别的设备及其方法 Download PDFInfo
- Publication number
- CN102063468A CN102063468A CN 201010579518 CN201010579518A CN102063468A CN 102063468 A CN102063468 A CN 102063468A CN 201010579518 CN201010579518 CN 201010579518 CN 201010579518 A CN201010579518 A CN 201010579518A CN 102063468 A CN102063468 A CN 102063468A
- Authority
- CN
- China
- Prior art keywords
- search sequence
- vector
- speech
- spread vector
- inquiry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于确定查询序列的查询类别的设备及其方法,包括:获取待确定查询类别的查询序列;对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;根据所述相关度,确定所述查询序列的查询类别。与现有技术相比,本发明对查询序列进行扩展,并将扩展后的扩展向量与多个查询分类匹配,根据所述扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别,显著地提高检索的准确率和召回率,增强了用户体验。
Description
技术领域
本发明涉及涉及自然语言处理技术,尤其涉及用于确定查询序列的查询类别的技术。
背景技术
在现有技术中,对用户的查询序列进行查询分类时,往往通过静态专有名词词典结合查询类别需求后缀来简单识别。然而,该分类方法过多地依赖于词典中专有名词挖掘的准确率和召回率,加上专有名词相对比较固定,并不能真正满足用户查询分类的要求。此处的召回率和准确率是广泛应用于信息检索和统计学分类领域的两个度量值,用于评价检索或统计结果的质量,召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,其主要用于衡量检索系统的查全率;而准确率是指检索出的相关文档数与检索出的文档总数的比率,其主要用于衡量检索系统的精度。
此外,上述传统的分类方法无法实时添加互联网上的新增词,当用户输入新的查询序列时,与这些新增词相对应的相关搜索资源可能无法提供给用户,极大地影响了检索的召回率。
有鉴于此,如何对查询序列进行扩展,并根据扩展后的查询序列来确定所述查询序列的查询类别,提高检索的准确率和召回率,是相关技术人员亟待解决的一项课题。
发明内容
本发明的目的是提供一种用于确定查询序列的查询类别的设备及其方法。
根据本发明的一个方面,提供一种计算机实现的用于确定查询序列的查询类别的方法,其中,该方法包括以下步骤:
a获取待确定查询类别的查询序列;
b对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
c将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
d根据所述相关度,确定所述查询序列的查询类别。
根据本发明的另一个方面,还提供了一种用于确定查询序列的查询类别的设备,其中,该设备包括:
查询序列获取装置,用于获取待确定查询类别的查询序列;
扩展向量获取装置,用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
匹配装置,用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
类别确定装置,用于根据所述相关度,确定所述查询序列的查询类别。
与现有技术相比,本发明首先对查询序列进行扩展,并将扩展后的扩展向量与多个查询分类匹配,根据所述扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别,显著地提高检索的准确率和召回率,增强了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于确定查询序列的查询类别的设备示意图;
图2示出根据本发明一个优选实施例的用于确定查询序列的查询类别的设备示意图;
图3示出根据本发明另一个方面的用于确定查询序列的查询类别的方法流程图;
图4示出根据本发明一个优选实施例的用于确定查询序列的查询类别的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于确定查询序列的查询类别的设备示意图。其中,网络设备1包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备1仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
该网络设备1包括查询序列获取装置11、扩展向量获取装置12、匹配装置13和类别确定装置14。其中,查询序列获取装置11用于获取待确定查询类别的查询序列。具体地,查询序列获取装置11可以获取由用户通过用户设备输入的查询序列,也可以获取由诸如搜索引擎服务器的查询序列数据库中得到的查询序列。以获取查询序列数据库的查询序列为例,当查询序列获取装置11向所述查询序列数据库发出查询序列请求时,所述查询序列数据库对该请求作出响应,并将特定的查询序列返回至查询序列获取装置11。此外,查询序列获取装置11还可以定期地接收来自查询序列数据库的多个查询序列,以便更准确地确定这些查询序列的查询类别。本领域技术人员应能理解上述待确定查询类别的查询序列的获取方式仅为举例,其他现有的或今后可能出现的查询序列的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
扩展向量获取装置12用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当查询序列获取装置11获取待确定查询类别的查询序列后,扩展向量获取装置12对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量,从而实现对所述查询序列的扩展。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
匹配装置13用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,当所述扩展向量获取装置12获取与所述查询序列相对应的扩展向量后,所述匹配装置13将对应于所述查询序列的所述扩展向量与查询分类的多个词进行匹配。例如,首先将所述查询分类的多个词进行扩展,然后将扩展后的向量与所述查询序列的所述扩展向量进行匹配。对所述查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量,其中,将搜索结果中与所述查询分类的词相对应的所有词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
类别确定装置14用于根据所述相关度,确定所述查询序列的查询类别。具体地,当匹配装置13获取所述查询序列的扩展向量与所述查询分类的相关度后,类别确定装置14根据所述相关度,确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。此外,对所述查询分类的多个词进行扩展,并将扩展后的向量与所述查询序列的扩展向量进行匹配时,所述查询分类的每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,所述类别确定装置14根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频以及词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的集合进行统计分析,从统计分析结果中得到与所述查询序列的词相对应的多个词,并利用这些词构成词向量,从而得到与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述扩展向量获取装置12还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图1所描述的实施例的基础上,所述匹配装置13还包括:第一获取单元和第二获取单元(图1均未示出)。其中,第一获取单元用于根据预设规则,获取与所述查询分类相对应的中心词向量;第二获取单元用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度最高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图1所描述的实施例的基础上,所述匹配装置13还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述多个查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图2示出根据本发明一个优选实施例的用于确定查询序列的查询类别的设备示意图。其中,网络设备1’包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。本领域技术人员应能理解上述网络设备1’仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
该网络设备1’包括查询序列获取装置11’、扩展向量获取装置12’、匹配装置13’、类别确定装置14’和提供装置15’。其中,查询序列获取装置11’用于获取用户通过用户设备输入的查询序列。具体地,查询序列获取装置11’可以主动地向所述用户设备发送查询序列请求,当用户通过用户设备输入查询序列时,用户设备对所述查询序列请求作出响应并将所述用户输入的查询序列作为响应结果返回至所述查询序列获取装置11’。此外,查询序列获取装置11’也可以接收来自所述用户设备的查询序列,当所述用户设备检测到存在由用户输入的查询序列时,所述用户设备即发送所述查询序列至所述查询序列获取装置11’。本领域技术人员应能理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
扩展向量获取装置12’用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当查询序列获取装置11’获取用户通过用户设备输入的所述查询序列后,扩展向量获取装置12’对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,当所述查询序列获取装置11’获取用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述查询序列获取装置11’获取所述用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
匹配装置13’用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,当所述扩展向量获取装置12’获取与所述查询序列相对应的扩展向量后,所述匹配装置13’将对应于所述查询序列的扩展向量与查询分类的多个词进行匹配。例如,可以对所述查询分类的多个词进行扩展,然后将扩展后的向量与所述查询序列的扩展向量进行匹配。对所述查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述查询分类的词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量,其中,将搜索结果中与所述查询分类的词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
类别确定装置14’用于根据所述相关度,确定所述查询序列的查询类别。具体地,当匹配装置13’获取所述查询序列的扩展向量与所述查询分类的相关度后,类别确定装置14’根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。在上例中,对所述查询分类的多个词进行扩展,并将扩展后的向量与所述查询序列的扩展向量进行匹配时,所述查询分类的每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述类别确定装置14’根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
提供装置15’用于根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果,并将所述搜索结果提供给所述用户设备。具体地,当类别确定装置14’根据所述查询序列的扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别后,所述提供装置15’根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果并将该结果提供给所述用户设备。优选地,所述提供装置15’还可以根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。此处的所述相关查询信息包括以下至少任一项:查询类型;搜索结果的点击率;搜索结果的更新时间;所述用户关于查询的偏好设置。以搜索结果的点击率为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以依据所述搜索结果的点击率高低,将具有最高点击率的搜索结果中的一个或多个应用提供给所述用户设备。以搜索结果的更新时间为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以将更新时间最快的搜索结果中的一个或多个应用提供给所述用户设备。例如,当搜索结果包括最近3年的所有相关网页时,根据用户对于搜索结果的更新时间的要求,可以仅将最近1周的所有搜索结果相对应的一个或多个应用提供至所述用户设备。本领域技术人员应能理解上述将搜索结果中的一个或多个应用提供给用户设备的方式仅为举例,其他现有的或今后可能出现的将搜索结果中的一个或多个应用提供给用户设备的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。当所述查询序列获取装置11’获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结构中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。当所述查询序列获取装置11’获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从统计分析结果中得到与所述查询序列的词相对应的多个词,并利用这些词构成词向量,从而得到与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述扩展向量获取装置12’还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,例如,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图2所描述的实施例的基础上,所述匹配装置13’还包括:第一获取单元和第二获取单元(图2均未示出)。其中,第一获取单元用于根据预设规则,获取与所述查询分类相对应的中心词向量;第二获取单元用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取相应的检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图2所描述的实施例的基础上,所述匹配装置13’还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,首先,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词的扩展向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图3示出根据本发明另一个方面的用于确定查询序列的查询类别的方法流程图。其中,用于确定查询序列的查询类别的网络设备包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S1中,所述网络设备用于获取待确定查询类别的查询序列。具体地,所述网络设备既可以获取由用户通过用户设备输入的查询序列,也可以获取由诸如搜索引擎服务器的查询序列数据库中得到的查询序列。以获取查询序列数据库的查询序列为例,当所述网络设备向所述查询序列数据库发出查询序列请求时,所述查询序列数据库对该请求作出响应,并将选取的查询序列返回至所述网络设备。此外,所述网络设备还可以定期地接收来自查询序列数据库的多个查询序列,以便更准确地确定这些查询序列的查询类别。本领域技术人员应能理解上述待确定查询类别的查询序列的获取方式仅为举例,其他现有的或今后可能出现的查询序列的获取方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S2中,所述网络设备用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,当所述网络设备获取待确定查询类别的查询序列后,对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,当所述网络设备获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,当所述网络设备获取所述待确定查询类别的查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3中,所述网络设备用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,所述网络设备获取与所述查询序列相对应的扩展向量后,将对应于所述查询序列的扩展向量与多个查询分类的多个词进行匹配。例如,可以将所述查询分类的多个词进行扩展,然后将这些词扩展后的向量与所述查询序列的扩展向量进行匹配。对查询分类的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对查询分类的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量。其中,将搜索结果中与所述词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S4中,所述网络设备用于根据所述相关度,确定所述查询序列的查询类别。具体地,所述网络设备获取所述查询序列的扩展向量与所述查询分类的相关度后,根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配时,每个词的扩展向量与所述查询序列的扩展向量匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述网络设备根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取所述待确定查询类别的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S2还用于根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S3还包括:根据预设规则,获取与所述查询分类相对应的中心词向量;根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图3所描述的实施例的基础上,所述步骤S3还用于根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的所述扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
图4示出根据本发明一个优选实施例的用于确定查询序列的查询类别的方法流程图。其中,用于确定查询序列的查询类别的网络设备包括但不限于单个搜索引擎服务器、多个搜索引擎服务器集、基于云计算的计算机集合或者通过网络与搜索引擎服务器相连接的其他第三方的服务器,此处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述网络设备仅为示意性地举例说明,其他现有的或今后可能出现的用于确定查询序列的查询类别的设备如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S1’中,所述网络设备用于获取用户通过用户设备输入的查询序列。具体地,所述网络设备可以主动地向所述用户设备发送查询序列请求,当用户通过用户设备输入查询序列时,用户设备对所述查询序列请求作出响应并将所述用户输入的查询序列作为响应结果返回至所述网络设备。此外,所述网络设备也可以接收来自所述用户设备的查询序列,当所述用户设备检测到存在由用户输入的查询序列时,所述用户设备即发送所述查询序列至所述网络设备。本领域技术人员应能理解上述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取查询序列的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S2’中,所述网络设备用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。具体地,所述网络设备获取用户通过用户设备输入的所述查询序列后,对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行切词处理,得到与所述查询序列相对应的多个词;然后,利用这些词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询序列相对应的扩展向量。又例如,所述网络设备获取所述用户通过用户设备输入的所述查询序列后,首先,对所述查询序列进行同义变换处理,得到与所述查询序列相对应的等效查询序列;然后,对所述等效查询序列进行切词处理,得到与所述等效查询序列相对应的多个词;接着,利用这些词进行搜索,获取搜索结果中与所述查询序列相对应的所有词以及词频和词位置信息;最后,根据搜索结果中与所述查询序列相对应的这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中,可以将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。本领域技术人员应能理解上述获取扩展向量的方式仅为举例,其他现有的或今后可能出现的获取扩展向量的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S3’中,所述网络设备用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度。具体地,所述网络设备获取与所述查询序列相对应的扩展向量后,将对应于所述查询序列的扩展向量与多个查询分类的多个词进行匹配。例如,可以将所述查询分类的多个词进行扩展,然后将这些词扩展后的向量与所述查询序列的扩展向量进行匹配。对所述查询分类中的多个词进行扩展的一种优选方式为:首先,利用查询分类的多个词进行搜索,获取与所述词相对应的多个浏览网页和/或点击行为;接着,根据这些浏览网页和/或点击行为,获取与所述查询分类的多个词相对应的向量。对所述查询分类中的多个词进行扩展的另一种优选方式为:首先,利用查询分类的多个词进行搜索,获取搜索结果中与所述词相对应的所有词以及词频和词位置信息;然后,根据搜索结果中与所述词相对应的多个词以及词频和词位置信息,获取对所述查询分类的词进行扩展后的向量。其中,将搜索结果中与所述词相对应的多个词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。此外,将所述查询分类中的多个词进行扩展后的向量(称为“第一向量”)与所述查询序列的所述扩展向量(称为“第二向量”)进行匹配时,匹配方式包括但不限于以下至少任一项:计算第一向量与第二向量在同一向量空间下的重叠程度,即夹角余弦值,所述夹角余弦值越大,表示两个向量间的夹角越小,也表明两个向量更相关;计算第一向量与第二向量在同一向量空间下的距离,即向量差,所述向量差越小,表示两个向量更靠近,也表明两个向量更相关。本领域技术人员应能理解上述查询序列的扩展向量与多个查询分类间的匹配方式仅为举例,其他现有的或今后可能出现的查询序列的扩展向量与多个查询分类间的匹配方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S4’中,所述网络设备用于根据所述相关度,确定所述查询序列的查询类别。具体地,所述网络设备获取所述查询序列的扩展向量与所述查询分类的相关度后,根据所述相关度来确定所述查询序列对应于多个查询类别中的哪一个或多个查询类别。例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的夹角最小时,根据向量间的重叠程度确定所述查询序列归属于所述查询类别。又例如,当所述查询序列的扩展向量与对应于所述查询类别的向量之间的距离最小时,根据向量间的距离远近确定所述查询序列归属于所述查询类别。对所述多个查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配时,每个词扩展后的向量与所述查询序列的扩展向量进行匹配后均可以得到一个相关度数值,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度,并且所述网络设备根据所述平均相关度来确定所述查询序列的查询类别。本领域技术人员应能理解上述根据扩展向量与查询分类间的相关度来确定查询序列的查询类别的方式仅为举例,其他现有的或今后可能出现的确定查询序列的查询类别的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在步骤S5’中,所述网络设备用于根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果,并将所述搜索结果提供给所述用户设备。具体地,所述网络设备根据所述查询序列的扩展向量与所述查询分类的相关度来确定所述查询序列的查询类别后,根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果并将该结果提供给所述用户设备。优选地,所述步骤S5’还用于根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。此处的所述相关查询信息包括以下至少任一项:查询类型;搜索结果的点击率;搜索结果的更新时间;所述用户关于查询的偏好设置。以搜索结果的点击率为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以依据搜索结果的点击率,将具有高点击率的搜索结果中的一个或多个应用提供给所述用户设备。以搜索结果的更新时间为例,当所述提供装置根据所述查询序列的查询类别来获取相应的搜索结果时,可以将更新时间最快的搜索结果的一个或多个应用提供给所述用户设备。例如,当搜索结果包括最近3年的所有相关网页时,根据用户对于搜索结果的更新时间的要求,可以仅将最近1周的搜索结果中的一个或多个应用优先提供至所述用户设备。本领域技术人员应能理解上述将搜索结果提供给用户设备的方式仅为举例,其他现有的或今后可能出现的将搜索结果提供给用户设备的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述查询序列相对应的所有词以及词频和词位置信息,并根据这些词以及词频和词位置信息,获取与所述查询序列相对应的扩展向量,其中将搜索结果中与所述查询序列相对应的这些词作为所述扩展向量的向量维度,并将这些词的词频和词位置信息作为所述扩展向量中每一向量维度的权重。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。例如,所述网络设备获取用户通过用户设备输入的查询序列后,对所述查询序列切词,得到与所述查询序列相对应的多个词,然后利用这些词进行搜索,从搜索结果中获取与所述词相对应的多个浏览网页和/或点击行为,根据与所述查询序列相对应的浏览网页和/或点击行为的查询序列的集合进行统计分析,从而获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以对大量用户的浏览记录进行统计分析,例如,将与“护腕鼠标垫”相对应的所述大量用户浏览过的“光电鼠标垫”、“多功能鼠标垫”、“迷你鼠标垫”等查询序列与用户输入的查询序列相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S2’还包括:根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。例如,当用户输入的查询序列为“护腕鼠标垫”时,可以结合所述用户的历史浏览记录,将与“护腕鼠标垫”相对应的所述用户的历史浏览记录中的“鼠标垫价格”、“护腕尺寸”、“卡通护腕”等查询序列与当前输入的“护腕鼠标垫”相结合,获取与所述查询序列相对应的扩展向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S3’还包括:根据预设规则,获取与所述查询分类相对应的中心词向量;根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。此处的预设规则包括但不限于以下至少任一项:向量的迭代处理;从所述查询分类中随机抽取的一个词;与所述查询分类相对应的多个特征词。以向量的迭代处理为例,从图片查询类别中预先选取“浏览”、“图片”、“照片”、“风景画”和“桌面”作为中心词,构成图片查询类别的初始中心词向量A,然后根据这些中心词中的每一个词来获取检索结果,并利用所述检索结果中的浏览网页和/或点击行为来得到对应于中心词的扩展向量B1,B2,...BN,然后计算A与B1~BN的向量相关度,将与A相关度较高的若干词加入初始中心词向量A,形成新的初始中心词向量A’,执行迭代操作,以获取与所述查询分类相对应的中心词向量AF。以所述查询分类中随机抽取一个词为例,利用该词进行扩展以生成与所述查询分类相对应的中心词向量,然后将所述查询序列的扩展向量与所述中心词向量进行匹配,以获取所述查询序列与所述查询分类的相关度。以对应于所述查询分类的多个特征词为例,可以计算出所述查询分类中每个词与该查询分类的匹配度,然后将匹配度较高的若干词构成与所述查询分类相对应的中心词向量,通过所述中心词向量与所述查询序列的扩展向量之间的匹配,获取所述查询序列与所述查询分类的相关度。更优选地,可以动态更新所述查询分类中的所有词与查询分类本身的匹配度,进而动态选取与所述查询分类相对应的中心词向量。
优选地,在上述图4所描述的实施例的基础上,所述步骤S3’还包括:根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;然后根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。例如,对所述查询分类的多个词进行扩展,并将这些词扩展后的向量与所述查询序列的扩展向量进行匹配,从而获取每个词扩展后的向量与所述查询序列的扩展向量的相关度数值;然后,通过算术平均、几何平均、加权平均或其他可适用的均值处理方式,根据多个相关度数值来获取所述查询序列的扩展向量与所述多个查询分类之间的平均相关度;最后,根据所述平均相关度,获取所述查询序列与所述多个查询分类之间的相关度。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (22)
1.一种计算机实现的用于确定查询序列的查询类别的方法,其中,该方法包括以下步骤:
a获取待确定查询类别的查询序列;
b对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
c将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
d根据所述相关度,确定所述查询序列的查询类别。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。
3.根据权利要求1或2所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b还包括:
-根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c还包括:
c1根据预设规则,获取与所述查询分类相对应的中心词向量;
c2根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。
7.根据权利要求6所述的方法,其中,所述预设规则包括但不限于以下至少任一项:
-向量的迭代处理;
-从所述查询分类中随机抽取的一个词;
-与所述查询分类相对应的多个特征词。
8.根据权利要求1至5中任一项所述的方法,其中,所述步骤c还包括:
-根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;
-根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。
9.根据权利要求1至8中任一项所述的方法,其中,所述步骤a还包括:
-获取用户通过用户设备输入的所述查询序列;
其中,该方法还包括步骤e:
-根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户设备。
10.根据权利要求9所述的方法,其中,所述步骤e还包括:
-根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。
11.根据权利要求10所述的方法,其中,所述相关查询信息包括以下至少任一项:
-查询类型;
-搜索结果的点击率;
-搜索结果的更新时间;
-所述用户关于查询的偏好设置。
12.一种用于确定查询序列的查询类别的设备,其中,该设备包括:
查询序列获取装置,用于获取待确定查询类别的查询序列;
扩展向量获取装置,用于对所述查询序列进行扩展,以获取与所述查询序列相对应的扩展向量;
匹配装置,用于将所述扩展向量与多个查询分类进行匹配,以获取所述扩展向量与所述查询分类的相关度;
类别确定装置,用于根据所述相关度,确定所述查询序列的查询类别。
13.根据权利要求12所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,通过内容扩展处理,获取与所述查询序列相对应的扩展向量。
14.根据权利要求12或13所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,通过语义扩展处理,获取与所述查询序列相对应的扩展向量。
15.根据权利要求12至14中任一项所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,结合大量用户浏览记录的统计分析,获取与所述查询序列相对应的扩展向量。
16.根据权利要求12至15中任一项所述的设备,其中,所述扩展向量获取装置还用于:
-根据所述查询序列,结合所述用户的历史浏览记录,获取与所述查询序列相对应的扩展向量。
17.根据权利要求12至16中任一项所述的设备,其中,所述匹配装置还包括:
第一获取单元,用于根据预设规则,获取与所述查询分类相对应的中心词向量;
第二获取单元,用于根据所述扩展向量和所述中心词向量,获取所述扩展向量与所述查询分类的相关度。
18.根据权利要求17所述的设备,其中,所述预设规则包括但不限于以下至少任一项:
-向量的迭代处理;
-从所述查询分类中随机抽取的一个词;
-与所述查询分类相对应的多个特征词。
19.根据权利要求12至16中任一项所述的设备,其中,所述匹配装置还用于:
-根据所述扩展向量,结合所述查询分类的多个词,获取所述扩展向量相对于所述查询分类的平均相关度;
-根据所述平均相关度,获取所述扩展向量与所述查询分类的相关度。
20.根据权利要求12至19中任一项所述的设备,其中,所述查询序列获取装置还用于:
-获取用户通过用户设备输入的所述查询序列;
其中,该设备还包括提供装置,用于:
-根据所述查询序列的查询类别,获取与所述查询序列相对应的搜索结果;
-将所述搜索结果提供给所述用户设备。
21.根据权利要求20所述的设备,其中,所述提供装置还用于:
-根据所述用户的相关查询信息,将所述搜索结果中的一个或多个应用提供给所述用户设备。
22.根据权利要求21所述的设备,其中,所述相关查询信息包括以下至少任一项:
-查询类型;
-搜索结果的点击率;
-搜索结果的更新时间;
-所述用户关于查询的偏好设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010579518.7A CN102063468B (zh) | 2010-12-03 | 2010-12-03 | 一种用于确定查询序列的查询类别的设备及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010579518.7A CN102063468B (zh) | 2010-12-03 | 2010-12-03 | 一种用于确定查询序列的查询类别的设备及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102063468A true CN102063468A (zh) | 2011-05-18 |
CN102063468B CN102063468B (zh) | 2014-04-16 |
Family
ID=43998744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010579518.7A Active CN102063468B (zh) | 2010-12-03 | 2010-12-03 | 一种用于确定查询序列的查询类别的设备及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102063468B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375885A (zh) * | 2011-10-21 | 2012-03-14 | 北京百度网讯科技有限公司 | 一种提供与查询序列相对应的搜索建议的方法与设备 |
CN103870507A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种基于类目的搜索方法和装置 |
CN106557476A (zh) * | 2015-09-24 | 2017-04-05 | 北京奇虎科技有限公司 | 相关信息的获取方法及装置 |
CN108701140A (zh) * | 2015-12-31 | 2018-10-23 | 电子湾有限公司 | 从图像生成结构化查询 |
CN108776901A (zh) * | 2018-04-27 | 2018-11-09 | 微梦创科网络科技(中国)有限公司 | 基于搜索词的广告推荐方法及系统 |
WO2019180515A1 (en) * | 2018-03-23 | 2019-09-26 | International Business Machines Corporation | Query recognition resiliency determination in virtual agent systems |
CN110472058A (zh) * | 2018-05-09 | 2019-11-19 | 华为技术有限公司 | 实体搜索方法、相关设备及计算机存储介质 |
US11640408B2 (en) | 2013-09-20 | 2023-05-02 | Ebay Inc. | Search guidance |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040220905A1 (en) * | 2003-05-01 | 2004-11-04 | Microsoft Corporation | Concept network |
CN101111837A (zh) * | 2004-12-06 | 2008-01-23 | 雅虎公司 | 查询自动分类的搜索处理 |
CN101334773A (zh) * | 2007-06-28 | 2008-12-31 | 联想(北京)有限公司 | 一种过滤搜索引擎查询结果的方法 |
-
2010
- 2010-12-03 CN CN201010579518.7A patent/CN102063468B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040220905A1 (en) * | 2003-05-01 | 2004-11-04 | Microsoft Corporation | Concept network |
CN101111837A (zh) * | 2004-12-06 | 2008-01-23 | 雅虎公司 | 查询自动分类的搜索处理 |
CN101334773A (zh) * | 2007-06-28 | 2008-12-31 | 联想(北京)有限公司 | 一种过滤搜索引擎查询结果的方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102375885A (zh) * | 2011-10-21 | 2012-03-14 | 北京百度网讯科技有限公司 | 一种提供与查询序列相对应的搜索建议的方法与设备 |
CN103870507A (zh) * | 2012-12-17 | 2014-06-18 | 阿里巴巴集团控股有限公司 | 一种基于类目的搜索方法和装置 |
CN103870507B (zh) * | 2012-12-17 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种基于类目的搜索方法和装置 |
US11640408B2 (en) | 2013-09-20 | 2023-05-02 | Ebay Inc. | Search guidance |
CN106557476A (zh) * | 2015-09-24 | 2017-04-05 | 北京奇虎科技有限公司 | 相关信息的获取方法及装置 |
US11222064B2 (en) | 2015-12-31 | 2022-01-11 | Ebay Inc. | Generating structured queries from images |
CN108701140A (zh) * | 2015-12-31 | 2018-10-23 | 电子湾有限公司 | 从图像生成结构化查询 |
WO2019180515A1 (en) * | 2018-03-23 | 2019-09-26 | International Business Machines Corporation | Query recognition resiliency determination in virtual agent systems |
US10831797B2 (en) | 2018-03-23 | 2020-11-10 | International Business Machines Corporation | Query recognition resiliency determination in virtual agent systems |
CN108776901B (zh) * | 2018-04-27 | 2021-01-15 | 微梦创科网络科技(中国)有限公司 | 基于搜索词的广告推荐方法及系统 |
CN108776901A (zh) * | 2018-04-27 | 2018-11-09 | 微梦创科网络科技(中国)有限公司 | 基于搜索词的广告推荐方法及系统 |
CN110472058A (zh) * | 2018-05-09 | 2019-11-19 | 华为技术有限公司 | 实体搜索方法、相关设备及计算机存储介质 |
CN110472058B (zh) * | 2018-05-09 | 2023-03-03 | 华为技术有限公司 | 实体搜索方法、相关设备及计算机存储介质 |
US11636143B2 (en) | 2018-05-09 | 2023-04-25 | Huawei Technologies Co., Ltd. | Entity search method, related device, and computer storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN102063468B (zh) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102063468B (zh) | 一种用于确定查询序列的查询类别的设备及其方法 | |
US9792304B1 (en) | Query by image | |
JP5615931B2 (ja) | クラスタ化方法およびシステム | |
US8312035B2 (en) | Search engine enhancement using mined implicit links | |
US7363296B1 (en) | Generating a subindex with relevant attributes to improve querying | |
US6665837B1 (en) | Method for identifying related pages in a hyperlinked database | |
US6138113A (en) | Method for identifying near duplicate pages in a hyperlinked database | |
CN101446940B (zh) | 为文档集自动生成摘要的方法及装置 | |
US20080134015A1 (en) | Web Site Structure Analysis | |
CN102043833A (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
CN101364239A (zh) | 一种分类目录自动构建方法及相关系统 | |
US20100306166A1 (en) | Automatic fact validation | |
CN102687138A (zh) | 搜索建议聚类和呈现 | |
WO2005111787A2 (en) | A method for indexing and searching geocoded pages of a web site | |
CN102236710A (zh) | 一种用于在查询结果中展现新闻信息的方法与设备 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN109492027B (zh) | 一种基于弱可信数据的跨社群潜在人物关系分析方法 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
KR101446154B1 (ko) | 사용자 질의 확장 기법을 이용한 시맨틱 콘텐츠 검색 시스템 및 방법 | |
JP5084796B2 (ja) | 関連性判定装置、関連性判定方法およびプログラム | |
JP4840914B2 (ja) | システム、端末、サーバ、及び、動的情報提供方法 | |
CN104063555A (zh) | 面向遥感信息智能分发的用户模型建模方法 | |
CN103514193A (zh) | 一种用于确定推广关键词的推广结果信息的方法与设备 | |
JP3567861B2 (ja) | 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体 | |
CN102760127A (zh) | 基于扩展文本信息来确定资源类型的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |