CN105045781A - 查询词相似度计算方法及装置、查询词搜索方法及装置 - Google Patents

查询词相似度计算方法及装置、查询词搜索方法及装置 Download PDF

Info

Publication number
CN105045781A
CN105045781A CN201510534925.9A CN201510534925A CN105045781A CN 105045781 A CN105045781 A CN 105045781A CN 201510534925 A CN201510534925 A CN 201510534925A CN 105045781 A CN105045781 A CN 105045781A
Authority
CN
China
Prior art keywords
query word
word
similarity
query
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510534925.9A
Other languages
English (en)
Other versions
CN105045781B (zh
Inventor
王跃
俞琪
曾洪雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201510534925.9A priority Critical patent/CN105045781B/zh
Publication of CN105045781A publication Critical patent/CN105045781A/zh
Priority to PCT/CN2016/079773 priority patent/WO2017031996A1/zh
Application granted granted Critical
Publication of CN105045781B publication Critical patent/CN105045781B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了查询词相似度计算方法及装置、查询词搜索方法及装置,其中查询词相似度计算方法包括:确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。本申请将第一特征向量集合和第二特征向量集合之间的相似度(真实用户认为两者之间含义的相似度),作为第一查询词和第二查询词之间的相似度。所以,本申请可以准确确定两个查询词之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。

Description

查询词相似度计算方法及装置、查询词搜索方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及查询词相似度计算方法及装置、查询词搜索方法及装置。
背景技术
随着科学技术的进步,搜索应用的种类逐渐增加。在使用搜索应用的过程中,一般需要计算两个查询词之间的相似度。例如,当用户在搜索栏中输入一个语义较少的查询词(stnb)时,需要在该查询词(stnb)具有较高相似度的查询词中,获得一个语义较为丰富的查询词(神偷奶爸),以便处理器可以依据语义较为丰富的查询词(神偷奶爸)快速准确地检索到与该查询词(stnb)对应的网页。
目前,计算两个查询词相似度的方式有多种,例如:按两个查询词中每个汉字是否相同的方式来计算两个查询词之间的相似概率,两个查询词之间的相似概率越大则代表两个查询词的相似度越高,两个查询词之间相似概率越小,则代表两个查询词之间的相似度越小。可见,现有计算查询词相似度的方式均停留在计算两个查询词的字样是否相同的阶段。
但是在一些情况下,两个查询词的字样相差很多但语义却高度一致;如,一个查询词为“stnb”,另一查询词为“神偷奶爸”(神偷奶爸的拼音的首字母为stnb)。理论上两个查询词相似度应该非常高,但是利用现有技术计算这两个查询词的字样相似度时,却得到非常低的相似度。这会导致计算得到两个查询词相似度有误,进而导致处理器在使用相似度进行相关搜索时,无法快速、准确地检索与查询词相关的网页。
所以,现在需要一种新的查询词相似度的计算方法,从而来准确确定两个查询词之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。
发明内容
本申请提供了查询词相似度计算方法,本方法可以准确确定两个查询词之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。
为了实现上述目的,可以采用以下技术手段:
一种查询词相似度的计算方法,包括:
确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
优选的,还包括:
计算所述第一查询词和所述第二查询词之间的字样相似度;
在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
优选的,还包括:
计算所述第一查询词和所述第二查询词之间的字样相似度;
在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
优选的,所述计算所述第一特征向量集合和所述第二特征向量集合的相似度,包括:
在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量;
计算所述一个或多个夹角余弦之间的拟合结果;
将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
优选的,所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;
相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量;
其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
优选的,所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;
相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
优选的,所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;
相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量;
其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合;或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
优选的,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合;
将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
优选的,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量;
将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
优选的,所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果;
和/或,
所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果;
和/或,
所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
优选的,所述预设条件包括:
查询词的搜索次数大于预设次数。
一种查询词搜索方法,其特征在于,包括:
获取待查询查询词;
在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的;
将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
一种查询词相似度的计算装置,包括:
确定集合单元,用于确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
计算特征相似度单元,用于计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
第一确定相似度单元,用于在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
优选的,还包括:
计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相似度;
第二确定相似度单元,用于在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
优选的,还包括:
计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相似度;
第三确定相似度单元,用于在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
优选的,所述计算特征相似度单元,包括:
计算余弦单元,用于在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量;
拟合单元,用于计算所述一个或多个夹角余弦之间的拟合结果;
确定特征相似度单元,用于将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
优选的,所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;
相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量;
其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
优选的,所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;
相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
优选的,所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;
相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量;
其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合;或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
优选的,所述计算字样相似度单元,包括:
确定查询词集合单元,用于确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合;
第一确定字样相似度单元,用于将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
优选的,所述计算字样相似度单元,包括:
确定查询词特征向量单元,用于确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量;
第二确定字样相似度单元,用于将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
优选的,所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果;
和/或,
所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果;
和/或,
所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
优选的,所述预设条件包括:
查询词的搜索次数大于预设次数。
一种查询词搜索装置,包括:
获取单元,用于获取待查询查询词;
查找单元,用于在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的;
搜索单元,用于将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
通过以上技术内容,可以具有以下有益效果:
本申请提供的查询词相似度计算方法,本申请在计算两个查询词的相似度之前,首先利用第一特征向量集合代表第一查询词,利用第二特征向量代表第二查询词。由于第一特征向量和第二特征向量是依据真实用户对第一查询词和第二查询词的点击网页的日志数据确定的,所以,第一特征向量能够真实反应真实用户认为第一查询词所代表实际含义,第二特征向量也能够真实反应真实用户认为第二查询词所代表的实际含义。
因此,不论第一查询词和第二查询词的字样是否相同,只要真实用户认为两者所代表实际含义是一致的,第一查询词和第二查询词的相似度便应该较高。所以,本申请将第一特征向量集合和第二特征向量集合之间的相似度(真实用户认为两者之间含义的相似度),作为第一查询词和第二查询词之间的相似度。所以,本申请可以准确确定两个查询词之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现本申请实施例公开的查询词相似度计算方法的实施例;
图2为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图3为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图4为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图5为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图6为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图7为本申请实施例公开的又一种查询词相似度计算方法的实施例;
图8为本申请实施例公开的一种查询词搜索方法的实施例;
图9为现本申请实施例公开的一种查询词相似度计算装置的结构示意图;
图10为现本申请实施例公开的又一种查询词相似度计算装置的结构示意图;
图11为现本申请实施例公开的一种查询词相似度计算装置中计算特征相似度单元的结构示意图;
图12为现本申请实施例公开的一种查询词相似度计算装置中计算字样相似度单元的结构示意图;
图13为现本申请实施例公开的一种查询词相似度计算装置中又一计算字样相似度单元的结构示意图;
图14为现本申请实施例公开的一种查询词搜索装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
真实用户在搜索引擎上依据查询词搜索相关网页的一次搜索行为可以为:在搜索引擎的输入栏内输入查询词,搜索引擎查找到与查询词相关的多个网页链接,并将多个网页链接以及每个网页链接的部分内容显示至用户。用户依据每个网页链接的部分内容和自己对查询词的理解进行合理推测和判断,并确定一个与查询词语义最接近的网页链接,然后点击这个网页链接以查看其中的具体内容。
搜索引擎均有日志记录功能,因此可以记录真实用户在搜索引擎上的搜索行为。只有在真实用户搜索之后才能够记录真实用户的搜索行为,因此记录真实用户的搜索行为的日志也被称为历史搜索日志。历史搜索日志中记录用户输入的查询词,点击网页的网址和点击网页的主题等内容。
历史搜索日志中记录有真实用户针对不同查询词的真实点击行为,所以,历史搜索日志中可以反映真实用户认为查询词所代表的含义。例如,真实用户输入查询词为“stnb”,用户最终点击的网页标题为“神偷奶爸”,则真实用户认为查询词“stnb”代表“神偷奶爸”。即查询词“stnb”与查询词“神偷奶爸”的代表的含义是相同,查询词“stnb”与查询词“神偷奶爸”的相似度较高。
所以,本申请采用历史搜索日志中提取的信息来确定两个查询词的相似度。首先确定计算查询词相似度的两个查询词:第一查询词和第二查询词。为了清楚地利用历史搜索日志来代表第一查询词和第二查询词,在历史搜索日志中提取与第一查询词对应的信息并将信息向量化得到第一特征向量集合,在历史搜索日志中提取与第二查询词对应的信息并将信息向量化得到第二特征向量集合。
第一特征向量集合中包含一个或多个第一特征向量,第二特征向量集合中包含一个或多个第二特征向量。下面介绍第一特征向量和与第二特征向量的几种表现形式:
第一种表现形式:标题特征向量。
所述第一特征向量包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;相应的,所述第二特征向量包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量。
第一标题词语集合有两种情况:
在第一种情况下,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合。
以第一查询词为例,在历史搜索日志中第一查询词可以被不同真实用户赋予不同的含义,即,不同用户针对第一查询词最终的点击网页可以不同。为了综合考虑不同用户对第一查询词的点击行为,本申请提取在历史搜索日志中提取与第一查询词对应所有网页的网页标题并统计各个网页标题的点击次数,然后将所有网页的网页标题作为第一标题词语集合。
在此情况下,可以将第一标题词语集合中按顺序排列所有网页标题作为特征向量的元素,将按顺序排列的所有网页标题的点击次数形成的一维特征向量作为第一查询词的第一标题特征向量。
例如,第一查询词为“stnb”,则真实用户针对第一查询词“stnb”点击网页可以为“神偷奶爸1”、“神偷奶爸2”、和“神偷奶爸电影”等网页标题;其中,每个网页标题的点击次数为100、90和70。然后将“神偷奶爸1”、“神偷奶爸2”和“神偷奶爸电影”依次作为第一特征向量的各个元素,将各个网页标题的点击次数依次排列,组成第一标题特征向量[1009070]。
上述内容为第一标题词语集合的第一种情况,下面介绍第一标题词语的第二种情况。
在第二种情况下,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
继续以第一查询词为例,在历史搜索日志中获得与第一查询词对应的各个网页标题之后,将每个网页标题进行二元分词得到若干个分词结果。一个网页标题的每个分词结果的点击次数与该网页标题的点击次数相同。例如,网页标题“神偷奶爸”的点击次数为100,则对“神偷奶爸”进行二元分词得到“神偷”、“偷奶”和“奶爸”三个分词结果,并且每个分词结果的点击次数均为100。
在得到各个网页标题分词结果后,将各个网页标题中相同分词结果的点击次数进行合并,然后统计各个分词结果总的点击次数。将合并后的分词结果确定为第一标题词语集合。
在此情况下,可以将第一标题词语集合中按顺序排列所有分词结果作为特征向量的元素,将按顺序排列的所有分词结果的点击次数形成的一维特征向量作为第一查询词的第一标题特征向量。
例如:第一查询词为“stnb”,则真实用户针对查询词“stnb”搜索的网页标题可以为“神偷奶爸1”、“神偷奶爸2”、和“神偷奶爸电影”三个网页标题;其中,三个网页标题的点击次数为100、90和70。
然后对三个网页标题进行二元分词:对“神偷奶爸1”进行二元分词得到“神偷”、“偷奶”、“奶爸”和“爸1”四个分词结果;每个分词结果的点击次数均为100。对“神偷奶爸2”进行二元分词,“神偷”、“偷奶”、“奶爸”和“爸2”四个分词结果;每个分词结果的点击次数均为90。对“神偷奶爸电影”进行二元分词,得到“神偷”、“偷奶”、“奶爸”、“爸电”和“电影”五个分词结果;每个分词结果的点击次数均为70。
对各个网页标题的分词结果进行整理,以合并重复的分词结果,然后得到“神偷”(100+90+70=160)、“偷奶”(100+90+70=160)、“奶爸”(100+90+70=160)、“爸1”(100)、“爸2”(90)、“爸电”(70)和“电影”(70)七个分词结果,各个分词结果总的点击次数分别为160、160、160、100、90和70。
设置第一标题特征向量的各个元素分为“神偷”、“偷奶”、“奶爸”、“爸1”、“爸2”、“爸电”和“电影”,则构建的第一标题特征向量为[1601601601009070]。
确定第二查询词的第二特征向量的过程与第一查询词类似,在此不再赘述。
在第一种表现形式的第一种情况中,由于网页标题的数量较少,导致第一标题词语集合中的元素较少,进而使得第一特征向量和第二特征向量的具有相同元素的概率减小;这不利于后续计算第一查询词和第二查询词的相似度。在第二种情况中网页标题进行二元分词,使得第一标题词语集合中的元素简单化和稠密化,从而增加第一特征向量和第二特征向量具有相同元素的概率,以便利于计算第一查询词和第二查询词的相似度。
上述内容为确定第一特征向量集合和第二特征向量集合的第一种表现形式,下面介绍实例化第一特征向量集合和第二特征向量集合的第二种表现形式。
第二种表现形式:网址特征向量。
所述第一特征向量包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;相应的,所述第二特征向量包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量。
其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
以第一查询词为例,在历史搜索日志中提取与第一查询词对应的多个网页的网址以及统计每个网址的点击次数。将各个网址作为特征向量的元素,并将各个网址的点击次数构建一维特征向量,将一维特征向量组成网址特征向量。
例如,第一查询词在历史搜索日志中对应点击网页的为网址1、网址2和网址3,各个网址的点击次数分别为80、50和70,则可以将网址1、网址2和网址3分别作为特征向量的元素,将各个网址的点击次数依次作为特征向量的内容,从而得到网址特征向量为[805070]。
第二查询词确定网址特征向量的过程与第一查询词类似,在此不再赘述。
下面介绍第一特征向量和第二特征向量的第三种表现形式。
第三种表现形式:相关查询词特征向量。
所述第一特征向量包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;相应的,所述第二特征向量包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量。
在第一种情况下,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合。
以第一查询词为例,为了增加第一特征向量中元素的内容,本申请获取与第一查询词的相关查询词集以及相关查询词集的点击次数,并将相关查询词组成第一特征向量的元素,将相关查询词的点击次数组成第一特征向量。
在确定与第一查询词相关联的相关查询词时,可以先确定第一查询词在历史搜索日志中对应点击网页的为网址1、网址2和网址3,然后将网址1、网址2和网址3对应的查询查询词作为与第一查询词相关联的相关查询词,以及每个相关查询词针对网址的点击次数。然后,将与各个网址相关的相关查询词进行合并,得到第二相关查询词词语集合。
本申请这样做的目的为提高第一特征向量集合中元素数量,从而尽可能的提升第一查询词和第二查询词的相似度。
例如,网址1对应的搜索查询词可以为查询词1和查询词2,并且,查询词1相对于网址1的点击次数为20,查询词2相对于网址1的点击次数为30;网址2对应的搜索查询词可以为查询词2和查询词3,查询词2相对于网址2的点击次数为35,查询词3相对于网址2的点击次数为40;网址3对应的搜索查询词可以为查询词1和查询词4,查询词1相对于网址3的点击次数为45,查询词4相对于网址3的点击次数为50。
整合第一查询词各个网址的相关查询词为查询词1(20+45=65)、查询词2(30+35=65)、查询词3(40)和查询词4(50),则第一相关查询词词语集合为查询词1、查询词2、查询词3和查询词4。由第一相关查询词词语集合形成的第一特征向量集合为[65654050]。
在第二种情况下,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
例如,在得到与第一查询词相关的查询词1、查询词2、查询词3和查询词4之后,还可以再对每个相关查询词进行二元分词得到分词结果,再对分词结果进行整理合并,得到去除相同分词结果后的第一相关查询词词语集合,及每个分词结果的总的点击次数。
在此情况下,将第一相关查询词词语集合中每个分词结果作为第一特征向量集合的元素,将各个分词结果的点击次数作为第一特征向量集合。该过程的执行步骤与第一种表现形式的第二种情况类似,在此不再赘述。
确定第二查询词的相关查询词特征向量的过程与第一查询词类似,在此不再赘述。
上述详细介绍了第一特征向量和第二特征向量的三种表现形式。可以理解的是,第一特征向量集合和第二特征向量可以包含三种表现形式中一种或多种表现形式,并且,第一特征向量集合和第二特征向量集合中包含特征向量的表现形式是相同的。
下面介绍本申请一种查询词相似度计算方法的实施例,如图1所示,包括步骤S101~S103:
步骤S101:确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合。第一特征向量集合和所述第二特征向量集合由所述历史搜索日志确定的,所述历史搜索日志中包含在预设时间内所有真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在所述预设时间内所有真实用户针对所述第二查询词而发生的点击网页行为的日志数据。
本申请采用第一特征向量集合表示第一查询词,采用第二特征向量集合表示第二查询词。第一特征向量集合和第二特征向量集合均从历史搜索日志中提取的,所以,第一特征向量集合和第二特征向量集合能够准确反应真实用户的对于第一查询词和第二查询词的点击行为,即第一特征向量集合和第二特征向量集合能够准确反应第一查询词和第二查询词的真实含义,而非字样上的含义。
第一特征向量集合可以包含第一标题特征向量,第一网址特征向量和/或第一相关查询词特征向量。第二特征向量集合可以包含第二标题特征向量,第二网址特征向量和/或第二相关查询词特征向量。第一特征向量集合和第二特征向量集合中所包含的特征向量的类型是相同的,即第一特征向量集合包含第一标题特征向量,第二特征向量集合中同样包含第二标题特征向量。
第一特征向量集合和第二特征向量集合的确定过程已在前述内容进行详细介绍,本步骤中不再赘述。
步骤S102:计算所述第一特征向量集合和所述第二特征向量集合的特征相似度。
计算第一特征向量和第二特征向量的特征相似度,即为计算两个特征向量之间的距离是否相近,如果两个特征向量的距离较近,则表征两者的特征相似度较高,如果两者的距离较远,则表征两者的相似度较低。
计算两个特征向量之间的相似度可以包括:(1)计算两个特征向量的欧氏距离、并将欧式距离转换为相似度;(2)计算两个特征向量的曼哈顿距离、并将曼哈顿距离转换为相似度;(3)计算两个特征向量的夹角余弦、夹角余弦即为两者的相似度(两个特征向量越相似,距离越近,两者的夹角余弦越大)。当然可以理解的是,还可以采用其它方式来计算两个特征向量之间的相似度,在此不再一一列举。
由于在方式(3)中计算两个特征向量的夹角余弦即为两个特征向量的相似度;相对于方式(1)和方式(2)而言,仅需一步便可以得到两个特征向量之间的相似度,该方式较为简单方便。
下面以方式(3)为例,对本步骤进行详细说明。如图2所示,具体包括以下步骤:
步骤S201:在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量。
以第一特征向量集合的第一网址特征向量和第二特征向量集合中第二网址特征向量为例,对本步骤进行说明:
以第一网址特征向量为[805070]为例,且各个元素分别对应网址1、网址2和网址3。第二网址特征向量为[50607580]为例,且各个元素分别对应网址1、网址2和网址4、网址5。
为了计算第一网址特征向量和第二网址特征向量的夹角余弦,需要重新计算第一网址特征向量和第二网址特征向量。整合第一网址特征向量和第二网址特征向量两者所包含所有元素得到特征元素为网址1、网址2、网址3、网址4和网址5。对于第一网址特征向量而言,新的第一网址特征向量为A=[80507000],由于原有的第一网址特征向量中没有网址4和网址5,所以对应的特征元素上的数值为零;同理可以得到新的第二网址特征向量为B=[506007580]。
则按照夹角余弦的计算公式计算向量A和向量B之间的网址夹角余弦:
夹角余弦为一个0到1之间的数值,如果数值越接近1,表示两个向量的夹角越小,即表示第一查询词(向量A)和第二查询词(向量B)越相似;如果越接近0,表示两个向量夹角越大,也就是即表示第一查询词(向量A)和第二查询词(向量B)越不相似。
当第一特征向量集合和第二标题特征向量集合中包含第一标题特征向量和第二标题特征向量时,也可以按照类似的计算方式来计算与两者的标题向量对应的标题夹角余弦。同理,当第一特征向量集合和第二标题特征向量集合中包含第一相关查询词特征向量和第二相关查询词特征向量时,也可以按照类似的计算方式来计算与两者的相关查询词向量对应的相关夹角余弦。
步骤S202:计算所述一个或多个夹角余弦之间的拟合结果。
如果第一特征向量集合第二特征向量集合中只有一个类型的特征向量,则计算得到一个夹角余弦,因此无需进行拟合直接将一个夹角余弦作为拟合结果。如果第一特征向量集合第二特征向量集合中包含两个及以上类型的特征向量,则可以得到两个及以上夹角余弦,需要将两个及以上夹角余弦进行拟合。
以步骤S201中得到三个夹角余弦,分别为标题夹角余弦a、网址夹角余弦b和相关夹角余弦c。
那么,拟合结果=x*a+y*b+z*c………………公式2
其中,x,y,z则表示各个夹角余弦对应的系数。具体在应用时可以取x=0.1,y=0.8,z=0.1。
当然,还可以对多个夹角余弦进行拟合的方式有多种,例如线性拟合、非线性拟合或其它拟合方式,在此不再一一列举。
步骤S203:将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
将一个或多个夹角余弦的拟合结果,作为第一特征向量集合第二特征向量集合的相似度。两个特征向量集合的特征相似度可以反映第一查询词和第二查询词之间的相似度。
接着返回图1,进入步骤S103:在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
预设条件可以为空条件,即在步骤S102中计算得到可以直接将特征相似度确定为查询词相似度。
预设条件还可以为搜索次数大于预设次数,即在第一查询词的搜索次数和第二查询词的搜索次数均大于预设次数的情况下,将特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
第一查询词的搜索次数和第二查询词的搜索次数可以为在历史搜索日志中统计得到的,当第一查询词的搜索次数和第二查询词的搜索次数均大于预设次数时,才能够充分利用历史搜索日志中提取的第一特征向量集合和第二特征向量集合,准确代表第一查询词和第二查询词。否则,则会由于历史搜索日志中包含的与第一查询词和第二查询词相关的搜索数据过少,无法准确形成代表第一查询词的第一特征向量集合和代表第二查询词的第二特征向量集合。
那么,在第一查询词的搜索次数和第二查询词的次数均不大于预设次数的情况,即第一特征向量集合和第二特征向量集合不能准确表示第一查询词和第二查询词的情况下,本申请计算第一查询词和第二查询词的字样相似度,从字样相似度上计算第一查询词和第二查询词的查询词相似度。
下面介绍本申请查询词相似度计算方法的另一实施例。如图3所示,包括:
步骤S301:计算所述第一查询词和所述第二查询词之间的字样相似度。
其中,计算两个查询词的字样相似度的方式可以有多种:
下面列举三种计算字样相似度的方式:
如图4所示,第一种方式具体包括:
步骤S401:确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合。
首先,确定第一查询词的第一查询词集合以及第二查询词的第二查询词集合。两个查询词集合中均包含与各自查询词对应的相关词语,利用第一查询词集合与第二查询词集合的字样相似度,来确定第一查询词和第二查询词之间的相似度。
下面介绍确定第一查询词集合和第二查询词集合的三种情况:
第一种情况:所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果。
对第一查询词和第二查询词进行二元分词得到各自的分词结果,将第一查询词的分词结果作为第一查询词集合,将第二查询词的分词结果作为第二查询词集合。
第二种情况:所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果。
对第一查询词进行分词的分词结果仅能够代表第一查询词的字样,为了尽可能增加第一查询词与第二查询词之间的相似度;本市实施例可以获取与第一查询词相关的相关词语,然后将第一查询词以及与第一查询词相关的相关词语共同组成第一查询词集合。
或者,将第一查询词和与第一查询词相关的相关词语均进行二元分词,将二元分词的结果作为第一查询词集合。同理也可以对第二查询词进行同样的处理,得到第二查询词集合。
第三种情况:述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
与第二种情况类似,在此不再赘述。
步骤S402:将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
本步骤中以第一查询词集合和第二查询词集合中字样重叠度,来表示第一查询词和第二查询词的字样相似度。可以理解的是,字样重叠相似度越高,则第一查询词和第二查询词之间的字样相似度越高。
其中,计算重叠相似度时可以首先确定第一查询词集合和第二查询词集合共同拥有的词语数量C,再确定第一查询词集合和第二查询词集合中词语最大的词语数量D;计算C与D的商C/D。将商值作为第一查询词集合和第二查询词集合的字样重叠度;进而将字样重叠度作为第一查询词和第二查询词的字样相似度。
如图5所示,第二种方式包括:
步骤S501:确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量。
按步骤S401确定与第一查询词对应的第一查询词集合,以及与第二查询词对应的第二查询词集合。第一查询词特征向量集合中每个元素与第一查询词集合中元素相同,并且每个特征元素的值则默认为1。如果第一查询词集合中有第一查询词的相关词或近义词,则元素的值设为第一查询词与该相关词或近义词的置信度。其中,置信度是用来表征相关词或近义词与第一查询词的语义相同程度,如语义不同,则置信度趋近于0,如语义完全相同,则置信度趋近于1。可以依据现有技术中计算的方式计算第一查询词和相关词(近义词)的置信度,在此不再赘述。
步骤S502:将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
按步骤S201的方式,计算第一查询词特征向量与所述第二查询词特征向量之间的夹角余弦,并将夹角余弦确定作为第一查询词和第二查询词之间的字样相似度。
如图6所示,第三种方式为第一种方式和第二种方式的总和。
步骤S601:计算第一查询词特征向量和第二查询词特征向量的夹角余弦,计算第一查询词集合与所述第二查询词集合的字样重叠度。
单单考虑一方面的相似度有一些单薄,所以第三种方式中综合考虑第一查询词与第二查询词之间的字样重叠度以及夹角余弦。参见图4和图5所示的计算方式,在此不再赘述。
步骤S602:将所述夹角余弦和字样相似度的结合结果作为第一查询词和第二查询词的字样相似度。
对夹角余弦d和字样重叠度f进行线性加权拟合,得到第一查询词和第二查询词最终的字样相似度,具体可以为:字样相似度=x*d+y*f,其中,x,y则表示对应的系数,按照经验值x、y的值可以为x=0.8,y=0.2。具体数值可以依据具体情况而定,在此不做限定。
当然,还可以采用其他方式来计算第一查询词和第二查询词之间的字样相似度,再次不再一一列举。
接着返回图3,进入步骤S302:在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
在图1所示的实施例的基础上,下面介绍本申请查询词相似度计算方法的另一实施例。如图7所示,本申请实施例还包括:
步骤S701:计算所述第一查询词和所述第二查询词之间的字样相似度。
在图3所示的实施例中已经详细介绍字样相似度的计算过程,在此不再赘述。
步骤S702:在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
在第一查询词的搜索次数和第二查询词的搜索次数其中有一个不满足预设条件时,则说明其中一个查询词的利用历史搜索日志生成的特征向量集合可能不准确。因此,为了保证结果的准确性,本实施例综合考虑特征相似度和字样相似度,来决定查询词相似度。
具体的,可以为查询词相似度=x*特征相似度+y*字样相似度;其中,x,y则表示对应的系数,按照经验值x、y的值可以为x=0.6,y=0.4。具体数值可以依据具体情况而定,在此不做限定。
在搜索引擎中,查询词的点击次数往往随着在显示界面上位置的下降,而呈指数级下降。在进行相似度计算时这种次数差异会被过分放大,这样不利于后续的相似度计算。所以,本申请上述实施例中所有涉及的到次数时,为了保证消除点击次数的差距过大对相似度的影响,可以预先对次数进行平滑处理。
平滑处理的方式可以为:平滑次数=(真实次数*固定参数)/(真实次数+固定参数);固定参数可以为100,当然还可以根据实际情况进行选择,在此不做限定。当然,还可以选择其它平滑的处理方式,在此不再一一列举。
综上所述,本申请具有以下有益效果:
本申请在整个相似度的计算过程中,较大程度的依赖用户真实的点击行为,也就是较大程度贴近第一查询词和第二查询词语义。即本申请计算第一查询词和第二查询词的语义特征之间的相似度,而非字样之间的相似度,因此本申请可以提高查询词相似度准确性。本申请使得一些字面上毫不相关,但实际含义近似的两个查询词,通本申请可以得到很高的相似度。比如:经过计算查询词“stnb”和查询词“神偷奶爸”为0.91。
此外,本申请采取多种不同纬度的特征向量来计算特征相似度和查询词相似度,并且根据第一查询词和第二查询词的查询次数的不同情况,采取不同的计算查询词相似度的方式,从而较大程度提高算法的鲁棒性和实用性。
如图8所示,本申请还提供了一种查询词搜索方法,包括:
步骤S801:获取待查询查询词。
在查询查询词过段时,则控制器无法准确查找与待查询查询词相关的网页,当查询查询词过长时,则控制器会将多个重复的信息进行重复查询,降低查询效率。所以,在此情况下,可以查找与待查询查询词相似度最高的查询词。
步骤S802:在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为图1-图7所述的方法得到的。
按图1-图7所示的方式,计算两两查询词之间的相似度并对应存储,形成查询词相似度数据库。在查询词相似度数据库中查找与待查询查询词相似度最高的目标查询词。目标查询词为合适长短的词语,既不会过短又不会过长,因此适用于控制器进行搜索。
步骤S803:将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
将目标查询词代替待查询查询词,在搜索数据库中进行查询,从而查找到与待查询查询词相关的网页。
本实施例由于更换了不适用于控制器查询的待查询查询词,所以,可以提高控制器的查询效率和准确度。
如图9所示,本申请提供了一种查询词相似度的计算装置,包括:
确定集合单元91,用于确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
计算特征相似度单元92,用于计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
第一确定相似度单元93,用于在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
如图10所示,本申请提供的装置,还包括:
计算字样相似度单元94,用于计算所述第一查询词和所述第二查询词之间的字样相似度;
第二确定相似度单元95,用于在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
第三确定相似度单元96,用于在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
其中,所述预设条件包括:查询词的搜索次数大于预设次数。
如图11所示,在图9中所述计算特征相似度单元92,包括:
计算余弦单元111,用于在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量;
拟合单元112,用于计算所述一个或多个夹角余弦之间的拟合结果;
确定特征相似度单元113,用于将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
第一特征向量集合和第二特征向量集合有三种情况:
第一种情况:
所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量;
其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
第二种情况:
所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
第三种情况:所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量。
其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合;或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
计算字样相似度有以下两种情况:
第一种情况:如图12所示,所述计算字样相似度单元94,包括:
确定查询词集合单元121,用于确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合;
第一确定字样相似度单元122,用于将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
第二种情况:如图13所示,所述计算字样相似度单元94,包括:
确定查询词特征向量单元131,用于确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量;
第二确定字样相似度单元132,用于将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
其中,所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果;
和/或,
所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果;
和/或,
所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
从以上内容可以看出本申请具有以下有益效果:
本申请提供的查询词相似度计算方法,本申请在计算两个查询词的相似度之前,首先利用第一特征向量集合代表第一查询词,利用第二特征向量代表第二查询词。由于第一特征向量和第二特征向量是依据真实用户对第一查询词和第二查询词的点击网页的日志数据确定的,所以,第一特征向量能够真实反应真实用户认为第一查询词所代表实际含义,第二特征向量也能够真实反应真实用户认为第二查询词所代表的实际含义。
因此,不论第一查询词和第二查询词的字样是否相同,只要真实用户认为两者所代表实际含义是一致的,第一查询词和第二查询词的相似度便应该较高。所以,本申请将第一特征向量集合和第二特征向量集合之间的相似度(真实用户认为两者之间含义的相似度),作为第一查询词和第二查询词之间的相似度。所以,本申请可以准确确定两个查询词之间的相似度,以便处理器依据相似度可以快速准确的检索与查询词相关的网页。
如图14所示,本申请还提供了一种查询词搜索装置,包括:
获取单元141,用于获取待查询查询词;
查找单元142,用于在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的;
搜索单元143,用于将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
本实施例由于更换了不适用于控制器查询的待查询查询词,所以,可以提高控制器的查询效率和准确度。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (24)

1.一种查询词相似度的计算方法,其特征在于,包括:
确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
2.如权利要求1所述的方法,其特征在于,还包括:
计算所述第一查询词和所述第二查询词之间的字样相似度;
在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
3.如权利要求1所述的方法,其特征在于,还包括:
计算所述第一查询词和所述第二查询词之间的字样相似度;
在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
4.如权利要求1所述的方法,其特征在于,所述计算所述第一特征向量集合和所述第二特征向量集合的相似度,包括:
在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量;
计算所述一个或多个夹角余弦之间的拟合结果;
将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
5.如权利要求1所述的方法,其特征在于,
所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;
相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量;
其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
6.如权利要求1所述的方法,其特征在于,
所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;
相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
7.如权利要求1所述的方法,其特征在于,
所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;
相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量;
其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合;或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
8.如权利要求2所述的方法,其特征在于,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合;
将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
9.如权利要求2或8所述的方法,其特征在于,所述计算所述第一查询词和所述第二查询词之间的字样相似度,包括:
确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量;
将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
10.如权利要求9所述的方法,其特征在于,
所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果;
和/或,
所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果;
和/或,
所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
11.如权利要求1-3任一项所述的方法,其特征在于,所述预设条件包括:
查询词的搜索次数大于预设次数。
12.一种查询词搜索方法,其特征在于,包括:
获取待查询查询词;
在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的;
将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
13.一种查询词相似度的计算装置,其特征在于,包括:
确定集合单元,用于确定与第一查询词对应的第一特征向量集合,及,与第二查询词对应的第二特征向量集合;其中,所述第一特征向量集合和所述第二特征向量集合依据历史搜索日志确定,所述历史搜索日志包含真实用户针对所述第一查询词而发生的点击网页行为的日志数据,以及,在真实用户针对所述第二查询词而发生的点击网页行为的日志数据;
计算特征相似度单元,用于计算所述第一特征向量集合和所述第二特征向量集合的特征相似度;
第一确定相似度单元,用于在所述第一查询词和所述第二查询词均满足预设条件的情况下,将所述特征相似度确定为所述第一查询词和第二查询词之间的查询词相似度。
14.如权利要求13所述的装置,其特征在于,还包括:
计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相似度;
第二确定相似度单元,用于在所述第一查询词和所述第二查询词均不满足预设条件的情况下,将所述字样相似度确定为所述第一查询词与所述第二查询词之间的查询词相似度。
15.如权利要求13所述的装置,其特征在于,还包括:
计算字样相似度单元,用于计算所述第一查询词和所述第二查询词之间的字样相似度;
第三确定相似度单元,用于在所述第一查询词和所述第二查询词其中一个不满足预设条件的情况下,将所述特征相似度和所述字样相似度的结合结果,确定为所述第一查询词与所述第二查询词之间的查询词相似度。
16.如权利要求13所述的装置,其特征在于,所述计算特征相似度单元,包括:
计算余弦单元,用于在所述第一特征向量集合和所述第二特征向量集合中,计算每对相同类型的特征向量之间的夹角余弦,得到一个或多个夹角余弦;其中,所述第一特征向量集合包括由历史搜索日志中提取的、与所述第一查询词对应的一个或多个类型的特征向量;所述第二特征向量集合包括由所述历史搜索日志中提取的、与所述第二查询词对应的所述一个或多个类型的特征向量;
拟合单元,用于计算所述一个或多个夹角余弦之间的拟合结果;
确定特征相似度单元,用于将所述拟合结果确定为所述第一特征向量集合和所述第二特征向量集合的特征相似度。
17.如权利要求13所述的装置,其特征在于,
所述第一特征向量集合包括:由第一标题词语集合中每个标题词语的点击次数所构建的第一标题特征向量;
相应的,所述第二特征向量集合包括:由第二标题词语集合中每个标题词语的点击次数所构建的第二标题特征向量;
其中,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题的集合,所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题的集合;或者,所述第一标题词语集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合;所述第二标题词语集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页中提取到的所有网页标题,并将所有网页标题进行二元分词后得到的分词结果的集合。
18.如权利要求13所述的装置,其特征在于,
所述第一特征向量集合包括:由第一网页网址集合中每个网页网址的点击次数所构建的第一网址特征向量;其中,所述第一网页网址集合为在所述历史搜索日志中由所述第一查询词对应的所有点击网页的网址的集合;
相应的,所述第二特征向量集合包括:由第二网页网址集合中每个网页网址的点击次数所构建的第二网址特征向量;其中,所述第二网页网址集合为在所述历史搜索日志中由所述第二查询词对应的所有点击网页的网址的集合。
19.如权利要求13所述的装置,其特征在于,
所述第一特征向量集合包括:由第一相关查询词词语集合中每个相关查询词词语的点击次数所构建的第一相关查询词特征向量;
相应的,所述第二特征向量集合包括:由第二相关查询词词语集合中每个相关查询词词语的点击次数所构建的第二相关查询词特征向量;
其中,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词的集合,所述第二相关查询词词语集合为:与所述第二查询词相关联的相关查询词的集合;或者,所述第一相关查询词词语集合为与所述第一查询词相关联的相关查询词进行二元分词后得到分词结果的集合;与所述第二查询词相关联的相关查询词进行二元分词后得到分词结果的集合;其中,在所述历史搜索日志中所述第一查询词和所述第一查询词的相关查询词对应的点击网页相同,在所述历史搜索日志中所述第二查询词和所述第二查询词的相关查询词对应的点击网页相同。
20.如权利要求14所述的装置,其特征在于,所述计算字样相似度单元,包括:
确定查询词集合单元,用于确定与所述第一查询词对应的第一查询词集合,及,与所述第二查询词对应的第二查询词集合;
第一确定字样相似度单元,用于将所述第一查询词集合和所述第二查询词集合之间的字样重叠度,确定为所述第一查询词和所述第二查询词的字样相似度。
21.如权利要求13或20所述的装置,其特征在于,所述计算字样相似度单元,包括:
确定查询词特征向量单元,用于确定与所述第一查询词对应的第一查询词集合中每个词语的出现次数所构建的第一查询词特征向量,和,与所述第二查询词对应的第二查询词集合中每个词语的出现次数所构建的第二查询词特征向量;
第二确定字样相似度单元,用于将所述第一查询词特征向量和所述第二查询词特征向量之间的夹角余弦,确定为所述第一查询词和所述第二查询词的字样相似度。
22.如权利要求21所述的装置,其特征在于,
所述第一查询词集合包含所述第一查询词或所述第一查询词进行二元分词的分词结果,相应的,所述第二查询词特征向量中包含所述第二查询词或所述第二查询词进行二元分词的分词结果;
和/或,
所述第一查询词集合包含与所述第一查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果,所述第二查询词集合包含与所述第二查询词相关联的相关查询词或相关查询词进行二元分词后的分词结果;
和/或,
所述第一查询词集合包含所述第一查询词的近义词集或该近义词集进行二元分词后的分词结果;所述第二查询词集合包含所述第二查询词的近义词集或该近义词集进行二元分词后的分词结果。
23.如权利要求13-15任一项所述的装置,其特征在于,所述预设条件包括:
查询词的搜索次数大于预设次数。
24.一种查询词搜索装置,其特征在于,包括:
获取单元,用于获取待查询查询词;
查找单元,用于在查询词相似度数据库中,查找与所述待查询查询词相似度最大的目标查询词;其中,所述查询词相似度数据库包含各个查询查询词之间查询词相似度,各个查询查询词之间的查询词相似度为依据权利要求1所述的方法得到的;
搜索单元,用于将所述目标查询词代替所述待查询查询词,搜索与所述待查询查询词相关的网页。
CN201510534925.9A 2015-08-27 2015-08-27 查询词相似度计算方法及装置、查询词搜索方法及装置 Expired - Fee Related CN105045781B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510534925.9A CN105045781B (zh) 2015-08-27 2015-08-27 查询词相似度计算方法及装置、查询词搜索方法及装置
PCT/CN2016/079773 WO2017031996A1 (zh) 2015-08-27 2016-04-20 查询词相似度计算方法及装置、查询词搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510534925.9A CN105045781B (zh) 2015-08-27 2015-08-27 查询词相似度计算方法及装置、查询词搜索方法及装置

Publications (2)

Publication Number Publication Date
CN105045781A true CN105045781A (zh) 2015-11-11
CN105045781B CN105045781B (zh) 2020-06-23

Family

ID=54452337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510534925.9A Expired - Fee Related CN105045781B (zh) 2015-08-27 2015-08-27 查询词相似度计算方法及装置、查询词搜索方法及装置

Country Status (2)

Country Link
CN (1) CN105045781B (zh)
WO (1) WO2017031996A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630926A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 从查询词中提取中心词的方法和装置
CN106126589A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
WO2017031996A1 (zh) * 2015-08-27 2017-03-02 广州神马移动信息科技有限公司 查询词相似度计算方法及装置、查询词搜索方法及装置
CN106817472A (zh) * 2015-12-02 2017-06-09 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN108334631A (zh) * 2018-02-24 2018-07-27 武汉斗鱼网络科技有限公司 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备
WO2018201280A1 (en) * 2017-05-02 2018-11-08 Alibaba Group Holding Limited Method and apparatus for query auto-completion
CN109359481A (zh) * 2018-10-10 2019-02-19 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN111782684A (zh) * 2020-07-14 2020-10-16 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN115982466A (zh) * 2022-12-30 2023-04-18 北京百度网讯科技有限公司 检索数据的方法、装置、设备以及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111780933B (zh) * 2020-07-01 2022-04-15 华能国际电力股份有限公司大连电厂 基于神经网络及热力学建模诊断高压加热器泄漏故障的方法及系统
CN117436551B (zh) * 2023-12-18 2024-06-21 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器
CN104809139A (zh) * 2014-01-29 2015-07-29 日本电气株式会社 代码文件查询方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457416B2 (en) * 2007-09-13 2013-06-04 Microsoft Corporation Estimating word correlations from images
CN105045781B (zh) * 2015-08-27 2020-06-23 广州神马移动信息科技有限公司 查询词相似度计算方法及装置、查询词搜索方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN101551806A (zh) * 2008-04-03 2009-10-07 北京搜狗科技发展有限公司 一种个性化网址导航的方法和系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
CN104809139A (zh) * 2014-01-29 2015-07-29 日本电气株式会社 代码文件查询方法和装置
CN104112026A (zh) * 2014-08-01 2014-10-22 中国联合网络通信集团有限公司 一种短信文本分类方法及系统
CN104331449A (zh) * 2014-10-29 2015-02-04 百度在线网络技术(北京)有限公司 查询语句与网页相似度的确定方法、装置、终端及服务器

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017031996A1 (zh) * 2015-08-27 2017-03-02 广州神马移动信息科技有限公司 查询词相似度计算方法及装置、查询词搜索方法及装置
CN106817472A (zh) * 2015-12-02 2017-06-09 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN105630926A (zh) * 2015-12-22 2016-06-01 北京奇虎科技有限公司 从查询词中提取中心词的方法和装置
CN106126589B (zh) * 2016-06-17 2018-05-22 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106126589A (zh) * 2016-06-17 2016-11-16 广州视源电子科技股份有限公司 简历搜索方法及装置
WO2017215242A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法及装置
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
WO2018201280A1 (en) * 2017-05-02 2018-11-08 Alibaba Group Holding Limited Method and apparatus for query auto-completion
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107729300A (zh) * 2017-09-18 2018-02-23 百度在线网络技术(北京)有限公司 文本相似度的处理方法、装置、设备和计算机存储介质
CN107609152A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN107609152B (zh) * 2017-09-22 2021-03-09 百度在线网络技术(北京)有限公司 用于扩展查询式的方法和装置
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质
CN108334631A (zh) * 2018-02-24 2018-07-27 武汉斗鱼网络科技有限公司 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备
CN109359481A (zh) * 2018-10-10 2019-02-19 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN109359481B (zh) * 2018-10-10 2021-09-14 南京小安信息科技有限公司 一种基于bk树的反碰撞搜索约减方法
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN111782684A (zh) * 2020-07-14 2020-10-16 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN111782684B (zh) * 2020-07-14 2023-12-29 广东电网有限责任公司电力调度控制中心 一种配网电子化移交信息匹配方法及装置
CN115982466A (zh) * 2022-12-30 2023-04-18 北京百度网讯科技有限公司 检索数据的方法、装置、设备以及存储介质
CN115982466B (zh) * 2022-12-30 2023-09-12 北京百度网讯科技有限公司 检索数据的方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN105045781B (zh) 2020-06-23
WO2017031996A1 (zh) 2017-03-02

Similar Documents

Publication Publication Date Title
CN105045781A (zh) 查询词相似度计算方法及装置、查询词搜索方法及装置
US9792304B1 (en) Query by image
CN101241512B (zh) 一种重新定义查询词的搜索方法及装置
US8326091B1 (en) Ranking of images and image labels
CN104123332B (zh) 搜索结果的显示方法及装置
US8909652B2 (en) Determining entity popularity using search queries
US9171081B2 (en) Entity augmentation service from latent relational data
CN102982153B (zh) 一种信息检索方法及其装置
US8356035B1 (en) Association of terms with images using image similarity
US8805755B2 (en) Decomposable ranking for efficient precomputing
Liao et al. Task trail: An effective segmentation of user search behavior
JP6124917B2 (ja) 情報検索のための方法および装置
US9342582B2 (en) Selection of atoms for search engine retrieval
US8620907B2 (en) Matching funnel for large document index
US8332426B2 (en) Indentifying referring expressions for concepts
CN101840397A (zh) 词义消歧方法和系统
WO2008106668A1 (en) User query mining for advertising matching
US8631002B2 (en) Web-relevance based query classification
WO2007037139A1 (ja) 情報処理装置、方法、およびプログラム
CA2523128A1 (en) Information retrieval and text mining using distributed latent semantic indexing
CN106919611B (zh) 产品信息推送方法和装置
Zhou et al. Online video recommendation in sharing community
EP3699780A1 (en) Method and apparatus for recommending entity, electronic device and computer readable medium
US20120130996A1 (en) Tiering of posting lists in search engine index
US8825641B2 (en) Measuring duplication in search results

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200810

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Patentee before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200623

Termination date: 20200827