CN117725154A - 查询词引申方法、查询方法及相关产品 - Google Patents
查询词引申方法、查询方法及相关产品 Download PDFInfo
- Publication number
- CN117725154A CN117725154A CN202311265097.4A CN202311265097A CN117725154A CN 117725154 A CN117725154 A CN 117725154A CN 202311265097 A CN202311265097 A CN 202311265097A CN 117725154 A CN117725154 A CN 117725154A
- Authority
- CN
- China
- Prior art keywords
- query
- word
- target
- extension
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 122
- 238000012216 screening Methods 0.000 claims abstract description 29
- 230000000875 corresponding effect Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 16
- 230000002596 correlated effect Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 description 10
- 239000000843 powder Substances 0.000 description 8
- 239000007787 solid Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种查询词引申方法、查询方法及相关产品。该查询方法包括:获取目标查询词和历史查询记录;从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
Description
技术领域
本申请涉及查询技术领域,尤其涉及一种查询词引申方法、查询方法及相关产品。
背景技术
在使用查询词进行查询时,若查询词的查询意图不明确,基于查询词获得的查询结果与查询词的匹配度低,通过对查询词进行引申,并基于引申得到的结果获得查询结果,从而提高获得的查询结果与查询词的匹配度。因此如何对查询词进行引申具有非常重要的意义。
发明内容
本申请提供一种查询词引申方法、查询方法及相关产品,以通过对查询词进行引申。
第一方面,提供了一种查询词引申方法,所述方法包括:
获取目标查询词和历史查询记录;
从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;
从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
结合本申请任一实施方式,所述从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词,包括:
从所述历史查询记录中,确定所述目标查询词的扩展查询词,所述扩展查询词与所述目标查询词为同一次查询中的查询词,且所述扩展查询词包括所述目标查询词和与所述目标查询词不同的扩展词;
确定所述扩展查询词与所述目标查询词共同出现在同一次查询中的共现次数;
确定所述目标查询词在查询过程中被扩展的扩展次数;
在所述共现次数与所述扩展次数的比值大于或等于第一阈值的情况下,确定所述扩展查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词,包括:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果;
从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词;
确定所述第一候选查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果,包括:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果集;
确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度;
从与所述第一相关度中最大的n个对应的查询结果中确定所述第一候选查询结果。
结合本申请任一实施方式,所述确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度,包括:
确定所述第一候选查询结果集中的查询结果被作为所述目标查询词的查询结果的第一曝光量;
确定以所述目标查询词为依据进行查询的第一查询量;
针对所述第一候选查询结果集中的各个查询结果,基于所述第一曝光量和所述第一查询量确定所述第一相关度。
结合本申请任一实施方式,所述从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词,包括:
从所述历史查询记录中确定与所述第一候选查询结果相关的候选查询词集;
确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度;
从与所述重要度中最大的m个对应的查询词中确定所述第一候选查询词。
结合本申请任一实施方式,所述确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度,包括:
确定所述第一候选查询结果被作为所述候选查询词集中的查询词的查询结果的第二曝光量;
确定以所述候选查询词集中的查询词为依据进行查询的第二查询量;
针对所述候选查询词集中的各个查询词,基于所述第二曝光量和所述第二查询量确定所述重要度。
结合本申请任一实施方式,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
确定所述引申词与目标查询词的第二相关度;
在所述第二相关度大于或等于第二阈值的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
在所述引申词的数量大于1的情况下,以所述引申词的语义为依据对所述引申词进行分类,得到候选类别;
确定所述候选类别中相似度大于或等于第三阈值的两个所述引申词为重复引申词;
对所述候选类别中的所述重复引申词进行去重,得到引申词类别;
将所述引申词类别中的引申词作为所述意图锚点词。
结合本申请任一实施方式,在将所述引申词类别中的引申词作为所述意图锚点词之后,所述方法还包括:
确定所述引申词类别中的所述引申词与所述目标查询词的目标相似度;
基于所述目标相似度,确定所述引申词类别内的所述意图锚点词的第一权重,所述第一权重与所述目标相似度呈正相关。
结合本申请任一实施方式,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
获取所述引申词的查询点击率,所述查询点击率表征在以所述引申词为依据进行查询获得引申查询结果的情况下,所述引申查询结果被点击的概率;
获取以所述引申词为依据进行查询获得的历史召回量;
在基于所述查询点击率和所述历史召回量,确定所述引申词为可获得期望的查询结果的查询词的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述方法还包括:
获取与所述意图锚点词相关的第二候选查询结果集;
基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果。
结合本申请任一实施方式,所述第二候选查询结果集中的查询结果为第二候选查询结果,所述意图锚点词为与所述第二候选查询结果的重要度最大的m个第二候选查询词中的一个。
结合本申请任一实施方式,在基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果之后,所述方法还包括:
确定所述意图锚点词与所述意图查询结果的第三相关度;
基于所述第三相关度,确定所述意图查询结果的第二权重,所述第二权重与所述第三相关度呈正相关。
第二方面,提供了一种查询方法,所述方法包括:
获取针对所述目标查询词的查询请求;
在确定所述目标查询词为查询意图不明确的查询词的情况下,基于第一方面及其任一实施方式获得所述目标查询词的意图锚点词;
将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果。
结合本申请任一实施方式,在确定所述目标查询词为查询意图不明确的查询词的情况下,基于第一方面及其任一实施方式获得所述目标查询词的意图锚点词之前,所述方法还包括:
获取所述目标查询词的查询信息,所述查询信息包括以下中的至少一个:所述目标查询词的目标类别属性、所述目标查询词的命名实体特征、所述目标查询词的特征、所述目标查询词的历史被选中率,所述命名实体特征通过对所述目标查询词进行命名实体识别得到;
基于所述查询信息确定所述目标查询词的查询意图不明确。
结合本申请任一实施方式,所述将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果,包括:
基于第一方面中的实施方式获得所述意图锚点词的意图查询结果,作为所述查询请求的目标查询结果。
结合本申请任一实施方式,所述方法还包括:
基于第一方面中的实施方式获得所述目标查询结果的第一权重;
基于所述第一权重确定所述目标查询结果的展示顺序。
结合本申请任一实施方式,所述方法还包括:
基于第一方面中的实施方式获得所述目标查询结果的第二权重;
基于所述第二权重确定所述目标查询结果的展示顺序。
第三方面,提供了一种查询词引申装置,所述装置包括:
获取单元,用于获取目标查询词和历史查询记录;
确定单元,用于从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;
筛选单元,用于从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
结合本申请任一实施方式,所述确定单元,用于:
从所述历史查询记录中,确定所述目标查询词的扩展查询词,所述扩展查询词与所述目标查询词为同一次查询中的查询词,且所述扩展查询词包括所述目标查询词和与所述目标查询词不同的扩展词;
确定所述扩展查询词与所述目标查询词共同出现在同一次查询中的共现次数;
确定所述目标查询词在查询过程中被扩展的扩展次数;
在所述共现次数与所述扩展次数的比值大于或等于第一阈值的情况下,确定所述扩展查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述确定单元,用于:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果;
从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词;
确定所述第一候选查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述确定单元,用于:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果集;
确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度;
从与所述第一相关度中最大的n个对应的查询结果中确定所述第一候选查询结果。
结合本申请任一实施方式,所述确定单元,用于:
确定所述第一候选查询结果集中的查询结果被作为所述目标查询词的查询结果的第一曝光量;
确定以所述目标查询词为依据进行查询的第一查询量;
针对所述第一候选查询结果集中的各个查询结果,基于所述第一曝光量和所述第一查询量确定所述第一相关度。
结合本申请任一实施方式,所述确定单元,用于:
从所述历史查询记录中确定与所述第一候选查询结果相关的候选查询词集;
确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度;
从与所述重要度中最大的m个对应的查询词中确定所述第一候选查询词。
结合本申请任一实施方式,所述确定单元,用于:
确定所述第一候选查询结果被作为所述候选查询词集中的查询词的查询结果的第二曝光量;
确定以所述候选查询词集中的查询词为依据进行查询的第二查询量;
针对所述候选查询词集中的各个查询词,基于所述第二曝光量和所述第二查询量确定所述重要度。
结合本申请任一实施方式,所述确定单元,用于:
确定所述引申词与目标查询词的第二相关度;
在所述第二相关度大于或等于第二阈值的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元,用于:
在所述引申词的数量大于1的情况下,以所述引申词的语义为依据对所述引申词进行分类,得到候选类别;
确定所述候选类别中相似度大于或等于第三阈值的两个所述引申词为重复引申词;
对所述候选类别中的所述重复引申词进行去重,得到引申词类别;
将所述引申词类别中的引申词作为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元,还用于:
确定所述引申词类别中的所述引申词与所述目标查询词的目标相似度;
基于所述目标相似度,确定所述引申词类别内的所述意图锚点词的第一权重,所述第一权重与所述目标相似度呈正相关。
结合本申请任一实施方式,所述筛选单元,用于:
获取所述引申词的查询点击率,所述查询点击率表征在以所述引申词为依据进行查询获得引申查询结果的情况下,所述引申查询结果被点击的概率;
获取以所述引申词为依据进行查询获得的历史召回量;
在基于所述查询点击率和所述历史召回量,确定所述引申词为可获得期望的查询结果的查询词的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元,还用于:
获取与所述意图锚点词相关的第二候选查询结果集;
基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果。
结合本申请任一实施方式,所述第二候选查询结果集中的查询结果为第二候选查询结果,所述意图锚点词为与所述第二候选查询结果的重要度最大的m个第二候选查询词中的一个。
结合本申请任一实施方式,所述筛选单元,还用于:
确定所述意图锚点词与所述意图查询结果的第三相关度;
基于所述第三相关度,确定所述意图查询结果的第二权重,所述第二权重与所述第三相关度呈正相关。
第四方面,提供了一种查询装置,所述装置包括:
获取单元,用于获取针对所述目标查询词的查询请求;
获得单元,用于在确定所述目标查询词为查询意图不明确的查询词的情况下,基于第一方面及其任一实施方式获得所述目标查询词的意图锚点词;
查询单元,用于将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果。
结合本申请任一实施方式,所述获取单元,还用于获取所述目标查询词的查询信息,所述查询信息包括以下中的至少一个:所述目标查询词的目标类别属性、所述目标查询词的命名实体特征、所述目标查询词的特征、所述目标查询词的历史被选中率,所述命名实体特征通过对所述目标查询词进行命名实体识别得到;
所述装置还包括:确定单元,用于基于所述查询信息确定所述目标查询词的查询意图不明确。
结合本申请任一实施方式,所述查询单元,用于:
基于第一方面中的实施方式获得所述意图锚点词的意图查询结果,作为所述查询请求的目标查询结果。
结合本申请任一实施方式,所述装置还包括排序单元,用于:
基于第一方面中的实施方式获得所述目标查询结果的第一权重;
基于所述第一权重确定所述目标查询结果的展示顺序。
结合本申请任一实施方式,所述装置还包括排序单元,用于:
基于第一方面中的实施方式获得所述目标查询结果的第二权重;
基于所述第二权重确定所述目标查询结果的展示顺序。
第五方面,提供了一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任一实施方式。
第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任一实施方式;在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如上述第二方面及其任一实施方式。
第七方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令;
在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任一实施方式;在所述程序指令被处理器执行的情况下,或者使所述处理器或者执行如上述第二方面及其任一实施方式。
第八方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令;在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一实施方式;在所述程序指令被处理器执行的情况下,或者使所述处理器执行如上述第二方面及其任一实施方式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
本申请中,查询词引申装置基于历史查询记录,可确定查询意图与目标查询词的查询意图匹配的查询词,进而可将该查询词作为目标查询词的引申词,然后从引申词中可筛选出目标查询词的锚点词,得到意图锚点词。由于意图锚点词的查询意图与目标查询词的查询意图相同,可将以意图锚点词为依据查询获得的查询结果作为目标查询词的查询结果,因此通过本申请实施例得到意图锚点词,可实现对目标查询词的引申。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种查询词引申方法的流程示意图;
图2为本申请实施例提供的一种查询方法的流程示意图;
图3为本申请实施例提供的一种查询意图引申方法的流程示意图;
图4为本申请实施例提供的另一种查询意图引申方法的流程示意图;
图5为本申请实施例提供的一种查询词引申装置的结构示意图;
图6为本申请实施例提供的一种查询装置的结构示意图;
图7为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例的执行主体为查询词引申装置,其中,查询词引申装置可以是任意一种可执行本申请方法实施例所公开的技术方案的电子设备。可选的,查询词引申装置可以是以下中的一种:计算机、服务器。
应理解,本申请方法实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图1,图1是本申请实施例提供的一种查询词引申方法的流程示意图。
101、获取目标查询词和历史查询记录。
本申请实施例中,目标查询词为任意查询依据,例如,目标查询词为美食,那么说明基于目标查询词期望查询的信息与美食相关。在一种获取目标查询词的实现方式中,查询词引申装置接收用户通过输入组件输入的目标查询词获取目标查询词,其中,输入组件包括:键盘、鼠标、触控屏、触控板、音频输入器。
在另一种获取目标查询词的实现方式中,查询词引申装置接收终端发送的目标查询词获取目标查询词,其中,终端包括:手机、计算机、平板电脑、服务器。
本申请实施例中,历史查询记录为已经存在的查询记录,其中,查询记录包括以哪个查询词进行查询获得哪些查询结果。应理解,历史查询记录为已公开的记录,即任何人均可获得。
在一种获取历史查询记录的实现方式中,查询词引申装置接收用户通过输入组件输入的历史查询记录获取历史查询记录。
在另一种获取历史查询记录的实现方式中,查询词引申装置接收终端发送的历史查询记录获取历史查询记录。
应理解,本申请实施例中,查询词引申装置获取目标查询词的步骤、获取历史查询记录模型的步骤,可以分开执行,也可以同时执行,本申请对此不做限定。
102、从上述历史查询记录中,确定查询意图与上述目标查询词的查询意图匹配的查询词,作为上述目标查询词的引申词。
本申请实施例中,查询词的查询意图包括以查询词为依据进行查询的查询需求。例如,若查询词为篮球,那么该查询词的查询意图为与篮球相关的内容。
查询词引申装置可从历史查询记录中,确定与目标查询词相关的查询记录,进而可基于该查询记录确定目标查询词的查询意图。同理,查询词引申装置可基于历史查询记录,确定历史查询记录中任意一个查询词的查询意图。由此,查询词引申装置可从历史查询记录中,确定查询意图与目标查询词的查询意图匹配的查询词,作为目标查询词的引申词。
103、从上述引申词中筛选出上述目标查询词的意图锚点词。
本申请实施例中,意图锚点词为目标查询词的锚点词。以意图锚点词为依据查询获得的查询结果可作为目标查询词的查询结果,换句话说,意图锚点词可用于扩展以目标查询词进行查询的召回量。而且由于意图锚点词是从引申词中筛选得到的,意图锚点词的查询意图与目标查询词的查询意图也是匹配的。应理解,引申词的数量为一个或一个以上,因此可从引申词中筛选出意图锚点词,而且意图锚点词的数量也为一个或一个以上。
在一种可能实现的方式中,查询词引申装置从引申词中确定与目标查询词相关度最高的t个作为意图锚点词,其中,t为正整数。在另一种可能实现的方式中,查询词引申装置从引申词中确定与目标查询词相似度最高的s个作为意图锚点词,其中,s为正整数。
本申请实施例中,查询词引申装置基于历史查询记录,可确定查询意图与目标查询词的查询意图匹配的查询词,进而可将该查询词作为目标查询词的引申词,然后从引申词中可筛选出目标查询词的意图锚点词,由此可实现对目标查询词的引申。由于意图锚点词的查询意图与目标查询词的查询意图相同,在将以意图锚点词为依据查询获得的查询结果作为目标查询词的查询结果的情况下,提升目标查询词的查询结果与目标查询词的匹配度。换句话说,基于本申请实施例确定目标查询词的意图锚点词,可提升意图锚点词的准确度。
作为一种可选的实施方式,查询词引申装置在执行步骤102的过程中执行以下步骤:
2001、从上述历史查询记录中,确定上述目标查询词的扩展查询词。
本申请实施例中,扩展查询词与目标查询词为同一次查询中的查询词,即目标查询词与扩展查询词为同一个查询过程中的查询词。在一种可能实现的方式中,同一次查询包括至少两个查询词,而且查询时间相邻的两个查询词的查询时间间隔小于或等于时间阈值,即同一次查询中的相邻两个查询词的查询时间间隔较短,其中,查询词的查询时间至以查询词为依据进行查询的时间。
本申请实施例中,扩展查询词包括目标查询词和与目标查询词不同的扩展词,即扩展查询词既包括目标查询词,还包括与目标查询词不同的扩展词。例如,目标查询词为口红,扩展词为平价,那么扩展查询词为平价口红。
由于历史查询记录包括查询词的查询时间,故查询词引申装置可从历史查询记录中确定目标查询词的扩展查询词。应理解,扩展查询词的数量为一个或一个以上,而且在扩展查询词的数量超过1的情况下,不同的扩展查询词可以分属于不同次查询,例如,目标查询词为口红,第一次查询包括口红和平价口红,即第一次查询中的目标查询词的扩展查询词为平价口红,第二次查询包括口红和固体口红,即第二次查询中的目标查询词的扩展查询词为固体口红。也就是说,目标查询词的扩展查询词包括平价口红和固体口红,但平价口红为第一次查询中的查询词,固体口红为第二次查询中的查询词。
而且同一扩展查询词可以出现在不同次查询中,例如,目标查询词为口红,第一次查询包括口红和平价口红,即第一次查询中的目标查询词的扩展查询词为平价口红,第二次查询也包括口红和平价口红,即第二次查询中的目标查询词的扩展查询词也为平价口红。也就是说,目标查询词的扩展查询词包括平价口红,而且第一次查询和第二次查询均出现了平价口红。
2002、确定上述扩展查询词与上述目标查询词共同出现在同一次查询中的共现次数。
本申请实施例中,共现次数为扩展查询词与目标查询词共同出现在多少次查询中。例如,目标查询词为口红,第一次查询包括口红、平价口红和固体口红,即第一次查询中的目标查询词的扩展查询词为平价口红,第二次查询包括口红和平价口红,即第二次查询中的目标查询词的扩展查询词也为平价口红。也就是说,对于固体口红这个扩展查询词而言,与目标查询词共同出现在一次查询中(即第一次查询),因此,固体口红与口红的共现次数为1。对于平价口红这个扩展查询词而言,与目标查询词共同出现在两次查询中(即第一次查询和第二次查询),因此,固体口红与口红的共现次数为2。
2003、确定上述目标查询词在查询过程中被扩展的扩展次数。
本申请实施例中,扩展次数为目标查询词在多少次查询中具有扩展查询词,换句话说,扩展次数为包括目标查询词和目标查询词的扩展查询词的查询次数。例如,目标查询词为口红,第一次查询包括口红和平价口红,即第一次查询不包括口红的扩展查询词,第二次查询包括口红和散粉,即第二次查询不包括口红的扩展查询词。因此,目标查询词的扩展次数为1。可选的,查询词引申装置可基于历史查询记录确定目标查询词在查询过程中被扩展的扩展次数。
2004、在上述共现次数与上述扩展次数的比值大于或等于第一阈值的情况下,确定上述扩展查询词为上述目标查询词的引申词。
本申请实施例中,扩展查询词的共现次数与目标查询词的扩展次数中的比值,可表征将目标查询词的查询意图转换为扩展查询词的查询意图的概率,具体而言,扩展查询词的共现次数与目标查询词的扩展次数中的比值越大,说明该扩展查询词的查询意图与目标查询词的查询意图的匹配度越高。因此,查询词引申装置可在扩展查询词的共现次数与扩展次数的比值大的情况下,确定扩展查询词为目标查询词的引申词。
本申请实施例中,查询词引申装置以第一阈值为依据,确定扩展查询词的共现次数与扩展次数的比值是大还是小,具体的,在扩展查询词的共现次数与目标查询词的扩展次数的比值大于或等于第一阈值的情况下,确定该比值大,进而确定该扩展查询词为目标查询词的引申词。可选的,在扩展查询词的共现次数与目标查询词的扩展次数的比值小于第一阈值的情况下,确定该比值小,进而确定该扩展查询词不是目标查询词的引申词。
在该种实施方式中,查询词引申装置在基于历史查询记录,确定目标查询词的扩展查询词后,确定扩展查询词与目标查询词共同出现在同一次查询中的共现次数。然后在确定目标查询词在查询过程中被扩展的扩展次数后,可基于扩展查询词的共现次数与目标查询词的扩展次数中的比值,确定将目标查询词的查询意图转换为扩展查询词的查询意图的概率,进而可在扩展查询词的共现次数与目标查询词的扩展次数中的比值大于或等于第一阈值的情况下,确定将目标查询词的查询意图转换为扩展查询词的查询意图的概率大,进而可确定扩展查询词为目标查询词的引申词。
作为一种可选的实施方式,查询词引申装置也可在执行步骤102的过程中执行以下步骤:
3001、从上述历史查询记录中确定与上述目标查询词相关的第一候选查询结果。
在一种可能实现的方式中,查询词引申装置从历史查询记录中确定与目标查询词相关的第一候选查询结果集,其中,第一候选查询结果集可以是以目标查询词为依据查询得到的查询结果的集合。确定第一候选查询结果集中的查询结果与目标查询词的第一相关度,从与第一相关度中最大的n个对应的查询结果中确定第一候选查询结果,其中,n为正整数,应理解,第一候选查询结果集中的每个查询结果与目标查询词之间均存在一个第一相关度,即第一相关度与第一候选查询结果集中的查询结果一一对应。例如,第一候选查询结果集包括查询结果a、查询结果b和查询结果c,其中,查询结果a与目标查询词的第一相关度比查询结果b与目标查询词的第一相关度大,查询结果b与目标查询词的第一相关度比查询结果c与目标查询词的第一相关度大。若n为2,那么与第一相关度中最大的n个对应的查询结果为查询结果a和查询结果b,此时第一候选查询结果为查询结果a、查询结果b中的一个。
在一种确定第一相关度的实现方式中,查询词引申装置确定第一候选查询结果集中的查询结果被作为目标查询词的查询结果的第一曝光量,确定以目标查询词为依据进行查询的第一查询量。例如,以目标查询词为依据共进行了100次查询,那么第一查询量为100。若第一候选查询结果集包括查询结果a,且该100次查询中共有80次查询的查询结果包括查询结果a,那么查询结果a的第一曝光量为80。
最后,针对第一候选查询结果集中的各个查询结果,可基于第一曝光量和第一查询量确定第一相关度。可选的,查询词引申装置通过对第一曝光量和第一查询量进行加权求和得到第一相关度,例如,第一查询量的权重为2,第一曝光量的权重为1,第一查询量为100,第一候选查询结果集中的查询结果a的第一曝光量为80,那么查询结果a与目标查询词的第一相关度为100×2+80×1=280。
可选的,查询词引申装置确定第一曝光量与第一查询量的比值作为第一相关度,例如,第一查询量为100,第一候选查询结果集中的查询结果a的第一曝光量为80,那么查询结果a与目标查询词的第一相关度为80/100=0.8。
可选的,查询词引申装置基于第一查询量与第一曝光量的差值确定第一相关度,其中,第一相关度与该差值呈负相关。
3002、从上述历史查询记录中确定与上述第一候选查询结果相关的第一候选查询词。
在一种可能实现的方式中,查询词引申装置从历史查询记录中确定与第一候选查询结果相关的候选查询词集,其中,以候选查询词集中的查询词为依据均可查询得到第一候选查询结果。确定候选查询词集中的查询词与第一候选查询结果的重要度,从与重要度中最大的m个对应的查询词中确定第一候选查询词,其中,m为正整数,应理解,候选查询词集中的每个查询词与第一候选查询结果之间均存在一个重要度,即重要度与候选查询词集中的查询词一一对应。例如,候选查询词集包括查询词a、查询词b和查询词c,其中,查询词a与第一候选查询词的重要度比查询词b与第一候选查询结果的重要度大,查询词b与第一候选查询结果的重要度比查询词c与第一候选查询结果的重要度大。若m为2,那么与重要度中最大的m个对应的查询词为查询词a和查询词b,此时第一候选查询词为查询词a、查询词b中的一个。
在一种确定重要度的实现方式中,查询词引申装置确定第一候选查询结果被作为候选查询词集中的查询词的查询结果的第二曝光量,确定以候选查询词集中的查询词为依据进行查询的第二查询量。例如,候选查询词集包括查询词a,以查询词a为依据共进行了100次查询,那么查询词a的第二查询量为100。若在查询词a的100次查询中共有80次查询的查询结果包括第一候选查询结果,那么查询词a的第二曝光量为80。
最后,针对候选查询词集中的各个查询词,可基于第二曝光量和第二查询量确定该查询词与第一候选查询结果的重要度。可选的,查询词引申装置通过对第二曝光量和第二查询量进行加权求和得到重要度,例如,第二查询量的权重为2,第二曝光量的权重为1,候选查询词集中的查询词a的第二查询量为100,查询词a的第二曝光量为80,那么查询词a与第一候选查询结果的重要度为2×10+80×1=280。
可选的,查询词引申装置确定第二曝光量与第二查询量的比值作为重要度,例如,候选查询词集中的查询词a的第二查询量为100,查询词a的第二曝光量为80,那么查询词a与第一候选查询结果的重要度为80/100=0.8。
可选的,查询词引申装置基于第二查询量与第二曝光量的差值确定重要度,其中,重要度与该差值呈负相关。
3003、确定上述第一候选查询词为上述目标查询词的引申词。
在该种实施方式中,查询词引申装置通过从历史查询记录中确定与目标查询词相关的第一候选查询结果,并从历史查询记录中确定与第一候选查询结果相关的第一候选查询词。由于目标查询词与第一候选查询结果相关,第一候选查询结果与第一候选查询词相关,故可以第一候选查询结果为桥梁,实现对目标查询词与第一候选查询词的桥接,从而可确定第一候选查询词为目标查询词的引申词。
应理解,步骤2001至步骤2004、步骤3001至步骤3003为确定目标查询词的引申词的两种不同的实施方式,在实际应用中,可采用任意一种实施方式确定目标查询词的引申词。
作为一种可选的实施方式,查询词引申装置在执行步骤103的过程中执行以下步骤:
4001、确定上述引申词与目标查询词的第二相关度。
在一种可能实现的方式中,查询词引申装置通过执行步骤2001至步骤2004确定目标查询词的引申词,此时引申词与目标查询词共同出现在同一次查询中的共现次数越大,说明该引申词与目标查询词的相关度越高,因此,查询词引申装置可以引申词的共现次数为依据,确定引申词与目标查询词的第二相关度,具体的,共现次数与第二相关度呈正相关。
在另一种可能实现的方式中,查询词引申装置通过执行步骤3001至步骤3003确定目标查询词的引申词,此时与引申词对应的第一相关度越大,说明该引申词与目标查询词的相关度越高。与引申词对应的第一相关度可参见下例:例如,第一候选查询结果集包括查询结果a和查询结果b,其中,查询结果a与目标查询词的第一相关度为相关度c,查询结果b与目标查询词的第一相关度为相关度d。在引申词是与查询结果a相关的第一候选查询词的情况下,与引申词对应的第一相关度为相关度c,在引申词是与查询结果b相关的第一候选查询词的情况下,与引申词对应的第一相关度为相关度d。
此外,与引申词对应的重要度越大,也说明该引申词与目标查询词的相关度越高。因此,查询词引申装置可以以下中的至少一个为依据确定引申词与目标查询词的第二相关度:与引申词对应的第一相关度、与引申词对应的重要度。
在又一种可能实现的方式中,查询词引申装置以以下中的至少一个为依据确定引申词与目标查询词的第二相关度:目标查询词的类别属性与引申词的类别属性的差异、目标查询词的命名实体与引申词的命名实体的差异。具体而言,目标查询词的类别属性与引申词的类别属性的差异越大,说明引申词的语义与目标查询词的语义的匹配度越低,例如,引申词为炒菜,引申词的类别属性为美食,目标查询词为篮球,目标查询词的类别属性为运动,此时引申词的类别属性与目标查询词的类别属性的差异大。目标查询词的命名实体与引申词的命名实体的差异越大,也说明引申词的语义与目标查询词的语义的匹配度越低,其中,命名实体为命名实体识别(Named Entity Recognition,NER)的识别结果。
在又一种可能实现的方式中,查询词引申装置以以下中的至少一个为依据确定引申词与目标查询词的第二相关度:目标查询词与引申词的字符交集长度、目标查询词与引申词的最长公共子串长度、目标查询词与引申词的编辑距离。具体而言,目标查询词与引申词的字符交集长度越长,说明引申词的语义与目标查询词的语义的匹配度越高,其中,目标查询词与引申词的字符交集长度,指目标查询词与引申词的交集字符的长度,例如,目标查询词为观看一场篮球赛,引申词为参加一场篮球赛,目标查询词与引申词的交集字符为一场篮球赛,该交集字符的长度为5,即目标查询词与引申词的字符交集长度为5。目标查询词与引申词的最长公共子串长度越长,说明引申词的语义与目标查询词的语义的匹配度越高。目标查询词与引申词的编辑距离越大,说明引申词的语义与目标查询词的语义的匹配度越低。
应理解,在实际应用中,后两种确定第二相关度的实现方式可与前两种确定第二相关度的实现方式中的任意一种任意结合。具体的,在查询词引申装置通过执行步骤2001至步骤2004确定目标查询词的引申词的情况下,查询词引申装置可以共现次数以及目标查询词的类别属性与引申词的类别属性的差异、目标查询词的命名实体与引申词的命名实体的差异中的至少一个为依据,确定引申词与目标查询词的第二相关度。查询词引申装置也可以共现次数以及目标查询词与引申词的字符交集长度、目标查询词与引申词的最长公共子串长度、目标查询词与引申词的编辑距离中的至少一个为依据,确定引申词与目标查询词的第二相关度。查询词引申装置还可以共现次数以及目标查询词的类别属性与引申词的类别属性的差异、目标查询词的命名实体与引申词的命名实体的差异中的至少一个,以及目标查询词与引申词的字符交集长度、目标查询词与引申词的最长公共子串长度、目标查询词与引申词的编辑距离中的至少一个为依据,确定引申词与目标查询词的第二相关度。
在查询词引申装置通过执行步骤3001至步骤3003确定目标查询词的引申词的情况下,查询词引申装置可以与引申词对应的第一相关度、与引申词对应的重要度中的至少一个,以及目标查询词的类别属性与引申词的类别属性的差异、目标查询词的命名实体与引申词的命名实体的差异中的至少一个为依据,确定引申词与目标查询词的第二相关度。查询词引申装置也可以与引申词对应的第一相关度、与引申词对应的重要度中的至少一个,以及目标查询词与引申词的字符交集长度、目标查询词与引申词的最长公共子串长度、目标查询词与引申词的编辑距离中的至少一个为依据,确定引申词与目标查询词的第二相关度。查询词引申装置还可以与引申词对应的第一相关度、与引申词对应的重要度中的至少一个,以及目标查询词的类别属性与引申词的类别属性的差异、目标查询词的命名实体与引申词的命名实体的差异中的至少一个,以及目标查询词与引申词的字符交集长度、目标查询词与引申词的最长公共子串长度、目标查询词与引申词的编辑距离中的至少一个为依据,确定引申词与目标查询词的第二相关度。
4002、在上述第二相关度大于或等于第二阈值的情况下,确定上述引申词为上述意图锚点词。
第二相关度大于或等于第二阈值,说明引申词与目标查询词的相关度大,进而可确定引申词为意图锚点词。
在该种实施方式中,查询词引申装置在确定引申词与目标查询词的第二相关度后,以第二相关度为依据,从引申中筛选出与目标查询词的相关度高的意图锚点词,进而可提高意图锚点词的语义与目标查询词的语义的匹配度。
作为一种可选的实施方式,查询词引申装置在执行步骤103的过程中执行以下步骤:
5001、在上述引申词的数量大于1的情况下,以上述引申词的语义为依据对上述引申词进行分类,得到候选类别。
在一种可能实现的方式中,查询词引申装置基于引申词的意图分类、类别属性、命名实体中的至少一个信息,构建引申词的向量表达,并通过该向量表达表征引申词的语义,其中,意图分类包括查询意图明确或查询意图不明确。此时,查询词引申装置以引申词的向量表达为依据,对引申词进行分类得到候选类别,可选的,查询词引申装置通过对引申词的向量表达进行聚类,得到候选类别。
应理解,候选类别的数量为一个或一个以上,且每个候选类别均包括一个或一个以上的引申词。
5002、确定上述候选类别中相似度大于或等于第三阈值的两个上述引申词为重复引申词。
两个引申词的相似度大于或等于第三阈值,说明这两个引申词的相似度大,即这两个引申词所表达的语义相同的概率大,因此,可确定这两个引申词为重复引申词。在一种可能实现的方式中,在查询词引申装置以引申词的向量表达为依据,对引申词进行分类得到候选类别的情况下,引申词之间的相似度即为引申词的向量表达之间的相似度。应理解,重复引申词仅存在于同一个候选类别中。
5003、对上述候选类别中的上述重复引申词进行去重,得到引申词类别。
通过对候选类别中的重复引申词进行去重可去除语义相似的引申词。可选的,查询词引申装置通过去除重复引申词中的任意一个,实现对重复引申词的去重。
5004、将上述引申词类别中的引申词作为上述意图锚点词。
在该种实施方式中,查询词引申装置在引申词的数量大于1的情况下,首先以引申词的语义为依据对引申词进行分类,得到候选类别,然后确定各个候选类别中相似度大于或等于第三阈值的两个引申词为重复引申词。最后通过对候选类别中的重复引申词进行去重去除语义相似的引申词,得到引申词类别,并将引申词类别中的引申词作为意图锚点词。这样减少引申词的冗余度,并保证引申词的语义的多样性。
作为一种可选的实施方式,查询词引申装置在得到引申词类别之后,还执行以下步骤:确定引申词类别中的引申词与目标查询词的目标相似度,基于目标相似度,确定引申词类别内的意图锚点词的第一权重,第一权重与目标相似度呈正相关。意图锚点词的第一权重越大,说明该意图锚点词的置信度越高。可选的,查询词引申装置计算引申词类别中的引申词与目标查询词的相似度的平均值作为目标相似度。
作为一种可选的实施方式,查询词引申装置在执行步骤103的过程中执行以下步骤:
6001、获取上述引申词的查询点击率。
本申请实施例中,查询点击率表征在以引申词为依据进行查询获得引申查询结果的情况下,引申查询结果被点击的概率,其中,引申查询结果被点击即说明引申查询结果被选中,例如,在通过电子设备展示引申查询结果的情况下,用户可通过向该电子设备输入语音控制指令,选择查看引申查询结果,此时引申查询结果已被点击,又例如,在通过电子设备展示引申查询结果的情况下,用户可通过点击该电子设备的触摸屏点击引申查询结果,此时引申查询结果已被点击。
查询点击率可参见下例:例如,以引申词为依据共进行了100次查询,且每次查询获得的查询结果均称为引申查询结果。若在这100次查询的引申查询结果中,共有70次查询的引申查询结果被点击,那么引申词的查询点击率为70/100=0.7。可选的,查询词引申装置基于历史查询记录,可确定引申词的查询点击率。
6002、获取以上述引申词为依据进行查询获得的历史召回量。
本申请实施例中,历史召回量指以引申词为依据查询获得的查询结果的总数量。
6003、在基于上述查询点击率和上述历史召回量,确定上述引申词为可获得期望的查询结果的查询词的情况下,确定上述引申词为上述意图锚点词。
本申请实施例中,可获得期望的查询结果的查询词指,用户以该查询词为依据进行查询可获得期望的查询结果。引申词的查询点击率越高说明该引申词为可获得期望的查询结果的查询词的概率越高,历史召回量越大也说明该引申词为可获得期望的查询结果的查询词的概率越高,因此,查询词引申装置可基于查询点击率和历史召回量,确定引申词是否为可获得期望的查询结果的查询词。
在一种可能实现的方式中,查询词引申装置在查询点击率大于或等于第四阈值,且历史召回量大于或等于第五阈值的情况下,确定引申词为可获得期望的查询结果的查询词。
在另一种可能实现的方式中,查询词引申装置在查询点击率大于或等于第四阈值,或历史召回量大于或等于第五阈值的情况下,确定引申词为可获得期望的查询结果的查询词。
在又一种可能实现的方式中,查询词引申装置通过对查询点击率和历史召回量进行加权求和得到第一期望指标,在第一期望指标大于或等于第六阈值的情况下,确定引申词为可获得期望的查询结果的查询词。
引申词为可获得期望的查询结果的查询词,说明以引申词为依据进行查询获得的查询结果能满足用户的查询需求的概率高,换句话说,用户选中以引申词为依据进行查询获得的查询结果的概率高,因此,查询词引申装置在引申词为可获得期望的查询结果的查询词的情况下,确定引申词为意图锚点词。
在该种实施方式中,查询词引申装置在获取引申词的查询点击率和以引申词为依据进行查询获得的历史召回量后,在基于查询点击率和历史召回量,确定引申词为可获得期望的查询结果的查询词的情况下,确定引申词为意图锚点词,可提升以意图锚点词为依据进行查询获得的查询结果被选中的概率。
应理解,步骤4001至步骤4002、步骤5001至步骤5004、步骤6001至步骤6003为从引申词中筛选出意图锚点词的三种不同的实施方式,在实际应用中,可采用任意一种实施方式从引申词中筛选出意图锚点词。
可选的,通过对这三种实施方式进行组合,从引申词中筛选出意图锚点词。在一种可能实现的方式中,通过步骤4001至步骤4002、步骤5001至步骤5004的组合从引申词中筛选出意图锚点词。具体的,在确定引申词与目标查询词的第二相关度后,将第二相关度大于或等于第二阈值的引申词,作为第一备选锚点词,在第一备选锚点词的数量大于1的情况下,以第一备选锚点词的语义为依据对第一备选锚点词进行分类得到备选类别,确定备选类别中相似度大于或等于第三阈值的两个第一备选锚点词为重复锚点词,对备选类别中的重复锚点词进行去重,得到锚点词类别,将锚点词类别中的第一备选锚点词作为意图锚点词。
在另一种可能实现的方式中,通过步骤4001至步骤4002、步骤5001至步骤5004、步骤6001至步骤6003的组合从引申词中筛选出意图锚点词。具体的,在确定引申词与目标查询词的第二相关度后,将第二相关度大于或等于第二阈值的引申词,作为第一备选锚点词,在第一备选锚点词的数量大于1的情况下,以第一备选锚点词的语义为依据对第一备选锚点词进行分类得到备选类别,确定备选类别中相似度大于或等于第三阈值的两个第一备选锚点词为重复锚点词,对备选类别中的重复锚点词进行去重,得到锚点词类别,将锚点词类别中的第一备选锚点词作为第二备选锚点词。获取第二备选锚点词的查询点击率,获取以第二备选锚点词为依据进行查询获得的历史召回量,在基于第二备选锚点词的查询点击率和第二备选锚点词的历史召回量,确定第二备选锚点词为可获得期望的查询结果的查询词的情况下,确定第二备选锚点词为意图锚点词。
通过步骤4001至步骤4002、步骤6001至步骤6003的组合从引申词中筛选出意图锚点词的实现方式、通过步骤5001至步骤5004、步骤6001至步骤6003的组合从引申词中筛选出意图锚点词的实现方式,可参见上述两种组合的实现方式,本申请将不再赘述。
作为一种可选的实施方式,查询词引申装置在确定目标查询词的意图锚点词之后,还执行以下步骤:
7001、获取与上述意图锚点词相关的第二候选查询结果集。
可选的,查询词引申装置基于历史查询记录,确定以意图锚点词为依据查询得到的查询结果的集合,作为第二候选查询词集。
7002、基于上述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从上述第二候选查询结果集中确定期望的查询结果,作为上述意图锚点词的意图查询结果。
本申请实施例中,期望的查询结果为用户在以意图锚点词为依据进行查询时所期望获得的查询结果。第二候选查询结果集中的查询结果的历史阅读量,为第二候选查询结果集中的查询结果被阅读的总次数,应理解,在查询结果为视频、图像的情况下,查询结果被观看即为查询结果被阅读,在查询结果为音频的情况下,查询结果被播放即为查询结果被阅读。第二候选查询结果集中的查询结果的被选中量,为第二候选查询结果集中的查询结果被选中的总次数。第二候选查询结果集中的查询结果的历史阅读量越大,说明该查询结果为期望的查询结果的概率越高,第二候选查询结果集中的查询结果的被选中量越大,也说明该查询结果为期望的查询结果的概率越高,因此,查询词引申装置可基于第二候选查询结果集中的查询结果的历史阅读量、被选中量,确定第二候选查询结果集中的查询结果是否为期望的查询结果。
在一种可能实现的方式中,查询词引申装置在第二候选查询结果集中的查询结果的历史阅读量大于或等于第七阈值,且该查询结果的被选中量大于或等于第八阈值的情况下,确定该查询结果为期望的查询结果。
在另一种可能实现的方式中,查询词引申装置在第二候选查询结果集中的查询结果的历史阅读量大于或等于第七阈值,或该查询结果的被选中量大于或等于第八阈值的情况下,确定该查询结果为期望的查询结果。
在又一种可能实现的方式中,查询词引申装置通过对第二候选查询结果集中的查询结果的历史阅读量和该查询结果的被选中量进行加权求和得到第二期望指标,在第二期望指标大于或等于第九阈值的情况下,确定该查询结果为期望的查询结果。
第二候选查询结果集中的查询结果为期望的查询结果,说明在以意图锚点词为依据进行查询的情况下,将该期望的查询结果作为意图锚点词的查询结果,能满足用户的查询需求的概率高,换句话说,用户选中期望的查询结果的概率高,因此,查询词引申装置在第二候选查询结果集中的查询结果为期望的查询结果的情况下,确定该查询结果为意图锚点词的意图查询结果。
在该种实施方式中,查询词引申装置在获取与意图锚点词相关的第二候选查询结果集后,以第二候选查询结果集中的查询结果的历史阅读量、被选中量为依据,从第二候选查询结果集中筛选出意图锚点词的意图查询结果,从而提升意图锚点词的查询结果被选中的概率。
作为一种可选的实施方式,第二候选查询结果集中的查询结果为第二候选查询结果,意图锚点词为与第二候选查询结果的重要度最大的m个第二候选查询词中的一个。
该种实施方式中,第二候选查询结果与意图锚点词的重要度的含义可参见步骤3002中第一候选查询结果与候选查询词集中的查询词的重要度的含义。也就是说,对于任意一个第二候选查询结果,均有与之相关的参考候选查询词集,第二候选查询结果与参考候选查询词集中的任意一个查询词之间均存在重要度,而意图查询词为重要度最大的m个查询词中的一个。换句话说,通过该种实施方式可从参考候选查询词集中筛选出意图锚点词,这样,可提升意图查询词与第二候选查询结果的相关度。
作为一种可选的实施方式,查询词引申装置在执行步骤7002之后,还执行以下步骤:
8001、确定上述意图锚点词与上述意图查询结果的第三相关度。
在一种可能实现的方式中,查询词引申装置通过对与意图锚点词对应的重要度和与意图锚点词对应的第一相关度进行加权求和,得到第三相关度,其中,与意图锚点词对应的第一相关度的含义可参见步骤4001中与引申词对应的第一相关度的含义。
8002、基于上述第三相关度,确定上述意图查询结果的第二权重。
本申请实施例中,第二权重与第三相关度呈正相关。意图查询结果的第二权重越大,说明该意图查询结果的置信度越高。
基于通过前文所提供的查询词引申方法,本申请实施例还提供了一种查询方法。本申请实施例所提供的查询方法的执行主体为查询装置,其中,查询装置可以是任意一种可执行查询方法的实施例所公开的技术方案的电子设备。可选的,查询装置可以是以下中的一种:手机、计算机、服务器。
应理解,查询方法的实施例还可以通过处理器执行计算机程序代码的方式实现。下面结合本申请实施例中的附图对本申请实施例进行描述。请参阅图2,图2是本申请实施例提供的一种查询方法的流程示意图。
201、获取针对上述目标查询词的查询请求。
本申请实施例中,查询请求包括目标查询词,该目标查询词可视为查询依据,查询请求用于请求以目标查询词为依据进行查询。在一个可能实现的应用场景中,用户通过向查询装置输入目标查询词以及查询请求,以使查询装置以目标查询词为查询依据进行查询。
202、在确定上述目标查询词为查询意图不明确的查询词的情况下,基于查询词引申方法获得上述目标查询词的意图锚点词。
本申请实施例中,目标查询词的查询意图包括以目标查询词为依据进行查询的查询需求,而目标查询词的查询意图不明确,即以目标查询词为依据进行查询的查询需求不明确。
在一种确定目标查询词的查询意图的实现方式中,查询装置获取目标查询词的查询信息,查询信息包括以下中的至少一个:目标查询词的目标类别属性、目标查询词的命名实体特征、目标查询词的特征、目标查询词的历史被选中率。目标类别属性表征目标查询词所属的类目,例如,目标查询词为篮球,篮球所属的类目为运动,因此目标类别属性为运动。命名实体特征通过对目标查询词进行命名实体识别得到,即命名实体特征携带目标查询词的命名实体信息。目标查询词的特征携带目标查询词的语义信息,目标查询词的历史被选中率为在以目标查询词为依据进行查询获得查询结果的情况下,所获得的查询结果被选中的概率。
在目标类别属性表征明确的类目的情况下,说明目标查询词的查询意图具有单一目标性,进而说明目标查询词的查询意图明确。基于目标查询词的命名实体特征可确定目标查询词所包含的实体词的数量,而实体词的数量越多,说明目标查询词的语义表达越清晰,进而说明目标查询词的查询意图明确。目标查询词的特征所携带的信息量越丰富,也说明目标查询词的语义表达越清晰,进而说明目标查询词的查询意图明确。目标查询词的历史被选中率越高,也可说明目标查询词的查询意图明确。也就是说,目标查询词的目标类别属性、目标查询词的命名实体特征、目标查询词的特征、目标查询词的历史被选中率均可作为确定目标查询词的查询意图是否明确的依据。可选的,在目标查询词的查询信息包括:目标查询词的目标类别属性、目标查询词的命名实体特征、目标查询词的特征、目标查询词的历史被选中率的情况下,可基于目标查询词的目标类别属性、目标查询词的命名实体特征、目标查询词的特征和目标查询词的历史被选中率,确定目标查询词的查询意图是否明确。
例如,目标查询词为散粉,由于散粉的语义表达简单而且散粉所携带的信息量低,目标查询词的查询意图不明确。又例如,目标查询词为玫珂菲散粉怎么取粉,由于玫珂菲散粉怎么取粉包括品牌实体词,而且玫珂菲散粉怎么取粉的历史被选中率高、语义表达完整且清晰,并且玫珂菲散粉怎么取粉具有单一目标性,故目标查询词的查询意图明确。
在目标查询词的查询意图不明确的情况下,基于目标查询词进行查询获得的查询结果为用户期望的查询结果的概率低,因此可基于前文所述的查询词引申方法获得目标查询词的意图锚点词,然后基于意图锚点词进行查询获得查询结果,从而提升查询结果为用户期望的查询结果的概率。
203、将利用上述意图锚点词进行查询获得的查询结果作为上述查询请求的目标查询结果。
查询装置以意图锚点词为依据进行查询获得查询结果,并将该查询结果作为查询请求的目标查询结果,可提升目标查询结果为用户期望的查询结果的概率,应理解,该用户为输入查询请求的用户。
本申请实施例中,查询装置在获取针对目标查询词的查询请求后,在确定目标查询词为查询意图不明确的查询词的情况下,获得目标查询词的意图锚点词,然后将利用意图锚点词进行查询获得的查询结果作为查询请求的目标查询结果,可提升目标查询结果为用户期望的查询结果的概率,换句话说,可提升目标查询结果与用户的查询需求的匹配度。
作为一种可选的实施方式,查询装置通过执行以下步骤获得目标查询结果:基于前文所述的查询词引申方法获得意图锚点词的意图查询结果,作为查询请求的目标查询结果,这样可进一步提升目标查询结果为用户期望的查询结果的概率,换句话说,可进一步提升目标查询结果与用户的查询需求的匹配度,而且可减少以意图锚点词为依据进行查询的数据处理量,提升查询速度。
作为一种可选的实施方式,在将意图锚点词的意图查询结果作为查询请求的目标查询结果的情况下,查询装置还执行以下步骤:基于前文所述的查询词引申方法获得目标查询结果的第一权重,基于第一权重确定目标查询结果的展示顺序。具体的,目标查询结果的第一权重越大,目标查询结果的在展示顺序中的次序越靠前。
作为一种可选的实施方式,在将意图锚点词的意图查询结果作为查询请求的目标查询结果的情况下,查询装置还执行以下步骤:基于前文所述的查询词引申方法获得目标查询结果的第二权重,基于第二权重确定目标查询结果的展示顺序。具体的,目标查询结果的第二权重越大,目标查询结果的在展示顺序中的次序越靠前。
可选的,在将意图锚点词的意图查询结果作为查询请求的目标查询结果的情况下,查询装置还执行以下步骤:基于前文所述的查询词引申方法获得目标查询结果的第一权重和目标查询结果的第二权重,对第一权重和第二权重进行加权求和得到目标查询结果的第三权重,基于第三权重确定目标查询结果的展示顺序。具体的,目标查询结果的第三权重越大,目标查询结果的在展示顺序中的次序越靠前。
基于本申请实施例提供的查询词引申方法和查询方法,本申请实施还提供了一种查询意图引申方法,请参阅图3,图3所示为一种查询意图引申方法的流程示意图。应理解,图3所示的查询意图引申方法包括前文所述的查询词引申方法和查询方法,即查询词引申方法和查询方法可通过同一执行主体执行,也可通过不同的执行主体执行。
如图3所示,在步骤301中,通过意图引申探索模块确定历史查询记录中每个查询词的查询意图是否明确,具体实现过程可参见步骤202中确定目标查询词的查询意图是否明确的实现过程。若查询词的查询意图不明确,说明查询词的查询意图需要探索,若查询词的查询意图明确,说明查询词的查询意图不需要探索。
在步骤302中,针对需要探索查询意图的查询词,引申词挖掘模块确定该查询词的引申词,具体实现过程可参见步骤2001至步骤2004为确定目标查询词的引申词的实施方式,或可参见步骤3001至步骤3003为确定目标查询词的引申词的实施方式。
在步骤303中,笔记关联词生成模块针对历史查询记录中的每个笔记,分别确定关联词,应理解,笔记即为历史查询记录中的查询结果。具体实现过程可参见步骤7001至步骤7004为意图锚点词确定意图笔记的实施方式。具体的,对于历史查询记录中的任意一个笔记,均可确定与之相关的历史候选查询词集,再确定从历史候选查询词集中确定与该笔记的重要度最大的m个查询词,作为该笔记的关联词。笔记查询词关联模块还分别确定每个关联词的第二权重,具体实现过程可参见步骤8001至步骤8004为意图锚点词确定意图笔记的第二权重的实施方式。
在步骤304中,通过对引申词进行相关性排序、过滤得到意图锚点词,具体实现过程可参见步骤4001至步骤4002从引申词中筛选出意图锚点词的实施方式,或可参见步骤5001至步骤5004从引申词中筛选出意图锚点词的实施方式,或可参见步骤6001至步骤6003从引申词中筛选出意图锚点词的实施方式。
在步骤305中,意图笔记召回排序模块可在获取到针对目标查询词的查询请求后,将目标查询词的意图锚点词的意图笔记作为查询请求的目标查询结果,并可通过对目标查询结果进行排序确定目标查询结果的展示顺序,应理解,意图笔记即为前文所述的意图查询结果。具体实现过程可参见前文所述的查询方法。
为更清楚的理解查询意图引申方法,本申请实施例还提供了另一种查询意图引申方法的流程示意图。请参阅图4,图4所示为本申请实施例提供的另一种查询意图引申方法的流程示意图。
如图4所示,在获取目标查询词后,首先通过意图引申探索模块确定目标查询词的查询意图是否明确,在目标查询词的查询意图不明确的情况下,通过引申词挖掘模块确定目标查询词的引申词,然后通过引申词召回-相关性排序模块,对目标查询词的引申词进行召回。再对召回的引申词的相关性打分,并基于打分结果对引申词排序过滤得到意图锚点词,具体实现过程可参见步骤304的实施方式。
在确定意图锚点词后,意图笔记召回排序模块首先将意图锚点词与关联词匹配,确定与意图锚点词匹配的关联词,再通过笔记关联词生成模块确定该关联词的意图笔记,意图笔记召回排序模块再召回关联词的意图笔记,并通过对关联词的意图笔记进行排序确定意图笔记的展示顺序,然后按照展示顺序进行笔记展示。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图5,图5为本申请实施例提供的一种查询词引申装置的结构示意图,其中,查询词引申装置1包括:获取单元11、确定单元12、筛选单元13,具体的:
获取单元11,用于获取目标查询词和历史查询记录;
确定单元12,用于从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;
筛选单元13,用于从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
结合本申请任一实施方式,所述确定单元12,用于:
从所述历史查询记录中,确定所述目标查询词的扩展查询词,所述扩展查询词与所述目标查询词为同一次查询中的查询词,且所述扩展查询词包括所述目标查询词和与所述目标查询词不同的扩展词;
确定所述扩展查询词与所述目标查询词共同出现在同一次查询中的共现次数;
确定所述目标查询词在查询过程中被扩展的扩展次数;
在所述共现次数与所述扩展次数的比值大于或等于第一阈值的情况下,确定所述扩展查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述确定单元12,用于:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果;
从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词;
确定所述第一候选查询词为所述目标查询词的引申词。
结合本申请任一实施方式,所述确定单元12,用于:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果集;
确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度;
从与所述第一相关度中最大的n个对应的查询结果中确定所述第一候选查询结果。
结合本申请任一实施方式,所述确定单元12,用于:
确定所述第一候选查询结果集中的查询结果被作为所述目标查询词的查询结果的第一曝光量;
确定以所述目标查询词为依据进行查询的第一查询量;
针对所述第一候选查询结果集中的各个查询结果,基于所述第一曝光量和所述第一查询量确定所述第一相关度。
结合本申请任一实施方式,所述确定单元12,用于:
从所述历史查询记录中确定与所述第一候选查询结果相关的候选查询词集;
确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度;
从与所述重要度中最大的m个对应的查询词中确定所述第一候选查询词。
结合本申请任一实施方式,所述确定单元12,用于:
确定所述第一候选查询结果被作为所述候选查询词集中的查询词的查询结果的第二曝光量;
确定以所述候选查询词集中的查询词为依据进行查询的第二查询量;
针对所述候选查询词集中的各个查询词,基于所述第二曝光量和所述第二查询量确定所述重要度。
结合本申请任一实施方式,所述确定单元12,用于:
确定所述引申词与目标查询词的第二相关度;
在所述第二相关度大于或等于第二阈值的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元13,用于:
在所述引申词的数量大于1的情况下,以所述引申词的语义为依据对所述引申词进行分类,得到候选类别;
确定所述候选类别中相似度大于或等于第三阈值的两个所述引申词为重复引申词;
对所述候选类别中的所述重复引申词进行去重,得到引申词类别;
将所述引申词类别中的引申词作为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元13,还用于:
确定所述引申词类别中的所述引申词与所述目标查询词的目标相似度;
基于所述目标相似度,确定所述引申词类别内的所述意图锚点词的第一权重,所述第一权重与所述目标相似度呈正相关。
结合本申请任一实施方式,所述筛选单元13,用于:
获取所述引申词的查询点击率,所述查询点击率表征在以所述引申词为依据进行查询获得引申查询结果的情况下,所述引申查询结果被点击的概率;
获取以所述引申词为依据进行查询获得的历史召回量;
在基于所述查询点击率和所述历史召回量,确定所述引申词为可获得期望的查询结果的查询词的情况下,确定所述引申词为所述意图锚点词。
结合本申请任一实施方式,所述筛选单元13,还用于:
获取与所述意图锚点词相关的第二候选查询结果集;
基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果。
结合本申请任一实施方式,所述第二候选查询结果集中的查询结果为第二候选查询结果,所述意图锚点词为与所述第二候选查询结果的重要度最大的m个第二候选查询词中的一个。
结合本申请任一实施方式,所述筛选单元13,还用于:
确定所述意图锚点词与所述意图查询结果的第三相关度;
基于所述第三相关度,确定所述意图查询结果的第二权重,所述第二权重与所述第三相关度呈正相关。
本申请实施例中,查询词引申装置基于历史查询记录,可确定查询意图与目标查询词的查询意图匹配的查询词,进而可将该查询词作为目标查询词的引申词,然后从引申词中可筛选出目标查询词的意图锚点词,由此可实现对目标查询词的引申。由于意图锚点词的查询意图与目标查询词的查询意图相同,在将以意图锚点词为依据查询获得的查询结果作为目标查询词的查询结果的情况下,提升目标查询词的查询结果与目标查询词的匹配度。换句话说,基于本申请实施例确定目标查询词的意图锚点词,可提升意图锚点词的准确度。
请参阅图6,图6为本申请实施例提供的一种查询装置的结构示意图,其中,查询装置2包括:获取单元21、获得单元22、查询单元23,可选的,查询装置2还包括:确定单元24、排序单元25,具体的:
获取单元21,用于获取针对所述目标查询词的查询请求;
获得单元22,用于在确定所述目标查询词为查询意图不明确的查询词的情况下,基于第一方面及其任一实施方式获得所述目标查询词的意图锚点词;
查询单元23,用于将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果。
结合本申请任一实施方式,所述获取单元21,还用于获取所述目标查询词的查询信息,所述查询信息包括以下中的至少一个:所述目标查询词的目标类别属性、所述目标查询词的命名实体特征、所述目标查询词的特征、所述目标查询词的历史被选中率,所述命名实体特征通过对所述目标查询词进行命名实体识别得到;
所述装置2还包括:确定单元24,用于基于所述查询信息确定所述目标查询词的查询意图不明确。
结合本申请任一实施方式,所述查询单元23,用于:
基于第一方面中的实施方式获得所述意图锚点词的意图查询结果,作为所述查询请求的目标查询结果。
结合本申请任一实施方式,所述装置2还包括排序单元25,用于:
基于第一方面中的实施方式获得所述目标查询结果的第一权重;
基于所述第一权重确定所述目标查询结果的展示顺序。
结合本申请任一实施方式,所述装置2还包括排序单元25,用于:
基于第一方面中的实施方式获得所述目标查询结果的第二权重;
基于所述第二权重确定所述目标查询结果的展示顺序。
本申请实施例中,查询装置在获取针对目标查询词的查询请求后,在确定目标查询词为查询意图不明确的查询词的情况下,获得目标查询词的意图锚点词,然后将利用意图锚点词进行查询获得的查询结果作为查询请求的目标查询结果,可提升目标查询结果为用户期望的查询结果的概率,换句话说,可提升目标查询结果与用户的查询需求的匹配度。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
图7为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备3包括处理器31,存储器32。可选的,该电子设备3还包括输入装置33,输出装置34。该处理器31、存储器32、输入装置33和输出装置34通过连接器相耦合,该连接器包括各类接口、传输线或总线等等,本申请实施例对此不作限定。应当理解,本申请的各个实施例中,耦合是指通过特定方式的相互联系,包括直接相连或者通过其他设备间接相连,例如可以通过各类接口、传输线、总线等相连。
处理器31可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。可选的,处理器31可以是多个CPU构成的处理器组,多个处理器之间通过一个或多个总线彼此耦合。可选的,该处理器还可以为其他类型的处理器等等,本申请实施例不作限定。
存储器32可用于存储计算机程序指令,以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地,存储器包括但不限于是随机存储记忆体(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置33用于输入数据和/或信号,以及输出装置34用于输出数据和/或信号。输入装置33和输出装置34可以是独立的器件,也可以是一个整体的器件。
可理解,本申请实施例中,存储器32不仅可用于存储相关指令,还可用于存储相关数据,本申请实施例对于该存储器中具体所存储的数据不作限定。
可以理解的是,图7仅仅示出了一种电子设备的简化设计。在实际应用中,电子设备还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、存储器等,而所有可以实现本申请实施例的电子设备都在本申请的保护范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。所属领域的技术人员还可以清楚地了解到,本申请各个实施例描述各有侧重,为描述的方便和简洁,相同或类似的部分在不同实施例中可能没有赘述,因此,在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digitalversatiledisc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器(read-only memory,ROM)或随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可存储程序代码的介质。
Claims (24)
1.一种查询词引申方法,其特征在于,所述方法包括:
获取目标查询词和历史查询记录;
从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;
从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
2.根据权利要求1所述的方法,其特征在于,所述从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词,包括:
从所述历史查询记录中,确定所述目标查询词的扩展查询词,所述扩展查询词与所述目标查询词为同一次查询中的查询词,且所述扩展查询词包括所述目标查询词和与所述目标查询词不同的扩展词;
确定所述扩展查询词与所述目标查询词共同出现在同一次查询中的共现次数;
确定所述目标查询词在查询过程中被扩展的扩展次数;
在所述共现次数与所述扩展次数的比值大于或等于第一阈值的情况下,确定所述扩展查询词为所述目标查询词的引申词。
3.根据权利要求1所述的方法,其特征在于,所述从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词,包括:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果;
从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词;
确定所述第一候选查询词为所述目标查询词的引申词。
4.根据权利要求3所述的方法,其特征在于,所述从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果,包括:
从所述历史查询记录中确定与所述目标查询词相关的第一候选查询结果集;
确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度;
从与所述第一相关度中最大的n个对应的查询结果中确定所述第一候选查询结果。
5.根据权利要求4所述的方法,其特征在于,所述确定所述第一候选查询结果集中的查询结果与所述目标查询词的第一相关度,包括:
确定所述第一候选查询结果集中的查询结果被作为所述目标查询词的查询结果的第一曝光量;
确定以所述目标查询词为依据进行查询的第一查询量;
针对所述第一候选查询结果集中的各个查询结果,基于所述第一曝光量和所述第一查询量确定所述第一相关度。
6.根据权利要求4或5所述的方法,其特征在于,所述从所述历史查询记录中确定与所述第一候选查询结果相关的第一候选查询词,包括:
从所述历史查询记录中确定与所述第一候选查询结果相关的候选查询词集;
确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度;
从与所述重要度中最大的m个对应的查询词中确定所述第一候选查询词。
7.根据权利要求6所述的方法,其特征在于,所述确定所述候选查询词集中的查询词与所述第一候选查询结果的重要度,包括:
确定所述第一候选查询结果被作为所述候选查询词集中的查询词的查询结果的第二曝光量;
确定以所述候选查询词集中的查询词为依据进行查询的第二查询量;
针对所述候选查询词集中的各个查询词,基于所述第二曝光量和所述第二查询量确定所述重要度。
8.根据权利要求1所述的方法,其特征在于,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
确定所述引申词与目标查询词的第二相关度;
在所述第二相关度大于或等于第二阈值的情况下,确定所述引申词为所述意图锚点词。
9.根据权利要求1所述的方法,其特征在于,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
在所述引申词的数量大于1的情况下,以所述引申词的语义为依据对所述引申词进行分类,得到候选类别;
确定所述候选类别中相似度大于或等于第三阈值的两个所述引申词为重复引申词;
对所述候选类别中的所述重复引申词进行去重,得到引申词类别;
将所述引申词类别中的引申词作为所述意图锚点词。
10.根据权利要求9所述的方法,其特征在于,在将所述引申词类别中的引申词作为所述意图锚点词之后,所述方法还包括:
确定所述引申词类别中的所述引申词与所述目标查询词的目标相似度;
基于所述目标相似度,确定所述引申词类别内的所述意图锚点词的第一权重,所述第一权重与所述目标相似度呈正相关。
11.根据权利要求1所述的方法,其特征在于,所述从所述引申词中筛选出所述目标查询词的意图锚点词,包括:
获取所述引申词的查询点击率,所述查询点击率表征在以所述引申词为依据进行查询获得引申查询结果的情况下,所述引申查询结果被点击的概率;
获取以所述引申词为依据进行查询获得的历史召回量;
在基于所述查询点击率和所述历史召回量,确定所述引申词为可获得期望的查询结果的查询词的情况下,确定所述引申词为所述意图锚点词。
12.根据权利要求8至11中任意一项所述的方法,其特征在于,所述方法还包括:
获取与所述意图锚点词相关的第二候选查询结果集;
基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果。
13.根据权利要求12所述的方法,其特征在于,所述第二候选查询结果集中的查询结果为第二候选查询结果,所述意图锚点词为与所述第二候选查询结果的重要度最大的m个第二候选查询词中的一个。
14.根据权利要求12所述的方法,其特征在于,在基于所述第二候选查询结果集中的查询结果的历史阅读量、被选中量,从所述第二候选查询结果集中确定期望的查询结果,作为所述意图锚点词的意图查询结果之后,所述方法还包括:
确定所述意图锚点词与所述意图查询结果的第三相关度;
基于所述第三相关度,确定所述意图查询结果的第二权重,所述第二权重与所述第三相关度呈正相关。
15.一种查询方法,其特征在于,所述方法包括:
获取针对所述目标查询词的查询请求;
在确定所述目标查询词为查询意图不明确的查询词的情况下,基于权利要求1至14中任意一项所述的方法获得所述目标查询词的意图锚点词;
将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果。
16.根据权利要求15所述的方法,其特征在于,在确定所述目标查询词为查询意图不明确的查询词的情况下,基于权利要求1至14中任意一项所述的方法获得所述目标查询词的意图锚点词之前,所述方法还包括:
获取所述目标查询词的查询信息,所述查询信息包括以下中的至少一个:所述目标查询词的目标类别属性、所述目标查询词的命名实体特征、所述目标查询词的特征、所述目标查询词的历史被选中率,所述命名实体特征通过对所述目标查询词进行命名实体识别得到;
基于所述查询信息确定所述目标查询词的查询意图不明确。
17.根据权利要求16所述的方法,其特征在于,所述将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果,包括:
基于权利要求12至14中任意一项所述的方法获得所述意图锚点词的意图查询结果,作为所述查询请求的目标查询结果。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:
基于权利要求10所述的方法获得所述目标查询结果的第一权重;
基于所述第一权重确定所述目标查询结果的展示顺序。
19.根据权利要求17所述的方法,其特征在于,所述方法还包括:
基于权利要求14所述的方法获得所述目标查询结果的第二权重;
基于所述第二权重确定所述目标查询结果的展示顺序。
20.一种查询词引申装置,其特征在于,所述装置包括:
获取单元,用于获取目标查询词和历史查询记录;
确定单元,用于从所述历史查询记录中,确定查询意图与所述目标查询词的查询意图匹配的查询词,作为所述目标查询词的引申词;
筛选单元,用于从所述引申词中筛选出所述目标查询词的意图锚点词,所述意图锚点词为所述目标查询词的锚点词。
21.一种查询装置,其特征在于,所述装置包括:
获取单元,用于获取针对所述目标查询词的查询请求;
获得单元,用于在确定所述目标查询词为查询意图不明确的查询词的情况下,基于权利要求1至14中任意一项所述的方法获得所述目标查询词的意图锚点词;
查询单元,用于将利用所述意图锚点词进行查询获得的查询结果作为所述查询请求的目标查询结果。
22.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至14中任意一项所述的方法;
在所述处理器执行所述计算机指令的情况下,所述电子设备或者执行如权利要求15至19中任意一项所述的方法。
23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令;
在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至14中任意一项所述的方法;
在所述程序指令被处理器执行的情况下,或者使所述处理器执行权利要求15至19中任意一项所述的方法。
24.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或指令;在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行权利要求1至14中任意一项所述的方法;
在所述计算机程序或指令在计算机上运行的情况下,或者使得所述计算机执行权利要求15至19中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311265097.4A CN117725154A (zh) | 2023-09-27 | 2023-09-27 | 查询词引申方法、查询方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311265097.4A CN117725154A (zh) | 2023-09-27 | 2023-09-27 | 查询词引申方法、查询方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117725154A true CN117725154A (zh) | 2024-03-19 |
Family
ID=90205932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311265097.4A Pending CN117725154A (zh) | 2023-09-27 | 2023-09-27 | 查询词引申方法、查询方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117725154A (zh) |
-
2023
- 2023-09-27 CN CN202311265097.4A patent/CN117725154A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522986B (zh) | 图像检索方法、装置、设备和介质 | |
US8775409B1 (en) | Query ranking based on query clustering and categorization | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
CN100465954C (zh) | 用于搜索术语建议的多种类型数据的加强群集 | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
CN112052387B (zh) | 一种内容推荐方法、装置和计算机可读存储介质 | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
US20040107194A1 (en) | Information storage and retrieval | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN103518187A (zh) | 用于信息建模的方法和系统及其应用 | |
US20080215548A1 (en) | Information search method and system | |
GB2395806A (en) | Information retrieval | |
EP1426882A2 (en) | Information storage and retrieval | |
CN106257452B (zh) | 基于上下文特征修改搜索结果 | |
EP2208149A2 (en) | Classifying a set of content items | |
CN108765052A (zh) | 电商推荐/推送方法及装置、存储介质及计算设备 | |
CN109241403A (zh) | 项目推荐方法、装置、机器设备和计算机可读存储介质 | |
KR102108683B1 (ko) | 비관심사 컨텐츠를 포함하는 추천 컨텐츠를 제공하는 방법 | |
CN111310834B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
US11669530B2 (en) | Information push method and apparatus, device, and storage medium | |
CN114548276A (zh) | 对数据进行聚类的方法、装置、电子设备及存储介质 | |
CN112749296A (zh) | 一种视频推荐方法、装置、服务器及存储介质 | |
CN114297449A (zh) | 内容查找方法、装置、电子设备及计算机可读介质及产品 | |
CN112818195A (zh) | 数据获取方法、装置、系统及计算机存储介质 | |
WO2021196470A1 (zh) | 信息推送方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |