CN111221943B

CN111221943B - 查询结果匹配度计算方法及装置

Info

Publication number: CN111221943B
Application number: CN202010033113.7A
Authority: CN
Inventors: 何旺贵; 苑爱泉; 王晓峰; 王磊; 桑梓森; 邓哲宇; 王宇昊; 李向阳; 芦亚飞; 朱培源
Original assignee: Koukouxiangchuan Beijing Network Technology Co ltd
Current assignee: Koukouxiangchuan Beijing Network Technology Co ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-08-08
Anticipated expiration: 2040-01-13
Also published as: CN111221943A

Abstract

本发明实施例公开了一种查询结果匹配度计算方法及装置，方法包括：获取查询句以及查询句对应的至少一个查询结果的描述句；将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；对至少一个n元词组进行归类，得到至少一个n元词组集合；针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。采用n元词组集合的方式，鼓励连续匹配和语义地完整性，从而有效地抑制破碎匹配。

Description

查询结果匹配度计算方法及装置

技术领域

本发明实施例涉及文本匹配计算技术领域，具体涉及一种查询结果匹配度计算方法及装置。

背景技术

在查询时，查询句与查询结果的匹配度代表了查询结果是否与查询句紧密相关。匹配度越高越紧密，说明对应的查询结果越能满足用户的查询需求，提升用户的查询体验。

现有技术在查询时所采用的查询引擎往往是将查询结果中的多个单词拼接在一起，将查询句进行切词处理后的单词进行召回，当查询句按照细粒度进行切词处理时，召回的数量较多，查询句中多个细粒度的单词能够分别命中查询结果中的多个单词。由于查询句大多为较短文本句，一般包含一个独立的实体信息或者包含单一的语义，而查询结果的不同字段往往包含不同语义或不同的实体信息，导致在字面上命中度高或相似度高，但实体信息差异较大。例如查询结果为餐品名称，“宫保鸡丁面”和“宫保鸡丁盖浇饭”两者的相似度很高，但两者分别属于不同的餐品，其实体区别较大。这种匹配算法基于单个单词进行匹配容易造成字段破碎匹配的情形。以查询句为中心进行归一化处理时，注重查询句单词本身的匹配，使得在缺乏查询结果匹配连续性信息的情况下无法区分完全匹配和部分匹配的情形，没有融入自然语言查询的理解，没有结合查询结果中各字段的相关性等信息。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的查询结果匹配度计算方法及装置。

根据本发明实施例的一个方面，提供了一种查询结果匹配度计算方法，其包括：

获取查询句以及查询句对应的至少一个查询结果的描述句；

将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；

对至少一个n元词组进行归类，得到至少一个n元词组集合；

针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；

对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。

可选地，在获取查询句之后，方法还包括：对查询句进行切词处理，得到查询句对应的查询词序列集合；

获取查询句对应的至少一个查询结果的描述句进一步包括：根据查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句；

方法还包括：将至少一个查询结果的描述句进行切词处理，得到描述句对应的描述词序列集合。

可选地，将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组进一步包括：

根据描述词序列集合过滤查询词序列集合中未匹配的单词，得到过滤后的查询词序集合；

将查询词序列集合与描述词序列集合按照匹配序列进行匹配，基于查询词序列中n个单词的序列相关性，得到至少一个n元词组；其中，n元词组由n个单词组成；不同n元词组中包含的单词不重复。

可选地，针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子进一步包括：

针对任一n元词组集合中任一n元词组，利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值；

根据n元词组中各个单词的权重分值和紧密度分值，分别计算每个单词的匹配分；

根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分进一步包括：

针对任一n元词组集合中任一n元词组，累加该n元词组中各个单词的匹配分，得到该n元词组的匹配分；

累加该n元词组集合中各个n元词组的匹配分，并根据n对应的组数量对其进行平均计算，得到该n元词组集合的匹配分。

可选地，单词匹配因子算法基于单词在描述句中出现的频次、单词的词性和/或单词在描述句中的位置信息计算得到单词的权重因子的权重分值；

单词匹配因子算法基于单词自身的关联性和/或n元词组中各单词间关联性计算得到单词的紧密度因子的紧密度分值。

可选地，根据n元词组中各个单词的权重分值和紧密度分值，分别计算每个单词的匹配分进一步包括：

根据每个单词在该n元词组中的独立属性值，分别计算每个单词的匹配分；若单词的独立属性值表示单词为非独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值正加权；若单词的独立属性值表示单词为独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值负加权。

可选地，每一n元词组集合对应一个组数量m，组数量m具体为将过滤前的查询词序列集合所包含的各个单词进行穷尽组合得到的组数量，其中，每个组包含n个单词。

可选地，针对任一n元词组集合中任一n元词组，利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值进一步包括：

根据查询句的查询词序列集合中的顺序，标记末尾单词，设置末尾单词的紧密度分值为预设紧密度分值。

可选地，对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度进一步包括：

根据n元词组集合的n值，计算得到n元词组集合对应的加权值；其中，n元词组集合对应的加权值与n值成反比；

将至少一个n元词组集合的匹配分以其对应的加权值进行几何加权后计算得到平均值作为查询结果的匹配度。

可选地，其中，查询结果的描述句包括店铺和/或商品的文本描述信息。

根据本发明实施例的另一方面，提供了一种查询结果匹配度计算装置，其包括：

获取模块，适于获取查询句以及查询句对应的至少一个查询结果的描述句；

匹配模块，适于将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；

归类模块，适于对至少一个n元词组进行归类，得到至少一个n元词组集合；

第一计算模块，适于针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；

第二计算模块，适于对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。

可选地，装置还包括：

第一切词模块，适于对查询句进行切词处理，得到查询句对应的查询词序列集合；

获取模块进一步适于：根据查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句；

装置还包括：

第二切词模块，适于将至少一个查询结果的描述句进行切词处理，得到描述句对应的描述词序列集合。

可选地，匹配模块进一步适于：

可选地，第一计算模块进一步适于：

可选地，第二计算模块进一步适于：

可选地，查询结果的描述句包括店铺和/或商品的文本描述信息。

根据本发明实施例的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述查询结果匹配度计算方法对应的操作。

根据本发明实施例的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述查询结果匹配度计算方法对应的操作。

根据本发明实施例提供的查询结果匹配度计算方法及装置，获取查询句以及查询句对应的至少一个查询结果的描述句；将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；对至少一个n元词组进行归类，得到至少一个n元词组集合；针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。本发明实施例针对现有技术中所存在的破碎召回问题，采用n元词组集合的方式，鼓励连续匹配和语义地完整性，从而有效地抑制破碎匹配。且针对n元词组集合中每个单词，基于单词的权重因子和紧密度因子，考虑单词在查询结果描述句中的实际情况，计算单词的匹配分。根据n元词组集合的不同单词组合长度，融合统计n元词组集合的匹配分得到查询结果的匹配度。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的查询结果匹配度计算方法的流程示意图；

图2示出了根据本发明另一个实施例的查询结果匹配度计算方法的流程示意图；

图3示出了根据本发明一个实施例的查询结果匹配度计算装置的结构框图；

图4示出了根据本发明一个实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的查询结果匹配度计算方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤S101，获取查询句以及查询句对应的至少一个查询结果的描述句。

查询句为如用户根据自己需求在查询页面所输入的查询句，根据用户触发的查询请求，获取到查询句。根据查询句进行查询，获取到与其匹配的查询结果。

在查询时，先对查询句进行切词处理，得到查询句对应的查询词序列集合。查询词序列集合包括了查询句中所有的单词，并按照查询句中各个单词的顺序罗列所有单词。在切词处理时基于最细粒度，将查询句切词，得到各个单词。在切词时需考虑查询语境，如查询语境为商品查询、店铺查询等，需要根据具体的查询语境对查询句进行切词处理，使切词后得到的单词符合查询语境常用单词，将查询句中的包含的单词按照单词的顺序切词，得到对应的查询词序列集合。

根据查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句。进一步，在查询时，可以将至少一个查询结果的描述句进行切词处理，得到描述句对应的描述词序列集合。查询时，通过将查询词序列集合和描述词语序集合进行匹配，确定对应的查询结果的描述句。

本发明实施例针对获取到的至少一个查询结果的描述句，计算每个查询结果与查询句的匹配度，根据计算得到的查询结果的匹配度，可以确认与查询句最匹配的查询结果，进一步，可以根据查询结果的匹配度对查询结果进行排序，将按照匹配度排序后的查询结果反馈给用户。

步骤S102，将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组。

针对任一描述句在计算匹配度时，根据查询词序列集合与描述句对应的描述词序列集合进行匹配，匹配时按照两者包含的单词以及单词序列的顺序进行匹配，得到查询词序列集合的至少一个n元词组。n元词组由n个单词组成，n个单词在查询词序列集合中序列相连。其中n为正整数，如1、2、3等。考虑本发明实施例的执行效率、计算准确度等问题，n优选小于等于3。如将查询词序列集合与任一描述句对应的描述词序列集合进行匹配，得到1元词组、2元词组、3元词组等。

具体的，查询句对应的查询词序列集合：香辣、鸡腿、堡；描述句对应的描述词序列集合：香辣、鸡翅、奥尔良、鸡腿、堡。两者进行匹配，得到匹配的单词为香辣、鸡腿、堡。根据单词序列相关性，分为1元词组{香辣}，2元词组{鸡腿堡}。其中，不同n元词组中包含的单词不重复，避免计算时重复计算匹配度。

步骤S103，对至少一个n元词组进行归类，得到至少一个n元词组集合。

将相同的n元词组进行归类，得到对应的n元词组集合。n元词组集合中包含至少一个n元词组。如将所有的1元词组归类得到1元词组集合；将所有的2元词组归类得到2元词组集合；将所有的3元词组归类得到3元词组集合。

步骤S104，针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分。

计算匹配分时，先针对任一n元词组集合中任一n元词组，计算该n元词组所包含的每个单词的匹配分，在根据单词的匹配分，最终计算得到n元词组集合的匹配分。

计算每个单词的匹配分，需要根据匹配因子计算每个单词的匹配分。匹配因子包含单词的权重因子和紧密度因子。权重因子与单词在描述句中出现的频次、单词的词性(形容词、量词、数词、名词等)、单词在描述句中的位置信息(名词前各不同位置的描述性单词其权重不同)等相关；紧密度因子与单词自身的关联性、n元词组中各单词间关联性相关。权重因子和紧密度因子基于单词与描述句的关系设置，更体现了单词在描述句相关匹配的匹配度。

步骤S105，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分。

累加n元词组中各个单词的匹配分，可以得到n元词组的匹配分。根据各个n元词组的匹配分，累加计算可以得到n元词组集合的匹配分。

步骤S106，对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。

将至少一个n元词组集合的匹配分根据其对应的n值长度，进行匹配分的调整，对n值较大的n元词组集合，即连续匹配进行鼓励，对n值较小的n元词组集合，即部分匹配进行惩罚，衰减其匹配分，得到查询结果的匹配度。

根据本发明实施例提供的查询结果匹配度计算方法，获取查询句以及查询句对应的至少一个查询结果的描述句；将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；对至少一个n元词组进行归类，得到至少一个n元词组集合；针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。本发明实施例针对现有技术中所存在的破碎召回问题，采用n元词组集合的方式，鼓励连续匹配和语义地完整性，从而有效地抑制破碎匹配。且针对n元词组集合中每个单词，基于单词的权重因子和紧密度因子，考虑单词在查询结果描述句中的实际情况，计算单词的匹配分。根据n元词组集合的不同单词组合长度，融合统计n元词组集合的匹配分得到查询结果的匹配度。

图2示出了根据本发明另一个实施例的查询结果匹配度计算方法的流程示意图，如图2所示，该方法包括如下步骤：

步骤S201，获取查询句以及查询句对应的至少一个查询结果的描述句。

接收用户触发的查询请求，获取查询句。对查询句进行切词处理，得到查询词序列集合。根据查询词序列集合进行查询，与待查询的各个描述句进行匹配，得到至少一个查询结果的描述句。其中，描述句也进行相应的切词处理，得到描述词序列集合。在查询时，通过对查询词序列集合中的单词和描述词序列集合的单词进行匹配，获取到查询结果的描述句。

步骤S202，根据描述词序列集合过滤查询词序列集合中未匹配的单词，得到过滤后的查询词序集合。

在获取到查询结果的描述句后，针对任一查询结果在计算匹配度时，需先根据描述词序列集合过滤查询词序列集合中未匹配的单词，这些未匹配的单词的匹配分为0，无需再计算。查询结果的匹配度需要根据过滤后的查询次序集合进行计算。

步骤S203，将查询词序列集合与描述词序列集合按照匹配序列进行匹配，基于查询词序列中n个单词的序列相关性，得到至少一个n元词组。

对于过滤后的查询词序列集合，根据与描述词序列集合按照匹配序列所匹配的结果，将查询词序列中n个具有序列相关性的单词组合为n元词组。n元词组由n个单词组成。

步骤S204，对至少一个n元词组进行归类，得到至少一个n元词组集合。

根据n元词组的n值，将相同n值的n元词组归类，得到对应的n元词组集合。如2元词组有{鸡腿堡}、{香草冰激凌}、{鸡肉卷}，2元词组集合包括{{鸡腿堡}{香草冰激凌}{鸡肉卷}}。

步骤S205，针对任一n元词组集合中任一n元词组，利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值。

针对以上得到的n元词组集合中任一n元词组，对该n元词组中的各个单词分别计算匹配分时，先利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值。

单词匹配因子算法基于单词在描述句中出现的频次、单词的词性、单词在描述句中的位置信息计算得到单词的权重因子的权重分值。单词匹配因子算法基于单词自身的关联性(单词中每个字间的关联性是否紧密)、n元词组中各单词间关联性(n元词组中序列相邻的单词间的关联性是否紧密)计算得到单词的紧密度因子的紧密度分值。单词匹配因子算法可以利用大数据进行计算，调整算法的各个参数，以使单词的权重分值和紧密度分值更与匹配度紧密相关。将单词输入单词匹配因子算法，得到单词的权重分值和紧密度分值。

如查询句对应的查询词序列集合：香辣、鸡腿、堡；描述句对应的描述词序列集合：香辣、鸡翅、奥尔良、鸡腿、堡。香辣的权重分值和紧密度分值分别为0.316、0.74；鸡腿的权重分值和紧密度分值分别为0.319、0.9。可选地，对于查询句，根据查询句的查询词序列集合中的顺序，标记末尾单词，设置末尾单词的紧密度分值为预设紧密度分值。如此次末尾单词为堡，可以在堡后利用EOS进行标记，标记其为末尾单词。末尾单词后没有相邻的单词，可以直接设置其紧密度分值为1.0。其权重分值利用单词匹配因子算法得到为0.364。

步骤S206，根据n元词组中各个单词的权重分值和紧密度分值，分别计算每个单词的匹配分。

在计算单词的匹配分时，根据每个单词在该n元词组中的独立属性值，分别计算每个单词的匹配分。若单词的独立属性值表示单词为非独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值正加权。如单词的匹配分＝单词的紧密度分值*单词的权重分值。若单词的独立属性值表示单词为独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值负加权。如单词的匹配分＝(1-单词的紧密度分值)*单词的权重分值。

具体的，香辣为1元词组中的独立词，其匹配分＝(1-0.74)*0.316，对其值可以取指定数位后取整，匹配分＝0.082；鸡腿为2元词组中的非独立词，其匹配分＝0.9*0.319＝0.287；堡为查询句的末尾单词，2元词组中的非独立词，其匹配分＝1.0*0.364＝0.364。

步骤S207，针对任一n元词组集合中任一n元词组，累加该n元词组中各个单词的匹配分，得到该n元词组的匹配分。

针对任一n元词组集合中任一n元词组，在计算得到该n元词组中各个单词的匹配分后，累加该n元词组中各个单词的匹配分，得到该n元词组的匹配分。如步骤206中，1元词组中有1个单词，1元词组的匹配分为0.082。2元词组中有2个单词，2元词组的匹配分＝0.287+0.364＝0.651。

步骤S208，累加该n元词组集合中各个n元词组的匹配分，并根据n对应的组数量对其进行平均计算，得到该n元词组集合的匹配分。

n元词组集合的匹配分与n对应的组数量相关。每一n元词组集合对应一个组数量m，组数量m具体为将过滤前的查询词序列集合所包含的各个单词进行穷尽组合得到的组数量，其中，每个组包含n个单词。如查询词序列集合为香辣、鸡腿、堡。针对1元词组集合{香辣}所对应的m，应为对查询词序列集合按照1个单词进行穷尽组合得到的组数量，查询词序列集合按照1个单词进行穷尽组合得到的组包括{香辣}{鸡腿}{堡}，组数量为3。针对2元词组集合{鸡腿堡}所对应的m，应为对查询词序列集合按照2个单词进行穷尽组合得到的组数量，查询词序列集合按照2个单词进行穷尽组合得到的组包括{香辣鸡腿}{鸡腿堡}，组数量为2。在穷尽组合时，无需考虑是否与描述词序列集合匹配，将所有查询词序列集合中的各个单词依照序列顺序，依次进行组合，每个组中包含n个单词。组数量＝查询词序列集合中单词个数-n值+1。

进一步，对于查询词序列集合若其中包含与描述词序列集合不匹配的单词时，这些单词的匹配分为0，可以不用计算，但查询结果的匹配度也受到这些单词的影响，在确定n元词组集合的匹配分时，组数量应包含这些单词。因此，组数量为过滤前的查询词序列集合所包含的各个单词进行穷尽组合得到的组数量。如查询词序列集合为冰激凌、香辣、鸡腿、堡。此处，冰激凌为与描述词序列集合不匹配的单词。针对1元词组集合{香辣}所对应的m，应为对查询词序列集合按照1个单词进行穷尽组合得到的组数量，查询词序列集合按照1个单词进行穷尽组合得到的组包括{冰激凌}{香辣}{鸡腿}{堡}，组数量为4。针对2元词组集合{鸡腿堡}所对应的m，应为对查询词序列集合按照2个单词进行穷尽组合得到的组数量，查询词序列集合按照2个单词进行穷尽组合得到的组包括{冰激凌香辣}{香辣鸡腿}{鸡腿堡}，组数量为3。在穷尽组合时，无需考虑是否与描述词序列集合匹配，将所有查询词序列集合中的各个单词依照序列顺序，依次进行组合，每个组中包含n个单词。

针对步骤S207计算得到的各个n元词组的匹配分，累加该n元词组集合中各个n元词组的匹配分，并根据n对应的组数量对其进行平均计算，得到该n元词组集合的匹配分。具体的，1元词组的匹配分为0.082，1元词组集合的组数量为3，1元词组集合的匹配分＝0.082/3＝0.027。2元词组的匹配分0.651。2元词组集合的组数量为2，2元词组集合的匹配分＝0.651/2＝0.326。

步骤S209，对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。

在对至少一个n元词组集合的匹配分进行融合计算时，根据n元词组集合的n值，计算得到n元词组集合对应的加权值。n元词组集合对应的加权值与n值成反比。如n元词组集合的加权值＝1/2ⁿ。1元词组集合的加权值＝0.5；2元词组集合的加权值＝0.25，依次类推，得到n元词组集合的加权值。

将至少一个n元词组集合的匹配分以其对应的加权值进行几何加权后计算得到平均值作为查询结果的匹配度。具体的，对1元词组集合的匹配分0.027求其加权值次方，0.027的0.5次方为0.164。对2元词组集合的匹配分0.326求其加权值次方，0.326的0.25次方为0.755。对几何加权后得到的总和计算平均值。计算平均值时将总和除以n元词组集合的最大n值，此次，最大n值为2，计算得到的查询结果匹配度为(0.164+0.755)/2＝0.46。

进一步，由于本发明实施例中针对不同n元词组集合进行几何加权，此处，无需如现有技术在计算匹配度时需要专门针对较短n元词组集合进行短句惩罚等处理，可以更准确地基于n元词组集合自身采用不同的加权计算策略。

进一步，还可以根据查询结果的匹配度高低对查询结果进行排序；或者，根据查询结果的匹配度筛选匹配度低的查询结果对其进行调整等。

可选地，在一个具体的实施例中，查询句可以为商品查询句、店铺查询句等；查询结果的描述句可以为店铺的文本描述信息，商品的文本描述信息等，根据查询结果的匹配度，可以按照匹配度高低进行排序，将匹配度高的商品或者店铺排序在前，方便提供给用户与查询句更接近、更匹配的商品或店铺。

根据本发明实施例提供的查询结果匹配度计算方法，采用n元词组匹配方式，而不是针对单个单词匹配，鼓励连续匹配和语义地完整性，从而有效地抑制破碎匹配，更好地体现出匹配时的语义和语境。计算匹配度时针对n元词组集合中每个单词，基于单词的权重因子和紧密度因子，考虑单词在查询结果描述句中的实际情况，计算单词的匹配分，一方面对较短的n元词组进行惩罚，另一方面同时对较长的n元词组进行鼓励，实现了对查询结果的完全匹配和部分匹配的区分，保障查询结果匹配度的准确性。

图3示出了根据本发明一个实施例的查询结果匹配度计算装置的结构框图，如图3所示，该装置包括：

获取模块310，适于获取查询句以及查询句对应的至少一个查询结果的描述句；

匹配模块320，适于将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；

归类模块330，适于对至少一个n元词组进行归类，得到至少一个n元词组集合；

第一计算模块340，适于针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；

第二计算模块350，适于对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。

可选地，装置还包括：第一切词模块360，适于对查询句进行切词处理，得到查询句对应的查询词序列集合；

获取模块310进一步适于：根据查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句；

装置还包括：第二切词模块370，适于将至少一个查询结果的描述句进行切词处理，得到描述句对应的描述词序列集合。

可选地，匹配模块320进一步适于：根据描述词序列集合过滤查询词序列集合中未匹配的单词，得到过滤后的查询词序集合；将查询词序列集合与描述词序列集合按照匹配序列进行匹配，基于查询词序列中n个单词的序列相关性，得到至少一个n元词组；其中，n元词组由n个单词组成；不同n元词组中包含的单词不重复。

可选地，第一计算模块340进一步适于：针对任一n元词组集合中任一n元词组，利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值；根据n元词组中各个单词的权重分值和紧密度分值，分别计算每个单词的匹配分；针对任一n元词组集合中任一n元词组，累加该n元词组中各个单词的匹配分，得到该n元词组的匹配分；累加该n元词组集合中各个n元词组的匹配分，并根据n对应的组数量对其进行平均计算，得到该n元词组集合的匹配分。

可选地，单词匹配因子算法基于单词在描述句中出现的频次、单词的词性和/或单词在描述句中的位置信息计算得到单词的权重因子的权重分值；单词匹配因子算法基于单词自身的关联性和/或n元词组中各单词间关联性计算得到单词的紧密度因子的紧密度分值。

可选地，第一计算模块340进一步适于：根据每个单词在该n元词组中的独立属性值，分别计算每个单词的匹配分；若单词的独立属性值表示单词为非独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值正加权；若单词的独立属性值表示单词为独立词，单词的匹配分为基于单词的紧密度分值对单词的权重分值负加权。

可选地，第一计算模块340进一步适于：根据查询句的查询词序列集合中的顺序，标记末尾单词，设置末尾单词的紧密度分值为预设紧密度分值。

可选地，第二计算模块350进一步适于：根据n元词组集合的n值，计算得到n元词组集合对应的加权值；其中，n元词组集合对应的加权值与n值成反比；将至少一个n元词组集合的匹配分以其对应的加权值进行几何加权后计算得到平均值作为查询结果的匹配度。

以上各模块的描述参照方法实施例中对应的描述，在此不再赘述。

根据本发明实施例提供的查询结果匹配度计算装置，获取查询句以及查询句对应的至少一个查询结果的描述句；将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组；其中n为正整数；对至少一个n元词组进行归类，得到至少一个n元词组集合；针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，匹配因子包含单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；对至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度。本发明实施例针对现有技术中所存在的破碎召回问题，采用n元词组集合的方式，鼓励连续匹配和语义地完整性，从而有效地抑制破碎匹配。且针对n元词组集合中每个单词，基于单词的权重因子和紧密度因子，考虑单词在查询结果描述句中的实际情况，计算单词的匹配分。根据n元词组集合的不同单词组合长度，融合统计n元词组集合的匹配分得到查询结果的匹配度。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，可执行指令可执行上述任意方法实施例中的查询结果匹配度计算方法。

图4示出了根据本发明实施例的一种计算设备的结构示意图，本发明实施例的具体实施例并不对计算设备的具体实现做限定。

如图4所示，该计算设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述查询结果匹配度计算方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述任意方法实施例中的查询结果匹配度计算方法。程序410中各步骤的具体实现可以参见上述查询结果匹配度计算实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明实施例的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明实施例进行说明而不是对本发明实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种查询结果匹配度计算方法，其包括：

获取查询句以及所述查询句对应的至少一个查询结果的描述句；

对所述至少一个n元词组进行归类，得到至少一个n元词组集合；

针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，所述匹配因子包含所述单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；

对所述至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度；

其中，在得到查询结果的匹配度的过程中，将所述至少一个n元词组集合的匹配分根据其对应的n值长度，进行匹配分的调整，对n值较大的n元词组集合，增大其匹配分，对n值较小的n元词组集合，衰减其匹配分，得到所述查询结果的匹配度；

所述针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，所述匹配因子包含所述单词的权重因子和紧密度因子进一步包括：

所述单词匹配因子算法基于单词在描述句中出现的频次、单词的词性和/或单词在描述句中的位置信息计算得到单词的权重因子的权重分值；所述单词匹配因子算法基于单词自身的关联性和/或n元词组中各单词间关联性计算得到单词的紧密度因子的紧密度分值；

所述根据n元词组中各个单词的权重分值和紧密度分值，分别计算每个单词的匹配分进一步包括：

2.根据权利要求1所述的方法，其中，在所述获取查询句之后，所述方法还包括：对所述查询句进行切词处理，得到查询句对应的查询词序列集合；

获取所述查询句对应的至少一个查询结果的描述句进一步包括：根据所述查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句；

所述方法还包括：将至少一个查询结果的描述句进行切词处理，得到描述句对应的描述词序列集合。

3.根据权利要求1所述的方法，其中，所述将查询句对应的查询词序列集合与任一描述句对应的描述词序列集合进行匹配得到至少一个n元词组进一步包括：

4.根据权利要求1-3中任一项所述的方法，其中，

所述根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分进一步包括：

5.根据权利要求4所述的方法，其中，每一n元词组集合对应一个组数量m，所述组数量m具体为将过滤前的查询词序列集合所包含的各个单词进行穷尽组合得到的组数量，其中，每个组包含n个单词。

6.根据权利要求4所述的方法，其中，所述针对任一n元词组集合中任一n元词组，利用单词匹配因子算法计算该n元词组中各个单词的权重分值和紧密度分值进一步包括：

根据所述查询句的查询词序列集合中的顺序，标记末尾单词，设置末尾单词的紧密度分值为预设紧密度分值。

7.根据权利要求1所述的方法，其中，所述对所述至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度进一步包括：

根据n元词组集合的n值，计算得到n元词组集合对应的加权值；其中，所述n元词组集合对应的加权值与n值成反比；

8.根据权利要求1-3中任一项所述的方法，其中，所述查询结果的描述句包括店铺和/或商品的文本描述信息。

9.一种查询结果匹配度计算装置，其包括：

获取模块，适于获取查询句以及所述查询句对应的至少一个查询结果的描述句；

归类模块，适于对所述至少一个n元词组进行归类，得到至少一个n元词组集合；

第一计算模块，适于针对任一n元词组集合中任一n元词组，根据匹配因子计算该n元词组所包含的每个单词的匹配分，所述匹配因子包含所述单词的权重因子和紧密度因子；以及，根据各个n元词组的各个单词的匹配分，计算得到n元词组集合的匹配分；

第二计算模块，适于对所述至少一个n元词组集合的匹配分进行融合计算，得到查询结果的匹配度；

所述第一计算模块进一步适于：

10.根据权利要求9所述的装置，其中，所述装置还包括：

第一切词模块，适于对所述查询句进行切词处理，得到查询句对应的查询词序列集合；

所述获取模块进一步适于：根据所述查询句对应的查询词序列集合进行查询，获取与查询词序列集合匹配的至少一个查询结果的描述句；

所述装置还包括：

11.根据权利要求9所述的装置，其中，所述匹配模块进一步适于：

12.根据权利要求9-11中任一项所述的装置，其中，所述第一计算模块进一步适于：

13.根据权利要求12所述的装置，其中，每一n元词组集合对应一个组数量m，所述组数量m具体为将过滤前的查询词序列集合所包含的各个单词进行穷尽组合得到的组数量，其中，每个组包含n个单词。

14.根据权利要求12所述的装置，其中，所述第一计算模块进一步适于：

15.根据权利要求9所述的装置，其中，所述第二计算模块进一步适于：

16.根据权利要求9-11中任一项所述的装置，其中，所述查询结果的描述句包括店铺和/或商品的文本描述信息。

17.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的查询结果匹配度计算方法对应的操作。

18.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-8中任一项所述的查询结果匹配度计算方法对应的操作。