CN111666371A

CN111666371A - 基于主题的匹配度确定方法、装置、电子设备及存储介质

Info

Publication number: CN111666371A
Application number: CN202010319323.2A
Authority: CN
Inventors: 孙兴武; 朱秋昱; 张富峥; 王仲远
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-09-15

Abstract

本公开提供了一种基于主题的匹配度确定方法、装置、电子设备及存储介质，所述方法包括：获取搜索文本，所述搜索文本包括至少一个搜索字；生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；预测所述候选文本的主题分布；根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。本公开可以通过结合主题分布生成候选字的第三向量，使得计算的搜索文本和候选文本的匹配度结合了主题，有助于提高匹配度的准确度。

Description

基于主题的匹配度确定方法、装置、电子设备及存储介质

技术领域

本公开涉及搜索推荐技术领域，尤其涉及一种基于主题的匹配度确定方法、装置、电子设备及存储介质。

背景技术

在搜索推荐技术领域中，用户可以在客户端上输入搜索文本，以获取与该搜索文本匹配的候选文本。

现有技术中，一种搜索推荐方法主要包括：首先，接收搜索文本；然后，确定该搜索文本和候选文本集中每个候选文本的匹配度，其中，匹配度可以是搜索文本和候选文本包含的相同分词数目的占比，还可以是搜索文本的向量和候选文本的向量的相似度；最后，根据该匹配度将候选文本按照顺序推荐给用户。

发明人对上述方案进行研究之后，发现上述方案的匹配度的准确度较低。

发明内容

本公开提供一种基于主题的匹配度确定方法、装置、电子设备及存储介质，可以通过结合主题分布生成候选字的第三向量，使得计算的搜索文本和候选文本的匹配度结合了主题，有助于提高匹配度的准确度。

根据本公开的第一方面，提供了一种基于主题的匹配度确定方法，所述方法包括：

获取搜索文本，所述搜索文本包括至少一个搜索字；

生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；

预测所述候选文本的主题分布；

根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；

根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。

根据本公开的第二方面，提供了一种基于主题的匹配度确定装置，所述装置包括：

搜索文本获取模块，用于获取搜索文本，所述搜索文本包括至少一个搜索字；

向量生成模块，用于生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；

主题分布预测模块，用于预测所述候选文本的主题分布；

向量更新模块，用于根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；

匹配度确定模块，用于根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。

根据本公开的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述基于主题的匹配度确定方法。

根据本公开的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述基于主题的匹配度确定方法。

本公开提供了一种基于主题的匹配度确定方法、装置、电子设备及存储介质，可以首先获取搜索文本，所述搜索文本包括至少一个搜索字；生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；预测所述候选文本的主题分布；根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。本公开可以通过结合主题分布生成候选字的第三向量，使得计算的搜索文本和候选文本的匹配度结合了主题，有助于提高匹配度的准确度。

附图说明

为了更清楚地说明本公开的技术方案，下面将对本公开的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开的基于主题的匹配度确定方法的步骤流程图；

图2示出了本公开的记忆网络模型的结构示意图；

图3示出了本公开的匹配度预测模型的结构示意图；

图4示出了本公开的向量生成子模型的结构示意图；

图5示出了本公开的基于主题的匹配度确定装置的结构图；

图6示出了本公开的电子设备的结构图。

具体实施方式

下面将结合本公开中的附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的实施例可以应用于搜索推荐平台的后台服务器中，后台服务器和对应的客户端构成一个完整的搜索推荐平台。具体地，用户可以在客户端上输入搜索文本，后台服务器生成与搜索文本相关的推荐文本以返回至客户端向用户展示。

参照图1，其示出了本公开的基于主题的匹配度确定方法的步骤流程图，具体如下：

步骤101，获取搜索文本，所述搜索文本包括至少一个搜索字。

其中，搜索文本是用户输入的一个或多个关键词，也可以是用户输入的语义完整的文本。这些关键词或语义完整的文本包括至少一个单独的字，这些单独的字在本公开中称为搜索字。

步骤102，生成所述搜索字的第一向量和候选文本中每个候选字的第二向量。

其中，候选文本可以是搜索推荐平台上的任意文本，或指定的部分文本。与搜索文本相同，候选文本也可以由多个字构成，这些字在本公开中称为候选字。

在实际应用中，可以采用机器模型生成搜索字的第一向量和候选字的第二向量，机器模型可以包括任意用于生成向量的深度学习模型，在本公开中，将用于生成向量的机器模型称为向量生成子模型,可以直接采用Word2Vec、Graph Embedding等模型作为向量生成子模型。本公开的实施例对向量生成子模型的具体形式不加以限制。向量生成子模型预先通过大量的字训练得到，这些大量的字中包含了搜索字和候选字，以使向量生成子模型为每个字生成一个唯一的向量，向量可以作为字的身份标识，从而第一向量是搜索字的唯一标识，第二向量是候选字的唯一标识。

步骤103，预测所述候选文本的主题分布。

其中，主题分布包括预测的主题以及对应的概率。

在实际应用中，可以采用神经网络模型预测候选文本的主题分布。在本公开中，将用于生成主题分布的神经网络模型称为主题预测子模型，本公开的实施例对主题预测子模型的具体形式不加以限制。主题预测子模型预先通过大量的文本训练得到，以使主题预测子模型为每个文本生成主题及概率，称为训练主题和训练概率，训练主题和训练概率可以用于结合预先标注的主题及概率计算损失值，若损失值连续在多轮训练中未持续减小，则确定训练结束；若损失值连续在多轮训练中持续减小，则根据损失值对主题预测子模型的参数的梯度对主题预测子模型的参数进行调整，直至损失值连续在多轮训练中不持续减小。

步骤104，根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量。

具体地，可以采用记忆网络模型生成候选字的第三向量，其中，记忆网络模型是具有记忆功能的模型，一种简单的记忆网络模型可以参照如图2所示，每个虚线框内的部分是一个记忆单元，在实际应用中，记忆单元可以按照如图2所示的连接方式设置多个，每个记忆单元中存在输入门I和输出门O，对于第一个记忆单元，候选字的第二向量和候选文本的主题分布输入至输入门I中，输入门I通过可训练的输入门矩阵进行矩阵运算得到第一输入门向量，然后输出门O通过可训练的输出门矩阵将第一输入门向量转换为输出门向量；对于第二个记忆单元，将第一个记忆单元输出的输出门向量和候选字的第二向量加权之后作为第二个记忆单元的第一输入，第二个记忆单元的另一个输入为主题分布，从而基于与第一个记忆单元相同的算法，第二个记忆单元同样输出一个输出门向量，并将其与第二个记忆单元的第一输入加权之后作为候选字的第三向量。

本公开的实施例可以通过将候选字的第二向量和主题分布综合起来得到候选字的第三向量，第三向量可以结合主题和内容更加准确的表示候选字。

步骤105，根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。

其中，计算搜索文本和候选文本的匹配度的策略可以灵活选取。在一种示例中，对于一个或多个搜索字和一个或多个候选字，计算一搜索字的第一向量和一候选字的第三向量的相似度，从而可以对多个相似度求平均作为搜索文本和候选文本的匹配度，或，将最大或最小的相似度作为搜索文本和候选文本的匹配度；在另一种示例中，根据搜索字在搜索文本中的出现频次选取出现频次较高的搜索字作为目标搜索字，以及根据候选字在候选文本中的出现频次选取出出现频次较高的候选字作为目标候选字，计算目标搜索字的第一向量和目标候选字的第三向量的相似度得到搜索文本和候选文本的匹配度。第一向量和第三向量的相似度可以采用基于欧氏距离的相似度、余弦相似度等，本公开对向量的相似度的计算公式不加以限制。本公开以基于欧氏距离的相似度为例可以得到如下相似度：

将搜索字的第一向量的第n项作为V1_n、候选字的第三向量的第n项作为V2_n带入上述公式(1)，得到的SIM为搜索字的第一向量和候选字的第三向量的相似度，N为向量的长度。

在得到搜索文本和候选文本的匹配度之后，可以从多个候选文本中根据其与搜索文本的匹配度进行个性化推荐，具体地，可以将候选文本按照匹配度降序排列之后推荐给用户；还可以获取匹配度大于一定匹配度阈值的候选文本添加至推荐文本集中，并将推荐文本集中的文本按照匹配度降序排列之后推荐给用户；还可以将候选文本按照匹配度降序排列之后，获取排序靠前的若干数量的候选文本作为推荐文本推荐给用户。

由于本公开在计算候选文本和搜索文本的匹配度时采用了结合主题的候选文本的第三向量，使得第三向量不仅包含了候选文本的内容信息，还包含了候选文本的主题信息，使得候选文本和搜索文本的匹配度不仅代表了内容上的匹配度，还代表了主题上的匹配度。基于该匹配度，在某些针对主题的个性化推荐中，有助于避免将不符合主题的候选文本推荐给用户，提高了推荐的准确度。

在本公开中，步骤102至105可以通过如图3所示的匹配度预测模型实现。具体地，可以将搜索文本和候选文本输入至匹配度预测模型，匹配度预测模型的向量生成子模型分别针对搜索文本和候选文本，生成搜索文本中搜索字的第一向量和候选文本中候选字的第二向量，主题预测子模型输出候选文本的主题分布，最后匹配度预测模型可以基于搜索字的第一向量、候选字的第二向量和候选文本的主题分布，预测得到搜索文本和候选文本的匹配度。

上述匹配度预测模型是预先通过样本搜索文本和样本候选文本构成的训练样本训练得到的，样本搜索文本和样本候选文本是从历史搜索记录中获取的，历史搜索记录中存在大量的用户历史搜索行为，历史搜索行为包括：用户输入的搜索文本和用户访问的文本，从而可以将用户输入的搜索文本作为样本搜索文本，将用户访问的文本作为样本候选文本。

在训练匹配度预测模型时，可以通过多轮迭代实现，在每轮迭代中，需要将样本搜索文本和样本候选文本输入至如图3所示的匹配度预测模型中，匹配度预测模型的向量生成子模型分别针对样本搜索文本和样本候选文本，生成样本搜索文本中样本搜索字的向量和样本候选文本中样本候选字的向量，主题预测子模型输出样本候选文本的主题分布，最后匹配度预测模型可以基于样本搜索字的向量、样本候选字的向量和样本候选文本的主题分布，预测得到样本搜索文本和样本候选文本的匹配度，即为训练匹配度；然后根据训练匹配度和样本匹配度计算损失值，具体可以采用平方损失函数、交叉熵损失函数、绝对值损失函数等。若损失值在连续多轮迭代中未持续变小，则结束训练；若损失值在连续多轮迭代中持续变小，则根据损失值针对匹配度预测模型的参数的梯度调整匹配度预测模型的参数，以继续训练，从而使得下一轮迭代之后的损失值比当前这一轮的损失值更小。

上述训练所采用的样本匹配度可以通过如下规则设置：在样本搜索文本和样本候选文本在语义和主题上均匹配的情况下，样本匹配度为最大匹配度；在样本搜索文本和样本候选文本在语义和主题上均不匹配的情况下，样本匹配度为最小匹配度；在样本搜索文本和样本候选文本在语义上不匹配或在主题上不匹配的情况下，样本匹配度为中间匹配度，所述中间匹配度大于最小匹配度，且小于最大匹配度。

其中，最大匹配度、中间匹配度和最小匹配度可以根据实际应用场景设定，且最大匹配度大于中间匹配度，中间匹配度大于最小匹配度。例如，最大匹配度可以为1，中间匹配度可以为0.5，最小匹配度可以为0。

本公开的实施例可以根据主题匹配和语义匹配准确的标注样本匹配度，从而可以使得匹配度预测模型预测的匹配度可以兼顾主题匹配和语义匹配，使得预测的匹配度的准确度较高。

可选地，上述训练过程中采用的损失值是通过如下步骤A1至A3确定的：

步骤A1，基于样本候选文本的主题分布和样本候选字的向量，采用记忆网络模型生成样本候选字的更新向量。

其中，记忆网络模型是具有记忆功能的模型，一种简单的记忆网络模型可以参照如图2所示，每个虚线框内的部分是一个记忆单元，在实际应用中，记忆单元可以按照如图2所示的连接方式设置多个，每个记忆单元中存在输入门I和输出门O，对于第一个记忆单元，样本候选字的向量和主题分布输入至输入门I中，输入门I通过可训练的输入门矩阵进行矩阵运算得到第一输入门向量，然后输出门O通过可训练的输出门矩阵将第一输入门向量转换为输出门向量；对于第二个记忆单元，将第一个记忆单元输出的输出门向量和样本候选字的向量加权之后作为第二个记忆单元的第一输入，第二个记忆单元的另一个输入为主题分布，从而基于与第一个记忆单元相同的算法，第二个记忆单元同样输出一个输出门向量，并将其与第二个记忆单元的第一输入加权之后作为样本候选字的更新向量。

本公开的实施例可以通过记忆网络模型将样本候选字的向量和主题分布综合起来得到样本候选字的更新向量，更新向量可以结合主题和内容更加准确的表示样本候选字。

步骤A2，根据样本搜索字的向量和样本候选字的更新向量，确定样本搜索文本和样本候选文本的匹配度。

具体地，计算样本搜索文本和样本候选文本的匹配度的策略可以灵活选取。在一种示例中，对于一个或多个样本搜索字和一个或多个样本候选字，计算一样本搜索字的向量和一样本候选字的更新向量的相似度，从而可以对多个相似度求平均作为样本搜索文本和样本候选文本的匹配度，或，将最大或最小的相似度作为样本搜索文本和样本候选文本的匹配度；在另一种示例中，根据样本搜索字在样本搜索文本中的出现频次选取出现频次较高的样本搜索字作为目标样本搜索字，以及根据样本候选字在样本候选文本中的出现频次选取出出现频次较高的样本候选字作为目标样本候选字，计算目标样本搜索字的向量和目标样本候选字的更新向量的相似度得到样本搜索文本和样本候选文本的匹配度。样本搜索字的向量和样本候选字的更新向量的相似度可以采用基于欧氏距离的相似度、余弦相似度等，本公开对相似度的计算公式不加以限制。本公开以基于欧氏距离的相似度为例，可以将样本搜索字的向量的第n项作为V1_n、样本候选字的更新向量的第n项作为V2_n带入上述公式(1)，得到的SIM为样本搜索字的向量和样本候选字的更新向量的相似度。

步骤A3，根据样本匹配度和训练匹配度确定损失值，其中，训练匹配度为样本搜索文本和样本候选文本的匹配度。

具体地，可以将样本匹配度和训练匹配度输入至损失函数中得到损失值，其中，损失函数可以包括但不限于：平方损失函数、交叉熵损失函数、绝对值损失函数。以交叉熵损失函数为例，可以采用如下公式计算得到损失值：

其中，LOSS为损失值，I为训练样本的数目，MD_i为第i个训练样本的样本匹配度，MD'_i为第i个训练样本的训练匹配度。

上述过程中，基于样本搜索字的向量、样本候选字的第三向量和样本候选文本的主题分布，预测得到样本搜索文本和样本候选文本的匹配度，与基于搜索字的第一向量、候选字的第三向量和候选文本的主题分布，预测得到搜索文本和候选文本的匹配度的原理相同，在此不再赘述。

可选地，所述步骤102包括子步骤B1至B4：

子步骤B1，生成所述搜索字的第四向量。

在本公开中，采用第一向量生成单元生成搜索字的第四向量，第一向量生成单元是可以生成向量的任意机器模型，包括但不限于：Word2Vec、Graph Embedding。本公开的实施例对第一向量生成单元的具体形式不加以限制。第一向量生成单元预先通过大量的字进行训练得到，这些大量的字中包含了搜索字，以使第一向量生成单元为每个字生成一个唯一的向量，向量可以作为字的唯一标识，从而第四向量是搜索字的唯一标识。

子步骤B2，生成所述搜索文本和所述候选文本拼接的文本中每个文本字的第五向量。

具体地，可以将搜索文本和候选文本拼接的文本输入至第二向量生成单元中，得到每个文本字的第五向量。其中，第二向量生成单元是可以生成向量的任意机器模型，包括但不限于：Word2Vec、Graph Embedding。本公开的实施例对第二向量生成单元的具体形式不加以限制。第二向量生成单元预先通过大量的字进行训练得到，这些大量的字中包含了搜索字和候选字，以使第二向量生成单元为每个字生成一个唯一的向量，向量可以作为字的唯一标识，从而第五向量是文本字的唯一标识。

子步骤B3，针对每个所述搜索字，通过所述搜索字的第四向量和各所述文本字的第五向量的相似度，对各所述文本字的第五向量进行加权求和得到所述搜索字的第一向量。

具体地，可以通过如下公式计算得到搜索字的第一向量：

其中，V1_n为搜索字的第一向量的第n维取值，SIM_m为搜索字的第四向量和第m个文本字的第五向量的相似度，V5_m，n为第m个文本字的第五向量的第n维取值，M为文本字的数目。

子步骤B4，针对每个所述候选字，通过所述候选字的第五向量和各搜索字的第四向量的相似度，对各所述搜索字的第四向量进行加权求和得到所述候选字的第二向量。

具体地，可以通过如下公式计算得到候选字的第二向量：

其中，V3_n为候选字的第二向量的第n维取值，SIM_k为第k个搜索字的第四向量和候选字的第五向量的相似度，V4_k，n为第k个搜索字的第四向量的第n维取值，K为搜索字的数目。

在本公开中，上述子步骤B1至B4可以通过如图4所示的向量生成子模型实现。所述向量生成子模型包括：第一向量生成单元、第二向量生成单元和第三向量生成单元，第一向量生成单元用于实现子步骤B1，第二向量生成子单元用于实现子步骤B2，第三向量生成单元用于实现子步骤B3至B4。具体地，可以将搜索文本输入至第一向量生成单元中，得到搜索文本中各搜索字的第四向量，将搜索文本和候选文本拼接为综合文本之后，将综合文本输入至第一向量生成单元，得到综合文本中各文本字的第五向量，如此实现了第一阶段交互；然后将搜索文本中各搜索字的第四向量和综合文本中各文本字的第五向量输入至第三向量生成单元，第三生成单元结合搜索字的第四向量和文本字的第五向量生成搜索字的第一向量，以及，结合搜索字的第四向量和候选字的第五向量生成候选字的第二向量(即第二阶段交互)。

可选地，所述第一向量生成单元和所述第二向量生成单元均采用BERT模型，所述第三向量生成单元采用CA(Cross-Attention，跨越注意力)模型。

其中，BERT(Bidirectional Encoder Representations from Transformers，转换器的双向编码器表示)在自然语言处理过程中非常有效，可以生成文本的向量。在本公开的实施例中，在训练时BERT模型分别生成样本候选文本中样本候选字的向量和样本搜索文本中样本搜索字的向量，在应用时BERT模型分别生成候选文本中候选字的第五向量和搜索文本中搜索字的第四向量。

需要说明的是，在训练时对样本搜索字和样本候选字也进行和子步骤B1至B4相同的处理，在此不再赘述。

本公开的实施例通过两阶段交互的方式生成搜索字的第一向量和候选字的第二向量，有助于提高两个向量的准确度。

可选地，所述步骤105包括子步骤C1至C2：

子步骤C1，根据所述搜索字的第一向量和所述搜索字的第四向量生成所述搜索字的第六向量。

具体地，可以将搜索字的第一向量和搜索字的第四向量相加得到搜索字的第六向量。例如，若第一向量为[YV1，YV2，…，YVN]，第四向量为[SV1，SV2，…，SVN]，从而得到的第六向量为[YV1+SV1，YV2+SV2，…，YVN+SVN]。搜索字的第六向量结合了与候选文本的交互信息，从而更加准确的表示搜索字。

子步骤C2，根据所述候选字的第三向量和所述搜索字的第六向量，确定所述搜索文本和所述候选文本的匹配度。

具体地，计算搜索文本和候选文本的匹配度的策略可以灵活选取。在一种示例中，对于一个或多个搜索字和一个或多个候选字，计算一搜索字的第六向量和一候选字的第三向量的相似度，从而可以将多个相似度求平均作为搜索文本和候选文本的匹配度，或，将最大或最小的匹配度作为搜索文本和候选文本的匹配度；在另一种示例中，根据搜索字在搜索文本中的出现频次选取出现频次较高的搜索字作为目标搜索字，以及根据候选字在候选文本中的出现频次选取出出现频次较高的候选文本作为目标候选字，计算目标搜索字的第六向量和目标候选字的第三向量的相似度得到搜索文本和候选文本的匹配度。

其中，搜索字的第六向量和候选字的第三向量的相似度可以采用基于欧氏距离的相似度、余弦相似度等，本公开对向量的相似度的计算公式不加以限制。若采用基于欧氏距离的相似度，则可以将搜索字的第六向量的第n项作为V1_n、候选字的第三向量的第n项作为V2_n带入上述公式(1)，得到的SIM为搜索字的第六向量和候选字的第三向量的相似度。

需要说明的是，在训练时对样本搜索字和样本候选字也进行和子步骤C1至C2相同的处理，在此不再赘述。

本公开可以采用结合了与候选文本的交互信息的搜索字的第六向量确定搜索文本和候选文本的匹配度，由于第六向量可以更加准确的表示搜索字，从而有助于提高匹配度的准确度。

可选地，所述子步骤C2包括子步骤D1至D2：

子步骤D1，从所述候选字中确定目标候选字，以及从所述搜索字中确定目标搜索字。

其中，目标候选字包括但不限于：任意一个候选字、候选文本中出现频次较高的候选字；目标搜索字包括但不限于：任意一个搜索字、搜索文本中出现频次较高的搜索字。

子步骤D2，根据所述目标搜索字的第六向量和所述目标候选字的第三向量的相似度，确定所述搜索文本和所述候选文本的匹配度。

其中，目标搜索字的第六向量和目标候选字的第三向量的相似度可以采用基于欧氏距离的相似度、余弦相似度等，本公开对向量的相似度的计算公式不加以限制。若采用基于欧氏距离的相似度，则可以将目标搜索字的第六向量的第n项作为V1_n、目标候选字的第三向量的第n项作为V2_n带入上述公式(1)，得到的SIM为目标搜索字的第六向量和目标候选字的第三向量的相似度。

在得到相似度之后，可以将目标搜索字的第六向量和目标候选字的第三向量的相似度，直接作为搜索文本和候选文本的匹配度，或对其进行变换得到搜索文本和候选文本的匹配度。

需要说明的是，在训练时对样本搜索字和样本候选字也进行和子步骤D1至D2相同的处理，在此不再赘述。

可选地，所述子步骤C2包括子步骤D3至D4：

子步骤D3，计算每个所述候选字的第三向量和每个所述搜索字的第六向量的相似度。

子步骤D4，将目标相似度作为所述搜索文本和所述候选文本的匹配度，所述目标相似度至少包括如下的至少一种：最大相似度、最小相似、平均相似度。

对于一个或多个搜索字和一个或多个候选字，计算一搜索字的第六向量和一候选字的第三向量的相似度，作为该搜索字和该候选字的匹配度，从而可以将多个匹配度求平均作为搜索文本和候选文本的匹配度，或，将最大或最小的匹配度作为搜索文本和候选文本的匹配度。

需要说明的是，在训练时对样本搜索字和样本候选字也进行和子步骤D3至D4相同的处理，在此不再赘述。

本公开可以通过综合多个相似度确定匹配度，有助于提高匹配度的准确度。

可选地，所述主题分布包括至少一个主题的分布向量，所述步骤104包括子步骤E1至E3：

子步骤E1，确定每个主题的分布向量和所述候选字的第二向量的相似度。

其中，主题的分布向量和候选字的第二向量的相似度可以采用基于欧氏距离的相似度、余弦相似度等，本公开对向量的相似度的计算公式不加以限制。若采用基于欧氏距离的相似度，则可以将主题的分布向量的第n项作为V1_n、候选字的第二向量的第n项作为V2_n带入上述公式(1)，得到的SIM为主题的分布向量和候选字的第二向量的相似度。

子步骤E2，采用所述相似度对所述主题的分布向量进行加权，得到所述候选字的主题加权向量。

具体地，可以通过如下公式计算得到候选字的主题加权向量：

其中，TWV_n为候选字的主题加权向量的第n维取值，I为主题的数目，SIM_i为第i个主题的分布向量和该候选字的第二向量的相似度，TDV_i，n为第i个主题的分布向量的第n维取值。

子步骤E3，根据所述候选字的主题加权向量和所述候选字的第二向量生成所述候选字的第三向量。

具体地，可以将候选字的主题加权向量和候选字的第二向量按维度相加，得到候选字的第三向量。

可以理解，子步骤E1至E3的过程可以通过记忆网络模型实现，实现原理可以参照步骤104的详细说明，在此不再赘述。

需要说明的是，在训练时对样本候选字也进行和子步骤E1至E3相同的处理，在此不再赘述。

可选地，所述步骤103包括子步骤F1至F3：

子步骤F1，将所述候选文本划分为至少一个分词。

具体地，可以采用现有的分词算法将候选文本划分为分词。其中，分词算法包括但不限于：基于字符串匹配的分词算法、基于语义的分词法、统计分词法。

子步骤F2，确定每个所述分词的向量。

其中，分词的向量可以将分词输入至向量生成子模型中得到。

子步骤F3，针对每个预设的主题，根据所述主题的向量和各所述分词的向量之间的相似度，确定所述主题的分布向量。

主题的向量和分词的向量的相似度直接作为分布向量中一个维度上的取值，从而该主题的分布向量的维数与分词的数目相关。

需要说明的是，在训练时对样本候选文本也进行和子步骤F1至F3相同的处理，在此不再赘述。

本公开可以通过分词生成主题的分布向量，使得主题的分布向量充分表现了候选文本的各项内容所对应的主题，有助于提高主题的分布向量的准确度。

综上所述，本公开提供了一种基于主题的匹配度确定方法，所述方法包括：获取搜索文本，所述搜索文本包括至少一个搜索字；生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；预测所述候选文本的主题分布；根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。本公开可以通过结合主题分布生成候选字的第三向量，使得计算的搜索文本和候选文本的匹配度结合了主题，有助于提高匹配度的准确度。

参照图5，其示出了本公开的基于主题的匹配度确定装置的结构图，具体如下：

搜索文本获取模块201，用于获取搜索文本，所述搜索文本包括至少一个搜索字。

向量生成模块202，用于生成所述搜索字的第一向量和候选文本中每个候选字的第二向量。

主题分布预测模块203，用于预测所述候选文本的主题分布。

向量更新模块204，用于根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量。

匹配度确定模块205，用于根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。

可选地，所述向量生成模块202包括第四向量生成子模块、第五向量生成子模块、第一向量生成子模块和第二向量生成子模块：

第四向量生成子模块，用于生成所述搜索字的第四向量。

第五向量生成子模块，用于生成所述搜索文本和所述候选文本拼接的文本中每个文本字的第五向量。

第一向量生成子模块，用于针对每个所述搜索字，通过所述搜索字的第四向量和各所述文本字的第五向量的相似度，对各所述文本字的第五向量进行加权求和得到所述搜索字的第一向量。

第二向量生成子模块，用于针对每个所述候选字，通过所述候选字的第五向量和各搜索字的第四向量的相似度，对各所述搜索字的第四向量进行加权求和得到所述候选字的第二向量。

可选地，所述匹配度确定模块205包括第六向量生成子模块和匹配度确定子模块：

第六向量生成子模块，用于根据所述搜索字的第一向量和所述搜索字的第四向量生成所述搜索字的第六向量。

匹配度确定子模块，用于根据所述候选字的第三向量和所述搜索字的第六向量，确定所述搜索文本和所述候选文本的匹配度。

可选地，所述匹配度确定子模块包括目标搜索字确定单元和第一匹配度确定单元：

目标搜索字确定单元，用于从所述候选字中确定目标候选字，以及从所述搜索字中确定目标搜索字。

第一匹配度确定单元，用于根据所述目标搜索字的第六向量和所述目标候选字的第三向量的相似度，确定所述搜索文本和所述候选文本的匹配度。

可选地，所述匹配度确定子模块包括相似度确定单元和第二匹配度确定单元：

相似度确定单元，用于计算每个所述候选字的第三向量和每个所述搜索字的第六向量的相似度。

第二匹配度确定单元，用于将目标相似度作为所述搜索文本和所述候选文本的匹配度，所述目标相似度至少包括如下的至少一种：最大相似度、最小相似、平均相似度。

可选地，所述主题分布包括至少一个主题的分布向量，所述向量更新模块204包括相似度确定子模块、向量加权子模块和第三向量生成子模块：

相似度确定子模块，用于确定每个主题的分布向量和所述候选字的第二向量的相似度。

向量加权子模块，用于采用所述相似度对所述主题的分布向量进行加权，得到所述候选字的主题加权向量。

第三向量生成子模块，用于根据所述候选字的主题加权向量和所述候选字的第二向量生成所述候选字的第三向量。

可选地，所述主题分布预测模块203包括分词子模块、分词向量确定子模块和分布向量确定子模块：

分词子模块，用于将所述候选文本划分为至少一个分词。

分词向量确定子模块，用于确定每个所述分词的向量。

分布向量确定子模块，用于针对每个预设的主题，根据所述主题的向量和各所述分词的向量之间的相似度，确定所述主题的分布向量。

综上所述，本公开提供了一种基于主题的匹配度确定装置，所述装置包括：搜索文本获取模块，用于获取搜索文本，所述搜索文本包括至少一个搜索字；向量生成模块，用于生成所述搜索字的第一向量和候选文本中每个候选字的第二向量；主题分布预测模块，用于预测所述候选文本的主题分布；向量更新模块，用于根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量；匹配度确定模块，用于根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度。本公开可以通过结合主题分布生成候选字的第三向量，使得计算的搜索文本和候选文本的匹配度结合了主题，有助于提高匹配度的准确度。

本公开的装置实施例可以参照方法实施例的详细说明，在此不再赘述。

本公开还提供了一种电子设备，参照图6，包括：处理器301、存储器302以及存储在所述存储器302上并可在所述处理器上运行的计算机程序3021，所述处理器301执行所述程序时实现前述实施例的基于主题的匹配度确定方法。

本公开还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的基于主题的匹配度确定方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本公开也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本公开的内容，并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开的基于主题的匹配度确定设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开的保护范围之内。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于主题的匹配度确定方法，其特征在于，所述方法包括：

获取搜索文本，所述搜索文本包括至少一个搜索字；

预测所述候选文本的主题分布；

2.根据权利要求1所述的方法，其特征在于，所述生成所述搜索字的第一向量和候选文本中每个候选字的第二向量，包括：

生成所述搜索字的第四向量；

生成所述搜索文本和所述候选文本拼接的文本中每个文本字的第五向量；

针对每个所述搜索字，通过所述搜索字的第四向量和各所述文本字的第五向量的相似度，对各所述文本字的第五向量进行加权求和得到所述搜索字的第一向量；

针对每个所述候选字，通过所述候选字的第五向量和各搜索字的第四向量的相似度，对各所述搜索字的第四向量进行加权求和得到所述候选字的第二向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述搜索字的第一向量和所述候选字的第三向量确定所述搜索文本和所述候选文本的匹配度，包括：

根据所述搜索字的第一向量和所述搜索字的第四向量生成所述搜索字的第六向量；

根据所述候选字的第三向量和所述搜索字的第六向量，确定所述搜索文本和所述候选文本的匹配度。

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选字的第三向量和所述搜索字的第六向量，确定所述搜索文本和所述候选文本的匹配度，包括：

从所述候选字中确定目标候选字，以及从所述搜索字中确定目标搜索字；

根据所述目标搜索字的第六向量和所述目标候选字的第三向量的相似度，确定所述搜索文本和所述候选文本的匹配度。

5.根据权利要求3所述的方法，其特征在于，所述根据所述候选字的第三向量和所述搜索字的第六向量，确定所述搜索文本和所述候选文本的匹配度，包括：

计算每个所述候选字的第三向量和每个所述搜索字的第六向量的相似度；

将目标相似度作为所述搜索文本和所述候选文本的匹配度，所述目标相似度至少包括如下的至少一种：最大相似度、最小相似、平均相似度。

6.根据权利要求1所述的方法，其特征在于，所述主题分布包括至少一个主题的分布向量，所述根据所述候选文本的主题分布和所述候选字的第二向量生成所述候选字的第三向量，包括：

确定每个主题的分布向量和所述候选字的第二向量的相似度；

采用所述相似度对所述主题的分布向量进行加权，得到所述候选字的主题加权向量；

根据所述候选字的主题加权向量和所述候选字的第二向量生成所述候选字的第三向量。

7.根据权利要求6所述的方法，其特征在于，所述预测所述候选文本的主题分布，包括：

将所述候选文本划分为至少一个分词；

确定每个所述分词的向量；

针对每个预设的主题，根据所述主题的向量和各所述分词的向量之间的相似度，确定所述主题的分布向量。

8.一种基于主题的匹配度确定装置，其特征在于，所述装置包括：

主题分布预测模块，用于预测所述候选文本的主题分布；

9.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于主题的匹配度确定方法。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7中任一项所述的基于主题的匹配度确定方法。