CN114625838A

CN114625838A - 一种搜索系统的优化方法、装置、存储介质及计算机设备

Info

Publication number: CN114625838A
Application number: CN202210235288.5A
Authority: CN
Inventors: 谯轶轩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-14
Anticipated expiration: 2042-03-10
Also published as: CN114625838B; WO2023168812A1

Abstract

本申请涉及人工智能领域，公开了一种搜索系统的优化方法及装置、存储介质、计算机设备，该方法包括：基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，并依据所述第一得分，确定与每个所述预设问题相似度较高的第一数量的目标文章；基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分；依据所述第一得分以及所述第二得分，确定第一KL散度值；基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统。本申请可以提升召回模块召回文章的准确性，以及排序模块对召回文章的排序准确性。

Description

一种搜索系统的优化方法、装置、存储介质及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其是涉及到一种搜索系统的优化方法及装置、存储介质、计算机设备。

背景技术

当前主流的大规模搜索排序技术采用的基本策略是：根据用户的问题(query)，先从大规模文档(passages)数据库中召回一部分相关的文章，再对召回的这部分文章进行重新排序。

然而，现有技术中，召回和排序两个模块的训练分属于不同阶段，由不同的人员负责，导致文章召回后重新排序的结果可能存在较大误差，影响用户的最终使用体验。

发明内容

有鉴于此，本申请提供了一种搜索系统的优化方法及装置、存储介质、计算机设备，可以提升召回模块召回文章的准确性，以及排序模块对召回文章的排序准确性，有利于提升用户的后续文章使用体验。

根据本申请的一个方面，提供了一种搜索系统的优化方法，所述搜索系统包括预设召回模块和预设排序模块，所述方法包括：

基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，并依据所述第一得分，确定与每个所述预设问题相似度较高的第一数量的目标文章；

基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分；

依据所述第一得分以及所述第二得分，确定第一KL散度值；

基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统。

可选地，所述基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，具体包括：

将所述预设问题集合中任一所述预设问题输入至所述预设召回模块的第一编码器中，得到与所述任一所述预设问题对应的问题向量；

将所述预设文章数据库中各个所述预设文章分别输入至所述预设召回模块的第二编码器中，得到与每个所述预设文章对应的文章向量；

分别计算所述任一所述问题向量与每个所述文章向量之间的内积，得到所述第一得分。

可选地，所述基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分，具体包括：

将所述任一所述预设问题以及与任一所述预设问题对应的所述目标文章作为所述预设排序模块的输入，得到第一输出向量；

基于所述第一输出向量以及全连接层，得到所述第二得分。

可选地，所述依据所述第一得分以及所述第二得分，确定第一KL散度值，具体包括：

分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第一得分进行标准化处理，得到每个所述第一得分对应的第一标准化分值；

分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第二得分进行标准化处理，得到每个所述第二得分对应的第二标准化分值；

依据所述第一标准化分值以及所述第二标准化分值，确定所述第一KL散度值。

可选地，所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统，具体包括：

判断所述第一KL散度值与预设散度阈值的关系，并当所述第一KL散度值大于所述预设散度阈值时，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到更新后的预设召回模块以及预设排序模块；

基于更新后的预设召回模块以及预设排序模块，确定更新后的第一得分以及第二得分，并基于所述更新后的第一得分以及第二得分，确定第二KL散度值；

再次判断所述第二KL散度值与所述预设散度阈值的关系，并当所述第二KL散度值大于所述预设散度阈值时，对更新后的预设召回模块以及预设排序模块再次进行参数调整，直至KL散度值小于或等于所述预设散度阈值时，得到优化后的搜索系统。

可选地，所述得到优化后搜索系统之后，所述方法还包括：

获取测试问题集合，通过优化后的搜索系统中的召回模块从测试文章数据库中分别召回与所述测试问题集合中任一测试问题对应的第二数量的目标测试文章；

基于优化后的搜索系统中的排序模块对任一所述测试问题对应的所述目标测试文章进行排序，得到测试排序结果；

依据所述任一所述测试问题对应的所述目标测试文章以及所述测试排序结果，与所述任一所述测试问题对应的真实目标文章以及真实排序结果进行比对，并当比对通过时，所述优化后的搜索系统中的所述召回模块和所述排序模块测试通过。

可选地，所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整之前，所述方法还包括：

获取样本问题集合以及与所述样本问题集合中每个样本问题对应的至少一个文章正样本和至少一个文章负样本；

将任一所述样本问题和与所述任一所述样本问题对应的任一所述文章正样本作为所述预设排序模块的输入，得到第二输出向量，并基于所述第二输出向量以及所述全连接层，得到第三得分；

将所述任一所述样本问题和与所述任一所述样本问题对应的任一所述文章负样本作为所述预设排序模块的输入，得到第三输出向量，并基于所述第三输出向量以及所述全连接层，得到第四得分；

基于所述样本问题集合中各个所述样本问题对应的第三得分，以及与每个所述第三得分对应的不同所述文章负样本的所述第四得分，确定所述预设排序模块对应的目标损失值；

所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，具体包括：

基于所述第一KL散度值以及所述目标损失值，对所述预设召回模块以及所述预设排序模块的参数进行调整。

根据本申请的另一方面，提供了一种搜索系统的优化装置，所述搜索系统包括预设召回模块和预设排序模块，所述装置包括：

第一计算模块，用于基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，并依据所述第一得分，确定与每个所述预设问题相似度较高的第一数量的目标文章；

第二计算模块，用于基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分；

散度值确定模块，用于依据所述第一得分以及所述第二得分，确定第一KL散度值；

参数调整模块，用于基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索模块。

可选地，所述第一计算模块，具体用于：

将所述预设问题集合中任一所述预设问题输入至所述预设召回模块的第一编码器中，得到与所述任一所述预设问题对应的问题向量；将所述预设文章数据库中各个所述预设文章分别输入至所述预设召回模块的第二编码器中，得到与每个所述预设文章对应的文章向量；分别计算所述任一所述问题向量与每个所述文章向量之间的内积，得到所述第一得分。

可选地，所述第二计算模块，具体用于：

将所述任一所述预设问题以及与任一所述预设问题对应的所述目标文章作为所述预设排序模块的输入，得到第一输出向量；基于所述第一输出向量以及全连接层，得到所述第二得分。

可选地，所述散度值确定模块，具体包括：

第一标准化单元，用于分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第一得分进行标准化处理，得到每个所述第一得分对应的第一标准化分值；

第二标准化单元，用于分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第二得分进行标准化处理，得到每个所述第二得分对应的第二标准化分值；

散度值确定单元，用于依据所述第一标准化分值以及所述第二标准化分值，确定所述第一KL散度值。

可选地，所述参数调整模块，具体包括：

判断单元，用于判断所述第一KL散度值与预设散度阈值的关系，并当所述第一KL散度值大于所述预设散度阈值时，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到更新后的预设召回模块以及预设排序模块；

得分确定单元，用于基于更新后的预设召回模块以及预设排序模块，确定更新后的第一得分以及第二得分，并基于所述更新后的第一得分以及第二得分，确定第二KL散度值；

所述判断单元，还用于再次判断所述第二KL散度值与所述预设散度阈值的关系，并当所述第二KL散度值大于所述预设散度阈值时，对更新后的预设召回模块以及预设排序模块再次进行参数调整，直至KL散度值小于或等于所述预设散度阈值时，得到优化后的搜索系统。

可选地，所述装置还包括：

获取模块，用于所述得到优化后的搜索系统之后，获取测试问题集合，通过优化后的搜索系统中的召回模块从测试文章数据库中分别召回与所述测试问题集合中任一测试问题对应的第二数量的目标测试文章；

排序模块，用于基于优化后的搜索系统中的排序模块对任一所述测试问题对应的所述目标测试文章进行排序，得到测试排序结果；

比对模块，用于依据所述任一所述测试问题对应的所述目标测试文章以及所述测试排序结果，与所述任一所述测试问题对应的真实目标文章以及真实排序结果进行比对，并当比对通过时，所述优化后的搜索系统中的所述召回模块和所述排序模块测试通过。

可选地，所述装置还包括：

所述获取模块，用于所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整之前，获取样本问题集合以及与所述样本问题集合中每个样本问题对应的至少一个文章正样本和至少一个文章负样本；

输入模块，用于将任一所述样本问题和与所述任一所述样本问题对应的任一所述文章正样本作为所述预设排序模块的输入，得到第二输出向量，并基于所述第二输出向量以及所述全连接层，得到第三得分；将所述任一所述样本问题和与所述任一所述样本问题对应的任一所述文章负样本作为所述预设排序模块的输入，得到第三输出向量，并基于所述第三输出向量以及所述全连接层，得到第四得分；

损失值确定模块，用于基于所述样本问题集合中各个所述样本问题对应的第三得分，以及与每个所述第三得分对应的不同所述文章负样本的所述第四得分，确定所述预设排序模块对应的目标损失值；

所述参数调整模块，具体用于：

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述搜索系统的优化方法。

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述搜索系统的优化方法。

借由上述技术方案，本申请提供的一种搜索系统的优化方法及装置、存储介质、计算机设备，首先，针对预设问题集合中的每一个预设问题，根据预先设定的召回模块计算该预设问题与预设文章数据库中每一个预设文章之间的第一得分。确定每个预设问题与预设文章数据库中各个预设文章之间的第一得分后，可以以该第一得分为基础，从预设文章数据库中确定第一数量的目标文章。之后，可以分别计算每个预设问题与该预设问题对应的目标文章之间的第二得分。接着，可以进一步利用第一得分、第二得分以及KL散度计算公式，确定第一KL散度值。得到第一KL散度值后，可以通过第一KL散度值对预设召回模块和预设排序模块中的参数进行调整，进而实现对预设召回模块和预设排序模块的统一优化，得到优化后的搜索系统。本申请实施例通过对预设召回模块和预设排序模块进行统一训练、统一优化，可以提升召回模块召回文章的准确性，以及排序模块对召回文章的排序准确性，有利于提升用户的后续文章使用体验。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种搜索系统的优化方法的流程示意图；

图2示出了本申请实施例提供的另一种搜索系统的优化方法的流程示意图；

图3示出了本申请实施例提供的另一种搜索系统的优化装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种搜索系统的优化方法，所述搜索系统包括预设召回模块和预设排序模块，如图1所示，该方法包括：

步骤101，基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，并依据所述第一得分，确定与每个所述预设问题相似度较高的第一数量的目标文章；

本申请实施例提供的搜索系统的优化方法，建立了召回模块和排序模块之间的桥梁，使得在召回模块和排序模块训练的过程中，排序模块可以利用召回模块传递的信息，召回模块也可以同样利用排序模块传递的信息，实现了召回模块与排序模块之间的统一优化，能够有效提升文章召回后重新排序的准确性。搜索系统中可以包括预设召回模块和预设排序模块。在对预设召回模块和预设排序模块进行统一优化之前，可以预先设定问题集合，问题集合中可以包括多个预设问题。首先，针对预设问题集合中的每一个预设问题，根据预先设定的召回模块计算该预设问题与预设文章数据库中每一个预设文章之间的第一得分。例如，预设问题集合中包含5个预设问题，预设文章数据库中包括100篇预设文章，那么针对每个预设问题，均可以得到100个第一得分。确定每个预设问题与预设文章数据库中各个预设文章之间的第一得分后，可以以该第一得分为基础，从预设文章数据库中确定第一数量的目标文章。具体地，针对第一个预设问题，将预设文章数据库中的预设文章按照第一得分进行排序，选择第一得分较高的第一数量的目标文章。在这里，第一得分较高，说明预设问题和对应的预设文章之间的相似度较高，也即通过第一得分可以从侧面反映出预设问题和预设文章之间的相似度。本申请实施例中的预设召回模块和预设排序模块可以是现有的模块，不用关心具体的预设召回模块和预设排序模块的技术实现细节，因而本申请实施例的方法具有较强的普遍适用性。

步骤102，基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分；

在该实施例中，确定预设问题集合中每个预设问题对应的目标文章后，还可以分别计算每个预设问题与该预设问题对应的目标文章之间的第二得分。例如，预设问题集合中包括5个预设问题，每个预设问题对应的目标文章的第一数量为10篇，那么针对每个预设问题，分别计算该预设问题与对应的10篇目标文章之间的第二得分，即每个预设问题对应有10个第二得分。

步骤103，依据所述第一得分以及所述第二得分，确定第一KL散度值；

在该实施例中，可以进一步利用第一得分、第二得分以及KL散度计算公式，确定第一KL散度值。其中，第一KL散度值由每个预设问题对应的所有第一得分和所有第二得分计算得到。

步骤104，基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统。

在该实施例中，得到第一KL散度值后，可以通过第一KL散度值对预设召回模块和预设排序模块中的参数进行调整，进而实现对预设召回模块和预设排序模块的统一优化，得到优化后的搜索系统。在这里，搜索系统中包括已经优化完毕的召回模块和排序模块。

通过应用本实施例的技术方案，首先，针对预设问题集合中的每一个预设问题，根据预先设定的召回模块计算该预设问题与预设文章数据库中每一个预设文章之间的第一得分。确定每个预设问题与预设文章数据库中各个预设文章之间的第一得分后，可以以该第一得分为基础，从预设文章数据库中确定第一数量的目标文章。之后，可以分别计算每个预设问题与该预设问题对应的目标文章之间的第二得分。接着，可以进一步利用第一得分、第二得分以及KL散度计算公式，确定第一KL散度值。得到第一KL散度值后，可以通过第一KL散度值对预设召回模块和预设排序模块中的参数进行调整，进而实现对预设召回模块和预设排序模块的统一优化，得到优化后的搜索系统。本申请实施例通过对预设召回模块和预设排序模块进行统一训练、统一优化，可以提升召回模块召回文章的准确性，以及排序模块对召回文章的排序准确性，有利于提升用户的后续文章使用体验。

在本申请实施例中，可选地，步骤104之前，所述方法还包括：获取样本问题集合以及与所述样本问题集合中每个样本问题对应的至少一个文章正样本和至少一个文章负样本；将任一所述样本问题和与所述任一所述样本问题对应的任一所述文章正样本作为所述预设排序模块的输入，得到第二输出向量，并基于所述第二输出向量以及所述全连接层，得到第三得分；将所述任一所述样本问题和与所述任一所述样本问题对应的任一所述文章负样本作为所述预设排序模块的输入，得到第三输出向量，并基于所述第三输出向量以及所述全连接层，得到第四得分；基于所述样本问题集合中各个所述样本问题对应的第三得分，以及与每个所述第三得分对应的不同所述文章负样本的所述第四得分，确定所述预设排序模块对应的目标损失值。

在该实施例中，依据第一KL散度值对预设召回模块和预设排序模块的参数进行调整之前，还可以计算预设排序模块的目标损失值。具体地，首先可以获取样本问题集合，以及与样本问题集合中每个样本问题对应的一个或多个文章正样本和文章负样本。样本问题、文章正样本和文章负样本均可以来自于开源数据集MSMARCO，该数据集中总共有502939个问题，约8841823篇样本文章，其中每个样本问题q至少有一个标准的官方给定的文章正样本p⁺,对于每一个样本问题q，可以从样本文章中随机选择1024个非该样本问题对应的文章正样本作为文章负样本p^-。之后可以以任一样本问题和与该样本问题对应的任一文章正样本作为预设排序模块的输入，得到第二输出向量。接着，以第二输出向量和全连接层为基础，得到第三得分。此外，还可以以任一样本问题和该样本问题对应的任一文章负样本作为预设排序模块的输入，得到第三输出向量，并以第三输出向量和全连接层为基础，得到第四得分。计算得到第三得分和第四得分后，可以根据目标损失函数，确定目标损失值。其中，目标损失函数可以为：

s_ce(q,p⁺)表示样本问题q与文章正样本之间的第三得分，s_ce(q,p^-)表示样本问题q与文章负样本之间的第四得分，其中N代表模型单次迭代过程中的样本总量，∑_p-表示对应于给定样本问题q的1024个文章负样本组成的集合，Q表示预设问题集合。通过第三得分和第四得分，即可根据目标损失函数确定目标损失值。

在本申请实施例中，可选地，步骤104中所述“基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整”，具体包括：基于所述第一KL散度值以及所述目标损失值，对所述预设召回模块以及所述预设排序模块的参数进行调整。

在该实施例中，确定目标损失值后，可以根据第一KL散度值和目标损失值计算最终损失值，具体可以将第一KL散度值与目标损失值相加，得到最终损失值，或者将第一KL散度值与目标损失值加权相加，得到最终损失值。接着可以以最终损失值为基础，对预设召回模块和预设排序模块的参数进行调整。本申请实施例设置目标损失函数，通过目标损失值对预设召回模块和预设排序模块的参数进行调整，对参数调整起到了辅助作用，使得模块参数的调整不再仅仅依赖于预设召回模块召回的目标文章，此外还同步依赖已经标记的样本问题和文章正样本，可以使得模块参数的调整更加准确，有利于提升召回的目标文章的质量，以及对目标文章进行排序的准确度。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种搜索系统的优化方法，如图2所示，该方法包括：

步骤201，将所述预设问题集合中任一所述预设问题输入至所述预设召回模块的第一编码器中，得到与所述任一所述预设问题对应的问题向量；

在该实施例中，预设召回模块通常采用Dual-Encoder结构，即双编码器结构。其中双编码器中的第一编码器用于编码预设问题，第二编码器用于编码预设文章，双编码器的作用是将文字级别的预设文章和预设问题编码成固定维度的向量。具体地，可以将预设问题集合中的每个预设问题分别输入到双编码器的第一编码器中，第一编码器可以对应输出与该预设问题对应的问题向量。

步骤202，将所述预设文章数据库中各个所述预设文章分别输入至所述预设召回模块的第二编码器中，得到与每个所述预设文章对应的文章向量；

在该实施例中，可以将预设文章数据库中每个预设文章分别输入到双编码器的第二编码器中，可以对应输出每个预设文章对应的文章向量，其中，问题向量和文章向量的维度是相同的。

步骤203，分别计算所述任一所述问题向量与每个所述文章向量之间的内积，得到所述第一得分；

在该实施例中，可以以预设问题集合中任意一个预设问题对应的问题向量，和预设文章数据库中任一一个预设文章对应的文章向量为基础，通过计算问题向量和文章向量的内积，可以得到第一得分，具体地可以直接将内积的结果作为第一得分。内积的计算公式可以表示如下：s_de(q，p)＝E_Q(q)^T·E_P(p)，其中，Q表示预设问题集合，q表示预设问题集合中的任意一个预设问题，P表示预设文章数据库中预设文章集合，p表示预设文章数据库中任意一个预设文章。E_Q(q)表示预设问题集合中任一预设问题q对应的问题向量，E_P(p)表示预设文章数据库中任一预设文章p对应的文章向量。

步骤204，依据所述第一得分，确定与每个所述预设问题相似度较高的第一数量的目标文章；

在该实施例中，确定每个预设问题与预设文章数据库中各个预设文章之间的第一得分后，可以以该第一得分为基础，从预设文章数据库中确定第一数量的目标文章。

步骤205，将所述任一所述预设问题以及与任一所述预设问题对应的所述目标文章作为所述预设排序模块的输入，得到第一输出向量；基于所述第一输出向量以及全连接层，得到所述第二得分；

在该实施例中，预设排序模块通常采用cross-encoder结构，即联合编码器架构，例如BERT模型。可以直接将每一个预设问题和与该预设问题对应的一个目标文章作为预设排序模块的输入，这样可以对应输出一个第一输出向量，接着，可以将第一输出向量输入到全连接层中，进而得到第二得分。例如，可以将每个预设问题和每个目标文章构造成如下格式：[cls]q[sep]p，其中[cls]标记输入的开始，[sep]分隔预设问题q和目标文章p,取最终结果中[cls]字符对应位置的向量作为第一输出向量，接着通过全连接层，得到第二得分。

步骤206，分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第一得分进行标准化处理，得到每个所述第一得分对应的第一标准化分值；

在该实施例中，得到每个预设问题和与该预设问题对应的任一目标文章之间的第一得分和第二得分之后，可以进一步对每个第一得分和每个第二得分进行标准化处理，得到第一标准化分值和第二标准化分值。具体地，计算第一标准化分值时，可以通过如下公式进行计算：

其中，

表示第一标准化分值，s_de(q,p)表示预设问题q与目标文章p之间的第一得分，s_de(q,p’)表示预设问题q和与该预设问题q对应的任意一个目标文章p’之间的第一得分，P_q表示与预设问题q对应的目标文章的集合。

步骤207，分别对任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的所述第二得分进行标准化处理，得到每个所述第二得分对应的第二标准化分值；

在该实施例中，具体地，计算第二标准化分值时，可以通过如下公式进行计算：

其中，

表示第二标准化分值，s_ce(q,p)表示预设问题q与目标文章p之间的第二得分，s_ce(q,p’)表示预设问题q和与该预设问题q对应的任意一个目标文章p’之间的第二得分，P_q表示与预设问题q对应的目标文章的集合。

步骤208，依据所述第一标准化分值以及所述第二标准化分值，确定所述第一KL散度值；

在该实施例中，在计算第一KL散度值时，可以以第一标准化分值以及第二标准化分值为基础，利用KL散度计算公式进行计算。KL散度计算公式如下：

其中

表示第一标准化分值，

表示第二标准化分值。

步骤209，判断所述第一KL散度值与预设散度阈值的关系，并当所述第一KL散度值大于所述预设散度阈值时，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到更新后的预设召回模块以及预设排序模块；

在该实施例中，计算完第一KL散度值之后，可以将第一KL散度值与预设散度阈值进行比较，判断第一KL散度值与预设散度阈值之间的大小关系。当第一KL散度值比预设散度阈值大时，说明预设召回模块和预设排序模块之间的分布并不接近，通过预设排序模块对预设召回模块召回的目标文章进行排序时可能存在较大误差，此时可以对预设召回模块和预设排序模块对应的参数进行调整，调整后可以得到更新后的预设召回模块和预设排序模块。具体地，在对预设召回模块和预设排序模块的参数进行调整时，可以同时对这两个模块中的参数进行调整，即每次既调整预设召回模块的参数，也调整预设排序模块的参数；此外也可以先只调整预设召回模块中的模型参数，等到预设召回模块对应的参数稳定后，再调整预设排序模块的参数，最后使得预设召回模块和预设排序模块的参数均稳定；还可以先只调整预设排序模块中的模型参数，等到预设排序模块对应的参数稳定后，再调整预设召回模块的参数，最后使得预设召回模块和预设排序模块的参数均稳定。

步骤210，基于更新后的预设召回模块以及预设排序模块，确定更新后的第一得分以及第二得分，并基于所述更新后的第一得分以及第二得分，确定第二KL散度值；

在该实施例中，当对预设召回模块和预设排序模块的参数调整结束后，可以根据更新后的预设召回模块再次计算预设问题集合中每个预设问题与预设文章数据库中每个预设文章之间的第一得分，并根据第一得分从预设文章数据库中重新找出每个预设问题对应的第一数量的目标文章。接着，根据更新后的预设排序模块，计算每个预设问题与该预设问题对应的每个目标文章之间的第二得分，之后根据第一得分和第二得分再次计算第二KL散度值。也就是说，第二KL散度值是基于更新后的预设召回模块和预设排序模块得到的。

步骤211，再次判断所述第二KL散度值与所述预设散度阈值的关系，并当所述第二KL散度值大于所述预设散度阈值时，对更新后的预设召回模块以及预设排序模块再次进行参数调整，直至KL散度值小于或等于所述预设散度阈值时，得到优化后的搜索系统。

在该实施例中，计算第二KL散度值之后，可以再次判断第二KL散度值和预设散度阈值之间的关系，当第二KL散度值小于或等于预设散度阈值时，可以将更新后的预设召回模块和更新后的预设排序模块作为统一优化后的召回模块和排序模块，否则，对更新后的预设召回模块和预设排序模块再次进行参数的调整，通过不断调整参数、不断计算KL散度值，直至计算得到的KL散度值小于或者等于预设散度阈值时结束，得到统一优化后的召回模块和排序模块，即得到优化后的搜索系统。

在本申请实施例中，可选地，步骤211之后，所述方法还包括：获取测试问题集合，通过优化后的搜索系统中的召回模块从测试文章数据库中分别召回与所述测试问题集合中任一测试问题对应的第二数量的目标测试文章；基于优化后的搜索系统中的排序模块对任一所述测试问题对应的所述目标测试文章进行排序，得到测试排序结果；依据所述任一所述测试问题对应的所述目标测试文章以及所述测试排序结果，与所述任一所述测试问题对应的真实目标文章以及真实排序结果进行比对，并当比对通过时，所述优化后的搜索系统中的所述召回模块和所述排序模块测试通过。

在该实施例中，得到统一优化后的召回模块和排序模块后，还可以进一步测试召回模块和排序模块的准确度。首先，可以获取测试问题集合，根据优化后的搜索系统中的召回模块可以从测试文章数据库中找到每个测试问题对应的第二数量的目标测试文章。确定每个测试问题对应的目标测试文章后，可以根据优化后的搜索系统中的排序模块对每个测试问题对应的目标测试文章进行排序，得到每个测试问题对应的测试排序结果。在这里，每个测试问题在测试文章数据库中可以对应有真实目标文章，以及第二数量的真实目标文章对应的官方指定真实排序结果。因而，可以进一步对任一测试问题对应的召回的目标测试文章和真实目标文章、以及测试排序结果和真实排序结果进行比对。如果比对通过，说明统一优化后的召回模块和排序模块通过了测试，后续可以直接应用。

进一步的，作为图1方法的具体实现，本申请实施例提供了一种搜索系统的优化装置，所述搜索系统包括预设召回模块和预设排序模块，如图3所示，该装置包括：

参数调整模块，用于基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统。

可选地，所述第一计算模块，具体用于：

可选地，所述第二计算模块，具体用于：

可选地，所述散度值确定模块，具体包括：

可选地，所述参数调整模块，具体包括：

可选地，所述装置还包括：

所述参数调整模块，具体用于：

需要说明的是，本申请实施例提供的一种搜索系统的优化装置所涉及各功能单元的其他相应描述，可以参考图1至图2方法中的对应描述，在此不再赘述。

基于上述如图1至图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述如图1至图2所示的搜索系统的优化方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1至图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该计算机设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1至图2所示的搜索系统的优化方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。首先，针对预设问题集合中的每一个预设问题，根据预先设定的召回模块计算该预设问题与预设文章数据库中每一个预设文章之间的第一得分。确定每个预设问题与预设文章数据库中各个预设文章之间的第一得分后，可以以该第一得分为基础，从预设文章数据库中确定第一数量的目标文章。之后，可以分别计算每个预设问题与该预设问题对应的目标文章之间的第二得分。接着，可以进一步利用第一得分、第二得分以及KL散度计算公式，确定第一KL散度值。得到第一KL散度值后，可以通过第一KL散度值对预设召回模块和预设排序模块中的参数进行调整，进而实现对预设召回模块和预设排序模块的统一优化，得到优化后的搜索系统。本申请实施例通过对预设召回模块和预设排序模块进行统一训练、统一优化，可以提升召回模块召回文章的准确性，以及排序模块对召回文章的排序准确性，有利于提升用户的后续文章使用体验。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种搜索系统的优化方法，其特征在于，所述搜索系统包括预设召回模块和预设排序模块，所述方法包括：

依据所述第一得分以及所述第二得分，确定第一KL散度值；

2.根据权利要求1所述的方法，其特征在于，所述基于所述预设召回模块，分别计算预设问题集合中每个预设问题与预设文章数据库中各个预设文章之间的第一得分，具体包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述预设排序模块，分别计算任一所述预设问题和与任一所述预设问题对应的所述目标文章之间的第二得分，具体包括：

基于所述第一输出向量以及全连接层，得到所述第二得分。

4.根据权利要求1所述的方法，其特征在于，所述依据所述第一得分以及所述第二得分，确定第一KL散度值，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整，得到优化后的搜索系统，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述得到优化后的搜索系统之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一KL散度值，对所述预设召回模块以及所述预设排序模块的参数进行调整之前，所述方法还包括：

8.一种搜索系统的优化装置，其特征在于，所述搜索系统包括预设召回模块和预设排序模块，所述装置包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。