CN112148895B

CN112148895B - 检索模型的训练方法、装置、设备和计算机存储介质

Info

Publication number: CN112148895B
Application number: CN202011023354.XA
Authority: CN
Inventors: 丁宇辰; 曲瑛琪; 刘璟; 刘凯; 洪豆; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2024-01-23
Anticipated expiration: 2040-09-25
Also published as: US20220100786A1; CN112148895A; JP7160986B2; US11847150B2; EP3975006A1; KR20220041721A; JP2022054389A

Abstract

本申请公开了一种检索模型的训练方法、装置、设备和计算机存储设备，涉及智能搜索和自然语言处理技术。具体实现方案为：获取初始训练数据；利用初始训练数据训练得到初始检索模型；利用初始检索模型从候选文本中选择与训练数据中的查询项的相关度满足预设第一要求的文本以更新该查询项对应的相关文本负例；利用更新后的训练数据训练得到第一检索模型；利用第一检索模型，从候选文本中选择与训练数据中的查询项的相关度满足预设第二要求的文本以扩充该查询项对应的相关文本正例，和/或，选择与该查询项的相关度满足预设第三要求的文本用以扩充相关文本负例；利用扩充后的训练数据训练得到第二检索模型。本申请能够降低对高质量训练数据的要求。

Description

检索模型的训练方法、装置、设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，特别涉及智能搜索和自然语言处理技术。

背景技术

在信息时代，人们希望从海量的文本中快速找到自己需要的信息，因此信息检索技术变得至关重要。随着深度神经网络的推广与发展，信息检索技术也发生着巨大变化，各种预训练语言模型作为检索模型被运用于信息检索领域中，带来了显著的效果提升。

在检索模型的训练过程中需要大量人工标注的训练数据，训练数据的数量和质量直接决定了检索模型的最终效果。然而高质量的训练数据是非常宝贵的，如何在保证模型效果的前提下，降低模型训练过程中对高质量训练数据的要求成为亟待解决的问题。

发明内容

有鉴于此，本申请提供了一种检索模型的训练方法、装置、设备和计算机存储介质，以便于在保证模型效果的前提下，降低模型训练过程中对高质量训练数据的要求。

第一方面，本申请提供了一种检索模型的训练方法，包括：

获取初始训练数据，所述初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例；利用所述初始训练数据训练得到初始检索模型；

利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第一检索模型；

利用所述第一检索模型，从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例；利用扩充后的训练数据训练得到第二检索模型。

第二方面，本申请提供了一种检索模型的训练装置，包括：

初始获取单元，用于获取初始训练数据，所述初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例；

初始训练单元，用于利用所述初始训练数据训练得到初始检索模型；

第一更新单元，用于利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例；

第一训练单元，用于利用所述第一更新单元更新后的训练数据训练得到第一检索模型；

第一扩充单元，用于利用所述第一检索模型，从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例；

第二训练单元，用于利用所述第一扩充单元扩充后的训练数据训练得到第二检索模型。

第三方面，本申请提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的方法。

第四方面，本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的方法。

第五方面，本申请还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一项所述的方法。

由以上技术方案可以看出，本申请能够在检索模型的训练过程中，利用中间训练得到的检索模型提升训练数据中的负例质量，以及扩充训练数据中的正例和/或负例，从而使得检索模型的训练在保证检索效果的前提下，降低对初始获取的高质量训练数据的要求。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1示出了可以应用本发明实施例的示例性系统架构；

图2为本申请实施例提供的训练检索模型的主要方法流程图；

图3为本申请实施例提供的训练检索模型的另一方法流程图；

图4a和图4b为本申请实施例提供的双塔模型和交叉注意力模型的结构示意图；

图5为本申请实施例提供的一种优选实施方式的流程图；

图6a和图6b为本申请实施例提供的训练双塔模型和交叉注意力模型的示意图；

图7a为本申请实施例提供的检索模型的训练装置的一种结构图；

图7b为本申请实施例提供的检索模型的训练装置的另一种结构图；

图8是用来实现本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本发明实施例的示例性系统架构。如图1所示，该系统架构可以包括终端设备101和102，网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用，例如搜索类应用、语音交互类应用、网页浏览器应用、通信类应用等。

终端设备101和102可以是能够支持并发起信息检索并展现检索结果的各种电子设备，包括但不限于智能手机、平板电脑、PC(Personal Computer，个人计算机)、智能音箱、智能穿戴式设备、智能电视等等。本发明所提供的装置可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

例如，检索模型的训练装置设置并运行于上述服务器104中，服务器104段利用本申请所提供的方法训练检索模型。当接收来自终端设备101或102的检索请求，该检索请求包含query(查询项)，则利用训练得到的检索模型确定向用户返回的检索结果。并可以将检索结果返回终端设备101或102。

服务器104可以是单一服务器，也可以是多个服务器构成的服务器群组。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2为本申请实施例提供的训练检索模型的主要方法流程图，如图2中所示，该方法可以包括以下步骤：

在201中，获取初始训练数据，初始训练数据包括query(查询项)以及该query对应的相关文本正例和相关文本负例；利用初始训练数据训练得到初始检索模型。

本申请中初始构建训练数据时，可以首先构建人工标注集，即针对一批query分别采用人工的方式从候选文本中标注该query的相关文本正例，从而保证训练数据中相关文本正例的高质量。对于query对应的相关文本负例可以从候选文本中随机选取，随机选取的个数可以采用预设的值，例如随机选取4个文本。

本申请实施例中涉及的候选文本与具体的应用领域相关。例如：如果是通用的网页搜索引擎，那么该候选文本就是搜索引擎爬取到的海量的网页。如果是书籍类的搜索引擎，那么该候选文本就是书籍数据库中所有的书籍文本。如果是某具体领域(例如医学类)的论文，那么该候选文本就是论文数据库中的海量论文。如果应用于问答平台，则该候选文本就是问答知识库中所有的答案对应的文本等等。

除了上述方式之外，对于相关文本正例也可以采用其他方式标注，例如从用户的历史搜索日志中获取并标注等等，在此不做一一穷举。

利用初始训练数据可以进行初始检索模型的训练，本申请中采用的检索模型的类型可以是诸如双塔模型、交叉注意力模型等。对于这些模型的训练过程将在后续实施例中进行详细描述。

在202中，利用初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第一检索模型。

从步骤201中可以看出，在构建训练数据时，query的相关文本正例是准确的，但query的相关文本负例往往是不准确的。但负例是对检索模型的效果产生非常大影响的，因此本步骤就是对训练数据中的相关文本负例的质量进行提升的处理。

准确的相关文本正例以及随机选取的相关文本负例已经使得训练得到的初始检索模型具有一定程度的效果，因此可以利用该初始检索模型从候选文本中确定出一部分query的强相关负例，用此强相关负例更新训练数据后，使得训练数据的质量得到提升。基于更新后训练数据训练得到的第一检索模型在效果上得到进一步提升。

作为其中一种优选的实施方式，本步骤中可以利用初始检索模型确定query与各候选文本的相关度，从相关度得分排在前M1个的候选文本中随机选择M2个用以更新该query对应的相关文本负例；其中M1和M2均为正整数，且M1>M2。

除了上述优选的实施方式之外，还可以采用其他方式来选择满足预设第一要求的文本，例如，选择相关度打分大于预设阈值的候选文本用以更新query对应的相关文本负例，等等。

在203中，利用第一检索模型，从候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例；利用扩充后的训练数据训练得到第二检索模型。

通过上述步骤202之后，对训练数据中相关文本负例的质量进行了提升，但对于检索模型的训练而言，训练数据中正例和负例的数量同样也起着至关重要的作用，很大程度上影响着检索模型的效果。因此，本步骤就是对训练数据中的相关文本正例和/或负例的数量进行扩充的处理。

作为一种优选的实施方式，本步骤中可以首先利用初始检索模型从候选文本中检索训练数据中query的相关文本；然后利用第一检索模型确定相关文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例，和/或，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例。其中第一阈值大于第二阈值，例如第一阈值取0.9，第二阈值取0.1。通过该优选的实施方式，除了对相关文本正例和负例的数量进行扩充，提高训练得到的检索模型的效果之外，在一定程度上对于相关文本负例的质量也进行了提升，更好地提高了检索模型的效果。

除了上述优选的实施方式之外，也可以采用其他实现方式。例如，利用第一检索模型确定相关文本与该query的相关度后，依据相关度排序，将排在前若干个的文本用以扩充该query对应的相关文本正例，将排在后若干个的文本用以用以扩充该query对应的相关文本负例。再例如，直接利用第一检索模型确定各候选文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以用以扩充该query对应的相关文本正例，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例。等等。

在通过上述实施例得到第二检索模型之后，可以将该第二检索模型作为信息检索用的模型。例如将用户输入的query输入第二检索模型后，第二检索模型能够从候选文本中确定该query对应的相关文本。

更进一步地，除了初始模型的训练和第一轮训练中对第一检索模型模型和第二检索模型的训练之外，还可以进一步进行第二轮的训练。该过程可以如图3中所示，包括以下步骤：

步骤301～303同图2所示实施例中步骤201～203，在此不做赘述。

在步骤304中，利用第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第三检索模型。

本步骤是利用第二检索模型进一步对训练数据中的相关文本负例进行质量提升，找到更强的负例，从而有利于检索模型对较难样本的判断。

作为一种优选的实施方式，可以利用第二检索模型确定query与候选文本的相关度；依据相关度排序以N1个候选文本为间隔选择N2个候选文本；然后从选择的N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后，将得到的候选文本用以更新该query对应的相关文本负例。其中，N1和N2为预设的正整数。

上述以N1个候选文本为间隔选择N2个候选文本，例如，每隔10个候选文本选择一个，这种选择方式能够有效防止候选文本中出现大量相似文本的情况。然后将选择出的文本过滤掉与相关文本正例相似度高的候选文本，该过滤处理的目的是为了防止在有些情况下漏标的正例被误选择为相关文本负例，从而影响检索模型的效果。最终形成4个相关文本负例来替换训练样本中对应query的相关文本负例。

除了上述优选的实施方式之外，也可以采用其他方式更新query对应的相关文本负例。例如，可以利用第二检索模型确定query与候选文本的相关度后，选择排在前若干个的候选文本以更新该query对应的相关文本负例。等等。

在305中，利用第三检索模型，从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例，和/或，选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例；利用各补充query对应的相关文本正例和/或相关文本负例扩充训练数据；利用扩充后的训练数据训练得到第四检索模型。

本步骤是对训练数据中的相关文本进行进一步扩充，包括对相关文本正例和/或相关文本负例的扩充，从而提高检索模型的效果。

本步骤中涉及到的补充query是在训练数据中增加的新的query。作为一种优选的实施方式，本步骤中可以首先利用第二检索模型从候选文本中检索训练数据中query的相关文本；利用第三检索模型确定相关文本与各补充query的相似度，将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例，和/或，将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例。例如第一阈值取0.9，第二阈值取0.1。

除了上述优选的实施方式之外，也可以采用其他实现方式。例如，利用第三检索模型确定相关文本与该query的相关度后，依据相关度排序，将排在前若干个的文本用以扩充该query对应的相关文本正例，将排在后若干个的文本用以用以扩充该query对应的相关文本负例。再例如，直接利用第三检索模型确定各候选文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以用以扩充该query对应的相关文本正例，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例。等等。

在通过上述实施例得到第四检索模型之后，可以将该第四检索模型作为信息检索用的模型。例如将用户输入的query输入第四检索模型后，第四检索模型能够从候选文本中确定该query对应的相关文本。

另外，在上述实施例中，初始检索模型、第二检索模型和第四检索模型可以采用同类型的模型，第一检索模型和第三检索模型可以采用同类型的模型。作为一种优选的实施方式，第二检索模型在训练时，可以在已经得到的初始检索模型的基础上利用扩充后的训练数据进行进一步训练得到。第四检索模型在训练时，可以在已经得到的第二检索模型的基础上利用扩充后的训练数据进行进一步训练得到。作为一种优选的实施方式，第三检索模型在训练时，可以在已经得到的第一检索模型的基础上利用更新后的训练数据进行进一步训练得到。

目前信息检索领域的常用模型主要有两种：一种是双塔模型(Dual Model)。所谓双塔模型是因为其采用两个编码器，分别对query和候选文本进行编码，得到query的向量表示以及候选文本的向量表示，然后再通过内积等方式计算两个向量表示之间的相关度(也称为相似度)作为query和候选文本的相关性得分。如图4a中所示，这种两个编码器的结构呈现出一种双塔式的结构，因此称为双塔模型。

另外一种是交叉注意力(Cross Attention)模型。所谓交叉注意力模型是将query和候选文本进行拼接后，对拼接得到的文本采用交叉注意力机制进行统一编码后，再进一步将编码结果进行映射(Softmax)得到query与候选文本的相关度，如图4b所示。

其中，交叉注意力模型的模型效果好，准确率高，但效率低。而双塔模型效率高，但效果不及交叉注意力模型。考虑到这两个模型的各自特点，本申请提供了一种优选的实施方式，将上述两种模型应用于本申请所提供的检索模型的训练过程中，充分利用两种模型各自的优点。下面结合具体实施例对这种优选的实施方式进行详细描述。

图5为本申请实施例提供的一种优选实施方式的流程图，如图5中所示，该方式可以包括以下步骤：

在501中，获取初始训练数据，记为Data0。

在本步骤中，初始训练数据包括query以及query对应的相关文本正例和相关文本负例，其中相关文本正例由人工标注，相关文本负例从候选文本中随机选择。

在本实施例中，可以构建两个集合：一个是人工标注集，预先选择一批用户输入的query，并从候选文本中人工标注与query相关的相关文本正例。另一个是补充query集，只包含query。补充query集用于后续进行相关文本正例和负例的扩充使用。

对于初始训练数据中query对应的相关文档负例可以从候选文档集中随机选择，例如针对每个query从候选文档集中分别随机选择4个候选文档作为query对应的相关文档负例。

在502中，利用初始训练数据训练双塔模型，得到初始检索模型，标记为DM0。

由于初始训练数据中的训练数据的样本数量是较少的，因此，本步骤实际上是采用小批负例数据进行训练。

双塔模型在进行训练时，如图6a中所示，假设训练数据中共存在n条训练样本，表示为<query，doc+，doc->。其中，doc+和doc-分别表示query对应的相关文本正例和相关文本负例。

双塔模型分别对query以及各doc+和doc-进行编码，由n条训练数据，那么双塔模型可以分别计算query与2n个相关文档的相关度，这2n个相关文档包括该query对应的相关文档正例和负例，还有其他query对应的相关文档正例和负例。训练过程中的训练目标为：双塔模型输出的query与该query对应的doc+的相关度大于该query与初始训练数据中其他相关文本的相关度。也就是说，使得query与其对应的doc+的相关度成为2n个相关度中的最大值。

上述步骤501和502可以看做是初始的检索模型训练过程。鉴于该过程中采用的小批负例数据，且该小批负例数据是采用随机方式选取的，无论是在数量上还是质量上都无法让检索模型达到较好的效果，因此需要进行后续至少一轮的训练过程来进一步提高检索模型的效果。本实施例中以进一步进行两轮的训练为例。其中第一轮训练包括以下步骤503～506：

在503中，利用DM0更新训练数据中各query的相关文档负例，产生更新后的训练数据，记为Data1。

作为一种优选的实施方式，可以利用DM0确定训练数据中query与各候选文本的相关度，从相关度得分排在前M1个的候选文本中随机选择M2个用以更新的该query对应的相关文本负例；其中M1和M2均为正整数，且M1>M2。

例如，利用DM0确定训练数据中query与候选数据库中各候选文本的相关度，依据相关度得分将排在前1000个的候选文档作为候选集，对于每个query，其相关文档正例仍为人工标注的数据，而相关文档粘附力从上述得到的候选集中随机选取4个。

准确的相关文本正例以及随机选取的相关文本负例已经使得训练得到的DM0具有一定程度的效果，因此可以利用该DM0从候选文本中确定出一部分query的强相关负例，用此强相关负例更新训练数据后，使得训练数据的质量得到提升。

在504中，利用更新后的训练数据训练交叉注意力模型，得到第一检索模型，记为CM1。

在训练交叉注意力模型时，如图6b中所示，输入为<query,doc+>以及<query,doc->，交叉注意力模型将输入的query和doc(doc+或者doc-)进行拼接后统一进行编码，将编码结果进行softmax映射为query和doc的相关度得分对于交叉注意力模型的训练可以看做是一个二分类问题，即依据交叉注意力模型输出的相关度对doc进行分类，分类结果y为相关和不相关两种，其中相关对应的是正例，不相关对应的是负例。因此，其训练目标可以是：交叉注意力模型得到的训练数据中query与对应doc+的相关度大于或等于预设阈值，query与对应的doc-的相关度小于预设阈值。也就是说，理想情况下，交叉注意力模型对doc+的分类结果为相关，对doc-的分类结果为不相关。

在505中，利用CM1对当前训练数据中的相关文档正例和相关文档负例进行扩充，得到扩充后的训练数据，记为Data2。

作为一种优选的实施方式，可以利用DM0从候选文本中检索训练数据中query的相关文本；利用CM1确定相关文本与query的相关度，将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例，将相关度小于或等于预设第二阈值的文本用以扩充该query对应的相关文本负例。其中第一阈值大于第二阈值，例如第一阈值取0.9，第二阈值取0.1。

由于交叉注意力模型CM1的相关度判断更加准确，配合适当的阈值设定能够选择出较为可靠的相关文档正例和相关文档负例。这样的方式对训练数据进行扩充，相当于将CM1的能力交付给DM0，从而得到DM1，能够显著提升双塔模型的效果。

在506中，利用扩充后的训练数据，进一步训练DM0，得到第二检索模型，记为DM1。

DM1是在DM0的基础上，利用扩充后的训练数据进一步训练得到。这种方式能够优化并加速训练检索模型的过程。具体的训练过程与上述步骤502中训练DM0的方式一致，在此不做赘述。

第二轮训练过程包括以下步骤507～510：

在507中，利用DM1更新训练数据中各query的相关文档负例，产生更新后的训练数据，记为Data3。

作为一种优选的实施方式，可以利用DM1确定当前训练数据中的query与候选文本的相关度；依据相关度排序以N1个候选文本为间隔选择N2个候选文本；然后从选择的N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后，将得到的候选文本用以更新该query对应的相关文本负例。其中，N1和N2为预设的正整数。

本步骤中的相关文档负例的选取方式相比较步骤503中的选取方式更加严格。基于DM1确定的相关度对各候选文档进行排序后，可以每隔10个候选文本选择一个。这种处理方式可以有效地避免在候选文本中出现大量相似文本的情况，从而提高相关文本负例的质量。然后从选择出的候选文本中进一步过滤掉与query对应的相关文本正例相似度高的候选文本。这种处理方式能够有效地避免在有些情况下漏标的正例被误选择为相关文本负例，从而影响检索模型的效果。例如，最终形成4个相关文档负例来替换训练样本中对应query的相关文本负例。本步骤的处理方式能够得到质量更高的负例，从而有利于训练得到的检索模型对较难样本的判断。

在508中，利用更新后的训练数据，进一步训练CM1得到第三检索模型，记为CM2。

本步骤中的CM2是基于已经训练的CM1，利用更新后的训练数据进一步训练得到的。这种方式能够优化和加速检索模型的训练。具体的训练的过程与上述步骤504中训练CM1的过程类似，在此不做赘述。

在509中，利用CM2对当前训练数据中的相关文档正例和相关文档负例进行扩充，得到扩充后的训练数据，记为Data4。

作为一种优选的实施方式，可以利用DM1从候选文本中检索当前训练数据中query的相关文本；利用CM2确定相关文本与各补充query的相似度，将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例，将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例；利用各补充query对应的相关文本正例和相关文本负例扩充训练数据。

本步骤中的扩充方式与步骤505中类似，不同的是，本步骤中是利用扩充query集进行扩充，以得到更多的相关文档正例和相关文档负例，从而得到更好的模型训练效果。

在510中，利用扩充后的训练数据，进一步训练DM1得到第四检索模型，记为DM2。

本步骤DM2的训练可以是在DM1的基础上，利用可扩充后的训练数据进一步训练得到。这种方式能够优化和加速检索模型的训练。具体的训练过程与上述步骤506中训练DM1的过程类似，在此不做赘述。

至此，本申请实施例得到的第四检索模型DM2可以作为最终的检索模型，该检索模型用于将用户的query输入检索模型后，得到该query与各候选文本的相关度，并据此相关度确定query的相关文本。服务器端可以的将该query的相关文本作为检索结果返回给终端设备。

以上是对本申请实施例提供的方法进行的详细描述，下面结合实施例对本申请提供的装置进行详细描述。

图7a为本申请实施例提供的检索模型的训练装置的结构图，该装置可以位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者，还可以位于具有较强计算能力的计算机终端，本发明实施例对此不进行特别限定。如图7中所示，该装置可以包括：初始获取单元01、初始训练单元02、第一更新单元03、第一训练单元04、第一扩充单元05和第二训练单元06。其中各组成单元的主要功能如下：

初始获取单元01，用于获取初始训练数据，初始训练数据包括查询项query以及该query对应的相关文本正例和相关文本负例。

作为一种优选的实施方式，初始训练数据中的相关文本正例由人工标注获得，相关文本负例是从候选文本中随机选取。

初始训练单元02，用于利用初始训练数据训练得到初始检索模型。

作为一种优选的实施方式，初始训练单元02可以利用初始训练数据训练双塔模型，得到初始检索模型；其中，训练目标包括：双塔模型输出的query与该query对应的相关文本正例的相关度大于该query与初始训练数据中其他相关文本的相关度。

第一更新单元03，用于利用初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例。

作为一种优选的实施方式，第一更新单元03利用初始检索模型确定query与各候选文本的相关度，从相关度得分排在前M1个的候选文本中随机选择M2个用以更新该query对应的相关文本负例；其中M1和M2均为正整数，且M1>M2。

第一训练单元04，用于利用第一更新单元03更新后的训练数据训练得到第一检索模型。

作为一种优选的实施方式，第一训练单元04可以利用第一更新单元03更新后的训练数据训练交叉注意力模型，得到第一检索模型；其中，训练目标包括：交叉注意力模型得到的训练数据中query与该query对应的相关文本正例的相关度大于或等于预设阈值，query与该query对应的相关文本负例的相关度小于预设阈值。

第一扩充单元05，用于利用第一检索模型，从候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例。

作为一种优选的实施方式，第一扩充单元05可以利用初始检索模型从候选文本中检索训练数据中query的相关文本；利用第一检索模型确定相关文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例，和/或，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例，第一阈值大于第二阈值。

第二训练单元06，用于利用第一扩充单元扩充后的训练数据训练得到第二检索模型。

作为一种优选的实施方式，第二训练单元06可以利用第一扩充单元05扩充后的训练数据，进一步对双塔模型进行训练，得到第二检索模型。

图7b为本申请实施例提供的另一装置结构示意图，本实施例中，该装置除了包含图7a中所示的单元及结构之外，还可以进一步包括：第二更新单元07、第三训练单元08、第二扩充单元09和第四训练单元10。

第二更新单元07，用于利用第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第三检索模型。

作为一种优选的实施方式，第二更新单元07可以利用第二检索模型确定query与该候选文本的相关度；依据相关度排序以N1个候选文本为间隔选择N2个候选文本；从选择的N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后，将得到的候选文本用以更新该query对应的相关文本负例，N1和N2为预设的正整数。

第三训练单元08，用于利用第二更新单元07更新后的训练数据训练得到第三检索模型。

作为一种优选的实施方式，第三训练单元08可以利用更新后的训练数据进一步训练第一检索模型，得到第三检索模型。

第二扩充单元09可以利用第三检索模型，从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例，和/或，选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例；利用各补充query对应的相关文本正例和/或相关文本负例扩充训练数据。

作为一种优选的实施方式，第二扩充单元09，用于利用第二检索模型从候选文本中检索训练数据中query的相关文本；利用第三检索模型确定相关文本与各补充query的相似度，将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例，和/或，将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例。

第四训练单元10，用于利用第二扩充单元09扩充后的训练数据训练得到第四检索模型。

作为一种优选的实施方式，第四训练单元10可以利用扩充后的训练数据，进一步训练第二检索模型得到第四检索模型。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的检索模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的检索模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的检索模型的训练方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的检索模型的训练方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的检索模型的训练方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据该电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

该电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与该电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种检索模型的训练方法，包括：

利用所述第一检索模型，从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例；利用扩充后的训练数据训练得到第二检索模型；其中，

利用所述初始训练数据训练得到初始检索模型包括：

利用所述初始训练数据训练双塔模型，得到所述初始检索模型；其中，训练目标包括：所述双塔模型输出的query与该query对应的相关文本正例的相关度大于该query与所述初始训练数据中其他相关文本的相关度；

所述利用更新后的训练数据训练得到第一检索模型包括：

利用更新后的训练数据训练交叉注意力模型，得到所述第一检索模型；其中，训练目标包括：所述交叉注意力模型得到的训练数据中query与该query对应的相关文本正例的相关度大于或等于预设阈值，query与该query对应的相关文本负例的相关度小于所述预设阈值；

利用扩充后的训练数据训练得到第二检索模型包括：

利用所述扩充后的训练数据，进一步对所述双塔模型进行训练，得到第二检索模型。

2.根据权利要求1所述的方法，其中，所述初始训练数据中的相关文本正例由人工标注获得，相关文本负例是从候选文本中随机选取。

3.根据权利要求1所述的方法，其中，利用所述初始检索模型从候选文本中选择与训练数据中的query的相关度满足预设第一要求的文本以更新该query对应的相关文本负例包括：

利用所述初始检索模型确定query与各候选文本的相关度，从相关度得分排在前M1个的候选文本中随机选择M2个用以更新该query对应的相关文本负例；

其中M1和M2均为正整数，且M1>M2。

4.根据权利要求1所述的方法，其中，利用所述第一检索模型，从所述候选文本中选择与训练数据中的query的相关度满足预设第二要求的文本以扩充该query对应的相关文本正例，和/或，选择与该query的相关度满足预设第三要求的文本用以扩充该query对应的相关文本负例包括：

利用所述初始检索模型从候选文本中检索训练数据中query的相关文本；

利用所述第一检索模型确定所述相关文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例；和/或，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例，所述第一阈值大于所述第二阈值。

5.根据权利要求1至4中任一项所述的方法，该方法还包括：

利用所述第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第三检索模型；

利用所述第三检索模型，从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例，和/或，选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例；利用所述各补充query对应的相关文本正例和/或相关文本负例扩充训练数据；利用扩充后的训练数据训练得到第四检索模型。

6.根据权利要求5所述的方法，其中，利用所述第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例包括：

利用所述第二检索模型确定query与该候选文本的相关度；

依据相关度排序以N1个候选文本为间隔选择N2个候选文本；

从选择的所述N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后，将得到的候选文本用以更新该query对应的相关文本负例，所述N1和N2为预设的正整数。

7.根据权利要求5所述的方法，其中，利用所述第三检索模型，从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例，和/或，选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例包括：

利用所述第二检索模型从候选文本中检索训练数据中query的相关文本；

利用所述第三检索模型确定所述相关文本与各补充query的相似度，将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例，和/或，将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例。

8.根据权利要求5所述的方法，其中，所述利用更新后的训练数据训练得到第三检索模型包括：

利用更新后的训练数据进一步训练所述第一检索模型，得到所述第三检索模型；

所述利用扩充后的训练数据训练得到第四检索模型包括：

利用所述扩充后的训练数据，进一步训练所述第二检索模型得到第四检索模型。

9.一种检索模型的训练装置，包括：

第二训练单元，用于利用所述第一扩充单元扩充后的训练数据训练得到第二检索模型；其中，

所述初始训练单元，具体用于利用所述初始训练数据训练双塔模型，得到所述初始检索模型；其中，训练目标包括：所述双塔模型输出的query与该query对应的相关文本正例的相关度大于该query与所述初始训练数据中其他相关文本的相关度；

所述第一训练单元，具体用于利用所述第一更新单元更新后的训练数据训练交叉注意力模型，得到所述第一检索模型；其中，训练目标包括：所述交叉注意力模型得到的训练数据中query与该query对应的相关文本正例的相关度大于或等于预设阈值，query与该query对应的相关文本负例的相关度小于所述预设阈值；

所述第二训练单元，具体用于利用所述第一扩充单元扩充后的训练数据，进一步对所述双塔模型进行训练，得到第二检索模型。

10.根据权利要求9所述的装置，其中，所述初始训练数据中的相关文本正例由人工标注获得，相关文本负例是从候选文本中随机选取。

11.根据权利要求9所述的装置，其中，所述第一更新单元，具体用于利用所述初始检索模型确定query与各候选文本的相关度，从相关度得分排在前M1个的候选文本中随机选择M2个用以更新该query对应的相关文本负例；其中M1和M2均为正整数，且M1>M2。

12.根据权利要求9所述的装置，其中，所述第一扩充单元，具体用于利用所述初始检索模型从候选文本中检索训练数据中query的相关文本；利用所述第一检索模型确定所述相关文本与该query的相关度，将相关度大于或等于预设第一阈值的文本用以扩充该query对应的相关文本正例，和/或，将相关度小于或等于预设第二阈值的文本用以扩展该query对应的相关文本负例，所述第一阈值大于所述第二阈值。

13.根据权利要求9至12中任一项所述的装置，该装置还包括：

第二更新单元，用于利用所述第二检索模型从候选文本中选择与训练数据中的query的相关度满足预设第四要求的文本以更新该query对应的相关文本负例；利用更新后的训练数据训练得到第三检索模型；

第三训练单元，用于利用所述第二更新单元更新后的训练数据训练得到第三检索模型；

第二扩充单元，用于利用所述第三检索模型，从候选文本中分别选择与各补充query的相关度满足预设第五要求的文本用以产生各补充query对应的相关文本正例，和/或，选择与各补充query满足预设第六要求的文本分别用以产生各补充query对应的相关文本负例；利用所述各补充query对应的相关文本正例和/或相关文本负例扩充训练数据；

第四训练单元，用于利用所述第二扩充单元扩充后的训练数据训练得到第四检索模型。

14.根据权利要求13所述的装置，其中，所述第二更新单元，具体用于利用所述第二检索模型确定query与该候选文本的相关度；依据相关度排序以N1个候选文本为间隔选择N2个候选文本；从选择的所述N2个候选文本中过滤掉与该query对应的相关文本正例的相似度大于或等于预设相似度阈值的候选文本后，将得到的候选文本用以更新该query对应的相关文本负例，所述N1和N2为预设的正整数。

15.根据权利要求13所述的装置，其中，所述第二扩充单元，具体用于利用所述第二检索模型从候选文本中检索训练数据中query的相关文本；利用所述第三检索模型确定所述相关文本与各补充query的相似度，将相似度大于或等于预设第一阈值的文本作为各补充query对应的相关文本正例，和/或，将相似度小于或等于预设第二阈值的文本作为各补充query对应的相关文本负例。

16.根据权利要求13所述的装置，其中，所述第三训练单元，具体用于利用所述第二更新单元更新后的训练数据进一步训练所述第一检索模型，得到所述第三检索模型；

所述第四训练单元，具体用于利用所述第二扩充单元扩充后的训练数据，进一步训练所述第二检索模型得到第四检索模型。

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。