CN111858895B

CN111858895B - 排序模型确定方法、排序方法、装置及电子设备

Info

Publication number: CN111858895B
Application number: CN202010750541.1A
Authority: CN
Inventors: 王福钋; 杜新凯; 韩佳; 史辉; 高峰; 刘谦; 史祎凡; 蔡岩松
Original assignee: Sunshine Insurance Group Co Ltd
Current assignee: Sunshine Insurance Group Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-04-05
Anticipated expiration: 2040-07-30
Also published as: CN111858895A

Abstract

本申请涉及一种排序模型确定方法、排序方法、装置及电子设备。排序模型确定方法包括：针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记；针对多个候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，训练数据集包括训练问题集中每个训练问题，以及训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档；通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型；分别对多个排序模型进行测试，获得多个测试结果，最终，从多个排序模型中选取出目标模型。前述排序模型确定方法能保证目标模型输出结果的准确性。

Description

排序模型确定方法、排序方法、装置及电子设备

技术领域

本申请涉及机器阅读理解技术领域，具体而言，涉及一种排序模型确定方法、排序方法、装置及电子设备。

背景技术

近些年，机器阅读理解被广泛的应用于各种文章的动态信息抽取，以及各种问答机器人的辅助上，然而，在未给定回答目标问题的文档时，想要获得答案，召回文档就显得至关重要了。目前，召回文档的通用办法是通过搜索引擎，从文档数据库中，召回多个与目标问题对应的多个候选文档。以Elastic Search搜索引擎为例，虽然其召回TOP10的准确率已经达到90％，但是对于基于阅读理解式的问答系统，从TOP10的候选文档中去寻找答案的计算量和准确度都是一种挑战。另外，现有的预训练语言模型都是通用领域的，通过通用领域的预训练语言模型去处理领域内任务会损失一定程度的准确度。

发明内容

本申请的目的在于，提供一种排序模型确定方法、排序方法、装置及电子设备，以解决上述问题。

第一方面，本申请提供的排序模型确定方法，包括：

通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个候选文档集中，每个候选文档集包括的候选文档数量不同；

针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记；

针对多个候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，训练数据集包括训练问题集中每个训练问题，以及训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档；

通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型；

分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型。

本申请实施例提供的排序模型确定方法实施过程结合了搜索引擎和预训练语言模型，同时，由于通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型，而每个训练数据集中包括的候选文档数量不同，也即，每个训练数据集的大小是不同的，因此，获得的多个排序模型的排序准确率也是不同的，此后，分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型，便能够保证目标模型输出结果的准确性。

结合第一方面，本申请实施例还提供了第一方面的第一种可选的实施方式，通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，包括：

确定出多个比例数值，多个比例数值中，每个比例数值不同，且每个比例数值为大于1的整数；

针对多个比例数值中的每个比例数值，针对训练问题集中的每个训练问题，通过搜索引擎，从文档数据库中，召回比例数值篇与训练问题对应的候选文档，组成一个候选文档集，以获得多个候选文档集。

结合第一方面的第一种可选的实施方式，本申请实施例还提供了第一方面的第二种可选的实施方式，通过搜索引擎，从文档数据库中，召回比例数值篇与训练问题对应的候选文档，组成一个候选文档集，包括：

通过关键词抽取算法，从训练问题中，获取至少一个关键词；

通过搜索引擎，从文档数据库中，召回比例数值篇与至少一个关键词对应的候选文档，组成一个候选文档集。

结合第一方面，或第一方面的第一种可选的实施方式，本申请实施例还提供了第一方面的第三种可选的实施方式，文档标记包括第一文档标记和第二文档标记，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记，包括：

针对候选文档集中包括的每篇候选文档，确定出与候选文档对应的训练问题，并判断候选文档中，是否包括与训练问题对应的问题答案；

若候选文档中，包括与训练问题对应的问题答案，则为候选文档添加第一文档标记；

若候选文档中，不包括与训练问题对应的问题答案，则为候选文档添加第二文档标记。

结合第一方面的第一种可选的实施方式，本申请实施例还提供了第一方面的第四种可选的实施方式，分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型，包括：

针对多个排序模型中的每个排序模型，确定出排序模型对应的比例数值，并针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回比例数值篇与测试问题对应的测试文档，构建一个测试文档集，以获得多个测试文档集；

针对多个测试文档集中的每个测试文档集，从多个排序模型中，确定出与测试文档集对应的排序模型，以将测试问题集中的每个测试问题，以及测试文档中的每篇测试文档输入排序模型，以使排序模型输出针对测试问题集中的每个测试问题的文档排序结果；

针对多个排序模型中的每个排序模型，获得排序模型输出的针对测试问题集中的所有测试问题的文档排序结果的准确率，作为排序模型对应的测试结果，以获得多个测试结果；

从多个测试结果中选取出数值最高的测试结果，以将数值最高的测试结果对应的排序模型，作为目标模型。

结合第一方面，本申请实施例还提供了第一方面的第五种可选的实施方式，通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型之前，排序模型确定方法，还包括：

针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，对候选文档集中包括的每篇候选文档进行截取。

结合第一方面的第五种可选的实施方式，本申请实施例还提供了第一方面的第六种可选的实施方式，根据训练问题集中每个训练问题对应的问题答案，对候选文档集中包括的每篇候选文档进行截取，包括：

针对候选文档集中包括的每篇候选文档，从训练问题集中，确定出与候选文档对应的问题答案；

从候选文档中，确定出包括问题答案的句子，作为答案句；

在候选文档中，将答案句、位于答案句之前的第一预设长度段句子，以及位于答案句之后的第二预设长度段句子截取出。

第二方面，本申请实施例还提供了一种排序方法，包括:

获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应；

将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过上述第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法训练获得。

本申请实施例中，排序方法，包括：获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应，将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过上述第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法训练获得。由于目标模型具有较高输出准确性，因此，能够保证排序结果的准确性。

第三方面，本申请实施例提供了一种排序模型确定装置，包括：

索引模块，用于通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个候选文档集中，每个候选文档集包括的候选文档数量不同；

标记模块，用于针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记；

数据集构建模块，用于针对多个候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，训练数据集包括训练问题集中每个训练问题，以及训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档；

模型训练模块，用于通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型；

模型确定模块，用于分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型。

本申请提供的排序模型确定装置具有与第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法相同的有益效果，此处不作赘述。

第四方面，本申请实施例提供了一种排序装置，包括:

文档获取模块，获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应；

排序模块，用于将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法训练获得。

本申请提供的排序装置具有与第一方面，或第一方面的任意一种可选的实施方式所提供的排序方法相同的有益效果，此处不作赘述。

第五方面，本申请实施例提供了一种电子设备，包括控制器和存储器，存储器上存储有计算机程序，控制器用于执行计算机程序，以实现上述第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法，或上述第二方面所提供的排序方法。

本申请提供的电子设备具有与第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法相同的有益效果，或具有与第二方面所提供的排序方法相同的有益效果，此处不作赘述。

第六方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被执行时，实现上述第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法，或上述第二方面所提供的排序方法。

本申请提供的计算机可读存储介质具有与第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法相同的有益效果，或具有与第二方面所提供的排序方法相同的有益效果，此处不作赘述。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电子设备的示意性结构框图。

图2为本申请实施例提供的一种排序模型确定方法的步骤流程图。

图3为本申请实施例提供的一种排序模型确定装置的示意性结构框图。

图4为本申请实施例提供的一种排序方法的步骤流程图。

图5为本申请实施例提供的一种排序装置的示意性结构框图。

附图标记：100-电子设备；110-处理器；120-存储器；200-排序模型确定装置；210-索引模块；220-标记模块；230-数据集构建模块；240-模型训练模块；250-模型确定模块；300-排序装置；310-文档获取模块；320-排序模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。此外，应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1，为本申请实施例提供的一种电子设备100的示意性结构框图。本申请实施例中，电子设备100可以是终端设备，例如，电脑、个人数字助理(Personal DigitalAssistant，PAD)、移动上网设备(Mobile Internet Device，MID)等，还可以是服务器，本申请实施例对此不作具体限制。

在结构上，电子设备100可以包括处理器110和存储器120。

处理器110和存储器120直接或间接地电性连接，以实现数据的传输或交互，例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。排序模型确定装置或排序装置包括至少一个可以软件或固件(Firmware)的形式存储在存储器120中或固化在电子设备100的操作系统(Operating System，OS)中的软件模块。处理器110用于执行存储器120中存储的可执行模块，例如，排序模型确定装置所包括的软件功能模块及计算机程序等，以实现排序模型确定方法，排序装置所包括的软件功能模块及计算机程序等，以实现排序方法。

处理器110可以在接收到执行指令后，执行计算机程序。其中，处理器110可以是一种集成电路芯片，具有信号处理能力。处理器110也可以是通用处理器，例如，可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、分立门或晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图，此外，通用处理器可以是微处理器或者任何常规处理器等。

存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory，EPROM)，以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory，EEPROM)。存储器120用于存储程序，处理器110在接收到执行指令后，执行该程序。

应当理解，图1所示的结构仅为示意，本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件，或是具有与图1所示不同的配置。此外，图1所示的各组件可以通过软件、硬件或其组合实现。

请参阅图2，为本申请实施例提供的排序模型确定方法的流程示意图，该方法应用于图1所示的电子设备100。需要说明的是，本申请实施例提供的排序模型确定方法不以图2及以下所示的顺序为限制，以下结合图2对排序模型确定方法的具体流程及步骤进行描述。

步骤S100，通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个候选文档集中，每个候选文档集包括的候选文档数量不同。

本申请实施例中，搜索引擎可以是Elastic Search搜索引擎，Elastic Search搜索引擎是一个分布式且具有高扩展性的全文检索的搜索引擎，其能够提供近乎实时的索引、分析、搜索功能，其召回策略主要满足的是能够从包括海量文档的文档数据库中，召回多个与训练问题集对应的候选文档集。进一步地，由于本申请实施例中，多个候选文档集中，每个候选文档集包括的候选文档数量不同，因此，步骤S100可以包括步骤S110和步骤S120。

步骤S110，确定出多个比例数值，多个比例数值中，每个比例数值不同，且每个比例数值为大于1的整数。

步骤S120，针对多个比例数值中的每个比例数值，针对训练问题集中的每个训练问题，通过搜索引擎，从文档数据库中，召回比例数值篇与训练问题对应的候选文档，组成一个候选文档集，以获得多个候选文档集。

本申请实施例中，多个比例数值可以包括10个比例数值，而10个比例数值可以分别为5、7、8、9、10、11、12、13、14、20。以比例数值5为例，若训练问题集中包括4000个训练问题，则可以针对训练问题集中的每个训练问题，通过搜索引擎，从文档数据库中，召回5篇与训练问题对应的候选文档，那么，组成的候选文档集共包括20000篇候选文档。再以比例数值10为例，若训练问题集中包括4000个训练问题，则可以针对训练问题集中的每个训练问题，通过搜索引擎，从文档数据库中，召回10篇与训练问题对应的候选文档，那么，组成的候选文档集共包括40000篇候选文档。

此外，需要说明的是，本申请实施例中，通过搜索引擎，从文档数据库中，召回比例数值篇与训练问题对应的候选文档，组成一个候选文档集的过程中，具体可以通过关键词抽取算法，从训练问题中，获取至少一个关键词，再通过搜索引擎，从文档数据库中，召回比例数值篇与至少一个关键词对应的候选文档，组成一个候选文档集。

步骤S200，针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记。

本申请实施例中，可以预先确定训练问题集中，每个训练问题对应的问题答案，此后，针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记。实际实施时，文档标记包括第一文档标记和第二文档标记，基于此，对于步骤S200，本申请实施例中，其可以包括步骤S210、步骤S220或步骤S230。

步骤S210，针对候选文档集中包括的每篇候选文档，确定出与候选文档对应的训练问题，并判断候选文档中，是否包括与训练问题对应的问题答案。

步骤S220，若候选文档中，包括与训练问题对应的问题答案，则为候选文档添加第一文档标记。

步骤S230，若候选文档中，不包括与训练问题对应的问题答案，则为候选文档添加第二文档标记。

例如，对于某个训练问题，若该训练问题对应的某篇候选文档中，包括该训练问题对应的问题答案，则为该候选文档添加文档标记第一文档标记，相反的，对于某个训练问题，若该训练问题对应的某篇候选文档中，不包括该训练问题对应的问题答案，则为该候选文档添加文档标记第二文档标记，其中，第一文档标记可以为1，第二文档标记可以为0。

步骤S300，针对多个候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，训练数据集包括训练问题集中每个训练问题，以及训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档。

步骤S400，通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型。

本申请实施例中，预训练语言模型可以是BERT中文模型，也可以是百度开源预训练语言模型ERNIE，但相较于BERT中文模型，ERNIE的上游预训练任务中的Masked LM采用了更适合中文习惯的词遮盖，因此，在处理中文任务时，具有更好的表现，同时，相较于BERT中文模型，ERNIE的预训练语料的数量更多、质量更好，使得ERNIE更适用于中文任务，因此，实际实施时，对于步骤S400，本申请实施例中，预训练语言模型优选为百度开源预训练语言模型ERNIE。此外，需要说明的是，本申请实施例中，由于预训练语言模型的权重与多个训练数据集中的每个训练数据集存在一定的差异，且多个训练数据集中的每个训练数据集中包括的候选文档数量不同，因此，在执行步骤S400时，还需要对预训练语言模型进行模型参数微调，而模型参数微调可以包括微调Learning_Rate、Batchsize、Epoch等。以微调Learning_Rate为例，本申请实施例中，可以通过Warm-Up的衰减Learning_Rate，由于带Warm-Up，因此，能够让预训练语言模型快速进入继续训练数据的收敛通道中，让预训练语言模型缓慢收敛到局部最优解。

步骤S500，分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型。

本申请实施例，针对多个排序模型中包括的每个排序模型，可以创建与该排序模型对应的测试文档集，此后，通过该测试文档集，对该排序模型进行测试，基于此，对于步骤S500，本申请实施例中，其可以包括步骤S510、步骤S520、步骤S530和步骤S540。

步骤S510，针对多个排序模型中的每个排序模型，确定出排序模型对应的比例数值，并针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回比例数值篇与测试问题对应的测试文档，构建一个测试文档集，以获得多个测试文档集。

步骤S520，针对多个测试文档集中的每个测试文档集，从多个排序模型中，确定出与测试文档集对应的排序模型，以将测试问题集中的每个测试问题，以及测试文档中的每篇测试文档输入排序模型，以使排序模型输出针对测试问题集中的每个测试问题的文档排序结果。

步骤S530，针对多个排序模型中的每个排序模型，获得排序模型输出的针对测试问题集中的所有测试问题的文档排序结果的准确率，作为排序模型对应的测试结果，以获得多个测试结果。

步骤S540，从多个测试结果中选取出数值最高的测试结果，以将数值最高的测试结果对应的排序模型，作为目标模型。

同样，以多个比例数值包括10个比例数值，而10个比例数值分别为5、7、8、9、10、11、12、13、14、20为例，假设，某个排序模型对应比例数值5，测试问题集中包括1000个测试问题，则针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回5篇与测试问题对应的测试文档，构建包括5000篇测试文档的测试文档集，最终，分别通过10个比例数值，获得10个测试文档集。

此外，可以理解的是，本申请实施例中，针对多个排序模型中的每个排序模型，该排序模型输出的针对测试问题集中，所有测试问题的文档排序结果的准确率可以是，排序最靠前的测试文档为实际与该测试问题相关度最高的测试文档的比例值。

进一步地，在本申请实施例提供的排序模型确定方法的实际实施过程中，在多个比例数值包括10个比例数值，而10个比例数值分别为5、7、8、9、10、11、12、13、14、20，训练问题集中包括4000个训练问题，测试问题集中包括1000个测试问题时，执行步骤S100、步骤S200、步骤S300和步骤S400之后，获得10个排序模型，此后，执行步骤S500时，针对多个排序模型中的每个排序模型，获得排序模型输出的针对测试问题集中的所有测试问题的文档排序结果的准确率如表1所示。

表1

通过表1可知，本申请实施例中，最终确定的目标模型是可以是比例数值10对应的排序模型。此外，通过实际实验证明，针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回比例数值篇与测试问题对应的测试文档，构建一个测试文档集，最终，共获得1000个测试文档集之后，1000个测试文档集中文档排序结果的准确率仅为72.1％，明显低于通过本方案提供的模型确定方法，而确定的目标模型获得的准确率。

为进一步提高目标模型的准确率，在执行步骤S400之前，本申请实施例提供的排序模型确定方法，还可以包括步骤S010，针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，对候选文档集中包括的每篇候选文档进行截取。

实际实施时，对于步骤S010，本申请实施例中，其可以包括步骤S011、步骤S012和步骤S013。

步骤S011，针对候选文档集中包括的每篇候选文档，从训练问题集中，确定出与候选文档对应的问题答案。

步骤S012，从候选文档中，确定出包括问题答案的句子，作为答案句。

步骤S013，在候选文档中，将答案句、位于答案句之前的第一预设长度段句子，以及位于答案句之后的第二预设长度段句子截取出。

本申请实施例中，第一预设长度段句子具体包括多少完整的句子，以及第二预设长度段句子具体包括多少完整的句子具体可以根据实际需求设定，本申请实施例中对此不作具体限制。需要说明的是，本申请实施例中，若采用步骤S013提供的文档截取方法，对于答案句未位于候选文档中间位置的情况，例如，答案句位于候选文档的起始位置，则无法截取出答案句之前的第一预设长度段句子，再例如，答案句位于候选文档的末尾位置，则无法截取出答案句之后的第二预设长度段句子。基于此，对于步骤S010，本申请实施例中，其也可以包括步骤S011、步骤S012和步骤S014。

步骤S014，在候选文档中，以答案句为中心句，以前后交错截取的方式，截取出最接近目标字数的多个整句。

本申请实施例中，可以先从候选文档中，截取出答案句，此后，以答案句为中心句，将位于答案句之前的一个整句，作为第一整句截取出，并拼接于答案句之前，再将位于答案句之后的一个整句，作为第二整句截取出，并拼接于答案句之后，接着，再将位于第一整句之前的一个整句，作为第三整句截取出，并拼接于第一整句之前，再将位于第二整句之后的一个整句，作为第四整句截取出，并拼接于第二整句之后，以此类推，直至截取出的多个整句的字数，最接近目标字数为止，或可以先从候选文档中，截取出答案句，此后，以答案句为中心句，将位于答案句之后的一个整句，作为第一整句截取出，并拼接于答案句之后，再将位于答案句之前的一个整句，作为第二整句截取出，并拼接于答案句之前，接着，再将位于第一整句之后的一个整句，作为第三整句截取出，并拼接于第一整句之后，再将位于第二整句之前的一个整句，作为第四整句截取出，并拼接于第二整句之前，以此类推，直至截取出的多个整句的字数，最接近目标字数为止，其中，目标字数可以是512。

需要说明的是，本申请实施例中，针对答案句位于候选文档的起始位置，或靠近候选文档的起始位置的情况，若在截取位于答案句之前的整句时，已经截取到了文档起始位置，而已经截取出的整句字数还未最接近目标字数，则可以继续从位于答案句之后的整句中截取，直至截取出的多个整句的字数，最接近目标字数为止，同样，针对答案句位于候选文档的末尾位置，或靠近候选文档的末尾位置的情况，若在截取位于答案句之前的整句时，已经截取到了文档末尾位置，而已经截取出的整句字数还未最接近目标字数，则可以继续从位于答案句之前的整句中截取，直至截取出的多个整句的字数，最接近目标字数为止。

若执行步骤S400之前，本申请实施例提供的排序模型确定方法，还包括步骤S010，则执行步骤S500时，针对多个排序模型中的比例数值5对应的排序模型、比例数值9对应的排序模型，以及比例数值10对应的排序模型，获得其输出的针对测试问题集中的所有测试问题的文档排序结果的准确率如表2所示。

表2

排序模型	准确率
		比例数值5对应的排序模型	80.7％
比例数值9对应的排序模型	83.0％
		比例数值10对应的排序模型	83.3％

通过表2可知，本申请实施例中，执行步骤S400之前，本申请实施例提供的排序模型确定方法，还包括步骤S010时，最终确定的目标模型是可以是比例数值10对应的排序模型。同样，通过实际实验证明，针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回比例数值篇与测试问题对应的测试文档，构建一个测试文档集，最终，共获得1000个测试文档集之后，1000个测试文档集中文档排序结果的准确率仅为72.1％，明显低于通过本方案提供的模型确定方法，而确定的目标模型获得的准确率。

基于与上述排序模型确定方法同样的发明构思，本申请实施例还提供了一种排序模型确定装置200。请参阅图3，本申请实施例提供的排序模型确定装置200包括索引模块210、标记模块220、数据集构建模块230、模型训练模块240和模型确定模块250。

索引模块210，用于通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个候选文档集中，每个候选文档集包括的候选文档数量不同。

标记模块220，用于针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，为候选文档集包括的每篇候选文档添加文档标记。

数据集构建模块230，用于针对多个候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，训练数据集包括训练问题集中每个训练问题，以及训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档。

模型训练模块240，用于通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型。

模型确定模块250，用于分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型。

本申请实施例中，索引模块210可以包括比例数值确定单元和候选文档集获取单元。

比例数值确定单元，用于确定出多个比例数值，多个比例数值中，每个比例数值不同，且每个比例数值为大于1的整数；

候选文档集获取单元，用于针对多个比例数值中的每个比例数值，针对训练问题集中的每个训练问题，通过搜索引擎，从文档数据库中，召回比例数值篇与训练问题对应的候选文档，组成一个候选文档集，以获得多个候选文档集。

候选文档集获取单元，具体用于通过关键词抽取算法，从训练问题中，获取至少一个关键词，并通过搜索引擎，从文档数据库中，召回比例数值篇与至少一个关键词对应的候选文档，组成一个候选文档集。

本申请实施例中，文档标记包括第一文档标记和第二文档标记，标记模块220可以包括判断单元、第一标记单元和第二标记单元。

判断单元，用于针对候选文档集中包括的每篇候选文档，确定出与候选文档对应的训练问题，并判断候选文档中，是否包括与训练问题对应的问题答案。

第一标记单元，用于若候选文档中，包括与训练问题对应的问题答案，则为候选文档添加第一文档标记。

第二标记单元，用于若候选文档中，不包括与训练问题对应的问题答案，则为候选文档添加第二文档标记。

本申请实施例中，模型确定模块250可以包括测试文档集获取单元、文档排序结果获取单元、测试结果获取单元和目标模型确定单元。

测试文档集获取单元，用于针对多个排序模型中的每个排序模型，确定出排序模型对应的比例数值，并针对测试问题集中的每个测试问题，通过搜索引擎，从文档数据库中，召回比例数值篇与测试问题对应的测试文档，构建一个测试文档集，以获得多个测试文档集。

文档排序结果获取单元，用于针对多个测试文档集中的每个测试文档集，从多个排序模型中，确定出与测试文档集对应的排序模型，以将测试问题集中的每个测试问题，以及测试文档中的每篇测试文档输入排序模型，以使排序模型输出针对测试问题集中的每个测试问题的文档排序结果。

测试结果获取单元，用于针对多个排序模型中的每个排序模型，获得排序模型输出的针对测试问题集中的所有测试问题的文档排序结果的准确率，作为排序模型对应的测试结果，以获得多个测试结果。

目标模型确定单元，用于从多个测试结果中选取出数值最高的测试结果，以将数值最高的测试结果对应的排序模型，作为目标模型。

本申请实施例提供的排序模型确定方法还包括文档截取模块。

文档截取模块，用于针对多个候选文档集中的每个候选文档集，根据训练问题集中每个训练问题对应的问题答案，对候选文档集中包括的每篇候选文档进行截取。

本申请实施例中，文档截取模块包括问题答案确定单元、答案句确定单元和文档截取单元。

问题答案确定单元，用于针对候选文档集中包括的每篇候选文档，从训练问题集中，确定出与候选文档对应的问题答案。

答案句确定单元，用于从候选文档中，确定出包括问题答案的句子，作为答案句。

文档截取单元，用于在候选文档中，将答案句、位于答案句之前的第一预设长度段句子，以及位于答案句之后的第二预设长度段句子截取出。

由于本申请实施例提供的排序模型确定装置200是基于与上述排序模型确定方法同样的发明构思实现的，因此，排序模型确定装置200中，每个软件模块的具体描述，均可参见排序模型确定方法实施例中对应步骤的相关描述，此处不作赘述。

请参阅图4，为本申请实施例提供的排序方法的流程示意图，该方法可以应用于图1所示的电子设备100。需要说明的是，本申请实施例提供的排序方法不以图4及以下所示的顺序为限制，以下结合图4对排序模型确定方法的具体流程及步骤进行描述。

步骤S600，获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应。

步骤S700，将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过上述排序模型确定方法训练获得。

以比例数值5为例，针对目标问题“A省B市对面临暂时性生产经营困难且恢复有望、坚持不裁员或少裁员的参保企业，返还标准是什么？”，其对应的问题答案为“可按6个月的企业及其职工应缴纳社会保险费的50％的标准确定”通过搜索引擎，从文档数据库中，召回5篇与目标问题对应的目标文档，定义5篇目标文档的文档标识分别为e6ba3d、227740、7edf2e、870ca1、6b4371，具体如表3所示。

表3

需要说明的是，表3中，针对每篇目标文档，其中标注出的“黑体字”内容即包括了目标问题的问题答案，且可以判断出“黑体字”内容与问题答案的相关度排序由大到小为“227740”、“e6ba3d”、“7edf2e”、“6b4371”、“870ca1”。

经发明人试验证明，通过搜索引擎，从文档数据中召回5篇与目标问题对应的目标文档之后，5篇目标文档的“原生态”排序(也即，与目标问题的相关度)如表4所示。

表4

文档标识	“原生态”排序
		e6ba3d	1.010
227740	0.960
		7edf2e	0.958
870ca1	0.923
		6b4371	0.862

而通过本申请实施例提供的排序方法，将目标问题和通过搜索引擎召回的5篇目标文档输入目标模型之后，目标模型输出5篇目标文档的排序结果如表5所示。

表5

文档标识	排序结果
		227740	1.059
e6ba3d	0.974
		7edf2e	0.969
6b4371	0.902
		870ca1	0.019

对比表4和表5可知，通过本申请实施例提供的排序方法获得的多篇目标文档的排序结果相对于通过搜索引擎，从文档数据中召回5篇与目标问题对应的目标文档之后，5篇目标文档的“原生态”排序而言，准确性更高，因此，本申请实施例提供的排序方法具有更好的排序效果。

基于与上述排序方法同样的发明构思，本申请实施例还提供了一种排序装置300。请参阅图5，本申请实施例提供的排序装置300包括文档获取模块310和排序模块320。

文档获取模块310，用于获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应。

排序模块320，用于将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过上述排序模型确定方法训练获得。

此外，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被执行时，实现上述方法实施例所提供的排序模型确定方法或排序方法，具体可参见上述方法实施例，本申请实施例中对此不作赘述。

综上所述，本申请实施例提供的排序模型确定方法、装置的实施过程结合了搜索引擎和预训练语言模型，同时，由于通过多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型，而每个训练数据集中包括的候选文档数量不同，也即，每个训练数据集的大小是不同的，因此，获得的多个排序模型的排序准确率也是不同的，此后，分别对多个排序模型进行测试，获得多个测试结果，以根据多个测试结果，从多个排序模型中选取出目标模型，便能够保证目标模型输出结果的准确性。

进一步地，本申请实施例中，排序方法，包括：获取多篇目标文档，多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应，将目标问题和多篇目标文档输入目标模型，以使目标模型输出多篇目标文档的排序结果，目标模型通过上述第一方面，或第一方面的任意一种可选的实施方式所提供的排序模型确定方法训练获得。由于目标模型具有较高输出准确性，因此，能够保证排序结果的准确性。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。此外，在本申请每个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是每个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

此外，所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请每个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

还需要说明的是，在本文中，诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

Claims

1.一种排序模型确定方法，其特征在于，包括：

通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个所述候选文档集中，每个候选文档集包括的候选文档数量不同；

针对多个所述候选文档集中的每个候选文档集，根据所述训练问题集中每个训练问题对应的问题答案，为所述候选文档集包括的每篇候选文档添加文档标记；

针对多个所述候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，所述训练数据集包括所述训练问题集中每个训练问题，以及所述训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档；

通过所述多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型；其中，所述预训练语言模型包括BERT中文模型或ERNIE模型；

分别对所述多个排序模型进行测试，获得多个测试结果，以根据所述多个测试结果，从所述多个排序模型中选取出目标模型；

其中，所述通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，包括：确定出多个比例数值，所述多个比例数值中，每个比例数值不同，且每个比例数值为大于1的整数；针对所述多个比例数值中的每个比例数值，针对所述训练问题集中的每个训练问题，通过所述搜索引擎，从所述文档数据库中，召回比例数值篇与所述训练问题对应的候选文档，组成一个所述候选文档集，以获得多个所述候选文档集；

所述文档标记包括第一文档标记和第二文档标记，所述根据所述训练问题集中每个训练问题对应的问题答案，为所述候选文档集包括的每篇候选文档添加文档标记，包括：针对所述候选文档集中包括的每篇候选文档，确定出与所述候选文档对应的训练问题，并判断所述候选文档中，是否包括与所述训练问题对应的问题答案；若所述候选文档中，包括与所述训练问题对应的问题答案，则为所述候选文档添加第一文档标记；若所述候选文档中，不包括与所述训练问题对应的问题答案，则为所述候选文档添加第二文档标记；

所述分别对所述多个排序模型进行测试，获得多个测试结果，以根据所述多个测试结果，从所述多个排序模型中选取出目标模型，包括：针对所述多个排序模型中的每个排序模型，确定出所述排序模型对应的比例数值，并针对测试问题集中的每个测试问题，通过所述搜索引擎，从所述文档数据库中，召回所述比例数值篇与所述测试问题对应的测试文档，构建一个测试文档集，以获得多个所述测试文档集；针对多个所述测试文档集中的每个测试文档集，从所述多个排序模型中，确定出与所述测试文档集对应的排序模型，以将所述测试问题集中的每个测试问题，以及所述测试文档中的每篇测试文档输入所述排序模型，以使所述排序模型输出针对所述测试问题集中的每个测试问题的文档排序结果；针对所述多个排序模型中的每个排序模型，获得所述排序模型输出的针对所述测试问题集中的所有测试问题的文档排序结果的准确率，作为所述排序模型对应的测试结果，以获得所述多个测试结果；从所述多个测试结果中选取出数值最高的测试结果，以将所述数值最高的测试结果对应的排序模型，作为所述目标模型。

2.根据权利要求1所述的排序模型确定方法，其特征在于，所述通过所述搜索引擎，从所述文档数据库中，召回所述比例数值篇与所述训练问题对应的候选文档，组成一个所述候选文档集，包括：

通过关键词抽取算法，从所述训练问题中，获取至少一个关键词；

通过所述搜索引擎，从所述文档数据库中，召回所述比例数值篇与所述至少一个关键词对应的候选文档，组成一个所述候选文档集。

3.一种排序方法，其特征在于，包括:

获取多篇目标文档，所述多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应；

将所述目标问题和所述多篇目标文档输入目标模型，以使所述目标模型输出所述多篇目标文档的排序结果，所述目标模型通过权利要求1～2中任意一项所述的排序模型确定方法训练获得。

4.一种排序模型确定装置，其特征在于，包括：

索引模块，用于通过搜索引擎，从文档数据库中，召回多个与训练问题集对应的候选文档集，多个所述候选文档集中，每个候选文档集包括的候选文档数量不同；

标记模块，用于针对多个所述候选文档集中的每个候选文档集，根据所述训练问题集中每个训练问题对应的问题答案，为所述候选文档集包括的每篇候选文档添加文档标记；

数据集构建模块，用于针对多个所述候选文档集中的每个候选文档集，构建对应的训练数据集，以获得多个训练数据集，所述训练数据集包括所述训练问题集中每个训练问题，以及所述训练数据集对应的候选文档集中，添加有文档标记的每篇候选文档；

模型训练模块，用于通过所述多个训练数据集，分别对预训练语言模型进行训练，获得多个排序模型；其中，所述预训练语言模型包括BERT中文模型或ERNIE模型；

模型确定模块，用于分别对所述多个排序模型进行测试，获得多个测试结果，以根据所述多个测试结果，从所述多个排序模型中选取出目标模型；

其中，所述索引模块包括比例数值确定单元和候选文档集获取单元；所述比例数值确定单元，用于确定出多个比例数值，所述多个比例数值中，每个比例数值不同，且每个比例数值为大于1的整数；所述候选文档集获取单元，用于针对所述多个比例数值中的每个比例数值，针对所述训练问题集中的每个训练问题，通过所述搜索引擎，从所述文档数据库中，召回比例数值篇与所述训练问题对应的候选文档，组成一个所述候选文档集，以获得多个所述候选文档集；

所述文档标记包括第一文档标记和第二文档标记；所述标记模块包括判断单元、第一标记单元和第二标记单元；所述判断单元，用于针对所述候选文档集中包括的每篇候选文档，确定出与所述候选文档对应的训练问题，并判断所述候选文档中，是否包括与所述训练问题对应的问题答案；所述第一标记单元，用于若所述候选文档中，包括与所述训练问题对应的问题答案，则为所述候选文档添加第一文档标记；所述第二标记单元，用于若所述候选文档中，不包括与所述训练问题对应的问题答案，则为所述候选文档添加第二文档标记；

所述模型确定模块包括测试文档集获取单元、文档排序结果获取单元、测试结果获取单元和目标模型确定单元；所述测试文档集获取单元，用于针对所述多个排序模型中的每个排序模型，确定出所述排序模型对应的比例数值，并针对测试问题集中的每个测试问题，通过所述搜索引擎，从所述文档数据库中，召回所述比例数值篇与所述测试问题对应的测试文档，构建一个测试文档集，以获得多个所述测试文档集；所述文档排序结果获取单元，用于针对多个所述测试文档集中的每个测试文档集，从所述多个排序模型中，确定出与所述测试文档集对应的排序模型，以将所述测试问题集中的每个测试问题，以及所述测试文档中的每篇测试文档输入所述排序模型，以使所述排序模型输出针对所述测试问题集中的每个测试问题的文档排序结果；所述测试结果获取单元，用于针对所述多个排序模型中的每个排序模型，获得所述排序模型输出的针对所述测试问题集中的所有测试问题的文档排序结果的准确率，作为所述排序模型对应的测试结果，以获得所述多个测试结果；所述目标模型确定单元，用于从所述多个测试结果中选取出数值最高的测试结果，以将所述数值最高的测试结果对应的排序模型，作为所述目标模型。

5.一种排序装置，其特征在于，包括:

文档获取模块，获取多篇目标文档，所述多篇目标文档通过搜索引擎，从文档数据库中召回，且与目标问题对应；

排序模块，用于将所述目标问题和所述多篇目标文档输入目标模型，以使所述目标模型输出所述多篇目标文档的排序结果，所述目标模型通过权利要求1～2中任意一项所述的排序模型确定方法训练获得。

6.一种电子设备，其特征在于，包括控制器和存储器，所述存储器上存储有计算机程序，所述控制器用于执行所述计算机程序，以实现权利要求1～2中任意一项所述的排序模型确定方法，或实现权利要求3所述的排序方法。

7.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被执行时，实现权利要求1～2中任意一项所述的排序模型确定方法，或实现权利要求3所述的排序方法。