CN114328883A

CN114328883A - 一种机器阅读理解的数据处理方法、装置、设备及介质

Info

Publication number: CN114328883A
Application number: CN202210217689.8A
Authority: CN
Inventors: 娄东方; 王炯亮; 林金曙; 陈春旭; 张少杰
Original assignee: Hundsun Technologies Inc
Current assignee: Hundsun Technologies Inc
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-04-12
Anticipated expiration: 2042-03-08
Also published as: CN114328883B

Abstract

本申请提供一种机器阅读理解的数据处理方法、装置、设备及介质，涉及自然语言处理技术领域。该方法包括：将与样本问题对应的样本上下文进行切分，得到样本句子集合，该样本句子集合中包括多个样本句子；将样本问题与样本句子集合中的各样本句子组合，得到训练样本的特征；根据样本问题对应的样本上下文中的样本答案集合，构建训练样本的标签；将训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。应用本申请实施例，可以提高训练得到的目标机器阅读理解模型的精确度。

Description

一种机器阅读理解的数据处理方法、装置、设备及介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种机器阅读理解的数据处理方法、装置、设备及介质。

背景技术

机器阅读理解（Machine Reading Comprehension，MRC）是自然语言处理的核心任务之一，MRC对搜索、问答、文档抽取等都具有直接的应用价值。随着深度学习的不断发展，使得机器阅读理解方法在长文档处理方面得以广泛应用。

目前，在机器阅读理解模型训练阶段，主要采用滑动窗口策略将问题对应的上下文切分为多个片段，在问题分别与每个片段组合后，可分多次输入至初始机器阅读理解模型中，最终训练得到机器阅读理解模型。

然而，由于每次只用一个片段对初始机器阅读理解模型进行训练，所以初始机器阅读理解模型只能感知当前输入片段的语义信息，其它片段语义信息丢失，这样会造成上下文语义断层的现象，进而降低机器阅读理解模型的精确度。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种机器阅读理解的数据处理方法、装置、设备及介质，可以提高机器阅读理解模型的精确度。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种机器阅读理解的数据处理方法，所述方法包括：

将与样本问题对应的样本上下文进行切分，得到样本句子集合，所述样本句子集合中包括多个样本句子；

将所述样本问题与所述样本句子集合中的各样本句子组合，得到训练样本的特征；

根据所述样本问题对应的所述样本上下文中的样本答案集合，构建所述训练样本的标签，所述样本答案集合包括：无样本答案或至少一个样本答案，包括至少一个样本答案的样本答案集合对应的标签包括：样本答案起始位置、样本答案终止位置以及样本答案内容；

将所述训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。

可选地，所述将与样本问题对应的样本上下文进行切分，得到样本句子集合，包括：

对所述样本上下文中的目标结尾符号进行识别，得到所述目标结尾符号在所述样本上下文的位置信息；

根据所述目标结尾符号在所述样本上下文的位置信息对所述样本上下文进行切分，得到初始样本句子集合，所述初始样本句子集合中包括多个初始样本句子；

根据所述初始机器阅读理解模型对应的设置参数对所述初始样本句子集合中的初始样本句子进行处理，得到样本句子集合，所述设置参数包括样本句子的限定长度和/或样本句子的限定数量。

可选地，所述将所述训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型，包括：

将所述训练样本的特征和标签输入至所述初始机器阅读理解模型中的编码层，由所述编码层对所述训练样本的特征和标签进行编码后，得到训练样本向量，所述训练样本向量包括特征向量、标签向量；

基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对所述初始机器阅读理解模型进行训练，得到所述目标机器阅读理解模型。

可选地，所述编码层包括句子编码器、上下文编码器，所述句子编码器与所述上下文编码器连接；

所述将所述训练样本的特征和标签输入至所述初始机器阅读理解模型中的编码层，由所述编码层对所述训练样本的特征和标签进行编码后，得到训练样本向量，包括：

将所述训练样本的特征和标签输入至所述初始机器阅读理解模型中的所述句子编码器，由所述句子编码器编码后得到句子向量集合，所述句子向量集合由样本问题向量以及多个样本句子向量组成；

将所述句子向量集合输入至所述上下文编码器，由所述上下文编码器交互编码后得到句子语义向量集合，所述句子语义向量集合中包括：所述样本问题对应的样本问题语义向量以及各样本句子向量对应的样本句子语义向量，各样本句子语义向量组成目标上下文向量；

根据所述句子语义向量集合，更新所述句子向量集合。

可选地，所述基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，所述方法还包括：

将所述目标上下文向量依次输入至所述初始机器阅读理解模型中的初始第一全连接层以及初始第一激活层，得到有答案概率；

获取有无答案标识，所述有无答案标识为有答案标识或无答案标识；

根据有无答案损失函数确定所述有无答案损失值，所述有无答案损失函数中至少包括：有答案概率和有无答案标识。

将所述目标上下文向量输入至所述初始机器阅读理解模型中的初始第二全连接层，得到所述目标上下文向量中各位置对应的分数；

基于预设掩盖策略，将所述目标上下文向量中各位置对应的分数输入至所述初始第二全连接层后的初始第二激活层，得到各样本答案分别对应的起始位置概率向量，所述起始位置概率向量包括目标上下文向量中各位置对应的起始位置概率，所述预设掩盖策略用于指示在计算所述目标上下文向量中各样本答案起始位置对应的起始位置概率时，需要将各样本答案自身之外的其它样本答案起始位置进行掩盖；

基于将各样本答案自身之外的其它样本答案起始位置进行掩盖策略，得到各样本答案分别对应的掩盖起始位置向量；

根据答案起始位置损失函数确定所述答案起始位置损失值，其中，所述答案起始位置损失函数中至少包括如下参数：各样本答案分别对应的起始位置概率向量和各样本答案分别对应的掩盖起始位置向量。

分别将各样本答案对应的起始位置的位置向量与所述目标上下文向量进行拼接，得到各样本答案对应的第一拼接向量；

分别将各样本答案对应的第一拼接向量依次输入至所述初始机器阅读理解模型中的初始第三全连接层以及初始第三激活层，得到各样本答案分别对应的终止位置概率向量，所述终止位置概率向量包括目标上下文向量中各位置对应的终止位置概率；

根据答案终止位置损失函数确定所述答案终止位置损失值，其中，所述答案终止位置损失函数中至少包括如下参数：各样本答案分别对应的终止位置概率向量和所述标签向量中的终止位置向量。

可选地，所述方法还包括：

将与目标问题对应的待处理上下文进行切分，得到句子集合，所述句子集合中包括多个句子；

将所述目标问题以及所述句子集合中的各句子组合后得到的输入数据输入所述目标机器阅读理解模型，由所述目标机器阅读理解模型确定所述待处理上下文中是否存在所述目标问题对应的答案；

若是，则由所述目标机器阅读理解模型根据所述输入数据进行编解码处理后，得到至少一组位置对，所述位置对中包括起始位置以及终止位置；

根据各组位置对中起始位置对应的起始位置概率以及终止位置对应的终止位置概率，确定各组位置对所对应的联合概率；

根据各组位置对应的联合概率以及预设置信度，确定目标位置对，将所述目标位置对组合内容作为所述目标问题对应的目标答案。

可选地，所述由所述目标机器阅读理解模型根据所述输入数据进行编解码处理后，得到至少一组位置对，包括：

由所述目标机器阅读理解模型根据所述输入数据进行编解码处理，得到由所述目标机器阅读理解模型输出的所述待处理上下文中各位置对应的起始位置概率；

根据所述待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及所述目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置；

将所述至少一个候选起始位置以及所述至少一个候选终止位置进行组合，得到至少一组位置对。

可选地，所述根据所述待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及所述目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置，包括：

根据所述待处理上下文中各位置对应的起始位置概率以及预设起始位置概率阈值，从所述待处理上下文的各位置中筛选出至少一个候选起始位置；

将各候选起始位置对应的标识输入所述目标机器阅读理解模型，由所述目标机器阅读理解模型根据各候选起始位置对应的标识确定各候选起始位置对应的位置向量，并分别将各候选起始位置对应的位置向量与待处理上下文向量进行拼接处理，得到各候选起始位置对应的第二拼接向量；

通过所述目标机器阅读理解模型对各候选起始位置对应的第二拼接向量进行解码处理后，得到由所述目标机器阅读理解模型输出基于各候选起始位置的所述待处理上下文中各位置对应的终止位置概率；

根据基于各候选起始位置的所述待处理上下文中各位置对应的终止位置概率以及预设终止位置数量，从所述待处理上下文的各位置中筛选出至少一个候选终止位置。

第二方面，本申请实施例还提供了一种器阅读理解的数据处理装置，所述装置包括：

切分模块，用于将与样本问题对应的样本上下文进行切分，得到样本句子集合，所述样本句子集合中包括多个样本句子；

组合模块，用于将所述样本问题与所述样本句子集合中的各样本句子组合，得到训练样本的特征；

构建模块，用于根据所述样本问题对应的所述样本上下文中的样本答案集合，构建所述训练样本的标签，所述样本答案集合包括：无样本答案或至少一个样本答案，包括至少一个样本答案的样本答案集合对应的标签包括：样本答案起始位置、样本答案终止位置以及样本答案内容；

训练模块，用于将所述训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。

可选地，所述切分模块，具体用于对所述样本上下文中的目标结尾符号进行识别，得到所述目标结尾符号在所述样本上下文的位置信息；根据所述目标结尾符号在所述样本上下文的位置信息对所述样本上下文进行切分，得到初始样本句子集合，所述初始样本句子集合中包括多个初始样本句子；根据所述初始机器阅读理解模型对应的设置参数对所述初始样本句子集合中的初始样本句子进行处理，得到样本句子集合，所述设置参数包括样本句子的限定长度和/或样本句子的限定数量。

可选地，所述训练模块，具体用于将所述训练样本的特征和标签输入至所述初始机器阅读理解模型中的编码层，由所述编码层对所述训练样本的特征和标签进行编码后，得到训练样本向量，所述训练样本向量包括特征向量、标签向量；基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对所述初始机器阅读理解模型进行训练，得到所述目标机器阅读理解模型。

所述训练模块，还具体用于将所述训练样本的特征和标签输入至所述初始机器阅读理解模型中的所述句子编码器，由所述句子编码器编码后得到句子向量集合，所述句子向量集合由样本问题向量以及多个样本句子向量组成；将所述句子向量集合输入至所述上下文编码器，由所述上下文编码器交互编码后得到句子语义向量集合，所述句子语义向量集合中包括：所述样本问题对应的样本问题语义向量以及各样本句子向量对应的样本句子语义向量，各样本句子语义向量组成目标上下文向量；根据所述句子语义向量集合，更新所述句子向量集合。

可选地，所述装置还包括：输入模块；

所述输入模块，用于将所述目标上下文向量依次输入至所述初始机器阅读理解模型中的初始第一全连接层以及初始第一激活层，得到有答案概率；获取有无答案标识，所述有无答案标识为有答案标识或无答案标识；根据有无答案损失函数确定所述有无答案损失值，所述有无答案损失函数中至少包括：有答案概率和有无答案标识。

可选地，所述输入模块，还用于将所述目标上下文向量输入至所述初始机器阅读理解模型中的初始第二全连接层，得到所述目标上下文向量中各位置对应的分数；基于预设掩盖策略，将所述目标上下文向量中各位置对应的分数输入至所述初始第二全连接层后的初始第二激活层，得到各样本答案分别对应的起始位置概率向量，所述起始位置概率向量包括目标上下文向量中各位置对应的起始位置概率，所述预设掩盖策略用于指示在计算所述目标上下文向量中各样本答案起始位置对应的起始位置概率时，需要将各样本答案自身之外的其它样本答案起始位置进行掩盖；基于将各样本答案自身之外的其它样本答案起始位置进行掩盖策略，得到各样本答案分别对应的掩盖起始位置向量；根据答案起始位置损失函数确定所述答案起始位置损失值，其中，所述答案起始位置损失函数中至少包括如下参数：各样本答案分别对应的起始位置概率向量和各样本答案分别对应的掩盖起始位置向量。

可选地，所述输入模块，还用于分别将各样本答案对应的起始位置的位置向量与所述目标上下文向量进行拼接，得到各样本答案对应的第一拼接向量；分别将各样本答案对应的第一拼接向量依次输入至所述初始机器阅读理解模型中的初始第三全连接层以及初始第三激活层，得到各样本答案分别对应的终止位置概率向量，所述终止位置概率向量包括目标上下文向量中各位置对应的终止位置概率；根据答案终止位置损失函数确定所述答案终止位置损失值，其中，所述答案终止位置损失函数中至少包括如下参数：各样本答案分别对应的终止位置概率向量和所述标签向量中的终止位置向量。

可选地，所述切分模块，还用于将与目标问题对应的待处理上下文进行切分，得到句子集合，所述句子集合中包括多个句子；

所述组合模块，还用于将所述目标问题以及所述句子集合中的各句子组合后得到的输入数据输入所述目标机器阅读理解模型，由所述目标机器阅读理解模型确定所述待处理上下文中是否存在所述目标问题对应的答案；

编解码模块，用于若是，则由所述目标机器阅读理解模型根据所述输入数据进行编解码处理后，得到至少一组位置对，所述位置对中包括起始位置以及终止位置；

第一确定模块，用于根据各组位置对中起始位置对应的起始位置概率以及终止位置对应的终止位置概率，确定各组位置对所对应的联合概率；

第二确定模块，用于根据各组位置对应的联合概率以及预设置信度，确定目标位置对，将所述目标位置对组合内容作为所述目标问题对应的目标答案。

可选地，所述编解码模块，具体用于由所述目标机器阅读理解模型根据所述输入数据进行编解码处理，得到由所述目标机器阅读理解模型输出的所述待处理上下文中各位置对应的起始位置概率；根据所述待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及所述目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置；将所述至少一个候选起始位置以及所述至少一个候选终止位置进行组合，得到至少一组位置对。

可选地，所述编解码模块，还具体用于根据所述待处理上下文中各位置对应的起始位置概率以及预设起始位置概率阈值，从所述待处理上下文的各位置中筛选出至少一个候选起始位置；将各候选起始位置对应的标识输入所述目标机器阅读理解模型，由所述目标机器阅读理解模型根据各候选起始位置对应的标识确定各候选起始位置对应的位置向量，并分别将各候选起始位置对应的位置向量与待处理上下文向量进行拼接处理，得到各候选起始位置对应的第二拼接向量；通过所述目标机器阅读理解模型对各候选起始位置对应的第二拼接向量进行解码处理后，得到由所述目标机器阅读理解模型输出基于各候选起始位置的所述待处理上下文中各位置对应的终止位置概率；根据基于各候选起始位置的所述待处理上下文中各位置对应的终止位置概率以及预设终止位置数量，从所述待处理上下文的各位置中筛选出至少一个候选终止位置。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述第一方面的所述机器阅读理解的数据处理方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面的所述机器阅读理解的数据处理方法的步骤。

本申请的有益效果是：

本申请实施例提供一种机器阅读理解的数据处理方法、装置、设备及介质，该方法包括：将与样本问题对应的样本上下文进行切分，得到样本句子集合，该样本句子集合中包括多个样本句子；将样本问题与样本句子集合中的各样本句子组合，得到训练样本的特征；根据样本问题对应的样本上下文中的样本答案集合，构建训练样本的标签；将训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。应用本申请实施例，可以提高训练得到的目标机器阅读理解模型的精确度。

采用本申请实施例提供的机器阅读理解的数据处理方法，可以将样本上下文切分为多个样本句子，将样本问题与各样本句子组合后结果作为训练样本的特征一次输入初始机器阅读理解模型，这样可以避免造成上下文语义断层的现象，使初始机器阅读理解模型全方位感知样本上下文的语义信息，进而提高训练得到的目标机器阅读理解模型的精确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种机器阅读理解的数据处理方法的流程示意图；

图2为本申请实施例提供的另一种机器阅读理解的数据处理方法的流程示意图；

图3为本申请实施例提供的一种初始机器阅读理解模型的结构示意图；

图4为本申请实施例提供的又一种机器阅读理解的数据处理方法的流程示意图；

图5为本申请实施例提供的再一种机器阅读理解的数据处理方法的流程示意图；

图6为本申请实施例提供的另一种机器阅读理解的数据处理方法的流程示意图；

图7为本申请实施例提供的又一种机器阅读理解的数据处理方法的流程示意图；

图8为本申请实施例提供的再一种机器阅读理解的数据处理方法的流程示意图；

图9为本申请实施例提供的一种机器阅读理解的数据处理装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在对本申请实施例进行详细解释之前，首先对本申请的应用场景予以介绍。该应用场景具体可为对金融领域资讯事件主体进行识别的场景，当然，也可为对其它领域的事件主体进行识别的场景，如体育领域、医疗领域等，需要说明的是，本申请不对其进行限定。

对事件主体进行识别的场景中，主要采用两种识别方式，一种是序列标注方式，另一种是机器阅读理解方式，由于机器阅读理解方式擅长抽取长描述文本以及可迁移性等优点，本申请重点对机器阅读理解方式进行介绍。为了清楚对下述提到的机器阅读理解的数据处理方法的示例进行理解，首先对本申请提到的MRC（Machine Reading Comprehension，机器阅读理解）系统进行介绍，MRC系统可以理解为，给定一段上下文和与其相关的问题，MRC系统可从该段上下文中抽取出与该问题对应的答案，以此来衡量机器对自然语言的推理能力，此类MRC系统具体可称为片段抽取式MRC（Span-Extraction MRC）系统。

本申请中的片段抽取式MRC系统从上下文中抽取与问题对应的答案主要可分为3个阶段，具体可为数据装载阶段、模型训练阶段、模型应用阶段。其中，数据装载阶段可以理解为构建训练样本过程，在训练样本构建完成后，可将训练样本输入初始机器阅读理解模型中，在满足训练停止条件时，训练得到目标机器阅读理解模型，将目标机器阅读理解模型存储在计算机关联的数据库中。计算机在获取到待处理上下文以及目标问题时，可首先对待处理上下文以及目标问题进行数据装载，得到输入数据，将输入数据输入目标机器阅读理解模型中，目标机器阅读理解模型对输入数据进行编解码后，可得到目标问题对应的答案信息，答案信息可包括没有答案以及有答案两种情况，在有答案时，答案数量可包括一个或多个，需要说明的是，本申请不对其进行限定。

上述数据装载阶段、模型训练阶段、模型应用阶段这三个阶段的具体数据处理内容可参考下述示例描述，此处不再进行说明。

如下结合附图对本申请提到的机器阅读理解的数据处理方法进行示例说明。图1为本申请实施例提供的一种机器阅读理解的数据处理方法的流程示意图。如图1所示，该方法可包括：

S101、将与样本问题对应的样本上下文进行切分，得到样本句子集合。

其中，该样本句子集合中包括多个样本句子。一种示例性的，训练数据库中存储有样本上下文以及与样本上下文对应的样本问题，那么可直接从训练数据库中提取出预设数量的样本上下文极其对应的样本问题。另一种示例性的，训练数据库中存储有样本上下文，工作人员可根据从训练数据库中提取出的样本上下文构建其对应的样本问题。

此处以一个样本上下文为例进行说明，在获取到样本上下文后，利用预设切分策略对样本上下文进行切分，得到多个样本句子，其中，预设切分策略具体可为按照标点符号进行切分或按照预设词数量进行切分等内容，预设切分策略可根据实际需求进行设置，本申请不对其进行限定。

S102、将样本问题与样本句子集合中的各样本句子组合，得到训练样本的特征。

其中，可首先检测该样本问题是否为标准化的样本问题，若不是，那么需要将该样本问题进行标准化。举例来说，若样本问题为“股票评级下调”，那么可将“股票评级下调”的样本问题修订为“哪些公司被下调股票评级”类似的标准化样本问题。

样本句子集合可用

表示，

代表第n个样本句子，在样本问题进行标准化后，可将该样本问题以及样本句子集合中的各样本句子进行组合拼接，即可以理解为将样本问题q添加到样本句子集合S中，得到新的样本句子集合

，新的样本句子集合相当于训练样本的特征。

可以理解的是，采用多个训练样本对初始机器阅读理解模型进行训练，每个训练样本中的特征构建过程可参考上述描述，本申请实施例以一个训练样本为例对机器阅读理解的数据处理方法进行说明。

可以看出，将样本问题与样本句子集合中的每个样本句子组合后的结果作为训练样本的特征，由于每个训练样本可覆盖多个句子，所以这样可以避免造成上下文语义断层的现象，可以使初始机器阅读理解模型全方位感知样本上下文的语义信息，使后期训练得到的目标机器阅读理解模型的精确度得到提高。

并且，一次性可将样本上下文所包括的每个样本句子全部载入初始机器阅读理解模型，这样可以提高训练样本数据的装载效率，进而提高训练得到目标机器阅读理解模型的效率。

S103、根据样本问题对应的样本上下文中的样本答案集合，构建训练样本的标签。

其中，该样本答案集合包括：无样本答案或至少一个样本答案，包括至少一个样本答案的样本答案集合对应的标签包括：样本答案起始位置、样本答案终止位置以及样本答案内容。

一种示例性的，从训练数据库中查找与该样本问题对应的样本答案，如果训练数据库中不存在与该样本问题对应的样本答案，即无样本答案，则代表着与该样本问题对应的样本上下文中不存在与该样本问题对应的样本答案；如果训练数据库中存在与该样本问题对应的样本答案，即包括至少一个样本答案，则代表着与该样本问题对应的样本上下文中存在与该样本问题对应的样本答案，样本答案的数量为一个或多个。

在无样本答案时，训练样本的标签可用无样本答案对应的无答案标识（如0）进行表示；在有样本答案时，工作人员可根据该样本问题对应的样本答案集合中各样本答案在样本上下文中的位置信息确定各样本答案的标签，标签包括样本答案起始位置、样本答案终止位置以及样本答案内容。举例来说，假设样本问题“哪些公司被下调股票评级”对应的样本上下文中的样本答案为“京东方”，样本答案“京东方”中的“京”在样本上下中位于第36位，“方”在样本上下中位于第38位，那么可将（36，38，京东方）作为样本答案京东方”对应的标签，其中，36表示样本答案起始位置，38表示样本答案终止位置，“京东方”表示样本答案内容。

当样本答案集合中包括多个样本答案时，那么样本答案集合对应的标签为

，其中，

表示第n个样本答案，

表示第n个样本答案起始位置，

表示第n个样本答案终止位置，

表示样本答案内容。

S104、将训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。

根据上述描述可知，训练样本可包括特征以及标签，其中，训练样本的特征可用

表示，训练样本的标签可用

表示，将训练样本的特征以及标签组装成

一起输入初始机器阅读理解模型，将

作为初始机器阅读理解模型的输入，将

作为初始机器阅读理解模型的输出对初始机器阅读训练模型进行训练，在满足预设训练停止条件时，可训练得到目标机器阅读理解模型。

综上所述，本申请提供的机器阅读理解的数据处理方法中，将样本上下文切分为多个样本句子，将样本问题与各样本句子组合后结果作为训练样本的特征一次输入初始机器阅读理解模型，这样可以避免造成上下文语义断层的现象，使初始机器阅读理解模型全方位感知样本上下文的语义信息，进而提高训练得到的目标机器阅读理解模型的精确度。

图2为本申请实施例提供的另一种机器阅读理解的数据处理方法的流程示意图。可选地，如图2所示，上述将与样本问题对应的样本上下文进行切分，得到样本句子集合，包括：

S201、对样本上下文中的目标结尾符号进行识别，得到目标结尾符号在样本上下文的位置信息。

S202、根据目标结尾符号在样本上下文的位置信息对样本上下文进行切分，得到初始样本句子集合。

其中，目标结尾符号可为一种（如句号），也可为多种（如句号、逗号、分号等），本申请不对其进行限定。在目标结尾符号确定后，可按照预设的识别算法得到样本上下文中目标结尾符号的位置信息。可基于样本上下文中目标结尾符号的位置信息对样本上下文进行切分，得到多个初始样本句子。

利用结尾符号对样本上下文进行切分，可以尽量保证每个初始样本句子为连续文本描述，进而可使各初始样本句子更精确的体现样本上下文的语义信息，使后期初始机器阅读理解模型更精确的感知样本上下文的语义信息。

S203、根据初始机器阅读理解模型对应的设置参数对初始样本句子集合中的初始样本句子进行处理，得到样本句子集合。

其中，该设置参数包括样本句子的限定长度和/或样本句子的限定数量。样本句子的限定长度可用

表示，样本句子的限定数量可用

表示，样本上下文的最大长度L与样本句子的限定长度

以及样本句子的限定数量

之间的关系为：

基于此，在一种可实现的实施例中，可首先统计初始样本句子集合中初始样本句子的数量，当初始样本句子集合中初始样本句子的数量小于样本句子的限定数量

时，可确定初始样本句子集合中各初始样本句子的字符长度，若存在初始样本句子的字符长度小于样本句子的限定长度

，则在该初始样本句子的末尾处用预设字符补齐，使补齐后的初始样本句子的字符长度为

；若存在初始样本句子的字符长度大于样本句子的限定长度

，则对该初始样本句子进行切分，最终使样本句子集合中的样本句子数量以及各样本句子的字符数满足初始机器阅读理解模型对应的设置参数，这样可以使每个训练样本都具有统一性，将这样的样本句子集合所构建的训练样本的特征输入初始机器阅读理解模型，可以提高模型训练效率及精确度。

此处对初始机器阅读理解模型的结构进行介绍，图3为本申请实施例提供的一种初始机器阅读理解模型的结构示意图。如图3所示，初始机器阅读理解模型300包括编码层301、初始第一全连接层302A、初始第一激活层302B、初始第二全连接层303A、初始第二激活层303B、初始第三全连接层304A、初始第三激活层304B。

其中，编码层301、初始第一全连接层302A、初始第一激活层302B依次连接，将构建的训练样本输入编码层301，编码层301输出训练样本向量，编码层301将输出的训练样本向量中的特征向量输入初始第一全连接层302A，初始第一全连接层302A将输出的有无样本答案分数输入初始第一激活层302B，初始第一激活层302B输出有答案概率

，无答案概率为（1-

），根据预设的有无答案损失函数对编码层301中的学习参数以及初始第一全连接层302A中的学习参数进行修订。

编码层301、初始第二全连接层303A、初始第二激活层303B依次连接，编码层301将输出的训练样本向量的特征向量中的目标上下文向量输入初始第二全连接层303A，初始第二全连接层303A将输出的目标上下文向量中各位置对应的分数输入初始第二激活层303B，初始第二激活层303B下述提到的预设掩盖策略输出目标上下文向量中各位置对应的起始位置概率，各起始位置概率可组成起始位置概率向量

，根据预设的起始位置损失函数对编码层301中的学习参数以及初始第二全连接层303A中的学习参数进行修订。

初始第三全连接层304A之前还包括拼接层304C，拼接层304C与编码层301连接，拼接层304C获取编码层301输出的目标上下文向量以及各样本答案对应的起始位置的位置向量。举例对各样本答案对应的起始位置的位置向量进行说明，假设该训练样本的样本答案包括“京东方”、“欧菲光”，样本答案“京东方”对应的起始位置的位置向量为“京”对应的向量，“欧菲光”对应的起始位置的位置向量为“欧”对应的向量。拼接层304C分别将各样本答案对应的起始位置的位置向量与目标上下文向量进行拼接，如将“京”对应的向量与目标上下文向量进行拼接，将“欧”对应的向量与目标上下文向量进行拼接，可得到两个拼接向量。

拼接层304C分别将每个拼接向量输入初始第三全连接层304A，以一个拼接向量为例进行说明，初始第三全连接层304A对该拼接向量处理后，将输出的目标上下文向量中各位置对应的分数输入初始第三激活层304B，初始第三激活层304B输出目标上下文向量中各位置对应的终止位置概率，各终止位置概率可组成终止位置概率向量

，也就是说，最终可得到与样本答案个数对应的终止位置概率向量

。根据预设的终止位置损失函数对编码层301中的学习参数以及初始第三全连接层304A中的学习参数进行修订。

也就是说，初始机器阅读理解模型的总损失函数由有无答案损失函数、起始位置损失函数以及终止位置损失函数组成。利用总损失函数对初始机器阅读理解模型进行训练，在满足训练停止条件时，训练得到初始第一全连接层302A、初始第二全连接层303A以及初始第三全连接层304A中的目标学习参数以及其它目标学习参数，即训练得到目标机器阅读理解模型。

图4为本申请实施例提供的又一种机器阅读理解的数据处理方法的流程示意图。可选地，如图4所示，上述将训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型，包括：

S401、将训练样本的特征和标签输入至初始机器阅读理解模型中的编码层，由编码层对训练样本的特征和标签进行编码后，得到训练样本向量。

结合图3进行说明，可将训练样本输入编码层301中，由编码层301对训练样本进行编码后，可得到训练样本向量，其中，训练样本向量包括特征向量、标签向量。特征向量由样本问题对应的样本问题向量以及各样本句子对应的样本句子向量组成，标签向量包括有无答案标识、起始位置向量以及终止位置向量组成，其中，有无答案标识具体为用1表示有答案标识、用0表示无答案标识，起始位置向量可以理解为各样本答案起始位置设置为1，其它位置设置为0的向量，终止位置向量可以理解为样本答案终止位置设置为1，其它位置设置为0的向量。

举例来说，假设该训练样本的样本答案用（36，38，京东方）、（57，59，欧菲光）表示，那么标签向量中的起始位置向量的第36个元素、第57个元素分别为1，其它元素分别为0；标签向量中的终止位置向量的第38个元素、第59个元素分别为1，其它元素分别为0。

S402、基于训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练，得到目标机器阅读理解模型。

根据上述描述可知，初始机器阅读理解模型包括三种损失函数，具体为有无答案损失函数、起始位置损失函数以及终止位置损失函数，初始机器阅读理解模型根据有无答案损失函数可得到有无答案损失值，根据起始位置损失函数可得到答案起始位置损失值，根据终止位置损失函数可得到答案终止位置损失值，基于得到的答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练，在满足训练停止条件时，可得到目标机器阅读理解模型，目标机器阅读理解模型中包括训练时得到的目标学习参数。

可以看出，本申请利用三种损失（有无答案损失、起始位置损失以及终止位置损失）同时训练初始机器阅读理解模型，可以使训练得到的目标机器阅读理解模型不仅可识别有无答案的功能，而且还可以在有答案时，对答案进行抽取。

可选地，如图3所示，编码层301中可包括句子编码器301A以及上下文编码器301B，句子编码器301A与上下文编码器301B连接，其中，句子编码器301A以及上下文编码器301B可进行多次交替编码加强上下文语义信息建模。进一步的，初始机器阅读理解模型中可包括多个编码层301A，各编码层301A依次连接，每个编码层301A中包括句子编码器301A以及上下文编码器301B，需要说明的是，本申请不对编码层的数量进行限定。

图5为本申请实施例提供的再一种机器阅读理解的数据处理方法的流程示意图。可选的，如图5所示，上述将训练样本的特征和标签输入至初始机器阅读理解模型中的编码层，由编码层对训练样本的特征和标签进行编码后，得到训练样本向量，包括：

S501、将训练样本的特征和标签输入至初始机器阅读理解模型中的句子编码器，由句子编码器编码后得到句子向量集合。

其中，句子向量集合由样本问题向量以及多个样本句子向量组成。结合图3进行说明，句子编码器301A对训练样本的特征中的样本问题以及多个样本句子分别进行编码，得到特征向量中的样本问题对应的样本问题向量以及各样本句子对应的样本句子向量。

S502、将句子向量集合输入至上下文编码器，由上下文编码器交互编码后得到句子语义向量集合。

S503、根据句子语义向量集合，更新句子向量集合。

其中，该句子语义向量集合包括：样本问题对应的样本问题语义向量以及各样本句子向量对应的样本句子语义向量。各样本句子语义向量组成目标上下文向量，也就是说，该训练样本对应的目标上下文向量由该训练样本对应的多个样本句子语义向量组成。

句子编码器301A将输出的样本问题向量以及各样本句子向量输入上下文编码器301B中，上下文编码器301B将样本问题向量以及各样本句子向量进行语义交互编码，输出句子语义向量集合，该句子语义向量集合中包括：样本问题向量对应的样本问题语义向量以及各样本句子向量对应的样本句子语义向量。

在上下文编码器301B输出句子语义向量集合后，可将该句子语义向量集合作为自身的输入，再次进行语义交互编码，需要说明的是，上下文编码器301B进行语义交互编码的次数可根据实际需求进行设置，本申请不对其进行限定。

将该句子语义向量集合作为自身的输入可以理解为，利用上下文编码器301B输出的句子语义向量集合更新句子编码器301A输出的句子向量集合，使句子编码器301A与上下文编码器301B进行多次交替编码，这样可加强上下文语义信息，使每个样本句子都能获取到整个样本上下文的语义信息，即目标上下文向量所包括的各样本句子语义向量可感知整个样本上下文的语义信息，可以提高后期训练得到的目标机器阅读理解模型的精确度。

下述实施例重点对上述提到的有无答案损失函数、起始位置损失函数以及终止位置损失函数进行介绍。

可选地，上述基于训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，该方法还可包括：将目标上下文向量输入至初始机器阅读理解模型中的初始第一全连接层，得到有答案概率；获取有无答案标识，有无答案标识为有答案标识或无答案标识；根据有无答案损失函数确定有无答案损失值，有无答案损失函数中至少包括：有无答案概率和有无答案标识。

结合图3进行说明，编码层301输出特征向量后，可将特征向量输入初始第一全连接层302A，初始第一全连接层302A将输出的有无答案分数输入初始第一激活层302B，初始第一激活层302B输出有答案概率

。同时，还可根据训练样本中的标签得到有无答案标识，假设有答案标识Z可用1表示，那么无答案标识可用0表示。

在有答案概率

以及有答案标识Z确定后，可利用预设的有无答案损失函数计算有无答案损失值，有无答案损失函数

如下表示：

其中，n表示训练样本个数。可以理解的是，模型训练阶段可包括多个训练样本，每个训练样本可按照上述的处理过程进行处理，进而可通过有无答案损失函数

可计算得到有无答案损失值，进而可对编码层301中的学习参数以及初始第一全连接层302A中的学习参数进行修订，即对初始机器阅读理解模型进行训练。

可以看出，利用有无答案损失函数

训练得到目标机器阅读理解模型，可以使目标机器阅读理解模型具有判断是否有答案的功能。

可选地，上述基于训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，该方法还可包括：将目标上下文向量输入至初始机器阅读理解模型中的初始第二全连接层，得到目标上下文向量中各位置对应的分数；基于预设掩盖策略，将目标上下文向量中各位置对应的分数输入至初始第二全连接层后的初始第二激活层，得到各样本答案分别对应的起始位置概率向量，起始位置概率向量包括目标上下文向量中各位置对应的起始位置概率，该预设掩盖策略用于指示在计算目标上下文向量中各样本答案起始位置对应的起始位置概率时，需要将各样本答案自身之外的其它样本答案起始位置进行掩盖；基于将各样本答案自身之外的其它样本答案起始位置进行掩盖策略，得到各样本答案分别对应的掩盖起始位置向量；根据答案起始位置损失函数确定答案起始位置损失值，其中，答案起始位置损失函数中至少包括如下参数：各样本答案分别对应的起始位置概率向量和各样本答案分别对应的掩盖起始位置向量。

结合图3进行说明，编码层301输出该训练样本向量中的目标上下文向量后，可将目标上下文向量输入初始第二全连接层303A，初始第二全连接层303A将输出的目标上下文向量中各位置对应的分数输入初始第二激活层303B。初始第二激活层303B基于该预设掩盖策略，得到各样本答案分别对应的起始位置概率向量。其中，该预设掩盖策略具体可为在计算目标上下文向量中各样本答案起始位置对应的起始位置概率时，需要将各样本答案自身之外的其它样本答案起始位置进行掩盖。

举例来说，假设该训练样本中的样本答案包括“京东方”、“欧菲光”，初始第二激活层303B在计算样本答案“京东方”中“京”所在位置对应的起始位置概率时，可将样本答案“欧菲光”中的“欧”进行遮挡，在计算样本答案“欧菲光”中“欧”所在位置对应的起始位置概率时，可将样本答案“京东方”中的“京”进行遮挡，那么初始第二激活层303B可分别得到样本答案“京东方”对应的目标上下文向量中各位置对应的起始位置概率、样本答案“欧菲光”对应的目标上下文向量中各位置对应的起始位置概率。也就是说，每个样本答案可对应一个起始位置概率向量，且样本答案对应的起始位置概率向量中除自身起始位置外的其它样本答案起始位置对应的起始位置概率为0，将各样本答案自身之外的其它样本答案起始位置进行掩盖可突出各样本答案的起始位置在样本上下文中的位置，进而提高训练速度以及精确度。

根据上述描述可知，初始第二激活层303B可分别输出各样本答案对应的起始位置概率向量

，同时还可以基于将各样本答案自身之外的其它样本答案起始位置进行掩盖策略，得到各样本答案分别对应的掩盖起始位置向量

。继续上述举例来说，样本答案“京东方”对应的掩盖起始位置向量可以理解为：目标上下文中“京”位置对应的元素为1，目标上下文向量除“京”位置外的其它位置对应的元素为0，样本答案“欧菲光”对应的掩盖起始位置向量可以理解为目标上下文向量中“欧”位置对应的元素为1，目标上下文向量除“欧”位置外的其它位置对应的元素为0。

在各训练样本的各样本答案分别对应的起始位置概率向量

和各样本答案分别对应的掩盖起始位置向量

确定后，可利用预设的答案起始位置损失函数计算答案起始位置损失值，答案起始位置损失函数

可如下表示：

其中，n表示训练样本个数、m表示每个训练样本中包括的样本答案个数减1。

可选地，上述基于训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，该方法还可以包括：分别将各样本答案对应的起始位置的位置向量与目标上下文向量进行拼接，得到各样本答案对应的第一拼接向量；分别将各样本答案对应的第一拼接向量依次输入至初始机器阅读理解模型中的初始第三全连接层以及初始第三激活层，得到各样本答案分别对应的终止位置概率向量，终止位置概率向量包括目标上下文向量中各位置对应的终止位置概率；根据答案终止位置损失函数确定答案终止位置损失值，其中，答案终止位置损失函数中包括如下参数：各样本答案分别对应的终止位置概率向量和标签向量中的终止位置向量。

结合图3进行说明，编码层301、拼接层304C、初始第三全连接层304A以及初始第三激活层304B依次连接，拼接层304C接收编码层301输出的目标上下文向量以及基于初始第二激励层输出的起始位置向量可得到各样本答案对应的起始位置的位置向量，各样本答案对应的起始位置的位置向量可参考上述相关部分描述。拼接层304C分别将各样本答案对应的起始位置的位置向量与目标上下文向量进行两两拼接，拼接层304C进行拼接处理后，得到各样本答案对应的第一拼接向量，以一个样本答案对应的第一拼接向量为例进行说明，拼接层304C将输出的样本答案对应的第一拼接向量输入初始第三全连接层304A，初始第三全连接层304A将输出的目标上下文向量中各位置对应的分数输入初始第三激活层304B，初始第三激活层304B输出目标上下文向量中各位置对应的终止位置概率，将目标上下文向量中各位置对应的终止位置概率组合为终止位置概率向量。准确而言，因为计算过程中已给定相应起始位置，该终止位置概率为：给定起始位置条件下，上下文各位置对应的条件终止位置概率。

标签向量中的终止位置向量可参考上述相关部分描述，在各训练样本中各样本答案分别对应的终止位置概率向量

以及标签向量中的终止位置向量

确定后，可利用预设的答案终止位置损失函数计算答案终止位置损失值，答案终止位置损失函数

可如下表示：

一种示例性的，初始机器阅读理解模型对应的总损失函数

可如下表述：

其中，

表示起始位置损失对应的权重，

表示终止位置损失对应的权重。

以及

可根据实际需求进行设置，本申请不对其进行限定。

本申请可通过三种损失函数训练初始机器阅读理解模型，这样可以使训练得到的目标机器阅读理解模型不仅可以识别是否有答案，还可以在有多个答案时，对多答案分别进行抽取；上述示例中的数据装载以及编码方式还可以提高训练速度。

上述实施例主要对模型训练阶段的内容进行了说明，下述实施例主要对模型应用阶段的内容进行介绍。

图6为本申请实施例提供的另一种机器阅读理解的数据处理方法的流程示意图。可选地，如图6所示，该方法还可包括：

S601、将与目标问题对应的待处理上下文进行切分，得到句子集合，所述句子集合中包括多个句子。

一种示例性的，工作人员可根据实际需求构建标准化的目标问题，标准化的目标问题可以理解为是一种疑问句，在目标问题确定后，可将目标问题与文章进行匹配，从文章中匹配出与目标问题对应的段落，该段落可称为待处理上下文。

可按照上述模型训练阶段的切分策略对待处理上下文进行切分，具体可参考相关部分描述，此处不再进行说明。

S602、将目标问题以及句子集合中的各句子组合后得到的输入数据输入目标机器阅读理解模型，由目标机器阅读理解模型确定待处理上下文中是否存在目标问题对应的答案。

结合图3进行说明，在训练完成后，可得到编码层301、初始第一全连接层302A、初始第一激活层302B、初始第二全连接层303A、初始第二激活层303B、初始第三全连接层304A、初始第三激活层304B中的学习参数。可以理解的是，目标机器阅读理解模型包括目标编码层、目标第一全连接层、目标第一激活层、目标第二全连接层、目标第二激活层、拼接层、目标第三全连接层、目标第三激活层，目标机器阅读理解模的结构可参考图3。

将目标问题与各句子组合后得到的输入数据输入至目标机器阅读理解模型中的目标编码层，目标编码层执行编码操作后，可得到目标问题向量以及各句子向量，进而目标机器阅读理解模型中的目标第一全连接层以及目标第一激活层可确定出待处理上下文中是否存在目标问题对应的答案。

一种示例性的，若目标第一激活层输出数据指示无答案，则代表者待处理上下文中不存在目标问题对应的答案，若目标第一激活层输出数据指示有答案，则代表者待处理上下文中存在目标问题对应的答案。

S603、若是，则由目标机器阅读理解模型根据输入数据进行编解码处理后，得到至少一组位置对。

其中，位置对中包括起始位置以及终止位置，举例来说，假设位置对为（36，38），那么36代表的是起始位置，38代表的是终止位置。可以理解的是，可根据位置得到该位置上的内容，如36位置上的内容为“京”。

在目标第一激活层输出数据指示有答案时，同时目标机器阅读理解模型中的目标第二全连接层、目标第二激活层可对输入数据进行处理，得到待处理上下文（待处理上下文向量）中各起始位置对应的起始位置概率，基于此，可再利用目标机器阅读理解模型中的目标第三全连接层、目标第三激活层可对输入数据以及起始位置向量进行处理，得到待处理上下文（待处理上下文向量）中各终止位置对应的终止位置概率。

可根据预设组合策略对待处理上下文中的各起始位置以及各终止位置进行组合，其中，预设组合策略可包括终止位置位于起始位置之后、终止位置与起始位置之间的间隔小于或等于预设距离等，需要说明的是，本申请不对其进行限定。

S604、根据各组位置对中起始位置对应的起始位置概率以及终止位置对应的终止位置概率，确定各组位置对所对应的联合概率。

根据上述描述可知，每组位置对所对应有起始位置概率以及终止位置概率，在一种可实现的实施例中，分别计算起始位置概率对应的起始位置对数概率，终止位置概率对应的终止位置对数概率，将起始位置对数概率以及终止位置对数概率之和作为该位置对所对应的联合概率。

S605、根据各组位置对应的联合概率以及预设置信度，确定目标位置对，将目标位置对组合内容作为目标问题对应的目标答案。

将各组位置对应的联合概率与预设置信度进行比较，将联合概率大于或等于预设置信度的位置对作为目标位置对，进而将目标位置对中的目标起始位置以及目标终止位置之间的内容作为目标问题对应的目标答案。

图7为本申请实施例提供的又一种机器阅读理解的数据处理方法的流程示意图。可选地，如图7所示，上述由目标机器阅读理解模型根据输入数据进行编解码处理后，得到至少一组位置对，包括：

S701、由目标机器阅读理解模型根据输入数据进行编解码处理，得到由目标机器阅读理解模型输出的待处理上下文中各位置对应的起始位置概率。

其中，目标机器阅读理解模型中的目标编码器可对输入数据进行编码处理，得到目标问题向量以及各句子向量，各句子向量组成待处理上下文向量，目标机器阅读理解模型中的目标第二全连接层对待处理上下文向量进行解码后，得到待处理上下文中各位置对应的分数，目标第二激活层对待处理上下文中各位置对应的分数进行处理后，得到待处理上下文中各位置对应的起始位置概率。

S702、根据待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置。

首先可将待处理上下文中各位置对应的起始位置概率按照从大到小的顺序进行排序，将满足预设起始位置数量（m）的前m个位置作为候选起始位置。

基于各候选起始位置以及目标机器阅读理解模型中的目标第三全连接层、目标第三激活层可得到待处理上下文中各位置对应的终止位置概率，可将待处理上下文中各位置对应的终止位置概率按照从大到小的顺序进行排序，将满足预设终止位置数量（n）的前n个位置作为候选终止位置。

S703、将至少一个候选起始位置以及至少一个候选终止位置进行组合，得到至少一组位置对。

在一种可实现的实施例中，将m候选起始位置以及n个候选终止位置进行组合，那么可有m*n个组合结果，即可得到m*n组位置对。

进一步的，可根据预设的组合策略得到有效的位置对，如候选终止位置在候选起始位置之后，那么可对m*n组位置对进行过滤，得到满足组合策略的位置对。

图8为本申请实施例提供的再一种机器阅读理解的数据处理方法的流程示意图。可选地，如图8所示，上述根据待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置，包括：

S801、根据待处理上下文中各位置对应的起始位置概率以及预设起始位置数量，从待处理上下文的各位置中筛选出至少一个候选起始位置。

可理解的是，待处理上下文的各位置都可能为目标答案的起始位置，可用各位置对应的起始位置概率指示各位置为目标答案的起始位置的可能性，起始位置概率越大的位置成为目标答案的起始位置的可能性就越大。

在目标机器阅读理解模型的目标第二激活层输出待处理上下文中各位置对应的起始位置概率后，可进入召回阶段，在召回阶段时，可按照起始位置概率从大到小的顺序对待处理上下文中个位置进行排序，将满足预设起始位置数量（m）的前m个位置作为候选起始位置。

可选地，可将大于或等于预设起始位置概率阈值的起始位置概率对应的位置作为候选起始位置，本申请不对候选起始位置数量进行限定。

S802、将各候选起始位置对应的标识输入目标机器阅读理解模型，由目标机器阅读理解模型根据各候选起始位置对应的标识确定各候选起始位置向量，并分别将各候选起始位置对应的位置向量与待处理上下文向量进行拼接处理，得到各候选起始位置对应的第二拼接向量。

S803、通过目标机器阅读理解模型对各候选起始位置对应的第二拼接向量进行解码处理后，得到由目标机器阅读理解模型输出基于各候选起始位置的待处理上下文中各位置对应的终止位置概率。

各候选起始位置对应的标识可以理解为各候选起始位置在待处理上下文中的具体位置数值，如候选起始位置对应的标识为36，那么该候选起始位置即为待处理上下文第36个字符所在的位置。

根据各候选起始位置对应的标识可得到各候选起始位置对应的位置向量，以一个候选起始位置对应的位置向量为例进行说明，假设该候选起始位置为“京”对应的位置，那么可将“京”对应的向量作为该候选起始位置对应的位置向量。将该候选起始位置对应的位置向量与待处理上下文向量输入至目标机器阅读理解模型中的拼接层，拼接层输出该候选起始位置对应第二拼接向量，并将该候选起始位置对应的第二拼接向量依次输入至目标第三全连接层、目标第三激活层，目标第三激活层可输出在给定该起始位置条件下，待处理上下文中各位置对应的终止位置概率。那么最后可得到各候选起始位置条件下，待处理上下文中各位置对应的终止位置概率。

S804、根据基于各候选起始位置的待处理上下文中各位置对应的终止位置概率以及预设终止位置数量，从待处理上下文的各位置中筛选出至少一个候选终止位置。

根据上述描述可知，每个候选起始位置对应有一个终止位置概率集合，该终止位置概率集合中包括待处理上下文中各位置对应的终止位置概率，可以理解的是，每个候选起始位置对应的终止位置概率集合中的元素个数相同。以一个候选位置对应的终止位置概率集合为例进行说明，可将该候选位置对应的终止位置概率集合中的各终止位置概率按照从大到小的顺序进行排列，从将该候选位置对应的终止位置概率集合中筛选出满足预设终止位置数量的位置，将筛选出的位置作为候选终止位置，可将候选终止位置组成候选终止位置集合。

最后可得到每个候选起始位置对应的候选终止位置集合，假设预设终止位置数量为n，那么每个候选起始位置对应的候选终止位置集合中包括n个候选终止位置，将各候选起始位置分别与各自对应的候选终止位置集合中的n个候选终止位置组合，那么各候选起始位置对应有n种组合结果，假设预设起始位置数量为m，那么答案可能有m*n种。

进一步地，可根据每个组合结果对应的联合概率以及预设置信度，得到目标问题对应的目标答案，此处详细解释可参考上述相关部分描述。

图9为本申请实施例提供的一种机器阅读理解的数据处理装置的结构示意图。如图9所示，该装置包括：

切分模块901，用于将与样本问题对应的样本上下文进行切分，得到样本句子集合；

组合模块902，用于将样本问题与样本句子集合中的各样本句子组合，得到训练样本的特征；

构建模块903，用于根据样本问题对应的样本上下文中的样本答案集合，构建训练样本的标签；

训练模块904，用于将训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型。

可选地，切分模块901，具体用于对样本上下文中的目标结尾符号进行识别，得到目标结尾符号在样本上下文的位置信息；根据目标结尾符号在样本上下文的位置信息对样本上下文进行切分，得到初始样本句子集合，初始样本句子集合中包括多个初始样本句子；根据初始机器阅读理解模型对应的设置参数对初始样本句子集合中的初始样本句子进行处理，得到样本句子集合，设置参数包括样本句子的限定长度和/或样本句子的限定数量。

可选地，训练模块904，具体用于将训练样本的特征和标签输入至初始机器阅读理解模型中的编码层，由编码层对训练样本的特征和标签进行编码后，得到训练样本向量，训练样本向量包括特征向量、标签向量；基于训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练，得到目标机器阅读理解模型。

可选地，编码层包括句子编码器、上下文编码器，句子编码器与上下文编码器连接；

训练模块904，还具体用于将训练样本的特征和标签输入至初始机器阅读理解模型中的句子编码器，由句子编码器编码后得到句子向量集合，句子向量集合由样本问题向量以及多个样本句子向量组成；将句子向量集合输入至上下文编码器，由上下文编码器交互编码后得到句子语义向量集合，句子语义向量集合中包括：样本问题对应的样本问题语义向量以及各样本句子向量对应的样本句子语义向量，各样本句子语义向量组成目标上下文向量；根据句子语义向量集合，更新句子向量集合。

可选地，该装置还包括：输入模块；

该输入模块，用于将目标上下文向量依次输入至初始机器阅读理解模型中的初始第一全连接层以及初始第一激活层，得到有答案概率；获取有无答案标识，有无答案标识为有答案标识或无答案标识；根据有无答案损失函数确定有无答案损失值，有无答案损失函数中至少包括：有答案概率和有无答案标识。

可选地，该输入模块，还用于将目标上下文向量输入至初始机器阅读理解模型中的初始第二全连接层，得到目标上下文向量中各位置对应的分数；基于预设掩盖策略，将目标上下文向量中各位置对应的分数输入至初始第二全连接层后的初始第二激活层，得到各样本答案分别对应的起始位置概率向量，起始位置概率向量包括目标上下文向量中各位置对应的起始位置概率，预设掩盖策略用于指示在计算目标上下文向量中各样本答案起始位置对应的起始位置概率时，需要将各样本答案自身之外的其它样本答案起始位置进行掩盖；基于将各样本答案自身之外的其它样本答案起始位置进行掩盖策略，得到各样本答案分别对应的掩盖起始位置向量；根据答案起始位置损失函数确定答案起始位置损失值，其中，答案起始位置损失函数中至少包括如下参数：各样本答案分别对应的起始位置概率向量和各样本答案分别对应的掩盖起始位置向量。

可选地，该输入模块，还用于分别将各样本答案对应的起始位置的位置向量与目标上下文向量进行拼接，得到各样本答案对应的第一拼接向量；分别将各样本答案对应的第一拼接向量依次输入至初始机器阅读理解模型中的初始第三全连接层以及初始第三激活层，得到各样本答案分别对应的终止位置概率向量，终止位置概率向量包括目标上下文向量中各位置对应的终止位置概率；根据答案终止位置损失函数确定答案终止位置损失值，其中，答案终止位置损失函数中至少包括如下参数：各样本答案分别对应的终止位置概率向量和标签向量中的终止位置向量。

可选地，切分模块901，还用于将与目标问题对应的待处理上下文进行切分，得到句子集合，句子集合中包括多个句子；

组合模块902，还用于将目标问题以及句子集合中的各句子组合后得到的输入数据输入目标机器阅读理解模型，由目标机器阅读理解模型确定待处理上下文中是否存在目标问题对应的答案；

编解码模块，用于若是，则由目标机器阅读理解模型根据输入数据进行编解码处理后，得到至少一组位置对，位置对中包括起始位置以及终止位置；

第二确定模块，用于根据各组位置对应的联合概率以及预设置信度，确定目标位置对，将目标位置对组合内容作为目标问题对应的目标答案。

可选地，该编解码模块，具体用于由目标机器阅读理解模型根据输入数据进行编解码处理，得到由目标机器阅读理解模型输出的待处理上下文中各位置对应的起始位置概率；根据待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置；将至少一个候选起始位置以及至少一个候选终止位置进行组合，得到至少一组位置对。

可选地，该编解码模块，还具体用于根据待处理上下文中各位置对应的起始位置概率以及预设起始位置概率阈值，从待处理上下文的各位置中筛选出至少一个候选起始位置；将各候选起始位置对应的标识输入目标机器阅读理解模型，由目标机器阅读理解模型根据各候选起始位置对应的标识确定各候选起始位置对应的位置向量，并分别将各候选起始位置对应的位置向量与待处理上下文向量进行拼接处理，得到各候选起始位置对应的第二拼接向量；通过目标机器阅读理解模型对各候选起始位置对应的第二拼接向量进行解码处理后，得到由目标机器阅读理解模型输出基于各候选起始位置的待处理上下文中各位置对应的终止位置概率；根据基于各候选起始位置的待处理上下文中各位置对应的终止位置概率以及预设终止位置数量，从待处理上下文的各位置中筛选出至少一个候选终止位置。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（Application Specific Integrated Circuit，简称ASIC），或，一个或多个微处理器，或，一个或者多个现场可编程门阵列（Field Programmable Gate Array，简称FPGA）等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器（Central Processing Unit，简称CPU）或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统（system-on-a-chip，简称SOC）的形式实现。

图10为本申请实施例提供的一种电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器1001、存储介质1002和总线1003，存储介质1002存储有处理器1001可执行的机器可读指令，当该电子设备运行时，处理器1001与存储介质1002之间通过总线1003通信，处理器1001执行机器可读指令，以执行上述方法实施例的步骤。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（英文：processor）执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（英文：Read-Only Memory，简称：ROM）、随机存取存储器（英文：Random Access Memory，简称：RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器阅读理解的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将与样本问题对应的样本上下文进行切分，得到样本句子集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述训练样本的特征和标签输入初始机器阅读理解模型中，训练得到目标机器阅读理解模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述编码层包括句子编码器、上下文编码器，所述句子编码器与所述上下文编码器连接；

根据所述句子语义向量集合，更新所述句子向量集合。

5.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，所述方法还包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述训练样本向量、答案起始位置损失值、答案终止位置损失值、有无答案损失值对初始机器阅读理解模型进行训练之前，所述方法还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述由所述目标机器阅读理解模型根据所述输入数据进行编解码处理后，得到至少一组位置对，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述待处理上下文中各位置对应的起始位置概率、预设起始位置数量、预设终止位置数量以及所述目标机器阅读理解模型，得到至少一个候选起始位置以及至少一个候选终止位置，包括：

11.一种机器阅读理解的数据处理装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1-10任一项所述机器阅读理解的数据处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-10任一项所述机器阅读理解的数据处理方法的步骤。