CN111832277B

CN111832277B - 阅读理解模型的训练方法及阅读理解处理方法

Info

Publication number: CN111832277B
Application number: CN202010498795.9A
Authority: CN
Inventors: 刘凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2024-03-26
Anticipated expiration: 2040-06-04
Also published as: JP7167231B2; EP3920098A1; KR20210071890A; CN111832277A; US11842148B2; JP2021108190A; US20210383062A1

Abstract

本申请公开了阅读理解模型的训练方法及阅读理解处理方法，涉及自然语言处理、深度学习技术领域。具体实现方案为：将参考领域的第一训练样本分别输入参考领域的参考阅读理解模型和目标领域的目标阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，以及目标阅读理解模型输出的第二输出数据，根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程，从而使得该目标阅读理解模型能够直接学习得到参考阅读理解模型已学习到的参考领域知识，避免了目标阅读理解模型从该参考领域的第一训练样本中学习参考领域知识的过程，使得模型训练更加高效，能够得到优于单纯依赖于该参考领域的第一训练样本得到的训练结果。

Description

阅读理解模型的训练方法及阅读理解处理方法

技术领域

本申请的实施例总体上涉及数据处理技术领域，并且更具体地涉及自然语言处理、深度学习技术领域，特别涉及一种阅读理解模型的训练方法及阅读理解处理方法。

背景技术

机器阅读理解是自然语言处理(NLP，Natural Language Processing)领域的经典任务，即给定一个文本段落，针对该文本段落提出一个问题，答案可为该文本段落中的一个文本片段等。在实际应用中，可利用训练得到的阅读理解模型来实现机器阅读理解。

为了使得阅读理解模型能够学习得到多个领域的知识，通常是采用多个领域的训练数据对同一阅读理解模型进行训练，但是训练后该阅读理解模型在实际生产环境或其他用途使用中效果不佳。

发明内容

本申请提供了一种阅读理解模型的训练方法、阅读理解处理方法装置、阅读理解模型的训练装置、阅读理解处理装置、电子设备以及存储介质。

根据第一方面，提供了一种阅读理解模型的训练方法，包括：

获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型；

将所述参考领域的第一训练样本输入所述参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据；

将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据；以及

根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程。

根据第二方面，提供了一种阅读理解处理方法，包括：

获取目标领域经过第一训练过程的目标阅读理解模型，其中，所述第一训练过程，是将参考领域的第一训练样本输入参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据，并将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据，根据所述第一输出数据和所述第二输出数据之间的差异进行模型训练；

采用所述目标阅读理解模型，在所述目标领域进行阅读理解处理；

根据第三方面，提供了一种阅读理解模型的训练装置，包括：获取模块，用于获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型；

第一输入模块，用于将所述参考领域的第一训练样本输入所述参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据；

第二输入模块，用于将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据；以及

第一训练模块，用于根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程。

根据第四方面，提供了一种阅读理解处理装置，包括：

模型获取模块，用于获取目标领域经过第一训练过程的目标阅读理解模型，其中，所述第一训练过程，是将参考领域的第一训练样本输入参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据，并将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据，根据所述第一输出数据和所述第二输出数据之间的差异进行模型训练；

处理模块，用于采用所述目标阅读理解模型，在所述目标领域进行阅读理解处理。

根据第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面所述的阅读理解模型的训练方法，或者，执行本申请第二方面所述的阅读理解处理方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请第一方面所述的阅读理解模型的训练方法，或者，执行本申请第二方面的阅读理解处理方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现本申请第一方面所述的阅读理解模型的训练方法，或者，执行本申请第二方面的阅读理解处理方法。

本申请提供的实施例，至少具有如下有益技术效果：

获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型，之后将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据，然后根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。由此可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得该模型的训练方法能够优于单纯依赖于模型训练数据得到的训练结果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是一种阅读理解模型的层次结构的示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是根据本申请第五实施例的示意图；

图7是根据本申请第六实施例的示意图；

图8是根据本申请第七实施例的示意图；

图9是根据本申请第八实施例的示意图；

图10是用来实现本申请实施例的阅读理解模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的阅读理解模型的训练方法、阅读理解处理方法装置、阅读理解模型的训练装置、阅读理解处理装置、电子设备以及存储介质。

图1是根据本申请一个实施例的阅读理解模型的训练方法的流程图。需要说明的是，本申请实施例的阅读理解模型的训练方法可应用于本申请实施例的阅读理解模型的训练装置，该装置可被配置于电子设备上。其中，该电子设备可以是具有阅读理解功能的各种电子设备，例如，智能手机、平板电脑、PAD、个人数字助理、智能音箱等具有各种操作系统的硬件设备。

S101、获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型。

举例而言，可通过电子设备获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型。

这里的目标阅读理解模型，是指已学习得到目标领域知识的阅读理解模型，能够对目标领域的阅读理解内容进行处理。相应地，参考阅读理解模型，是指已学习得到参考领域知识的阅读理解模型，能够对参考领域的阅读理解内容进行处理。

其中，在本申请的实施例中，作为一种可能的实现方式，目标阅读理解模型和参考阅读理解模型是通过相应领域的训练样本训练得到，使得各阅读理解模型可以在段落中正确地找出问题的答案。通常来说，训练样本可以表示为集合{}，其中/>为问题，/>为段落，/>为段落/>中问题/>的答案的位置信息。一般/>中答案中表现为一段连续的文本，因此答案一般标识为/>=[start, end]文本跨度的信息，start标识为连续区间的开始位置，end标识为连续区间的结束位置。

举例而言，阅读理解模型中的段落为：工商协会报告，12月消费信心上升到78.1，明显高于11月的72。另据《华尔街日报》报道，2013年是1995年以来美国股市表现最好的一年，这一年里，投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其他专业投资者使用的更为复杂的投资方法效果好得多。

其中，第一个问题为：什么是傻钱策略？阅读理解模型针对段落文本，过滤出与第一个问题/>相关且有价值的词语，例如，第一个问题的答案/>为：所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合；第二个问题/>为：12月的消费信心指数是多少？阅读理解模型针对该段落文本，过滤出与第二个问题/>相关且有价值的词语，例如，第二个问题的答案/>为：78.1。

其中，在本申请的实施例中，阅读理解模型在段落中正确地找出问题答案的过程中，作为一种可能的实现方式，阅读理解模型通过对文本进行编码后，基于注意力机制从文本中搜索有效信息，最后将信息输出。

如图2所示，为阅读理解模型的层次结构，整个模型包括五层网络：文章与问题词嵌入层、文章与问题编码层、基于注意力机制的答案搜索层、基于注意力机制的自匹配层、答案输出层。具体地实现方式如下：

201、文章与问题词嵌入层。

在本申请的实施例中，文章与问题词嵌入层，将文章与问题分为词语级的词嵌入与字符级的词嵌入。两种词向量都先使用预训练的中文词向量，该词向量的维度的都是300维。字符级的词向量还需要输入一个双向循环神经网络，使用双向循环神经网络的最终隐藏状态作为最终的字符级的词向量。其中双向循环网络的隐藏单元数为48。

202、文章与问题编码层。

在本申请的实施例中，文章与问题编码层，将文章与问题的词向量输入3层的GRU（Gate Recurrent Unit，循环神经网络（Recurrent Neural Network, RNN）的一种）网络，对词向量进行编码。其中使用了Dropout，比例为0 .5；GRU中的隐藏单元数为48。

203、基于注意力机制的答案搜索层。

在本申请的实施例中，基于注意力机制的答案搜索层，使用缩放点积注意力机制计算了问题对于文章的注意力向量，然后把注意力向量输入单层的GRU网络，计算得出基于问题注意力的文章编码向量。其中使用了Dropout，比例为0 .5；GRU中的隐藏单元数为48。

204、基于注意力机制的自匹配层。

在本申请的实施例中，基于注意力机制的自匹配层，使用缩放点积注意力机制计算了上一层网络生成的基于问题注意力的文章编码向量与他自己本身的注意力向量。然后将生成的自匹配注意力向量输入单层GRU网络，最后得到包含文章信息的自匹配文章向量。其中使用了Dropout，比例为0 .5；GRU中的隐藏单元数为48。

205、答案输出层。

在本申请的实施例中，首先缩放点积注意力机制计算问题编码注意力向量作为指针网络(PointerNetworks)网络的初始隐藏向量。然后构建指针网络，在网络中使用注意力机制作为指针计算自匹配文章向量中词语作为开始位置与结尾位置的概率，最后选出文章中概率最大的词作为答案的开始位置与结束位置。同时因为每个问题对应着多个文档，所以需要对所有文档进行遍历，选出单篇文章中的最佳答案，然后结合所有文章，选出总体上的最佳答案。其中使用了Dropout，比例为0 .5；GRU中的隐藏单元数为48。

S102、将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据。

也就是说，获取到参考领域的参考阅读理解模型，可将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据。

S103、将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据。

也就是说，获取到参考领域的参考阅读理解模型，可将参考领域的第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据。

S104、根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。

在本申请的实施例中，基于第一输出数据，可对目标阅读理解模型的模型参数进行调整，使得第二输出数据尽量接近第一输出数据，进而实现目标阅读理解模型执行第一训练过程。其中，可通过深度学习的方式进行目标阅读理解模型训练，相比于其他机器学习方法，深度学习在大数据上的表现更好。

根据本申请实施例的阅读理解模型的训练方法，获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型，之后将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据，然后根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。该方法可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得在目标阅读理解模型中保留更多对目标阅读理解模型最有效的多领域数据，使得该模型的训练方法能够优于单纯依赖于模型训练数据得到的训练结果。

在执行前述训练过程之后，为了进一步优化训练效果，可以执行第一训练过程学习参考领域的知识之后，执行第二训练过程，以强化目标领域的知识，从而目标阅读理解模型在目标领域和参考领域都得到较好的训练效果。图3是根据本申请一个具体实施例的阅读理解模型的训练方法的流程图。图3是根据本申请一个实施例的阅读理解模型的训练方法的示例图。如3所示，该阅读理模型的训练方法可以包括：

S301、获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型。

在本申请的实施例中，可获取至少两个初始阅读理解模型，采用参考领域的第一训练样本，对至少两个初始阅读理解模型中的一个训练，以得到参考阅读理解模型，采用目标领域的第二训练样本，对至少两个初始阅读理解模型中的另一个训练，以得到目标阅读理解模型。

其中，初始阅读理解模型可理解为未训练模型。

其中，参考领域为多个，每一个参考领域具有对应的参考阅读理解模型。

也就是说，可获取至少两个未训练的模型，将参考领域的第一训练样本，输入至其中一个未训练的模型，进行训练，以得到初始参考阅读理解模型，将目标领域的第二训练样本，输入至两个未训练的模型中的另一个未训练模型，进行训练，以得到初始目标阅读理解模型。

举例而言，获取两个未训练模型，即A1模型和B1模型，将A领域的训练样本输入至A1模型中，A1模型基于神经网络反向算法对A领域的训练样本进行模型参数调整，以便输出初始参考阅读理解模型，将B领域的训练样本输入至B1模型中，B1模型基于神经网络反向算法对B领域的训练样本进行模型参数调整，以便输出初始目标阅读理解模型。

其中，神经网络反向算法本质上是梯度下降法，神经网络反向算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

S302、将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据。

也就是说，经过前述S301得到参考领域的参考阅读理解模型之后，由于参考阅读理解模型已学习得到参考领域的知识，从而可将参考领域的第一训练样本输入初始参考阅读理解模型，以便参考阅读理解模型输出第一输出数据。其中，第一输出数据可理解为参考阅读理解模型根据第一训练样本提供的段落对该第一训练样本提供的问题进行答案预测，得到答案处于该段落中各位置的概率。

S303、将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据。

也就是说，经过前述S301得到获取到目标领域的目标阅读理解模型之后，可将参考领域的第一训练样本输入初始目标阅读理解模型，以便初始目标阅读理解模型输出第二输出数据，其中，第二输出数据可理解为目标阅读理解模型根据第一训练样本提供的段落对该第一训练样本提供的问题进行答案预测，得到答案处于该段落中各位置的概率。

S304、根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。

在本申请的实施例中，得到参考阅读理解模型输出的第一输出数据和目标阅读理解模型输出的第二输出数据，可根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。

举例而言，根据第一训练样本在参考阅读理解模型中的概率与第一训练样本在目标阅读理解模型中的概率的差异，目标阅读理解模型可通过神经网络反向传播算法等训练方法，可对目标阅读理解模型的模型参数进行调整，使得参考领域的第一训练样本在目标阅读理解模型中的概率接近与参考领域的第一训练样本在参考阅读理解模型中的概率，直至最接近时，可完成对目标阅读理解模型的第一训练过程。

S305、根据目标领域的第二训练样本，对经过第一训练过程的目标阅读理解模型执行第二训练过程。

为了使得目标阅读理解模型在目标领域的效果更优，在本申请的实施例中，可将目标领域的第二训练样本输入至经过第一训练过程的目标阅读理解模型，以采用目标领域的第二训练样本对经过第一训练过程的目标阅读理解模型基于神经网络反向算法进行训练，使得训练后的目标阅读理解模型为目标领域和参考领域的共有模型。这是由于目标阅读理解模型在经过第一训练过程后，一方面会学习得到参考领域的知识，另一方面，目标领域的知识在第一训练过程中会被弱化，导致目标阅读理解模型在目标领域的表现不佳。因此，本实施例中，通过在进行第一训练过程之后，执行第二训练过程，以强化目标领域的知识。

S306、对经过第二训练过程的目标阅读理解模型进行准确率测试。

举例而言，在对经过第一训练过程的目标阅读理解模型执行第二训练过程之后，可对第二训练过程后的目标阅读理解模型进行测试，并判断测试得到的准确率是否达到设定标准率阈值。

其中，可利用测试集对第二训练过程后的目标阅读理解模型进行测试，其中，测试集是检验第二训练过程后的目标阅读理解模型的性能如何，其中，测试集可占总样本的25%。其中，当样本总量少的时候，常用的是留少部分做测试集。例如对其余N个样本采用K折交叉验证法，就是将样本打乱，然后均匀分成K份，轮流选择其中K－1份训练，剩余的一份做验证，计算预测误差平方和，最后把K次的预测误差平方和再做平均作为选择最优模型结构的依据。特别的K取N，就是留一法（leave one out）。

S307、测试得到的准确率未达到设定准确率阈值，则顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤，直至准确率达到设定准确率阈值。

需要说明的是，若测试得到的准确率未达到设定准确率阈值，顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤，可使目标阅读理解模型中能够学习参考领域的知识，避免削弱掉自身领域的性能，通过多能循环，自身领域能够达到性能平衡，达到最佳状态。

S308、统计重复执行次数。

举例而言，为了使第二训练过程的目标阅读理解模型效果达到收敛，在顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤，直至准确率达到设定准确率阈值，之后，可统计重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤的次数。

S309、若重复执行次数达到次数阈值，则停止顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤。

也就是说，重复执行次数达到次数阈值时，第二训练过程的目标阅读理解模型效果达到收敛，则停止顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤。

S310、测试得到的准确率达到设定准确率阈值，结束目标阅读理解模型的第二训练过程。

根据本申请实施例的阅读理解模型的训练方法，该方法通过逐层迭代蒸馏，在迭代过程中多个参考领域的阅读理解模型相互学习，目标阅读理解模型能够吸收多个参考领域的数据，使得在目标阅读理解模型中保留更多对目标阅读理解模型最有效的多领域数据，使得该模型的训练方法能够优于单纯依赖于模型训练数据得到的训练结果，且该目标阅读理解模型在实际应用中，无需对已成型的阅读理解模型进行改动，不影响应用已有模型的装置和流程，应用成本低。

上一实施例中说明了，为了使第二训练过程的目标阅读理解模型效果达到收敛，可统计重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的目标阅读理解模型进行准确率测试的步骤的次数，以提升第二训练过程的目标阅读理解模型的效果，在本实施例中，还可通过确定重复执行过程中的准确率相对于前一次准确率的变化率，实现提升目标阅读理解模型的效果，具体地，如图4所示，阅读理模型的训练方法可以包括：

S401、第一次一般训练。

其中，初始阅读理解模型可理解为未训练模型。

其中，参考领域为多个，每一个参考领域具有对应的参考阅读理解模型。例如，参考领域可包括：领域a、领域b、领域c，其中，领域a对应a1模型，领域b对应b1模型，领域c对应c1模型。

举例而言，可将领域a、领域b、领域c的训练样本分别输入至a1、b1、c1模型中进行训练，以得到领域a、领域b、领域c的初始领域阅读理解模型，可将领域d的训练样本输入至d1模型中进行训练，以得到领域d阅读理解模型。

S402、多模型蒸馏。

举例而言，经过前述S401得到a1、b1、c1的阅读理解模型之后，由于a1、b1、c1阅读理解模型已学习得到领域a、领域b、领域c的知识，从而可将领域a、领域b、领域c的第一训练样本输入初始a1、b1、c1阅读理解模型，以便a1、b1、c1阅读理解模型分别输出第一输出数据。其中，第一输出数据可理解为a1、b1、c1阅读理解模型根据第一训练样本提供的段落对该第一训练样本提供的问题进行答案预测，得到答案处于该段落中各位置的概率。

经过前述S401得到获取到d1阅读理解模型之后，可将领域a、领域b、领域c的第一训练样本输入初始d1阅读理解模型，以便初始d1阅读理解模型输出第二输出数据，其中，第二输出数据可理解为d1阅读理解模型阅读理解模型根据第一训练样本提供的段落对该第一训练样本提供的问题进行答案预测，得到答案处于该段落中各位置的概率。

然后，根据第一训练样本在a1、b1、c1阅读理解模中的概率与第一训练样本在d1阅读理解模型中的概率的差异，d1阅读理解模型可通过神经网络反向传播算法等训练方法，可对d1阅读理解模型的模型参数进行调整，使得领域a、领域b、领域c的第一训练样本在d1阅读理解模型中的概率接近与领域a、领域b、领域c的第一训练样本在a1、b1、c1阅读理解模型中的概率，直至最接近时，可完成对d1阅读理解模型的第一训练过程。

需要说明的是，在本申请的实施例中，多模型蒸馏的过程可理解为图3实施例中的第一训练过程。

S403、第二次一般训练。

举例而言，为了使得d1阅读理解模型在领域d的效果更优，在本申请的实施例中，可将领域d的第二训练样本输入至经过第一训练过程的d1阅读理解模型，以采用领域d的第二训练样本对经过第一训练过程的d1阅读理解模型基于神经网络反向算法进行训练，使得训练后的d1阅读理解模型为领域d和领域a、领域b、领域c的共有模型。

需要说明的是，在本申请的实施例中，第二次一般训练的过程可理解为图3实施例中的第二训练过程。

S404、结束条件判断。

举例而言，在对经过第一训练过程的d1阅读理解模型执行第二训练过程之后，可对第二训练过程后的d1阅读理解模型进行测试，并判断测试得到的准确率是否达到设定标准率阈值。

例如，若测试得到的准确率未达到设定准确率阈值，则顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的d1阅读理解模型进行准确率测试的步骤，直至准确率达到设定准确率阈值。

为了使第二训练过程的d1阅读理解模型效果无大幅度波动，可判断本次重复执行过程中得到的准确率，相较于前一次重复执行过程的准确率之间的变化率。

例如，变化率小于变化率阈值，则停止顺序重复执行第一训练过程和第二训练过程，以及对经过第二训练过程的d1阅读理解模型进行准确率测试的步骤，可确定第二训练过程的d1阅读理解模型效果无大幅度波动，进而实现d1阅读理解的第二训练过程。

为了本领域技术人员更容易理解本申请，本申请还提出了一种阅读理解处理方法。图5是根据本申请一个实施例的阅读理解处理方法的流程图。如图5所示，该阅读理解处理方法包括：

S501、获取目标领域经过第一训练过程的目标阅读理解模型。

其中，第一训练过程，是将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，并将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据，根据第一输出数据和第二输出数据之间的差异进行模型训练。

S502、采用目标阅读理解模型，在目标领域进行阅读理解处理。

根据本申请实施例的阅读理解处理方法，通过获取目标领域经过第一训练过程的目标阅读理解模型，之后采用目标阅读理解模型，在目标领域进行阅读理解处理。该方法中的第一训练过程的目标阅读理解模型，可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得在目标阅读理解模型中保留更多对目标阅读理解模型最有效的多领域数据，进而提升了经过第一训练过程的目标阅读理解模型在实际生产环境或其他用途使用中的效果。

与上述几种实施例提供的阅读理解模型的训练方法相对应，本申请的一种实施例还提供一种阅读理解模型的训练装置，由于本申请实施例提供的阅读理解模型的训练装置与上述几种实施例提供的阅读理解模型的训练方法相对应，因此在阅读理解模型的训练方法的实施方式也适用于本实施例提供的阅读理解模型的训练装置，在本实施例中不再详细描述。图6~图8是根据本申请一个实施例的阅读理解模型的训练装置的结构示意图。

如图6所示，该阅读理解模型的训练装置600包括：获取模块601、第一输入模块602、第二输入模块603和第一训练模块604。其中：

获取模块601用于获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型。作为本申请的一个实施例，所述获取模块，包括：获取单元，用于获取至少两个初始阅读理解模型；第一训练单元，用于采用所述参考领域的所述第一训练样本，对所述至少两个初始阅读理解模型中的一个训练，以得到所述参考阅读理解模型；第二训练单元，用于采用所述目标领域的第二训练样本，对所述至少两个初始阅读理解模型中的另一个训练，以得到所述目标阅读理解模型。

第一输入模块602用于将所述参考领域的第一训练样本输入所述参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据。

第二输入模块603用于将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据。

第一训练模块604用于根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程。

在本申请的实施例中，所述阅读理解模型的训练装置还包括：第二训练模块605、测试模块606和执行模块607，其中，第二训练模块605用于根据所述目标领域的第二训练样本，对经过所述第一训练过程的目标阅读理解模型执行第二训练过程；测试模块606用于对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试；执行模块607用于若测试得到的准确率未达到设定准确率阈值，则顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤，直至所述准确率达到所述设定准确率阈值。

在本申请的实施例中，所述阅读理解模型的训练装置600还包括：统计模块608和第一控制模块609，其中，统计模块608用于统计重复执行次数；第一控制模块609用于若所述重复执行次数达到次数阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

在本申请的实施例中，所述阅读理解模型的训练装置600还包括：确定模块610和第二控制模块611，其中，确定模块610用于对最近一次重复执行过程中得到的所述准确率，确定变化率；第二控制模块611用于若所述变化率小于变化率阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

根据本申请实施例的阅读理解模型的训练装置，获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型，之后将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据，然后根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。由此可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得该模型的训练方法能够优于单纯依赖于模型训练数据得到的训练结果。

与上述几种实施例提供的阅读理解处理方法相对应，本申请的一种实施例还提供一种阅读理解处理装置，由于本申请实施例提供的阅读理解处理装置与上述几种实施例提供的阅读理解处理方法相对应，因此在阅读理解处理方法的实施方式也适用于本实施例提供的阅读理解处理装置，在本实施例中不再详细描述。图9是根据本申请一个实施例的阅读理解处理装置的结构示意图。

如图9所示，该阅读理解处理装置900包括：模型获取模块901和处理模块902。其中：

模型获取模块901用于获取目标领域经过第一训练过程的目标阅读理解模型，其中，所述第一训练过程，是将参考领域的第一训练样本输入参考阅读理解模型，以得到所述参考阅读理解模型输出的第一输出数据，并将所述第一训练样本输入所述目标阅读理解模型，以得到所述目标阅读理解模型输出的第二输出数据，根据所述第一输出数据和所述第二输出数据之间的差异进行模型训练。

处理模块902用于采用所述目标阅读理解模型，在所述目标领域进行阅读理解处理。

根据本申请实施例的阅读理解处理装置，通过获取目标领域经过第一训练过程的目标阅读理解模型，之后采用目标阅读理解模型，在目标领域进行阅读理解处理。该装置中的第一训练过程的目标阅读理解模型，可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得在目标阅读理解模型中保留更多对目标阅读理解模型最有效的多领域数据，进而提升了经过第一训练过程的目标阅读理解模型在实际生产环境或其他用途使用中的效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的用以实现阅读理解模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的阅读理解模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的阅读理解模型的训练方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的阅读理解模型的训练方法对应的程序指令/模块（例如，附图6所示的获取模块601、第一输入模块602、第二输入模块603和第一训练模块604）。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的阅读理解模型的训练方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据阅读理解模型的训练的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至阅读理解模型的训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用以实现阅读理解模型的训练方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与阅读理解模型的训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型，之后将参考领域的第一训练样本输入参考阅读理解模型，以得到参考阅读理解模型输出的第一输出数据，将第一训练样本输入目标阅读理解模型，以得到目标阅读理解模型输出的第二输出数据，然后根据第一输出数据和第二输出数据之间的差异，对目标阅读理解模型执行第一训练过程。由此可通过判断第一输出数据和第二输出数据之间的差异，确定目标阅读理解模型能够吸收参考领域的数据，使得该模型的训练方法能够优于单纯依赖于模型训练数据得到的训练结果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种阅读理解模型的训练方法，包括：

根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程；

所述根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程，包括：

基于所述第一输出数据，对目标阅读理解模型的模型参数进行调整，使得所述第一输出数据和所述第二输出数据之间的差异小于差异阈值。

2.根据权利要求1所述的阅读理解模型的训练方法，其中，在所述根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程之后，还包括：

根据所述目标领域的第二训练样本，对经过所述第一训练过程的目标阅读理解模型执行第二训练过程；

对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试；

若测试得到的准确率未达到设定准确率阈值，则顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤，直至所述准确率达到所述设定准确率阈值。

3.根据权利要求2所述的阅读理解模型的训练方法，其中，在所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤之后，还包括：

统计重复执行次数；

若所述重复执行次数达到次数阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

4.根据权利要求2所述的阅读理解模型的训练方法，其中，在所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤之后，还包括：

对本次重复执行过程中得到的所述准确率，确定相较于前一次重复执行过程的所述准确率的变化率；

若所述变化率小于变化率阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

5.根据权利要求1所述的阅读理解模型的训练方法，其中，所述获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型，包括：

获取至少两个初始阅读理解模型；

采用所述参考领域的所述第一训练样本，对所述至少两个初始阅读理解模型中的一个训练，以得到所述参考阅读理解模型；

采用所述目标领域的第二训练样本，对所述至少两个初始阅读理解模型中的另一个训练，以得到所述目标阅读理解模型。

6.根据权利要求1-5任一项所述的训练方法，其中，所述参考领域为多个，每一个所述参考领域具有对应的所述参考阅读理解模型。

7.一种阅读理解处理方法，包括：

根据所述第一输出数据和所述第二输出数据之间的差异进行模型训练，包括：

8.一种阅读理解模型的训练装置，包括：

获取模块，用于获取目标领域的目标阅读理解模型，以及参考领域的参考阅读理解模型；

第一训练模块，用于根据所述第一输出数据和所述第二输出数据之间的差异，对所述目标阅读理解模型执行第一训练过程；

所述第一训练模块，具体用于：基于所述第一输出数据，对目标阅读理解模型的模型参数进行调整，使得所述第一输出数据和所述第二输出数据之间的差异小于差异阈值。

9.根据权利要求8所述的阅读理解模型的训练装置，其中，所述训练装置还包括：

第二训练模块，用于根据所述目标领域的第二训练样本，对经过所述第一训练过程的目标阅读理解模型执行第二训练过程；

测试模块，用于对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试；

执行模块，用于若测试得到的准确率未达到设定准确率阈值，则顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤，直至所述准确率达到所述设定准确率阈值。

10.根据权利要求9所述的阅读理解模型的训练装置，其中，所述训练装置还包括：

统计模块，用于统计重复执行次数；

第一控制模块，用于若所述重复执行次数达到次数阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

11.根据权利要求9所述的阅读理解模型的训练装置，其中，所述训练装置还包括：

确定模块，用于对最近一次重复执行过程中得到的所述准确率，确定变化率；

第二控制模块，用于若所述变化率小于变化率阈值，则停止所述顺序重复执行所述第一训练过程和所述第二训练过程，以及所述对经过所述第二训练过程的所述目标阅读理解模型进行准确率测试的步骤。

12.根据权利要求8所述的阅读理解模型的训练装置，其中，所述获取模块，包括：

获取单元，用于获取至少两个初始阅读理解模型；

第一训练单元，用于采用所述参考领域的所述第一训练样本，对所述至少两个初始阅读理解模型中的一个训练，以得到所述参考阅读理解模型；

第二训练单元，用于采用所述目标领域的第二训练样本，对所述至少两个初始阅读理解模型中的另一个训练，以得到所述目标阅读理解模型。

13.一种阅读理解处理装置，包括：

处理模块，用于采用所述目标阅读理解模型，在所述目标领域进行阅读理解处理；

所述处理模块，具体用于：基于所述第一输出数据，对目标阅读理解模型的模型参数进行调整，使得所述第一输出数据和所述第二输出数据之间的差异小于差异阈值。

14. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的阅读理解模型的训练方法，或者，执行权利要求7所述的阅读理解处理方法。

15.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的阅读理解模型的训练方法，或者，执行权利要求7所述的阅读理解处理方法。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一所述的阅读理解模型的训练方法，或实现权利要求7所述的阅读理解处理方法。