CN109685211B

CN109685211B - 基于联合损失函数的机器阅读理解模型训练方法及装置

Info

Publication number: CN109685211B
Application number: CN201811536819.4A
Authority: CN
Inventors: 李健铨; 刘小康; 陈夏飞; 晋耀红; 杨凯程; 陈玮; 张乐乐; 董铭慆
Original assignee: Anhui Taiyue Xiangsheng Software Co ltd
Current assignee: Anhui Taiyue Xiangsheng Software Co ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2022-11-25
Anticipated expiration: 2038-12-14
Also published as: CN109685211A

Abstract

本申请提供了一种基于联合损失函数的机器阅读理解模型训练方法及装置，具体的，在进行机器阅读理解模型训练时，利用由极大似然估计函数和最小风险训练函数组成的损失函数，作为机器阅读理解模型的评价指标，以指导机器阅读理解模型参数的调整。由于最小风险训练函数的思想是使用损失函数来描述模型输出的答案与标准答案之间的差异程度、即损失，并试图寻找一组模型参数使得机器阅读理解模型在训练集上损失值最小，因此，与单纯利用极大似然估计函数相比，本申请提供的方法所训练出来的模型抽取答案可以更准确。

Description

基于联合损失函数的机器阅读理解模型训练方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于联合损失函数的机器阅读理解模型训练方法及装置。

背景技术

目前，深度学习在图像识别、语音识别等领域取得丰硕成果，机器阅读理解(Machine Reading Comprehension，MRC)成为了人工智能研究与应用领域的新热点，其主要功能是阅读和理解给定的文章或上下文，自动给出相关的问题的答案。

随着机器阅读理解技术的发展，阅读理解的任务也在不断升级，从早期的“完形填空形式”，发展到基于维基百科的“单文档阅读理解”，如以斯坦福SQuAD(StanfordQuestion Answering Dataset，斯坦福问答数据集)为数据集的任务。并进一步升级至基于web(网页)数据的“多文档阅读理解”，这一形式的典型代表是以微软MS-MARCO(MicrosoftMAchine Reading Comprehension，微软机器阅读理解)、百度DuReader为数据集的任务。近年来，随着阅读理解任务不断变化与发展，研究人员已经设计出多种深度学习模型，其中，有一类模型的输出为针对问题所对应的答案在文档中的的开始位置和结束位置。

目前，针对上述类型的机器阅读理解的训练方法通常是监督学习任务。所谓监督学习，是指训练样本不仅包含输入，同时包含对应标准答案输出。监督学习的惯用训练准则是极大似然估计(MLE,Maximum Likelihood Estimation)，其基本思想是一个好的模型应该尽可能使得观测到的训练样本概率最大。但是，在后续评价模型好坏时，不同用户往往有不同的侧重点和需求，因而产生了多种多样的评价方式,例如,采用BLEU(BilingualEvaluation Understudy，双语评价)评价系统、ROUGE(Recall-Oriented Understand ForGisting Evalution，面向研究的提升评价辅助研究)评价系统、基于rough集的评价系统等。因此，上述使用似然函数，尽可能使观测到的训练样本概率最大作为训练阶段的目标的方式，会存在与测试阶段所使用评价指标不一致的问题。

发明内容

本发明实施例提供了一种基于联合损失函数的机器阅读理解模型训练方法及装置，以使训练出来的模型抽取答案更准确，尽可能贴近用户需求。

根据本发明实施例的第一方面，提供了一种基于联合损失函数的机器阅读理解模型训练方法，该方法包括：

选取预设数目的样本，作为训练集；

将所述训练集中的样本数据输入机器阅读理解模型中，得到所述机器阅读理解模型输出的训练集中各问题对应的答案，其中，包括答案的开始和结束位置、以及位于所述开始和结束位置的概率；

以最小化联合损失函数J(θ)为目标，调整所述机器阅读理解模型的参数；

其中，J(θ)＝L(θ)+α·R(θ)，L(θ)为极大似然估计损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的最大概率答案的损失，R(θ)为最小风险训练损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的答案与标准答案之间的损失，α为超参数。

可选地，所述最小风险训练损失函数R(θ)的计算公式为：

其中，x⁽ⁿ⁾为所述训练集中的问题，y为所述机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、所述机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的所述机器阅读理解模型所有可能输出答案的集合，Δ(y,y⁽ⁿ⁾)为所述机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度，Δ(y,y⁽ⁿ⁾)＝1-rouge(y,y⁽ⁿ⁾)。

可选地，所述最小风险训练损失函数R(θ)的计算公式为：

其中，x⁽ⁿ⁾为所述训练集中的问题，y为所述机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、所述机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的所述机器阅读理解模型所有可能输出答案的集合，S(x⁽ⁿ⁾)为从Y(x⁽ⁿ⁾)采样得到的答案的集合，β为控制概率分布的超参数，Δ(y,y⁽ⁿ⁾)为所述机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度。

可选地，所述S(x⁽ⁿ⁾)的采样方法包括：

从Y(x⁽ⁿ⁾)选取距离各x⁽ⁿ⁾对应的标准答案最近的k个答案，或者，从Y(x⁽ⁿ⁾)选取各x⁽ⁿ⁾对应的概率最高的k个答案。

可选地，所述Δ(y,y⁽ⁿ⁾)的计算公式为：

Δ(y,y⁽ⁿ⁾)＝1-rouge(y,y⁽ⁿ⁾)，其中，rouge的计算公式为：

X和Y为标准答案和模型输出答案的文本序列，m为标准答案的长度，n为模型输出答案的长度，γ为超参数，LCS为最长公共子序列。

可选地，以最小化联合损失函数J(θ)为目标，更新所述机器阅读理解模型的参数之后，所述方法还包括：

当对所述机器阅读理解模型的参数完成预设次数的调整后，则利用预设评价函数和选取的验证样本，对训练后的机器阅读理解模型输出答案的准确性进行评价；

判断经过预设次数的评价后，得到的评价指标是否有提升：

如果没有提升，则停止对所述机器阅读理解模型的训练，得到最终的机器阅读理解模型。

根据本发明实施例的第二方面，提供了一种基于联合损失函数的机器阅读理解模型训练装置，该装置包括：

训练集选取模块：用于选取预设数目的样本，作为训练集；

样本数据输入模块：用于将所述训练集中的样本数据输入机器阅读理解模型中，得到所述机器阅读理解模型输出的训练集中各问题对应的答案，其中，包括答案的开始和结束位置、以及位于所述开始和结束位置的概率；

模型参数调整模块：用于以最小化联合损失函数J(θ)为目标，调整所述机器阅读理解模型的参数；

可选地，所述最小风险训练损失函数R(θ)的计算公式为：

可选地，所述最小风险训练损失函数R(θ)的计算公式为：

可选地，所述装置还包括：

准确性评价模块：用于当对所述机器阅读理解模型的参数完成预设次数的调整后，则利用预设评价函数和选取的验证样本，对训练后的机器阅读理解模型输出答案的准确性进行评价；

评价指标判断模块：用于判断经过预设次数的评价后，得到的评价指标是否有提升：

训练停止模块：用于当经过预设次数的评价后，得到的评价指标没有提升时，则停止对所述机器阅读理解模型的训练，得到最终的机器阅读理解模型。

由以上技术方案可见，本发明实施例提供的一种基于联合损失函数的机器阅读理解模型训练方法及装置，在进行机器阅读理解模型训练时，利用由极大似然估计函数和最小风险训练函数组成的损失函数，作为机器阅读理解模型的评价指标，以指导机器阅读理解模型参数的调整。由于最小风险训练函数的思想是使用损失函数来描述模型输出的答案与标准答案之间的差异程度、即损失，并试图寻找一组模型参数使得机器阅读理解模型在训练集上损失值最小，因此，与单纯利用极大似然估计函数相比，本实施例提供的方法所训练出来的模型抽取答案可以更准确。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种基于联合损失函数的机器阅读理解模型训练方法的流程示意图；

图2为本申请提供的一种基于联合损失函数的机器阅读理解模型训练装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本实施例提供的基于联合损失函数的机器阅读理解模型训练方法，主要应用于输出答案以文档中的的开始位置和结束位置方式呈现的模型。以谷歌大脑团队和卡内基梅隆大学(Carnegie Mellon University,CMU)联合推出的阅读理解模型QAnet为例，该模型由五层结构组成：嵌入层(embedding layer)，嵌入编码层(embedding encoder layer)，语境-查询注意力层(context-query attention layer)，模型编码层(model encoder)以及输出层(output layer)。

区别于目前大多数包含注意力机制(attention model)和循环神经网络(Recurrent Neural Networks,RNN)的阅读理解模型，QANet的嵌入编码器和模型编码器摒弃了RNN的复杂递归结构，仅仅使用卷积(convolution)和自注意力机制(self-attention)构建了一个神经网络，使得模型的训练速率和推断速率大大加快，并且可以并行处理输入的单词。具体的，input embedding layer层是将自然语言转化计算机可处理的向量，并尽量保留词语中所包含的语义信息，该模型采用词向量与字向量拼接的方式获得最终的词向量。embedding encoder layer层是由编码块(encoder block)组成，单个encoder block结构自底向上依次包含位置编码(position encoding)、卷积(conv)层、自注意力机制(selfattention)层和前馈网络(fnn)层，用来提取文档(Context)与问题(query)中的注意信息。context-query attention layer层用来建模context和query之间的联系，并在词的层面上，解析出query和context中关键的词语。model encoder layer层是从全局的层面来考虑context与query之间的关系。output layer层是用来解析answer在context中的位置(start position,end position)，分别预测每个位置是answe的起始点和结束点的概率。

针对上述类型的机器阅读理解模型的训练常用采用MLE目标函数，而仅仅使用似然函数作为训练阶段的目标，会存在与测试阶段所使用评价指标不一致的问题。针对上述问题，本实施例改进机器阅读理解模型输出层的损失函数，使模型抽取答案的准确性更高。基于上述原理，下面将对本实施例提供的方法进行详细介绍。图1为本申请提供的一种基于联合损失函数的机器阅读理解模型训练方法的流程示意图。如图1所示，该方法具体包括如下步骤：

S110：选取预设数目的样本，作为训练集。

在本实施例中，一个样本由一个文档、问题以及问题答案构成，训练集就是选取的样本的集合。进一步的，在样本选取时，根据模型的应用领域，选取样本的题材，例如，如果是军事智能的机器阅读领域，则选取军事题材的文档。

S120：将所述训练集中的样本数据输入机器阅读理解模型中，得到所述机器阅读理解模型输出的训练集中各问题对应的答案，其中，包括答案的开始和结束位置、以及位于所述开始和结束位置的概率。

具体的，将训练集中各样本的文档以及问题输入到要训练的机器阅读理解模型中。以QAnet模型为例，当将样本数据输入到其内部后，执行如下的处理步骤：

S121：该模型对文档及问题中的句子进行分词、字预处理，将单词和字映射成词表中对应的词向量和字向量，拼接在一起，并通过一个两层的高速网络(highway network)形成文档和问题的初始特征向量表示。

S122：将文档与问题的浅层词向量表示分别传入嵌入编码层(embedding encoderlayer)进行处理，其中嵌入编码层由编码块(encoder block)组成(这部分只用到了1个encoder block)，单个encoder block结构自底向上依次包含位置编码(positionencoding)，卷积(conv)层，自注意力机制(self attention)层和前馈网络(fnn)层。encoder block中的卷积能够捕获上下文局部结构，而self-attention则可以捕捉文档之间全局的相互作用。通过这一过程，学习到文档和问题更深层的特征表示。

S123：通过双向注意力机制，计算文档到问题注意力(context-to-queryattention)和问题到文档注意力query-to-context attention两种注意力，最后基于注意力计算形成一个问题-答案(query-aware)的原文向量表示；

S124：将步骤S123中获得的双向注意力向量经3个模型编码块处理，其中每个模型编码块包含7个步骤S122提到的编码块。

S125：将步骤S124中获得的编码块拼接在一起，分别通过线性层和softmax层获得问题答案的开始和结束位置，以及对应的概率分布。

当然，对于其它的模型，还可以执行与上述不同的训练过程步骤。

S130：以最小化联合损失函数J(θ)为目标，调整所述机器阅读理解模型的参数。

以最小化联合损失函数J(θ)为目标，调整机器阅读理解模型的参数，然后再执行步骤S120进行训练，以不断优化机器阅读理解模型的输出答案的概率分布，使预测的训练集中的问题的答案越来越像标准答案靠近。

具体的，J(θ)＝L(θ)+α·R(θ)，L(θ)为极大似然估计损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的最大概率答案的损失，R(θ)为最小风险训练损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的答案与标准答案之间的损失。α为超参数，可以经验设置。

本实施例还提供了α的设置方法，具体的，可以以0.1为步长增加α的值，在此基础上，去训练机器阅读理解模型，然后通过在验证集上的整体效果来评价参数更改的好坏，本实施例实验验证针对QANet模型取值为0.1时对应效果最好，但如果用在其他的模型和评价指标，需要按照上面的方法进行设置。

其中，本实施例中的机器阅读理解模型通过查找篇章片段来回答问题，需要定位答案的起始和结束索引位置，则对应的MLE损失函数L(θ)为：

在上述公式(1)中，θ表示模型需要训练的所有参数，例如，学习率、l2正则、文档长度限制等参数；N代表每次训练的样本数目；

表示第i个例子中真实的开始位置索引；

表示第i个例子中真实的结束位置索引；

表示第

位置是开始位置的预测概率值，同理

第

位置是结束位置的预测概率值。

进一步的，最小风险训练损失函数R(θ)的计算公式为：

其中，x⁽ⁿ⁾为所述训练集中的问题；y为机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、所述机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的所述机器阅读理解模型所有可能输出答案的集合，Δ(y,y⁽ⁿ⁾)为机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度(即损失)。

本实例中利用rouge评价计算机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的损失，定义Δ(y,y⁽ⁿ⁾)＝1-rouge(y,y⁽ⁿ⁾)。基于rouge-L可以自动匹配最长子序列，本实施例中的rouge评价采用rouge-L，对应的计算公式为：

在上述公式中，X和Y为标准答案和模型输出答案的文本序列；m为标准答案的长度；n为模型输出答案的长度；γ为超参数，可以根据需要设置，本实施例中取值为1.2；LCS为最长公共子序列。当然，在具体应用中可以根据具体的任务和需求进行个性化设置。

本实施例假设对于输入x⁽ⁿ⁾，搜索空间Y(x⁽ⁿ⁾)共包含三个元素y₁、y₂和y₃。利用本上述最小风险训练损失函数R(θ)计算对应的损失，如下表一所示：

表一：

对于每个候选输出，我们都可以计算与标准答案y⁽ⁿ⁾相比的损失。在这个例子里，三个候选的损失分别是-1.0、-0.3和-0.5。也就是说，标准答案认为y₁最好、y₃次之、y₂最差。最小风险训练的目标是找到一组模型参数，使得损失的期望值最小。

如上表一右侧的四组概率分布。第一组概率分布认为y₂＞y₃＞y₁，这与标准答案相违背，因此得出很高的风险值-0.50。第二组概率分布认为y₃＞y₁＞y₂，相对于第一组概率分布而言提高了与标准答案的相关度，因而获得了更低的风险值-0.61。第三组概率分布获得了与标准答案一致的排序y₁＞y₃＞y₂，因而将风险值进一步降低为-0.71。第四组概率分布在保证排序一致的情况下，同时加大最优输出的概率，从而将风险值降为-0.83。

由此可以看出，最小风险训练认为一组好的参数应当尽可能在对所有候选元素的排序上与标准答案一致，而本实施例所采用的损失函数则定义了排序的计算方法。进而利用本实施例提供的联合损失函数，可以让训练出来的模型尽可能贴近用户需求。

进一步的，在本实例提供的上述联合损失函数中，最小风险损失函数计算会面临一个难题，候选输出空间Y(x⁽ⁿ⁾)很大，会给期望乃至梯度计算带来极大的困难。录入某个文档长度为L，则答案开始和结束位置都有L种可能，正确的符合要求的答案位置有

种可能性(答案的起始位置和结束位置构成一个L*L的矩阵，由于起始位置<＝结束位置，取上三角元素，正确的答案组合有

种可能性)，假设数据集共有M个数据，总共的计算量为

会给期望值R(θ)，乃至模型每次训练，通过损失函数求导反向传播的梯度计算带来极大的困难。

基于上述问题，本实施例利用子空间

来定义一个新的概率分布并逼近后验概率分布，将R(θ)简化为Q(θ)，对应的，最小风险训练损失函数R(θ)的计算公式为：

在上述公式(6)和(7)中，x⁽ⁿ⁾为训练集中的问题；y为机器阅读理解模型输出的答案；P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、机器阅读理解模型输出的答案概率值；Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的机器阅读理解模型所有可能输出答案的集合；S(x⁽ⁿ⁾)为从Y(x⁽ⁿ⁾)采样得到的答案的集合；β为控制概率分布的超参数，β越小，候选输出之间的差异性越小，当β为0时，Q(y|x⁽ⁿ⁾；θ,β)成为均匀分布，与之相反，β越大，候选输出之间的差异性越大。本实施例以0.01为步长去增加β，更改β后训练模型，并在验证集上的整体效果来评价参数更改的好坏，本实施例中取值为0.05。

进一步的，所述S(x⁽ⁿ⁾)的采样方法可以采用选取nearK或topK方式。

具体的，可以通过k-近邻(标准答案附近的k个数据)列表来构建子空间：

S(x⁽ⁿ⁾)＝near_k(P(Y(x⁽ⁿ⁾))) 公式(8)

在公式(8)中k为超参数，需要提前设置，本实施例将其设置为17，即在标准答案前后各选取8个答案。

利用上述采样的方式，在最小风险训练损失计算部分，由于模型每次迭代更新数据对应的采样样本固定不变，这样对应的Δ(y,y⁽ⁿ⁾)值也不变，仅Q(y|x⁽ⁿ⁾；θ,β)发生变化，进而可以大大减少计算量。

另外，还可以通过k-top方式进行动态的采样：

S(x⁽ⁿ⁾)＝top_k(P(Y(x⁽ⁿ⁾))) 公式(9)

在公式(9)中k为超参数，需要提前设置，本实施例将其设置为16，即取概率处于前16位的答案。

进一步的，为了防止对模型的过渡训练，本实施例还利用验证集对训练后的模型进行检测，具体的，在步骤S130之后还包括如下步骤：

S140：当对所述机器阅读理解模型的参数完成预设次数的调整后，则利用预设评价函数和选取的验证样本，对训练后的机器阅读理解模型输出答案的准确性进行评价。

即对机器阅读理解模型完成预设次数的训练后，将选取的验证样本输入训练后的机器阅读理解模型中，利用预设评价函数，如ROUGE(Recall-Oriented Understudy forGisting Evaluation，对提升评估的理解)评价、BLEU(Bilingual EvaluationUnderstudy，双语评价)评价，评价该模型所输出答案的准确性。

S150：判断经过预设次数的评价后，得到的评价指标是否有提升。

经过上述步骤S120至S130的预设次数的迭代训练、并且经过预设次数的迭代训练后再执行步骤S140中的一次评价，这样经过预设次数的评价后，判断得到评价指标是否有提升。

S160：如果没有提升，则停止对所述机器阅读理解模型的训练，得到最终的机器阅读理解模型。

如果都不提升，则训练停止，进而得到训练好的最终的机器阅读理解模型。

利用上述实施例提供的方法，现采用“莱斯杯”全国第一届“军事智能·机器阅读”竞赛的阅读理解数据，与仅使用MLE损失函数去训练QAnet模型的效果进行对比。阅读理解数据集如下：

[{"article_id":"43014","article_type":"防务快讯","article_title":"陈虎：隐形无人机可破解攻击航母情报信息问题","article_content":"编者按：7月12日，英国航空航天系统公司公布了该公司研制的第一款高科技隐形无人机雷电之神。这款飞行器从外型上来看酷似电影中的太空飞行器，据英国方面介绍，可以实现洲际远程打击。那么这款无人机到底有多厉害？是不是像它的外表那样神乎其神？未来无人机在战场上将发挥什么作用？本周《陈虎点兵》与您一起关注。

本月12日，英国首次公布了最新研发的一款高科技无人驾驶隐身战机雷电之神。从外观上来看，这款无人机很有未来派的味道，全身融合，有点像飞碟，进气道也放在了飞机背部，一看就是具有很好的隐身性能。按照英国方面公布的情况，这款无人机是耗资相当于14.6亿元人民币，用了4年时间研发出来的。

雷电之神：大个头有大智慧。目前关于这款无人机公布的信息还是比较含糊的，例如讲到了它的高速性能、洲际飞行能力，统统没有具体的数字。和现有或以前的一些无人机相比，这种无人机的特点主要有两个：第一，是高度的隐身。在此之前的无人战机也具备某种程度的隐身性能，但像雷电之神这样，全面运用隐身技术，从外形上看就具有高度隐形能力的无人机还是第一个。第二，雷电之神的个头比较大。按照英国方面公布的数字，这架飞机的机长是11.35米，高3.98米，翼展将近10米，这个大小大概相当于英国的鹰式教练机和我们国产的L15高级教练机。按照英国人的说法这款无人机是世界最大，实际上肯定不是世界最大，因为它的尺寸比美国的全球鹰要小了不少，但在现有的无人机里，也算是大家伙了。大个头有大智慧，有大力量。它的尺寸决定了它具有较强的飞行能力和装载能力。按照英国人的说法，这款无人机具有洲际飞行能力，在飞行控制方面，可以通过卫星实现洲际飞行控制，这是在无人机控制，特别是远程控制上突破性的进展。这种飞机还配备了两个弹仓，可以进行攻击任务。

新一代无人机逐渐走向战场。这些年来，无人机我们讲过不少，世界上推出的各种各样的无人机花样翻新，不断更新换代。为什么雷电之神值得我们去关注呢？我认为雷电之神本身的意义有限，但它标志着新一代的无人机开始逐渐走向战场，可能会掀起一个无人机的新时代。无人机从投入战场到现在，虽然时间很长，但真正引起大家关注、密集投入战斗使用的时间很短，从最早以色列在贝卡谷地使用无人机取得突出战绩，很快到了上世纪90年代末，美国推出了一系列新一代无人机，不过二十几年时间。无人机的发展速度非常快，进化能力很强，雷电之神的出现，使无人战机走进了一个新的时代。雷电之神的研制周期到目前为止只有4年，按照英国人公布的情况，2011年就要试飞。这个研制周期远远短于目前先进的有人战机的研制周期，这说明无人机的进化周期非常短，快速的进化使它在技术上能够迅速更新换代，作战能力和技术水平不断提高，以超越有人驾驶战机几倍的速度在发展。另外，这种无人机很便宜。我们知道研制三代机最少也要投入几百亿人民币，至于四代机、五代机，这个投入要更大。雷电之神到目前为止的投入仅为约14.6亿人民币，和有人驾驶高性能战机相比，便宜很多。

从技术上来说，大家感觉无人机可能是个高科技的东西，实际上，无人机的技术门槛很低。我曾经接触过一些航空领域的专家，他们说无人机的进入门槛很低，所以很多企业和科研单位都在搞无人机，给人感觉是百花齐放，关键原因就是无人机较低的技术门槛。进化周期短，投入小，技术门槛低，这三个特点决定了无人机在未来一段时间将会快速的发展。

隐形无人机解决攻击航母的情报信息问题。现在以雷电之神为代表的新一代无人机所表现出来的作战潜力，远远超过了之前的无人机。我们可以设想，像它这样高度隐身的无人机，在执行任务时可以神不知鬼不觉的进入你的防空圈。攻击航母很大程度上要取决于情报信息问题。像这种隐身无人机就可以实现神不知鬼不觉的跟踪航母，解决情报信息问题。从雷电之神的技术性能来看，它已经越来越接近于攻击型战斗机。看来无人机挑战传统空中力量这样的日子离我们越来越近了。这个问题应该是所有的国家和军队关注、关心的问题，如何应对这种挑战，如何在这种打破原有力量平衡的技术条件下，实现新的力量平衡，这是大家需要关注和研究的问题。新浪网

","questions":[{"questions_id":"a98df1fc-47ca-4873-8a44-2bdb1cb8be7f","quest ion":"雷电之神的特点主要有几个","answer":"2","question_type":"数值型问题"},{"questions_id":"95bcaa43-e75c-4379-8854-69fd4dd887e9","question":"雷电之神耗资相当于多少亿元人民币","answer":"14.6","question_type":"数值型问题"},{"questions_id":"67f0d3ef-3c41-444c-a015-b0f86664c9b1","question":"文章的内容是什么","answer":"陈虎：隐形无人机可破解攻击航母情报信息问题","question_type":"篇章型问题"}。

经验证，使用MLE损失函数去训练QAnet模型，测试得到的rouge值为86.45％、bleu值为78.605％，而采用本实施例提供的方法，测试得到的rouge值为86.55％、bleu值为79％。依次，无论是比较rouge值还是bleu值，采用本实施例提供的方法所训练的QAnet模型效果都好于单用MLE函数训练的QAnet模型。

基于上述方法同样的发明构思，本实施例还提供了一种模型训练装置。图2为本申请提供的一种基于联合损失函数的机器阅读理解模型训练装置的结构示意图，如图2所示，该装置包括：

训练集选取模块210：用于选取预设数目的样本，作为训练集；

样本数据输入模块220：用于将所述训练集中的样本数据输入机器阅读理解模型中，得到所述机器阅读理解模型输出的训练集中各问题对应的答案，其中，包括答案的开始和结束位置、以及位于所述开始和结束位置的概率；

模型参数调整模块230：用于以最小化联合损失函数J(θ)为目标，调整所述机器阅读理解模型的参数；

进一步的，本实施例中最小风险训练损失函数R(θ)的计算公式为：

其中，x⁽ⁿ⁾为训练集中的问题，y为机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的机器阅读理解模型所有可能输出答案的集合，Δ(y,y⁽ⁿ⁾)为机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度，Δ(y,y⁽ⁿ⁾)＝1-rouge(y,y⁽ⁿ⁾)。

为了减少运算量，本实施例采用答案采样的方式，对应的，最小风险训练损失函数R(θ)的计算公式为：

其中，x⁽ⁿ⁾为训练集中的问题，y为机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的机器阅读理解模型所有可能输出答案的集合，S(x⁽ⁿ⁾)为从Y(x⁽ⁿ⁾)采样得到的答案的集合，β为控制概率分布的超参数，Δ(y,y⁽ⁿ⁾)为机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度。

为了防止对模型的过度训练，本实施例中的训练装置还包括：

准确性评价模块240：用于当对所述机器阅读理解模型的参数完成预设次数的调整后，则利用预设评价函数和选取的验证样本，对训练后的机器阅读理解模型输出答案的准确性进行评价。

评价指标判断模块250：用于判断经过预设次数的评价后，得到的评价指标是否有提升：

训练停止模块260：用于当经过预设次数的评价后，得到的评价指标没有提升时，则停止对所述机器阅读理解模型的训练，得到最终的机器阅读理解模型。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于联合损失函数的机器阅读理解模型训练方法，其特征在于，包括：

选取预设数目的样本，作为训练集；

其中，J(θ)＝L(θ)+α·R(θ)，L(θ)为极大似然估计损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的最大概率答案的损失，R(θ)为最小风险训练损失函数、用于计算所述机器阅读理解模型输出的所述训练集中各问题对应的答案与标准答案之间的损失，α为超参数，所述最小风险训练损失函数R(θ)的计算公式为：

x⁽ⁿ⁾为所述训练集中的问题，y为所述机器阅读理解模型输出的答案，P(y|x⁽ⁿ⁾；θ)为当模型参数为θ时、所述机器阅读理解模型输出的答案概率值，Y(x⁽ⁿ⁾)为对应x⁽ⁿ⁾的所述机器阅读理解模型所有可能输出答案的集合，S(x⁽ⁿ⁾)为从Y(x⁽ⁿ⁾)采样得到的答案的集合，β为控制概率分布的超参数，Δ(y,y⁽ⁿ⁾)为所述机器阅读理解模型输出的答案与标准答案y⁽ⁿ⁾之间的差异程度。

2.根据权利要求1所述的方法，其特征在于，所述S(x⁽ⁿ⁾)的采样方法包括：

3.根据权利要求1所述的方法，其特征在于，所述Δ(y,y⁽ⁿ⁾)的计算公式为：

Δ(y,y⁽ⁿ⁾)＝1-rouge(y,y⁽ⁿ⁾)，其中，rouge的计算公式为：

4.根据权利要求1所述的方法，其特征在于，以最小化联合损失函数J(θ)为目标，更新所述机器阅读理解模型的参数之后，所述方法还包括：

判断经过预设次数的评价后，得到的评价指标是否有提升：

5.一种基于联合损失函数的机器阅读理解模型训练装置，其特征在于，包括：

训练集选取模块：用于选取预设数目的样本，作为训练集；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：