CN111008266A

CN111008266A - 文本分析模型的训练方法及装置、文本分析方法及装置

Info

Publication number: CN111008266A
Application number: CN201911244168.6A
Authority: CN
Inventors: 耿晨; 唐剑波; 李长亮
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Software Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-14
Anticipated expiration: 2039-12-06
Also published as: CN111008266B

Abstract

本申请提供一种文本分析模型的训练方法及装置、文本分析方法及装置。其中，所述文本分析模型的训练方法，包括：获取训练样本，并输入至文本分析模型中，生成线性矩阵；基于所述线性矩阵进行处理，生成分数矩阵；基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以掩盖所述训练样本中的至少一个词单元；基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，并基于预测结果与真实结果确定损失值；基于所述损失值对所述文本分析模型进行训练，直至达到训练停止条件。本申请提供的方法及装置，可以有效提高模型训练效果，有效提高文本分析的准确率。

Description

文本分析模型的训练方法及装置、文本分析方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种文本分析模型的训练方法及装置、文本分析方法及装置、计算设备及计算机可读存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。对于自然语言处理任务，通常选用双向注意力神经网络模型(BidirectionalEncoder Representation from Transformers，BERT)进行处理。

对于BERT模型的训练，通常采用遮蔽语言模型(masked language model，MLM)，即在整个训练过程中，80％的时间采用[MASK]标志取代被选中的词，10％的时间采用随机其他词取代被选中的词，另外10％的时间被选中的词保持不变，从而训练模型的学习与分析能力。

但是，模型在使用过程中并不会输入[MASK]标志，而在训练过程中采用[MASK]标志对词语进行掩盖，引入[MASK]标志的相关信息会导致训练与使用过程数据的不一致，进而产生噪声，影响模型分析的准确性，比如，对于阅读理解类、预测类模型或模型执行阅读理解类、预测类任务的情况下，噪声的产生会降低该模型分析得到的阅读理解答案、预测结果的准确率，影响模型效果。

发明内容

有鉴于此，本申请实施例提供了一种文本分析模型的训练方法及装置、文本分析方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种文本分析模型的训练方法，包括：

获取训练样本，并输入至文本分析模型中，生成线性矩阵；

基于所述线性矩阵进行处理，生成分数矩阵；

基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以掩盖所述训练样本中的至少一个词单元；

基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，并基于预测结果与真实结果确定损失值；

基于所述损失值对所述文本分析模型进行训练，直至达到训练停止条件。

进一步地，所述基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，包括：

将所述分数矩阵与预先设置有至少一行或至少一列掩盖位置的掩盖矩阵相加，生成分数更新矩阵。

进一步地，所述训练样本包括至少一个样本语句，每一个所述样本语句对应一个所述分数矩阵，所述样本语句包括a个词单元，所述分数矩阵和所述掩盖矩阵均为b行b列的矩阵，其中，b≥a，且a和b均为正整数；

所述将所述分数矩阵与预先设置有至少一行或至少一列掩盖位置的掩盖矩阵相加生成分数更新矩阵，包括：

将所述掩盖矩阵的第c行或第c列设置为掩盖位置，c≤a，且c为整数；

将所述分数矩阵与所述掩盖矩阵相加，生成分数更新矩阵以掩盖所述样本语句中的第c个词单元。

进一步地，所述将所述掩盖矩阵的第c行或第c列设置为掩盖位置，包括：

将所述掩盖矩阵的第c行的值设置为负值，并将所述掩盖矩阵其他行的值设置为0或数值相同的正值；

或将所述掩盖矩阵的第c列的值设置为负值，并将所述掩盖矩阵其他列的值设置为0或数值相同的正值。

进一步地，所述基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，包括：

将所述分数更新矩阵进行归一化处理，获得预设候选词表中每个词单元作为训练样本掩盖位置处的词单元的概率分布；

基于所述概率分布与所述线性矩阵，获得预设获选词表中每个词单元作为训练样本掩盖位置处的词单元的概率值；

基于所述概率值预测所述训练样本中掩盖位置处的词单元。

进一步地，所述基于预测结果与真实结果确定损失值，包括：

基于预测得到的所述掩盖位置处的词单元与所述训练样本中掩盖位置处的词单元计算交叉熵损失函数，生成损失值。

进一步地，所述基于所述损失值对所述文本分析模型进行训练，包括：

判断所述损失值是否小于预设阈值；

若否，则获取训练样本并继续训练；

若是，则停止训练。

本申请还提供一种文本分析方法，包括：

获取待分析文本；

将所述待分析文本输入至文本分析模型中进行处理，生成文本分析结果；

其中，所述文本分析模型是通过所述的文本分析模型的训练方法训练得到的。

本申请还提供一种文本分析模型的训练装置，包括：

获取模块，被配置为获取训练样本，并输入至文本分析模型中，生成线性矩阵；

处理模块，被配置为基于所述线性矩阵进行处理，生成分数矩阵；

掩盖模块，被配置为基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以掩盖所述训练样本中的至少一个词单元；

预测模块，被配置为基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，并基于预测结果与真实结果确定损失值；

训练模块，被配置为基于所述损失值对所述文本分析模型进行训练，直至达到训练停止条件。

本申请还提供一种文本分析装置，包括：

文本获取模块，被配置为获取待分析文本；

文本分析模块，被配置为将所述待分析文本输入至文本分析模型中进行处理，生成文本分析结果；

本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述文本分析模型的训练方法或文本分析方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述文本分析模型的训练方法或文本分析方法的步骤。

本申请提供的文本分析模型的训练方法及装置，基于分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以对训练样本中的词单元进行隐藏式掩盖处理，进而在文本分析模型的训练过程中不关注被掩盖词单元，通过采用对训练样本中的词单元进行随机隐藏式掩盖的训练方式，代替现有的通过引入[MASK]标志对训练样本中的词单元进行随机掩盖的训练方式，可以保持文本分析模型训练过程与使用过程输入序列的的一致性，从而消除文本分析模型训练过程中产生的噪声影响，提高模型的训练效果，提高模型的分析能力。

此外，本申请提供的文本分析模型的训练方法及装置，将分数更新矩阵和线性矩阵进行自注意力处理，预测训练样本中掩盖的词单元，得到预测结果，可以提高模型准确率，再基于预测结果与真实结果对模型有针对性的进行迭代训练，以达到对文本分析模型进行精确训练的目的，提高模型的分析预测能力，进一步提高模型的准确率，且可以节省训练时间，提高训练效率。

本申请提供的文本分析方法及装置，将待分析文本输入至通过上述训练方法训练得到的文本分析模型中进行处理，得到文本分析的结果，可以有效提高文本分析的准确性，比如，在本申请所述的文本分析模型执行阅读理解类、预测类任务的情况下，应用本申请提供的文本分析方法，可以有效提高模型的分析能力，提高模型分析得出的阅读理解答案、预测结果的准确率，快速、准确的得到文本分析的结果。

附图说明

图1是本申请一实施例的计算设备的结构示意图；

图2是本申请一实施例的文本分析模型的训练方法的步骤流程示意图；

图3是本申请一实施例的文本分析模型的训练方法的流程示意图；

图4是本申请一实施例的文本分析方法的步骤流程示意图；

图5是本申请一实施例的文本分析模型的训练装置的结构示意图；

图6是本申请一实施例的文本分析装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

BERT模型：一种双向注意力神经网络模型。BERT模型可以通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

词单元(token)：对输入文本做任何实际处理前，都需要将其分割成诸如字、标点符号、数字或字母等语言单元，这些单元被称为词单元。对于英文文本，词单元可以是一个单词、一个标点符号、一个数字等，对于中文文本，最小的词单元可以是一个字、一个标点符号、一个数字等。

归一化指数函数(softmax函数)：它能将一个含任意实数的k维向量“压缩”到另一个K维实数向量中，使得每一个元素的范围都在(0，1)之间，并且所有元素的和为1，其常被用于解决多分类问题。

随机失活(dropout)：是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性(co-dependence)从而实现神经网络的正则化(regularization)，降低其结构风险(structuralrisk)。

交叉熵损失函数(Cross Entropy Loss)：用于度量两个概率分布间的差异性信息的函数。

在本申请中，提供了一种文本分析模型的训练方法及装置、文本分析方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的文本分析模型的训练方法的示意性流程图，包括步骤S210至步骤S250。

S210、获取训练样本，并输入至文本分析模型中，生成线性矩阵。

其中，训练样本是用于对模型进行训练的样本文本，可以是中文文本、英文文本、法文文本等各种语言的文本，本申请对此不做限制。

在本申请中，训练样本以批次(batch)为单位，同一个批次下的训练样本一起输入至文本分析模型中进行处理，且在处理过程中的掩盖位置相同，每一个训练样本均包括多个子样本，每个子样本包括一句完整的文字，每个子样本的字数不做限制。

在实际应用中，获取训练样本后，将训练样本进行嵌入处理，生成嵌入向量，再将嵌入向量输入至文本分析模型中进行处理，生成线性矩阵。

具体地，对所述训练样本进行嵌入处理后输入至文本分析模型中，经过线性变换、维度变换得到K矩阵(key矩阵)、Q矩阵(query矩阵)和V矩阵(value矩阵)，并将上述K矩阵、Q矩阵和V矩阵作为线性矩阵。

在本实施例中，文本分析模型为BERT模型，文本分析模型的输入是固定长度的输入，在训练样本的子样本的长度大于固定长度，即子样本中词单元的个数多于固定长度对应的词单元的个数的情况下，在进行嵌入处理后，按照固定长度所能容纳的词单元个数将子样本分为多个样本语句输入至文本分析模型中处理，每个样本语句均生成其对应的线性矩阵；在训练样本的子样本的长度小于固定长度，即子样本中词单元的个数少于固定长度对应的词单元的个数的情况下，在进行嵌入处理后将该子样本作为一个样本语句输入至文本分析模型中进行处理，生成线性矩阵。

例如，假设文本分析模型输入的固定长度为512个词单元，训练样本包括第一子样本、第二子样本和第三子样本在内的三个子样本。其中第一子样本包括15个词单元，则将第一子样本作为一个样本语句进行嵌入处理后输入至文本分析模型中进行处理，生成512×512的分数矩阵；第二子样本包括600个词单元，则将第二子样本进行嵌入处理后自第512个词单元分为两个样本语句分别输入至文本分析模型中进行处理，生成两个512×512的分数矩阵；第三子样本包括1155个词单元，则将第三子样本进行嵌入处理后自第512个词单元和第1024个词单元分为三个样本语句分别输入至文本分析模型中进行处理，生成三个512×512的分数矩阵。其他情况可以此类推，在此不再赘述。

更为具体地，在生成的分数矩阵中，每一个词单元均可由768维的向量进行表示，以文本分析模型输入的固定长度为512个词单元为例，那么经过处理生成的分数矩阵即为512个768维的向量组成的二维矩阵。

本实施例所述的文本分析模型的训练方法，采用大批量的训练样本进行训练，可以有效减少模型训练过程中产生的误差，提高模型训练的效果。

S220、基于所述线性矩阵进行处理，生成分数矩阵。

在实际应用中，可以将训练样本中每一个样本语句嵌入处理后得到的K矩阵与Q矩阵进行点乘再除以多头注意力中根号下头(head)的个数，即得到分数矩阵。

例如，假设多头注意力的头的数量为n，其中一个样本语句的K矩阵和Q矩阵均为n×a×b的矩阵，则生成维度为“(n×a×b)·(n×a×b)/n”的分数矩阵。

本实施例所述的文本分析模型的训练方法，将训练样本输入至文本分析模型中进行处理，生成与掩盖矩阵行列数相同的分数矩阵，有助于后续对分数矩阵与掩盖矩阵的共同处理，便于对词单元进行掩盖。

S230、基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以掩盖所述训练样本中的至少一个词单元。

其中，训练样本包括多个子样本，每个子样本包括一个或多个样本语句，每一个样本语句对应生成一个分数矩阵。

掩盖矩阵是用于对样本语句中的一个或多个词单元进行掩盖隐藏的工具矩阵，掩盖矩阵中的掩盖位置和数量均是随机的，掩盖矩阵中可以包含一行或一列掩盖位置、两行或两列掩盖位置或是多行或多列掩盖位置，其中每一行或每一列掩盖位置对应掩盖样本语句中的一个词单元。在训练样本中包含多个子样本、多个样本语句的情况下，掩盖位置在词单元数量最少的样本语句的长度范围内随机选择。

例如，假设训练样本包括三个子样本，每个子样本均包括一个样本语句，三个样本语句分别包括200个词单元、30个词单元和101个词单元，则掩盖位置在掩盖矩阵的第1行至第30行或第1列至第30列中随机选择。其他情况可以此类推，在此不再赘述。

具体地，可以将所述分数矩阵与预先设置有至少一行或至少一列掩盖位置的掩盖矩阵相加，生成分数更新矩阵。

其中，分数矩阵与掩盖矩阵为行列数均相同的矩阵，分数矩阵与掩盖矩阵的行列数与输入至文本分析模型的语句的固定长度相对应，样本语句的长度始终小于或等于上述固定长度，在样本语句的长度小于上述固定长度的情况下，在该样本语句生成分数矩阵时补齐至固定长度并生成包含有相应数量的行和列的分数矩阵。

具体地，所述样本语句包括a个词单元，所述分数矩阵和所述掩盖矩阵均为b行b列的矩阵，其中，b≥a，且a和b均为正整数。

那么将所述掩盖矩阵的第c行或第c列设置为掩盖位置，c≤a，且c为整数；再将所述分数矩阵与所述掩盖矩阵相加，生成分数更新矩阵以掩盖所述样本语句中的第c个词单元。

例如，假设掩盖矩阵为10×10的矩阵，训练样本包括两个子样本，其中一个子样本为“沙场秋点兵”，则将“沙场秋点兵”作为一个样本语句，且输入至文本分析模型后生成一个分数矩阵，另外一个子样本为“醉里挑灯看剑，梦回吹角连营”，则将“醉里挑灯看剑，梦回吹”和“角连营”作为两个样本语句，输入文本分析模型后生成两个分数矩阵，由于样本语句“沙场秋点兵”包含5个词单元，样本语句“醉里挑灯看剑，梦回吹”包含10个词单元，样本语句“角连营”包含3个词单元，那么掩盖位置为掩盖矩阵的第1行/第1列、第2行/第2列、第3行/第3列中的任意一个或几个的组合，以掩盖样本语句中前三个词单元中的一个或几个。

此外，设置掩盖位置的具体方式可以为将所述掩盖矩阵的第c行或第c列的值设置为负值，并将所述掩盖矩阵其他行和其他列的值设置为0，或是可以实现最终掩盖目的的其他方式均可，本申请对此不做限制。

其中，设置掩盖位置时将掩盖矩阵的第c行或第c列设置为-10000，其他行和其他列的值设置为0或数值相同的正值，以不改变后续处理过程中对于语句中的信息关注度，同时使掩盖矩阵与分数矩阵相加后对应位置处的值相对于其他位置处的值无穷小，在进行后续归一化等步骤的处理后，对应位置处的权重值为0，换言之不关注该词单元的信息，对该词单元进行隐藏式掩盖。

以列为单位进行掩盖为例，掩盖矩阵的生成过程包括：首先在未设置掩盖位置的掩盖矩阵中将需要掩盖的词单元对应的列的值设置为0，将不需要掩盖的词单元对应的列的值设置为1，再用1减去上述未设置掩盖位置的掩盖矩阵中的每个值后乘-10000得到设置好掩盖位置的掩盖矩阵，即(1-未设置掩盖位置的掩盖矩阵)*(-10000.0)＝设置好掩盖位置的掩盖矩阵。

本实施例所述的文本分析模型的训练方法，通过将分数矩阵与预先设置有掩盖位置的掩盖矩阵相加，以对训练样本中的词单元进行隐藏式掩盖，可以减少模型训练过程中噪声的产生，消除噪声带来的影响，有效提高模型的训练效果。

S240、基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，并基于预测结果与真实结果确定损失值。

具体地，可以将所述分数更新矩阵进行归一化处理，获得预设候选词表中每个词单元作为训练样本掩盖位置处的词单元的概率分布；基于所述概率分布与线性矩阵，获得预设候选词表中每个词单元作为训练样本掩盖位置处的词单元的概率值；基于所述概率值预测所述训练样本中掩盖位置处的词单元。

其中，预设候选词表是在预测被掩盖的词单元的过程中用于选择填入掩盖位置的字或词的表格，其详尽的包含如“个”“的”“不”“it”“is”“are”等在内的各种词单元，预设候选词表中词单元的个数和种类均可以视具体情况而定，本申请对此不做限制。

归一化处理即采用softmax函数对分数更新矩阵进行全局归一化处理，softmax函数的表达式如下所示：

其中，z_j是分数更新矩阵中的某个元素，e是指数函数，分母为分数更新矩阵中所有元素的指数和，σ(z)_j为非线性转换即归一化处理的结果，通过计算softmax函数的值，得到第一概率矩阵即候选词表中每个词单元的概率分布，再将上述候选词表中词单元的概率分布与训练样本经过嵌入处理得到的V矩阵相乘，得到候选词表中每个词单元作为训练样本掩盖位置处的词单元的概率值，其中最大的概率值所对应位置代表的答案为预测结果，即模型预测得到的掩盖位置处应当填入的词单元。

在实际应用中，假设该批次(batch)的训练样本中包括m个样本语句，多头注意力机制中头的数量为n，预设候选词表中词单元的数量为w，分数更新矩阵为m×n×a×a的矩阵，将上述分数更新矩阵进行softmax处理，得到m×n×a×a的第一概率矩阵，将上述第一概率矩阵与m×n×a×b的V矩阵点乘，得到m×n×a×b的第一中间矩阵，将上述第一中间矩阵结合并进行维度变换得到m×a×c的第二中间矩阵，其中，c＝n×b，将上述第二中间矩阵进行前馈多层神经网络(Feedforward Multilayer Neural Network，FNN)、随机失活(dropout)、标准化操作得到m×a×c的第三中间矩阵，将上述m×a×c的第三中间矩阵输入至全连接层进行处理，得到m×a×w的第二概率矩阵，并基于第二概率矩阵得到预设候选词表中每个词单元作为训练样本每个样本语句掩盖词单元的概率值。上述m、n、w、a、b、c均为大于或等于1的整数。

例如，假设训练样本的其中一个样本语句为“春风又绿江南岸，明月何时照我还”，将上述样本语句的分数矩阵与掩盖矩阵相加进行掩盖处理后，被掩盖的词单元为样本语句中的第4个词单元，即“绿”字被掩盖。预设候选词表中包括“过”“惹”“到”“绿”“入”“满”在内的多个词单元，经过归一化处理后，得到词单元“绿”的概率为0.77，概率最大，则预测词单元“绿”为被掩盖位置处的词单元。

具体地，可以基于预测得到的所述掩盖位置处的词单元与所述训练样本中掩盖位置处的词单元计算交叉熵损失函数，生成损失值。

本实施例所述的文本分析模型的训练方法，通过计算损失值可以直观的示出模型的预测结果与真实结果之间的差异，再对文本分析模型进行针对性训练，可以有效提高模型训练的速率及模型训练的效果。

S250、基于所述损失值对所述文本分析模型进行训练，直至达到训练停止条件。

具体地，可以判断所述损失值是否小于预设阈值；在损失值大于或等于预设阈值的情况下，获取训练样本并继续训练；在损失值小于预设阈值的情况下，停止训练。

其中，预设阈值为损失值的临界值，在损失值大于或等于预设阈值的情况下，说明文本分析模型的预测结果与真实结果之间仍存在一定偏差，仍需调整文本分析模型的参数并获取训练样本继续对该模型进行训练；在损失值小于预设阈值的情况下，说明文本分析模型的预测结果与真实结果的接近程度已经足够，可以停止训练。预设阈值的数值可以根据实际情况确定，本申请对此不做限制。

本实施例所述的文本分析模型的训练方法，根据损失值判断文本分析模型的具体训练情况，并在训练未合格的情况下根据损失值反向调整文本分析模型的参数以提高该模型的分析能力，训练速率高且训练效果好。

下面结合具体的例子对本实施例进行进一步说明，参见图3。

例如，获取训练样本，假设训练样本中仅包括一个样本语句“无可奈何花落去，似曾相识燕归来，小园香径独徘徊”，文本分析模型的固定输入长度为512个词单元，且样本语句对应的矩阵维度是512×768。

将上述样本语句进行嵌入处理，并经过线性变换生成维度为512×768的K矩阵、Q矩阵和V矩阵，对上述矩阵进行维度变换生成12×512×64的K矩阵、Q矩阵和V矩阵。

假设文本分析模型采用十二头自注意力机制，将上述样本语句的K矩阵、Q矩阵和V矩阵输入至文本分析模型中进行处理，即每一个头对应生成一个512×512的矩阵，共生成12个512×512的矩阵，将K矩阵与Q矩阵进行点乘，再除以12，生成12×512×512的分数矩阵。

假设掩盖矩阵中第5列的值为-10000，其余行和列的值均为0，则掩盖位置位于掩盖矩阵中第5列，将掩盖矩阵与每一个分数矩阵相加，即得到第5列数值为负值的12×512×512的分数更新矩阵。

假设候选词表中有30000个词，将上述分数更新矩阵进行softmax处理，得到预设候选词表中每个词单元作为被掩盖词单元的12×512×512的第一概率矩阵，将上述第一概率矩阵与12×512×64的V矩阵相乘，得到12×512×64的第一中间矩阵，将上述12×512×64的第一中间矩阵结合并进行维度变换得到512×768的第二中间矩阵，将上述512×768的第二中间矩阵进行FNN(Factorisation-machine supported Neural Networks)、随机失活(dropout)、标准化操作得到512×768的第三中间矩阵，将上述512×768的第三中间矩阵输入至全连接层进行处理，得到512×3000的第二概率矩阵，基于上述第二概率矩阵得到预设候选词表中每个词单元作为训练样本中掩盖词单元的概率值，其中部分词单元的概率值如表1所示：

表1

词单元	概率值	词单元	概率值
				燕	0.02	雁	0.02
花	0.60	草	0.10
				树	0.04	叶	0.18
云	0.09	水	0.11

如上表所示，其中词单元“花”的概率值最高，则预测词单元“花”为该样本语句中被掩盖的词单元。

基于预测结果“花”与真实结果“花”计算损失值，得到损失值为0.01。

假设损失值的预设阈值为0.1,而0.01＜0.1，停止训练。

本申请提供的文本分析模型的训练方法，通过将训练样本输入至文本分析模型中进行处理，生成分数矩阵，再基于分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，对训练样本中的词单元进行隐藏式掩盖处理，进而在文本分析模型的训练过程中不关注被掩盖词单元，并通过上下文信息分析预测该被掩盖词单元，以达到对文本分析模型进行精确训练的目的。且本申请提供的训练方法，可以消除文本分析模型训练过程中产生的噪声影响，保持文本分析模型训练与使用的一致性，从而提高模型的训练效果，提高模型的分析能力。

如图4所示，本实施例提供一种文本分析方法，包括步骤S410至步骤S420。

S410、获取待分析文本。

S420、将所述待分析文本输入至文本分析模型中进行处理，生成文本分析结果。

其中，所述文本分析模型是通过所述的训练方法训练得到的。

需要说明的是，本实施例所述的文本分析任务既可以是根据文本内容进行阅读理解问答，也可以是根据文本内容进行上下文分析等，本申请对此不做限制。例如，在文本任务为根据文本内容进行阅读理解问答的情况下，输入的待分析文本中还可以包括待回答问题，文本分析结果为待回答问题的答案。

下面结合具体地例子对本实施例进行进一步说明。

例如，假设文本分析任务为阅读理解问答，获取的待分析文本包括文本内容和待回答问题，其中文本内容为“四川省的省会成都又称天府之国”，待回答问题为“四川省的省会是哪座城市？”

将上述待分析文本输入至文本分析模型中进行处理，生成文本分析结果即待回答问题的答案为“成都”。

本申请提供的文本分析方法，将待分析文本输入至通过上述训练方法训练得到的文本分析模型中进行处理，得到文本分析的结果，可以有效提高文本分析的准确率，快速、准确的得到文本分析的结果。

如图5所示，本实施例提供一种文本分析模型的训练装置，包括：

获取模块510，被配置为获取训练样本，并输入至文本分析模型中，生成线性矩阵；

处理模块520，被配置为基于所述线性矩阵进行处理，生成分数矩阵；

掩盖模块530，被配置为基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，以掩盖所述训练样本中的至少一个词单元；

预测模块540，被配置为基于所述分数更新矩阵和所述线性矩阵进行注意力处理，预测所述训练样本中掩盖的词单元，并基于预测结果与真实结果确定损失值；

训练模块550，被配置为基于所述损失值对所述文本分析模型进行训练，直至达到训练停止条件。

可选地，所述掩盖模块530进一步地被配置为：

可选地，所述训练样本包括至少一个样本语句，每一个所述样本语句对应一个所述分数矩阵，所述样本语句包括a个词单元，所述分数矩阵和所述掩盖矩阵均为b行b列的矩阵，其中，b≥a，且a和b均为正整数；

所述掩盖模块530进一步地被配置为：

可选地，所述掩盖模块530，进一步地被配置为：

可选地，所述预测模块540，进一步地被配置为：

基于所述概率值预测所述训练样本中掩盖位置处的词单元。

可选地，所述预测模块540，进一步地被配置为：

可选地，所述训练模块550，进一步地被配置为：

判断所述损失值是否小于预设阈值；

若否，则获取训练样本并继续训练；

若是，则停止训练。

本实施例提供的文本分析模型的训练装置，通过将训练样本输入至文本分析模型中进行处理，生成分数矩阵，再基于分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，对训练样本中的词单元进行隐藏式掩盖处理，进而在文本分析模型的训练过程中不关注被掩盖词单元，并通过上下文信息分析预测该被掩盖词单元，以达到对文本分析模型进行精确训练的目的。且本申请提供的训练方法，可以消除文本分析模型训练过程中产生的噪声影响，保持文本分析模型训练与使用的一致性，从而提高模型的训练效果，提高模型的分析能力。

如图6所示，本实施例提供一种文本分析装置，包括：

文本获取模块610，被配置为获取待分析文本；

文本分析模块620，被配置为将所述待分析文本输入至文本分析模型中进行处理，生成文本分析结果；

本实施例提供的文本分析装置，将待分析文本输入至通过上述训练方法训练得到的文本分析模型中进行处理，得到文本分析的结果，可以有效提高文本分析的准确率，快速、准确的得到文本分析的结果。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取训练样本，并输入至文本分析模型中，生成线性矩阵；

基于所述线性矩阵进行处理，生成分数矩阵；

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述文本分析模型的训练方法或文本分析方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本分析模型的训练方法或文本分析方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本分析模型的训练方法或文本分析方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本分析模型的训练方法，其特征在于，包括：

获取训练样本，并输入至文本分析模型中，生成线性矩阵；

基于所述线性矩阵进行处理，生成分数矩阵；

2.根据权利要求1所述的文本分析模型的训练方法，其特征在于，所述基于所述分数矩阵与预先设置有掩盖位置的掩盖矩阵生成分数更新矩阵，包括：

3.根据权利要求2所述的文本分析模型的训练方法，其特征在于，所述训练样本包括至少一个样本语句，每一个所述样本语句对应一个所述分数矩阵，所述样本语句包括a个词单元，所述分数矩阵和所述掩盖矩阵均为b行b列的矩阵，其中，b≥a，且a和b均为正整数；

所述将所述分数矩阵与预先设置有至少一行或至少一列掩盖位置的掩盖矩阵相加，生成分数更新矩阵，包括：

4.根据权利要求3所述的文本分析模型的训练方法，其特征在于，所述将所述掩盖矩阵的第c行或第c列设置为掩盖位置，包括：

5.根据权利要求1所述的文本分析模型的训练方法，其特征在于，所述基于所述分数更新矩阵和所述线性矩阵进行自注意力处理，预测所述训练样本中掩盖的词单元，包括：

基于所述概率值预测所述训练样本中掩盖位置处的词单元。

6.根据权利要求1所述的文本分析模型的训练方法，其特征在于，所述基于预测结果与真实结果确定损失值，包括：

7.根据权利要求1所述的文本分析模型的训练方法，其特征在于，所述基于所述损失值对所述文本分析模型进行训练，包括：

判断所述损失值是否小于预设阈值；

若否，则获取训练样本并继续训练；

若是，则停止训练。

8.一种文本分析方法，其特征在于，包括：

获取待分析文本；

其中，所述文本分析模型是通过权利要求1-7任意一项所述的训练方法训练得到的。

9.一种文本分析模型的训练装置，其特征在于，包括：

10.一种文本分析装置，其特征在于，包括：

文本获取模块，被配置为获取待分析文本；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者8任意一项所述方法的步骤。