CN110795934A

CN110795934A - 语句分析模型的训练方法及装置、语句分析方法及装置

Info

Publication number: CN110795934A
Application number: CN201911056721.3A
Authority: CN
Inventors: 毛颖; 唐剑波; 李长亮
Original assignee: Beijing Kingsoft Software Co Ltd; Chengdu Kingsoft Interactive Entertainment Co Ltd
Current assignee: Beijing Kingsoft Software Co Ltd; Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-14
Anticipated expiration: 2039-10-31
Also published as: CN110795934B

Abstract

本申请提供语句分析模型的训练方法及装置、语句分析方法及装置，其中，所述训练方法包括：获取多个样本语句对和每一个样本语句对的语句关系标签；将样本语句对进行分词处理，生成词单元集合；将词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于首个词单元的注意力矩阵，生成第一损失值；将首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将样本语句对的语句关系与语句关系标签进行对比，确定第二损失值；基于第一损失值和第二损失值生成第三损失值，并基于第三损失值对语句分析模型进行迭代训练，直至达到训练停止条件。上述方法及装置可以提高语句分析模型的准确性。

Description

语句分析模型的训练方法及装置、语句分析方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及语句分析模型的训练方法及装置、语句分析方法及装置、计算设备及计算机可读存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然语言推理(Natural Language Inference，NLI)是许多NLP任务(如信息提取，机器翻译和问答)的基本前提条件。自然语言推理任务是给定两个句子A和B，预测句子间的关系，包括：蕴含关系，即如果文本A是真的，那么文本B一定为真；对立关系，即如果文本A是真的，那么文本B一定为假；中立关系，即上述两者都不是。

对于自然语言推理任务，通常选用双向注意力神经网络模型模型(BidirectionalEncoder Representation from Transformers，BERT)进行处理。BERT模型通过拼接前提与假设，利用注意力机制获取前提与假设之间的相互依赖关系，从而获得整个句子的表示向量，即第一个词单元‘[CLS]’的表示，最终对此表示通过线性映射与非线性变换获得前提与假设的逻辑关系的分类，即前提与假设之间的关系。但是此种方法进行推理，关注到的信息有限，信息提取深度及丰富度有待提高。

发明内容

有鉴于此，本申请实施例提供了语句分析模型的训练方法及装置、语句分析方法及装置、计算设备及计算机可读存储介质，以解决现有技术中存在的技术缺陷。

本申请实施例公开了一种语句分析模型的训练方法，包括：

获取多个样本语句对和每一个所述样本语句对的语句关系标签；

将所述样本语句对进行分词处理，生成词单元集合；

将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于所述首个词单元的注意力矩阵，生成第一损失值；

将所述首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值；

基于所述第一损失值和所述第二损失值生成第三损失值，并基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件。

进一步地，所述语句分析模型包括n个注意力层，其中，n＞1，且n为整数；

所述将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，包括：

S11、将所述词单元集合输入至第一注意力层中进行处理，获得每一个词单元第一注意力层的输出矩阵；

S12、将所述每一个词单元第一注意力层的输出矩阵输入至第二注意力层中进行处理，获得每一个词单元第二注意力层的输出矩阵；

S13、将每一个词单元第i-1注意力层的输出矩阵输入至第i注意力层中进行处理，获得每一个词单元第i注意力层的输出矩阵，其中，1＜i≤n，且i为整数；

S14、将i自增1，判断i是否大于n，若是，则执行步骤S15，若否，则执行步骤S13；

S15、将所述词单元集合中首个词单元第i注意力层的输出矩阵作为所述首个词单元的注意力矩阵。

进一步地，所述基于所述首个词单元的注意力矩阵，生成第一损失值，包括：

计算所述首个词单元的注意力矩阵的范数值，并将所述首个词单元的注意力矩阵的范数值作为第一损失值。

进一步地，所述并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值，包括：

将所述样本语句对的语句关系与所述语句关系标签进行对比，确定损失函数的损失值，并将所述损失函数的损失值作为第二损失值。

进一步地，所述基于所述第一损失值和所述第二损失值生成第三损失值，包括：

确定所述第一损失值的权重值和所述第二损失值的权重值；

基于所述第一损失值的权重值和所述第二损失值的权重值对所述第一损失值和所述第二损失值进行加权求和处理，生成第三损失值。

进一步地，所述基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件，包括：

S21、判断所述第三损失值是否处于稳定状态，若是，则执行步骤S22，若否，则执行步骤S23；

S22、基于所述第三损失值对所述语句分析模型进行更新；

S23、停止训练。

本申请还提供一种语句分析方法，包括：

获取待分析语句对；

将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系，其中，所述语句分析模型是通过上述的训练方法训练得到的。

本申请还提供一种语句分析模型的训练装置，包括：

样本获取模块，被配置为获取多个样本语句对和每一个所述样本语句对的语句关系标签；

样本分词模块，被配置为将所述样本语句对进行分词处理，生成词单元集合；

第一处理模块，被配置为将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于所述首个词单元的注意力矩阵，生成第一损失值；

第二处理模块，被配置为将所述首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值；

模型训练模块，被配置为基于所述第一损失值和所述第二损失值生成第三损失值，并基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件。

本申请还提供一种语句分析装置，包括：

获取模块，被配置为获取待分析语句对；

分析模块，被配置为将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系，其中，所述语句分析模型是通过所述语句分析模型的训练方法训练得到的。

本申请还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述语句分析模型的训练方法或语句分析方法的步骤。

本申请还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述语句分析模型的训练方法或语句分析方法的步骤。

本申请提供的语句分析模型的训练方法及装置，通过基于样本语句对词单元集合中首个词单元的注意力矩阵生成第一损失值，并通过将语句分析模型生成的语句关系与语句关系标签进行对比得到第二损失值，再将第一损失值和第二损失值进行求和得到第三损失值，基于第三损失值对语句分析模型进行更新和训练，有助于促进语句分析模型样本语句对特征信息提取的差异最大化，以提取到样本语句对中更多方面及更多层次的特征信息，提高语句特征信息提取的多样性、深度和丰富度，提高语句分析模型的分析效率及准确性。

本申请提供的语句分析方法及装置，通过将待分析语句对输入至训练好的语句分析模型中进行处理，生成待分析语句对的语句关系，在自然语言推理任务中，可以有效提高语句关系判断的效率及准确性，快速准确的得出答案。

附图说明

图1是本申请实施例的计算设备的结构示意图；

图2是本申请实施例的语句分析模型的训练方法的步骤流程示意图；

图3是本申请实施例的语句分析模型的训练方法的步骤流程示意图；

图4是本申请实施例的语句分析模型的训练方法的步骤流程示意图；

图5是本申请实施例的语句分析方法的步骤流程示意图；

图6是本申请实施例的语句分析模型的训练装置的结构示意图；

图7是本申请实施例的语句分析装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

词单元(token)：对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或字母等语言单元，这些单元被称为词单元。对于英文文本，词单元可以是一个单词、一个标点符号、一个数字等，对于中文文本，最小的词单元可以是一个词语、一个字、一个标点符号、一个数字等。

BERT模型：一种双向注意力神经网络模型。BERT模型可以通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

在本申请中，提供了语句分析模型的训练方法及装置、语句分析方法及装置、计算设备及计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的语句分析模型的训练方法的步骤流程示意图，包括步骤S210至步骤S250。

S210、获取多个样本语句对和每一个所述样本语句对的语句关系标签。

具体地，样本语句对是由两个样本语句组成的语句组合，两个样本语句分别为前提句和假设句，其中，前提句是包含有事物的先决因素的句子，假设句是基于前提句而做出的假设说明。样本语句对的语句关系标签是前提句与假设句之间的关系，包括蕴含关系、中立关系和对立关系，如果可以根据前提句毫无疑义的推出假设句，那么前提句与假设句之间为蕴含关系，其语句关系标签为“蕴含”，如果前提句与假设句之间存在矛盾，那么前提句与假设句之间为对立关系，其语句关系标签为“对立”，如果前提句与假设句之间的关系不属于上述两种情况，那么前提句与假设句之间为中立关系，其语句关系标签为“中立”，需要说明的是，语句关系标签可以为任何与“蕴含”、“对立”、“中立”具有相同意义的词，如“蕴含”的同义词“推演”、“对立”的同义词“矛盾”、“中立”的同义词“中性”等等，本申请对此不做限制。

例如，若样本语句对包括前提句“今天下雨了”和假设句“广场的地面是湿的”，从“今天下雨了”可以毫无疑义的推出“广场的地面是湿的”，所以该样本语句对的语句关系标签为“蕴含”。若样本语句对包括前提句“今天下雨了”和假设句“今天天气好晴朗”，前提句与假设句之间存在矛盾，所以该样本语句对的语句关系标签为“对立”。若样本语句对包括前提句“今天下雨了”和假设句“小鸟在歌唱”，前提句与假设句之间无必然关联，所以该样本语句对的语句关系标签为“中立”。

S220、将所述样本语句对进行分词处理，生成词单元集合。

具体地，分词处理是以词为单位将样本语句对中的每一个句子切割成若干个词单元，生成词单元集合。

例如，假设样本语句对包括前提句“今天下雨了”和假设句“广场的地面是湿的”，对该样本语句对进行分词处理，得到词单元集合[CLS、今、天、下、雨、了、SEP、广、场、的、地、面、是、湿、的、SEP]，其中，“CLS”和“SEP”为特殊标志位。

S230、将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于所述首个词单元的注意力矩阵，生成第一损失值。

进一步地，可以将所述词单元集合输入至语句分析模型的注意力单元中进行信息提取处理，获得首个词单元的注意力矩阵。

具体地，语句分析模型为BERT模型，语句分析模型中包括多个多头注意力层，以该语句分析模型包括n个注意力层为例，其中，n≥1，且n为整数。

在n＝1的情况下，将所述词单元集合输入至第一注意力层中进行处理，获得每一个词单元第一注意力层的输出矩阵，并将首个词单元的第一注意力层的输出矩阵作为首个词单元的注意力矩阵。

在n＞1的情况下，所述步骤S230包括步骤S310至步骤S350，如图3所示。

S310、将所述词单元集合输入至第一注意力层中进行处理，获得每一个词单元第一注意力层的输出矩阵。

具体地，首先将词单元集合进行词嵌入处理，生成词单元集合中每一个词单元的词向量、句向量及位置向量，再将词单元集合中每一个词单元的词向量、句向量及位置向量输入至BERT模型注意力单元的第一注意力层中进行处理，生成词单元集合中每一个词单元第一注意力层的输出矩阵。

S320、将所述每一个词单元第一注意力层的输出矩阵输入至第二注意力层中进行处理，获得每一个词单元第二注意力层的输出矩阵。

S330、将每一个词单元第i-1注意力层的输出矩阵输入至第i注意力层中进行处理，获得每一个词单元第i注意力层的输出矩阵，其中，1＜i≤n，且i为整数。

S340、将i自增1，判断i是否大于n，若是，则执行步骤S350，若否，则执行步骤S330。

S350、将所述词单元集合中首个词单元第i注意力层的输出矩阵作为所述首个词单元的注意力矩阵。

其中，首个词单元是指词单元集合中的首个词单元，即为词单元集合中的词单元“CLS”。

以n＝6为例，即注意力单元中包括6层注意力层，将词单元集合输入至第一注意力层中进行处理，生成每一个词单元第一注意力层的输出矩阵，此时i＝1，将i自增1后，i＝2，i小于6，则将上述每一个词单元第一注意力层的输出矩阵输入至第二注意力层中进行处理，生成每一个词单元第二注意力层的输出矩阵，以此类推，在i＝5时，将上述每一个词单元第四注意力层的输出矩阵输入至第五注意力层中进行处理，生成每一个词单元第五注意力层的输出矩阵，将i自增1后，i＝6，则将上述每一个词单元第五注意力层的输出矩阵输入至第六注意力层中进行处理，生成每一个词单元第六注意力层的输出矩阵，将i自增1后，i＝7，大于6，则将词单元集合中的首个词单元“CLS”的第六注意力层的输出矩阵作为首个词单元的注意力矩阵。

具体地，可以计算所述首个词单元的注意力矩阵的范数值，并将所述首个词单元的注意力矩阵的范数值作为第一损失值。计算首个词单元的注意力矩阵的范数值的公式如式(1)所示。

P＝||AA^T-I||_F ² (1)

其中，P表示首个词单元的注意力矩阵的范数值，A表示所述首个词单元的注意力矩阵，I表示单位矩阵，AA^T表示每个矩阵元素平方的加和。计算首个词单元注意力矩阵的范数值，并将范数值作为第一损失值，在后续的训练过程中对第一损失值进行最小化处理，一方面可以促使矩阵A中每一行的值集中于一个词单元上，即关注到每一行中具有关键信息的一个词单元，另一方面可以促使矩阵A中不同行的同一个词单元的元素的乘积趋近于0，即不同行关注到不同的词单元，以提高特征信息提取的多样性、深度和丰富度，第一损失值的最小化，通过促使矩阵A的每一行呈现不同的趋势，可以增加模型的泛化能力。

S240、将所述首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值。

具体地，可以将所述样本语句对的语句关系与所述语句关系标签进行对比，并通过损失函数计算损失值，将所述通过损失函数计算得到的损失值作为第二损失值。

在实际应用中，损失函数可以为如分类交叉熵、最大熵函数等，本申请对此不做限制。

例如，假设样本语句对的语句关系为“蕴含”，语句关系标签为“对立”，将上述样本语句对的语句关系“蕴含”和语句关系标签“对立”进行最大熵函数的计算，得到损失值为0.99，则0.99即为第二损失值。

通过损失函数计算第二损失值，可以在训练过程中明确模型分析得出的答案与标准答案之间的差异，并根据差异调整模型以提高模型的准确率。

S250、基于所述第一损失值和所述第二损失值生成第三损失值，并基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件。

具体地，可以确定所述第一损失值的权重值和所述第二损失值的权重值；基于所述第一损失值的权重值和所述第二损失值的权重值对所述第一损失值和所述第二损失值进行加权求和处理，生成第三损失值。

需要说明的是，第一损失值的权重值和第二损失值的权重值可以通过训练得到。

例如，假设第一损失值为a1，通过训练得到上述第一损失值的权重值为b1，第二损失值为a2，通过训练得到上述第二损失值的权重值为b2，则第三损失值a3＝a1×b1+a2×b2。

将第一损失值和第二损失值进行加权求和得到第三损失值来对语句分析模型进行调整和更新，可以兼顾样本语句对特征信息提取的差异性和完整性，提高模型训练的效率。

进一步地，步骤S250还包括步骤S410至步骤S430，如图4所示。

S410、判断所述第三损失值是否处于稳定状态，若是，则执行步骤S420，若否，则执行步骤S430。

S420、基于所述第三损失值对所述语句分析模型进行更新。

S430、停止训练。

具体地，判断第三损失值是否处于稳定状态的条件可以为判断第三损失值是否趋于稳定，若第三损失值的波动仍然较大，则基于上述第三损失值对语句分析模型进行更新，若第三损失值已趋于稳定，则停止训练。

更进一步地，可以将当前次训练得到的第三损失值与上一次训练得到的第三损失值相比，若当前次训练得到的第三损失值与上一次训练得到的第三损失值之间的差值大于预设差值，则基于当前次训练得到的第三损失值对语句分析模型进行更新，若当前次训练得到的第三损失值与上一次训练得到的第三损失值之间的差值小于预设差值，则停止训练。

例如，假设将包括有多个样本语句对和样本语句关系标签的样本集合输入至语句分析模型中进行训练，预先设置在相邻两次训练得到的第三损失值之间的差值小于0.1的情况下，停止训练。将样本集合输入至语句分析模型中后，第一次训练得到的第三损失值为0.60，第二次训练得到的损失值为0.40，与第一次训练得到的第三损失值之间的差值为0.20，大于0.10，继续训练，第三次训练得到的第三损失值为0.30，与第二次训练得到的第三损失值之间的差值为0.10，继续训练，第四次训练得到的第三损失值为0.25，与第三次训练得到的第三损失值之间的差值为0.05，小于0.10，停止训练。

下面结合具体的例子对本实施例做进一步说明。

获取多个样本语句对和每一个所述样本语句对的语句关系标签，在此以其中的样本语句对A和样本语句对B以及其相对应的样本语句关系标签为例进行说明，假设样本语句对A包括前提句“小明的哥哥在北京上学”和假设句“小明有哥哥”，且样本语句关系标签为“蕴含”，样本语句对B包括前提句“小红今年15岁”和假设句“小红已经成年了”，且样本语句关系标签为“对立”。

将样本语句对A进行分词处理，生成词单元集合A[CLS、小、明、的、哥、哥、在、北、京、上、学、SEP、小、明、有、哥、哥、SEP]，将样本语句对B进行分词处理，生成词单元集合B[CLS、小、红、今、年、15、岁、SEP、小、红、已、经、成、年、了、SEP]。

将上述词单元集合A和词单元集合B输入至语句分析模型中进行逐层处理，其中，语句分析模型包括第一注意力层至第十二注意力层在内的12层注意力层，取词单元集合A中的首个词单元“CLS”的第十二注意力层的输出矩阵作为样本语句对A的注意力矩阵，经过计算得到其范数值P1为0.3，并将P1作为样本语句对A的第一损失值；取词单元集合B中的首个词单元“CLS”的第十二注意力层的输出矩阵作为样本语句对B的注意力矩阵，经过计算得到其范数值P2为0.4，并将其范数值P2作为样本语句对B的第一损失值。

将样本语句对A的注意力矩阵进行处理，生成样本语句对A的语句关系标签“蕴含”，将样本语句对A的语句关系标签与样本语句关系标签进行对比，计算损失函数的损失值为0.01，即样本语句对A的第二损失值为0.01。将样本语句对B的注意力矩阵进行处理，生成样本语句对B的语句关系标签“中立”，将样本语句对B的语句关系标签与样本语句关系标签进行对比，计算损失函数的损失值为0.85，即样本语句对B的第二损失值为0.85。

分别为样本语句对A及样本语句对B的第一损失值和第二损失值配置权重值0.4和0.6，计算样本语句对A的第三损失值为0.3×0.4+0.01×0.6＝0.126，计算样本语句对B的第三损失值为0.4×0.4+0.85×0.6＝0.67。

将样本语句对A及样本语句对B的第三损失值分别与各自相邻次训练得到的第三损失值进行对比，判断是否继续训练和更新。

本实施例所述的语句分析模型的训练方法，通过基于样本语句对词单元集合中首个词单元的注意力矩阵生成第一损失值，并通过将语句分析模型生成的语句关系与语句关系标签进行对比得到第二损失值，再将第一损失值和第二损失值进行求和得到第三损失值，基于第三损失值对语句分析模型进行更新和训练，有助于信息提取的差异最大化，以提取到样本语句对中多方面及多层次的特征信息，提高语句分析模型的效率及准确性。

如图5所示，本申请实施例公开了一种语句分析方法，包括步骤S510至步骤S520。

S510、获取待分析语句对。

S520、将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系。

其中，所述语句分析模型是通过上述实施例的训练方法训练得到的。

例如，假设获取到的待分析语句对包括前提句“成都市是四川省的省会”和假设句“成都市位于中国西南地区”，将上述待分析语句对输入至语句分析模型中进行处理，即得到上述待分析语句对的语句关系为蕴含关系。

本实施例所述的语句分析方法，通过将待分析语句对输入至训练好的语句分析模型中进行处理，生成待分析语句对的语句关系，可以有效提高语句关系判断的效率及准确性，快速准确的得出答案。

如图6所示，本申请实施例公开了一种语句分析模型的训练装置，包括：

样本获取模块610，被配置为获取多个样本语句对和每一个所述样本语句对的语句关系标签。

样本分词模块620，被配置为将所述样本语句对进行分词处理，生成词单元集合。

第一处理模块630，被配置为将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于所述首个词单元的注意力矩阵，生成第一损失值。

第二处理模块640，被配置为将所述首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值。

模型训练模块650，被配置为基于所述第一损失值和所述第二损失值生成第三损失值，并基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件。

可选地，所述第一处理模块630，进一步地被配置为：

将所述词单元集合输入至语句分析模型的注意力单元中进行信息提取处理，获得首个词单元的注意力矩阵。

可选地，所述注意力单元包括n个注意力层，其中，n≥1，且n为整数；所述第一处理模块630，更进一步地被配置为：

第一子处理模块，被配置为将所述词单元集合输入至第一注意力层中进行处理，获得每一个词单元第一注意力层的输出矩阵。

第二子处理模块，被配置为将所述每一个词单元第一注意力层的输出矩阵输入至第二注意力层中进行处理，获得每一个词单元第二注意力层的输出矩。

第i子处理模块，被配置为将每一个词单元第i-1注意力层的输出矩阵输入至第i注意力层中进行处理，获得每一个词单元第i注意力层的输出矩阵，其中，1≤i≤n，且i为整数。

自增模块，被配置为将i自增1，判断i是否大于n，若是，则执行输出模块，若否，则执行第i子处理模块。

输出模块，被配置为将所述词单元集合中首个词单元第i注意力层的输出矩阵作为所述首个词单元的注意力矩阵。

可选地，所述第一处理模块630，进一步地被配置为：

可选地，所述第二处理模块640，进一步地被配置为：

可选地，所述模型训练模块650，进一步地被配置为：

分别为所述第一损失值和所述第二损失值配置权重值。

可选地，所述模型训练模块650，进一步地被配置为：

判断模块，被配置为判断所述第三损失值是否处于稳定状态，若是，则执行更新模块，若否，则执行停止模块。

更新模块，被配置为基于所述第三损失值对所述语句分析模型进行更新。

停止模块，被配置为停止训练。

本实施例所述的语句分析模型的训练装置，通过基于样本语句对词单元集合中首个词单元的注意力矩阵生成第一损失值，并通过将语句分析模型生成的语句关系与语句关系标签进行对比得到第二损失值，再将第一损失值和第二损失值进行求和得到第三损失值，基于第三损失值对语句分析模型进行更新和训练，有助于信息提取的差异最大化，以提取到样本语句对中多方面及多层次的特征信息，提高语句分析模型的效率及准确性。

如图7所示，本申请实施例公开了一种语句分析装置，包括：

获取模块710，被配置为获取待分析语句对。

分析模块720，被配置为将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系，其中，所述语句分析模型是通过上述实施例的训练方法训练得到的。

本实施例所述的语句分析装置，通过将待分析语句对输入至训练好的语句分析模型中进行处理，生成待分析语句对的语句关系，可以有效提高语句关系判断的效率及准确性，快速准确的得出答案。

本申请一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现以下步骤：

获取多个样本语句对和每一个所述样本语句对的语句关系标签。

将所述样本语句对进行分词处理，生成词单元集合。

将所述词单元集合输入至语句分析模型中进行处理，获得首个词单元的注意力矩阵，并基于所述首个词单元的注意力矩阵，生成第一损失值。

将所述首个词单元的注意力矩阵进行处理，确定样本语句对的语句关系，并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述语句分析模型的训练方法或语句分析方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的语句分析模型的训练方法或语句分析方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述语句分析模型的训练方法或语句分析方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语句分析模型的训练方法，其特征在于，包括：

将所述样本语句对进行分词处理，生成词单元集合；

2.根据权利要求1所述的语句分析模型的训练方法，其特征在于，所述语句分析模型包括n个注意力层，其中，n＞1，且n为整数；

3.根据权利要求1所述的语句分析模型的训练方法，其特征在于，所述基于所述首个词单元的注意力矩阵，生成第一损失值，包括：

4.根据权利要求1所述的语句分析模型的训练方法，其特征在于，所述并将所述样本语句对的语句关系与所述语句关系标签进行对比，确定第二损失值，包括：

5.根据权利要求1所述的语句分析模型的训练方法，其特征在于，所述基于所述第一损失值和所述第二损失值生成第三损失值，包括：

确定所述第一损失值的权重值和所述第二损失值的权重值；

6.根据权利要求1所述的语句分析模型的训练方法，其特征在于，所述基于所述第三损失值对所述语句分析模型进行迭代训练，直至达到训练停止条件，包括：

S22、基于所述第三损失值对所述语句分析模型进行更新；

S23、停止训练。

7.一种语句分析方法，其特征在于，包括：

获取待分析语句对；

将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系，其中，所述语句分析模型是通过权利要求1-6任意一项所述的训练方法训练得到的。

8.一种语句分析模型的训练装置，其特征在于，包括：

9.一种语句分析装置，其特征在于，包括：

获取模块，被配置为获取待分析语句对；

分析模块，被配置为将所述待分析语句对输入至语句分析模型中进行处理，生成所述待分析语句对的语句关系，其中，所述语句分析模型是通过权利要求1-6任意一项所述的训练方法训练得到的。

10.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7任意一项所述方法的步骤。

11.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7任意一项所述方法的步骤。