CN110188202B

CN110188202B - 语义关系识别模型的训练方法、装置及终端

Info

Publication number: CN110188202B
Application number: CN201910493678.0A
Authority: CN
Inventors: 高参; 何伯磊; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2021-07-20
Anticipated expiration: 2039-06-06
Also published as: CN110188202A

Abstract

本发明实施例提出一种语义关系识别模型的训练方法、装置以及终端，方法包括：将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，样本数据集包括多个样本语义单元；获取多个特征词，并将多个特征词进行拼接，得到拼接特征词的表示信息；将样本句子的表示信息和拼接特征词的表示信息输入至初始分类器中，输出样本语义单元之间的语义关系类别；调整初始预训练模型以及初始分类器，得到新预训练模型和新分类器；根据新预训练模型和新分类器建立语义关系识别模型。使用特征词作为篇章关系中的强特征，能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时，缩短了预测时间，提高了预测效率。

Description

语义关系识别模型的训练方法、装置及终端

技术领域

本发明涉及机器学习技术领域，尤其涉及一种语义关系识别模型的训练方法、装置及终端。

背景技术

篇章语义关系识别是自然语言处理的一个基本任务，它通常是指识别自然语言中基本语义单元(EDU,Elementary discourse unit)间的语义关系。被广泛应用在阅读理解系统、情感分析系统、对话问答系统中。对于一个篇章级的文档中，基本语义单元之间的可能会出现多类别的语义关系。例如，常见的语义关系类别有扩展关系(对一个事物或者实体进行细化或泛化的介绍描述)、因果关系(具有因果表示的文档，可以是先因后果、也可以是先果后因)、转折关系(具有语义上的转折或者话题间的转换关系)、并列关系(基本语义单元间具有平等关系，可以是平行的关系、相容的关系、互斥的关系)等。

篇章语义关系识别中，如果出现了能够表明语义关系的词语或者词组叫做关联词，比如“因为…所以…”、“尽管…”、“并且”、“但是”，叫做显式关系识别任务。没有出现关联词，则叫做隐式关系识别任务。前者的识别效果远好于后者的识别效果。当前，隐式关系识别任务主要是对具有语义关系的两个EDU分别建模，然后再交互建模，最后计算语义关系的所属类别。例如，利用词组“口味还可以”和另一词组“分量也足”分别建模，之后，利用两个词组之间的语义关系进行交互建模，输出语义关系的类别。

由于有监督训练语料较少，使得当前的表示方法对文本及文本间语义关系的表达能力受限，不能够很好的表达文本间的关系。当前的模型，主要是依赖篇章数据集对模型进行训练，没有利用外部大规模数据集知识对模型表示进行增强。导致对语义关系的识别并不准确。

发明内容

本发明实施例提供一种语义关系识别模型的训练方法、装置及终端，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种语义关系识别模型的方法，包括：

将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，所述样本数据集包括多个样本语义单元；

获取多个特征词，并将多个特征词进行拼接，得到拼接特征词的表示信息；

将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别；

调整所述初始预训练模型以及所述初始分类器，得到新预训练模型和新分类器；

根据所述新预训练模型和所述新分类器建立语义关系识别模型。

在一种实施方式中，所述样本数据集包括篇章数据集，将样本数据集输入至初始预训练模型中，得到样本句子的表示信息，包括：

将篇章数据集输入至深度双向预训练模型中，得到篇章句子向量；

根据第一函数系数和所述篇章句子向量进行线性整流处理，得到篇章句子的表示信息。

在一种实施方式中，所述样本数据集还包括情感数据集，将样本数据集输入至初始预训练模型中，得到样本句子的表示信息，包括：

将情感数据集输入至所述深度双向预训练模型中，得到情感句子向量；

根据第二函数系数和所述情感句子向量进行线性整流处理，得到情感句子的表示信息。

在一种实施方式中，将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别，包括：

将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第一拼接信息；

根据第三函数系数和所述第一拼接信息进行归一化指数处理，得到多个语义关系类别的第一概率分布；

对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算，得到第一语义关系类别。

将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第二拼接信息；

根据第四函数系数和所述第二拼接信息进行归一化指数处理，得到多个语义关系类别的第二概率分布；

对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算，得到第二语义关系类别。

在一种实施方式中，调整所述初始预训练模型以及所述初始分类器，得到新预训练模型和新分类器，包括：

调整所述初始预训练模型的模型参数，以及所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数，得到所述新预训练模型和所述新分类器。

第二方面，本发明实施例提供了一种语义关系识别模型的训练装置，包括：

样本句子的表示信息获取模块，用于将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，所述样本数据集包括多个样本语义单元；

特征词拼接模块，用于获取多个特征词，并将多个特征词进行拼接，得到拼接特征词的表示信息；

语义关系类别分析模块，用于将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别；

模型调整模块，用于调整所述初始预训练模型以及所述初始分类器，得到新预训练模型和新分类器；

语义关系识别模型建立模块，用于根据所述新预训练模型和所述新分类器建立语义关系识别模型。

在一种实施方式中，所述样本数据集包括篇章数据集，所述样本句子的表示信息获取模块包括：

篇章句子向量获取单元，用于将篇章数据集输入至深度双向预训练模型中，得到篇章句子向量；

篇章句子的表示信息获取单元，用于根据第一函数系数和所述篇章句子向量进行线性整流处理，得到篇章句子的表示信息。

在一种实施方式中，所述样本数据集还包括情感数据集，所述样本句子的表示信息获取模块还包括：

情感句子向量获取单元，用于将情感数据集输入至所述深度双向预训练模型中，得到情感句子向量；

情感句子的表示信息获取单元，用于根据第二函数系数和所述情感句子向量进行线性整流处理，得到情感句子的表示信息。

在一种实施方式中，所述语义关系类别分析模块包括：

第一拼接信息获取单元，用于将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第一拼接信息；

第一概率分布计算单元，用于根据第三函数系数和所述第一拼接信息进行归一化指数处理，得到多个语义关系类别的第一概率分布；

第一语义关系类别分析单元，用于对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算，得到第一语义关系类别。

在一种实施方式中，所述语义关系类别分析模块还包括：

第二拼接信息获取单元，用于将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第二拼接信息；

第二概率分布计算单元，用于根据第四函数系数和所述第二拼接信息进行归一化指数处理，得到多个语义关系类别的第二概率分布；

第二语义关系类别分析单元，用于对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算，得到第二语义关系类别。

在一种实施方式中，所述模型调整模块包括：

模型参数调整单元，用于调整所述初始预训练模型的模型参数；

函数系数调整单元，用于调整所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数，得到所述新预训练模型和所述新分类器。

第三方面，本发明实施例提供了一种语义关系识别模型的训练终端，所述语义关系识别模型的训练终端的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述语义关系识别模型的训练终端的结构中包括处理器和存储器，所述存储器用于存储支持所述语义关系识别模型的训练终端执行上述语义关系识别模型的训练方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述语义关系识别模型的训练终端还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储语义关系识别模型的训练终端所用的计算机软件指令，其包括用于执行上述语义关系识别模型的训练方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：使用特征词作为篇章关系中的强特征，能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时，待预测的语义句子只需要通过预训练模型和分类器之后，就能够输出结果，缩短了预测时间，提高了预测效率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的一种语义关系识别模型的训练方法的流程图。

图2示出根据本发明实施例的另一种语义关系识别模型的训练方法的流程图。

图3示出根据本发明实施例的情感分析任务和篇章关系任务共同学习的多任务学习过程。

图4示出根据本发明实施例的一种语义关系识别模型的训练装置的结构框图。

图5示出根据本发明实施例的另一种语义关系识别模型的训练装置的结构框图。

图6示出根据本发明实施例的一种语义关系识别模型的训练终端的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

实施例一

在一种具体实施方式中，提供了一种语义关系识别模型的训练方法，如图1所示，包括：

步骤S10：将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，样本数据集包括多个样本语义单元；

在一种示例中，样本数据集包括多个样本语义单元，样本语义单元可以是作为训练数据的基本语义单元。样本语义单元可以是词汇或者字，例如，“口味”、“不错”、“难吃”等。多个样本语义单元可以组成各种样本语义句子，例如，“口味还可以，分量也足！”、“但是环境一般，是团购去的比较值，朋友们也可以去”等。预训练模型是在大量数据集上训练好的模型。预训练模型可以迁移到特定任务上使用。例如，预训练模型可以是ELMo(深度语境化词表征)、GPT/GPT2(Generative Pre-Training，生成性预训练)、BERT(BidirectionalEncoder Representations from Transformers，深度双向预训练)等模型。

可以将样本语义单元构成的多个样本语义句子，输入至初始预训练模型中，输出样本句子的表示信息，即样本语义句子在向量空间的表示信息。

步骤S20：获取多个特征词，并将多个特征词进行拼接，得到拼接特征词的表示信息。

在一种示例中，特征词可以包括从样本语义句子中提取的情感词、否定词、反讽词等特征词。有些特征词具有明显的情感倾向，对篇章关系具有较大的影响。

例如，样本语义句子“口味还可以，分量也足！但是环境一般，是团购去的比较值，朋友们也可以去”中，特征词包括“可以”、“足”、“值”与“一般”。这些特征词构成了明显的情感倾向冲突，与篇章关系中的“转折关系”具有一定相关性。可以将多个特征词向量进行拼接操作，得到拼接特征词的表示信息，即多个特征词向量拼接后得到的向量。

步骤S30：将样本句子的表示信息和拼接特征词的表示信息输入至初始分类器中，输出样本语义单元之间的语义关系类别。

在一种示例中，分类器中可对样本句子的表示信息和拼接特征词的表示信息进行交叉熵运算等。样本语义单元之间的语义关系类别可以包括扩展关系、因果关系、转折关系、平行的关系、相容的关系、互斥的关系等。

步骤S40：调整初始预训练模型以及初始分类器，得到新预训练模型和新分类器。

步骤S50：根据新预训练模型和新分类器建立语义关系识别模型。

在一种示例中，利用大量的样本数据集进行训练，不断更新初始预训练模型的结构或参数，初始分类器中的参数，直到找到最合适结构或参数为止。通过最后找到的最合适的参数建立新预训练模型和新分类器，构成语义关系识别模型。

本实施方式提供的一种语义关系识别模型的训练方法，使用特征词作为篇章关系中的强特征，能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时，待预测的语义句子只需要通过预训练模型和分类器之后，就能够输出结果，缩短了预测时间，提高了预测效率。

在一种实施方式中，所述样本数据集包括篇章数据集，如图2所示，步骤S10包括：

步骤S110：将篇章数据集输入至深度双向预训练模型中，得到篇章句子向量；

步骤S111：根据第一函数系数和篇章句子向量进行线性整流处理，得到篇章句子的表示信息。

在一种示例中，利用篇章数据集执行篇章语义关系识别任务，将篇章数据集输入至BERT模型中，输出篇章句子向量，可以将篇章句子向量经过Relu(线性整流)激活函数，进行线性整流处理，得到的篇章句子的表示信息显示特征更加高阶，更实用在篇章分析的特定任务上。

在一种实施方式中，所述样本数据集还包括情感数据集，如图2所示，步骤S10，还包括：

步骤S120：将情感数据集输入至深度双向预训练模型中，得到情感句子向量；

步骤S121：根据第二函数系数和情感句子向量进行线性整流处理，得到情感句子的表示信息。

在一种示例中，过程与上述实施方式的过程相同，在此不再赘述。

需要指出的是，篇章数据集输入深度双向预训练模型，再进行线性整流处理得到篇章句子的表示信息，与情感数据集输入深度双向预训练模型，再进行线性整流处理得到情感句子的表示信息，这两个过程不分先后顺序。第一函数系数和第二函数系数均是利用Relu激活函数进行计算时的系数。

在一种实施方式中，如图2所示，步骤S30，包括：

步骤S310：将篇章句子的表示信息和拼接特征词的表示信息进行拼接，得到第一拼接信息；

步骤S311：根据第三函数系数和第一拼接信息进行归一化指数处理，得到多个语义关系类别的第一概率分布；

步骤S312：对第一概率分布和对篇章数据集进行独热编码的概率分布进行交叉熵运算，得到第一语义关系类别。

在一种示例中，将第一拼接信息输入至Softmax函数，输出语义关系类别的第一概率分布。例如，篇章数据集进行归一化指数处理后，得到的转折语义关系的概率为0.3，并列语义关系的概率为0.1，因果语义关系的概率为0.8等形成的第一概率分布。另一个概率分布是篇章数据集进行独热编码的概率分布，一般是对标签y(语义关系类别)进行独热(one-hot)编码得到的，这个one-hot编码本质上就是一个标签集合(语义关系类别集合)上的分布。例如，对于所有的训练语料标签集合为{y1,y2,y3,y4}，y1,y2,y3,y4表示四种各不相同的语义关系类别。给定一个输入样本<X，y3>，X表示输入的基本语义单元构成的句子，输入样本<X，y3>的one-hot编码就是[0,0,1,0]。

在一种实施方式中，如图2所示，步骤S30，还包括：

步骤S320：将情感句子的表示信息和拼接特征词的表示信息进行拼接，得到第二拼接信息；

步骤S321：根据第四函数系数和第二拼接信息进行归一化指数处理，得到多个语义关系类别的第二概率分布；

步骤S322：对第二概率分布和对情感数据集进行独热编码的概率分布进行交叉熵运算，得到第二语义关系类别。

需要指出的是，第三函数系数和第四函数系数均是Softmax函数(称归一化指数函数)中的系数。

在一种实施方式中，步骤S40包括：

步骤S401：调整初始预训练模型的模型参数，以及第一函数系数、第二函数系数、第三函数系数以及第四函数系数，得到新预训练模型和新分类器。

本实施方式提出的一种语义关系识别模型的训练方法，是利用了迁移学习进行模型训练，迁移学习可以是在同一个模型中对多个不同的任务进行学习，在训练时保持一部分模型参数(BERT模型)共享，另一部分参数(第一函数系数、第二函数系数、第三函数系数、第四函数系数)独立。由于情感数据集的训练样本不仅语料较多而且容易获取，丰富了训练语料，增强了对特征词的学习。利用篇章数据集的训练样本来训练BERT模型能够强化文本的表示。通过篇章数据集和情感数据集的交替训练，共享相同的BERT模型参数，提高了情感分析和篇章分析两个任务的分类效果。对语义关系的类别进行预测时，准确度更高，速度更快。

实施例二

在一种具体实施方式中，情感分析任务和篇章关系任务共同学习的多任务学习过程如图3所示。

将篇章数据集切分为arg1和arg2。arg1和arg2表示两个EDU句子，并将其输入到在大规模无监督数据上学习的BERT网络。在输入层，arg1_1…arg1_i…arg1_n为输入arg1的表示词向量，arg2_1…arg2_i…arg2_n为输入arg2的表示词向量。sep为用于断句的特殊字符，例如，空格、逗号、句号等。cls(classification)为分类作用的特征字符。

arg1_1…arg1_i…arg1_n以及arg2_1…arg2_i…arg2_n经过多层变换网络模型(transformer模型)，在输出层，得到arg1_1…arg1_i…arg1_n为输出arg1的表示词向量，arg2_1…arg2_i…arg2_n为输出arg2的表示词向量。rep2为篇章句子的表示信息。connevtive_1…connevtive_i…connevtive_n表示arg1和arg2中具有的情感词、否定词、反讽词等特征词。w_rep为拼接特征词的表示信息。label2为rep2和w_rep拼接在一起通过交叉熵的分类结果。将情感数据集切分为arg1和arg2，经过BERT模型之后，得到的rep1为情感句子的表示信息。label1为rep1与w_rep与rep2拼接在一起通过交叉熵的分类结果。

计算过程：在篇章训练时，X_d＝(arg_d1；arg_d2；connectives_d)，X_d表示篇章分析的输入，包括篇章数据集切分的arg_d1，arg_d2两个EDU句子，以及拼接特征词的表示信息connectives_d。其中，arg_d1＝[w_d11；w_d12；……w_d1n]，arg_d2＝[w_d21；w_d22；……w_d2m]，w_d11；w_d12；……w_d1n，w_d21；w_d22；……w_d2m为作为篇章训练的基本语义单元。connetives_d＝[c_d1；c_d2；:::；c_dl]为特征词向量，c_d1；c_d2；:::；c_dl为多个特征词。T_d＝BERT(arg_d1；arg_d2；θ)T_d表示篇章数据集切分的arg_d1，arg_d2两个EDU句子输入至BERT模型，输出的篇章句子向量，θ为BERT模型的模型参数。rep2＝Relu(W₁；T_d)，W₁为Relu激活函数的第一函数系数。根据第一函数系数和篇章句子向量进行线性整流处理，得到篇章句子的表示信息rep2。w_rep＝BOW(connetives_d)，其中，BOW模型(Bag-of-words model)为词袋模型，w_rep为拼接特征词的表示信息。rep_d＝Concat(rep2；w_rep)Concat表示拼接操作，将所述篇章句子的表示信息rep2和所述拼接特征词的表示信息w_rep进行拼接，得到第一拼接信息rep_d。P(

|X_d；W₁；W₃)＝Softmax(W₃·rep_d)，其中，W₃为第三函数系数，根据第三函数系数W₃和第一拼接信息rep_d进行归一化指数函数Softmax的处理，得到多个语义关系类别的第一概率分布。y表示输入的标签，即独热编码的概率分布，

表示模型预测标签，即第一概率分布。Loss₁＝CE

，CE表示Cross Entropy(交叉熵)损失函数。

在情感训练时，X_s＝(arg_s1；arg_s2；connectives_s)，X_d表示情感分析的输入，包括情感数据集切分的arg_s1，arg_s2两个EDU句子，以及拼接特征词的表示信息connectives_s。其中，arg_s1＝[w_s11；w_s12；……w_s1n]，arg_d2＝[w_s21；w_s22；……w_s2m]，w_s11；w_s12；……w_s1n，w_s21；w_s22；……w_s2m为作为情感训练的基本语义单元。

connetives_s＝[c_s1；c_s2；……c_sl]为特征词向量，c_s1；c_s2；……c_sl为多个特征词。T_s＝BERT(arg_s1；arg_s2；θ)T_d表示情感数据集切分的arg_s1，arg_s2两个EDU句子输入至BERT模型，输出的情感句子向量，θ为BERT模型的模型参数。rep2＝Relu(W₁；T_s)，W₂为Relu激活函数的第一函数系数。根据第二函数系数和情感句子向量进行线性整流处理，得到情感句子的表示信息rep2。

w_rep＝BOW(connetives_s)，BOW模型(Bag-of-words model)为词袋模型，w_rep为拼接特征词的表示信息。rep_s＝Concat(rep2；w_rep)Concat表示拼接操作，将所述情感句子的表示信息rep2和所述拼接特征词的表示信息w_rep进行拼接，得到第一拼接信息rep_s。P(

|X_s；W₂；W₄)＝Softmax(W₄·rep_s),W₄为第四函数系数，根据第四函数系数W₄和第一拼接信息rep_s进行归一化指数函数Softmax的处理，得到多个语义关系类别的第一概率分布。y表示输入标签，即独热编码的概率分布，

表示模型预测标签，即第一概率分布，Loss₂＝CE

，CE表示Cross Entropy(交叉熵)损失函数。

最后，经过多轮训练，调整BERT模型的模型参数θ，第一函数系数W₁、第二函数系数W₂、第三函数系数W₃以及第四函数系数W₄。

实施例三

在另一种具体实施方式中，提供了一种语义关系识别模型的训练装置，如图4所示，包括：

样本句子的表示信息获取模块10，用于将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，所述样本数据集包括多个样本语义单元；

特征词拼接模块20，用于获取多个特征词，并将多个特征词进行拼接，得到拼接特征词的表示信息；

语义关系类别分析模块30，用于将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别；

模型调整模块40，用于调整所述初始预训练模型以及所述初始分类器，得到新预训练模型和新分类器；

语义关系识别模型建立模块50，用于根据所述新预训练模型和所述新分类器建立语义关系识别模型。

在一种实施方式中，所述样本数据集包括篇章数据集，如图5所示，所述样本句子的表示信息获取模块10包括：

篇章句子向量获取单元101，用于将篇章数据集输入至深度双向预训练模型中，得到篇章句子向量；

篇章句子的表示信息获取单元102，用于根据第一函数系数和所述篇章句子向量进行线性整流处理，得到篇章句子的表示信息。

在一种实施方式中，所述样本数据集还包括情感数据集，如图5所示，所述样本句子的表示信息获取模块10还包括：

情感句子向量获取单元103，用于将情感数据集输入至所述深度双向预训练模型中，得到情感句子向量；

情感句子的表示信息获取单元104，用于根据第二函数系数和所述情感句子向量进行线性整流处理，得到情感句子的表示信息。

在一种实施方式中，如图5所示，所述语义关系类别分析模块30包括：

第一拼接信息获取单元301，用于将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第一拼接信息；

第一概率分布计算单元302，用于根据第三函数系数和所述第一拼接信息进行归一化指数处理，得到多个语义关系类别的第一概率分布；

第一语义关系类别分析单元303，用于对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算，得到第一语义关系类别。

在一种实施方式中，所述语义关系类别分析模块30还包括：

第二拼接信息获取单元304，用于将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接，得到第二拼接信息；

第二概率分布计算单元305，用于根据第四函数系数和所述第二拼接信息进行归一化指数处理，得到多个语义关系类别的第二概率分布；

第二语义关系类别分析单元306，用于对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算，得到第二语义关系类别。

在一种实施方式中，如图5所示，所述模型调整模块40包括：

模型参数调整单元401，用于调整所述初始预训练模型的模型参数；

函数系数调整单元402，用于调整所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数，得到所述新预训练模型和所述新分类器。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

实施例四

图6示出根据本发明实施例的语义关系识别模型的训练终端的结构框图。如图6所示，该终端包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的语义关系识别模型的训练方法。所述存储器910和处理器920的数量可以为一个或多个。

该终端还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语义关系识别模型的训练方法，其特征在于，包括：

将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，所述样本数据集包括多个样本语义单元；所述样本数据集包括篇章数据集和情感数据集，所述样本句子的表示信息包括到篇章句子的表示信息和情感句子的表示信息；

根据所述新预训练模型和所述新分类器建立语义关系识别模型；

所述样本数据集包括篇章数据集，将样本数据集输入至初始预训练模型中，得到样本句子的表示信息，包括：

根据第一函数系数和所述篇章句子向量进行线性整流处理，得到篇章句子的表示信息；

所述样本数据集还包括情感数据集，将样本数据集输入至初始预训练模型中，得到样本句子的表示信息，包括：

2.根据权利要求1所述的方法，其特征在于，将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别，包括：

3.根据权利要求2所述的方法，其特征在于，将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中，输出所述样本语义单元之间的语义关系类别，包括：

4.根据权利要求3所述的方法，其特征在于，调整所述初始预训练模型以及所述初始分类器，得到新预训练模型和新分类器，包括：

5.一种语义关系识别模型的训练装置，其特征在于，包括：

样本句子的表示信息获取模块，用于将样本数据集输入至初始预训练模型中，输出样本句子的表示信息，所述样本数据集包括多个样本语义单元；所述样本数据集包括篇章数据集和情感数据集，所述样本句子的表示信息包括到篇章句子的表示信息和情感句子的表示信息；

语义关系识别模型建立模块，用于根据所述新预训练模型和所述新分类器建立语义关系识别模型；

所述样本数据集包括篇章数据集，所述样本句子的表示信息获取模块包括：

篇章句子的表示信息获取单元，用于根据第一函数系数和所述篇章句子向量进行线性整流处理，得到篇章句子的表示信息；

所述样本数据集还包括情感数据集，所述样本句子的表示信息获取模块包括：

6.根据权利要求5所述的装置，其特征在于，所述语义关系类别分析模块包括：

7.根据权利要求6所述的装置，其特征在于，所述语义关系类别分析模块还包括：

8.根据权利要求7所述的装置，其特征在于，所述模型调整模块包括：

9.一种语义关系识别模型的训练终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述方法。