CN111143564A

CN111143564A - 无监督的多目标篇章级情感分类模型训练方法和装置

Info

Publication number: CN111143564A
Application number: CN201911382926.0A
Authority: CN
Inventors: 刘昊; 何伯磊; 肖欣延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12
Anticipated expiration: 2039-12-27
Also published as: CN111143564B

Abstract

本申请公开了无监督的多目标篇章级情感分类模型训练方法和装置，涉及NLP领域，方法包括：利用预设的编码器确定训练样本集中每个篇章样本对应的隐状态向量，每个篇章样本具有对应的标注情感概率分布；根据每个篇章样本中的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个待评价目标对应的注意力值；利用预设的解码器，对每个篇章样本对应的隐状态向量及注意力值进行解码处理，确定每个待评价目标的情感概率分布，并依此确定每个篇章样本的预测情感概率分布；根据每个篇章样本的预测情感概率分布与标注情感概率分布的差异，对预设的编码器、各预设的权重矩阵及预设的解码器进行更新。基于篇章级的情感标注数据训练模型，成本低，实用性高。

Description

无监督的多目标篇章级情感分类模型训练方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及自然语言处理(Natural LanguageProcessing，NLP)技术领域，尤其涉及一种无监督的多目标篇章级情感分类模型训练方法和装置。

背景技术

目前多目标篇章级情感分析方法，多是基于有监督的深度学习实现的。这这种方法需要将标注好的篇章文本中各评价目标的情感极性作为训练数据进行模型训练。

但是，由于篇章文本中各评价目标的情感极性标注过程需要大量的人力和物力，从而使得该分析方法的成本太高，实用性较差。

发明内容

本申请提出一种无监督的多目标篇章级情感分类模型训练方法和装置，用于解决相关技术中，用于基于有监督的深度学习进行多目标篇章级情感分析，成本较高，实用性差的问题。

本申请一方面实施例提出了一种无监督的多目标篇章级情感分类模型训练方法，包括：

利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；

根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；

利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；

根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；

根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。

本申请实施例的无监督的多目标篇章级情感分类模型训练方法，通过利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；然后根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；之后利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；之后根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；再根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。由此，通过基于篇章级的情感标注数据作为训练数据，可以训练得到识别篇章级中各目标的情感极性的模型，无需人工标注各篇章样本中每个评价目标的情感极性，降低了多目标篇章级情感分类的成本，实用性高。

本申请另一方面实施例提出了一种无监督的多目标篇章级情感分类模型训练装置，包括：

第一确定模块，用于利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，所述训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；

计算模块，用于根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；

第二确定模块，用于利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；

第三确定模块，用于根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；

更新模块，用于根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对所述预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。

本申请实施例的无监督的多目标篇章级情感分类模型训练装置，通过利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。由此，通过基于篇章级的情感标注数据作为训练数据，训练得到可识别篇章级中各目标的情感极性的模型，无需人工标注各篇章样本中每个评价目标的情感极性，降低了多目标篇章级情感分类的成本，实用性高。

本申请另一方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的无监督的多目标篇章级情感分类模型训练方法。

本申请另一方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序，所述计算机指令用于使所述计算机执行上述一方面实施例所述的无监督的多目标篇章级情感分类模型训练方法。

上述申请中的实施例具有如下有益效果：上述通过利用包括多个篇章样本及每个篇章样本对应的标注情感概率分布的样本集训练多目标篇章级情感分类模型。因为采用基于篇章级的情感标注数据作为训练数据，训练得到可识别篇章级中各目标的情感极性的模型，无需人工标注各篇章样本中每个评价目标的情感极性的技术手段，所以克服了现有的基于有监督的深度学习进行多目标篇章级情感分析，成本较高，实用性差的问题，进而达到降低了多目标篇章级情感分类的成本，实用性高的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练方法的流程示意图；

图2为本申请实施例提供的另一种无监督的多目标篇章级情感分类模型训练方法的流程示意图；

图3为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练装置的结构示意图；

图4为根据本申请实施例的无监督的多目标篇章级情感分类模型训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的无监督的多目标篇章级情感分类模型训练方法和装置。

本申请实施例，针对现有的基于有监督的深度学习进行多目标篇章级情感分析，成本较高，实用性差的问题，提出一种无监督的多目标篇章级情感分类模型训练方法。

本申请实施例的无监督的多目标篇章级情感分类模型训练方法，通过基于篇章级的情感标注数据作为训练数据，训练得到可识别篇章级中各目标的情感极性的模型，无需人工标注各篇章样本中每个评价目标的情感极性，降低了多目标篇章级情感分类的成本，实用性高。

图1为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练方法的流程示意图。

本申请实施例的无监督的多目标篇章级情感分类模型训练方法，可由本申请实施例提供的无监督的多目标篇章级情感分类模型训练装置执行，该装置可配置于电子设备中，以实现利用篇章的情感标注数据，训练得到可识别篇章中各评价目标的情感极性的模型。

如图1所示，该无监督的多目标篇章级情感分类模型训练方法包括：

步骤101，利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布。

通常，篇章级评论文本(比如新闻文本或是其他类型的文本)中，往往包含多个评价目标。比如针对餐饮评论，评价目标可能为环境、服务、味道。在篇章级评论文本中针对不同的评价对象，其对应情感极性往往不同。多目标篇章级情感分类旨在自动分析篇章中不同评价对象的情感倾向。

目前多目标篇章级情感分析方法，大多基于有监督的深度学习实现，这种方式需要将标注好的篇章文本中各评价目标的情感极性作为训练数据进行模型训练。但是，由于篇章文本中各评价目标的情感极性标注过程需要大量的人力和物力，从而使得该分析方法的成本太高，实用性较差。

本实施例采用的训练样本集包括多个篇章样本及每个篇章样本对应的标注情感概率分布。其中，标注情感概率分布是指篇章样本在每种情感上的比例。

也就是说，将篇章样本的情感标注数据作为训练数据，而非篇章中对应每个评价目标的情感极性。由于整体篇章级别的情感分类数据相对比较容易获取，相比人工标注各篇章中每个评论目标的情感极性，大大节省了人力成本。

本实施例中，利用预设的编码器对训练样本中每个篇章样本进行语义编码表示，得到每个篇章样本对应的隐状态向量。

其中，预设的编码器可以采用词袋模型(Bag of Word，简称BOW)、卷积神经网络(Convolutional Neural Networks，简称CNN)、循环神经网络(Recurrent NeuralNetwork，简称RNN)、长短期记忆网络(Long Short-Term Memory，简称LSTM)等。

步骤102，根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值。

本实施例中，各待评价目标对应的预设的权重矩阵，可以是预先设定的，也可以是根据篇章样本中每个分词与评价目标之间的距离确定的。其中，权重矩阵中的元素为篇章样本中各分词对应的权重值。

针对每个篇章样本中的每个待评价目标，对待评价目标对应的权重矩阵中每个分词对应的权重值，以及每个分词对应的向量表示进行加权求和，可以计算出每个待评价目标对应的注意力值。

本实施例中，通过引入注意力机制使得模型能够自动聚焦到，篇章样本中与待评价目标关联度较高的分词。

步骤103，利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布。

本实施例中，预设的解码器可包括多头注意力层，将每个篇章样本对应的隐状态向量和每个篇章样本中每个待评价目标对应的注意力值输入至解码器，由解码器进行解码，得到每个篇章样本中每个待评价目标对应的情感概率分布。也就是说，将篇章样本对应的隐状态向量，分别与该篇章样本包含的每个待评价目标对应的注意力值输入至解码器，可以得到每个待评价目标对应的情感概率分布。

比如，某篇章样本包括3个待评价目标a、b、c，则将篇章样本对应的隐状态向量和待评价目标a对应的注意值输入至预设的解码器，得到待评价目标a对应的情感概率分布；将篇章样本对应的隐状态向量和待评价目标b对应的注意值输入至预设的解码器,得到待评价目标b对应的情感概率分布；以及将篇章样本对应的隐状态向量和待评价目标c对应的注意值输入至预设的解码器，得到待评价目标c对应的情感概率分布。

其中，待评价目标对应的情感概率分布是由待评价目标在每种情感上的分布概率组成的。比如，待评价目标对应的情感概率分布为{0.2、0.7、0.1}，分别对应情感积极、中性、消极。

步骤104，根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布。

本实施例中，整体篇章级别的情感结果可由其中所包含的待评价目标的情感而决定，那么可以在获取每个篇章样本中每个待评价目标对应的情感概率分布后，可以根据篇章样本包含的各待评价目标对应的情感概率分布，确定出篇章样本对应的预测情感概率分布。

比如，可以根据篇章样本中各待评价目标在每种情感上的概率，计算出所有待评价目标在每种情感上的概率的均值，由此得到篇章样本对应的预测情感概率分布。

步骤105，根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。

在训练模型时，可以采用反向传播的方法对每部分的训练参数进行更新学习。

具体地，在获取篇章样本对应的预测情感概率分布后，可确定预测情感概率分布与标注情感概率分布之间的差异，比如可计算在每种情感上预测的概率与标注值的差值，根据差异对预设的编码器中的参数、各待评价目标对应的预设的权重矩阵及预设的解码器的参数进行更新，以便于根据更新后的编码器和解码器对下一个篇章样本进行训练，直到解码得到的预测概率分布与标注情感概率分布的差异满足要求，得到多目标篇章级情感分类模型。

比如，根据篇章样本A对模型进行训练后，对其包含的评价目标“特效”对应的权重矩阵进行了更新。当下一个用于训练的篇章样本B也包含评价目标“特效”，则根据评价目标“特效”对应的更新后的权重矩阵，计算篇章样本B中评价目标“特效”对应的注意力值。

本实施例中，训练得到的多目标篇章级情感分类模型，可以识别篇章中每个评价目标的情感极性。由此，通过基于篇章的标注情感概率分布作为训练数据，训练可识别篇章级中各评价目标的情感极性的模型。

上述在计算每个评价目标对应的注意值时，是在确定待评价目标的情况下进行，那么，在计算每个评价目标对应的注意值之前，需要先确定篇章样本中的待评价目标。在本申请的一个实施例中，可基于预设的各评价目标对应的候选词典，用篇章样本中的分词和候选词典进行匹配，来确定该篇章样本中包含的待评价目标。

具体地，可对每个篇章样本进行切分处理，得到每个篇章样本对应的各分词，然后将各分词与每个预设的评价目标对应的候选词典中的每个候选词进行匹配，若有分词与候选词匹配，则可以认为该预设的评价目标为篇章样本中包含的待评价目标。

比如，将篇章样本中的每个分词，分别与评价目标“环境”对应的候选词点中每个候选词进行匹配，如果篇章样本中包含“环境”对应的候选词典中的词，则可以认为篇章样本中包含待评价目标“环境”。

上述是根据预设的评价目标对应的候选词典，确定篇章样本中的待评价目标。在本申请的另一个实施例中，也可通过语义识别，确定篇章样本中包含的待评价目标。

具体地，可利用预设的语义识别模型，对篇章样本中的每个句子进行语义识别，以识别出句子中的实体对象，将其作为待评价目标。比如，“这里的环境不错”，对其进行语义识别，识别出实体“环境”，那么“环境”即为待评价目标。

为了进一步提升注意力机制的效果，提高模型的准确性，在本申请的一个实施例中，在确定待评价目标对应的注意力值之前，可利用待评价目标对应的种子词，对待评价目标定的预设的权重取值进行修正。

下面结合图2进行说明，图2为本申请实施例提供的另一种无监督的多目标篇章级情感分类模型训练方法的流程示意图。

如图2所示，在上述计算每个篇章样本中每个待评价目标对应的注意力值之前，还可包括：

步骤201，确定篇章样本中各分词与待评价目标对应的各种子词间的距离。

本实施例中，种子词可以看作是待评价目标的延伸，以扩充和完善其语义表示。比如，待评价目标“环境”，可将其延伸为“大堂环境”、“餐厅环境”等，那么待评价目标“环境”对应的种子词有“大堂环境”、“餐厅环境”等。

本实施例中，待评价目标对应的种子词，与待评价目标对应的候选词典中的候选词的匹配度大于阈值。比如，待评价目标为“环境”，篇章样本中的“大堂环境”，与候选词典中“大厅环境”的匹配度大于阈值，则“大堂环境”为待评价目标“环境”的种子词。

需要说明的是，篇章样本中可能包含待评价目标的一个或多个种子词。

在实际应用中，用于表示情感的词语通常与评价目标的距离较近，基于此，本实施例中，可计算篇章样本中各分词，与待评价目标对应的各种子词间的距离。具体地，可计算每个分词与各种子词之间间隔的字符，将间隔的字符数量作为分词与种子词之间的距离。由此，可以确定篇章样本中各分词与待评价目标对应的各种子词间的距离。

步骤202，根据每个分词与待评价目标对应的各种子词间的距离，对待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。

若待评价目标对应的种子词是一个，那么可根据每个分词与待评价目标对应的种子词之间的距离，对待评价目标对应的预设的权重矩阵中与每个分词对应的权重值进行调整。

若待评价目标对应的种子词有多个，可根据每个分词与各种子词间最小的距离，调整该分词对应的权重值。比如，种子词“大堂环境”是篇章中第5个字符，“餐厅环境”是第12个字符，那么篇章中第一个分词，与“大堂环境”的距离较近，可以根据第一个分词与“大堂环境”之间的距离，调整第一个分词对应权重值。

或者，当待评价目标对应的种子词有多个时，根据每个分词与各种子词间的距离的平均值，对每个分词对应的权重值进行修正。

可以理解的是，距离越小，修正后的权重值越大，距离越大，修正后的权重值越小，即在评价目标出现的位置及其附近的位置的分词对应的权重较高，其余位置的分词对应的权重较低。

本申请实施例中，在计算每个篇章样本中每个待评价目标对应的注意力值之前，通过确定篇章样本中各分词与待评价目标对应的各种子词间的距离，根据每个分词与待评价目标对应的各种子词间的距离，对待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。由此，在计算每个篇章样本中每个待评价目标对应的注意力值之前，通过引入分词与种子词之间的距离，对权重进行修正，那么在模型训练过程中使用修正后的权重矩阵，可以提高模型预测待评价目标的情感的准确性。

在实际应用中，篇章中可能包含多个评价目标，而每种评价目标对应的情感极性都是用户比较关心的。基于此，在本申请的一个实施例中，在根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布时，可以根据每个篇章样本中每个待评价目标在每种情感中的分布概率均值，确定该篇章样本在每种情感中的分布概率。

具体地，根据篇章样本中每个待评价目标在每种情感中的分布概率，计算在每种情感上所有评价目标的分布概率的均值，将所有评价目标在同一情感中的分布概率的均值，作为篇章样本在该情感中的分布概率，篇章样本在所有情感中的分布概率组成了预测情感概率分布。

比如，篇章样本包含2个评价目标c和d,评价目标c在情感“非常好”、“一般”、“差”的分布概率分别为0.6、0.3、0.1，评价目标d在情感“非常好”、“一般”、“差”的分布概率分别为0.2、0.6、0.2。那么，篇章样本在“非常好”的分布概率为

该篇章样本对应的预测情感概率分布为{0.4,0.45,0.15}。

本申请实施例中，在根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布时，可以根据每个篇章样本中每个待评价目标在每种情感中的分布概率均值，确定该篇章样本在每种情感中的分布概率，由此，得到篇章样本对应的预测情感概率分布。

在实际应用中，篇章样本中可能包含多个待评价目标，可能用户比较其中一个或某几个待评价目标对应的情感。基于此，在本申请的一个实施例中，上述根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布时，可以根据每个待评价目标的权重，以及每个篇章样本中每个待评价目标在每种情感中的分布概率，确定篇章样本在每种情感中的分布概率。其中，每个待评价的目标权重可以是预先设置的，也可以是根据待评价目标在篇章样本中出现的次数确定等。

具体地，针对每种情感，根据篇章样本中每个待评价目标在该情感中的分布概率，和每个待评目标的权重，进行加权求和，得到的结果即为篇章样本在该情感上的分布概率。由此，可以得到篇章样本在每种情感中的分布概率，篇章样本在所有情感中的分布概率组成了预测情感概率分布。

比如，篇章样本包含2个评价目标c和d,评价目标c在情感“非常好”、“一般”、“差”的分布概率分别为0.6、0.3、0.1，评价目标d在情感“非常好”、“一般”、“差”的分布概率分别为0.2、0.6、0.2，评价目标c和d的权重分别为0.7、0.3。那么，篇章样本在“非常好”的分布概率为0.6*0.7+0.2*0.3＝0.48、0.3*0.7+0.6*0.3＝0.39、0.1*0.7+0.2*0.3＝0.13，该篇章样本对应的预测情感概率分布为{0.48,0.39,0.13}。

本申请实施例中，在确定每个篇章样本对应的预测情感概率分布时，通过根据每个篇章样本中每个待评价目标在每种情感中的分布概率、及每个待评价目标的权重，确定该篇章样本在每种情感中的分布概率，由此，得到篇章样本对应的预测情感概率分布。

为了实现上述实施例，本申请实施例还提出一种装置。图3为本申请实施例提供的一种无监督的多目标篇章级情感分类模型训练装置的结构示意图。

如图3所示，该无监督的多目标篇章级情感分类模型训练装置300包括：第一确定模块310、计算模块320、第二确定模块330、第三确定模块340、更新模块350。

第一确定模块310，用于利用预设的编码器将训练样本集中每个篇章样本进行编码处理，确定每个篇章样本对应的隐状态向量，其中，训练样本集中包括多个篇章样本及每个篇章样本对应的标注情感概率分布；

计算模块320，用于根据每个篇章样本中包括的待评价目标及各待评价目标对应的预设的权重矩阵，计算每个篇章样本中每个待评价目标对应的注意力值；

第二确定模块330，用于利用预设的解码器，对每个篇章样本对应的隐状态向量及每个篇章样本中每个待评价目标对应的注意力值进行解码处理，确定每个篇章样本中每个待评价目标对应的情感概率分布；

第三确定模块340，用于根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布；

更新模块350，用于根据每个篇章样本对应的预测情感概率分布与对应的标注情感概率分布的差异，对预设的编码器、各待评价目标对应的预设的权重矩阵及预设的解码器进行更新。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第四确定模块，用于根据每个篇章样本中每个分词与每个待评价目标对应的候选词典中各候选词的匹配度，确定每个篇章样本中包括的待评价目标。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第五确定模块，用于对每个篇章样本中各子句进行语义识别，确定每个篇章样本中包括的待评价目标。

在本申请实施例一种可能的实现方式中，该装置还可包括：

第六确定模块，用于确定篇章样本中各分词与该篇章样本中包含的待评价目标对应的各种子词间的距离，其中，待评价目标对应的种子词，与待评价目标对应的候选词典中的候选词的匹配度大于阈值；

修正模块，用于根据每个分词与待评价目标对应的各种子词间的距离，对待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。

在本申请实施例一种可能的实现方式中，上述第三确定模块340，具体用于：

根据每个篇章样本中每个待评价目标在每种情感中的分布概率均值，确定该篇章样本在每种情感中的分布概率。

根据每个篇章样本中每个待评价目标在每种情感中的分布概率、及每个待评价目标的权重，确定该篇章样本在每种情感中的分布概率。

需要说明的是，前述无监督的多目标篇章级情感分类模型训练方法实施例的解释说明，也适用于该实施例的无监督的多目标篇章级情感分类模型训练装置，故在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的无监督的多目标篇章级情感分类模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GU I的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的无监督的多目标篇章级情感分类模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的无监督的多目标篇章级情感分类模型训练方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的无监督的多目标篇章级情感分类模型训练方法对应的程序指令/模块(例如，附图3所示的第一确定模块310、计算模块320、第二确定模块330、第三确定模块340、更新模块350)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的无监督的多目标篇章级情感分类模型训练方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据无监督的多目标篇章级情感分类模型训练电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至无监督的多目标篇章级情感分类模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

无监督的多目标篇章级情感分类模型训练方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与无监督的多目标篇章级情感分类模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过基于篇章级的情感标注数据作为训练数据，训练得到可识别篇章级中各目标的情感极性的模型，无需人工标注各篇章样本中每个评价目标的情感极性，降低了多目标篇章级情感分类的成本，实用性高。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种无监督的多目标篇章级情感分类模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：

根据每个篇章样本中每个分词与每个待评价目标对应的候选词典中各候选词的匹配度，确定每个篇章样本中包括的待评价目标。

3.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：

对每个篇章样本中各子句进行语义识别，确定每个篇章样本中包括的待评价目标。

4.如权利要求1所述的方法，其特征在于，所述计算每个篇章样本中每个待评价目标对应的注意力值之前，还包括：

确定篇章样本中各分词与该篇章样本中包含的待评价目标对应的各种子词间的距离，其中，所述待评价目标对应的种子词，与所述待评价目标对应的候选词典中的候选词的匹配度大于阈值；

根据每个分词与所述待评价目标对应的各种子词间的距离，对所述待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。

5.如权利要求1-4任一所述的方法，其特征在于，所述根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布，包括：

6.如权利要求1-4任一所述的方法，其特征在于，所述根据每个篇章样本中每个待评价目标对应的情感概率分布，确定每个篇章样本对应的预测情感概率分布，包括：

7.一种无监督的多目标篇章级情感分类模型训练装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，还包括：

9.如权利要求7所述的装置，其特征在于，还包括：

10.如权利要求7所述的装置，其特征在于，还包括：

第六确定模块，用于确定篇章样本中各分词与所述待评价目标对应的各种子词间的距离，其中，所述待评价目标对应的种子词，与所述待评价目标对应的候选词典中的候选词的匹配度大于阈值；

修正模块，用于根据每个分词与所述待评价目标对应的各种子词间的距离，对所述待评价目标对应的预设的权重矩阵中每个分词对应的权重值进行修正。

11.如权利要求7-10任一所述的装置，其特征在于，所述第三确定模块，具体用于：

12.如权利要求7-10任一所述的装置，其特征在于，所述第三确定模块，具体用于：

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的无监督的多目标篇章级情感分类模型训练方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的无监督的多目标篇章级情感分类模型训练方法。