CN112966514A

CN112966514A - 一种基于义原的自然语言情感分类方法

Info

Publication number: CN112966514A
Application number: CN202110272643.1A
Authority: CN
Inventors: 辛欣; 王艳平
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-13
Filing date: 2021-03-13
Publication date: 2021-06-15

Abstract

本发明涉及一种基于义原的自然语言情感分类方法，属于自然语言处理中的信息分类技术领域。所述方法先对HowNet知识库中的义原进行正向和负向极性的标注；再利用HowNet知识库中的词义和义原的对应信息来对知识库中的所有词进行远程监督的标注，从而获取词或短语的正负极性的关系的字典；然后将数据集中的文本与包含正负极关系的字典进行匹配，获取远程监督的数据集；然后设计一个监督的模型进行训练，从而实现对文本情感分类的任务。由于引入了义原对情感进行分类，缓解了其中极性词指向不明显的文本进行情感分类的困难。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。

Description

一种基于义原的自然语言情感分类方法

技术领域

本发明涉及一种基于义原的自然语言情感分类方法，属于自然语言处理中的信息分类技术领域。

背景技术

自然语言情感分类任务是给定一段自然语言文本，返回这个自然语言文本正负向倾向。例如“读书是一件很有趣的事情”，这句话传递出的是一种正向的情感倾向。

自然语言情感分类是是近年来学术界和工业界研究的热点。它能够帮助用户快速的分析并且提取相关的带有情感色彩的评价信息。这与传统的文本分类任务不同，传统的文本分类主要研究的是文本中的客观内容，而情感分类主要针对的是文本中的主观内容，能够输出是否支持某种观点的信息。

现有的自然语言情感分类方法，主要是通过构建极性词表的方法来实现情感分类，由于一些文本中的词的正负极性不明显，导致这样的方法难以对其进行分类。为了缓解这样的问题，本发明通过启发式的假设句子中的义原信息的正负向极性是文本中蕴含情感信息的重要特征，将文本映射到义原所在空间中，从而利用义原本身所包含的极性信息来进行情感分类。提出了一种基于义原的自然语言情感分类方法。

我们提出的一种基于义原的自然语言情感分类方法。先对HowNet知识库中的义原进行正向和负向极性的标注；再利用知识库中的词义和义原的对应信息来获取正负极性的关系的字典和远程监督的数据集；然后有监督的训练一个情感分类任务的模型进行训练。所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务。

发明内容

本发明的目的在于针对现有的情感分类方法中极性词指向不明显的问题，提出了一种基于义原的自然语言情感分类方法。

所述基于义原的自然语言情感分类方法，包括识别句子中触发词和实体关系抽取，具体包括以下步骤：

1.一种融合触发词识别特征的实体关系抽取方法，包括包括义原正负向极性的标注和文本情感分类，具体包括以下步骤：

步骤1：提取义原的极性特征；

步骤1.1：对HowNet知识库中所有义原标注其属于正向极性还是负向极性，输出标注后的义原列表L:S_i→Y_i；

其中Y_i的取值为0或1，分别表示该词极性为负向和正向；

步骤1.2：将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原S_i进行匹配，输出将词映射到正负向极性的字典D:C_i→Y_i；

步骤2：将数据集中的文本进行分词；

步骤2.1：使用Stanford分词开源工具将句子进行分词；

步骤2.2：将分词后的句子进行正负向情感标注，从而构建训练集样本，具体为：如果句子中只有一个分词后的词能与字典D中的某个词C_i匹配，则将该文本标记为当前C_i对应的Y_i；如果句子中有多个分词后的词能与字典中的某个词C_i匹配，则将该文本标记为占比更高的Y_i；如果句子中没有分词后的词能与字典中的某个词C_i匹配，则将当前文本从训练集中移至测试集中；

步骤2.3：获取训练集输入，具体为：将训练集中的每个样本(X_i,Y_i)中的X_i使用BERT的预训练词向量对整个文本进行编码，得到的句子向量

作为模型的输入；

步骤3：

步骤3.1：将步骤1.5中获取到的输入句子向量eⁱ联合对应文本的标签Y_i输入到机器学习模型中进行特征提取和目标标签的学习；

步骤3.2：对训练集中的所有训练样本进行N次迭代训练，输出被训练好的基于义原的自然语言情感分类模型；

步骤4：使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系；任意输入一句自然语言的句子到被训练好的情感分类模型中，输出该自然语言是属于正向情感还是负向情感。

有益效果

本发明是一种基于义原的自然语言情感分类方法，与现有情感分类方法相比，具有如下有益效果：

所述方法缓解了现有情感分类方法对极性词指向不明显的问题，提出了一种基于义原的自然语言情感分类方法，所述情感分类方法在测试集和任意给定自然语言文本中都能很好的完成对情感的正负向分类任务；

附图说明

图1是本发明一种基于义原的自然语言情感分类方法的流程图。

具体实施方式

下面结合具体实施例1以及附图1对本发明一种基于义原的自然语言情感分类方法进行细致阐述。

实施例1

本实施例阐述了本发明所述的一种基于义原的自然语言情感分类方法中的具体实施。

图1所示，是所述方法的流程图。

步骤1：提取义原的极性特征；

步骤1.1：对HowNet知识库中所有义原标注其属于正向极性还是负向极性，输出标注后的义原列表L:S_i→Y_i；例如对于“interesting|趣”和“boring|乏”两个不同的义原，“pinteresting|趣”被标注为正向特征，即1；“boring|乏”被标注为负向特征，即0；

步骤1.2：将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原S_i进行匹配，输出将词映射到正负向极性的字典D:C_i→Y_i；例如知识库中的词“有趣”的中心义原为“interesting|趣”，则“有趣”这个词将被标注为正向特征。

步骤2：将数据集中的文本进行分词；

步骤2.1：使用Stanford分词开源工具将句子进行分词；例如句子“读书是一件很有趣的事情”，分词后为“读书/是/一/件/很/有趣/的/事情”；

步骤2.2：将分词后的句子进行正负向情感标注，从而构建训练集样本。例如经过步骤2.1分词过的句子“读书/是/一/件/很/有趣/的/事情”，其中只有一个词“有趣”能够和字典D中的词进行匹配，于是此样本被视为正向特征，标注为1；

步骤2.3：获取训练集输入。例如，将训练集中的样本(“读书是一件很有趣的事情”,1)使用BERT的预训练词向量对整个文本进行编码，得到的句子向量eⁱ作为模型的输入；

步骤3：进行模型训练；

步骤3.1：将步骤1.5中获取到的输入句子向量eⁱ联合对应文本的标签1输入到机器学习模型中，比如BiLSTM深度神经网络，进行特征提取和目标标签的学习；

步骤3.2：对训练集中的所有训练样本进行N次迭代训练，例如可以通过随机梯度下降方法进行模型参数的更新，输出被训练好的基于义原的自然语言情感分类模型；

步骤4：使用步骤3.2输出的自然语言情感分类模型识别句子中两个实体之间的关系；任意输入一句自然语言的句子到被训练好的情感分类模型中，输出该自然语言是属于正向情感还是负向情感。例如，输入“读书是一件很有趣的事情”这段自然语言文本，被训练好的情感分类抽取模型输出的。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于义原的自然语言情感分类方法，其特征在于：包括义原正负向极性的标注和文本情感分类，具体包括以下步骤：

步骤1：提取义原的极性特征；

步骤1.1：对HowNet知识库中所有义原标注其属于正向极性还是负向极性，输出标注后的义原列表L：S_i→Y_i；

其中Y_i的取值为0或1，分别表示该词极性为负向和正向；

步骤1.2：将步骤1.1输出的义原列表L与HowNet知识库中每个词的中心义原S_i进行匹配，输出将词映射到正负向极性的字典D：C_i→Y_i；

步骤2：将数据集中的文本进行分词；

步骤2.1：使用Stanford分词开源工具将句子进行分词；

作为模型的输入；

步骤3：进行模型训练；

2.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤1.2具体包括以下子步骤：

步骤1.2.1：从HowNet知识库中取出一个词C_i与其对应的中心义原S_i，在标注后的义原列表L中查找的当前词的中心义原S_i，若S_i＝0，Y_i＝0；若S_i＝1，Y_i＝1，,从而得到字典D。

3.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤1.2中i的取值范围是1到N，N是训练集中样本的总数。

4.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤3.1中，eⁱ经过sigmoid(·)函数将值映射到(0,1)区间。

5.根据权利要求1所述的一种基于义原的自然语言情感分类模型方法，其特征在于：步骤4中，任意输入一句自然语言的句子经过训练好的逻辑回归模型后的阈值为0.5。