CN111538835A

CN111538835A - 一种基于知识图谱的社交媒体情感分类方法与装置

Info

Publication number: CN111538835A
Application number: CN202010238006.8A
Authority: CN
Inventors: 杨鹏; 杨浩然; 李幼平; 纪雯
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-08-14
Anticipated expiration: 2040-03-30
Also published as: CN111538835B

Abstract

本发明公开了一种基于知识图谱的社交媒体情感分类方法与装置。首先基于构建基础知识图谱，并结合情感词典对基础知识图谱中的实体进行情感实体定位和情感极性标注，构建适用于社交媒体情感分类任务的情感知识图谱；接着使用GAN神经网络模型提高实体及实体关系的向量嵌入精度；再使用CBOW模型训练词向量，并利用知识图谱中的实体属性进行情感词向量训练；最后基于Bi‑LSTM多特征融合情感分类策略，对词汇输入向量融合通用词向量、实体向量和情感词向量，以提高社交媒体应用中情感分类方法的处理性能与精度。本发明可有效解决传统情感分类方法普遍存在的精度不高、运算复杂等问题，能够快速、灵活地应用于社交媒体情感分类。

Description

一种基于知识图谱的社交媒体情感分类方法与装置

技术领域

本发明涉及一种基于知识图谱的社交媒体情感分类方法与装置，属于互联网技术领域。

背景技术

随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步，使得互联网已经成为人们获取信息和资源最主要途径。其中，社交媒体也相应得得到蓬勃的发展，大量的传统媒体入驻到各大社交平台，成为社交平台优质内容的重要来源。大量网络用户每天都会发布并传播高达上百亿的信息。这些海量的文本信息中，有很大一部分是表达用户观点倾向和情感信息。这些情感文本信息是非常宝贵的意见资源，包含着人们对社会各种现象的不同观点和立场。因此使用文本情感分类技术，在话题跟踪发现、舆情跟踪、民意测验、定向广告投放、售后服务评价等领域有着广泛的应用前景。

当前文本情感分类方法主流方法包括基于情感词典和基于机器学习的情感分类两种。基于情感词典的情感分类方法利用构建的文本情感词典，并对情感词典进行极性和强度标注，进而进行文本情感分类。基于机器学习的情感分类方法通过人工标注的方法提取特征，采用贝叶斯算法(Bayes)、逻辑回归算法(Logistic Regression)、支持向量机算法(Suppport Vector Machine)等方法进行情感分类。但是，当前的情感分类技术通常还存在以下问题：首先，传统的情感分类算法缺乏上下语义关系分类，很难胜任在社交媒体中日益复杂的情感表达方式；其次，现有词向量难以定位到对应的实体并且不包含情感特征，从而导致情感分类准确率过低；最后，文本的特征提取需要大量的人力物力，提取的文本特征对情感分类精度影响较大且目前的情感分类模型过于复杂导致处理文本速度变慢。

发明内容

发明目的：针对当前情感分类技术需要人工标注，精度不高，难以胜任日益复杂的情感表达方式的问题，本发明提出一种基于知识图谱的社交媒体情感分类方法与装置，能够构建完备的情感知识图谱，解决传统情感分类方法普遍存在的精度不高、运算复杂等问题，提高社交媒体应用中情感分类方法的处理性能与精度。

技术方案：为实现上述发明目的，本发明所述的一种基于知识图谱的社交媒体情感分类方法，首先利用离线数据和情感词典构建知识图谱，然后利用知识图谱嵌入技术计算出每个实体对应的嵌入向量，再次使用知识图谱进行情感词向量训练，最后通过特征融合的方式使用Bi-LSTM神经网络实现社交媒体文本的精确情感分类。该方法主要包括如下步骤：

(1)构建包括实体、实体属性及实体关系的知识图谱，并使用情感词典对知识图谱进行情感实体定位，基于情感极性标注算法标注知识图谱中相应实体属性；

(2)采用基于GAN神经网络的知识图谱嵌入方法，对知识图谱进行嵌入向量计算，对于步骤(1)中已构建好的知识图谱中的每个三元组，在负采样的过程中使用GAN进行概率逆采样，从而实现实体精确嵌入；

(3)利用CBOW模型，使用语料训练通用词向量，并针对特定词汇，查询该词汇在知识图谱中对应的实体，抽取该实体相关的情感极性，再使用三层全连接层构建多分类器，根据词汇的情感极性，训练该词向量对应的情感词向量；

(4)基于Bi-LSTM对社交媒体文本进行情感分类，将提炼的社交媒体中的文本输入Bi-LSTM社交媒体情感分类模型，其中对于每个词汇输入向量采用多特征融合的方式，输入向量包含通用词向量、实体向量和情感词向量，通过多特征融合提高情感分类的精度。

作为优选，所述步骤(1)中使用NTSD、Hownet两种情感词典对知识图谱进行情感实体定位，并标注知识图谱中相应实体属性；所述情感极性标注算法包括：

(1-1)解析情感词典实体名及实体相关属性，根据实体名筛选出知识图谱中的待选实体集合，计算每个待选实体与情感实体的相似度，选取相似度最高的实体作为情感词典实体在知识图谱中的对应实体；

(1-2)更新知识图谱中对应实体的情感极性，抽取该实体在知识图谱中的同义实体和反义实体，同义实体赋予相同的情感极性，反义实体赋予相反的情感极性。

作为优选，所述步骤(1)中采用UCL国家标准对实体进行规范化存储，包括：针对每个实体，生成对应的UCL Code，每个实体对应的UCL Code在知识图谱中与其他实体的UCLCode不同，为该实体的唯一标识；输入实体的内容描述属性集合，包含实体关键词，实体摘要和实体属性；查询关联实体的UCL Code，输入关联UCL属性，实现实体的规范化存储。

作为优选，所述步骤(2)中GAN神经网络包括生成器和鉴别器，生成器使用TransE模型，鉴别器使用ProjE模型，并采用交替优化的方法；GAN神经网络训练步骤包括：

(2-1)对于每个知识图谱中的三元组头实体head、关系relation、尾实体tail，采用随机选择的方式替换其中一个元素，从而形成该三元组的负样本集；

(2-2)固定ProjE模型参数，将负样本集输入TransE模型中，训练TransE模型参数，使得TransE模型准确率达到最高，此时TransE生成了该论训练中生成了最容易和正样本混淆的负样本；

(2-3)固定TranE模型参数，训练ProjE模型参数，使得ProjE模型准确率达到最高，自此一轮训练完成；当TransE损失函数和ProjE损失函数都趋于稳定时，该模型训练结束。

作为优选，所述步骤(3)针对每个词训练对应的情感词向量，首先运用CBOW模型，对Wikidata语料进行通用词向量训练；然后针对每个词汇，查询该词汇在知识图谱中的情感极性，并将属性标注在该词汇中；最后构建多分类器，根据词汇的情感极性，训练该词汇对应的情感词向量，该分类器使用Softmax作为输出层，Softmax层的输入为该词汇对应的情感词向量。

作为优选，所述步骤(4)中使用Scrapy爬虫框架爬取社交媒体中的内容，再使用正则表达式对内容进行数据清洗，筛除爬取内容中的html标签，保留文本，再将文本输入到社交媒体情感分类模型中。

作为优选，所述步骤(4)中基于Bi-LSTM多特征融合的社交媒体情感分类模型，Bi-LSTM可以更好得捕捉双向依赖关系，提高社交媒体文本的情感分类精度，设社交媒体文本的输入序列为{f₁,f₂,…,f_n}，f_i为社交媒体文本分词后第i个词对应的输入向量，输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接；输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为

最终文本的嵌入表示为

最后使用Softmax作为模型的输出层，使用交叉熵损失函数进行模型训练。

基于相同的发明构思，本发明所述的一种基于知识图谱的社交媒体情感分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现基于知识图谱的社交媒体情感分类方法。

有益效果：与现有技术相比，本发明具体如下优点：

1.本发明针对社交媒体情感分类任务构建情感知识图谱，并利用情感极性标注算法极大得扩充情感实体数量，并且在知识图谱嵌入过程中使用GAN，通过分段训练的方法有效提高知识图谱嵌入精度。

2.本发明基于UCL国家标准对知识图谱中实体及其关系进行存储，使得知识图谱的存储更加规范化。

3.本发明利用知识图谱与神经网络相结合的技术，提取文本情感词向量，并通过包括实体嵌入向量、情感词向量和通用词向量多特征融合的方式，有效提高了社交媒体文本情感分类的精度。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的情感知识图谱构建流程图。

图3为本发明实施例涉及的GAN网络模型结构图。

图4为本发明实施例涉及的情感词向量训练网络模型结构图。

图5为本发明实施例涉及的Bi-LSTM网络结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的一种基于知识图谱的社交媒体情感分类方法，具体实施步骤如下：

步骤1，构建情感知识图谱。不失一般性，利用Wikidata离线数据，抽取实体、实体属性及实体关系，从而构建知识图谱，并使用NTUSD、Hownet两种情感词典对知识图谱进行情感实体定位，基于情感极性标注算法标注知识图谱中相应实体属性。

Wikidata离线数据具有丰富的概念和实体信息以及上下位关系，在知识图谱的构建过程中可以非常方便得抽取相关概念和实体信息，构建完整的实体上下位关系树。故如图2所示，本发明利用Wikidata离线数据构建基础知识库。同时针对情感分类任务，本发明使用情感极性标注方法，利用情感词典，对知识图谱中的实体进行情感标注，从而构建完备的情感知识图谱，具体实施过程分为如下子步骤：

子步骤1-1，Wikidata离线数据由XML格式构成，每个实体包含该实体的含义、该实体属性以及其相关联的实体。对Wikidata离线数据进行解析，得到一个基础知识库。

子步骤1-2，使用情感极性标注算法，利用NTSD、Hownet两种情感词典对基础库进行情感实体定位，并标注基础库中相应实体属性；首先解析情感词典实体名及实体相关属性，根据实体名筛选出基础库中的待选实体集合，使用式(1)计算每个待选实体与情感实体的相似度：

其中tar_i和can_i分别为为情感实体名tar和待选实体名cand使用Multi-Hot方法预处理后第i维度的值，通过相似度计算选出情感词典实体在知识图谱中的对应实体。然后更新知识图谱中对应实体属性，抽取该实体在知识图谱中的同义实体和反义实体。同义实体赋予相同的情感极性，反义实体赋予相反的情感极性。

知识图谱构建完成后，可采用UCL国家标准《统一内容标签格式规范》(GB/T35304-2017)对实体进行规范化存储；首先，针对每个实体，生成对应的UCL Code,每个实体对应的UCL Code在知识图谱中与其他实体的UCL Code不同，为该实体的唯一标识；然后，输入实体的内容描述属性集合(CDPS)，包含实体关键词，实体摘要，实体属性等信息；最后，查询关联实体的UCL Code，输入关联UCL属性，实现实体的规范化存储。

步骤2，知识图谱嵌入向量。采用基于GAN神经网络的知识图谱嵌入方法，对知识图谱进行嵌入向量计算，对于已构建好的知识图谱中的每个三元组，在负采样的过程中使用GAN进行概率逆采样，从而实现实体精确嵌入。如图3所示，具体实施过程分为如下子步骤：

子步骤2-1，对于每个知识图谱中的三元组头实体head、关系relation、尾实体tail，采用随机选择的方式替换其中一个元素，从而形成该三元组的负样本集；

子步骤2-2，固定ProiE模型参数，将负样本集输入TransE模型中，训练TransE模型参数，将式(2)作为TransE的目标函数，使得TransE模型准确率达到最高，此时TransE生成了该论训练中生成了最容易和正样本混淆的负样本(Hard Negative)；

L＝∑_{(h，r，t)∈S}∑_{(h′，r，t′)∈S′(h，r，t)}γ+d(h+r，t)-d(h′+r，t′) (2)

其中，(h，r，t)为知识图谱中正样本集合S中的三元组，(h′，r，t′)为负样本集合S′中(h，r，t)对应的负样本三元组，γ为正则化参数，d(h+r，t)为头实体嵌入向量加关系嵌入向量的和与尾实体嵌入向量的欧式距离。

子步骤2-3，固定TranE模型参数，将式(3)作为ProjE的目标函数，训练ProjE模型参数，使得ProjE模型准确率达到最高，自此一轮训练结束。

其中，S为三元组集合，|S|为集合中三元组的个数，y为三元组(h，r，t)在ProjE模型中的打分，

为三元组(h，r，t)是否为真实样本的标签，当(h，r，t)为正样本时

若为负样本

为尾节点在实体嵌入矩阵中对应映射，Wc为尾节点映射矩阵，假设尾节点使用One-hot编码后第i位不为0，则尾节点对应的映射向量为

[i，：]代表第i行的所有参数；h，r分别为头节点和关系的嵌入向量；D_e和D_r为头节点实体和关系的权重，b_p和b_c为偏置值。

步骤3，文本词向量训练。利用CBOW模型，使用Wikidata语料训练词向量，并针对特定词汇，查询该词汇在知识图谱中对应的实体，抽取该实体相关的极性，再使用三层全连接层构建多分类器，根据词汇的情感极性，训练该词向量对应的情感词向量。如图4所示，该过程的实施过程主要分为如下子步骤：

子步骤3-1，运用CBOW模型，使用Wikidata语料训练，输入层由One-hot编码输入上下文组成，隐藏层由DNN神经网络组成，输出层为One-hot编码的输出单词。每个词汇对应的词向量为输出层上一层的隐藏层向量。

子步骤3-2，针对每个词汇，查询该词汇在知识图谱中对应的实体，提取对应实体的情感极性，作为该词汇的标签，如果该实体没有被标注则标注为中性情感极性。

子步骤3-3，构建多分类器，根据词汇的情感极性，输入词汇对应的词向量，训练该词汇对应的情感词向量，该分类器使用Softmax作为损失函数，Softmax层的输入为该词汇对应的情感词向量。

步骤4，社交媒体情感分类。基于Bi-LSTM对社交媒体文本进行情感分类，其中对于每个词汇输入向量采用多特征融合的方式，输入向量包含词向量、步骤2中的实体嵌入向量、步骤3中的情感词向量，通过多特征融合达到高精度情感分类的目的。该过程的实施过程主要分为如下子步骤：

子步骤4-1，使用Scrapy爬虫框架爬取社交媒体中的内容，再使用正则表达式对内容进行数据清洗，筛除爬取内容中的html标签，保留文本，再将文本输入到社交媒体情感分类模型中。

子步骤4-2，针对每个词汇，查询该词汇在知识图谱中对应的实体，并查询出步骤2中训练好的实体嵌入向量，步骤3中训练好的通用词向量和情感词向量，对三个向量进行拼接代表该词汇。

子步骤4-3，使用Bi-LSTM神经网络，Bi-LSTM可以更好得捕捉双向依赖关系，提高社交媒体文本的情感分类精度，输入为步骤4-1中多特征融合的词向量序列，输出为该文本的情感倾向。如图5所示，设社交媒体文本的输入序列为{f₁,f₂,…,f_n}，f_i为社交媒体文本分词后第i个词对应的输入向量，输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接；输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为

最终文本的嵌入表示为

Claims

1.一种基于知识图谱的社交媒体情感分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(1)中使用NTSD、Hownet两种情感词典对知识图谱进行情感实体定位，并标注知识图谱中相应实体属性；所述情感极性标注算法包括：

(1-1)解析情感词典实体名及实体相关属性，根据实体名筛选出知识图谱中的待选实体集合，计算每个待选实体与情感实体的相似度：

其中，tar_i和can_i分别为情感实体名tar和待选实体名cand使用Multi-Hot方法预处理后第i维度的值，n为实体名使用Multi-Hot方法处理后向量的维度，选取相似度最高的实体作为情感词典实体在知识图谱中的对应实体；

3.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(1)中采用UCL国家标准对实体进行规范化存储，包括：针对每个实体，生成对应的UCLCode，每个实体对应的UCL Code在知识图谱中与其他实体的UCL Code不同，为该实体的唯一标识；输入实体的内容描述属性集合，包含实体关键词，实体摘要和实体属性；查询关联实体的UCL Code，输入关联UCL属性，实现实体的规范化存储。

4.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(2)中GAN神经网络包括生成器和鉴别器，生成器使用TransE模型，鉴别器使用ProjE模型，并采用交替优化的方法；GAN神经网络训练步骤包括：

5.根据权利要求4所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(2-2)中TransE模型的损失函数如下：

其中，(h,r,t)为知识图谱中正样本集合S中的三元组，(h′,r,t′)为负样本集合S′中(h,r,t)对应的负样本三元组，γ为正则化参数，d(h+r,t)为头实体嵌入向量加关系嵌入向量的和与尾实体嵌入向量的欧式距离。

6.根据权利要求4所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(2-3)中ProjE模型的损失函数如下：

h⊕r＝D_eh+D_r+b_c

其中，S为三元组集合，|S|为集合中三元组的个数，y为三元组(h,r,t)在ProjE模型中的打分，

为三元组(h,r,t)是否为真实样本的标签，当(h,r,t)为正样本时

若为负样本

为尾节点在实体嵌入矩阵中对应映射，W^c为尾节点映射矩阵，假设尾节点使用One-hot编码后第i位不为0，则尾节点对应的映射向量为

[i,:]代表第i行的所有参数；h,r分别为头节点和关系的嵌入向量；D_e和D_r为头节点实体和关系的权重，b_p和b_c为偏置值。

7.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(3)针对每个词训练对应的情感词向量，首先运用CBOW模型，对Wikidata语料进行通用词向量训练；然后针对每个词汇，查询该词汇在知识图谱中的情感极性，并将属性标注在该词汇中；最后构建多分类器，根据词汇的情感极性，训练该词汇对应的情感词向量，该分类器使用Softmax作为输出层，Softmax层的输入为该词汇对应的情感词向量。

8.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(4)中使用Scrapy爬虫框架爬取社交媒体中的内容，再使用正则表达式对内容进行数据清洗，筛除爬取内容中的html标签，保留文本，再将文本输入到社交媒体情感分类模型中。

9.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法，其特征在于，所述步骤(4)中基于Bi-LSTM多特征融合的社交媒体情感分类模型，设社交媒体文本的输入序列为{f₁,f₂,…,f_n}，f_i为社交媒体文本分词后第i个词对应的输入向量，输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接；输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为

最终文本的嵌入表示为

10.一种基于知识图谱的社交媒体情感分类装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-9任一项所述的基于知识图谱的社交媒体情感分类方法。