CN111538835A - 一种基于知识图谱的社交媒体情感分类方法与装置 - Google Patents

一种基于知识图谱的社交媒体情感分类方法与装置 Download PDF

Info

Publication number
CN111538835A
CN111538835A CN202010238006.8A CN202010238006A CN111538835A CN 111538835 A CN111538835 A CN 111538835A CN 202010238006 A CN202010238006 A CN 202010238006A CN 111538835 A CN111538835 A CN 111538835A
Authority
CN
China
Prior art keywords
entity
emotion
social media
knowledge graph
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010238006.8A
Other languages
English (en)
Other versions
CN111538835B (zh
Inventor
杨鹏
杨浩然
李幼平
纪雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010238006.8A priority Critical patent/CN111538835B/zh
Publication of CN111538835A publication Critical patent/CN111538835A/zh
Application granted granted Critical
Publication of CN111538835B publication Critical patent/CN111538835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的社交媒体情感分类方法与装置。首先基于构建基础知识图谱,并结合情感词典对基础知识图谱中的实体进行情感实体定位和情感极性标注,构建适用于社交媒体情感分类任务的情感知识图谱;接着使用GAN神经网络模型提高实体及实体关系的向量嵌入精度;再使用CBOW模型训练词向量,并利用知识图谱中的实体属性进行情感词向量训练;最后基于Bi‑LSTM多特征融合情感分类策略,对词汇输入向量融合通用词向量、实体向量和情感词向量,以提高社交媒体应用中情感分类方法的处理性能与精度。本发明可有效解决传统情感分类方法普遍存在的精度不高、运算复杂等问题,能够快速、灵活地应用于社交媒体情感分类。

Description

一种基于知识图谱的社交媒体情感分类方法与装置
技术领域
本发明涉及一种基于知识图谱的社交媒体情感分类方法与装置,属于互联网技术领域。
背景技术
随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步,使得互联网已经成为人们获取信息和资源最主要途径。其中,社交媒体也相应得得到蓬勃的发展,大量的传统媒体入驻到各大社交平台,成为社交平台优质内容的重要来源。大量网络用户每天都会发布并传播高达上百亿的信息。这些海量的文本信息中,有很大一部分是表达用户观点倾向和情感信息。这些情感文本信息是非常宝贵的意见资源,包含着人们对社会各种现象的不同观点和立场。因此使用文本情感分类技术,在话题跟踪发现、舆情跟踪、民意测验、定向广告投放、售后服务评价等领域有着广泛的应用前景。
当前文本情感分类方法主流方法包括基于情感词典和基于机器学习的情感分类两种。基于情感词典的情感分类方法利用构建的文本情感词典,并对情感词典进行极性和强度标注,进而进行文本情感分类。基于机器学习的情感分类方法通过人工标注的方法提取特征,采用贝叶斯算法(Bayes)、逻辑回归算法(Logistic Regression)、支持向量机算法(Suppport Vector Machine)等方法进行情感分类。但是,当前的情感分类技术通常还存在以下问题:首先,传统的情感分类算法缺乏上下语义关系分类,很难胜任在社交媒体中日益复杂的情感表达方式;其次,现有词向量难以定位到对应的实体并且不包含情感特征,从而导致情感分类准确率过低;最后,文本的特征提取需要大量的人力物力,提取的文本特征对情感分类精度影响较大且目前的情感分类模型过于复杂导致处理文本速度变慢。
发明内容
发明目的:针对当前情感分类技术需要人工标注,精度不高,难以胜任日益复杂的情感表达方式的问题,本发明提出一种基于知识图谱的社交媒体情感分类方法与装置,能够构建完备的情感知识图谱,解决传统情感分类方法普遍存在的精度不高、运算复杂等问题,提高社交媒体应用中情感分类方法的处理性能与精度。
技术方案:为实现上述发明目的,本发明所述的一种基于知识图谱的社交媒体情感分类方法,首先利用离线数据和情感词典构建知识图谱,然后利用知识图谱嵌入技术计算出每个实体对应的嵌入向量,再次使用知识图谱进行情感词向量训练,最后通过特征融合的方式使用Bi-LSTM神经网络实现社交媒体文本的精确情感分类。该方法主要包括如下步骤:
(1)构建包括实体、实体属性及实体关系的知识图谱,并使用情感词典对知识图谱进行情感实体定位,基于情感极性标注算法标注知识图谱中相应实体属性;
(2)采用基于GAN神经网络的知识图谱嵌入方法,对知识图谱进行嵌入向量计算,对于步骤(1)中已构建好的知识图谱中的每个三元组,在负采样的过程中使用GAN进行概率逆采样,从而实现实体精确嵌入;
(3)利用CBOW模型,使用语料训练通用词向量,并针对特定词汇,查询该词汇在知识图谱中对应的实体,抽取该实体相关的情感极性,再使用三层全连接层构建多分类器,根据词汇的情感极性,训练该词向量对应的情感词向量;
(4)基于Bi-LSTM对社交媒体文本进行情感分类,将提炼的社交媒体中的文本输入Bi-LSTM社交媒体情感分类模型,其中对于每个词汇输入向量采用多特征融合的方式,输入向量包含通用词向量、实体向量和情感词向量,通过多特征融合提高情感分类的精度。
作为优选,所述步骤(1)中使用NTSD、Hownet两种情感词典对知识图谱进行情感实体定位,并标注知识图谱中相应实体属性;所述情感极性标注算法包括:
(1-1)解析情感词典实体名及实体相关属性,根据实体名筛选出知识图谱中的待选实体集合,计算每个待选实体与情感实体的相似度,选取相似度最高的实体作为情感词典实体在知识图谱中的对应实体;
(1-2)更新知识图谱中对应实体的情感极性,抽取该实体在知识图谱中的同义实体和反义实体,同义实体赋予相同的情感极性,反义实体赋予相反的情感极性。
作为优选,所述步骤(1)中采用UCL国家标准对实体进行规范化存储,包括:针对每个实体,生成对应的UCL Code,每个实体对应的UCL Code在知识图谱中与其他实体的UCLCode不同,为该实体的唯一标识;输入实体的内容描述属性集合,包含实体关键词,实体摘要和实体属性;查询关联实体的UCL Code,输入关联UCL属性,实现实体的规范化存储。
作为优选,所述步骤(2)中GAN神经网络包括生成器和鉴别器,生成器使用TransE模型,鉴别器使用ProjE模型,并采用交替优化的方法;GAN神经网络训练步骤包括:
(2-1)对于每个知识图谱中的三元组头实体head、关系relation、尾实体tail,采用随机选择的方式替换其中一个元素,从而形成该三元组的负样本集;
(2-2)固定ProjE模型参数,将负样本集输入TransE模型中,训练TransE模型参数,使得TransE模型准确率达到最高,此时TransE生成了该论训练中生成了最容易和正样本混淆的负样本;
(2-3)固定TranE模型参数,训练ProjE模型参数,使得ProjE模型准确率达到最高,自此一轮训练完成;当TransE损失函数和ProjE损失函数都趋于稳定时,该模型训练结束。
作为优选,所述步骤(3)针对每个词训练对应的情感词向量,首先运用CBOW模型,对Wikidata语料进行通用词向量训练;然后针对每个词汇,查询该词汇在知识图谱中的情感极性,并将属性标注在该词汇中;最后构建多分类器,根据词汇的情感极性,训练该词汇对应的情感词向量,该分类器使用Softmax作为输出层,Softmax层的输入为该词汇对应的情感词向量。
作为优选,所述步骤(4)中使用Scrapy爬虫框架爬取社交媒体中的内容,再使用正则表达式对内容进行数据清洗,筛除爬取内容中的html标签,保留文本,再将文本输入到社交媒体情感分类模型中。
作为优选,所述步骤(4)中基于Bi-LSTM多特征融合的社交媒体情感分类模型,Bi-LSTM可以更好得捕捉双向依赖关系,提高社交媒体文本的情感分类精度,设社交媒体文本的输入序列为{f1,f2,…,fn},fi为社交媒体文本分词后第i个词对应的输入向量,输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接;输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为
Figure BDA0002431651420000031
最终文本的嵌入表示为
Figure BDA0002431651420000032
最后使用Softmax作为模型的输出层,使用交叉熵损失函数进行模型训练。
基于相同的发明构思,本发明所述的一种基于知识图谱的社交媒体情感分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现基于知识图谱的社交媒体情感分类方法。
有益效果:与现有技术相比,本发明具体如下优点:
1.本发明针对社交媒体情感分类任务构建情感知识图谱,并利用情感极性标注算法极大得扩充情感实体数量,并且在知识图谱嵌入过程中使用GAN,通过分段训练的方法有效提高知识图谱嵌入精度。
2.本发明基于UCL国家标准对知识图谱中实体及其关系进行存储,使得知识图谱的存储更加规范化。
3.本发明利用知识图谱与神经网络相结合的技术,提取文本情感词向量,并通过包括实体嵌入向量、情感词向量和通用词向量多特征融合的方式,有效提高了社交媒体文本情感分类的精度。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的情感知识图谱构建流程图。
图3为本发明实施例涉及的GAN网络模型结构图。
图4为本发明实施例涉及的情感词向量训练网络模型结构图。
图5为本发明实施例涉及的Bi-LSTM网络结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于知识图谱的社交媒体情感分类方法,具体实施步骤如下:
步骤1,构建情感知识图谱。不失一般性,利用Wikidata离线数据,抽取实体、实体属性及实体关系,从而构建知识图谱,并使用NTUSD、Hownet两种情感词典对知识图谱进行情感实体定位,基于情感极性标注算法标注知识图谱中相应实体属性。
Wikidata离线数据具有丰富的概念和实体信息以及上下位关系,在知识图谱的构建过程中可以非常方便得抽取相关概念和实体信息,构建完整的实体上下位关系树。故如图2所示,本发明利用Wikidata离线数据构建基础知识库。同时针对情感分类任务,本发明使用情感极性标注方法,利用情感词典,对知识图谱中的实体进行情感标注,从而构建完备的情感知识图谱,具体实施过程分为如下子步骤:
子步骤1-1,Wikidata离线数据由XML格式构成,每个实体包含该实体的含义、该实体属性以及其相关联的实体。对Wikidata离线数据进行解析,得到一个基础知识库。
子步骤1-2,使用情感极性标注算法,利用NTSD、Hownet两种情感词典对基础库进行情感实体定位,并标注基础库中相应实体属性;首先解析情感词典实体名及实体相关属性,根据实体名筛选出基础库中的待选实体集合,使用式(1)计算每个待选实体与情感实体的相似度:
Figure BDA0002431651420000051
其中tari和cani分别为为情感实体名tar和待选实体名cand使用Multi-Hot方法预处理后第i维度的值,通过相似度计算选出情感词典实体在知识图谱中的对应实体。然后更新知识图谱中对应实体属性,抽取该实体在知识图谱中的同义实体和反义实体。同义实体赋予相同的情感极性,反义实体赋予相反的情感极性。
知识图谱构建完成后,可采用UCL国家标准《统一内容标签格式规范》(GB/T35304-2017)对实体进行规范化存储;首先,针对每个实体,生成对应的UCL Code,每个实体对应的UCL Code在知识图谱中与其他实体的UCL Code不同,为该实体的唯一标识;然后,输入实体的内容描述属性集合(CDPS),包含实体关键词,实体摘要,实体属性等信息;最后,查询关联实体的UCL Code,输入关联UCL属性,实现实体的规范化存储。
步骤2,知识图谱嵌入向量。采用基于GAN神经网络的知识图谱嵌入方法,对知识图谱进行嵌入向量计算,对于已构建好的知识图谱中的每个三元组,在负采样的过程中使用GAN进行概率逆采样,从而实现实体精确嵌入。如图3所示,具体实施过程分为如下子步骤:
子步骤2-1,对于每个知识图谱中的三元组头实体head、关系relation、尾实体tail,采用随机选择的方式替换其中一个元素,从而形成该三元组的负样本集;
子步骤2-2,固定ProiE模型参数,将负样本集输入TransE模型中,训练TransE模型参数,将式(2)作为TransE的目标函数,使得TransE模型准确率达到最高,此时TransE生成了该论训练中生成了最容易和正样本混淆的负样本(Hard Negative);
L=∑(h,r,t)∈S(h′,r,t′)∈S′(h,r,t)γ+d(h+r,t)-d(h′+r,t′) (2)
其中,(h,r,t)为知识图谱中正样本集合S中的三元组,(h′,r,t′)为负样本集合S′中(h,r,t)对应的负样本三元组,γ为正则化参数,d(h+r,t)为头实体嵌入向量加关系嵌入向量的和与尾实体嵌入向量的欧式距离。
子步骤2-3,固定TranE模型参数,将式(3)作为ProjE的目标函数,训练ProjE模型参数,使得ProjE模型准确率达到最高,自此一轮训练结束。
Figure BDA0002431651420000061
Figure BDA0002431651420000062
Figure BDA0002431651420000063
其中,S为三元组集合,|S|为集合中三元组的个数,y为三元组(h,r,t)在ProjE模型中的打分,
Figure BDA0002431651420000064
为三元组(h,r,t)是否为真实样本的标签,当(h,r,t)为正样本时
Figure BDA0002431651420000065
若为负样本
Figure BDA0002431651420000066
为尾节点在实体嵌入矩阵中对应映射,Wc为尾节点映射矩阵,假设尾节点使用One-hot编码后第i位不为0,则尾节点对应的映射向量为
Figure BDA0002431651420000067
[i,:]代表第i行的所有参数;h,r分别为头节点和关系的嵌入向量;De和Dr为头节点实体和关系的权重,bp和bc为偏置值。
步骤3,文本词向量训练。利用CBOW模型,使用Wikidata语料训练词向量,并针对特定词汇,查询该词汇在知识图谱中对应的实体,抽取该实体相关的极性,再使用三层全连接层构建多分类器,根据词汇的情感极性,训练该词向量对应的情感词向量。如图4所示,该过程的实施过程主要分为如下子步骤:
子步骤3-1,运用CBOW模型,使用Wikidata语料训练,输入层由One-hot编码输入上下文组成,隐藏层由DNN神经网络组成,输出层为One-hot编码的输出单词。每个词汇对应的词向量为输出层上一层的隐藏层向量。
子步骤3-2,针对每个词汇,查询该词汇在知识图谱中对应的实体,提取对应实体的情感极性,作为该词汇的标签,如果该实体没有被标注则标注为中性情感极性。
子步骤3-3,构建多分类器,根据词汇的情感极性,输入词汇对应的词向量,训练该词汇对应的情感词向量,该分类器使用Softmax作为损失函数,Softmax层的输入为该词汇对应的情感词向量。
步骤4,社交媒体情感分类。基于Bi-LSTM对社交媒体文本进行情感分类,其中对于每个词汇输入向量采用多特征融合的方式,输入向量包含词向量、步骤2中的实体嵌入向量、步骤3中的情感词向量,通过多特征融合达到高精度情感分类的目的。该过程的实施过程主要分为如下子步骤:
子步骤4-1,使用Scrapy爬虫框架爬取社交媒体中的内容,再使用正则表达式对内容进行数据清洗,筛除爬取内容中的html标签,保留文本,再将文本输入到社交媒体情感分类模型中。
子步骤4-2,针对每个词汇,查询该词汇在知识图谱中对应的实体,并查询出步骤2中训练好的实体嵌入向量,步骤3中训练好的通用词向量和情感词向量,对三个向量进行拼接代表该词汇。
子步骤4-3,使用Bi-LSTM神经网络,Bi-LSTM可以更好得捕捉双向依赖关系,提高社交媒体文本的情感分类精度,输入为步骤4-1中多特征融合的词向量序列,输出为该文本的情感倾向。如图5所示,设社交媒体文本的输入序列为{f1,f2,…,fn},fi为社交媒体文本分词后第i个词对应的输入向量,输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接;输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为
Figure BDA0002431651420000071
最终文本的嵌入表示为
Figure BDA0002431651420000072
最后使用Softmax作为模型的输出层,使用交叉熵损失函数进行模型训练。
基于相同的发明构思,本发明所述的一种基于知识图谱的社交媒体情感分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现基于知识图谱的社交媒体情感分类方法。

Claims (10)

1.一种基于知识图谱的社交媒体情感分类方法,其特征在于,包括如下步骤:
(1)构建包括实体、实体属性及实体关系的知识图谱,并使用情感词典对知识图谱进行情感实体定位,基于情感极性标注算法标注知识图谱中相应实体属性;
(2)采用基于GAN神经网络的知识图谱嵌入方法,对知识图谱进行嵌入向量计算,对于步骤(1)中已构建好的知识图谱中的每个三元组,在负采样的过程中使用GAN进行概率逆采样,从而实现实体精确嵌入;
(3)利用CBOW模型,使用语料训练通用词向量,并针对特定词汇,查询该词汇在知识图谱中对应的实体,抽取该实体相关的情感极性,再使用三层全连接层构建多分类器,根据词汇的情感极性,训练该词向量对应的情感词向量;
(4)基于Bi-LSTM对社交媒体文本进行情感分类,将提炼的社交媒体中的文本输入Bi-LSTM社交媒体情感分类模型,其中对于每个词汇输入向量采用多特征融合的方式,输入向量包含通用词向量、实体向量和情感词向量,通过多特征融合提高情感分类的精度。
2.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(1)中使用NTSD、Hownet两种情感词典对知识图谱进行情感实体定位,并标注知识图谱中相应实体属性;所述情感极性标注算法包括:
(1-1)解析情感词典实体名及实体相关属性,根据实体名筛选出知识图谱中的待选实体集合,计算每个待选实体与情感实体的相似度:
Figure FDA0002431651410000011
其中,tari和cani分别为情感实体名tar和待选实体名cand使用Multi-Hot方法预处理后第i维度的值,n为实体名使用Multi-Hot方法处理后向量的维度,选取相似度最高的实体作为情感词典实体在知识图谱中的对应实体;
(1-2)更新知识图谱中对应实体的情感极性,抽取该实体在知识图谱中的同义实体和反义实体,同义实体赋予相同的情感极性,反义实体赋予相反的情感极性。
3.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(1)中采用UCL国家标准对实体进行规范化存储,包括:针对每个实体,生成对应的UCLCode,每个实体对应的UCL Code在知识图谱中与其他实体的UCL Code不同,为该实体的唯一标识;输入实体的内容描述属性集合,包含实体关键词,实体摘要和实体属性;查询关联实体的UCL Code,输入关联UCL属性,实现实体的规范化存储。
4.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(2)中GAN神经网络包括生成器和鉴别器,生成器使用TransE模型,鉴别器使用ProjE模型,并采用交替优化的方法;GAN神经网络训练步骤包括:
(2-1)对于每个知识图谱中的三元组头实体head、关系relation、尾实体tail,采用随机选择的方式替换其中一个元素,从而形成该三元组的负样本集;
(2-2)固定ProjE模型参数,将负样本集输入TransE模型中,训练TransE模型参数,使得TransE模型准确率达到最高,此时TransE生成了该论训练中生成了最容易和正样本混淆的负样本;
(2-3)固定TranE模型参数,训练ProjE模型参数,使得ProjE模型准确率达到最高,自此一轮训练完成;当TransE损失函数和ProjE损失函数都趋于稳定时,该模型训练结束。
5.根据权利要求4所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(2-2)中TransE模型的损失函数如下:
Figure FDA0002431651410000021
其中,(h,r,t)为知识图谱中正样本集合S中的三元组,(h′,r,t′)为负样本集合S′中(h,r,t)对应的负样本三元组,γ为正则化参数,d(h+r,t)为头实体嵌入向量加关系嵌入向量的和与尾实体嵌入向量的欧式距离。
6.根据权利要求4所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(2-3)中ProjE模型的损失函数如下:
Figure FDA0002431651410000022
Figure FDA0002431651410000023
h⊕r=Deh+Dr+bc
其中,S为三元组集合,|S|为集合中三元组的个数,y为三元组(h,r,t)在ProjE模型中的打分,
Figure FDA0002431651410000031
为三元组(h,r,t)是否为真实样本的标签,当(h,r,t)为正样本时
Figure FDA0002431651410000032
若为负样本
Figure FDA0002431651410000033
Figure FDA0002431651410000034
为尾节点在实体嵌入矩阵中对应映射,Wc为尾节点映射矩阵,假设尾节点使用One-hot编码后第i位不为0,则尾节点对应的映射向量为
Figure FDA0002431651410000035
[i,:]代表第i行的所有参数;h,r分别为头节点和关系的嵌入向量;De和Dr为头节点实体和关系的权重,bp和bc为偏置值。
7.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(3)针对每个词训练对应的情感词向量,首先运用CBOW模型,对Wikidata语料进行通用词向量训练;然后针对每个词汇,查询该词汇在知识图谱中的情感极性,并将属性标注在该词汇中;最后构建多分类器,根据词汇的情感极性,训练该词汇对应的情感词向量,该分类器使用Softmax作为输出层,Softmax层的输入为该词汇对应的情感词向量。
8.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(4)中使用Scrapy爬虫框架爬取社交媒体中的内容,再使用正则表达式对内容进行数据清洗,筛除爬取内容中的html标签,保留文本,再将文本输入到社交媒体情感分类模型中。
9.根据权利要求1所述的基于知识图谱的社交媒体情感分类方法,其特征在于,所述步骤(4)中基于Bi-LSTM多特征融合的社交媒体情感分类模型,设社交媒体文本的输入序列为{f1,f2,…,fn},fi为社交媒体文本分词后第i个词对应的输入向量,输入向量为实体嵌入向量、情感词向量和通用词向量三者的拼接;输入序列后Bi-LSTM的前向LSTM和后向LSTM的输出分别为
Figure FDA0002431651410000036
Figure FDA0002431651410000037
最终文本的嵌入表示为
Figure FDA0002431651410000038
最后使用Softmax作为模型的输出层,使用交叉熵损失函数进行模型训练。
10.一种基于知识图谱的社交媒体情感分类装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-9任一项所述的基于知识图谱的社交媒体情感分类方法。
CN202010238006.8A 2020-03-30 2020-03-30 一种基于知识图谱的社交媒体情感分类方法与装置 Active CN111538835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010238006.8A CN111538835B (zh) 2020-03-30 2020-03-30 一种基于知识图谱的社交媒体情感分类方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238006.8A CN111538835B (zh) 2020-03-30 2020-03-30 一种基于知识图谱的社交媒体情感分类方法与装置

Publications (2)

Publication Number Publication Date
CN111538835A true CN111538835A (zh) 2020-08-14
CN111538835B CN111538835B (zh) 2023-05-23

Family

ID=71952199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238006.8A Active CN111538835B (zh) 2020-03-30 2020-03-30 一种基于知识图谱的社交媒体情感分类方法与装置

Country Status (1)

Country Link
CN (1) CN111538835B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084788A (zh) * 2020-08-19 2020-12-15 北京影谱科技股份有限公司 一种影像字幕隐式情感倾向自动标注方法及系统
CN112365429A (zh) * 2020-12-21 2021-02-12 神思电子技术股份有限公司 一种知识驱动的图像模糊区域清晰度增强方法
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN113053416A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种基于知识图谱的语音情感识别系统
CN113139062A (zh) * 2021-05-19 2021-07-20 哈尔滨理工大学 一种基于社交媒体的抑郁症检测系统
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113268603A (zh) * 2021-05-08 2021-08-17 大箴(杭州)科技有限公司 一种新闻舆情知识图谱的构建方法及装置、介质、设备
CN114547312A (zh) * 2022-04-07 2022-05-27 华南师范大学 基于常识知识图谱的情感分析方法、装置以及设备
CN115905518A (zh) * 2022-10-17 2023-04-04 华南师范大学 基于知识图谱的情感分类方法、装置、设备以及存储介质
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN116306590A (zh) * 2023-05-19 2023-06-23 大汉软件股份有限公司 一种知识驱动的特定话题的立场分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091117A1 (en) * 2011-09-30 2013-04-11 Metavana, Inc. Sentiment Analysis From Social Media Content
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299253A (zh) * 2018-09-03 2019-02-01 华南理工大学 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN110879938A (zh) * 2019-11-14 2020-03-13 中国联合网络通信集团有限公司 文本情感分类方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130091117A1 (en) * 2011-09-30 2013-04-11 Metavana, Inc. Sentiment Analysis From Social Media Content
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
WO2019174423A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体情感分析方法及相关装置
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109299253A (zh) * 2018-09-03 2019-02-01 华南理工大学 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法
CN110879938A (zh) * 2019-11-14 2020-03-13 中国联合网络通信集团有限公司 文本情感分类方法、装置、设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
陆正球等: "基于卷积神经网络的社交媒体文本情感分析" *
陈昀等: "基于多特征融合的中文评论情感分类算法" *
顾益军等: "融合多种情感资源的微博情感分类研究" *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084788A (zh) * 2020-08-19 2020-12-15 北京影谱科技股份有限公司 一种影像字幕隐式情感倾向自动标注方法及系统
CN112084788B (zh) * 2020-08-19 2024-05-14 北京影谱科技股份有限公司 一种影像字幕隐式情感倾向自动标注方法及系统
CN112365429A (zh) * 2020-12-21 2021-02-12 神思电子技术股份有限公司 一种知识驱动的图像模糊区域清晰度增强方法
CN112365429B (zh) * 2020-12-21 2022-07-22 神思电子技术股份有限公司 一种知识驱动的图像模糊区域清晰度增强方法
CN112765357A (zh) * 2021-02-05 2021-05-07 北京灵汐科技有限公司 文本分类方法、装置和电子设备
CN113053416A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种基于知识图谱的语音情感识别系统
CN113222772B (zh) * 2021-04-08 2023-10-31 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113222772A (zh) * 2021-04-08 2021-08-06 合肥工业大学 本土人格词典构建方法、系统、存储介质以及电子设备
CN113268603A (zh) * 2021-05-08 2021-08-17 大箴(杭州)科技有限公司 一种新闻舆情知识图谱的构建方法及装置、介质、设备
CN113139062A (zh) * 2021-05-19 2021-07-20 哈尔滨理工大学 一种基于社交媒体的抑郁症检测系统
CN114547312A (zh) * 2022-04-07 2022-05-27 华南师范大学 基于常识知识图谱的情感分析方法、装置以及设备
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN116257623B (zh) * 2022-09-07 2023-11-28 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN115905518B (zh) * 2022-10-17 2023-10-20 华南师范大学 基于知识图谱的情感分类方法、装置、设备以及存储介质
CN115905518A (zh) * 2022-10-17 2023-04-04 华南师范大学 基于知识图谱的情感分类方法、装置、设备以及存储介质
CN116306590A (zh) * 2023-05-19 2023-06-23 大汉软件股份有限公司 一种知识驱动的特定话题的立场分析方法
CN116306590B (zh) * 2023-05-19 2023-08-15 大汉软件股份有限公司 一种知识驱动的特定话题的立场分析方法

Also Published As

Publication number Publication date
CN111538835B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111538835B (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN110633409A (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN113377971B (zh) 多媒体资源生成方法、装置、电子设备以及存储介质
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
US11120268B2 (en) Automatically evaluating caption quality of rich media using context learning
Ji et al. Image-attribute reciprocally guided attention network for pedestrian attribute recognition
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN117216293A (zh) 一种多方式查询高校档案知识图谱构建方法及管理平台
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
CN112612884B (zh) 一种基于公共文本的实体标签自动化标注方法
CN114254116A (zh) 文献资料文本分类方法、分类模型构建方法和分类装置
CN117131873A (zh) 一种基于对比学习的双编码器预训练小样本关系抽取方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN111125387B (zh) 多媒体列表生成、命名方法、装置、电子设备和存储介质
CN113886602A (zh) 一种基于多粒度认知的领域知识库实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant