CN112182227A - 基于transD知识图嵌入的文本情感分类系统及方法 - Google Patents
基于transD知识图嵌入的文本情感分类系统及方法 Download PDFInfo
- Publication number
- CN112182227A CN112182227A CN202011139509.6A CN202011139509A CN112182227A CN 112182227 A CN112182227 A CN 112182227A CN 202011139509 A CN202011139509 A CN 202011139509A CN 112182227 A CN112182227 A CN 112182227A
- Authority
- CN
- China
- Prior art keywords
- module
- word
- sentence
- attention module
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims description 24
- 230000004927 fusion Effects 0.000 claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Abstract
本发明涉及一种基于transD知识图嵌入的文本情感分类系统,包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块;所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接;所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。本发明能够从外部知识库中学习更准确的同义词表示,最终获得更准确的评论情感极性。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于transD知识图嵌入的文本情感分类系统及方法。
背景技术
文本情感分类(sentiment classification)是近年来观点挖掘领域的热点研究方向之一,受到了国内外学者的广泛关注。文本情感分类的研究目标是根据人们生成的文本来分析其观点或者情感极性。随着在线评论网站的爆炸式增长, 对网络上大量附有情感的文本进行分类, 对电子商务中的决策和舆情监控等有着重要的意义。目前, 研究人员对于文本情感分类已经开展了许多研究并且取得了一定的成果。
文本情感分类是情感分析领域中的一项基本任务, 成为自然语言处理领域中 吸引人的研究任务, 针对文本情感分类有以下意义:(1) 舆情分析:准时、准确地收集群众的意见,让商家和政府能及时做出相应调整;(2) 用户的意见反馈, 用户对产品的喜好反应了产品的优劣;(3) 优化产品价格, 企业能够依据用户对产品的喜好合理的制定价格。 当前, 国内外研究人员针对文本情感分类提出的方法主要分为以下三大类:
基于情感词典的文本情感分类方法。 这类方法主要依据情感词典中包 含的短语和词汇的情感倾向及强度信息,对文本中出现过的情感词汇进行匹配, 进而计算出文本的情感极性。但是随着 Web2.0 和社交网络的发展,信息量和新兴词语剧增,对于情感词典的构建和维护面临着巨大挑战,因此,该类方法存在较大的局限性。 (2) 基于机器学习的文本情感分类方法。 这类方法通过从文本中筛选出一 组具有统计意义的特征,然后使用机器学习算法构建分类模型, 从而判断文本的情感极性。 该类方法大多数都是通过人工设计语义和语法特征, 利用从文本中提取出来的特征进行分类。但是这些模型的性能极大程度依赖于设计出来的特征的质量,需要耗费很大的人力、物力和财力,且泛化能力差。 (3) 基于深度学习的文本情感分类方法。 随着词嵌入技术和深度学习理论 的发展,基于深度学习的表示模型引起了学者们的关注,并在情感分类任务上取得了较大的进展。
目前研究人员利用深度学习的方法生成文档表示进行情感分类取得不错的效果,但是现有的模型仍然存在着一个缺点:这些模型通常仅输入文本或者单词序列,忽略了许多外部知识,未能考虑到一个单词可能在不同的语境下所表示出的不同语义信息,导致预测性能较低。
发明内容
有鉴于此,本发明的目的在于提供一种基于transD知识图嵌入的文本情感分类系统及方法,能够从外部知识库中学习更准确的同义词表示,最终获得更准确的评论情感极性。
为实现上述目的,本发明采用如下技术方案:
一种基于transD知识图嵌入的文本情感分类系统,包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块;所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接;所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。
进一步的,所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块;所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接;所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。
一种基于transD知识图嵌入的文本情感分类方法,包括以下步骤:
步骤S1:获取评论文本数据,并对数据进行预处理后分别输入融合用户信息分层注意力模块和融合产品信息分层注意力模块;
步骤S2:所述预处理后的文本数据在融合用户信息分层注意力模块和融合产品信息分层注意力模块分别进行步骤S3-S6的处理:
步骤S3:根据预处理后的文本数据,形成句子中各个词的初步向量表示;
步骤S4:将步骤S3得到的初步向量表示,分别形成包含用户、产品信息的句子表示和包含同义词信息的句子表示;
步骤S5:根据步骤S4得到的句子表示,对句子的向量进行训练进一步得到更优的向量表示;
步骤S6:根据更优的向量表示,加入注意力机制,让不同句子有不同的权重,形成高质量的评论向量表示;
步骤S7:根据分别得到的评论向量表示,利用分类函数得到最终的情感分类结果。
进一步的,所述预处理具体为:
步骤S11:过滤掉文本中网页链接;
步骤S12:过滤掉评论中第N个短句后的评论;
步骤S13:过滤掉短句评论中第m个单词后的单词。
进一步的,所述步骤S3具体为:
步骤S32:使用一个双向循环神经网络BiLSTM通过汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并。
进一步的,s所述双向循环神经网络BiLSTM包括一个向前的网络LSTM ,用来从到读取句子;还有一个向后的网络LSTM ,用来从到读取句子;通过连接向前隐藏状态和向后隐藏状态,得到词的隐藏表示,它包含了句子中围绕词的总体信息,也即。
进一步的,所述步骤S4具体为:
通过用户信息u或产品信息p和上一层词级别编码层的输出h,作为该层的输入;用u与p和词上下文向量hit之间的相似性来衡量词的重要性,并通过softmax函数来归一化该重要性权重a;最后使用各个词的权重和来作为句子 的表示;
将经过transD知识图嵌入后的WordNet同义词实体通过非线性映射到单词空间,将单词嵌入表示同义词实体嵌入看作CNN不同通道进行卷积,保持单词和同义词实体之间联系,得到包含同义词信息的句子表示s。
本发明与现有技术相比具有以下有益效果:
本发明能够从外部知识库中学习更准确的同义词表示,最终获得更准确的评论情感极性。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于transD知识图嵌入的文本情感分类系统,包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块;所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接;所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。
所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块;所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接;所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。
在本实施例中,各模块具体如下:
1)数据预处理模块
评论中包含了丰富的信息但同时也夹杂了一定的噪声,因此对数据集进行预处理,主要进行以下几个方面的操作:
(1)过滤掉微博文本中网页链接。如“http://t.cn”。
(2)过滤掉评论中第40个短句后的评论。
(3)过滤掉短句评论中第50个单词后的单词。
2)词序列编码模块
词序列编码模块完成对词语的初步向量化。
给定一个句子的词序列 ,首先将词通过词嵌入方法映射到向量中,嵌入矩阵为,使用一个双向循环神经网络BiLSTM通过汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并,双向循环神经网络BiLSTM包括一个向前的网络LSTM ,用来从到读取句子 ;还有一个向后的网络LSTM,用来从到读取句子。通过连接向前隐藏状态和向后隐藏状态,得到词的隐藏表示,它包含了句子中围绕词的总体信息,也即。
3)词语级别注意力模块
词语级别注意力模块借助词注意力来加强词的向量表示。
对于一个句子的表示,并不是其中所有的词都是有相同的贡献(权重),有些词是较重要的;有些词是不重要的或可以忽略的。因此我们引入词级别注意力机制来提取出句子中重要的词,并融合用户、产品信息,聚合它们信息的表示来形成句子向量表示。通过用户信息u或产品信息p和上一层词级别编码层的输出h,作为该层的输入;用u与p和词上下文向量hit之间的相似性来衡量词的重要性,并通过softmax函数来归一化该重要性权重a;最后使用各个词的权重和来作为句子 的表示。
4)外部知识融合模块
将经过transD知识图嵌入后的WordNet同义词实体通过非线性映射到单词空间,将单词嵌入表示同义词实体嵌入看作CNN不同通道进行卷积,保持单词和同义词实体之间联系,得到包含同义词信息的句子表示s。
5)句子级别编码模块
6)句子级别注意力模块
7)情感类别预测模块
情感类别预测模块,根据在经过上面四层的计算之后得到向量d,这是话题的高质量的表示,可以用来作为分类的特征。使用softmax来预测评论的情感极性,并得到预测概率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (7)
1.一种基于transD知识图嵌入的文本情感分类系统,其特征在于,包括文本预处理模块、融合用户信息分层注意力模块、融合产品信息分层注意力模块和情感类别预测模块;所述文本预处理模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接;所述情感类别预测模块与融合用户信息分层注意力模块、融合产品信息分层注意力模块分别连接。
2.根据权利要求1所述的基于transD知识图嵌入的文本情感分类系统,其特征在于,所述融合用户信息分层注意力模块、融合产品信息分层注意力模块均包括词序列编码模块、词语级别注意力模块、外部知识融合模块、句子级别编码模块和句子级别注意力模块;所述词序列编码模块与词语级别注意力模块、外部知识融合模块分别连接;所述句子级别编码模块与词语级别注意力模块、外部知识融合模块和句子级别注意力模块分别连接。
3.一种基于transD知识图嵌入的文本情感分类方法,其特征在于,包括以下步骤:
步骤S1:获取评论文本数据,并对数据进行预处理后分别输入融合用户信息分层注意力模块和融合产品信息分层注意力模块;
步骤S2:所述预处理后的文本数据在融合用户信息分层注意力模块和融合产品信息分层注意力模块分别进行步骤S3-S6的处理:
步骤S3:根据预处理后的文本数据,形成句子中各个词的初步向量表示;
步骤S4:将步骤S3得到的初步向量表示,分别形成包含用户、产品信息的句子表示和包含同义词信息的句子表示;
步骤S5:根据步骤S4得到的句子表示,对句子的向量进行训练进一步得到更优的向量表示;
步骤S6:根据更优的向量表示,加入注意力机制,让不同句子有不同的权重,形成高质量的评论向量表示;
步骤S7:根据分别得到的评论向量表示,利用分类函数得到最终的情感分类结果。
4.根据权利要求3所述的基于transD知识图嵌入的文本情感分类方法,其特征在于,所述预处理具体为:
步骤S11:过滤掉文本中网页链接;
步骤S12:过滤掉评论中第N个短句后的评论;
步骤S13:过滤掉短句评论中第m个单词后的单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139509.6A CN112182227A (zh) | 2020-10-22 | 2020-10-22 | 基于transD知识图嵌入的文本情感分类系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139509.6A CN112182227A (zh) | 2020-10-22 | 2020-10-22 | 基于transD知识图嵌入的文本情感分类系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182227A true CN112182227A (zh) | 2021-01-05 |
Family
ID=73923849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011139509.6A Pending CN112182227A (zh) | 2020-10-22 | 2020-10-22 | 基于transD知识图嵌入的文本情感分类系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182227A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220887A (zh) * | 2021-05-31 | 2021-08-06 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法和装置 |
CN113505226A (zh) * | 2021-07-09 | 2021-10-15 | 福州大学 | 融合图卷积神经网络的文本情感分类系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644052B1 (en) * | 2006-03-03 | 2010-01-05 | Adobe Systems Incorporated | System and method of building and using hierarchical knowledge structures |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111259147A (zh) * | 2020-01-19 | 2020-06-09 | 山东大学 | 基于自适应注意力机制的句子级情感预测方法及系统 |
-
2020
- 2020-10-22 CN CN202011139509.6A patent/CN112182227A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644052B1 (en) * | 2006-03-03 | 2010-01-05 | Adobe Systems Incorporated | System and method of building and using hierarchical knowledge structures |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
CN111259147A (zh) * | 2020-01-19 | 2020-06-09 | 山东大学 | 基于自适应注意力机制的句子级情感预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
林世平 等: ""融合知识图谱的文本情感分析"", 《福州大学学报( 自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220887A (zh) * | 2021-05-31 | 2021-08-06 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法和装置 |
CN113220887B (zh) * | 2021-05-31 | 2022-03-15 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法 |
CN113505226A (zh) * | 2021-07-09 | 2021-10-15 | 福州大学 | 融合图卷积神经网络的文本情感分类系统 |
CN113505226B (zh) * | 2021-07-09 | 2023-08-04 | 福州大学 | 融合图卷积神经网络的文本情感分类系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN107832400B (zh) | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN109635109A (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN111914096A (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN110717334A (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN108573411A (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN109284506A (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN111414476A (zh) | 一种基于多任务学习的属性级情感分析方法 | |
CN111310474A (zh) | 基于激活-池化增强bert模型的在线课程评论情感分析方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN110765769A (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN109189919B (zh) | 文本多视角情感分类的方法、系统、终端及存储介质 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN112182227A (zh) | 基于transD知识图嵌入的文本情感分类系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210105 |