CN106919673B - 基于深度学习的文本情绪分析系统 - Google Patents

基于深度学习的文本情绪分析系统 Download PDF

Info

Publication number
CN106919673B
CN106919673B CN201710093688.6A CN201710093688A CN106919673B CN 106919673 B CN106919673 B CN 106919673B CN 201710093688 A CN201710093688 A CN 201710093688A CN 106919673 B CN106919673 B CN 106919673B
Authority
CN
China
Prior art keywords
sentence
information
mood
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710093688.6A
Other languages
English (en)
Other versions
CN106919673A (zh
Inventor
施寒潇
厉小军
陈南南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201710093688.6A priority Critical patent/CN106919673B/zh
Publication of CN106919673A publication Critical patent/CN106919673A/zh
Application granted granted Critical
Publication of CN106919673B publication Critical patent/CN106919673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的文本情绪分析系统,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,所述的信息采集模块用于采集各互联网资源网站中的评论信息,所述的信息预处理模块用于对采集到的评论信息进行分类、分词、词性标注以及情绪信息标注处理并存储,所述的情绪分析模块用于将处理后的评论信息经过词表示模型、句子模型以及篇章模型转化为短语向量,并将该短语向量输入到情绪分类模型进行情绪分析,所述的信息展示模块用于将情绪分析结果可视化地呈现。该系统能够对评论信息进行情绪倾向性分析,可视化地呈现给用户,进而为企业或政府等相关部门提供舆情分析结果或预警。

Description

基于深度学习的文本情绪分析系统
技术领域
本发明属于计算机应用技术领域,具体涉及的是一种基于深度学习的文本情绪分析系统。
背景技术
随着互联网的飞速发展,特别是Web2.0技术的逐渐普及,广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第38次中国互联网络发展状况统计报告》(CNNIC,2016)的数据显示,截至2016年6月,我国网络用户总数量已经达到7.10亿,半年共计新增网民2132万人,半年增长率为3.1%,互联网普及率为51.7%。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用,使网络内容的数量和网络信息的访问量都以前所未有的速度增长,互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样,如新闻、博客文章、产品评论、论坛帖子等等。
近几年,社会网络(social network)应用的推进和用户创造内容(UGC)模式的兴起,普通网民越来越成为信息内容的重要生产者。以金融信息评论为例,互联网上作为金融信息中UGC重要形式之一的用户评论,既表达了用户对证券市场的个体观点,又涵盖了用户与股票、用户与用户之间的关系,兼具内容与关联的特征,成为情绪分析研究的一个新热点。目前,带有情绪信息的金融评论在互联网上呈爆炸式增长,这些情绪信息对普通投资者、公司机构和国家政府等各级别的用户都有重要意义,如何有效的将带有情绪信息的金融评论转化成有助于各类用户应用的有价值资源,已成为当前需要迫切解决的问题之一。对于文本的情绪分析研究正是适应这种需求,希望架设一座用户到情绪信息的桥梁,使用户能有效获取情绪信息。从实践角度而言,利用这些情绪信息一方面可以帮助金融、证券监管部门及时了解投资者的情绪变化,特别是股灾或者疯牛这样极端行情下的情绪反馈,为后续的政策引导提供线索依据;另一方面可以给出不同类别投资者的情绪指数变化曲线,同时也可与其他主要证券行情分析指数联合构建出合理的投资模型,这在一定程度上为投资者提供更全面的投资决策支持。
目前情绪分析方法大致有两类。第一种是基于规则的方法。主要先根据情绪词典找出文本中出现的情绪词,然后进行简单的情绪极性统计,根据最终得分与事先设定阈值比较得出情绪极性结论,一般用于篇章级别的情绪分析。第二种是基于机器学习的方法。通过对大量标注语料的训练,生成情绪分类器,用来对测试文本进行分类。
(1)基于规则的方法。目前的方法主要是设计规则提取情绪词和极性判定,然后对所有的情绪词进行简单情绪极性统计求得文本的整体情绪极性,该方法更多的应用于篇章的情绪分析。另外,通过计算词语的语义倾向,综合考虑极性元素分布、密度和语义强度进行情绪词的扩展,进一步修正文本的整体情绪极性。
(2)基于机器学习的方法。这种方法主要使用情绪词、词语共现对、句法模板、主题相关特征等作为分类特征,使用基于机器学习的分类方法进行情绪/倾向性分析。常用的分类方法有:中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。一般过程是首先通过对训练文档进行手工标注,生产训练模型,然后进行测试文档的预测。该方法目前在句子级别的情绪分析中有广泛的应用。
其中使用基于规则的方法进行文本情绪分析时,无论是对句子还是篇章进行分析,都强烈依赖于情绪词典,且情绪词典构建的好坏直接影响到最终情绪分析的准确性。而构建情绪词典分为两种,一种是手工构建,其工作量巨大,并且随着互联网的发展,新的情绪词层出不穷、日益更新,使得整个构建工作十分困难;另一种是通过自动的方式构建情绪词典,但是略过了手工之后,自动构建的情绪词典的一个主要问题是准确度较低。
基于机器学习的方法来进行情绪分析研究,已经成为研究的热点。目前存在的一些运用词向量的机器学习方法,大多只考虑到了语法结构,而一个主观性文本中,不仅存在着语法结构,同时还会有情绪、词性等其他的关系。
发明内容
鉴于上述,本发明提出了一种基于深度学习的文本情绪分析系统,该系统能够对电子商务网站或股票金融网站等网站的相关评论进行情绪倾向性分析,可视化地呈现给用户,进而为企业或政府等相关部门提供舆情分析结果或预警。
一种基于深度学习的文本情绪分析系统,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,所述的信息采集模块用于采集各互联网资源网站中的评论信息,所述的信息预处理模块用于对采集到的评论信息进行分类、分词、词性标注以及情绪信息标注处理并存储,所述的情绪分析模块用于将处理后的评论信息经过词表示模型、句子模型以及篇章模型转化为短语向量,并将该短语向量输入到情绪分类模型进行情绪分析,所述的信息展示模块用于将情绪分析结果可视化地呈现。
所述的信息预处理模块包括:
自动分类模块,用于将信息采集模块采集的评论信息按照采集来源进行分类存储;
文本分词模块,用于对评论信息进行分词处理;
情绪信息标注模块,用于将评论信息中每句话的情绪标签标注于该句子的末端;
词性信息标注模块,用于将分词后的词语的词性标签标注于该词语的后端。
在所述的自动分类模块中,能够根据评论信息的来源对其进行分类并存储,例如:将来源于微博的评论信信息、股吧网站的评论信息以及新浪新闻的评论信息进行分类存储。
所述的文本分词模块集成有中科院汉语分词系统和结巴分词方法,能够实现对评论信息以句子为单位进行准确快速地分词。
所述的情绪信息标注模块集成有识别句子情绪信息的情感词典方式或情感识别工具,能够准确地识别评论信息中每个句子的情绪,并将该句子的情绪标签添加于句子的末端,以一个空格与整个句子隔开。
所述的词性信息标注模块集成有词性标注工具,能够准确地将分词后的每个词语的词性标签添加于每个词语的后端以下划线隔开,此模块中,也将句子的情绪标签的词性标签添加于该情绪标签的后端以下划线隔开。
所述的情绪分析模块包括:
词向量文件,用于将预处理后的句子中的每个词语与该句子的情绪标签转化为相应的词向量;
句子向量表示模块,用于将词向量转化为句子向量;
篇章向量表示模块,用于将句子向量转化为篇章向量;
情绪分析模型,用于对输入的篇章向量进行情绪分析,得到相应的情绪分析结果。
所述的词向量文件中的每个词对应的词向量是包含词性信息和情绪信息的,是训练基于情感信息和词性信息的C&W词向量(C&W Based Sentiment and Part-of-speechWord Embedding,C&W-SP)模型得到的,具体方法为:
首先,添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上,得到C&W-SP模型;
然后,对数据集以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
接下来,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,作为C&W-SP模型训练集;
最后,将C&W-SP模型训练集输入到C&W-SP模型中,以C&W-SP模型损失函数最小化为目标,采用随机梯度下降和反向传播算法更新模型参数,得到该训练集中每个词对应的词向量,组成词向量文件。
在所述的句子向量表示模块中,采用长短时间记忆(Long Short Term,LSTM)网络将词向量转化为句子向量。
在所述的篇章向量表示模块,采用LSTM网络将句子向量转化为篇章向量。
所述的情绪分析模型是通过以下方法获得的:
首先,对数据集以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
然后,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,得到预处理数据集;
接下来,根据训练C&W-SP模型获得的词向量文件,提取预处理数据集中每个句子的每个词的词向量,构建句子矩阵集,并以句子为单位,将句子矩阵集中的每个词对应的词向量按照顺序输入至LSTM网络,经训练得到句子向量集,将句子向量集中的句子向量按照顺序输入至LSTM网络,经训练得到篇章向量集;
最后,采用降维采样的方式对篇章向量集进行情感语义特征提取,得到将情感语义特征集,将情感语义特征集作为神经网络模型的输入,将句子的情感语义特征对应的标准情感类标组成的集合作为神经网络模型的真值输出,通过反向传播算法和随机梯度下降算法更新神经网络模型的参数,得到情感分类模型。
本发明的基于深度学习的文本情绪分析系统将情绪倾向信息、词性信息加入词语中,使得词向量所具有的属性增加,提高了词表示的准确率;采用LSTM网络生成句子向量的方法,更加切合句子本身的结构,提高了句子向量表示的准确度;利用已经训练好的情绪分析模型,使情绪分析更方便更准确,方便使用。
附图说明
图1是本发明实施例基于深度学习的文本情绪分析系统的结构示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
图1所示的是本实施例基于深度学习的文本情绪分析系统的结构示意图,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,其中:信息预处理模块包括自动分类模块、文本分词模块、情绪信息标注模块、词性信息标注模块;情绪分析模块包括词向量文件、句子向量表示模块、篇章向量表示模块、情绪分析模型。
本实施例中的文本分词模块含有中科院汉语分词系统,对评论信息进行分词,情绪信息标注模块中含有情感词典方式,对句子的情绪倾向进行识别,并将情绪标签标注于句子的末端,词性信息标注模块含有斯坦福语法分析器,将分词后的每个词语的词性标签添加于每个词语的后端以下划线隔开,也将句子的情绪标签的词性标签添加于该情绪标签的后端以下划线隔开;句子向量表示模块是将输入的词向量经过LSTM网络转化为句子向量;篇章向量表示模块是将输入的句子向量经过LSTM网络转化为篇章向量。
本实施例中采用的词向量文件是通过以下方法获得的:
首先,添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上,得到C&W-SP模型;
然后,对中文语料库以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
接下来,将分词数据集中的每个句子的情绪标签标注于句子末端,利用斯坦福语法分析器将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,作为C&W-SP模型训练集;
最后,将C&W-SP模型训练集输入到C&W-SP模型中,以C&W-SP模型损失函数最小化为目标,采用随机梯度下降和反向传播算法更新模型参数,得到该训练集中每个词对应的词向量,组成词向量文件。
C&W-SP模型分为输入层(Lookup)、线性隐藏层(linear)、非线性隐藏层(hTanh)以及线性输出层(linear)。训练过程为:将训练集作为输入,通过滑动窗口的方式将窗口内每个词的n-gram以及情感性信息和词性信息输入到模型进行训练,通过线性隐藏层和非线性隐藏层,输出一个二维标量[fcw,f1 u],其中,fcw代表词性-语义分数,f1 u代表情感分数。C&W-SP模型的损失函数为:
lossC&W-SP(t,tr)=α·losscw(t,tr)+(1-α)·lossus(t,tr)
其中,α为权重,losscw(t,tr)为C&W模型的损失函数,具体为:
losscw(t,tr)=max(0,1-fcw(t)+fcw(tr))
lossus(t,tr)为情感损失函数,具体为:
lossus(t,tr)=max(0,1-δs(t)f1 u(t)+δs(t)f1 u(tr))
δs(t)为反映句子情感倾向性的指示函数,其具体计算公式为:
给定训练语料库中的任一句子t,t=(wi-(n-1)/2,...,wi-1,wi,wi+1,...,wi+(n-1)/2),通过使用词典中的其他词w′i将句子中心位置的单词wi随机替换,被替换句子记为tr,fcw(t)为t的词性-语义分数,fcw(tr)为tr的词性-语义分数。f1 u(t)为t的情感分数,f1 u(tr)为tr的情感分数,g=gold polarity,即标准情感倾向,[1,0]表示积极,[0,1]表示消极。
C&W-SP模型训练的目标是以lossC&W-SP(t,tr)最小,实际含义是原始句子的语言模型分数比被替换句子的语言模型分数至少高1,且原始句子的情感分数f1 u(t)和被替换句子的情感分数f1 u(tr)相一致。
本实施例中采用的情绪分析模型是通过以下方式获得:
首先,对中文语料库以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
然后,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,得到预处理数据集;
接下来,根据训练C&W-SP模型获得的词向量文件,提取预处理数据集中每个句子的每个词的词向量,构建句子矩阵集,并以句子为单位,将句子矩阵集中的每个词对应的词向量按照顺序输入至LSTM网络,经训练得到句子向量集,将句子向量集中的句子向量按照顺序输入至LSTM网络,经训练得到篇章向量集;
最后,采用降维采样的方式对篇章向量集进行情感语义特征提取,得到将情感语义特征集,将情感语义特征集作为神经网络模型的输入,将句子的情感语义特征对应的标准情感类标组成的集合作为神经网络模型的真值输出,通过反向传播算法和随机梯度下降算法更新神经网络模型的参数,得到情感分类模型。
此神经网络模型中调用Softmax激活函数,实现评论信息的情感分类,0代表消极,1代表积极。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度学习的文本情绪分析系统,其特征在于,包括:信息采集模块、信息预处理模块、情绪分析模块以及信息展示模块,所述的信息采集模块用于采集各互联网资源网站中的评论信息,所述的信息预处理模块用于对采集到的评论信息进行分类、分词、词性标注以及情绪信息标注处理并存储,所述的情绪分析模块用于将处理后的评论信息经过词表示模型、句子模型以及篇章模型转化为短语向量,并将该短语向量输入到情绪分类模型进行情绪分析,所述的信息展示模块用于将情绪分析结果可视化地呈现;
所述的情绪分析模块包括:
词向量文件,用于将预处理后的句子中的每个词语与该句子的情绪标签转化为相应的词向量;
句子向量表示模块,用于将词向量转化为句子向量;
篇章向量表示模块,用于将句子向量转化为篇章向量;
情绪分析模型,用于对输入的篇章向量进行情绪分析,得到相应的情绪分析结果;
其中,所述的词向量文件中的每个词对应的词向量是包含词性信息和情绪信息的,是训练C&W-SP模型得到的,具体方法为:
首先,添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上,得到C&W-SP模型;
然后,对数据集以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
接下来,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,作为C&W-SP模型训练集;
最后,将C&W-SP模型训练集输入到C&W-SP模型中,以C&W-SP模型损失函数最小化为目标,采用随机梯度下降和反向传播算法更新模型参数,得到该训练集中每个词对应的词向量,组成词向量文件;
其中,C&W-SP模型分为输入层、线性隐藏层、非线性隐藏层以及线性输出层,训练过程为:将训练集作为输入,通过滑动窗口的方式将窗口内每个词的n-gram以及情感性信息和词性信息输入到模型进行训练,通过线性隐藏层和非线性隐藏层,输出一个二维标量[fcw,f1 u],其中,fcw代表词性-语义分数,f1 u代表情感分数;C&W-SP模型的损失函数为:
lossC&W-SP(t,tr)=α·losscw(t,tr)+(1-α)·lossus(t,tr)
其中,α为权重,losscw(t,tr)为C&W模型的损失函数,具体为:
losscw(t,tr)=max(0,1-fcw(t)+fcw(tr))
lossus(t,tr)为情感损失函数,具体为:
lossus(t,tr)=max(0,1-δs(t)f1 u(t)+δs(t)f1 u(tr))
δs(t)为反映句子情感倾向性的指示函数,其具体计算公式为:
给定训练语料库中的任一句子t,t=(wi-(n-1)/2,...,wi-1,wi,wi+1,...,wi+(n-1)/2),通过使用词典中的其他词wi′将句子中心位置的单词wi随机替换,被替换句子记为tr,fcw(t)为t的词性-语义分数,fcw(tr)为tr的词性-语义分数;f1 u(t)为t的情感分数,f1 u(tr)为tr的情感分数,g=gold polarity,即标准情感倾向,[1,0]表示积极,[0,1]表示消极;
C&W-SP模型训练的目标是以lossC&W-SP(t,tr)最小,实际含义是原始句子的语言模型分数比被替换句子的语言模型分数至少高1,且原始句子的情感分数f1 u(t)和被替换句子的情感分数f1 u(tr)相一致。
2.根据权利要求1所述的基于深度学习的文本情绪分析系统,其特征在于,所述的信息预处理模块包括:
自动分类模块,用于将信息采集模块采集的评论信息按照采集来源进行分类存储;
文本分词模块,用于对评论信息进行分词处理;
情绪信息标注模块,用于将评论信息中每句话的情绪标签标注于该句子的末端;
词性信息标注模块,用于将分词后的词语的词性标签标注于该词语的后端。
3.根据权利要求2所述的基于深度学习的文本情绪分析系统,其特征在于,所述的文本分词模块集成有中科院汉语分词系统和结巴分词方法。
4.根据权利要求2所述的基于深度学习的文本情绪分析系统,其特征在于,所述的情绪信息标注模块集成有识别句子情绪信息的情感词典方式或情绪识别工具,识别评论信息中每个句子的情绪,并将该句子的情绪标签添加于句子的末端,以一个空格与整个句子隔开。
5.根据权利要求2所述的基于深度学习的文本情绪分析系统,其特征在于,所述的词性信息标注模块集成有词性标注工具,将分词后的每个词语的词性标签添加于每个词语的后端以下划线隔开,也将句子的情绪标签的词性标签添加于该情绪标签的后端以下划线隔开。
6.根据权利要求1所述的基于深度学习的文本情绪分析系统,其特征在于,在所述的句子向量表示模块中,采用LSTM网络将词向量转化为句子向量。
7.根据权利要求1所述的基于深度学习的文本情绪分析系统,其特征在于,在所述的篇章向量表示模块,采用LSTM网络将句子向量转化为篇章向量。
8.根据权利要求1所述的基于深度学习的文本情绪分析系统,其特征在于,所述的情绪分析模型是通过以下方法获得的:
首先,对数据集以句子为单位采用中科院汉语分词系统或结巴分词方法进行中文分词操作,得到由m个句子组成的分词数据集;
然后,将分词数据集中的每个句子的情绪标签标注于句子末端,将每个句子中每个词语的词性标签标注于该词语的后端,将该句子情感标签的词性标签标注于该情绪标签的后端,得到预处理数据集;
接下来,根据训练C&W-SP模型获得的词向量文件,提取预处理数据集中每个句子的每个词的词向量,构建句子矩阵集,并以句子为单位,将句子矩阵集中的每个词对应的词向量按照顺序输入至LSTM网络,经训练得到句子向量集,将句子向量集中的句子向量按照顺序输入至LSTM网络,经训练得到篇章向量集;
最后,采用降维采样的方式对篇章向量集进行情感语义特征提取,得到将情感语义特征集,将情感语义特征集作为神经网络模型的输入,将句子的情感语义特征对应的标准情感类标组成的集合作为神经网络模型的真值输出,通过反向传播算法和随机梯度下降算法更新神经网络模型的参数,得到情感分类模型。
CN201710093688.6A 2017-02-21 2017-02-21 基于深度学习的文本情绪分析系统 Active CN106919673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710093688.6A CN106919673B (zh) 2017-02-21 2017-02-21 基于深度学习的文本情绪分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710093688.6A CN106919673B (zh) 2017-02-21 2017-02-21 基于深度学习的文本情绪分析系统

Publications (2)

Publication Number Publication Date
CN106919673A CN106919673A (zh) 2017-07-04
CN106919673B true CN106919673B (zh) 2019-08-20

Family

ID=59453961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710093688.6A Active CN106919673B (zh) 2017-02-21 2017-02-21 基于深度学习的文本情绪分析系统

Country Status (1)

Country Link
CN (1) CN106919673B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818080A (zh) * 2017-09-22 2018-03-20 新译信息科技(北京)有限公司 术语识别方法及装置
CN107729322B (zh) * 2017-11-06 2021-01-12 广州杰赛科技股份有限公司 分词方法及装置、建立句子向量生成模型方法及装置
CN107832305A (zh) 2017-11-28 2018-03-23 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108197106B (zh) * 2017-12-29 2021-07-13 深圳市中易科技有限责任公司 一种基于深度学习的产品竞争分析方法、装置及系统
CN108536756A (zh) * 2018-03-16 2018-09-14 苏州大学 基于双语信息的情绪分类方法及系统
CN108509418A (zh) * 2018-03-20 2018-09-07 合肥工业大学 基于对话内容的用户异常情绪检测方法
CN108363699A (zh) * 2018-03-21 2018-08-03 浙江大学城市学院 一种基于百度贴吧的网民学业情绪分析方法
CN108492118B (zh) * 2018-04-03 2020-09-29 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN108717406B (zh) * 2018-05-10 2021-08-24 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108959243A (zh) * 2018-05-17 2018-12-07 中国电子科技集团公司第二十八研究所 一种面向用户角色的通用舆论信息情感识别方法
CN108959266A (zh) * 2018-07-16 2018-12-07 广东工业大学 一种基于Stemming词干词典的股价预测方法及装置
CN110728983B (zh) * 2018-07-16 2024-04-30 科大讯飞股份有限公司 一种信息显示方法、装置、设备及可读存储介质
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统
CN109284388B (zh) * 2018-10-29 2021-04-20 深兰科技(上海)有限公司 字符数字唯一可译深度模型的文本分类方法及存储介质
CN109697472B (zh) * 2018-12-28 2021-05-04 泰州市津达电子科技有限公司 一种子情绪划归方法
CN109829157B (zh) * 2019-01-21 2023-04-18 腾讯科技(深圳)有限公司 文本情绪呈现方法、文本情绪呈现装置以及存储介质
CN109933648B (zh) * 2019-02-28 2022-07-05 北京学之途网络科技有限公司 一种真实用户评论的区分方法和区分装置
CN110189170A (zh) * 2019-05-27 2019-08-30 中译语通科技股份有限公司 市场情绪分析方法和系统
CN110390097A (zh) * 2019-06-05 2019-10-29 北京大学(天津滨海)新一代信息技术研究院 一种基于应用内实时数据的情感分析方法和系统
CN110362744B (zh) * 2019-06-26 2023-10-24 联通沃悦读科技文化有限公司 阅读推荐方法及系统、终端设备、计算机设备及介质
CN110750979B (zh) * 2019-10-17 2023-07-25 科大讯飞股份有限公司 一种篇章连贯性的确定方法以及检测装置
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及系统
CN110909529B (zh) * 2019-11-27 2023-03-24 国网能源研究院有限公司 一种公司形象提升系统的用户情感分析和预判系统
CN111178068B (zh) * 2019-12-25 2023-05-23 华中科技大学鄂州工业技术研究院 一种基于对话情绪检测的催收暴力倾向评价方法和装置
CN111414475A (zh) * 2020-03-03 2020-07-14 北京明略软件系统有限公司 文本情感信息的识别方法和装置
CN111666588B (zh) * 2020-05-14 2023-06-23 武汉大学 一种基于生成对抗网络的情绪差分隐私保护方法
CN111667306A (zh) * 2020-05-27 2020-09-15 重庆邮电大学 面向定制化生产的客户需求识别方法、系统及终端
CN111966826B (zh) * 2020-07-22 2023-01-24 中国科学院计算技术研究所 一种构建文本分类系统的方法、系统、介质及电子设备
CN112036705A (zh) * 2020-08-05 2020-12-04 苏宁金融科技(南京)有限公司 一种质检结果数据获取方法、装置及设备
CN112766747A (zh) * 2021-01-22 2021-05-07 清华大学 一种基于社交网络媒体发帖信息的自杀风险检测方法
CN113032515A (zh) * 2021-03-25 2021-06-25 上海华客信息科技有限公司 基于多数据源生成图表的方法、系统、设备及存储介质
CN113345590B (zh) * 2021-06-29 2022-12-16 安徽大学 一种基于异质图的用户心理健康监测方法及系统
CN114676374B (zh) * 2022-05-30 2023-02-24 湖南工商大学 基于大数据的政府公开信息智能融合系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN103488782A (zh) * 2013-09-30 2014-01-01 华北电力大学 一种利用歌词识别音乐情感的方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201113870A (en) * 2009-10-09 2011-04-16 Inst Information Industry Method for analyzing sentence emotion, sentence emotion analyzing system, computer readable and writable recording medium and multimedia device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425777A (zh) * 2013-08-15 2013-12-04 北京大学 一种基于改进贝叶斯分类的短信智能分类及搜索方法
CN103488782A (zh) * 2013-09-30 2014-01-01 华北电力大学 一种利用歌词识别音乐情感的方法
CN104965822A (zh) * 2015-07-29 2015-10-07 中南大学 一种基于计算机信息处理技术的中文文本情感分析方法
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于word embedding和CNN的情感分类模型;蔡慧苹 等;《计算机应用研究》;20161031;第33卷(第10期);2902-2909 *
基于表示学习的情感分析研究;厉小军 等;《北京大学学报(自然科学版)》;20190131;第55卷(第1期);105-112 *

Also Published As

Publication number Publication date
CN106919673A (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN106919673B (zh) 基于深度学习的文本情绪分析系统
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Liu et al. Neural Chinese word segmentation with dictionary
CN109685056B (zh) 获取文档信息的方法及装置
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110134934A (zh) 文本情感分析方法和装置
Maghfour et al. Standard and dialectal Arabic text classification for sentiment analysis
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
Das et al. Bemod: Development of bengali emotion dataset for classifying expressions of emotion in texts
Khan et al. Harnessing english sentiment lexicons for polarity detection in urdu tweets: A baseline approach
Rajalakshmi et al. Sentimental analysis of code-mixed Hindi language
Sotelo et al. Gender identification in social media using transfer learning
CN111159405B (zh) 基于背景知识的讽刺检测方法
Ji et al. A deep learning method for named entity recognition in bidding document
Al Taawab et al. Transliterated bengali comment classification from social media
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法
CN115619443A (zh) 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统
Xie et al. Automatic chinese spelling checking and correction based on character-based pre-trained contextual representations
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning
Nsaif et al. Political Post Classification based on Firefly and XG Boost
Nahar et al. SAP: Standard Arabic profiling toolset for textual analysis
Kannan et al. Exploiting multilingual neural linguistic representation for sentiment classification of political tweets in code-mix language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant