CN111767741A - 一种基于深度学习和tfidf算法的文本情感分析方法 - Google Patents
一种基于深度学习和tfidf算法的文本情感分析方法 Download PDFInfo
- Publication number
- CN111767741A CN111767741A CN202010617921.8A CN202010617921A CN111767741A CN 111767741 A CN111767741 A CN 111767741A CN 202010617921 A CN202010617921 A CN 202010617921A CN 111767741 A CN111767741 A CN 111767741A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- idf
- deep learning
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 77
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 50
- 238000012360 testing method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000002372 labelling Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 10
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于深度学习结合TFIDF算法的中文情感分析方法,将获取的中文语料及维基百科的中文语料进行文本预处理后,使用word2vec模型分别进行训练,然后结合两者训练的得到的词向量,作为深度学习训练模型的输入,然后进行情感分析模型的构建;最后,进行新语料的预测。本发明无需进行复杂的词典构建,减少了人工成本,避免了繁琐的特征工程构建对分类结果的影响,同时将深度学习模型中学习的特征结合了传统的语义信息,增加了分类的准确性。此外,在词向量的训练中将文本自身领域与维基百科的中文语料纳入考虑,提高了词向量对文本语义信息表达的准确性。
Description
技术领域
本发明涉及计算机应用技术领域,特别是一种基于深度学习和TFIDF算法的文本情感分析方法。
背景技术
在Web3.0时代,互联网影响人们的方式在逐渐改变,在互联网提供的信息服务里,广大网民在各大网络平台上积极地参与信息交流,这种信息化交流常常通过文本、视频和语音等媒介进行,其中文本交流最为常见。由于网民主动性的提高,唯品会、京东、淘宝等电商平台,以及微博、贴吧、论坛等在线交流网站上涌现出大量的主观性信息,这些信息携带了用户丰富的观念和情绪。如何从这些主观信息中挖掘出网民对某份商品、某项政策和某个事件的态度和情绪,并分析出对整个商业和社会有价值的信息是十分重要的研究课题,这就是文本情感分析技术(Text Sentiment Analysis),简称情感分析,通常也叫文本挖掘。
文本情感分析是从丰富的文本资源中挖掘出用户在情绪上的极性信息,比如表扬、批评、开心、悲伤等情感。在日常消费中,用户在购买产品前会通过互联网事先了解大众对该产品的评价,例如用户会根据好评率来选择外卖的餐饮店、想看的电影、想买的手机款式等,用户的情感倾向性极大的决定了产品的销量,与此同时,商家也能根据用户对产品属性的评价有目的地调整产品从而满足更广泛的用户需求。例如,用户在淘宝网上购买产品后留下评论“衣服太大了,按平常尺寸买穿不下”,淘宝商家则根据用户的反映及时在产品详情页备注衣服尺寸偏大,以便用户在购买时能更准确的选择尺码从而提高衣服的销量。此外,政府通过情感分析技术能进行舆情信息监控,不良网络信息的传播将被及时阻止。因此,文本情感分析课题具有重要研究价值,受到广大学者的青睐。
面对搜索引擎、购物平台、在线交流网站等热门产业中海量的网络文本数据,文本情感分析无疑是一种信息分析和信息获取的高效技术。情感分析方法主要涉及统计学习中的监督学习和无监督学习,其中基于词典的方法属于无监督学习,基于机器学习和深度学习的方法属于有监督学习。利用词典对文本进行情感分析是较早期出现的技术,该类方法根据现有的情感词典或重新构建新的词典,根据词典规则来统计所有情感词的极性,以此来判断文本最终的情感极值,从而实现大量文本的情感判别。基于词典的无监督学习方法在判别文本的情感极性时过分依赖与词典的规则,词典构建的精确性直接影响情感极性的判断,而且在互联网时代,一些情感词的极性也随之产生了变化,网络新词层出不穷,词典的构建十分复杂,而且工作量巨大。随着机器学习技术的出现,基于机器学习的情感分析在各种文本数据上取得较好的效果,但是基于机器学习的情感分析需要构建繁琐的人工特征,没有挖掘出文本的深层语义、句法等信息,属于浅层的情感分析方法。近年来,文本的语义、句法、语法等深层结构的研究有了进展,词语的分布式表示通过word2vec工具得以实现。基于深度学习的情感分析则用分布式的词向量来表示文本数据,Bengio等人在研究神经网络语言模型的同时提出了分布式表征的词向量概念,词向量能在低纬空间反映词与词之间的关系,包含一定的词法信息。在此基础上,研究者们将深度学习模型应用于情感分析并取得不错的进展,各种研究表明卷积神经网络(Convolutional Neural Network,CNN)能提取深层的句子表征,长短时记忆神经网络(Long Short-term Memory Network,LSTM)能有效地学习到句子的序列特征。两种方法的分析流程有一定的差异,但是前提工作都是文本预处理,文本预处理工作主要包括标签标注、停用词处理和中文分词三个部分。中文文本由各种丰富的词语无缝串联,中文的每个句子由短语、宾语、介词等不同的词根组成,计算机并不认识一个完整的中文字符串,只有将字符串切分成一个个词才能让其识别语义信息,因而准确地进行文本分词是情感分析的首要步骤。分词工作后需将部分没有实际含义的词语剔除,例如“恩”、“其实”、“也许”等,这类词语被称为停用词。停用词对情感分析工作没有多大帮助,通常需要将文本中每个词与整理好的停用词表对比,如果匹配到停用词,则将该词从文本中去除。文本去除停用词后还需要进行标签处理,即通过浏览每条文本对其进行极性标注。本文将包含积极情感的文本打上“1”的标签,包含中性情感的文本打上“0”的标签,包含消极情感的文本打上“2”的标签。标签处理是一项耗费人力、时间的工作,对于无监督的情感分析模型,可省去该步骤,对于有监督的情感分析方法而言是必不可少的步骤。文本进行特征筛选后仅保留对情感分析起重要作用的特征,然而每个特征的贡献程度不同,因而需要对特征进行权重计算,权重值越大的特征项表示其重要性越高。
发明内容
有鉴于此,本发明的目的是提出一种基于深度学习和TFIDF算法的文本情感分析方法,无需进行复杂的词典构建,减少了人工成本,避免了繁琐的特征工程构建对分类结果的影响,同时将深度学习模型中学习的特征结合了传统的语义信息,增加了分类的准确性。
本发明采用以下方案实现:一种基于深度学习和TFIDF算法的文本情感分析方法,包括以下步骤:
步骤S1:进行标签标注、停用词处理和中文分词三个部分的数据预处理;
步骤S2:构建词向量模型;利用word2vec模型,典型语料维基百科中文语料结合文本语料进行训练得到词向量生成模型,其中词向量生成模型包含信息特征的词向量;
步骤S3:进行情感分析模型的构建;
步骤S4:进行新语料的预测。
进一步地,所述步骤S1的具体包括以下步骤:
步骤S11:中文分词;
步骤S12:停用词剔除:分别将步骤S11中所述两种文本中的每个词与设置的停用词表进行对比,若匹配到停用词则将该词从所述文本中剔除;
步骤S13:对步骤S11中所述两种文本进行人工标注:将包含积极情感的文本打上1的标签,包含中性情感的文本打上0的标签,包含消极情感的文本打上2的标签。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:将步骤S2中训练得到的词向量结合,并作为深度学习训练模型的输入,然后利用卷积神经网络提取训练文本中的局部特征;步骤S32:对于卷积层提取到的局部特征通过卷积神经网络中的池化层将填充后的文本局部特征矩阵送入LSTM神经网络层中获取训练样本中文本的全局特征矩阵;
步骤S33:利用tf-idf算法得到所述中文语料文本的文档词频矩阵;
步骤S34:通过tfidf特征得到的词频矩阵来表示文本的特征矩阵,将该特征矩阵作为神经网络中隐藏层的输入矩阵进行训练得到新的文本特征矩阵;
步骤S35:采用填充的方法拼接具有tfidf特征的矩阵和LSTM层的全局特征矩阵;
步骤S36:利用softmax函数对拼接后的文本特征矩阵进行分类,用以进行情感分析。
进一步地,步骤S33中所述tf-idf算法的具体内容为:
词频TF的计算:文本内每个词出现的次数称为词频,由于文本长度不一通常会对词频进行归一化,词频的计算公式为:
其中,tfij表示第i个词在第j个文本的词频值,nij表示第j个文本中第i个词出现的次数,表示第j个文本中所有词的词频总和。考虑到少部分词频较高的词会影响整体的比例,词频归一化后还会进行对数处理,如公式(2)所示:
逆文档频率IDF的计算:设dfi表示含有第i个词的文本总数,N为语料中文本总数,则计算IDF值的公式如下所示:
由公式可知如果一个词在大部分文本中出现,则其对应dfi越大,idfi越小;
TF-IDF值的计算:将第j个文本中第i个词的TF-IDF值记为tfidfij,在TF和IDF基础上,可根据公式(4)直接计算:
tfidfij=tfij×idfi (4)
TF-IDF算法的原理为:如果一个词在单个文本内出现次数越多,其TF-IDF值就越大,如果一个词在多个文档中出现,其TF-IDF值反而下降;因此,TF-IDF算法侧重于剔除频繁出现的词,保留携带重要信息的词。
进一步地,所述步骤S4的具体内容为:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵;然后通过步骤S3将该测试词向量转化为测试句子向量,将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向分为积极、消极或中性。
与现有技术相比,本发明有以下有益效果:
本发明无需进行复杂的词典构建,减少了人工成本,避免了繁琐的特征工程构建对分类结果的影响,同时将深度学习模型中学习的特征结合了传统的语义信息,增加了分类的准确性。此外,在词向量的训练中将文本自身领域与维基百科的中文语料纳入考虑,提高了词向量对文本语义信息表达的准确性。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于深度学习和TFIDF算法的文本情感分析方法,包括以下步骤:
步骤S1:进行标签标注、停用词处理和中文分词三个部分的数据预处理;
步骤S2:构建词向量模型;利用word2vec模型,典型语料维基百科中文语料结合文本语料进行训练得到词向量生成模型,其中词向量生成模型包含信息特征的词向量;
步骤S3:进行情感分析模型的构建:选取最优的卷积神经网络CNN+LSTM网络+TF-IDF模型来获得文本情感信息矩阵;
步骤S4:进行新语料的预测。
在本实施例中,所述步骤S1的具体包括以下步骤:
步骤S11:中文分词;
步骤S12:停用词剔除:分别将步骤S11中所述两种文本中的每个词与设置的停用词表进行对比,若匹配到停用词则将该词从所述文本中剔除;
步骤S13:对步骤S11中所述两种文本进行人工标注:将包含积极情感的文本打上1的标签,包含中性情感的文本打上0的标签,包含消极情感的文本打上2的标签。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:将步骤S2中训练得到的词向量结合,并作为深度学习训练模型的输入,然后利用卷积神经网络提取训练文本中(使用的训练样本包含维基百科中文与要进行预测的某个领域的训练样本)的局部特征;
步骤S32:对于卷积层提取到的局部特征通过卷积神经网络中的池化层将填充后的文本局部特征矩阵送入LSTM神经网络层中获取训练样本中文本的全局特征矩阵;
步骤S33:利用tf-idf算法得到所述中文语料文本的文档词频矩阵;
步骤S34:通过tfidf特征得到的词频矩阵来表示文本的特征矩阵,将该特征矩阵作为神经网络中隐藏层的输入矩阵进行训练得到新的文本特征矩阵;
步骤S35:采用填充的方法拼接具有tfidf特征的矩阵和LSTM层的全局特征矩阵;
步骤S36:利用softmax函数对拼接后的文本特征矩阵进行分类,用以进行情感分析。
在本实施例中,步骤S33中所述tf-idf算法的具体内容为:
词频TF的计算:文本内每个词出现的次数称为词频,由于文本长度不一通常会对词频进行归一化,词频的计算公式为:
其中,tfij表示第i个词在第j个文本的词频值,nij表示第j个文本中第i个词出现的次数,表示第j个文本中所有词的词频总和。考虑到少部分词频较高的词会影响整体的比例,词频归一化后还会进行对数处理,如公式(2)所示:
逆文档频率IDF的计算:设dfi表示含有第i个词的文本总数,N为语料中文本总数,则计算IDF值的公式如下所示:
由公式可知如果一个词在大部分文本中出现,则其对应dfi越大,idfi越小;
TF-IDF值的计算:将第j个文本中第i个词的TF-IDF值记为tfidfij,在TF和IDF基础上,可根据公式(4)直接计算:
tfidfij=tfij×idfi (4)
TF-IDF算法的原理为:如果一个词在单个文本内出现次数越多,其TF-IDF值就越大,如果一个词在多个文档中出现,其TF-IDF值反而下降;因此,TF-IDF算法侧重于剔除频繁出现的词,保留携带重要信息的词。
在本实施例中,所述步骤S4的具体内容为:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵;然后通过步骤S3将该测试词向量转化为测试句子向量,将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向分为积极、消极或中性。
较佳的,本实施例先将获取的中文语料及维基百科的中文语料进行文本预处理后,使用word2vec模型分别进行训练,然后结合两者训练的得到的词向量,作为深度学习训练模型的输入,然后使用卷积神经网络CNN获取文本的局部特征,在通过池化层、padding操作,将获取的文本特征送入LSTM神经网络模型中,获取文本的全局特征,结合经过隐藏层训练的tf-idf特征得到句向量的表示,将其送入softmax层进行正负情感极性的分类,达到情感分析的目的。
较佳的,在本实施例中,情感分析模型构建,创新点在于利用卷积神经网络CNN抽取输入文本的局部特征,后并未直接通过隐藏层输出结果矩阵,而是将卷积得到的局部特征通过池化层填充后,送入长短期记忆神经网络LSTM模型中训练文本的全局特征,最后与经过影藏层计算的TFIDF特征矩阵进行拼接,得到组合深度学习分类模型。
较佳的,在本实施例的步骤S3中构建CNN卷积神经网络、LSTM长短时记忆网络以及TFIDF的组合深度学习网络,并加入全连接层以及softmax层,共同构成结合传统TFIDF的深度学习分类模型是:利用不同的卷积核与输入层中的句子矩阵进行卷积操作;将同一尺寸卷积核下的特征值按时间顺序拼接起来,作为长短时记忆网络的输入,通过长短时记忆网络进一步获取文本的上下文关系特征;将经过全连接层得到的向量矩阵与经过隐藏层计算的该评论文本的词语所包含的TF-IDF特征进行拼接得到新的得分向量特征矩阵,当标签的得分向量矩阵经过softmax层后,会计算出分类概率,最终得到分类的类别。
较佳的,在本实施例中,预测新语料:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵;然后通过步骤S2的方法将该测试词向量转化为测试句子向量,将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向(积极、消极、中性)较佳的,在本实施例中,
(1)数据预处理:文本的预处理包含标签标注、停用词处理和中文分词三个部分。
中文的每个句子由短语、宾语、介词等不同的词根组成,计算机并不认识一个完整的中文字符串,只有将字符串切分成一个个词才能让其识别语义信息,因而准确地进行文本分词是情感分析的首要步骤,分词工作后需将部分没有实际含义的词语剔除,例如“恩”、“其实”、“也许”等,这类词语被称为停用词。停用词对情感分析工作没有多大帮助,通常需要将文本中每个词与整理好的停用词表对比,如果匹配到停用词,则将该词从文本中去除。本文将哈工大和百度的两个词表融合在一起,去除重复的停用词后整理成新的停用词表,然后根据该词表去除实验数据中的停用词。
文本去除停用词后还需要进行标签处理,即通过浏览每条文本对其进行极性标注。本文将包含积极情感的文本打上“1”的标签,包含中性情感的文本打上“0”的标签,包含消极情感的文本打上“2”的标签。
(2)构建词向量模型:利用Word2Vec工具从维基百科中文语料与该领域文本的大规模数据上训练出Word2Vec模型,讲实验中的词向量训练文本输入词向量模型进行训练,得到词向量生成模型,模型训练完成后,输入词语w,利用模型可以得到与之相对应的词向量矩阵,d为词向量维度,本发明每个向量维度为300。
(3)情感分析模型构建,首先输入要求长度一致,所以句子要截取同样长度,查看长度分布图决定,长度不足补0,根据词典索引获取词语的词向量并将每个评论语句组合成句向量,然后将句向量在保留每个词向量矩阵完整的情况下划分成h区域,h表示该句能表达情感极性的最多词语数目,将划分的各区域独立地作为卷积神经网络的输入矩阵,然后使用长度为L的卷积核对区域做卷积操作,提取每个区域的局部特征,将各个区域的局部特征组合成一个新矩阵,再利用LSTM模型得到输入文本的全局特征,组合经过隐藏层计算的TF-IDF特征得到新的矩阵k,使用softmax函数对矩阵k进行分类。
(4)预测新语料:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据(2)词向量模型获得该测试评论的词向量输入矩阵;然后通过(3)的方法将该测试词向量转化为测试句子向量,将测试句向量输入到情感分类模型中,计算得到此段评论的情感倾向(积极、消极、中性)。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种基于深度学习和TFIDF算法的文本情感分析方法,其特征在于:包括以下步骤:
步骤S1:进行标签标注、停用词处理和中文分词三个部分的数据预处理;
步骤S2:构建词向量模型;利用word2vec模型,典型语料维基百科中文语料结合文本语料进行训练得到词向量即词向量生成模型,其中词向量生成模型包含信息特征的词向量;
步骤S3:进行情感分析模型的构建;
步骤S4:进行新语料的预测。
2.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法,其特征在于:所述步骤S1的具体包括以下步骤:
步骤S11:中文分词;
步骤S12:停用词剔除:分别将步骤S11中所述两种文本中的每个词与设置的停用词表进行对比,若匹配到停用词则将该词从所述文本中剔除;
步骤S13:对步骤S11中所述两种文本进行人工标注:将包含积极情感的文本打上1的标签,包含中性情感的文本打上0的标签,包含消极情感的文本打上2的标签。
3.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:将步骤S2中训练得到的词向量结合,并作为深度学习训练模型的输入,然后利用卷积神经网络提取训练文本中的局部特征;
步骤S32:对于卷积层提取到的局部特征通过卷积神经网络中的池化层将填充后的文本局部特征矩阵送入LSTM神经网络层中获取训练样本中文本的全局特征矩阵;
步骤S33:利用tf-idf算法得到所述中文语料文本的文档词频矩阵;
步骤S34:通过tfidf特征得到的词频矩阵来表示文本的特征矩阵,将该特征矩阵作为神经网络中隐藏层的输入矩阵进行训练得到新的文本特征矩阵;
步骤S35:采用填充的方法拼接具有tfidf特征的矩阵和LSTM层的全局特征矩阵;
步骤S36:利用softmax函数对拼接后的文本特征矩阵进行分类,用以进行情感分析。
4.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法,其特征在于:步骤S33中所述tf-idf算法的具体内容为:
词频TF的计算:文本内每个词出现的次数称为词频,由于文本长度不一通常会对词频进行归一化,词频的计算公式为:
其中,tfij表示第i个词在第j个文本的词频值,nij表示第j个文本中第i个词出现的次数,表示第j个文本中所有词的词频总和。考虑到少部分词频较高的词会影响整体的比例,词频归一化后还会进行对数处理,如公式(2)所示:
逆文档频率IDF的计算:设dfi表示含有第i个词的文本总数,N为语料中文本总数,则计算IDF值的公式如下所示:
由公式可知如果一个词在大部分文本中出现,则其对应dfi越大,idfi越小;
TF-IDF值的计算:将第j个文本中第i个词的TF-IDF值记为tfidfij,在TF和IDF基础上,可根据公式(4)直接计算:
tfidfij=tfij×idfi (4)
TF-IDF算法的原理为:如果一个词在单个文本内出现次数越多,其TF-IDF值就越大,如果一个词在多个文档中出现,其TF-IDF值反而下降;因此,TF-IDF算法侧重于剔除频繁出现的词,保留携带重要信息的词。
5.根据权利要求1所述的一种基于深度学习和TFIDF算法的文本情感分析方法,其特征在于:所述步骤S4的具体内容为:对测试评论语句进行分词处理、情感标签与词性标签标注处理,并根据步骤S2获得的词向量文件获得该测试评论的词向量输入矩阵;然后通过步骤S3将该测试词向量转化为测试句子向量,将测试句子向量输入到情感分类模型中,计算得到此段评论的情感倾向分为积极、消极或中性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617921.8A CN111767741B (zh) | 2020-06-30 | 2020-06-30 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617921.8A CN111767741B (zh) | 2020-06-30 | 2020-06-30 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767741A true CN111767741A (zh) | 2020-10-13 |
CN111767741B CN111767741B (zh) | 2023-04-07 |
Family
ID=72723186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617921.8A Expired - Fee Related CN111767741B (zh) | 2020-06-30 | 2020-06-30 | 一种基于深度学习和tfidf算法的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767741B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382388A (zh) * | 2020-12-14 | 2021-02-19 | 中南大学 | 一种压疮不良事件的预警方法 |
CN112463959A (zh) * | 2020-10-29 | 2021-03-09 | 中国人寿保险股份有限公司 | 一种基于上行短信的业务处理方法及相关设备 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112800180A (zh) * | 2021-02-04 | 2021-05-14 | 北京易车互联信息技术有限公司 | 一种点评文本标签的自动提取方案 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家系统知识库构建方法及系统 |
CN112927782A (zh) * | 2021-03-29 | 2021-06-08 | 山东思正信息科技有限公司 | 一种基于文本情感分析的心身健康状态预警系统 |
CN113051367A (zh) * | 2021-03-22 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN113204624A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113298365A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种基于lstm的文化附加值评估方法 |
CN113377901A (zh) * | 2021-05-17 | 2021-09-10 | 内蒙古工业大学 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
CN113761942A (zh) * | 2021-09-14 | 2021-12-07 | 合众新能源汽车有限公司 | 基于深度学习模型的语义分析方法、装置及存储介质 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN114943225A (zh) * | 2022-04-20 | 2022-08-26 | 南京优数信息技术有限公司 | 一种电话营销回访处理方法及系统 |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN117077688A (zh) * | 2023-10-17 | 2023-11-17 | 深圳格隆汇信息科技有限公司 | 一种基于自然语言处理的信息分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
CN110502757A (zh) * | 2019-08-29 | 2019-11-26 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN110674339A (zh) * | 2019-09-18 | 2020-01-10 | 北京工业大学 | 一种基于多模态融合的中文歌曲情感分类方法 |
US20200159832A1 (en) * | 2018-11-15 | 2020-05-21 | Fei CAI | Device and text representation method applied to sentence embedding |
-
2020
- 2020-06-30 CN CN202010617921.8A patent/CN111767741B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
CN109117482A (zh) * | 2018-09-17 | 2019-01-01 | 武汉大学 | 一种面向中文文本情感倾向性检测的对抗样本生成方法 |
US20200159832A1 (en) * | 2018-11-15 | 2020-05-21 | Fei CAI | Device and text representation method applied to sentence embedding |
CN110502757A (zh) * | 2019-08-29 | 2019-11-26 | 西安邮电大学 | 一种自然语言情感分析方法 |
CN110674339A (zh) * | 2019-09-18 | 2020-01-10 | 北京工业大学 | 一种基于多模态融合的中文歌曲情感分类方法 |
Non-Patent Citations (3)
Title |
---|
CHUEN-MIN HUANG ET.AL: "An Empirical Study on the Classification of Chinese News Articles by Machine Learning and Deep Learning Techniques", 《2019 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS (ICMLC)》 * |
刘智鹏等: "基于深度学习的商品评价情感分析与研究", 《计算机与数字工程》 * |
王根生: "基于Word2vec 和改进型TF-IDF 的卷积神经网络文本分类模型", 《小型微型计算机系统》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463959A (zh) * | 2020-10-29 | 2021-03-09 | 中国人寿保险股份有限公司 | 一种基于上行短信的业务处理方法及相关设备 |
CN112382388A (zh) * | 2020-12-14 | 2021-02-19 | 中南大学 | 一种压疮不良事件的预警方法 |
CN112612892A (zh) * | 2020-12-29 | 2021-04-06 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112612892B (zh) * | 2020-12-29 | 2022-11-01 | 达而观数据(成都)有限公司 | 一种专有领域语料模型构建方法、计算机设备及存储介质 |
CN112800180A (zh) * | 2021-02-04 | 2021-05-14 | 北京易车互联信息技术有限公司 | 一种点评文本标签的自动提取方案 |
CN112836509A (zh) * | 2021-02-22 | 2021-05-25 | 西安交通大学 | 一种专家系统知识库构建方法及系统 |
CN113051367A (zh) * | 2021-03-22 | 2021-06-29 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN113051367B (zh) * | 2021-03-22 | 2023-11-21 | 北京智慧星光信息技术有限公司 | 基于语义特征强化的深度学习预警方法、系统及电子设备 |
CN112927782B (zh) * | 2021-03-29 | 2023-08-08 | 山东齐鲁心理健康研究院有限公司 | 一种基于文本情感分析的心身健康状态预警系统 |
CN112927782A (zh) * | 2021-03-29 | 2021-06-08 | 山东思正信息科技有限公司 | 一种基于文本情感分析的心身健康状态预警系统 |
CN113222772A (zh) * | 2021-04-08 | 2021-08-06 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113222772B (zh) * | 2021-04-08 | 2023-10-31 | 合肥工业大学 | 本土人格词典构建方法、系统、存储介质以及电子设备 |
CN113298365A (zh) * | 2021-05-12 | 2021-08-24 | 北京信息科技大学 | 一种基于lstm的文化附加值评估方法 |
CN113377901B (zh) * | 2021-05-17 | 2022-08-19 | 内蒙古工业大学 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
CN113377901A (zh) * | 2021-05-17 | 2021-09-10 | 内蒙古工业大学 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
CN113204624A (zh) * | 2021-06-07 | 2021-08-03 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN113204624B (zh) * | 2021-06-07 | 2022-06-14 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
CN113761942A (zh) * | 2021-09-14 | 2021-12-07 | 合众新能源汽车有限公司 | 基于深度学习模型的语义分析方法、装置及存储介质 |
CN113761942B (zh) * | 2021-09-14 | 2023-12-05 | 合众新能源汽车股份有限公司 | 基于深度学习模型的语义分析方法、装置及存储介质 |
CN113822599A (zh) * | 2021-10-27 | 2021-12-21 | 国网江苏省电力有限公司营销服务中心 | 一种基于分类树融合技术的电力行业政策管理方法 |
CN114943225A (zh) * | 2022-04-20 | 2022-08-26 | 南京优数信息技术有限公司 | 一种电话营销回访处理方法及系统 |
CN114881029A (zh) * | 2022-06-09 | 2022-08-09 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN114881029B (zh) * | 2022-06-09 | 2024-03-01 | 合肥工业大学 | 基于混合神经网络的中文文本可读性评价方法 |
CN115017320A (zh) * | 2022-08-08 | 2022-09-06 | 杭州实在智能科技有限公司 | 结合词袋模型和深度学习模型的电商文本聚类方法及系统 |
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN117077688A (zh) * | 2023-10-17 | 2023-11-17 | 深圳格隆汇信息科技有限公司 | 一种基于自然语言处理的信息分析方法及系统 |
CN117077688B (zh) * | 2023-10-17 | 2024-03-29 | 深圳市临其境科技有限公司 | 基于自然语言处理的信息分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111767741B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
Arulmurugan et al. | RETRACTED ARTICLE: Classification of sentence level sentiment analysis using cloud machine learning techniques | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
Peng et al. | Human–machine dialogue modelling with the fusion of word-and sentence-level emotions | |
CN104331394A (zh) | 一种基于观点的文本分类方法 | |
Apriyanto et al. | Born in social media culture: personality features impact in communication context | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN113204624B (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Shi et al. | A Word2vec model for sentiment analysis of weibo | |
Alsolamy et al. | A corpus based approach to build arabic sentiment lexicon | |
Ruposh et al. | A computational approach of recognizing emotion from Bengali texts | |
CN113704459A (zh) | 一种基于神经网络的在线文本情感分析方法 | |
Kodiyala et al. | Emotion recognition and sentiment classification using bert with data augmentation and emotion lexicon enrichment | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
Gwad et al. | Twitter sentiment analysis classification in the Arabic language using long short-term memory neural networks | |
Tellez et al. | Regionalized models for Spanish language variations based on Twitter | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
CN116775451A (zh) | 一种测试用例智能评分方法、装置、终端设备及计算机介质 | |
Gurin | Methods for Automatic Sentiment Detection | |
Sani et al. | Sentiment Analysis of Hausa Language Tweet Using Machine Learning Approach | |
Kong et al. | Construction of microblog-specific chinese sentiment lexicon based on representation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230407 |