CN112784041A - 一种中文短文本情感倾向性分析方法 - Google Patents

一种中文短文本情感倾向性分析方法 Download PDF

Info

Publication number
CN112784041A
CN112784041A CN202110012984.5A CN202110012984A CN112784041A CN 112784041 A CN112784041 A CN 112784041A CN 202110012984 A CN202110012984 A CN 202110012984A CN 112784041 A CN112784041 A CN 112784041A
Authority
CN
China
Prior art keywords
emotion
word
text
enhanced
chinese short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110012984.5A
Other languages
English (en)
Other versions
CN112784041B (zh
Inventor
李臣明
曹玉成
戴媛媛
陈忠昊
高红民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110012984.5A priority Critical patent/CN112784041B/zh
Publication of CN112784041A publication Critical patent/CN112784041A/zh
Application granted granted Critical
Publication of CN112784041B publication Critical patent/CN112784041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文短文本情感倾向性分析方法,获取待分析的中文短文本语料集;对中文短文本语料集进行处理得到由基础语义词向量表示的原始文本和由增强情感词向量表示的增强后文本;提取由基础语义词向量表示的原始文本的上下文语义特征;提取由增强情感词向量表示的增强后文本的上下文语义特征;将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接,得到最终的情感特征向量;将情感特征向量输入到分类模型,输出对应的情感极性。优点:通过引入情感增强机制,使得文本中的情感特征更为明显,方便后续对其进行特征提取,提高了文本情感分析的准确性。

Description

一种中文短文本情感倾向性分析方法
技术领域
本发明涉及一种中文短文本情感倾向性分析方法,属于自然语言处理与文本情感分析技术领域。
背景技术
现代社会,通过各种设备接入互联网进行娱乐和社交已经在全社会各个阶层和年龄段都普及开来了。当今社会的人们全天24小时保持着在线状态,在各大互联网平台上进行资讯的阅读和转发以及发表自己的见解。在各个社会热点事件中,可以在网络上看到海量的媒体报道和网友发表的见解与评论,这些见解与评论大多以文本形式存在,蕴含着发表者的态度和情绪,针对这些文本进行情感分析可以有效的了解舆论风向,群众呼声,是十分有价值的。
文本情感分析主要是指利用自然语言处理及计算机语言学等技术识别和提取原素材中的主观信息,找出意见发表者在某些话题上的两极观点态度。文本情感分析从粒度上可分为两类:一类是对文本中的某段已知文字进行正(褒)、负(贬)情感极性分类的粗粒度情感分析;另一类是细分的例如“喜悦”、“愤怒”、“生气”、“悲伤”等细粒度情感分析。
目前情感分析的主流的研究方法有三种:基于情感词典、机器学习以及深度学习的方法。基于情感词典的方法需要人工标注并构建情感词典,分析结果与词典质量正相关,而词典的构建费时费力且不具有领域通用性,所以这种方法有着很大的局限性;而机器学习方法需要人工进行文本特征的筛选,如何选择特征对于最终的分类效果有着极大的影响,其效果依赖于初期的特征选取,具有不稳定性。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种中文短文本情感倾向性分析方法。
为解决上述技术问题,本发明提供一种中文短文本情感倾向性分析方法,其特征在于,
获取待分析的中文短文本语料集;
将中文短文本语料集输入到预先构建的情感分类模型,输出对应的情感极性;
所述预先构建的情感分类模型的处理过程包括:
利用预先获取的语言模型对中文短文本语料集进行基础语义处理,得到由基础语义词向量表示的原始文本;
利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本;
提取由基础语义词向量表示的原始文本的上下文语义特征;
提取由增强情感词向量表示的增强后文本的上下文语义特征;
将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接,得到最终的情感特征向量;
将情感特征向量输入到分类模型,输出对应的情感极性。
进一步的,所述语言模型采用Bert-wmm(基于全词遮罩的预训练语言模型Bert)语言模型。
进一步的,所述利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本的过程包括:
利用预先获取的情感增强词库对中文短文本语料集根据如下过程进行情感增强:
遍历中文短文本语料集;
若遍历到的中文短文本语料集的当前词语为情感词,直接将该词语加入到该词语所在句子的末尾;
若遍历到的中文短文本语料集的当前词语为程度副词,后接情感词,则将二者作为一个整体加入到该词语所在句子的末尾;若该整体已存在于句子末尾,则不进行重复添加;
若遍历到的中文短文本语料集的当前词语为否定词,后接情感词,则将二者作为一个整体加入到该词语所在句子的末尾;若该整体已存在于句子末尾,则不进行重复添加;
若遍历到的中文短文本语料集的否定词后接程度副词和情感词,则将三者作为一个整体加入到该词语所在句子末尾;若该整体已存在,则不进行重复添加;
利用Bert-wmm(基于全词遮罩的预训练语言模型Bert)语言模型对完成情感增强后的中文短文本语料集进行处理,获得增强情感词向量表示的增强后文本。
进一步的,所述提取由基础语义词向量表示的原始文本的上下文语义特征的过程包括:
利用BiGRU+Self-Attention模型对由基础语义词向量表示的原始文本进行特征提取,得到原始文本的上下文语义特征。
进一步的,所述提取由增强情感词向量表示的增强后文本的上下文语义特征的过程包括:
利用BiGRU+Self-Attention模型对由增强情感词向量表示的增强后文本进行特征提取,得到增强后文本的上下文语义特征。
进一步的,所述将情感特征向量输入到预先构建的情感分类模型,输出对应的情感极性的过程包括:
将Vc和Ve采用行连接的方式进行特征融合,构建文本整体的情感特征向量;
根据文本整体的情感特征向量构建(rs+re)×c的矩阵V^,矩阵V^为最终情感特征向量,其中rs和re分别为Vc和Ve的行数,c为Vc和Ve的列数,Vc和Ve分别表示原始文本的上下文语义特征和增强后文本的上下文语义特征;
将特征融合层生成的情感特征向量V^输入到Softmax分类模型,得到最终预测的情感分类结果;
Softmax分类模型的计算公式为:
p=Softmax(waV^+ba)
其中:wa为权重系数矩阵,ba为偏置矩阵,p为输出的预测情感标签。
进一步的,所述情感分类模型的确定过程包括:
获取历史中文短文本语料集,对历史中文短文本语料集进行预处理,得到训练集和测试集;
采用反向传播算法训练BiGRU+Self-Attention模型和Softmax模型的网络参数,反向传播算法的损失函数采用交叉熵函数,训练目标为最小化训练集中已知情感类别和预测情感类别的交叉熵,交叉熵计算公式为:
Figure BDA0002885683450000041
式中:M为训练集,N为情感标签的类别数,y为实际情感类别,
Figure BDA0002885683450000042
为预测情感类别,λ为L2正则化系数,θ为设置的参数,i=1,2,…M,j=1,2,…N;
完成模型训练后,使用测试集评估模型泛化性能,采用评估指标F1值进行模型评估,若F1值在0.9以上,则符合需求,获得最终情感分类模型;若低于0.9,则调整模型超参数,继续训练模型。
本发明所达到的有益效果:
本方法通过引入情感增强机制,使得文本中的情感特征更为明显,方便后续对其进行特征提取;通过使用Bert依据上下文动态生成词向量,将文本语义信息嵌入到词向量中,提高了词向量的表征能力;同时通过注意力机制动态调整特征权重,增强了模型捕捉情感信息的能力,最终有效提高了文本情感分析的准确性。
附图说明
图1为本发明的流程示意图;
图2为BiGRU+Self-Attention模型结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,为本实施例提供的一种中文短文本情感倾向性分析方法,包括以下步骤:
步骤1:构建情感增强词库,基于该库对输入的语料集进行预处理;最后将处理好的语料集划分为训练集和测试集;
步骤1.1:构建情感增强词库
在中文句子中,表达情感的词语前一般都带有程度副词,如“非常”、“特别”等,同时部分句子虽然包含某种表示正向或负向的情感词,但情感词前面由否定词存在,实质上句子的情感极性是相反的。考虑到存在这些问题,构建由大连理工大学的情感词本体数据库和来自知网中文词库HowNet的程度副词和否定词组成的情感增强词库。
步骤1.2:对语料集进行预处理
采用结巴分词系统对语料集文本句子进行分词,在分词过程中,将构建的情感语言库作为自定义分词词典,使其在分词后作为一个基本的语言单元存在。此外,还进行了去重、过滤、去停用词等文本预处理。最后将预处理好的文本语料以8:2的比例划分为训练集和测试集两个集合。
步骤2:对待分析的中文短文本语料集进行上述预处理,使用Bert对预处理后的待分析的中文短文本语料集进行处理,得到由基础语义词向量表示的原始文本;
由于谷歌官方发布的BERT-base,Chinese中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词。故采用哈工大讯飞联合实验室发布的Bert-wmm预训练语言模型。该模型将全词Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练。将步骤1.3中预处理好的训练集喂入该模型进行处理,获取由基础语义词向量表示的原始文本。
步骤3:对待分析的中文短文本语料集进行上述预处理,使用情感增强词库对预处理后的待分析的中文短文本语料集进行处理,处理后使用Bert进行处理,得到由增强情感词向量表示的增强后文本。
将预处理好的待分析的中文短文本语料集结合构建好的情感语言库根据如下规则进行情感增强:
(1)若当前词语为情感词,直接将该词加入到该条句子的末尾。
(2)若当前词语为程度副词,后接情感词,则将二者作为一个整体加入到该句的末尾;若该整体已存在于句子末尾,则不进行重复添加。
(3)若当前词语为否定词,后接情感词,则将二者作为一个整体加入到该条句子的末尾;若该整体已存在于句子末尾,则不进行重复添加。
(4)若否定词后接程度副词和情感词,则将三者作为一个整体加入到句子末尾;若该整体已存在,则不进行重复添加。
将完成情感增强后的训练集喂入Bert-wmm预训练语言模型进行处理,获得由增强情感词向量表示的增强后文本。
步骤4:将由基础语义词向量表示的原始文本输入到BiGRU+Self-Attention模型中进行上下文语义特征的提取;
门控循环单元(Gated recurrent unit,GRU)是一种对LSTM改进的深度网络模型。GRU最大的优点在于很好地解决了循环神经网络中的长期依赖问题,且被认为更易于计算和实施。它保留了LSTM对解决梯度消失问题的优点,但内部结构更简单,只有2个控制门:更新门和重置门。GRU神经网络的参数比LSTM减少了1/3,不易产生过拟合,同时由于采取对Cell融合和其他一些改进,在收敛时间和需要的迭代次数上更胜一筹。单向GRU在使用时是从上文向下文推进的,容易导致后面的词比前面的词更重要,而双向GRU(BiGRU)通过增加从后往前传递信息的隐藏层,能更充分利用上下文信息,克服了这一缺陷。
将由基础语义词向量表示的原始文本投入BiGRU进行上下文语义特征的提取。给定一个n维输入(x1,x2,…,xn),其中xt(t=1,2,…,n)是词向量。在t时刻:BGRU的输出由两个相反方向的GRU共同组合决定。具体的计算公式如下:
Figure BDA0002885683450000071
Figure BDA0002885683450000072
Figure BDA0002885683450000073
其中
Figure BDA0002885683450000074
Figure BDA0002885683450000075
分别表示GRU向前传播的输出和向后传播的输出;y表示BiGRU的输出;W表示权重矩阵;b表示偏置向量;σ表示sigmoid激活函数。
将BiGRU层的输出接Self-Attention层,使模型在训练时聚焦到数据中的重要信息,以捕获更直接的语义依赖关系。注意力机制可以得到稀疏数据中的重要特征,其本质是一个query(Q)到一系列(key(K)-value(V))键值对的映射,首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重;其次通过softmax函数对计算得出的权重进行归一化处理;最后将权重和与之相对应的value加权求和得出最后的Attention。当K=V=Q时,即自注意力机制Self-Attention计算公式为:
Figure BDA0002885683450000081
其中Q∈Rn是BiGRU的n维输出向量,
Figure BDA0002885683450000082
是调节因子,一般为词向量的维度,用于避免因QKT内积结果过大导致Softmax不是1就是0的情况。最终输出原始文本的上下文语义特征Vc。
步骤5:将由增强情感词向量表示的增强后文本输入到BiGRU+Self-Attention模型进行上下文语义特征的提取,其提取过程与由基础语义词向量表示的原始文本的上下文语义特征提取过程相同,得到增强后文本的上下文语义特征Ve。
注意力机制可以得到稀疏数据中的重要特征,其本质是一个query(Q)到一系列(key(K)-value(V))键值对的映射,首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重;其次通过Softmax函数对计算得出的权重进行归一化处理;最后将权重和与之相对应的value加权求和得出最后的Attention。当K=V=Q时,即自注意力机制。处理文本时会直接将一个句子中任意两个单词的联系通过一个计算步骤直接联系起来,获取句子内部的词依赖关系、句子的内部结构以及同一个句子中单词之间的一些句法特征或者语义特征,更有利于有效地获取远距离相互依赖的特征。
步骤6:情感极性预测
如图2所示,将步骤4和步骤5获取的原始文本的上下文语义特征Vc和增强后文本的上下文语义特征Ve进行拼接,得到最终情感特征向量,输入Softmax分类器进行情感极性预测,其具体过程为:
将Vc和Ve采用行连接的方式进行特征融合,从而构建文本整体的情感特征向量。最终构建一个(rs+re)×c的矩阵V^,生成最终情感特征向量,其中rs和re分别为Vc和Ve的行数,c为Vc和Ve的列数。将特征融合层生成的情感特征向量V^输入Softmax分类器,从而得到模型最终预测的情感分类结果。计算公式为:
p=Softmax(waV^+ba)
其中:wa为权重系数矩阵,ba为偏置矩阵,p为输出的预测情感标签。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种中文短文本情感倾向性分析方法,其特征在于,
获取待分析的中文短文本语料集;
将中文短文本语料集输入到预先构建的情感分类模型,输出对应的情感极性;
所述预先构建的情感分类模型的处理过程包括:
利用预先获取的语言模型对中文短文本语料集进行基础语义处理,得到由基础语义词向量表示的原始文本;
利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本;
提取由基础语义词向量表示的原始文本的上下文语义特征;
提取由增强情感词向量表示的增强后文本的上下文语义特征;
将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接,得到最终的情感特征向量;
将情感特征向量输入到分类模型,输出对应的情感极性。
2.根据权利要求1所述的中文短文本情感倾向性分析方法,其特征在于,所述语言模型采用Bert-wmm语言模型。
3.根据权利要求1所述的中文短文本情感倾向性分析方法,其特征在于,所述利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理,得到由增强情感词向量表示的增强后文本的过程包括:
利用预先获取的情感增强词库对中文短文本语料集根据如下过程进行情感增强:
遍历中文短文本语料集;
若遍历到的中文短文本语料集的当前词语为情感词,直接将该词语加入到该词语所在句子的末尾;
若遍历到的中文短文本语料集的当前词语为程度副词,后接情感词,则将二者作为一个整体加入到该词语所在句子的末尾;若该整体已存在于句子末尾,则不进行重复添加;
若遍历到的中文短文本语料集的当前词语为否定词,后接情感词,则将二者作为一个整体加入到该词语所在句子的末尾;若该整体已存在于句子末尾,则不进行重复添加;
若遍历到的中文短文本语料集的否定词后接程度副词和情感词,则将三者作为一个整体加入到该词语所在句子末尾;若该整体已存在,则不进行重复添加;
利用Bert-wmm语言模型对完成情感增强后的中文短文本语料集进行处理,获得增强情感词向量表示的增强后文本。
4.根据权利要求1所述的中文短文本情感倾向性分析方法,其特征在于,所述提取由基础语义词向量表示的原始文本的上下文语义特征的过程包括:
利用BiGRU+Self-Attention模型对由基础语义词向量表示的原始文本进行特征提取,得到原始文本的上下文语义特征。
5.根据权利要求1所述的中文短文本情感倾向性分析方法,其特征在于,所述提取由增强情感词向量表示的增强后文本的上下文语义特征的过程包括:
利用BiGRU+Self-Attention模型对由增强情感词向量表示的增强后文本进行特征提取,得到增强后文本的上下文语义特征。
6.根据权利要求1所述的中文短文本情感倾向性分析方法,其特征在于,所述将情感特征向量输入到预先构建的情感分类模型,输出对应的情感极性的过程包括:
将Vc和Ve采用行连接的方式进行特征融合,构建文本整体的情感特征向量;
根据文本整体的情感特征向量构建(rs+re)×c的矩阵V^,矩阵V^为最终情感特征向量,其中rs和re分别为Vc和Ve的行数,c为Vc和Ve的列数,Vc和Ve分别表示原始文本的上下文语义特征和增强后文本的上下文语义特征;
将特征融合层生成的情感特征向量V^输入到Softmax分类模型,得到最终预测的情感分类结果;
Softmax分类模型的计算公式为:
p=Softmax(waV^+ba)
其中:wa为权重系数矩阵,ba为偏置矩阵,p为输出的预测情感标签。
7.根据权利要求6所述的中文短文本情感倾向性分析方法,其特征在于,所述情感分类模型的确定过程包括:
获取历史中文短文本语料集,对历史中文短文本语料集进行预处理,得到训练集和测试集;
采用反向传播算法训练BiGRU+Self-Attention模型和Softmax模型的网络参数,反向传播算法的损失函数采用交叉熵函数,训练目标为最小化训练集中已知情感类别和预测情感类别的交叉熵,交叉熵计算公式为:
Figure FDA0002885683440000031
式中:M为训练集,N为情感标签的类别数,y为实际情感类别,
Figure FDA0002885683440000032
为预测情感类别,λ为L2正则化系数,θ为设置的参数,i=1,2,…M,j=1,2,…N;
完成模型训练后,使用测试集评估模型泛化性能,采用评估指标F1值进行模型评估,若F1值在0.9以上,则符合需求,获得最终情感分类模型;若低于0.9,则调整模型超参数,继续训练模型。
CN202110012984.5A 2021-01-06 2021-01-06 一种中文短文本情感倾向性分析方法 Active CN112784041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110012984.5A CN112784041B (zh) 2021-01-06 2021-01-06 一种中文短文本情感倾向性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110012984.5A CN112784041B (zh) 2021-01-06 2021-01-06 一种中文短文本情感倾向性分析方法

Publications (2)

Publication Number Publication Date
CN112784041A true CN112784041A (zh) 2021-05-11
CN112784041B CN112784041B (zh) 2022-12-30

Family

ID=75755632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110012984.5A Active CN112784041B (zh) 2021-01-06 2021-01-06 一种中文短文本情感倾向性分析方法

Country Status (1)

Country Link
CN (1) CN112784041B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535899A (zh) * 2021-07-07 2021-10-22 西安康奈网络科技有限公司 一种针对互联网信息情感倾向性的自动研判方法
CN114239590A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 一种数据处理方法及装置
CN116089602A (zh) * 2021-11-04 2023-05-09 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427670A (zh) * 2018-04-08 2018-08-21 重庆邮电大学 一种基于语境词向量和深度学习的情感分析方法
CN109710761A (zh) * 2018-12-21 2019-05-03 中国标准化研究院 基于注意力增强的双向lstm模型的情感分析方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535899A (zh) * 2021-07-07 2021-10-22 西安康奈网络科技有限公司 一种针对互联网信息情感倾向性的自动研判方法
CN113535899B (zh) * 2021-07-07 2024-02-27 西安康奈网络科技有限公司 一种针对互联网信息情感倾向性的自动研判方法
CN116089602A (zh) * 2021-11-04 2023-05-09 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN116089602B (zh) * 2021-11-04 2024-05-03 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质和程序产品
CN114239590A (zh) * 2021-12-01 2022-03-25 马上消费金融股份有限公司 一种数据处理方法及装置
CN114239590B (zh) * 2021-12-01 2023-09-19 马上消费金融股份有限公司 一种数据处理方法及装置
CN116257623A (zh) * 2022-09-07 2023-06-13 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备
CN116257623B (zh) * 2022-09-07 2023-11-28 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备

Also Published As

Publication number Publication date
CN112784041B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
Long et al. Sentiment analysis of text based on bidirectional LSTM with multi-head attention
CN112784041B (zh) 一种中文短文本情感倾向性分析方法
Huang et al. Lexicon-based sentiment convolutional neural networks for online review analysis
CN110347836B (zh) 融入观点句特征的汉越双语新闻情感分类方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN113673254B (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
Zhang Research on text classification method based on LSTM neural network model
Bikku et al. Deep learning approaches for classifying data: a review
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Rauf et al. Using bert for checking the polarity of movie reviews
Yan et al. Leveraging contextual sentences for text classification by using a neural attention model
CN115658890A (zh) 基于主题增强的情感共注意力bert模型的中文评论分类方法
CN116578705A (zh) 基于预训练语言模型与集成神经网络的微博情感分类方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Huang A CNN model for SMS spam detection
Zhang et al. Bidirectional long short-term memory for sentiment analysis of Chinese product reviews
Ermatita et al. Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks.
Wang et al. W-RNN: news text classification based on a weighted RNN
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant