CN108415972A - 文本情感处理方法 - Google Patents
文本情感处理方法 Download PDFInfo
- Publication number
- CN108415972A CN108415972A CN201810129815.8A CN201810129815A CN108415972A CN 108415972 A CN108415972 A CN 108415972A CN 201810129815 A CN201810129815 A CN 201810129815A CN 108415972 A CN108415972 A CN 108415972A
- Authority
- CN
- China
- Prior art keywords
- result
- processing
- mapping
- lstm
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种文本情感处理方法,能够获得更好的特征表示,从而更精准的进行感情分类。该方法包括获取句子文本;卷积通道CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达,得到第一处理结果;将所述句子文本进行映射处理,得到映射结果,长短期记忆通道LSTM对所述映射结果进行处理,得到第二处理结果;将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算。本发明实施例对句子文本进行卷积通道处理及长短期记忆通道处理,并将两处理结果进行整合,从而能够获得更好的特征表示,便于更精准的进行感情分类。
Description
技术领域
本发明涉及文本处理领域,尤其涉及一种文本情感处理方法。
背景技术
情感分析任务主要是对包含用户表示的观点,喜好,情感等主体性文本进行检测识别,分析和挖掘。
文本情感分析是情感分析的一个研究领域,其主要通过特征表示进行情感分类,因此特征表示对后期的情感分类至关重要。
发明内容
本发明实施例提供一种文本情感分类方法,能够获得更好的特征表示,从而更精准的进行感情分类。
本发明实施例采用如下技术方案:
一种文本情感处理方法,包括:
获取句子文本;
卷积通道CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达,得到第一处理结果;
将所述句子文本进行映射处理,得到映射结果,长短期记忆通道LSTM对所述映射结果进行处理,得到第二处理结果;
将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算。
可选的,所述将所述句子文本进行映射处理包括:
将所述句子文本进行word2vec的高维映射。
可选的,所述LSTM对所述映射结果进行处理包括:
所述LSTM将所述映射结果进行循环计算并将计算的结果的最后一个LSTM单元的隐含层输出作为核心特征;
针对该特征与全局的特征进行attention(注意力机制)计算,attention可以针对每个词的hidden进行权重计算,得到权重的值;
根据所述权重的值,将每个单元的hidden(隐含层)输出进行加权平均计算,得到计算值;
将所述计算值与LSTM最后一个单元的输出做融合。
可选的,选取LSTM的最后一个单元的隐含层节点作为句子的全局信息抽取和表达。
可选的,所述将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算包括:
将所述全连接后映射到具体task(任务)的分类维度,所述CNN及所述 LSTM模型训练的过程中,采用对结果的误差进行所述CNN及所述LSTM的并行反向调整网络。
可选的,所述CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达包括:
由于近期针对文本的分类问题的处理,采用CNN针对文本的特征进行抽取在诸多问题上获得较好的收益,CNN在局部信息抽取时,采用多尺寸卷积核的卷积操作,不同大小的卷积核表示抽取局部信息的上下文N-Gram(N元词)的特征。
可选的,采用卷积的窗口大小为2和/或3和/或4。
可选的,抽取局部信息时抽取二元词,三元词,四元词的信息融合。
基于上述技术方案的文本情感处理方法,通过获取句子文本,卷积通道针对句子文本进行局部信息抽取,并将抽取的信息进行全连接表达得到第一处理结果,将句子文本进行映射处理得到映射结果,长短期记忆通道对所述映射结果进行处理得到第二处理结果,将第一处理结果与第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算,从而对句子文本进行卷积通道处理及长短期记忆通道处理,并将两处理结果进行整合,从而能够获得更好的特征表示,便于更精准的进行感情分类。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的一种文本情感处理方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
实施例1
如图1所示,本发明实施例提供一种文本情感处理方法,该方法包括:
11、获取句子文本。
12、CNN(卷积通道,Convolutional Neural Networks)针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达,得到第一处理结果。
13、将所述句子文本进行映射处理,得到映射结果,LSTM(长短期记忆通道,LongShort-Term Memory)对所述映射结果进行处理,得到第二处理结果;
14、将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算。
本发明实施例的文本情感处理方法,通过获取句子文本,卷积通道针对句子文本进行局部信息抽取,并将抽取的信息进行全连接表达得到第一处理结果,将句子文本进行映射处理得到映射结果,长短期记忆通道对所述映射结果进行处理得到第二处理结果,将第一处理结果与第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算,从而对句子文本进行卷积通道处理及长短期记忆通道处理,并将两处理结果进行整合,从而能够获得更好的特征表示,便于更精准的进行感情分类。
本发明实施例中,可选的,所述将所述句子文本进行映射处理包括:
将所述句子文本进行word2vec的高维映射。
本发明实施例中,可选的,所述LSTM对所述映射结果进行处理包括:
LSTM将所述映射结果进行循环计算并将计算的结果的最后一个LSTM单元的隐含层输出作为核心特征;
针对该特征与全局的特征进行attention(注意力机制)计算,attention可以针对每个词的hidden(隐含层)进行权重计算,得到权重的值;
根据所述权重的值,将每个单元的hidden输出进行加权平均计算,得到计算值;
将所述计算值与LSTM最后一个单元的输出做融合。
本发明实施例中,可选的,选取LSTM的最后一个单元的隐含层节点作为句子的全局信息抽取和表达。
本发明实施例应用LSTM作为长短期记忆全局信息的特征抽取,选取 LSTM的最后一个单元的隐含层节点作为句子的全局信息抽取和表达,在文本序列问题上效果较佳,在文本的特征抽取表达上是获得了较好的结果。
本发明实施例中,可选的,所述将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算包括:
将所述全连接后映射到具体task(任务)的分类维度,所述CNN及所述 LSTM模型训练的过程中,采用对结果的误差进行所述CNN及所述LSTM的并行反向调整网络。
本发明实施例将第一处理结果与所述第二处理结果进行几何融合,针对句子的原始输入,首先进行word2vec的高维映射,并将映射的结果分别放到 LSTM作为原始的信息输入,CNN针对输入信息进行局部信息抽取,并将抽取的信息进行全连接表达得到第一处理结果。LSTM将原始输入进行循环计算并将计算的结果的最后一个LSTM单元的隐含层输出作为核心特征,针对该特征与全局的特征进行attention计算,attention可以针对每个词的hidden进行权重计算,根据该权重的值,将每个单元的hidden输出进行加权平均计算,将该计算值与LSTM最后一个单元的输出做融合得到第二处理结果。本发明实施例提供的特征融合方案,最终体现在将第一处理结果和得到第二处理结果进行融合,全连接后映射到具体task的分类维度,采用对结果的误差进行两模型的并行反向调整网络,最终训练一个更加鲁棒的模型。
本发明实施例中,可选的,所述CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达包括:
由于近期针对文本的分类问题的处理,采用CNN针对文本的特征进行抽取在诸多问题上获得较好的收益,CNN在局部信息抽取时,采用多尺寸卷积核的卷积操作,不同大小的卷积核表示抽取局部信息的上下文N-Gram(N元词)的特征。
本发明实施例中,可选的,采用卷积的窗口大小为2和/或3和/或4。
本发明实施例中,可选的,抽取局部信息时抽取二元词,三元词,四元词的信息融合。
本发明实施例采用CNN针对文本的特征进行抽取在诸多问题上获得较好的收益,CNN作文本的处理类似于一个局部特征的抽取,本发明实施例采用多尺寸卷积核的卷积操作,不同大小的卷积核表示抽取局部信息的上下文 N-Gram(N元词)的特征。本发明实施例采用多尺寸的卷积结果的融合结果作为整体的信息抽取表达。例如,本发明实施例中采用卷积的窗口大小为2,3, 4相当于抽取二元词,三元词,四元词的信息融合。
为了能够提取更好的文本特征,提出一种基于神经网络的输出融合层的混合模型。该模型主要由两部分组成,选择CNN作为语义信息的特征提取器,将时间序列模型LSTM作为上下文语义结构的映射器,协同训练双通道模型,并融合这两者的输出特征进行分类。
本发明实施例提出的特征优于单一的传统神经网络所提取出的特征,保留原始数据的特征,不会丢失相关特征,优于串行的混合神经网络模型,单一神经网络模型,和传统的情感分类方法。
本发明实施例在具体实施过程中,采用CNN和LSTM分别充当局部特征抽取器和全局特征抽取器对输入句子进行建模,将两者的特征进行几何融合,融合的结果进行具体任务相关的工作。从而提供一个更加鲁棒性的特征抽取方式,基于卷积和循环神经网络的特点和优缺点,定制了该融合模型的特征抽取方式,以便能够获得更好的特征表示。
本发明实施例的文本情感处理方法,通过获取句子文本,卷积通道针对句子文本进行局部信息抽取,并将抽取的信息进行全连接表达得到第一处理结果,将句子文本进行映射处理得到映射结果,长短期记忆通道对所述映射结果进行处理得到第二处理结果,将第一处理结果与第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算,从而对句子文本进行卷积通道处理及长短期记忆通道处理,并将两处理结果进行整合,从而能够获得更好的特征表示,便于更精准的进行感情分类。
本发明实施例的文本情感处理方法,通过获取句子文本,卷积通道针对句子文本进行局部信息抽取,并将抽取的信息进行全连接表达得到第一处理结果,将句子文本进行映射处理得到映射结果,长短期记忆通道对所述映射结果进行处理得到第二处理结果,将第一处理结果与第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算,从而对句子文本进行卷积通道处理及长短期记忆通道处理,并将两处理结果进行整合,从而能够获得更好的特征表示,便于更精准的进行感情分类。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种文本情感处理方法,其特征在于,包括:
获取句子文本;
卷积通道CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达,得到第一处理结果;
将所述句子文本进行映射处理,得到映射结果,长短期记忆通道LSTM对所述映射结果进行处理,得到第二处理结果;
将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算。
2.根据权利要求1所述的方法,其特征在于,所述将所述句子文本进行映射处理包括:
将所述句子文本进行word2vec的高维映射。
3.根据权利要求1所述的方法,其特征在于,所述LSTM对所述映射结果进行处理包括:
所述LSTM将所述映射结果进行循环计算并将计算的结果的最后一个LSTM单元的隐含层输出作为核心特征;
针对该特征与全局的特征进行注意力机制attention计算,attention可以针对每个词的hidden进行权重计算,得到权重的值;
根据所述权重的值,将每个单元的隐含层hidden输出进行加权平均计算,得到计算值;
将所述计算值与LSTM最后一个单元的输出做融合。
4.根据权利要求3所述的方法,其特征在于,选取LSTM的最后一个单元的隐含层节点作为句子的全局信息抽取和表达。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一处理结果与所述第二处理结果进行几何拼接,将拼接之后的结果做分类回归计算包括:
将所述全连接后映射到具体任务task的分类维度,所述CNN及所述LSTM模型训练的过程中,采用对结果的误差进行所述CNN及所述LSTM的并行反向调整网络。
6.根据权利要求1所述的方法,其特征在于,所述CNN针对所述句子文本进行局部信息抽取,并将抽取的信息进行全连接表达包括:
CNN在局部信息抽取时,采用多尺寸卷积核的卷积操作,不同大小的卷积核表示抽取局部信息的上下文N元词N-Gram的特征。
7.根据权利要求6所述的方法,其特征在于,采用卷积的窗口大小为2和/或3和/或4。
8.根据权利要求6所述的方法,其特征在于,抽取局部信息时抽取二元词,三元词,四元词的信息融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810129815.8A CN108415972A (zh) | 2018-02-08 | 2018-02-08 | 文本情感处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810129815.8A CN108415972A (zh) | 2018-02-08 | 2018-02-08 | 文本情感处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108415972A true CN108415972A (zh) | 2018-08-17 |
Family
ID=63128031
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810129815.8A Pending CN108415972A (zh) | 2018-02-08 | 2018-02-08 | 文本情感处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415972A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN109408805A (zh) * | 2018-09-07 | 2019-03-01 | 青海大学 | 一种基于混合深度学习的藏文情感分析方法及系统 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110032645A (zh) * | 2019-04-17 | 2019-07-19 | 携程旅游信息技术(上海)有限公司 | 文本情感识别方法、系统、设备以及介质 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN111401508A (zh) * | 2018-12-13 | 2020-07-10 | 北京京东尚科信息技术有限公司 | 文本数据的处理方法、装置和计算机可读存储介质 |
CN111639484A (zh) * | 2020-05-15 | 2020-09-08 | 北京青牛技术股份有限公司 | 坐席通话内容的分析方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN115146607A (zh) * | 2022-09-05 | 2022-10-04 | 北京智源人工智能研究院 | 评论信息情感偏好识别模型训练方法、识别方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032221A1 (en) * | 2015-07-29 | 2017-02-02 | Htc Corporation | Method, electronic apparatus, and computer readable medium of constructing classifier for disease detection |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107368613A (zh) * | 2017-09-05 | 2017-11-21 | 中国科学院自动化研究所 | 短文本情感分析方法及装置 |
-
2018
- 2018-02-08 CN CN201810129815.8A patent/CN108415972A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032221A1 (en) * | 2015-07-29 | 2017-02-02 | Htc Corporation | Method, electronic apparatus, and computer readable medium of constructing classifier for disease detection |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107092596A (zh) * | 2017-04-24 | 2017-08-25 | 重庆邮电大学 | 基于attention CNNs和CCR的文本情感分析方法 |
CN107368613A (zh) * | 2017-09-05 | 2017-11-21 | 中国科学院自动化研究所 | 短文本情感分析方法及装置 |
Non-Patent Citations (2)
Title |
---|
XIAO SUN 等: "A Multi-granularity Data Augmentation based Fusion Neural Network Model for Short Text Sentiment Analysis", 《IEEE》 * |
成璐: "基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究", 《软件工程》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408805A (zh) * | 2018-09-07 | 2019-03-01 | 青海大学 | 一种基于混合深度学习的藏文情感分析方法及系统 |
CN109299268A (zh) * | 2018-10-24 | 2019-02-01 | 河南理工大学 | 一种基于双通道模型的文本情感分析方法 |
CN111401508A (zh) * | 2018-12-13 | 2020-07-10 | 北京京东尚科信息技术有限公司 | 文本数据的处理方法、装置和计算机可读存储介质 |
CN109902293A (zh) * | 2019-01-30 | 2019-06-18 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN109902293B (zh) * | 2019-01-30 | 2020-11-24 | 华南理工大学 | 一种基于局部与全局互注意力机制的文本分类方法 |
CN110032645B (zh) * | 2019-04-17 | 2021-02-09 | 携程旅游信息技术(上海)有限公司 | 文本情感识别方法、系统、设备以及介质 |
CN110032645A (zh) * | 2019-04-17 | 2019-07-19 | 携程旅游信息技术(上海)有限公司 | 文本情感识别方法、系统、设备以及介质 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN111639484A (zh) * | 2020-05-15 | 2020-09-08 | 北京青牛技术股份有限公司 | 坐席通话内容的分析方法 |
CN112699679A (zh) * | 2021-03-25 | 2021-04-23 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN112699679B (zh) * | 2021-03-25 | 2021-06-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置、电子设备及存储介质 |
CN115146607A (zh) * | 2022-09-05 | 2022-10-04 | 北京智源人工智能研究院 | 评论信息情感偏好识别模型训练方法、识别方法及设备 |
CN115146607B (zh) * | 2022-09-05 | 2022-11-04 | 北京智源人工智能研究院 | 评论信息情感偏好识别模型训练方法、识别方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415972A (zh) | 文本情感处理方法 | |
CN110162636B (zh) | 基于d-lstm的情绪原因识别方法 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN104050160B (zh) | 一种机器与人工翻译相融合的口语翻译方法和装置 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN103577989B (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN105243055B (zh) | 基于多语言的分词方法和装置 | |
CN105589844A (zh) | 一种用于多轮问答系统中缺失语义补充的方法 | |
CN110781273B (zh) | 文本数据处理方法、装置、电子设备及存储介质 | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN109492101A (zh) | 基于标签信息与文本特征的文本分类方法、系统及介质 | |
CN110008335A (zh) | 自然语言处理的方法及装置 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN109034203A (zh) | 表情推荐模型的训练、表情推荐方法、装置、设备及介质 | |
CN103955451A (zh) | 一种判别短文本情感倾向性的方法 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN110309114A (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
CN109857846A (zh) | 用户问句与知识点的匹配方法和装置 | |
CN105446955A (zh) | 一种自适应的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180817 |
|
RJ01 | Rejection of invention patent application after publication |