CN113434682A - 文本情感分析方法、电子装置及存储介质 - Google Patents
文本情感分析方法、电子装置及存储介质 Download PDFInfo
- Publication number
- CN113434682A CN113434682A CN202110744167.9A CN202110744167A CN113434682A CN 113434682 A CN113434682 A CN 113434682A CN 202110744167 A CN202110744167 A CN 202110744167A CN 113434682 A CN113434682 A CN 113434682A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- vector
- input text
- dependency
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 104
- 238000004458 analytical method Methods 0.000 title claims abstract description 96
- 239000013598 vector Substances 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000010354 integration Effects 0.000 abstract 1
- 238000012549 training Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种文本情感分析方法、电子装置及存储介质,属于自然语言处理技术领域。该方法包括:获取输入文本,输入文本包括多个第一词汇。对输入文本进行语义分析,得到多个词汇特征向量,以及,对输入文本进行依存句法分析,得到各个第一词汇对应的依存句法信息。根据多个词汇特征向量以及各个第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量。基于多个目标特征向量进行情感分类,得到输入文本对应的情感分析结果。本发明的技术方案,其可实现融合输入文本中词汇之间的依存关系,并通过采用句法信息加权识别句法信息中的噪声,有利于提升文本情感分析的准确度。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本情感分析方法、电子装置及存储介质。
背景技术
在证券交易中,投资者会根据自身占有的信息追求投资利益最大化,因此,投资者掌握的信息量越多且越精确,预期回报将越高。国内一些门户网站每日都发布了大量的股评信息、研究报告以及论坛帖子等。面对互联网上的海量数据,投资者迫切需要一个有效的工具从海量数据中自动抽取精简、明确的信息,特别是股评观点的倾向性分析,从而通过感知投资者情绪来预测市场的波动趋势。
现有方式中,主要是利用训练好的深度学习模型对输入文本进行情感分析,得到输入文本的感情倾向。然而,现有的深度学习模型是对文本中所有词汇依赖关系进行同样的建模,容易导致文本情感分析的准确度较低。
发明内容
本发明提供一种文本情感分析方法、电子装置及存储介质,其主要目的在于提高文本情感分析的准确度。
为实现上述目的,本发明实施例提供了一种文本情感分析方法,所述方法包括以下步骤:获取输入文本,所述输入文本包括多个第一词汇;对所述输入文本进行语义分析,得到多个词汇特征向量,以及,对所述输入文本进行依存句法分析,得到各个所述第一词汇对应的依存句法信息;根据多个所述词汇特征向量以及各个所述第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量;基于多个所述目标特征向量进行情感分类,得到所述输入文本对应的情感分析结果。
为实现上述目的,本发明实施例还提出了一种电子装置,所述电子装置包括获取模块、第一分析模块、第二分析模块、计算模块以及第三分析模块,其中:获取模块用于获取输入文本,所述输入文本包括多个第一词汇。第一分析模块用于对所述输入文本进行语义分析,得到多个词汇特征向量。第二分析模块用于对所述输入文本进行依存句法分析,得到各个所述第一词汇对应的依存句法信息。计算模块用于根据多个所述词汇特征向量以及各个所述第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量。第三分析模块用于基于多个所述目标特征向量进行情感分类,得到所述输入文本对应的情感分析结果。
为实现上述目的,本发明实施例还提出了一种电子装置,所述电子装置包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现前述方法的步骤。
为实现上述目的,本发明提供了一种存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述方法的步骤。
本发明提出的文本情感分析方法、电子装置及存储介质,既对输入文本进行语义分析以得到多个词汇特征向量,还通过对输入文本进行依存句法分析,得到输入文本中各个词汇对应的依存句法信息,由于依存句法信息用于表示词汇之间的依存句法关系,因此可以根据各个词汇之间依存句法关系对词汇特征向量分析的贡献进行加权计算,得到多个目标特征向量以用于情感分类,故最终的情感分析结果可以融合输入文本中词汇之间的依存关系,并通过采用句法信息加权识别句法信息中的噪声,有利于提升文本情感分析的准确度。
附图说明
图1是本发明实施例所应用的一种电子装置的结构框图。
图2是本发明实施例一提供的文本情感分析方法的流程图。
图3是本发明实施例二提供的文本情感分析方法的流程图。
图4是本发明实施例中一种文本情感分析方法的应用示意图。
图5是本图3所示文本情感分析方法中步骤S360的具体流程图。
图6是本发明实施例所应用的另一种电子装置的结构框图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明提供一种文本情感分析方法,应用于一种电子装置。参照图1所示,图1是本发明实施例所应用的一种电子装置的结构框图。
在本实施例中,电子装置可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置包括:存储器11、处理器12、网络接口13及数据总线14。
存储器11包括至少一种类型的可读存储介质,至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置的内部存储单元,例如该电子装置的硬盘。在另一些实施例中,可读存储介质也可以是电子装置的外部存储器,例如电子装置上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置的文本情感分析程序10、多种样本集及预先训练好的特征词提取模型、语义分析模型、依存句法解析模型、预测器、情感分类器和编码器等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本情感分析程序等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置与其他电子设备之间建立通信连接。
数据总线14用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-14的电子装置,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置的显示器的面积可以与触摸传感器的面积相同,也可以不同。可选地,将显示器与触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
下面对本发明实施例公开的一种文本情感分析方法进行具体说明。
实施例一
如图2所示,图2是本发明实施例一提供的文本情感分析方法的流程图。基于图1所示的装置实施例,处理器12执行存储器11中存储的文本情感分析程序10时实现如下步骤:
步骤S210:获取输入文本,输入文本包括多个第一词汇。
本实施例中,输入文本可以是待分析的句子,或者,输入文本还可以是句子与指定的特征词汇,对输入文本的类型不做限定。具体地,特征词汇可以是句子中的方面特征词,适用于方面级文本情感分析,比如,句子“这个设备功能齐全但电池寿命较短”中,方面特征词可以是“功能”或“电池寿命”,若方面特征词为“功能”,则句子情感为积极的,若方面特征词为“电池寿命”,则句子情感为消极的,从而推断出句子在某一方面特征的情感倾向。
可选地,可以基于待分析文本获取输入文本。其中,待分析文本可以是利用搜索引擎或者爬虫软件从互联网获取的文本数据,或者是从本地文档中获取的文本数据,再或者是在用户界面的功能模块(比如输入文本框)中输入的文本数据。如果输入文本还包括特征词汇,一些实施方式中,可以直接利用训练得到的特征词提取模型从待分析文本中提取特征词汇,比如,特征词提取模型可基于词性标注的自然语言处理数据集训练得到,比如斯坦福核心数据集;另一些实施方式中,可以获取用户通过触摸显示屏或者输入单元输入的特征词汇,还可以获取用户通过语音输入装置输入的语音数据,再基于语音识别技术从语音数据中识别出特征词汇,便于用户根据自身需求指定用于分析的方面特征。
步骤S220:对输入文本进行语义分析,得到多个词汇特征向量。
本实施例中,多个词汇特征向量与输入文本所包含的词汇一一对应。可选地,可以利用预先训练的语义分析模型对输入文本进行语义分析,则语义分析模型的训练步骤包括:准备包括一定数量的文本样本的第一训练集,并将文本样本中各个词汇的嵌入向量加入相应的第一验证集,嵌入向量可以是结合词汇在文本中的上下文语义对词汇转换得到的固定长度的向量表示。利用第一训练集训练神经网络,得到神经网络对各个词汇输出的特征向量,利用第一验证集验证相应词汇的特征向量的准确率,若准确率大于或等于预设准确率,则训练结束,若准确率小于预设准确率,则继续增加样本数量并重新执行训练步骤。其中,神经网络可以采用卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural network,RNN)、长短期记忆网络(long short term memory,LSTM)或者门循环单元(gate recurrent unit,GRU)网络,对此不做具体限定。
步骤S230:对输入文本进行依存句法分析,得到各个第一词汇对应的依存句法信息。
本实施例中,依存句法信息用于表示各个第一词汇与输入文本中其他词汇之间的依存关系,一个依存关系连接两个词汇,分别是核心词和依存词。依存关系可以细分为不同的类型,表示两个词汇之间的具体句法关系,且依存关系类型可以包括但不限于主谓关系、动宾关系、间宾关系、前置宾语、兼语、定中关系、状中结构、动补结构、并列关系、核心结构、独立结构和介宾关系等。
可选地,对输入文本进行依存句法分析具体可以采用基于规则的方法(比如CYK的动态规划算法、基于约束满足的方法和确定性分析策略等)、基于统计的方法(比如生成式依存分析方法、判别式依存分析方法和确定性依存分析方法等)或者基于深度学习的方法(比如利用Biaffine句法解析器、HanLP等现有的句法分析工具)等。
步骤S240:根据多个词汇特征向量以及各个第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量。
步骤S250:基于多个目标特征向量进行情感分类,得到输入文本对应的情感分析结果。
可选地,步骤S250具体可以为:将多个目标特征向量输入预先确定的情感分类器,得到从输入文本中识别出每种情感类型的概率,取概率最大的情感类型作为输入文本对应的情感分析结果。其中,情感类型可以包括但不限于积极、消极和中立。
具体地,情感分类器的训练步骤包括:对上述第一训练集中各个文本样本进行情感分类,得到各个文本样本的情感标签。取第一训练集中各个文本样本经过上述语义分析、依存句法分析以及加权计算后获得的特征向量,以作为第二训练集,并将各个文本样本的情感标签作为第二验证集。利用第二训练集对情感分类器进行训练,并利用第二验证集对情感分类器的输出结果进行准确率验证,若准确率大于或者等于第一准确率,则训练结束,或者,若准确率小于第一准确率,则增加文本样本的数量并重新执行上述训练步骤。
示例性的,假设将多个目标特征向量输入预先确定的情感分类器后,识别出每种情感类型的概率(取值范围为:0-1)各不相同,例如,积极:0.5、消极:0.4、中立:0.1。可见,从输入文本中识别出“积极”的概率最大,则确定输入文本对应的情感分析结果为“积极”。
更具体地,情感分类器可包括密集层,密集层可用于对特征向量进行全连接计算和softmax计算从而得到每种情感类型的概率,计算公式如下所示:
其中,T为情感类型集合,|T|用于表示情感类型集合对应的维度总数,比如情感类型集合包括积极、消极以及中立,则|T|=3;W为权重矩阵,b为偏置值,W和b均属于可训练的情感分类器参数,并用于将u的维度与输出空间对齐,u的每一种维度对应于一种情感类型,ut代表u中第t维度对应的取值,st为第t维度对应的softmax计算结果。进一步的,取y=argmax(st),即可将概率最大的情感类型作为情感分析结果y。
可以理解的是,上述实施例中提及的预设准确率和第一准确率等需要预先设置的参数,可根据用户需求进行相应调整。
可见,实施上述方法实施例,根据各个词汇之间依存句法关系对词汇特征向量分析的贡献进行加权计算,得到多个目标特征向量以用于情感分类,故最终的情感分析结果可以融合输入文本中词汇之间的依存关系,并通过采用句法信息加权识别句法信息中的噪声,有利于提升文本情感分析的准确度。
实施例二
如图3所示,图3是本发明实施例二提供的文本情感分析方法的流程图。基于图1所示的电子装置实施例,处理器12执行存储器11中存储的文本情感分析程序10时实现如下步骤:
步骤S310:获取输入文本,输入文本包括多个第一词汇;分别执行步骤S320~步骤S330,以及步骤S340~步骤S350。
步骤S320:根据输入文本,构建处理序列。
本实施例中,处理序列包括文本初始符和上述多个第一词汇。具体地,可以先对输入文本进行字词标记化(Tokenization)处理,得到多个第一词汇,再结合文本初始符,与多个第一词汇构成处理序列。其中,字词标记化处理的算法可以采用条件随机场(CRF)分词算法或者基于隐马尔可夫模型(Hidden Markov Model,简称HMM)的分词算法等,对此不做限定。一种实现方式中,如果输入文本包括句子X,分词后X={x1,x2,...,xn},则句子X包括n个第一词汇,n为正整数。处理序列可为{[CLS],X,[SEP]},[CLS]为文本初始符,用于标识一个句子的开头。相应的,处理序列还可以包括文本结尾符[SEP],用于标识一个句子的结尾。另一种实现方式中,如果输入文本包括句子X和方面特征词A,分词后A={a1,a2,...,am},A是X的子串,m为正整数,则处理序列可为{[CLS],X,[SEP],A,[SEP]}。
步骤S330:对处理序列进行语义分析,得到多个第一词汇各自对应的词汇特征向量以及文本初始符对应的隐藏特征向量;执行步骤S360。
本实施例中,具体地,可以利用BERT模型对输入文本构建处理序列,并对处理序列进行语义分析,则BERT(X,A)=[h0,HX,HX],其中,h0为文本初始符[CLS]的隐藏特征向量,HX和HA分别为句子X和方面特征词A的单词嵌入矩阵。示例性的,请参阅图4,图4是本发明实施例中一种文本情感分析方法的应用示意图。如图4所示,输入文本包括句子“Totalenvironment is fantastic although bar service is poor”及方面特征词“barservice”,则构建处理序列为{[CLS],Total,environment,is,fantastic,although,bar,service,is,poor,[SEP],bar,service,[SEP]}。将该处理序列输入BERT模型后,得到文本初始符的隐藏特征向量h0以及11个第一词汇的词汇特征向量(即,单词嵌入矩阵)h1至h11。
步骤S340:对输入文本进行依存句法分析,得到各个第一词汇对应的依存句法信息。
本实施例中,第一词汇对应的依存句法信息可以为第一词汇对应的至少一个映射关系对象,映射关系对象包括第一对象和第二对象,第一对象和第二对象一一对应。第一对象用于表示第一词汇对应的依存关系信息,第二对象用于表示依存关系信息对应的关系类型信息。映射关系对象可以采用键值对、行列表、二维数组或者元组等,对此不做具体限定。以下均以键值对为例进行描述,此时第一对象为键,第二对象为值。
可选地,步骤S340具体可以为:对输入文本进行依存句法分析,构建依存句法树,依存句法树用于表示各个第一词汇对应的依存关系以及依存关系对应的依存关系类型。基于此,针对各个第一词汇:根据第一词汇在依存句法树中对应的依存关系,得到依存关系指示的第二词汇;根据第二词汇,构建第一词汇对应的第一对象;根据依存关系对应的依存关系类型,构建第一对象对应的第二对象;根据第一对象和第二对象,构建第一词汇对应的映射关系对象。
仍以图4为例进行说明。如图4所示,对句子“Total environment is fantasticalthough bar service is poor”进行句法分析,构建依存句法树。在该依存句法树中,词汇之间的依存关系以有向弧表示,又称作依存弧。以词汇“service”为例,与词汇“service”相关的两条依存弧分别连接于词汇“bar”和词汇“poor”,因此词汇“service”与词汇“bar”存在依存关系,其对应的依存关系类型为compound,即复合词;词汇“service”与词汇“poor”存在依存关系,其对应的依存关系类型为nsubj,即名词主语。因此,可构建词汇“service”对应的两个映射关系对象,比如键值对(bar,bar_compound)和(poor,poor_nsubj)。
可见,基于映射关系对象的结构,将词汇的依存句法信息分别存至第一对象和第二对象,不需要依赖于模型嵌入矩阵,能够通过第一对象进行寻址,并利用第二对象进行依存关系类型的读取,具有更佳的灵活变化性,适用于编码先验知识。
还可选地,可以采用预先确定的依存句法解析模型构建依存句法树,依存句法解析模型可以是二阶依存句法分析模型,比如Sibling二阶模型或者Grand-Child二阶模型等,不作具体限定。由于一阶句法知识未能有效充足且有用的上下文信息,而三阶句法知识往往过多考虑句子中的词汇,导致引入无关的上下文信息,因此本发明采用的两阶句法知识能够取得更优的依存关系分析效果。
步骤S350:针对各个第一词汇对应的依存句法信息,对依存句法信息对应的第一对象进行编码,得到第一向量,以及对依存句法信息对应的第二对象进行编码,得到第二向量;执行步骤S360。
本实施例中,第一向量用于表示第一对象的向量特征,第二向量用于表示第二对象的向量特征。具体地,可以利用预先确定的编码器对第一对象和第二对象进行编码,编码器可以是word2vec模型,对此不做限定。可见,这样能够结合词汇之间的上下文信息进行编码,并将高维词向量嵌入到一个低维空间,便于分析词汇关系,速度更快,通用性更强。
步骤S360:根据多个词汇特征向量以及各个第一词汇对应的第一向量和第二向量进行加权加算,得到多个目标特征向量。
可选地,请参阅图5,图5是本图3所示文本情感分析方法中步骤S360的具体流程图。
如图5所示,步骤S360具体可以包括以下步骤S361-步骤S363:
步骤S361:针对各个词汇特征向量,确定词汇特征向量对应的目标词汇。
步骤S362:根据词汇特征向量以及目标词汇对应的各个第一向量进行权重分配,得到目标词汇对应的各个第二向量的加权信息。
进一步可选地,步骤S362具体可以为:
将词汇特征向量和目标词汇对应的各个第一向量输入预先确定的预测器,得到词汇特征向量与目标词汇对应的各个第一向量的相关概率,以分别作为第一向量对应的第二向量的加权信息。其中,预测器可以是利用分类算法对特征向量样本集进行训练后获得的,分类算法可以是朴素贝叶斯算法、决策树算法或神经网络算法等,对此不做限定。可选地,分类算法具体可以为:
步骤S363:利用目标词汇对应的各个第二向量的加权信息,对目标词汇对应的各个第二向量进行加权求和计算,得到目标特征向量。
具体地,加权求和计算的公式可以满足:
举例来说,以图4为例,词汇“service”对应于两个映射关系对象,分别为键值对(bar,bar_compound)和(poor,poor_nsubj)。假设词汇“service”对应的词汇特征向量为h7,根据两组键值对(bar,bar_compound)和(poor,poor_nsubj),通过步骤S350可分别获得第一个第一向量第一个第二向量第二个第一向量以及第二个第二向量进一步的,通过步骤S362,求得第一个第二向量的加权信息为:
而,第二个第二向量的加权信息为:
可见,根据各个词汇之间依存关系对词汇特征向量分析的贡献,对不同依存关系类型进行加权计算,得到多个目标特征向量以用于情感分类,故最终的情感分析结果可以同时融合输入文本中词汇之间的依存关系以及具体的依存关系类型,能够进一步提升文本情感分析的准确度。
还可选地,上述步骤S350、S360以及S361至S363均可通过键值记忆网络(key-value memory networks,KVMN)模型实现,从而实现基于KVMN模型的非图结构同时对词汇之间的依存关系和依存关系类型建模。即,示例性的,如图4所示,将11个第一词汇的词汇特征向量h1至h11以及各个第一词汇对应的键值对输入到KVMN模型中,即可得到KVMN模型输出的11个目标特征向量o1至o11。
步骤S370:将多个目标特征向量进行平均计算,得到第一特征向量。
步骤S380:将第一特征向量和隐藏特征向量进行拼接处理,得到第二特征向量。
具体地,步骤S370和步骤S380可以满足以下公式:
仍以图4为例,如图4所示,在KVMN模型输出11个目标特征向量o1至o11之后,对11个目标特征向量o1至o11进行平均计算,再将平均计算的结果与隐藏特征向量h0拼接,最后送入情感分类器40,得到情感分类器40的输出为“Negative(消极)”,即可完成文本情感分析的过程。
可见,采用文本初始符能够起到对语句分析任务的标识作用,保证文本情感分析过程中的语句完整性。
步骤S390:基于第二特征向量进行情感分类,得到输入文本对应的情感分析结果。
可选地,步骤S390具体可以为:将第二特征向量输入预先确定的情感分类器,得到从输入文本中识别出每种情感类型的概率,取概率最大的情感类型作为输入文本对应的情感分析结果。
可以理解的是,本实施例中步骤S310、S330和S390的具体实现方式还可以参照上述实施例一中对步骤S210、S220和S250的描述,在此不再赘述。
可见,实施上述方法实施例,根据各个词汇之间依存关系对词汇特征向量分析的贡献,对不同依存关系类型进行加权计算,得到多个目标特征向量以用于情感分类,同时融合输入文本中词汇之间的依存关系以及具体的依存关系类型,能够进一步提升文本情感分析的准确度。此外,还采用文本初始符起到对语句分析任务的标识作用,保证文本情感分析过程中的语句完整性。
本发明实施例还提供一种电子装置。请参阅图6,图6是本发明实施例所应用的另一种电子装置的结构框图。如图6所示,该电子装置600包括:
获取模块610,用于获取输入文本,输入文本包括多个第一词汇。
第一分析模块620,用于对输入文本进行语义分析,得到多个词汇特征向量。
第二分析模块630,用于对输入文本进行依存句法分析,得到各个第一词汇对应的依存句法信息。
计算模块640,用于根据多个词汇特征向量以及各个第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量。
第三分析模块650,用于基于多个目标特征向量进行情感分类,得到输入文本对应的情感分析结果。
需要说明的是,本实施例的具体实现过程可参见上述方法实施例所述的具体实现过程,亦不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (10)
1.一种文本情感分析方法,其特征在于,所述方法包括:
获取输入文本,所述输入文本包括多个第一词汇;
对所述输入文本进行语义分析,得到多个词汇特征向量;
对所述输入文本进行依存句法分析,得到各个所述第一词汇对应的依存句法信息;
根据多个所述词汇特征向量以及各个所述第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量;
基于多个所述目标特征向量进行情感分类,得到所述输入文本对应的情感分析结果。
2.根据权利要求1所述的方法,其特征在于,所述依存句法信息为至少一个映射关系对象,所述映射关系对象包括第一对象和第二对象,所述第一对象用于表示所述第一词汇对应的依存关系信息,所述第二对象用于表示所述依存关系信息对应的关系类型信息;所述根据多个所述词汇特征向量以及各个所述第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量,包括:
针对各个所述第一词汇对应的依存句法信息,对所述依存句法信息对应的所述第一对象进行编码,得到第一向量;
针对各个所述第一词汇对应的依存句法信息,对所述依存句法信息对应的所述第二对象进行编码,得到第二向量;其中,所述第一向量用于表示所述第一对象的向量特征,所述第二向量用于表示所述第二对象的向量特征;
根据多个所述词汇特征向量以及各个所述第一词汇对应的所述第一向量和所述第二向量进行加权加算,得到多个目标特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述输入文本进行依存句法分析,得到各个所述第一词汇对应的依存句法信息,包括:
对所述输入文本进行依存句法分析,构建依存句法树,所述依存句法树用于表示各个所述第一词汇对应的依存关系以及所述依存关系对应的依存关系类型;
针对各个所述第一词汇,根据所述第一词汇在所述依存句法树中对应的所述依存关系,得到所述依存关系指示的第二词汇;
根据所述第二词汇,构建所述第一词汇对应的所述第一对象;
根据所述依存关系对应的所述依存关系类型,构建所述第一对象对应的所述第二对象;
根据所述第一对象和所述第二对象,构建所述第一词汇对应的所述映射关系对象。
4.根据权利要求2所述的方法,其特征在于,所述根据多个所述词汇特征向量以及各个所述第一词汇对应的所述第一向量和所述第二向量进行加权加算,得到多个目标特征向量,包括:
针对各个所述词汇特征向量,确定所述词汇特征向量对应的目标词汇;
针对各个所述词汇特征向量,根据所述词汇特征向量以及所述目标词汇对应的所述第一向量进行权重分配,得到所述目标词汇对应的所述第二向量的加权信息;
针对各个所述词汇特征向量,利用所述目标词汇对应的所述第二向量的加权信息,对所述目标词汇对应的所述第二向量进行加权求和计算,得到目标特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述词汇特征向量以及所述目标词汇对应的所述第一向量进行权重分配,得到所述目标词汇对应的各个第二向量的加权信息,包括:
将所述词汇特征向量和所述目标词汇对应的所述第一向量输入预先确定的预测器,得到所述词汇特征向量与所述目标词汇对应的所述第一向量的相关概率,以分别作为所述第一向量对应的第二向量的加权信息。
6.根据权利要求1所述的方法,其特征在于,所述对所述输入文本进行语义分析,得到多个词汇特征向量,包括:
根据所述输入文本,构建处理序列,所述处理序列包括文本初始符和多个所述第一词汇;
对所述处理序列进行语义分析,得到多个所述第一词汇各自对应的词汇特征向量;
所述对所述处理序列进行语义分析之后,所述方法还包括:
得到所述文本初始符对应的隐藏特征向量;
所述基于多个所述目标特征向量进行情感分类,得到所述输入文本对应的情感分析结果,包括:
将多个所述目标特征向量进行平均计算,得到第一特征向量;
将所述第一特征向量和所述隐藏特征向量进行拼接处理,得到第二特征向量;
基于所述第二特征向量进行情感分类,得到所述输入文本对应的情感分析结果。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二特征向量进行情感分类,得到所述输入文本对应的情感分析结果,包括:
将所述第二特征向量输入预先确定的情感分类器,得到从所述输入文本中识别出每种情感类型的概率,取概率最大的情感类型作为所述输入文本对应的情感分析结果。
8.一种电子装置,其特征在于,所述装置包括:
获取模块,用于获取输入文本,所述输入文本包括多个第一词汇;
第一分析模块,用于对所述输入文本进行语义分析,得到多个词汇特征向量;
第二分析模块,用于对所述输入文本进行依存句法分析,得到各个所述第一词汇对应的依存句法信息;
计算模块,用于根据多个所述词汇特征向量以及各个所述第一词汇对应的依存句法信息进行加权计算,得到多个目标特征向量;
第三分析模块,用于基于多个所述目标特征向量进行情感分类,得到所述输入文本对应的情感分析结果。
9.一种电子装置,其特征在于,所述装置包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现如权利要求1-7任一项所述的文本情感分析方法的步骤。
10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1至7中任一项所述的文本情感分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744167.9A CN113434682A (zh) | 2021-06-30 | 2021-06-30 | 文本情感分析方法、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744167.9A CN113434682A (zh) | 2021-06-30 | 2021-06-30 | 文本情感分析方法、电子装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113434682A true CN113434682A (zh) | 2021-09-24 |
Family
ID=77758695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744167.9A Pending CN113434682A (zh) | 2021-06-30 | 2021-06-30 | 文本情感分析方法、电子装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434682A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564967A (zh) * | 2022-04-29 | 2022-05-31 | 天津大学 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
CN114662469A (zh) * | 2022-02-25 | 2022-06-24 | 北京百度网讯科技有限公司 | 情感分析方法、装置、电子设备及存储介质 |
CN115221873A (zh) * | 2022-09-20 | 2022-10-21 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582764A (zh) * | 2018-11-09 | 2019-04-05 | 华南师范大学 | 基于依存句法的交互注意力情感分析方法 |
CN110020436A (zh) * | 2019-04-08 | 2019-07-16 | 北京化工大学 | 一种本体和句法依存结合的微博情感分析法 |
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
-
2021
- 2021-06-30 CN CN202110744167.9A patent/CN113434682A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582764A (zh) * | 2018-11-09 | 2019-04-05 | 华南师范大学 | 基于依存句法的交互注意力情感分析方法 |
CN110020436A (zh) * | 2019-04-08 | 2019-07-16 | 北京化工大学 | 一种本体和句法依存结合的微博情感分析法 |
CN110162636A (zh) * | 2019-05-30 | 2019-08-23 | 中森云链(成都)科技有限责任公司 | 基于d-lstm的文本情绪原因识别方法 |
CN111797898A (zh) * | 2020-06-03 | 2020-10-20 | 武汉大学 | 一种基于深度语义匹配的在线评论自动回复方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114662469A (zh) * | 2022-02-25 | 2022-06-24 | 北京百度网讯科技有限公司 | 情感分析方法、装置、电子设备及存储介质 |
CN114564967A (zh) * | 2022-04-29 | 2022-05-31 | 天津大学 | 一种面向情感语义的语义标注及语义依存分析方法及装置 |
CN115221873A (zh) * | 2022-09-20 | 2022-10-21 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
CN115221873B (zh) * | 2022-09-20 | 2023-01-17 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
WO2023065544A1 (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
Sun et al. | Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN113434682A (zh) | 文本情感分析方法、电子装置及存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
US20120253792A1 (en) | Sentiment Classification Based on Supervised Latent N-Gram Analysis | |
CN111602128A (zh) | 计算机实现的确定方法和系统 | |
KR102379660B1 (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
Irsoy et al. | Bidirectional recursive neural networks for token-level labeling with structure | |
CN111814454A (zh) | 一种社交网络上的多模态网络欺凌检测模型 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
Han et al. | Text summarization using framenet-based semantic graph model | |
CN111581392B (zh) | 一种基于语句通顺度的自动作文评分计算方法 | |
CN115100664B (zh) | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 | |
CN114896983A (zh) | 模型训练方法、文本处理方法、装置和计算机设备 | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
Hua et al. | A character-level method for text classification | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |