CN108959268B - 一种文本情感分析方法及装置 - Google Patents
一种文本情感分析方法及装置 Download PDFInfo
- Publication number
- CN108959268B CN108959268B CN201810806307.9A CN201810806307A CN108959268B CN 108959268 B CN108959268 B CN 108959268B CN 201810806307 A CN201810806307 A CN 201810806307A CN 108959268 B CN108959268 B CN 108959268B
- Authority
- CN
- China
- Prior art keywords
- emotion
- word
- text
- sentence
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 523
- 238000004458 analytical method Methods 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 claims abstract description 56
- 239000013598 vector Substances 0.000 claims description 325
- 230000002996 emotional effect Effects 0.000 claims description 77
- 230000006870 function Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000007935 neutral effect Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims 4
- 238000012549 training Methods 0.000 description 124
- 238000004364 calculation method Methods 0.000 description 28
- 230000009471 action Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000013604 expression vector Substances 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种文本情感分析方法及装置,该方法包括:在获取待进行情感分析的目标文本后,确定出该目标文本中的每一目标元素,其中,该目标元素为目标文本中的一个词语或一个句子,然后可以对每一目标元素进行情感分析,得到对应于每一目标元素的情感倾向结果。可见,本申请在获取到待进行情感分析的目标文本后,不局限于只进行目标文本的整体情感分析,而是对目标文本中更细粒度的目标元素进行情感分析,以获得对应于目标元素的情感倾向结果,从而可以得到更全面的情感分析结果。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本情感分析方法及装置。
背景技术
随着大数据、人工智能技术的快速发展,语音、文本、图像、视频等多媒体信息得到大力挖掘,为用户提供了视觉、听觉等感官上的智能体验。而这些多媒体信息中,文本信息的重要性尤为突出。无论是语音到文字的转写,还是图像或视频的文本描述,文本数据的理解能为其它媒体信息提供更高层面的认知智能。而文本情感分析是对文本数据理解的一个重要方向,能帮助挖掘用户评论观点、进行商品口碑分析等。
现有的文本情感分析方法,一般用于确定整篇长文本的整体情感倾向,比如正向情感、负向情感、中性情感等。然而,对于整篇长文本来讲,该文本中所包含的作者观点可能并不是单一的,这是因为,当整篇长文本的内容较多时,使得该文本传达的内容比较多、表述的情感比较细腻,导致整篇长文本中的不同部分表达的情感并不相同,所以对整篇长文本进行情感倾向分析的结果往往不够全面。
发明内容
本申请实施例的主要目的在于提供一种文本情感分析方法及装置,能够更全面地对文本进行情感分析。
本申请实施例提供了一种文本情感分析方法,包括:
获取待进行情感分析的目标文本;
确定所述目标文本中的每一目标元素,其中,所述目标元素为所述目标文本中的一个词语或一个句子;
对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果。
可选的,所述对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果,包括:
确定所述目标元素对应的第一权重值和第二权重值,其中,所述第一权重值表征了所述目标元素具有正向情感属性时的偏重程度,所述第二权重值表征了所述目标元素具有负向情感属性时的偏重程度;
确定所述第一权重值与所述第二权重值中的较大权重值;
判断所述较大权重值是否大于预置的权重阈值;
若是,则使所述目标元素的情感倾向为所述较大权重值对应的情感倾向;若否,则使所述目标元素的情感倾向为中性情感。
可选的,所述确定所述目标元素对应的第一权重值和第二权重值,包括:
从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量;
从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量;
根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
可选的,所述根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值,包括:
若所述目标元素为一个词语,则根据所述目标元素所属句子中的各个词语的词向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
并且,根据所述目标元素所属句子中的各个词语的词向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
可选的,所述根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值,包括:
若所述目标元素为一个句子,则根据所述目标文本中各个句子分别作为正向情感句子时的第一特征向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
并且,根据所述目标文本中各个句子分别作为负向情感句子时的第二特征向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
可选的,所述第一特征向量是根据对应句子中各个词语的词向量与所述正向情感向量确定的;所述第二特征向量是根据对应句子中各个词语的词向量与所述负向情感向量确定的。
可选的,所述方法还包括:
确定所述目标文本作为正向情感文本时的第三特征向量;
确定所述目标文本作为负向情感文本时的第四特征向量;
根据所述第三特征向量与所述第四特征向量,确定对应于所述目标文本的情感倾向结果。
可选的,所述第三特征向量是根据所述目标文本中各个句子的第一特征向量与所述正向情感向量确定的;所述第四特征向量是根据所述目标文本中各个句子的第二特征向量与所述负向情感向量确定的。
本申请实施例还提供了一种文本情感分析装置,包括:
目标文本获取单元,用于获取待进行情感分析的目标文本;
目标元素确定单元,用于确定所述目标文本中的每一目标元素,其中,所述目标元素为所述目标文本中的一个词语或一个句子;
元素情感分析单元,用于对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果。
可选的,所述元素情感分析单元包括:
第一权重确定子单元,用于确定所述目标元素对应的第一权重值和第二权重值,其中,所述第一权重值表征了所述目标元素具有正向情感属性时的偏重程度,所述第二权重值表征了所述目标元素具有负向情感属性时的偏重程度;
第二权重确定子单元,确定所述第一权重值与所述第二权重值中的较大权重值;
权重判断子单元,用于判断所述较大权重值是否大于预置的权重阈值;
第一倾向确定子单元,用于若所述较大权重值大于预置的权重阈值,则使所述目标元素的情感倾向为所述较大权重值对应的情感倾向;
第二倾向确定子单元,用于若所述较大权重值不大于预置的权重阈值,则使所述目标元素的情感倾向为中性情感。
可选的,所述第一权重确定子单元包括:
正向向量确定子单元,用于从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量;
负向向量确定子单元,用于从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量;
第三权重确定子单元,用于根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
可选的,所述第三权重确定子单元包括:
第四权重确定子单元,用于若所述目标元素为一个词语,则根据所述目标元素所属句子中的各个词语的词向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第五权重确定子单元,用于根据所述目标元素所属句子中的各个词语的词向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
可选的,所述第三权重确定子单元包括:
第六权重确定子单元,用于若所述目标元素为一个句子,则根据所述目标文本中各个句子分别作为正向情感句子时的第一特征向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第七权重确定子单元,用于根据所述目标文本中各个句子分别作为负向情感句子时的第二特征向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
可选的,所述第一特征向量是根据对应句子中各个词语的词向量与所述正向情感向量确定的;所述第二特征向量是根据对应句子中各个词语的词向量与所述负向情感向量确定的。
可选的,所述装置还包括:
特征向量确定单元,用于确定所述目标文本作为正向情感文本时的第三特征向量,确定所述目标文本作为负向情感文本时的第四特征向量;
文本情感确定单元,用于根据所述第三特征向量与所述第四特征向量,确定对应于所述目标文本的情感倾向结果。
可选的,所述第三特征向量是根据所述目标文本中各个句子的第一特征向量与所述正向情感向量确定的;所述第四特征向量是根据所述目标文本中各个句子的第二特征向量与所述负向情感向量确定的。
本申请实施例还提供了一种文本情感分析装置,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本情感分析方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本情感分析方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本情感分析方法中的任意一种实现方式。
本申请实施例提供的一种文本情感分析方法及装置,在获取到待进行情感分析的目标文本后,确定出该目标文本中的每一目标元素,其中,该目标元素为目标文本中的一个词语或一个句子,然后对每一目标元素进行情感分析,得到对应于每一目标元素的情感倾向结果。可见,本申请实施例在获取到待进行情感分析的目标文本后,不局限于只进行目标文本的整体情感分析,而是对目标文本中更细粒度的目标元素进行情感分析,以获得对应于目标元素的情感倾向结果,从而可以得到更全面的情感分析结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本情感分析方法的流程示意图;
图2为本申请实施例提供的构建情感分析模型的流程示意图;
图3为本申请实施例提供的情感分析模型的结构示意图;
图4为本申请实施例提供的Bi-LSTM结合Attention机制的模型结构示意图;
图5为本申请实施例提供的对目标元素进行情感分析的流程示意图;
图6为本申请实施例提供的一种文本情感分析装置的组成示意图。
具体实施方式
在一些文本情感分析方法中,通常是利用机器学习或深度学习等相关算法对整篇文本的整体情感倾向进行分析,如正向情感、负向情感、中性情感等,
但是,对于长文本数据,其包含的内容较为丰富,作者表达的情感比较细腻,导致长文本中的不同部分表达的情感并不相同,目前的单纯对整篇长文本的整体级别的情感倾向分析往往是不够的,这种分析方式并不足以挖掘出整篇长文本的全部观点和信息,无法全面地对整篇长文本进行情感分析。
为解决上述缺陷,本申请实施例提供了一种文本情感分析方法,在获取到待进行情感分析的目标文本后,该目标文本可以是由多个句子组成的长文本,首先确定出该目标文本中需要进行情感分析的每一目标元素,该目标元素为目标文本中的一个词语或一个句子,进而可以对每一目标元素进行情感分析,得到对应于每一目标元素的情感倾向结果,这样,通过对长文本中各句子、各词语进行深入的情感分析,并不局限于对整个长文本进行情感分析,从而更全面地对长文本进行了情感分析。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种文本情感分析方法的流程示意图,该方法包括以下步骤:
S101:获取待进行情感分析的目标文本。
在本实施例中,将采用本实施例实现文本情感分析的任一文本定义为目标文本。并且,本实施例不限制目标文本的语种类型,比如,目标文本可以是中文文本、或英文文本等;本实施例也不限制目标文本的长度,比如,目标文本可以是句子文本、也可以是篇章文本;本实施例也不限制目标文本的类型,比如,目标文本可以是一条影视评论(简称影评)或一条商品评论,也可以是演讲稿、杂志文章、文学作品等中的部分文本。
可以理解的是,句子文本指的是一个句子,是各个词语的集合,篇章级文本指的是一连串句子的集合,在获取句子文本或篇章文本作为待进行情感分析的目标文本后,可按照后续步骤对其进行情感分析。
S102:确定目标文本中的每一目标元素,其中,目标元素为目标文本中的一个词语或一个句子。
在本实施例中,通过步骤S101,获取到待进行情感分析的目标文本后,为了能够更全面地对目标文本进行情感分析,需要从目标文本中确定出每一需要进行情感分析的目标元素,其中,该目标元素指的是目标文本中的一个词语或一个句子。
具体来讲,在从目标文本中确定每一目标元素的过程中,根据目标文本的不同,对应确定出的目标元素可能不同,比如,当目标文本为句子文本时,对应确定出的每一目标元素即为该句子文本中的每个词语,相应的,当目标文本为篇章文本时,对应确定出的每一目标元素可以为该篇章文本中的每个词语和/或每个句子。
S103:对目标元素进行情感分析,得到对应于目标元素的情感倾向结果。
在本实施例中,通过步骤S102,确定出待进行情感分析的目标文本的每一目标元素后,进一步的,可以对目标元素进行情感分析,得到对应于每一目标元素的情感倾向结果,其中,情感倾向结果指的是目标元素体现出的文本作者在情感上存在的喜恶和倾向,有程度和对象性,也就是情感类别,比如目标元素的情感倾向结果可以为正向情感、负向情感、中性情感,或者也可以分为高兴、悲伤、喜悦等更具体的情感类别,可以理解的是,具体的情感倾向结果的分类可以根据实际情况进行预先设置,本申请实施例对此不进行限制。
例如,假设获取的待进行情感分析的目标文本为一个影评的篇章文本,具体内容为“推理部分比较弱,很多太牵强了……更像抓个悬疑的外壳,主调却成了兄弟冒险喜剧,没有了悬疑的感觉……王某某与刘某某搭档更默契了,角色比上一部成长了很多,这一部顺眼多了……总的来说,节奏很好,不拖沓,事件又依靠动作来推动,很吸引人。”。
其中,相邻两个标点之间的每一个句子、以及每一句子中的每个词语,均可以作为目标元素进行情感分析,从而得到该目标元素的情感分析结果。比如,上述“推理部分比较弱,很多太牵强了,没有了悬疑的感觉”这三个句子的情感倾向结果均为负向情感,而上述“但总体节奏很好,不拖沓,事件又依靠动作来推动,很吸引人”这四个句子的情感倾向结果均为正向情感。
需要说明的是,在本步骤S103对目标元素进行情感分析之前,可以预先构建一个情感分析模型,具体构建过程可参见后续第二实施例的相关介绍。进而,可以利用已构建的情感分析模型对目标元素进行情感分析,具体的分析过程可参见后续第三实施例的相关介绍。
综上,本实施例提供的一种文本情感分析方法,在获取到待进行情感分析的目标文本后,确定出该目标文本中的每一目标元素,其中,该目标元素为目标文本中的一个词语或一个句子,然后对每一目标元素进行情感分析,得到对应于每一目标元素的情感倾向结果。可见,本申请实施例在获取到待进行情感分析的目标文本后,不局限于只进行目标文本的整体情感分析,而是对目标文本中更细粒度的目标元素进行情感分析,以获得对应于目标元素的情感倾向结果,从而可以得到更全面的情感分析结果。
第二实施例
本实施例将对第一实施例中提及的情感分析模型的具体构建过程进行介绍。利用该预先构建的情感分析模型,可以对第一实施例中的每一目标元素进行情感分析,其中,该情感分析模型是带有注意力机制的模型。
参见图2,其示出了本实施例提供的构建情感分析模型的流程示意图,该流程包括以下步骤:
S201:预先收集大量的长文本,并对每一长文本进行情感标注。
在本实施例中,为了构建情感分析模型,需要预先进行大量的准备工作,首先,需要收集大量的长文本数据,比如,可以通过网络渠道,收集用户对某电影的影评以及用户对某商品的评论等长文本数据,并将收集的每一长文本数据作为样本文本数据。
进一步的,在收集到大量长文本数据后,可以对各长文本数据进行整体的情感标注,用以表明各长文本作者的整体情感倾向,其中,整体情感倾向可以为正向、负向或中性等。例如,当收集的长文本数据为用户对某电影的影评,或用户对某商品的评论时,则用户的整体情感倾向可以通过用户对电影或商品整体打的星级得到,如若用户打的星级为1星或2星,则可以确定用户对该电影或商品评价的整体情感倾向为负向,进而可以将该用户评论的整体情感标注为负向情感;相对应的,若用户打的星级为3星或3星以上,则可以确定用户对该电影或商品评价的整体情感倾向为正向,进而可以将该用户评论的整体情感标注为负向情感。当然,可以理解的是,如果收集到的长文本数据没有用户的整体情感倾向,可以通过人工标记的方式得到长文本的整体情感倾向,具体的标记方式可以根据实际情况进行设置,本申请实施例对此不进行限制。
S202:构建文本情感分析模型。
在本实施例中,通过步骤S101收集了大量的长文本数据并作为样本文本数据,以及对其进行情感标注后,进一步的,可以构建一个初始的情感分析模型,进而可通过后续步骤S203利用预先收集的样本文本数据对初始构建的情感分析模型进行训练。
具体来讲,在构建情感分析模型的过程中,可以将该模型结构划分为两类子结构,分别为正向情感模型子结构以及负向情感模型子结构,并且每类情感模型子结构均为分层结构,具体可以分为词语层(输入层)、句子层、篇章层以及输出层,参见图3,其示出了本实施例提供的情感分析模型的结构示意图。
需要说明的是,图3所示的情感分析模型的作用如下:
可以在词语层通过双向长短期记忆网络(Bi-directional Long Short-TermMemory,简称Bi-LSTM)获取每一词语的语义信息,即同时考虑了通过前向过程提取的特征和通过后向过程提取的特征,将二者结合起来作为对应词语的语义信息,并使用带有注意力机制(Attention机制)的模型确定每个词语作为正向情感词语时的权重、以及每个词语作为负向情感词语时的权重,从而根据词语权重确定对应词语的情感倾向;同理,也可以在句子层通过利用Bi-LSTM获取句子的语义信息,并使用带有Attention机制的模型确定每个句子作为正向情感句子时的权重、以及每个句子作为负向情感句子时的权重,从而根据句子权重确定对应句子的情感倾向;此外,还可以在篇章层,获取篇章文本的语义信息,从而确定篇章文本的情感倾向。
可以理解的是,本实施例构建的情感分析模型,可以通过词语层的词语语义信息得到句子层的句子语义信息、再利用句子层的语义信息结合句子的语序得到篇章文本的文本语义信息,这种分层方式可以从词语和句子等不同层面理解文本作者表达的情感,实现全面地对文本进行情感分析。
S203:对情感分析模型进行训练,更新模型相关参数。
在本实施例中,通过步骤S202初始构建一个情感分析模型后,进一步的可以从预先收集的样本文本数据中,提取全部或部分样本文本数据作为训练文本,对初始构建的情感分析模型进行训练,进而更新模型中的相关参数,提高该模型对文本情感分析的准确性,具体的训练过程如下:
(一)确定词语层(输入层)的输入数据
首先,在提取出一训练文本后,可以根据该训练文本中的标点信息对训练文本进行分句,获得每一分句文本,具体可以将任意两个相邻标点之间的文本作为一个分句文本,进而还可以利用现有或未来出现的分词方法对训练文本中每个分句文本进行分词,进一步的,还可以利用词语向量化方法或用来产生词向量的相关模型,将分词后获得的每个词语进行词语向量化,得到每个词语的词向量,例如可以使用Word2vec方法,对训练文本的每个词语进行词语向量化,得到训练文本中所有词语的词向量。
然后,基于预先构建的正向情感词典(包括大量的正向情感词语)和负向情感词典(包括大量的负向情感词语),对训练文本的各个词语进行匹配,以从训练文本分词后获得的所有词语中提取具有正向情感属性的各个正向情感词,从训练文本分词后获得的所有词语中提取具有负向情感属性的各个负向情感词。并且,根据各个正向情感词确定对应于训练文本的正向情感向量,根据各个负向情感词确定对应于训练文本的负向情感向量。
其中,根据各个正向情感词确定对应于训练文本的正向情感向量的具体实现过程可以为:计算各个正向情感词的词向量的平均值,作为对应于训练文本的正向情感向量;或者,计算各个正向情感词的词向量的和值,作为对应于训练文本的正向情感向量,在本实施中,可以用Pemb表示训练文本的正向情感向量。相应地,根据各个负向情感词确定对应于训练文本的负向情感向量的具体实现过程可以为:计算各个负向情感词的词向量的平均值,作为对应于训练文本的负向情感向量;或者,计算各个负向情感词的词向量的和值,作为对应于训练文本的负向情感向量,在本实施中,可以用Nemb表示训练文本的负向情感向量。
需要说明的是,在确定出训练文本中所有词语的词向量、正向情感向量以及负向情感向量后,可以将这三者作为训练文本的情感表达特征,由此,如图3所示,可将这三者作为情感分析模型中词语层(输入层)的输入数据,即,将训练文本中所有词语的词向量以及正向情感向量输入至情感分析模型的正向情感模型子结构、将训练文本中所有词语的词向量以及负向情感向量输入至情感分析模型的负向情感模型子结构,对情感分析模型的两个子结构进行训练。
(二)计算训练文本中各句子的特征表示向量以及各句子中各词语权重
在本实施例中,句子层包含了训练文本中的每个分句,而每个分句均是由词语按照一定顺序组合而成。由此,在句子层中,既要考虑词语的语义信息,还要考虑词语的顺序特征以及上下文相关特征,但每个分句中不同的词语在句子语义表达中占有的权重值是不同的,比如,对于正向情感模型子结构的句子层,若输入句子层中的一个分句为“我喜欢这件衣服”,则句子中的“喜欢”和“衣服”在句子语义表达层面的重要性就明显高于“我”和“这件”,因此,这两个词语在句子语义表达中占有的权重值相对较大。在本实施例中,句子中各词语的正、负情感倾向权重是通过Attention机制得到。
接下来,本实施例将对利用Bi-LSTM进行语义表征以及使用Attention机制获得各词语权重的具体实现过程进行介绍。
参见图4,其示出了本实施例提供的Bi-LSTM结合Attention机制的模型结构示意图。如图4所示,可以使用前/后向LSTM网络即分别对训练文本中的各个词语进行语义表征,由此,在将训练文本中所有词语的词向量、正向情感向量以及负向情感向量作为输入数据输入至词语层(输入层)后,分别在两个模型子结构的词语层中,可以得到对应于每一词语的语义信息。
假设训练文本中的第j个句子Sj的长度为lSj,前向网络顺序读入训练文本中的第j个句子Sj中所有词语的词向量后,会产生前向隐层序列其中,n表示训练文本中的第j个句子Sj中共有n个词语,表示训练文本中的第j个句子Sj的前向信息;后向网络逆序读入训练文本中的第j个句子Sj中所有词语的词向量后,会产生后向隐层序列其中,n表示训练文本中的第j个句子Sj中共有n个词语,表示训练文本中的第j个句子Sj的后向信息;可以理解的是,在前向隐层序列和后向隐层序列中,可以将位置相互对应的隐层状态单元拼接起来,组成该位置词语对应的状态序列,所以,比如句子Sj中的第n个词语wn的词向量在通过前/后向LSTM网络后,输出的词语wn带有序列信息的语义信息为
需要说明的是,由于每个词语在句子中的重要性不同,可以通过带有情感特性的Attention机制分别得到句子的正向情感特征向量和负向情感特征向量,接下来,本实施例将对句子的正向情感特征向量和负向情感特征向量的具体计算过程进行描述。
(1)句子的正向情感特征向量计算
在本实施例中,训练文本中每个句子的正向情感特征向量,可以表示为经过前/后向LSTM网络输出的句子中各词语的词向量的加权求和,比如,训练文本中的第j个句子Sj的正向情感特征向量,可以表示为经过前/后向LSTM网络输出的句子Sj中各词语的词向量的加权求和,其中,各词语的权重可以理解为该词语对于句子表达正向情感的贡献程度,例如“我喜欢这件衣服”句子中词语“喜欢”的权重较其它词语大,对于句子表达正向情感的贡献程度较高。在本实施例中,可以通过Attention机制学习获得训练文本各句子中各词语的权重值。
其中,hij表示训练文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;表示句子Sj中的第i个词语wi在该句子中表达正向情感时占有的权重值;n表示训练文本中的第j个句子Sj的词语总数。
其中,Pemb表示对应于训练文本的正向情感向量;hij表示训练文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;n表示训练文本中的第j个句子Sj的词语总数;函数f用于计算各词语重要性,其物理含义可以理解为,词语wi的语义信息hij与正向情感向量Pemb的相近度,函数f的值越大表示该词语wi越倾向于正向情感表达;htj表示的是训练文本中的第j个句子Sj中的第t个词语的词向量在通过Bi-LSTM网络后输出的语义信息。
需要说明的是,在公式(2)中,函数f的具体计算公式如下:
(2)句子的负向情感特征向量计算
在本实施例中,与上述句子的正向情感特征向量计算方式相类似,训练文本中每个句子的负向情感特征向量,同样可以表示为经过前/后向LSTM网络输出的句子中各词语的词向量的加权求和,比如,训练文本中的第j个句子Sj的负向情感特征向量,可以表示为经过前/后向LSTM网络输出的句子Sj中各词语的词向量的加权求和,但其中,各词语的权重指的是该词语对于句子表达负向情感的贡献程度,例如“我讨厌吃肉”句子中词语“讨厌”的权重较其它词语大,对于句子表达负向情感的贡献程度较高。在本实施例中,同样可以通过Attention机制学习获得训练文本各句子中各词语的权重值。
其中,hij表示训练文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;表示句子Sj中的第i个词语wi在该句子中表达负向情感时占有的权重值;n表示训练文本中的第j个句子Sj的词语总数。
其中,Nemb表示对应于训练文本的负向情感向量;hij表示训练文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;n表示训练文本中的第j个句子Sj的词语总数,函数f用于计算各词语重要性,其物理含义可以理解为,词语wi的语义信息hij与负向情感向量Nemb的相近度,函数f的值越大表示该词语wi越倾向于负向情感表达;htj表示的是训练文本中的第j个句子Sj中的第t个词语的词向量在通过Bi-LSTM网络后输出的语义信息。
需要说明的是,在公式(5)中,函数f的具体计算公式如下:
(三)计算训练文本的特征表示向量以及训练文本中各句子的权重
在本实施例中,篇章层的处理对象是整个训练文本,该训练文本可以是由多个分句按照一定的文本顺序组合而成的。在篇章层中,是以句子为最小单元,仍采用Bi-LSTM得到整个训练文本的文本特征向量,再通过Attention机制得到篇章文本中各个句子的正、负情感倾向权重。接下来,本实施例将对训练文本的正向情感特征向量和负向情感特征向量的具体计算过程进行描述。
(1)训练文本的正向情感特征向量计算
在本实施例中,通过上述方法获取到训练文本中所有句子的正向情感特征向量即后,进一步的,在篇章层面仍采用如图4所示的Bi-LSTM网络,确定训练文本的正向情感特征向量,具体地,使用分别表示训练文本中第i个句子的正向情感特征向量Si P被前向网络顺序读入以及被后向网络逆序读入后产生的带有序列信息的语义信息,即,第i个句子的语义信息可以表示为进而,训练文本的正向情感特征向量,可以表示为训练文本中经过前/后向LSTM网络输出的所有句子的语义信息的加权求和,其中,各句子的权重可以理解为该句子对于训练文本表达正向情感的贡献程度。
例如,若训练文本为一份影评数据,内容为“推理部分比较弱,很多太牵强了,没有了悬疑的感觉。但总体节奏很好,不拖沓,事件又依靠动作来推动,很吸引人。”,影评中“但总体节奏很好,不拖沓,事件又依靠动作来推动,很吸引人”中每一分句的权重,会高于“推理部分比较弱,很多太牵强了,没有了悬疑的感觉”中每一分句的权重。在本实施例中,仍可以通过Attention机制学习获得训练文本各句子的权重值。
需要说明的是,本实施例中,为便于说明,以DP表示训练文本的正向情感特征向量,DP的具体计算公式如下:
其中,Pemb表示对应于训练文本的正向情感向量;m表示训练文本中的句子总数;函数f用于计算各句子重要性,其物理含义可以理解为,句子i的语义信息与正向情感向量Pemb的相近度,函数f的值越大表示该句子i越倾向于正向情感表达。
需要说明的是,在公式(8)中,函数f的具体计算公式如下:
(2)训练文本的负向情感特征向量计算
在本实施例中,与上述训练文本的正向情感特征向量计算方式相类似,训练文本的负向情感特征向量,同样可以表示为训练文本中经过前/后向LSTM网络输出的所有句子的语义信息加权求和,但其中,各句子的权重指的是该句子对于训练文本表达负向情感的贡献程度。
仍以训练文本为一份影评数据为例,影评内容为“推理部分比较弱,很多太牵强了,没有了悬疑的感觉。但总体节奏很好,不拖沓,事件又依靠动作来推动,很吸引人。”,影评中“推理部分比较弱,很多太牵强了,没有了悬疑的感觉”中每一分句的权重,会高于“但总体节奏很好,不拖沓,事件又依靠动作来推动,很吸引人”中每一分句的权重。在本实施例中,仍可以通过Attention机制学习获得训练文本各句子的权重值。
需要说明的是,本实施例中,为便于说明,以DN表示训练文本的负向情感特征向量,DN的具体计算公式如下:
其中,Nemb表示对应于训练文本的负向情感向量;m表示训练文本中的句子总数;函数f用于计算各句子重要性,其物理含义可以理解为,句子i的语义信息与负向情感向量Nemb的相近度,函数f的值越大表示该句子i越倾向于负向情感表达。
需要说明的是,在公式(11)中,函数f的具体计算公式如下:
(3)获取训练文本的训练结果以及进行模型参数的更新
在本实施例中,通过上述方法计算出训练文本的正向情感特征向量DP以及负向情感特征向量DN后,进一步的,如图3所示,为获得训练文本的情感倾向结果,可以将DP和DN进行特征融合,即将二者进行拼接,生成
[DP;DN]作为训练文本的组合情感特征向量,接着,将该组合情感特征向量输入全连接层进行线性映射,再采用分类函数softmax进行情感倾向结果的分类,可以得到当前训练文本属于每种情感类别的概率,进而选择概率最大的情感类别作为当前训练文本的情感倾向结果,根据该预测得到的情感倾向结果与预先对训练文本进行整体的情感标注之间的差值,对情感分析模型的模型参数进行更新,完成本轮的模型训练。其中,具体分类函数softmax的计算方法可以与现有技术相同,在此不再赘述;训练文本的情感倾向结果可以为正向情感、负向情感、中性情感,或者也可以分为高兴、悲伤、喜悦等更具体的情感类别,可以理解的是,具体的情感倾向结果的分类可以根据实际情况进行预先设置,本申请实施例对此不进行限制。
接下来,当利用当前训练文本完成情感分析模型的本轮训练后,判断是否达到训练结束条件,比如是否达到预设的训练轮数、或者模型参数的变化量是否小于预设阈值且是否连续多次小于预设阈值。若是,则结束训练,以得到训练好的情感分析模型;若否,则获取下一样本文本数据作为训练文本,按照上述方式对情感分析模型进行下一轮训练。
综上,利用本实施例训练而成的情感分析模型,可以对目标文本的每一目标元素进行情感分析,从而可以获得对应于每一目标元素的情感倾向结果,进而实现了对目标文本的更细粒度的全面情感分析。
第三实施例
需要说明的是,本实施例将通过下述步骤S501-S505,对第一实施例中的S103“对目标元素进行情感分析,得到对应于目标元素的情感倾向结果”的具体实施方式进行介绍,具体可以利用第二实施例中预先构建的情感分析模型,对目标元素进行情感分析的具体实现过程进行介绍。
参见图5,其示出了本实施例提供的对目标元素进行情感分析的流程示意图,该流程包括以下步骤:
S501:确定目标元素对应的第一权重值和第二权重值,其中,第一权重值表征了目标元素具有正向情感属性时的偏重程度,第二权重值表征了目标元素具有负向情感属性时的偏重程度。
在本实施例的一种实现方式中,S501具体可以包括步骤A-C:
步骤A:从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量。
可以首先对目标文本进行分词处理,得到目标文本的各个词语。
利用预先构建的正向情感词典,对目标文本的各个词语进行匹配,从目标文本分词后获得的所有词语中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于目标文本的正向情感向量。
其中,在一种实现方式中,根据各个正向情感词确定对应于目标文本的正向情感向量的具体实现过程可以为:计算各个正向情感词的词向量的平均值,作为对应于目标文本的正向情感向量;或者,计算各个正向情感词的词向量的和值,作为对应于目标文本的正向情感向量。在本实施中,可以用Pemb表示目标文本的正向情感向量。
步骤B:从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量。
利用预先构建的负向情感词典,对目标文本的各个词语进行匹配,从目标文本分词后获得的所有词语中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于目标文本的负向情感向量。
其中,在一种实现方式中,根据各个负向情感词确定对应于目标文本的负向情感向量的具体实现过程可以为:计算各个负向情感词的词向量的平均值,作为对应于目标文本的负向情感向量;或者,计算各个负向情感词的词向量的和值,作为对应于目标文本的负向情感向量,在本实施中,可以用Nemb表示目标文本的负向情感向量。
需要说明的是,本实施例不限制步骤A和B的执行顺序。
步骤C:根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
需要说明的是,基于步骤S102的介绍可知,当目标文本为篇章文本时,对应确定出的每一目标元素可以为该篇章文本中的每个词语和/或每个句子,则本实施例中目标文本的每一目标元素可能为该目标文本中的每个词语和/或每个句子。
在一种实现方式中,当目标元素为一个词语时,则可以根据目标元素所属句子中的各个词语的词向量以及正向情感向量,确定目标元素对应的第一权重值。具体实现时,可以将目标文本中各个词语的词向量以及对应于目标文本的正向情感向量Pemb,输入至第二实施例中情感分析模型的左侧模型结构(即正向情感模型子结构)中,从而得到目标元素的第一权重值。
其中,第一权重值表征了该词语具有正向情感属性时的偏重程度,参考第二实施例中的公式(2),这里,将公式(2)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,当目标元素为目标文本中第j个句子Sj中的第i个词语wi时,可以根据wi所属句子Sj中的各个词语的词向量以及正向情感向量Pemb,确定目标元素wi对应的第一权重具体计算公式如下:
其中,Pemb表示对应于目标文本的正向情感向量;hij表示的是目标文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;n表示目标文本中的第j个句子Sj的词语总数;函数f用于计算各词语重要性,其物理含义可以理解为,词语wi的语义信息hij与正向情感向量Pemb的相近度,函数f的值越大表示该词语wi越倾向于正向情感表达;htj表示的是目标文本中的第j个句子Sj中的第t个词语的词向量在通过Bi-LSTM网络后输出的语义信息。
需要说明的是,在公式(13)中,函数f的计算公式可参考第二实施例中的公式(3)。
同理,当目标元素为一个词语时,还可以根据目标元素所属句子中的各个词语的词向量以及负向情感向量,确定目标元素对应的第二权重值。具体实现时,可以将目标文本中各个词语的词向量以及对应于目标文本的负向情感向量Nemb,输入至第二实施例中情感分析模型的右侧模型结构(即负向情感模型子结构),从而得到目标元素的第二权重值。
其中,第二权重值表征了目标元素具有负向情感属性时的偏重程度,参考第二实施例中的公式(5),这里,将公式(5)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,当目标元素为目标文本中第j个句子Sj中的第i个词语wi时,可以根据wi所属句子Sj中的各个词语的词向量以及负向情感向量Nemb,确定目标元素wi对应的第二权重具体计算公式如下:
其中,Nemb表示对应于目标文本的负向情感向量;hij表示目标文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的语义信息;n表示目标文本中的第j个句子Sj的词语总数,函数f用于计算各词语重要性,其物理含义可以理解为,词语wi的语义信息hij与负向情感向量Nemb的相近度,函数f的值越大表示该词语wi越倾向于负向情感表达;htj表示的是目标文本中的第j个句子Sj中的第t个词语的词向量在通过Bi-LSTM网络后输出的语义信息。
需要说明的是,在公式(14)中,函数f的计算公式可参考第二实施例中的公式(6)。
在一种实现方式中,当目标元素为一个句子时,则可以根据目标文本中各个句子分别作为正向情感句子时的第一特征向量以及对应于目标文本的正向情感向量,确定目标元素对应的第一权重值。
其中,第一特征向量指的是目标文本中各个句子分别作为正向情感句子时的正向情感特征向量,是根据对应句子中各个词语的词向量与正向情感向量确定的具体计算公式可参考第二实施例中的公式(1),这里,将公式(1)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,hij表示的是目标文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的的语义信息,表示的是句子Sj中的第i个词语wi在该句子中表达正向情感时占有的权重值,n表示目标文本中的第j个句子Sj的词语总数。
而第一权重值则表征了作为目标元素的句子具有正向情感属性时的偏重程度,也就是参考第二实施例中的公式(8),这里,将公式(8)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,当目标元素为目标文本中第i个句子Si时,可以根据Si的正向情感特征向量以及正向情感向量Pemb,确定目标元素Si对应的第一权重具体计算公式如下:
其中,表示目标文本中第i个句子Si的正向情感向量经过Bi-LSTM网络后输出的语义信息;Pemb表示对应于目标文本的正向情感向量;m表示目标文本中的句子总数;函数f用于计算各句子重要性,其物理含义可以理解为,句子i的语义信息与正向情感向量Pemb的相近度,函数f的值越大表示该句子i越倾向于正向情感表达。
需要说明的是,在公式(15)中,函数f的计算公式可参考第二实施例中的公式(9)。
同理,当目标元素为一个句子时,则可以根据目标文本中各个句子分别作为负向情感句子时的第二特征向量以及对应于目标文本的负向情感向量,确定目标元素对应的第二权重值。
其中,第二特征向量指的是目标文本中各个句子分别作为负向情感句子时的负向情感特征向量,是根据对应句子中各个词语的词向量与负向情感向量确定的具体计算公式可参见第二实施例中的公式(4),这里,将公式(4)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,hij表示目标文本中的第j个句子Sj中的第i个词语wi的词向量在通过Bi-LSTM网络后输出的的语义信息,表示句子Sj中的第i个词语wi在该句子中表达负向情感时占有的权重值,n表示目标文本中的第j个句子Sj的词语总数。
而第二权重值则表征了作为目标元素的句子具有负向情感属性时的偏重程度,也就是参考第二实施例中的公式(11),这里,将公式(11)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,当目标元素为目标文本中第i个句子Si时,可以根据Si的负向情感特征向量以及负向情感向量Nemb,确定目标元素Si对应的第二权重具体计算公式如下:
其中,表示目标文本中第i个句子Si的负向情感特征向量经过Bi-LSTM网络后输出的语义信息;Nemb表示对应于目标文本的负向情感向量;m表示目标文本中的句子总数;函数f用于计算各句子重要性,其物理含义可以理解为,句子i的语义信息与负向情感向量Nemb的相近度,函数f的值越大表示该句子i越倾向于负向情感表达。
需要说明的是,在公式(16)中,函数f的计算公式可参考第二实施例中的公式(12)。
S502:确定第一权重值与第二权重值中的较大权重值。
在本实施中,通过步骤S501确定出目标元素对应的第一权重值和第二权重值后,比较第一权重值与第二权重值,确定其中的较大权重值。。
S503:判断较大权重值是否大于预置的权重阈值。
在本实施中,通过步骤S502确定出第一权重值与第二权重值中的较大权重值后,进一步的可以判断较大权重值是否大于预置的权重阈值。其中,预置的权重阈值指的预先设置的用以判断情感倾向结果分类的权重临界值,若判断出较大权重值大于预置的权重阈值,可进行执行步骤S504,若判断出较大权重值不大于预置的权重阈值,可进行执行步骤S505。
S504:若是,则使目标元素的情感倾向为较大权重值对应的情感倾向。
在本实施中,若通过步骤S503判断出较大权重值大于预置的权重阈值,则可以将较大权重值对应的情感倾向作为目标元素的情感倾向。例如,若目标元素为一个句子,且确定出较大权重值为表征句子具有负向情感属性时的偏重程度的第二权重值且进一步判断出第二权重值大于预置的权重阈值,则可以确定目标元素的情感倾向结果为负向。
举例说明:若目标文本为一份影评数据,其中,句子“推理部分比较弱”作为目标文本的一个目标元素,通过上述文本情感分析模型计算出的第一权重值为0.2,第二权重值为0.4,而预置的权重阈值为0.3,则确定出第二权重值为较大权重值,进一步可以判断第二权重值大于预置的权重阈值(0.4>0.3),则可以将第二权重值对应的负向情感作为这个句子的情感倾向。
S505:若否,则使目标元素的情感倾向为中性情感。
在本实施中,若通过步骤S503判断出较大权重值不大于预置的权重阈值,则可以确定出目标元素的情感倾向为中性情感。
举例说明:若目标文本为一份影评数据,其中,句子“主调却成了兄弟冒险喜剧”作为目标文本的一个目标元素,通过上述文本情感分析模型计算出的第一权重值为0.1,第二权重值为0.2,而预置的权重阈值为0.3,则确定出第二权重值为较大权重值,进一步可以判断第二权重值不大于预置的权重阈值(0.2<0.3),则可以确定出这个句子的情感倾向为中性情感。
进一步的,在确定出目标文本中各个句子的第一特征向量即正向情感特征向量以及第二特征向量即负向情感特征向量后,进一步的,可以确定出目标文本作为正向情感文本时的第三特征向量,以及确定出目标文本作为负向情感文本时的第四特征向量。
其中,第三特征向量是根据目标文本中各个句子的第一特征向量与正向情感向量确定的,也就是目标文本的正向情感特征向量,具体计算方法可参考第二实施例中的公式(7),这里,将公式(7)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,DP表示目标文本的正向情感特征向量,即目标文本作为正向情感文本时的第三特征向量,表示目标文本中第i个句子的正向情感特征向量经过Bi-LSTM网络后输出的语义信息,表示句子i在目标文本中表达正向情感时占有的权重值(可利用公式(15)计算得到),m表示目标文本中的句子总数。
同理,第四特征向量是根据目标文本中各个句子的第二特征向量与负向情感向量确定的,也就是目标文本的负向情感特征向量,具体计算方法可参考第二实施例中的公式(10),这里,将公式(10)中对应于训练文本的各个参数,改为对应于目标文本的各个参数,那么,DN表示目标文本的负向情感特征向量,即目标文本作为负向情感文本时的第四特征向量,表示目标文本中第i个句子的负向情感特征向量经过Bi-LSTM网络后输出的语义信息,表示句子i在目标文本中表达负向情感时占有的权重值(可利用公式(16)计算得到),m表示目标文本中的句子总数。
需要说明的是,在确定出目标文本的第三特征向量DP和第四特征向量DN后,进一步的,可以根据第三特征向量与第四特征向量,确定对应于目标文本的情感倾向结果。
具体来讲,可进一步利用图3所示的文本情感分析模型,将DP和DN进行拼接,生成[DP;DN]作为目标文本的组合情感特征向量,接着,如图3所示,可以将该组合情感特征向量输入全连接层进行线性映射,再采用分类函数softmax进行情感倾向结果的分类,可以得到目标文本属于每种情感类别的概率,进而选择概率最大的情感类别作为目标文本的情感倾向结果,根据该预测得到的情感倾向结果与预先对目标文本进行整体的情感标注之间的差值,通过判断该差值是否在预先设置的阈值范围内,进而可以确定出最终的对应于目标文本的情感倾向结果。其中,目标文本的情感倾向结果可以为正向情感、负向情感、中性情感,或者也可以分为高兴、悲伤、喜悦等更具体的情感类别,可以理解的是,具体的情感倾向结果的分类可以根据实际情况进行预先设置,本申请实施例对此不进行限制。
综上,本实施例在获取到待进行情感分析的目标文本后,不局限于只进行目标文本的整体情感分析,而是对目标文本中更细粒度的目标元素进行情感分析,以获得对应于目标元素的情感倾向结果,从而可以得到更全面的情感分析结果。
第四实施例
本实施例将对一种文本情感分析装置进行介绍,相关内容请参见上述方法实施例。参见图6,为本实施例提供的一种文本情感分析装置的组成示意图,该装置600包括:
目标文本获取单元601,用于获取待进行情感分析的目标文本;
目标元素确定单元602,用于确定所述目标文本中的每一目标元素,其中,所述目标元素为所述目标文本中的一个词语或一个句子;
元素情感分析单元603,用于对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果。
在本实施例的一种实现方式中,所述元素情感分析单元603包括:
第一权重确定子单元,用于确定所述目标元素对应的第一权重值和第二权重值,其中,所述第一权重值表征了所述目标元素具有正向情感属性时的偏重程度,所述第二权重值表征了所述目标元素具有负向情感属性时的偏重程度;
第二权重确定子单元,确定所述第一权重值与所述第二权重值中的较大权重值;
权重判断子单元,用于判断所述较大权重值是否大于预置的权重阈值;
第一倾向确定子单元,用于若所述较大权重值大于预置的权重阈值,则使所述目标元素的情感倾向为所述较大权重值对应的情感倾向;
第二倾向确定子单元,用于若所述较大权重值不大于预置的权重阈值,则使所述目标元素的情感倾向为中性情感。
在本实施例的一种实现方式中,所述第一权重确定子单元包括:
正向向量确定子单元,用于从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量;
负向向量确定子单元,用于从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量;
第三权重确定子单元,用于根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
在本实施例的一种实现方式中,所述第三权重确定子单元包括:
第四权重确定子单元,用于若所述目标元素为一个词语,则根据所述目标元素所属句子中的各个词语的词向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第五权重确定子单元,用于根据所述目标元素所属句子中的各个词语的词向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
在本实施例的一种实现方式中,所述第三权重确定子单元包括:
第六权重确定子单元,用于若所述目标元素为一个句子,则根据所述目标文本中各个句子分别作为正向情感句子时的第一特征向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第七权重确定子单元,用于根据所述目标文本中各个句子分别作为负向情感句子时的第二特征向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
在本实施例的一种实现方式中,所述第一特征向量是根据对应句子中各个词语的词向量与所述正向情感向量确定的;所述第二特征向量是根据对应句子中各个词语的词向量与所述负向情感向量确定的。
在本实施例的一种实现方式中,所述装置600还包括:
特征向量确定单元,用于确定所述目标文本作为正向情感文本时的第三特征向量,确定所述目标文本作为负向情感文本时的第四特征向量;
文本情感确定单元,用于根据所述第三特征向量与所述第四特征向量,确定对应于所述目标文本的情感倾向结果。
在本实施例的一种实现方式中,所述第三特征向量是根据所述目标文本中各个句子的第一特征向量与所述正向情感向量确定的;所述第四特征向量是根据所述目标文本中各个句子的第二特征向量与所述负向情感向量确定的。
进一步地,本申请实施例还提供了一种文本情感分析装置,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本情感分析方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本情感分析方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本情感分析方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种文本情感分析方法,其特征在于,包括:
获取待进行情感分析的目标文本;
确定所述目标文本中的每一目标元素,其中,所述目标元素为所述目标文本中的一个词语或一个句子;
利用预先构建的情感分析模型,对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果,其中,所述情感分析模型是带有注意力机制的模型,所述情感分析模型结构划分为两类子结构,分别为正向情感模型子结构以及负向情感模型子结构,每类情感模型子结构均为分层结构,具体分为词语层、句子层、篇章层以及输出层;
其中,所述情感分析模型的作用如下:在词语层通过双向长短期记忆网络获取每一词语的语义信息,即同时通过前向过程提取的特征和通过后向过程提取的特征,将二者结合起来作为对应词语的语义信息,并使用带有注意力机制的模型确定每个词语作为正向情感词语时的权重、以及每个词语作为负向情感词语时的权重,根据词语权重确定对应词语的情感倾向;在句子层通过利用双向长短期记忆网络获取句子的语义信息,并使用带有注意力机制的模型确定每个句子作为正向情感句子时的权重、以及每个句子作为负向情感句子时的权重,根据句子权重确定对应句子的情感倾向;在篇章层,获取篇章文本的语义信息,确定篇章文本的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果,包括:
确定所述目标元素对应的第一权重值和第二权重值,其中,所述第一权重值表征了所述目标元素具有正向情感属性时的偏重程度,所述第二权重值表征了所述目标元素具有负向情感属性时的偏重程度;
确定所述第一权重值与所述第二权重值中的较大权重值;
判断所述较大权重值是否大于预置的权重阈值;
若是,则使所述目标元素的情感倾向为所述较大权重值对应的情感倾向;若否,则使所述目标元素的情感倾向为中性情感。
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标元素对应的第一权重值和第二权重值,包括:
从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量;
从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量;
根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值,包括:
若所述目标元素为一个词语,则根据所述目标元素所属句子中的各个词语的词向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
并且,根据所述目标元素所属句子中的各个词语的词向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值,包括:
若所述目标元素为一个句子,则根据所述目标文本中各个句子分别作为正向情感句子时的第一特征向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
并且,根据所述目标文本中各个句子分别作为负向情感句子时的第二特征向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
6.根据权利要求5所述的方法,其特征在于,所述第一特征向量是根据对应句子中各个词语的词向量与所述正向情感向量确定的;所述第二特征向量是根据对应句子中各个词语的词向量与所述负向情感向量确定的。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
确定所述目标文本作为正向情感文本时的第三特征向量;
确定所述目标文本作为负向情感文本时的第四特征向量;
根据所述第三特征向量与所述第四特征向量,确定对应于所述目标文本的情感倾向结果。
8.根据权利要求7所述的方法,其特征在于,所述第三特征向量是根据所述目标文本中各个句子的第一特征向量与所述正向情感向量确定的;所述第四特征向量是根据所述目标文本中各个句子的第二特征向量与所述负向情感向量确定的。
9.一种文本情感分析装置,其特征在于,包括:
目标文本获取单元,用于获取待进行情感分析的目标文本;
目标元素确定单元,用于确定所述目标文本中的每一目标元素,其中,所述目标元素为所述目标文本中的一个词语或一个句子;
元素情感分析单元,用于利用预先构建的情感分析模型,对所述目标元素进行情感分析,得到对应于所述目标元素的情感倾向结果,其中,所述情感分析模型是带有注意力机制的模型,所述情感分析模型结构划分为两类子结构,分别为正向情感模型子结构以及负向情感模型子结构,每类情感模型子结构均为分层结构,具体分为词语层、句子层、篇章层以及输出层;
其中,所述情感分析模型的作用如下:在词语层通过双向长短期记忆网络获取每一词语的语义信息,即同时通过前向过程提取的特征和通过后向过程提取的特征,将二者结合起来作为对应词语的语义信息,并使用带有注意力机制的模型确定每个词语作为正向情感词语时的权重、以及每个词语作为负向情感词语时的权重,根据词语权重确定对应词语的情感倾向;在句子层通过利用双向长短期记忆网络获取句子的语义信息,并使用带有注意力机制的模型确定每个句子作为正向情感句子时的权重、以及每个句子作为负向情感句子时的权重,根据句子权重确定对应句子的情感倾向;在篇章层,获取篇章文本的语义信息,确定篇章文本的情感倾向。
10.根据权利要求9所述的装置,其特征在于,所述元素情感分析单元包括:
第一权重确定子单元,用于确定所述目标元素对应的第一权重值和第二权重值,其中,所述第一权重值表征了所述目标元素具有正向情感属性时的偏重程度,所述第二权重值表征了所述目标元素具有负向情感属性时的偏重程度;
第二权重确定子单元,确定所述第一权重值与所述第二权重值中的较大权重值;
权重判断子单元,用于判断所述较大权重值是否大于预置的权重阈值;
第一倾向确定子单元,用于若所述较大权重值大于预置的权重阈值,则使所述目标元素的情感倾向为所述较大权重值对应的情感倾向;
第二倾向确定子单元,用于若所述较大权重值不大于预置的权重阈值,则使所述目标元素的情感倾向为中性情感。
11.根据权利要求10所述的装置,其特征在于,所述第一权重确定子单元包括:
正向向量确定子单元,用于从所述目标文本中提取具有正向情感属性的各个正向情感词,并根据各个正向情感词确定对应于所述目标文本的正向情感向量;
负向向量确定子单元,用于从所述目标文本中提取具有负向情感属性的各个负向情感词,并根据各个负向情感词确定对应于所述目标文本的负向情感向量;
第三权重确定子单元,用于根据所述目标文本中各个词语的词向量、所述正向情感向量以及所述负向情感向量,确定所述目标元素对应的第一权重值和第二权重值。
12.根据权利要求11所述的装置,其特征在于,所述第三权重确定子单元包括:
第四权重确定子单元,用于若所述目标元素为一个词语,则根据所述目标元素所属句子中的各个词语的词向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第五权重确定子单元,用于根据所述目标元素所属句子中的各个词语的词向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
13.根据权利要求11所述的装置,其特征在于,所述第三权重确定子单元包括:
第六权重确定子单元,用于若所述目标元素为一个句子,则根据所述目标文本中各个句子分别作为正向情感句子时的第一特征向量以及所述正向情感向量,确定所述目标元素对应的第一权重值;
第七权重确定子单元,用于根据所述目标文本中各个句子分别作为负向情感句子时的第二特征向量以及所述负向情感向量,确定所述目标元素对应的第二权重值。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
特征向量确定单元,用于确定所述目标文本作为正向情感文本时的第三特征向量,确定所述目标文本作为负向情感文本时的第四特征向量;
文本情感确定单元,用于根据所述第三特征向量与所述第四特征向量,确定对应于所述目标文本的情感倾向结果。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810806307.9A CN108959268B (zh) | 2018-07-20 | 2018-07-20 | 一种文本情感分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810806307.9A CN108959268B (zh) | 2018-07-20 | 2018-07-20 | 一种文本情感分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959268A CN108959268A (zh) | 2018-12-07 |
CN108959268B true CN108959268B (zh) | 2023-01-17 |
Family
ID=64497947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810806307.9A Active CN108959268B (zh) | 2018-07-20 | 2018-07-20 | 一种文本情感分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959268B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704581B (zh) * | 2019-09-11 | 2024-03-08 | 创新先进技术有限公司 | 计算机执行的文本情感分析方法及装置 |
CN111291187B (zh) * | 2020-01-22 | 2023-08-08 | 北京芯盾时代科技有限公司 | 一种情感分析方法、装置、电子设备及存储介质 |
CN114153967B (zh) * | 2021-09-10 | 2024-07-23 | 时趣互动(北京)科技有限公司 | 长文本的舆情分类优化方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | 中国银联股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656917B (zh) * | 2016-07-26 | 2021-01-26 | 深圳联友科技有限公司 | 一种中文情感分析方法及系统 |
CN108052505A (zh) * | 2017-12-26 | 2018-05-18 | 上海智臻智能网络科技股份有限公司 | 文本情感分析方法及装置、存储介质、终端 |
-
2018
- 2018-07-20 CN CN201810806307.9A patent/CN108959268B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153642A (zh) * | 2017-05-16 | 2017-09-12 | 华北电力大学 | 一种基于神经网络识别文本评论情感倾向的分析方法 |
CN107609009A (zh) * | 2017-07-26 | 2018-01-19 | 北京大学深圳研究院 | 文本情感分析方法、装置、存储介质和计算机设备 |
CN108256098A (zh) * | 2018-01-30 | 2018-07-06 | 中国银联股份有限公司 | 一种确定用户评论情感倾向的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108959268A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487986B2 (en) | Providing a response in a session | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN109492229B (zh) | 一种跨领域情感分类方法和相关装置 | |
US9015035B2 (en) | User modification of generative model for determining topics and sentiments | |
WO2018165932A1 (en) | Generating responses in automated chatting | |
CN103853824A (zh) | 一种基于深度语义挖掘的内文广告发布方法与系统 | |
KR101851788B1 (ko) | 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법 | |
CN110765769B (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN110162594B (zh) | 文本数据的观点生成方法、装置及电子设备 | |
CN109189894B (zh) | 一种答案抽取方法及装置 | |
CN108959268B (zh) | 一种文本情感分析方法及装置 | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN111046171B (zh) | 一种基于细粒度标注数据的情感判别方法 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN111737961B (zh) | 一种故事生成的方法、装置、计算机设备和介质 | |
CN113326374A (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN110321918A (zh) | 基于微博的舆论机器人系统情感分析和图像标注的方法 | |
CN114492423A (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Saranya et al. | A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis. | |
Abdi et al. | Using an auxiliary dataset to improve emotion estimation in users’ opinions | |
KR101851794B1 (ko) | 타겟 어구의 감정 스코어 생성 장치 및 방법 | |
CN106372147B (zh) | 基于文本网络的异构主题网络构建和可视化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |