CN112818681B - 文本情感分析方法、系统及电子设备 - Google Patents
文本情感分析方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112818681B CN112818681B CN202011619662.9A CN202011619662A CN112818681B CN 112818681 B CN112818681 B CN 112818681B CN 202011619662 A CN202011619662 A CN 202011619662A CN 112818681 B CN112818681 B CN 112818681B
- Authority
- CN
- China
- Prior art keywords
- emotion
- analyzed
- emotion analysis
- text
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 361
- 238000004458 analytical method Methods 0.000 title claims abstract description 263
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 241001067759 Senta Species 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000028161 membrane depolarization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本情感分析方法、系统及电子设备,涉及文本情感分析领域,该方法首先根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系;再根据第一情感分析结果,确定各个语句中的待分析语句;然后根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果;最后根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。该方法通过预设的情感数据库对待分析文本进行查找,对数据库中存在的待分析文本则直接输出情感分析结果,减少对相关深度学习模型的调用,减少分析时间。
Description
技术领域
本发明涉及文本情感分析技术领域,尤其是涉及一种文本情感分析方法、系统及电子设备。
背景技术
文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,现有技术的文本情感分析需要通过深度学习相关模型来实现,使用深度学习进行文本情感分析时会消耗较多的资源。在实际对文本进行情感分析时,文本中很多语句是重复的,导致深度学习模型的重复调用,增加了分析时间。
发明内容
有鉴于此,本发明的目的在于提供一种文本情感分析方法、系统及电子设备,在对文本进行情感分析之前,通过预设的情感数据库对待分析文本进行查找,对数据库中存在的待分析文本则直接输出情感分析结果,减少对相关深度学习模型的调用,减少分析时间。
第一方面,本发明实施例提供了一种文本情感分析方法,该方法包括:
根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系;
根据第一情感分析结果,确定各个语句中的待分析语句;
根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果;
根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。
在一些实施方式中,根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果的步骤,包括:
对待分析文本进行分割处理,确定构成待分析文本的各个语句;
分别对语句进行哈希运算,得到各个语句对应的哈希值;
将各个语句对应的哈希值分别输入至预设的情感数据库中,判断情感数据库中是否包含哈希值,并将判断结果确定为第一感情分析结果。
在一些实施方式中,根据第一情感分析结果,确定各个语句中的待分析语句的步骤,包括:
在第一感情分析结果中确定情感数据库中不包含哈希值的语句;
将该语句确定为待分析语句。
在一些实施方式中,根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果的步骤,包括:
将待分析语句输入至情感分类模型中进行情感分析;
情感分类模型输出待分析语句的情感分析结果,并将情感分析结果作为待分析语句的第二情感分析结果。
在一些实施方式中,根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果的步骤之后,方法还包括:
根据语句对应的哈希值以及语句的情感分析结果,确定语句的感情分析结果键值对;
将语句的感情分析结果键值对输入至情感数据库中;
情感数据库接收语句的感情分析结果键值后,更新语句对应的感情分析结果。
在一些实施方式中,根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果的步骤,包括:
对第一情感分析结果中各个语句的情感分析结果进行统计,得到情感分析结果的统计数据;
将统计数据中数量最多的语句的情感分析结果,确定为待分析文本的情感分析结果。
在一些实施方式中,对待分析文本进行分割处理,确定构成待分析文本的各个语句的步骤,包括:
遍历待分析文本,获取待分析文本中的句号位置;
根据待分析文本中的句号位置,确定待分析文本中包含的所有语句并计算语句的长度;
若语句长度超过预设长度阈值将语句再次进行分割,直至待分析文本的各个语句的长度不超过预设长度阈值时,确定待分析文本的各个语句。
第二方面,本发明实施例提供了一种文本情感分析系统,该系统包括:
第一分析模块,用于根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系;
待分析语句确定模块,用于根据第一情感分析结果,确定各个语句中的待分析语句;
第二分析模块,用于根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果;
情感分析确定模块,用于根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。
第三方面,本发明实施例还提供一种电子设备,包括:处理器和存储器;存储器上存储有计算机程序,计算机程序在被处理器运行时实现上述第一方面任意可能的实施方式中提到的文本情感分析方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其中,计算机程序被处理器运行时实现上述第一方面任意可能的实施方式中提到的文本情感分析方法的步骤。
本发明实施例带来了以下有益效果:
本发明提供了一种文本情感分析方法、系统及电子设备,该方法首先根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系;然后根据第一情感分析结果,确定各个语句中的待分析语句;再根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果;然后根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。该方法在对文本进行情感分析之前,通过预设的情感数据库对待分析文本进行查找,对数据库中存在的待分析文本则直接输出情感分析结果,减少对相关深度学习模型的调用,减少分析时间。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本情感分析方法的流程图;
图2为本发明实施例提供的一种文本情感分析方法中步骤S101的流程图;
图3为本发明实施例提供的一种文本情感分析方法中步骤S201的流程图;
图4为本发明实施例提供的一种文本情感分析方法中步骤S102的流程图;
图5为本发明实施例提供的一种文本情感分析方法中步骤S103的流程图;
图6为本发明实施例提供的一种文本情感分析方法中步骤S104的流程图;
图7为本发明实施例提供的一种文本情感分析方法中步骤S103之后的方法流程图;
图8为本发明实施例提供的另一种文本情感分析方法的流程图;
图9为本发明实施例提供的一种文本情感分析系统的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
图标:
910-第一分析模块;920-待分析语句确定模块;930-第二分析模块;940-情感分析确定模块;
101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,简单而言是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如:大众点评等)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
通常来说,情感分析的目的是为了找出说话者/作者在某些话题上或者针对一个文本两极的观点的态度。这个态度或许是他或她的个人判断或是评估,也许是他或她当时的情感状态(就是说,作者在做出这个言论时的情绪状态),或是作者有意向的情感交流(就是作者想要读者所体验的情绪)。
按照处理文本的粒度不同,情感分析大致可分为词语级、句子级、篇章级三个研究层次。
篇章级别的情感分类是指定一个整体的情绪方向/极性,即确定该文章(例如,完整的在线评论)是否传达总体正面或负面的意见。在这种背景下,这是一个二元分类任务。它也可以是回归任务,例如,从1到5星的审查推断的总体评分。也可以认为这是一次5级分类任务。
实际操作时,可以将自然语言处理技术与模糊逻辑技术相结合,基于手动创建的模糊情感词典,对新闻故事和电影评论进行情感分析。定义情感种类,在模糊情感词典中标注情感类别及其强度。每个词语可以属于多个情感类别。在实验中,可以对比采用词频、与长度相关的特征、语义倾向、情感PMI—IR、强调词和特殊符号等不同特征时的结果。最后对文章的主动性/被动性和积极/消极性进行了判断。
句子级,由于句子的情感分析离不开构成句子的词语的情感,其方法划分为三大类:(1)基于知识库的分析方法;(2)基于网络的分析方法;(3)基于语料库的分析方法。
在对文本信息中句子的情感进行识别时,通常创建的情感数据库会包含一些情感符号、缩写、情感词、修饰词等等。我们在具体的实验中会定义几种情感(生气、憎恨、害怕、内疚、感兴趣、高兴、悲伤等),对句子标注其中一种情感类别及其强度值来实现对句子的情感分类。
词语级,词语的情感是句子或篇章级情感分析的基础。早期的文本情感分析主要集中在对文本正负极性的判断。词语的情感分析方法主要可归纳为三类:(1)基于词典的分析方法;(2)基于网络的分析方法;(3)基于语料库的分析方法。
基于词典的分析方法利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之间的语义相似度,根据语义的远近对词语的情感进行分类。
基于网络的分析方法利用万维网的搜索引擎获取查询的统计信息,计算词语与正、负极性种子词汇之间的语义关联度,从而对词语的情感进行分类。
基于语料库的分析方法,运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分类模型学习训练数据中的规律,然后用训练好的模型对测试数据进行预测,在使用深度学习进行文本情感分析时会消耗较多的资源。在实际对文本进行情感分析时(比如舆情事件文本情感分析),文本中很多语句是重复的,导致深度学习模型的重复调用,增加了分析时间。
基于此,本发明实施例提供了一种文本情感分析方法、系统及电子设备,通过预设的情感数据库对待分析文本进行查找,对数据库中存在的待分析文本则直接输出情感分析结果,减少对相关深度学习模型的调用,减少分析时间。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本情感分析方法进行详细介绍。
参见图1所示的一种文本情感分析方法的流程图,该方法包括以下步骤:
步骤S101,根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系。
待分析文本中通常包含多个语句,对于该方法而言,所用的情感分析是对句子级的文本进行感情分析,因此对于较长的待分析文本,需要对此类文本进行语句划分,并对单个文本分别进行情感分析。
情感数据库中包含了各类待分析文本及其对应的情感分析结果,具体实现过程中,待分析文本及其对应的情感分析结果通过数组的方式保存在数据库中,形成一一对应的关系。当外部搜索到待分析文本时,即可获取与之相对应的情感分析结果。
情感数据库中存储有预设语句与情感的对应关系,该语句所表达的情感可事先通过将该语句输入至情感分类模型中获取,也可人工判断后手动输入至数据库中。
步骤S102,根据第一情感分析结果,确定各个语句中的待分析语句。
第一情感分析结果已通过预设的情感数据库实现了情感初步分析,对于情感数据库中已包含的语句,可直接从数据库中获得与之相对应的情感分析结果;对于情感数据库中不包含的语句,将其作为待分析语句并通过情感分类模型进行感情分析。
该步骤中获取的待分析语句相比于步骤S101中的待分析文本,进一步减少了待分析的文本数据量,有利于减少后续步骤对情感分类模型的调用。
步骤S103,根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果。
将待分析语句输入至训练后的情感分类模型中,情感分类模型根据待分析语句的语义输出相应的情感分析结果,并将该结果作为第二感情分析结果。
从步骤S102可知,情感数据库中并无该语句的情感分析结果,因此在通过情感分类模型获取到情感分析结果之后,可将该结果重新上传至情感数据库中,以便后续相同的语句进行情感分析前,通过情感数据库可直接获得相应的情感分析结果,不再调用情感分类模型,减少了模型的调用。
步骤S104,根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。
第一情感分析结果可表征待分析文本中包含的语句数量;第二情感分析结果可表征该语句对应的具体情感分析结果;通过第一情感分析结果和第二情感分析结果进行数量统计,可从整体上确定待分析文本的情感分析结果。
通过上述实施例中提供的文本情感分析方法可知,该方法在对文本进行情感分析之前,通过预设的情感数据库对待分析文本进行查找,对于数据库中存在的待分析文本则直接输出情感分析结果,对于数据库中不存在的待分析文本再通过调用相关深度学习模型从而获取相应的情感分析结果。该方法减少对相关深度学习模型的调用,减少分析时间,提升了分析效率。
在一些实施方式中,根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果的步骤S101,如图2所示,包括:
步骤S201,对待分析文本进行分割处理,确定构成待分析文本的各个语句;
由于该方法针对于句子级的文本情感分析,因此需要对待分析文本进行分割处理,换句话说是将待分析文本分为多个语句。一般情况下是通过文本中的句号来对待分析文本进行分割。但有些文本中单个句子较长,如果保存在情感数据库中会有长度的限制,因此需要对这些较长的句子进行二次分割。具体的如图3所示,还可包括如下步骤:
步骤S21,遍历待分析文本,获取待分析文本中的句号位置。
该步骤为传统的句子获取方法,不再赘述。
步骤S22,根据待分析文本中的句号位置,确定待分析文本中包含的所有语句并计算语句的长度。
语句的长度即为语句包含子串的长度,在具体实现过程中可直接通过计算语句中包含的汉子、字母以及数字的数量而直接计算该语句的长度。
步骤S23,若语句长度超过预设长度阈值将语句再次进行分割,直至待分析文本的各个语句的长度不超过预设长度阈值时,确定待分析文本的各个语句。
预设长度阈值是情感数据库中要求的最长语句长度所决定的,一般情况下数据库中的字段是有长度要求,而该长度要求即为长度阈值。例如,情感数据库中的句子相关的字段长度不能超过80字节,因此在对语句进行分割时如果超过80字节则将其再次进行分割。
步骤S202,分别对语句进行哈希运算,得到各个语句对应的哈希值。
由于语句中会包含汉字、数字或字母,不利于数据的查找,同时也为了提高数据的安全性,因此对该语句进行哈希运算,并将得到的哈希值进行数据库的查找以及后续的情感分类模型使用。具体计算过程中可采用SHA256、SHA1、SHA224、SHA256、SHA384、SHA512以及MD5等哈希函数所实现。
步骤S203,将各个语句对应的哈希值分别输入至预设的情感数据库中,判断情感数据库中是否包含哈希值,并将判断结果确定为第一感情分析结果。
此时的情感数据库中,语句与哈希值一一对应,将哈希值输入至情感数据库中进行查找,查找结果作为第一情感分析结果用于后续确定各个语句中的待分析语句。
在一些实施方式中,根据第一情感分析结果,确定各个语句中的待分析语句的步骤S102,如图4所示,包括:
步骤S401,在第一感情分析结果中确定情感数据库中不包含哈希值的语句。
情感数据库存有情感分析结果,可通过句子哈希查找对应分析结果。具体实现可以是MySQL等支持持久化的数据库。
步骤S402,将该语句确定为待分析语句。
具体的说,输入为单个待分析的句子,首先对句子进行哈希运算(比如md5)得到哈希值HASH,然后将此作为键值查找情感数据库,如果找到则返回结果;如果没有,则将语句确定为待分析语句,并用于后续调用模型进行情感分析。
在一些实施方式中,根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果的步骤S103,如图5所示,包括:
步骤S501,将待分析语句输入至情感分类模型中进行情感分析。
情感分类模型,可通过Senta、bi-LSTM、CNN、hierarchicalLSTM或self-attention等训练生成,将待分析语句输入至情感分类模型中进行分析,情感分类模型可根据语句的内容输出情感分析结果。
步骤S502,情感分类模型输出待分析语句的情感分析结果,并将情感分析结果作为待分析语句的第二情感分析结果。
情感分析结果可为“高兴”、“悲伤”、“消极”、“积极”等,每个待分析语句对应一个情感分析结果。
在一些实施方式中,根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果的步骤S104,如图6所示,包括:
步骤S601,对第一情感分析结果中各个语句的情感分析结果进行统计,得到情感分析结果的统计数据。
由于待分析文本包含多个语句,不能保证每个语句所表达的情感分析结果是相同的,因此需要对所有语句进行统计。例如,可按照情感分析结果中涉及的“高兴”、“悲伤”、“消极”、“积极”,统计所有语句出现的次数。
步骤S602,将统计数据中数量最多的语句的情感分析结果,确定为待分析文本的情感分析结果。
次数最多,表明该文本中想表达的该情感是最多的,因此可作为待分析文本的最终情感分析结果。
在一些实施方式中,根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果的步骤S103之后,需要将该结果上传至情感数据库中,具体的如图7所示,该方法还包括:
步骤S701,根据语句对应的哈希值以及语句的情感分析结果,确定语句的感情分析结果键值对。
由于情感数据库中不包含该语句的情感分析结果,因此将语句对应的哈希值以及语句的情感分析结果以键值对的形式进行格式化,后续上传至情感数据库中。
步骤S702,将语句的感情分析结果键值对输入至情感数据库中;
步骤S703,情感数据库接收语句的感情分析结果键值后,更新语句对应的感情分析结果。
上述步骤中为数据库的更新过程,再次不再赘述。
下面结合一个具体的例子,来对文本情感分析方法的流程进行描述,如图8所示。
首先获取待分析的单个句子,然后按照句子文本的hash值从情感数据库中查找是否存在该hash值对应的情感分析结果。
如果是,则直接将该情感分析结果进行输出,此时不再利用深度学习进行分析;
如果否,则利用深度学习进行分析,通过相应的情感分类模型获得情感分析结果,并将该结果上传至情感数据库中进行更新。当后续有相同的句子时,直接通过情感数据库输出情感分析结果,不再进行利用情感分类模型进行分析,减少了深度学习的过程,提高了分析速度。
例如,待分析的句子为“据俄侦委数据,空难造成机上78人中的41人死亡”;通过SHA256进行哈希运算得到该句子的hash值为“68580331e8aafb13712d4328e59ede4ebd012d0799d0a5585593b037d60cecc0”。将该hash值输入至预设的mysql数据库中进行查找且未找到,然后将该hash值输入至训练后的Senta模型进行情感分析。Senta模型通过相关运算输出情感分析结果为“negative”。在获得情感分析结果后,将<"68580331e8aafb13712d4328e59ede4ebd012d0799d0a5585593b037d60cecc0","negative">作为一条输入数据存入mysql数据库中。
当再次分析该条句子时,根据对应的hash值,直接从mysql数据库中查询到对应的情感分析结果"negative",此时不再利用Senta模型进行情感分析而是直接输出情感分析结果。
在具体实现过程中,上述过程的操作系统为Ubuntu 20.04LTS;开发语言为python3.7;数据库为MySQL 8.0;深度学习模型为Senta;hash算法为sha256。最终使用Senta模型得到情感分析结果为2.2秒;而通过数据库查询得到的情感分析结果为0.059秒,大大减少了分析时间。
通过上述实施例提到的文本情感分析方法可知,该方法在对文本进行情感分析之前,通过预设的情感数据库对待分析文本进行查找,对数据库中存在的待分析文本则直接输出情感分析结果,减少对相关深度学习模型的调用,减少分析时间。
对应于上述方法实施例,本发明实施例还提供了一种文本情感分析系统,该系统的结构示意图如图9所示,该系统包括:
第一分析模块910,用于根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,情感数据库中存储有预设语句与情感的对应关系;
待分析语句确定模块920,用于根据第一情感分析结果,确定各个语句中的待分析语句;
第二分析模块930,用于根据待分析语句和训练后的情感分类模型,确定待分析语句对应的第二情感分析结果;
情感分析确定模块940,用于根据第一情感分析结果和第二情感分析结果,确定待分析文本的情感分析结果。
本发明实施例提供的文本情感分析系统,与上述实施例提供的文本情感分析方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图10所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述文本情感分析方法。
图10所示的电子设备还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种文本情感分析方法,其特征在于,所述方法包括:
根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,所述情感数据库中存储有预设语句与情感的对应关系;
根据所述第一情感分析结果,确定所述各个语句中的待分析语句;
根据所述待分析语句和训练后的情感分类模型,确定所述待分析语句对应的第二情感分析结果;
根据所述第一情感分析结果和所述第二情感分析结果,确定所述待分析文本的情感分析结果;
根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果的步骤,包括:
对待分析文本进行分割处理,确定构成所述待分析文本的各个语句;
分别对所述语句进行哈希运算,得到各个所述语句对应的哈希值;
将各个所述语句对应的哈希值分别输入至预设的情感数据库中,判断所述情感数据库中是否包含所述哈希值,并将判断结果确定为第一感情分析结果;
根据所述第一情感分析结果,确定所述各个语句中的待分析语句的步骤,包括:
在所述第一感情分析结果中确定所述情感数据库中不包含所述哈希值的语句;
将该所述语句确定为待分析语句。
2.根据权利要求1所述的方法,其特征在于,根据所述待分析语句和训练后的情感分类模型,确定所述待分析语句对应的第二情感分析结果的步骤,包括:
将所述待分析语句输入至所述情感分类模型中进行情感分析;
所述情感分类模型输出所述待分析语句的情感分析结果,并将所述情感分析结果作为所述待分析语句的第二情感分析结果。
3.根据权利要求1所述的方法,其特征在于,根据所述待分析语句和训练后的情感分类模型,确定所述待分析语句对应的第二情感分析结果的步骤之后,所述方法还包括:
根据所述语句对应的哈希值以及所述语句的情感分析结果,确定所述语句的感情分析结果键值对;
将所述语句的感情分析结果键值对输入至所述情感数据库中;
所述情感数据库接收所述语句的感情分析结果键值后,更新所述语句对应的感情分析结果。
4.根据权利要求1所述的方法,其特征在于,根据所述第一情感分析结果和所述第二情感分析结果,确定所述待分析文本的情感分析结果的步骤,包括:
对所述第一情感分析结果中各个所述语句的情感分析结果进行统计,得到所述情感分析结果的统计数据;
将所述统计数据中数量最多的所述语句的情感分析结果,确定为所述待分析文本的情感分析结果。
5.根据权利要求1所述的方法,其特征在于,对待分析文本进行分割处理,确定构成所述待分析文本的各个语句的步骤,包括:
遍历所述待分析文本,获取所述待分析文本中的句号位置;
根据所述待分析文本中的句号位置,确定所述待分析文本中包含的所有语句并计算所述语句的长度;
若所述语句长度超过预设长度阈值将所述语句再次进行分割,直至所述待分析文本的各个语句的长度不超过预设长度阈值时,确定所述待分析文本的各个语句。
6.一种文本情感分析系统,其特征在于,所述系统包括:
第一分析模块,用于根据待分析文本中的各个语句和预设的情感数据库,确定第一情感分析结果;其中,所述情感数据库中存储有预设语句与情感的对应关系;
待分析语句确定模块,用于根据所述第一情感分析结果,确定所述各个语句中的待分析语句;
第二分析模块,用于根据所述待分析语句和训练后的情感分类模型,确定所述待分析语句对应的第二情感分析结果;
情感分析确定模块,用于根据所述第一情感分析结果和所述第二情感分析结果,确定所述待分析文本的情感分析结果;
所述第一分析模块,还用于:对待分析文本进行分割处理,确定构成所述待分析文本的各个语句;分别对所述语句进行哈希运算,得到各个所述语句对应的哈希值;将各个所述语句对应的哈希值分别输入至预设的情感数据库中,判断所述情感数据库中是否包含所述哈希值,并将判断结果确定为第一感情分析结果;
所述待分析语句确定模块,还用于:在所述第一感情分析结果中确定所述情感数据库中不包含所述哈希值的语句;将该所述语句确定为待分析语句。
7.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时实现如权利要求1至5任一项所述的文本情感分析方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现上述权利要求1至5任一项所述的文本情感分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619662.9A CN112818681B (zh) | 2020-12-31 | 2020-12-31 | 文本情感分析方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619662.9A CN112818681B (zh) | 2020-12-31 | 2020-12-31 | 文本情感分析方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818681A CN112818681A (zh) | 2021-05-18 |
CN112818681B true CN112818681B (zh) | 2023-11-10 |
Family
ID=75855918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011619662.9A Active CN112818681B (zh) | 2020-12-31 | 2020-12-31 | 文本情感分析方法、系统及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818681B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408269A (zh) * | 2021-07-20 | 2021-09-17 | 北京百度网讯科技有限公司 | 文本情感分析方法和装置 |
CN113476058B (zh) * | 2021-07-22 | 2022-11-29 | 北京脑陆科技有限公司 | 对抑郁症患者的干预处理方法、装置、终端及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN107102984A (zh) * | 2017-04-21 | 2017-08-29 | 中央民族大学 | 一种藏语微博情感倾向性分析方法和系统 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108733644A (zh) * | 2018-04-09 | 2018-11-02 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、计算机可读存储介质及终端设备 |
CN108829672A (zh) * | 2018-06-05 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本的情感分析方法、装置、计算机设备和存储介质 |
CN110069786A (zh) * | 2019-05-06 | 2019-07-30 | 北京理琪教育科技有限公司 | 语文作文情感倾向的分析方法、装置和设备 |
CN110750978A (zh) * | 2019-09-25 | 2020-02-04 | 深圳市金证优智科技有限公司 | 情感倾向分析方法、装置、电子设备及存储介质 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN111538828A (zh) * | 2020-04-21 | 2020-08-14 | 招商局金融科技有限公司 | 文本情感分析方法、装置、计算机装置及可读存储介质 |
WO2020258502A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 文本分析方法、装置、计算机装置及存储介质 |
-
2020
- 2020-12-31 CN CN202011619662.9A patent/CN112818681B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572616A (zh) * | 2014-12-23 | 2015-04-29 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN107102984A (zh) * | 2017-04-21 | 2017-08-29 | 中央民族大学 | 一种藏语微博情感倾向性分析方法和系统 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108733644A (zh) * | 2018-04-09 | 2018-11-02 | 平安科技(深圳)有限公司 | 一种文本情感分析方法、计算机可读存储介质及终端设备 |
CN108829672A (zh) * | 2018-06-05 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本的情感分析方法、装置、计算机设备和存储介质 |
CN111507789A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 商品属性词的确定方法、装置及计算设备 |
CN110069786A (zh) * | 2019-05-06 | 2019-07-30 | 北京理琪教育科技有限公司 | 语文作文情感倾向的分析方法、装置和设备 |
WO2020258502A1 (zh) * | 2019-06-25 | 2020-12-30 | 平安科技(深圳)有限公司 | 文本分析方法、装置、计算机装置及存储介质 |
CN110750978A (zh) * | 2019-09-25 | 2020-02-04 | 深圳市金证优智科技有限公司 | 情感倾向分析方法、装置、电子设备及存储介质 |
CN111538828A (zh) * | 2020-04-21 | 2020-08-14 | 招商局金融科技有限公司 | 文本情感分析方法、装置、计算机装置及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
一种文本倾向性分析方法及其应用;许鑫;俞飞;张莉;;现代图书情报技术(10);54-62 * |
从文化因素看英汉习语翻译;黄海婷;文教资料(第02期);197-198 * |
金融媒体新闻情绪及其对股市影响研究;史峰;中国博士学位论文全文数据库 经济与管理科学辑(第01期);J159-45 * |
面向社会媒体搜索的实体关系建模研究综述;王大玲;于戈;冯时;张一飞;鲍玉斌;;计算机学报;39(04);657-674 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818681A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Almeida et al. | Text normalization and semantic indexing to enhance instant messaging and SMS spam filtering | |
Bouazizi et al. | Sentiment analysis: From binary to multi-class classification: A pattern-based approach for multi-class sentiment analysis in Twitter | |
Montejo-Ráez et al. | Ranked wordnet graph for sentiment polarity classification in twitter | |
CN111767403B (zh) | 一种文本分类方法和装置 | |
Aisopos et al. | Sentiment analysis of social media content using n-gram graphs | |
US20140108006A1 (en) | System and method for analyzing and mapping semiotic relationships to enhance content recommendations | |
CN111104518A (zh) | 用于从用户生成的内容建立演化本体的系统和方法 | |
CN108628834B (zh) | 一种基于句法依存关系的词语表示学习方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
Banik et al. | Evaluation of naïve bayes and support vector machines on bangla textual movie reviews | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
Ginting et al. | Hate speech detection on twitter using multinomial logistic regression classification method | |
CN112818681B (zh) | 文本情感分析方法、系统及电子设备 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
JP2019091450A (ja) | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム | |
CN112446210A (zh) | 用户性别预测方法、装置及电子设备 | |
US20180032907A1 (en) | Detecting abusive language using character n-gram features | |
CN112417127A (zh) | 对话模型的训练、对话生成方法、装置、设备及介质 | |
Emmery et al. | Simple queries as distant labels for predicting gender on twitter | |
Demirci | Emotion analysis on Turkish tweets | |
Çoban et al. | Facebook tells me your gender: An exploratory study of gender prediction for Turkish Facebook users | |
CN110020429B (zh) | 语义识别方法及设备 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
Nazare et al. | Sentiment analysis in Twitter | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |