CN113688620B - 文章情感分析方法和装置 - Google Patents
文章情感分析方法和装置 Download PDFInfo
- Publication number
- CN113688620B CN113688620B CN202110986658.4A CN202110986658A CN113688620B CN 113688620 B CN113688620 B CN 113688620B CN 202110986658 A CN202110986658 A CN 202110986658A CN 113688620 B CN113688620 B CN 113688620B
- Authority
- CN
- China
- Prior art keywords
- emotion
- sentences
- article
- analyzed
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 334
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000007935 neutral effect Effects 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 9
- 238000013145 classification model Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012552 review Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文章情感分析方法和装置。该方法包括:获取待分析文章;对待分析文章进行分句处理,得到组成待分析文章的所有句子;确定所有句子在待分析文章中的篇章要素分类结果和所有所述句子的情感极性;篇章要素分类结果用于表示对应所述句子在待分析文章中的作用;情感极性包括中性;计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将占比值定义为待分析文章的情感强度得分;根据所有句子在所述待分析文章中的篇章要素分类结果、所有句子的情感极性和各所述篇章要素分类结果对应的预设权重确定待分析文章的情感极性。本发明能够智能分析出文章的情感强度得分和情感极性,使得用户通过本发明能够快速了解文章的情感色彩。
Description
技术领域
本发明涉及文章情感智能分析技术领域,具体涉及一种文章情感分析方法和装置。
背景技术
深度学习算法模型在自然语言处理领域的应用越来越广泛,基于深度学习的深层文本特征提取能力不断增强,使得在微博等领域出现了智能分析句子情感的模型。
然而,目前的情感分析模型只能针对单个句子进行智能情感分析,无法对像作文等文章进行智能情感分析。
发明内容
有鉴于此,提供一种文章情感分析方法和装置,以解决相关技术的情感分析模型无法对文章进行智能情感分析的问题。
本发明采用如下技术方案:
第一方面,本发明提供了一种文章情感分析方法,包括:
获取待分析文章;
对所述待分析文章进行分句处理,得到组成所述待分析文章的所有句子;
确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性;所述篇章要素分类结果用于表示对应所述句子在所述待分析文章中的作用;所述情感极性包括中性;
计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将所述占比值定义为所述待分析文章的情感强度得分;
根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性。
优选的,所述根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性,包括:
根据所述句子的情感极性将所有所述句子划分为不同组合,且使得每个组合中的句子情感极性相同;
将所述组合中各所述句子在所述待分析文章中的篇章要素分类结果对应的预设权重相加,得到所述组合对应的权重值;
确定所述权重值最高的组合所对应的情感极性为所述待分析文章的情感极性,其中,所述组合所对应的情感极性为所述组合中的句子的情感极性。
优选的,所述确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性之前,本发明的文章情感分析方法还包括:
获取多条待分类句子;所述待分类句子用于构成文章,且所述待分类句子对应的文章与所述待分析文章属于相同的领域;
确定各条所述待分类句子的情感极性;
将确定情感极性后的句子作为情感分类模型的训练数据;
根据所述训练数据训练所述情感分类模型;
所述确定所有所述句子的情感极性,包括:根据所述情感分类模型确定所有所述句子的情感极性。
优选的,所述确定各条所述待分类句子的情感极性之前,本发明的文章情感分析方法还包括:
获取微博领域情感分类数据集;
根据所述微博领域情感分类数据集进行模型训练,得到微博领域情感分类模型;
确定任意一条所述待分类句子的情感极性,包括:
基于所述微博领域情感分类模型确定所述句子的情感极性,得到第一结果,以及基于情感词典确定所述句子的情感极性,得到第二结果;
判断所述第一结果和所述第二结果是否相同;
当所述第一结果和所述第二结果相同时,确定所述第一结果或所述第二结果为所述句子的情感极性;
当所述第一结果和所述第二结果不相同时,根据用户的审核操作确定所述句子的情感极性。
优选的,所述当所述第一结果和所述第二结果不相同时,本发明的还包括:对所述句子进行情感标签标注,以使用户根据标注结果审核所述句子的情感极性分类结果。
优选的,所述基于情感词典确定所述句子的情感极性,包括:
将所述句子进行分词处理,得到组成所述句子的各词;
基于情感词典确定各词的情感极性;
根据所述各词的情感极性判断所述句子中是否包含情感词;
当所述句子中不包含情感词时,定义所述句子的情感极性为中性;
当所述句子中包含情感词时,统计各情感极性对应的词的数量;
确定词数量最多的情感极性;
判断词数量最多的情感极性是否为一个;
当词数量最多的情感极性为一个时,定义所述情感极性为所述句子的情感极性;
当词数量最多的情感极性不为一个时,基于情感词典确定各词的情感强度;
确定情感强度最高的词;
定义情感强度最高的词的情感极性为所述句子的情感极性。
优选的,所述微博领域情感分类模型包括:Bert Chinese baseline层、CNN卷积层、LSTM层和全连接层。
优选的,确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:
根据预设规则提取所述句子的浅层特征;所述浅层特征包括词性、命名实体、提示词、字数、位置、以及与所述待分析文章的题目的余弦相似度;
基于深度语义理解模型提取所述句子的深层特征;所述深层特征为所述待分析文章的语义级别特征;
根据所述浅层特征和所述深层特征确定所述句子在所述待分析文章中的篇章要素分类结果。
优选的,所述确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:根据预设篇章要素分类模型确定任意一条所述句子在所述待分析文章中的篇章要素分类结果;
所述预设篇章要素分类模型包括:Embedding层、第一BIGRU层、第二BIGRU层和全连接层;
所述Embedding层用于提取所述句子的向量表示;
所述第一BIGRU层用于提取所述句子的深层特征;
所述第二BIGRU层用于将融合后的所述浅层特征和所述深层特征进行特征组合计算;
所述全连接层用于根据所述第二BIGRU层的计算结果确定所述句子在所述待分析文章中的篇章要素分类结果。
第二方面,本发明还提供了一种文章情感分析装置,包括:
获取模块,用于获取待分析文章;
分句模块,用于对所述待分析文章进行分句处理,得到组成所述待分析文章的所有句子;
分类模块,用于确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性;所述篇章要素分类结果用于表示对应所述句子在所述待分析文章中的作用;所述情感极性包括中性;
情感强度得分计算模块,用于计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将所述占比值定义为所述待分析文章的情感强度得分;
情感极性确定模块,用于根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性。
本发明采用以上技术方案,一种文章情感分析方法,包括:获取待分析文章;对待分析文章进行分句处理,得到组成待分析文章的所有句子;确定所有句子在待分析文章中的篇章要素分类结果和所有所述句子的情感极性;篇章要素分类结果用于表示对应所述句子在待分析文章中的作用;情感极性包括中性;计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将占比值定义为待分析文章的情感强度得分;根据所有句子在所述待分析文章中的篇章要素分类结果、所有句子的情感极性和各所述篇章要素分类结果对应的预设权重确定待分析文章的情感极性。基于此,本发明能够智能分析出文章的情感强度得分和情感极性,使得用户通过本发明能够快速了解文章的情感色彩。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文章情感分析方法的流程示意图。
图2是本发明实施例提供的一种基于情感词典确定句子的情感极性的方法的流程示意图。
图3是本发明实施例提供的一种微博领域情感分类模型的结构示意图。
图4是本发明实施例提供的一种预设篇章要素分类模型的结构示意图。
图5是本发明实施例提供的一种文章情感分析装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明实施例提供的一种文章情感分析方法的流程示意图。如图1所示,本实施例的文章情感分析方法,包括:
S101、获取待分析文章。
具体的,待分析文章可以是一篇作文,也可以是其他的文章。
S102、对待分析文章进行分句处理,得到组成待分析文章的所有句子。
S103、确定所有句子在待分析文章中的篇章要素分类结果和所有句子的情感极性;篇章要素分类结果用于表示对应所述句子在待分析文章中的作用;情感极性包括中性。
详细的,篇章要素分类结果用于表示对应所述句子在待分析文章中的作用,不同的篇章要素分类结果代表对应的句子在文章中的不同作用。篇章要素分类结果包括引论、中心论点、分论点、事实论据、理论论据、结论和其他。情感极性包括中性,中性即无情感。情感极性还包括幸福、害怕、悲伤、喜欢、厌恶、吃惊和生气等。
S104、计算所有情感极性为中性的句子在所有所述句子中的占比值,并将占比值定义为待分析文章的情感强度得分。
S105、根据所有句子在待分析文章中的篇章要素分类结果、所有句子的情感极性和各篇章要素分类结果对应的预设权重确定待分析文章的情感极性。
具体的,首先,根据所述句子的情感极性将所有所述句子划分为不同组合,且使得每个组合中的句子情感极性相同;然后,将所述组合中各所述句子在所述待分析文章中的篇章要素分类结果对应的预设权重相加,得到所述组合对应的权重值;最后,确定所述权重值最高的组合所对应的情感极性为所述待分析文章的情感极性,其中,所述组合所对应的情感极性为所述组合中的句子的情感极性。
更具体的,本实施例可以根据经验设置篇章要素分类结果对应的预设权重,在一个具体的例子中,设置结果为引论-4、中心论点-4、分论点-3、事实论据-2、理论论据-2、结论-4、其他-1。
需要说明的是,引论-4代表引论对应的预设权重为4,其他设置结果同理。
本实施例采用以上技术方案,一种文章情感分析方法,包括:获取待分析文章;对待分析文章进行分句处理,得到组成待分析文章的所有句子;确定所有句子在待分析文章中的篇章要素分类结果和所有所述句子的情感极性;篇章要素分类结果用于表示对应所述句子在待分析文章中的作用;情感极性包括中性;计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将占比值定义为待分析文章的情感强度得分;根据所有句子在所述待分析文章中的篇章要素分类结果、所有句子的情感极性和各所述篇章要素分类结果对应的预设权重确定待分析文章的情感极性。基于此,本实施例能够智能分析出文章的情感强度得分和情感极性,使得用户通过本发明能够快速了解文章的情感色彩。
优选的,所述确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性之前,本实施例的文章情感分析方法还包括:
获取多条待分类句子;所述待分类句子用于构成文章,且所述待分类句子对应的文章与所述待分析文章属于相同的领域;
确定各条所述待分类句子的情感极性;
将确定情感极性后的句子作为情感分类模型的训练数据;
根据所述训练数据训练所述情感分类模型;
所述确定所有所述句子的情感极性,包括:根据所述情感分类模型确定所有所述句子的情感极性。
优选的,所述确定各条所述待分类句子的情感极性之前,本发明的文章情感分析方法还包括:
获取微博领域情感分类数据集;
根据所述微博领域情感分类数据集进行模型训练,得到微博领域情感分类模型;
确定任意一条所述待分类句子的情感极性,包括:
基于所述微博领域情感分类模型确定所述句子的情感极性,得到第一结果,以及基于情感词典确定所述句子的情感极性,得到第二结果;
判断所述第一结果和所述第二结果是否相同;
当所述第一结果和所述第二结果相同时,确定所述第一结果或所述第二结果为所述句子的情感极性;
当所述第一结果和所述第二结果不相同时,根据用户的审核操作确定所述句子的情感极性。
本实施例通过上述跨领域情感数据集标注方法,为训练情感分类模型提供了丰富的正负样本,解决了现有的情感分类模型训练过程中缺乏训练数据的问题。
优选的,所述当所述第一结果和所述第二结果不相同时,本发明的还包括:对所述句子进行情感标签标注,以使用户根据标注结果审核所述句子的情感极性分类结果。
图2是本发明实施例提供的一种基于情感词典确定句子的情感极性的方法的流程示意图。如图2所示,本实施例的基于情感词典确定句子的情感极性的方法包括:
S201、将所述句子进行分词处理,得到组成所述句子的各词;
S202、基于情感词典确定各词的情感极性;
S203、根据所述各词的情感极性判断所述句子中是否包含情感词;当所述句子中不包含情感词时,执行步骤S204;当所述句子中包含情感词时,执行步骤S205;
S204、定义所述句子的情感极性为中性;
S205、统计各情感极性对应的词的数量;
S206、确定词数量最多的情感极性;
S207、判断词数量最多的情感极性是否为一个;当词数量最多的情感极性为一个时,执行步骤S208;当词数量最多的情感极性不为一个时,执行步骤S209;
S208、定义所述情感极性为所述句子的情感极性;
S209、基于情感词典确定各词的情感强度;
S210、确定情感强度最高的词;
S211、定义情感强度最高的词的情感极性为所述句子的情感极性。
具体的,情感词典为现有技术的情感词典,可用于支持机器智能分析文章的情感。当分析出句子包含情感词时,各情感词对应的情感极性可以是相同的,也可以是不同的。在一个具体的例子中,统计出组成句子的所有词中,有两个词的情感极性为幸福,一个词的情感极性为害怕,三个词的情感极性为悲伤,因此,词数量最多的情感极性为悲伤,定义句子的情感极性为悲伤。
图3是本发明实施例提供的一种微博领域情感分类模型的结构示意图。如图3所示,本实施例的微博领域情感分类模型包括:Bert Chinese baseline层31、CNN卷积层32、LSTM层33和全连接层34。
其中,Bert Chinese baseline层31用于提取文本中单字特征;CNN卷积层32、LSTM层33和全连接层34均用于特征融合和特征变换,以及分类层输出结果。
优选的,确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:
根据预设规则提取所述句子的浅层特征;所述浅层特征包括词性、命名实体、提示词、字数、位置、以及与所述待分析文章的题目的余弦相似度;
基于深度语义理解模型提取所述句子的深层特征;所述深层特征为所述待分析文章的语义级别特征;
根据所述浅层特征和所述深层特征确定所述句子在所述待分析文章中的篇章要素分类结果。
需要说明的是,预设规则指文本中的名词的数量和实体的数量,以及每句话中有没有出现我认为和/或我觉得等词。根据预设规则,可将句子表示成向量表示。深层特征为文章语义级别特征的向量表示,目前的ELMO、BERT和BIGRU等模型都可获取句子的深层特征。
优选的,所述确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:根据预设篇章要素分类模型确定任意一条所述句子在所述待分析文章中的篇章要素分类结果。图4是本发明实施例提供的一种预设篇章要素分类模型的结构示意图。如图4所示,本实施例的预设篇章要素分类模型,包括:Embedding层41、第一BIGRU层42、第二BIGRU层43和全连接层44。
其中,所述Embedding层41用于提取所述句子的向量表示;所述第一BIGRU层42用于提取所述句子的深层特征;所述第二BIGRU层43用于将融合后的所述浅层特征和所述深层特征进行特征组合计算;所述全连接层44用于根据所述第二BIGRU层的计算结果确定所述句子在所述待分析文章中的篇章要素分类结果。
基于一个总的发明构思,本发明还提供了一种文章情感分析装置。图5是本发明实施例提供的一种文章情感分析装置的结构示意图。如图5所示,本实施例的文章情感分析装置,包括:获取模块51、分句模块52、分类模块53、情感强度得分计算模块54和情感极性确定模块55。
其中,获取模块51,用于获取待分析文章;分句模块52,用于对所述待分析文章进行分句处理,得到组成所述待分析文章的所有句子;分类模块53,用于确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性;所述篇章要素分类结果用于表示对应所述句子在所述待分析文章中的作用;所述情感极性包括中性;情感强度得分计算模块54,用于计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将所述占比值定义为所述待分析文章的情感强度得分;情感极性确定模块55,用于根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性。
优选的,情感极性确定模块55具体用于实现如下方法:
根据所述句子的情感极性将所有所述句子划分为不同组合,且使得每个组合中的句子情感极性相同;
将所述组合中各所述句子在所述待分析文章中的篇章要素分类结果对应的预设权重相加,得到所述组合对应的权重值;
确定所述权重值最高的组合所对应的情感极性为所述待分析文章的情感极性,其中,所述组合所对应的情感极性为所述组合中的句子的情感极性。
优选的,本实施例的文章情感分析装置还包括情感分类模型的训练,用于实现如下方法:
获取多条待分类句子;所述待分类句子用于构成文章,且所述待分类句子对应的文章与所述待分析文章属于相同的领域;
确定各条所述待分类句子的情感极性;
将确定情感极性后的句子作为情感分类模型的训练数据;
根据所述训练数据训练所述情感分类模型;
优选的,分类模块53具体用于根据所述情感分类模型确定所有所述句子的情感极性。
优选的,本实施例的文章情感分析装置还包括:跨领域情感数据集标注模块,用于实现如下方法:
获取微博领域情感分类数据集;
根据所述微博领域情感分类数据集进行模型训练,得到微博领域情感分类模型;
确定任意一条所述待分类句子的情感极性,包括:
基于所述微博领域情感分类模型确定所述句子的情感极性,得到第一结果,以及基于情感词典确定所述句子的情感极性,得到第二结果;
判断所述第一结果和所述第二结果是否相同;
当所述第一结果和所述第二结果相同时,确定所述第一结果或所述第二结果为所述句子的情感极性;
当所述第一结果和所述第二结果不相同时,根据用户的审核操作确定所述句子的情感极性。
优选的,跨领域情感数据集标注模块还用于对所述句子进行情感标签标注,以使用户根据标注结果审核所述句子的情感极性分类结果。
跨领域情感数据集标注模块具体用于实现如下方法:
将所述句子进行分词处理,得到组成所述句子的各词;
基于情感词典确定各词的情感极性;
根据所述各词的情感极性判断所述句子中是否包含情感词;
当所述句子中不包含情感词时,定义所述句子的情感极性为中性;
当所述句子中包含情感词时,统计各情感极性对应的词的数量;
确定词数量最多的情感极性;
判断词数量最多的情感极性是否为一个;
当词数量最多的情感极性为一个时,定义所述情感极性为所述句子的情感极性;
当词数量最多的情感极性不为一个时,基于情感词典确定各词的情感强度;
确定情感强度最高的词;
定义情感强度最高的词的情感极性为所述句子的情感极性。
优选的,分类模块53具体还用于实现如下方法:
根据预设规则提取所述句子的浅层特征;所述浅层特征包括词性、命名实体、提示词、字数、位置、以及与所述待分析文章的题目的余弦相似度;
基于深度语义理解模型提取所述句子的深层特征;所述深层特征为所述待分析文章的语义级别特征;
根据所述浅层特征和所述深层特征确定所述句子在所述待分析文章中的篇章要素分类结果。
优选的,分类模块53具体还用于根据预设篇章要素分类模型确定任意一条所述句子在所述待分析文章中的篇章要素分类结果。
需要说明的是,本实施例的文章情感分析装置和上述实施例的文章情感分析方法基于一个总的发明构思,具备相同或相应的执行过程和有益效果,在此不再赘述。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种文章情感分析方法,其特征在于,包括:
获取待分析文章;
对所述待分析文章进行分句处理,得到组成所述待分析文章的所有句子;
确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性;所述篇章要素分类结果用于表示对应所述句子在所述待分析文章中的作用;所述情感极性包括中性;其中,所述篇章要素分类结果包括引论、中心论点、分论点、事实论据、理论论据、结论;
计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将所述占比值定义为所述待分析文章的情感强度得分;
根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性,包括:
根据所述句子的情感极性将所有所述句子划分为不同组合,且使得每个组合中的句子情感极性相同;
将所述组合中各所述句子在所述待分析文章中的篇章要素分类结果对应的预设权重相加,得到所述组合对应的权重值;
确定所述权重值最高的组合所对应的情感极性为所述待分析文章的情感极性,其中,所述组合所对应的情感极性为所述组合中的句子的情感极性。
2.根据权利要求1所述的文章情感分析方法,其特征在于,所述确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性之前,还包括:
获取多条待分类句子;所述待分类句子用于构成文章,且所述待分类句子对应的文章与所述待分析文章属于相同的领域;
确定各条所述待分类句子的情感极性;
将确定情感极性后的句子作为情感分类模型的训练数据;
根据所述训练数据训练所述情感分类模型。
3.根据权利要求2所述的文章情感分析方法,其特征在于,所述确定各条所述待分类句子的情感极性之前,还包括:
获取微博领域情感分类数据集;
根据所述微博领域情感分类数据集进行模型训练,得到微博领域情感分类模型;
确定任意一条所述待分类句子的情感极性,包括:
基于所述微博领域情感分类模型确定所述句子的情感极性,得到第一结果,以及基于情感词典确定所述句子的情感极性,得到第二结果;
判断所述第一结果和所述第二结果是否相同;
当所述第一结果和所述第二结果相同时,确定所述第一结果或所述第二结果为所述句子的情感极性;
当所述第一结果和所述第二结果不相同时,根据用户的审核操作确定所述句子的情感极性。
4.根据权利要求3所述的文章情感分析方法,其特征在于,所述当所述第一结果和所述第二结果不相同时,还包括:对所述句子进行情感标签标注,以使用户根据标注结果审核所述句子的情感极性分类结果。
5.根据权利要求3所述的文章情感分析方法,其特征在于,所述基于情感词典确定所述句子的情感极性,包括:
将所述句子进行分词处理,得到组成所述句子的各词;
基于情感词典确定各词的情感极性;
根据所述各词的情感极性判断所述句子中是否包含情感词;
当所述句子中不包含情感词时,定义所述句子的情感极性为中性;
当所述句子中包含情感词时,统计各情感极性对应的词的数量;
确定词数量最多的情感极性;
判断词数量最多的情感极性是否为一个;
当词数量最多的情感极性为一个时,定义所述情感极性为所述句子的情感极性;
当词数量最多的情感极性不为一个时,基于情感词典确定各词的情感强度;
确定情感强度最高的词;
定义情感强度最高的词的情感极性为所述句子的情感极性。
6.根据权利要求3所述的文章情感分析方法,其特征在于,所述微博领域情感分类模型包括:Bert Chinese baseline层、CNN卷积层、LSTM层和全连接层。
7.根据权利要求1所述的文章情感分析方法,其特征在于,确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:
根据预设规则提取所述句子的浅层特征;所述浅层特征包括词性、命名实体、提示词、字数、位置、以及与所述待分析文章的题目的余弦相似度;
基于深度语义理解模型提取所述句子的深层特征;所述深层特征为所述待分析文章的语义级别特征;
根据所述浅层特征和所述深层特征确定所述句子在所述待分析文章中的篇章要素分类结果。
8.根据权利要求7所述的文章情感分析方法,其特征在于,所述确定任意一条所述句子在所述待分析文章中的篇章要素分类结果,包括:根据预设篇章要素分类模型确定任意一条所述句子在所述待分析文章中的篇章要素分类结果;
所述预设篇章要素分类模型包括:Embedding层、第一BIGRU层、第二BIGRU层和全连接层;
所述Embedding层用于提取所述句子的向量表示;
所述第一BIGRU层用于提取所述句子的深层特征;
所述第二BIGRU层用于将融合后的所述浅层特征和所述深层特征进行特征组合计算;
所述全连接层用于根据所述第二BIGRU层的计算结果确定所述句子在所述待分析文章中的篇章要素分类结果。
9.一种文章情感分析装置,其特征在于,包括:
获取模块,用于获取待分析文章;
分句模块,用于对所述待分析文章进行分句处理,得到组成所述待分析文章的所有句子;
分类模块,用于确定所有所述句子在所述待分析文章中的篇章要素分类结果和所有所述句子的情感极性;所述篇章要素分类结果用于表示对应所述句子在所述待分析文章中的作用;所述情感极性包括中性;其中,所述篇章要素分类结果包括引论、中心论点、分论点、事实论据、理论论据、结论;
情感强度得分计算模块,用于计算所有所述情感极性为中性的句子在所有所述句子中的占比值,并将所述占比值定义为所述待分析文章的情感强度得分;
情感极性确定模块,用于根据所有所述句子在所述待分析文章中的篇章要素分类结果、所有所述句子的情感极性和各所述篇章要素分类结果对应的预设权重确定所述待分析文章的情感极性;具体用于根据所述句子的情感极性将所有所述句子划分为不同组合,且使得每个组合中的句子情感极性相同;将所述组合中各所述句子在所述待分析文章中的篇章要素分类结果对应的预设权重相加,得到所述组合对应的权重值;确定所述权重值最高的组合所对应的情感极性为所述待分析文章的情感极性,其中,所述组合所对应的情感极性为所述组合中的句子的情感极性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986658.4A CN113688620B (zh) | 2021-08-26 | 2021-08-26 | 文章情感分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986658.4A CN113688620B (zh) | 2021-08-26 | 2021-08-26 | 文章情感分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688620A CN113688620A (zh) | 2021-11-23 |
CN113688620B true CN113688620B (zh) | 2024-03-22 |
Family
ID=78582853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110986658.4A Active CN113688620B (zh) | 2021-08-26 | 2021-08-26 | 文章情感分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688620B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818659B (zh) * | 2022-06-29 | 2022-09-23 | 北京澜舟科技有限公司 | 一种文本情感来源分析方法、系统及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033865A (zh) * | 2009-09-25 | 2011-04-27 | 日电(中国)有限公司 | 基于子句关联的文本情感分类系统和方法 |
CN102200969A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 基于句子顺序的文本情感极性分类系统和方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103473356A (zh) * | 2013-09-26 | 2013-12-25 | 苏州大学 | 一种篇章级情感分类方法及装置 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN108536681A (zh) * | 2018-04-16 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 基于情感分析的智能问答方法、装置、设备及存储介质 |
CN110096696A (zh) * | 2018-06-11 | 2019-08-06 | 电子科技大学 | 一种中文长文本情感分析方法 |
CN110750978A (zh) * | 2019-09-25 | 2020-02-04 | 深圳市金证优智科技有限公司 | 情感倾向分析方法、装置、电子设备及存储介质 |
CN111738015A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 文章情感极性分析方法、装置、电子设备及存储介质 |
CN112364646A (zh) * | 2020-11-18 | 2021-02-12 | 安徽财经大学 | 一种考虑修饰词的句子评论情感极性分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190354592A1 (en) * | 2018-05-16 | 2019-11-21 | Sharat Chandra Musham | Automated systems and methods for providing bidirectional parallel language recognition and translation processing with machine speech production for two users simultaneously to enable gapless interactive conversational communication |
-
2021
- 2021-08-26 CN CN202110986658.4A patent/CN113688620B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033865A (zh) * | 2009-09-25 | 2011-04-27 | 日电(中国)有限公司 | 基于子句关联的文本情感分类系统和方法 |
CN102200969A (zh) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | 基于句子顺序的文本情感极性分类系统和方法 |
JP2011204226A (ja) * | 2010-03-25 | 2011-10-13 | Nec (China) Co Ltd | 文の配列に基づく文書感情分類システムおよび方法 |
CN103049435A (zh) * | 2013-01-04 | 2013-04-17 | 浙江工商大学 | 文本细粒度情感分析方法及装置 |
CN103473356A (zh) * | 2013-09-26 | 2013-12-25 | 苏州大学 | 一种篇章级情感分类方法及装置 |
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN108536681A (zh) * | 2018-04-16 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 基于情感分析的智能问答方法、装置、设备及存储介质 |
CN110096696A (zh) * | 2018-06-11 | 2019-08-06 | 电子科技大学 | 一种中文长文本情感分析方法 |
CN110750978A (zh) * | 2019-09-25 | 2020-02-04 | 深圳市金证优智科技有限公司 | 情感倾向分析方法、装置、电子设备及存储介质 |
CN111738015A (zh) * | 2020-06-22 | 2020-10-02 | 北京百度网讯科技有限公司 | 文章情感极性分析方法、装置、电子设备及存储介质 |
CN112364646A (zh) * | 2020-11-18 | 2021-02-12 | 安徽财经大学 | 一种考虑修饰词的句子评论情感极性分析方法 |
Non-Patent Citations (8)
Title |
---|
化柏林 ; .基于文本信息分析的情报技术.情报学进展.2010,(第00期),244-279. * |
基于单层标注级联模型的篇章情感倾向分析;李本阳;关毅;董喜双;李生;;中文信息学报(第04期);3-8+20 * |
基于句子情感加权算法的篇章情感分析;李爱萍;邸鹏;段利国;;小型微型计算机系统(第10期);2252-2256 * |
基于文本信息分析的情报技术;化柏林;;情报学进展(第00期);244-279 * |
基于浅层篇章结构的评论文倾向性分析;杨江;侯敏;王宁;;中文信息学报(第02期);83-88 * |
李本阳 ; 关毅 ; 董喜双 ; 李生 ; .基于单层标注级联模型的篇章情感倾向分析.中文信息学报.2012,(第04期),3-8+20. * |
李爱萍 ; 邸鹏 ; 段利国 ; .基于句子情感加权算法的篇章情感分析.小型微型计算机系统.2015,(第10期),2252-2256. * |
杨江 ; 侯敏 ; 王宁 ; .基于浅层篇章结构的评论文倾向性分析.中文信息学报.2011,(第02期),83-88. * |
Also Published As
Publication number | Publication date |
---|---|
CN113688620A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102350543B1 (ko) | 시맨틱 표현 모델의 처리 방법, 장치, 전자 기기 및 저장 매체 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
Ghosh et al. | Fracking sarcasm using neural network | |
CN106503192B (zh) | 基于人工智能的命名实体识别方法及装置 | |
CN104462363B (zh) | 评论点的展现方法和装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN106446109A (zh) | 语音文件摘要的获取方法和装置 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN113553848B (zh) | 长文本分类方法、系统、电子设备、计算机可读存储介质 | |
Atmadja et al. | Comparison on the rule based method and statistical based method on emotion classification for Indonesian Twitter text | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Van Hee et al. | Monday mornings are my fave:)# not exploring the automatic recognition of irony in english tweets | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
CN110399603A (zh) | 一种基于意群划分的文本处理技术方法和系统 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
Smitha et al. | Meme classification using textual and visual features | |
CN113688620B (zh) | 文章情感分析方法和装置 | |
CN113361252B (zh) | 基于多模态特征和情感词典的文本抑郁倾向检测系统 | |
AlMousa et al. | Nlp-enriched automatic video segmentation | |
CN115952787A (zh) | 一种指定目标实体的情感分析方法、系统及存储介质 | |
CN114972884A (zh) | 一种基于多模态事件本体的图像事件识别方法 | |
CN111428487B (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
Mehmood et al. | Let the deaf understand: Mainstreaming the marginalized in context with personalized digital media services and social needs | |
CN111209752A (zh) | 一种基于辅助信息的中文抽取性集成无监督摘要的方法 | |
Sadanandan et al. | Improving accuracy in sentiment analysis for Malay language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |