CN113536802A - 小语种文本数据的情感判别方法、装置、设备和存储介质 - Google Patents
小语种文本数据的情感判别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113536802A CN113536802A CN202010319243.7A CN202010319243A CN113536802A CN 113536802 A CN113536802 A CN 113536802A CN 202010319243 A CN202010319243 A CN 202010319243A CN 113536802 A CN113536802 A CN 113536802A
- Authority
- CN
- China
- Prior art keywords
- text data
- emotion
- text
- words
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 224
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 115
- 238000012706 support-vector machine Methods 0.000 claims abstract description 23
- 230000002996 emotional effect Effects 0.000 claims description 43
- 238000004590 computer program Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 abstract description 6
- 230000009467 reduction Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000007935 neutral effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 239000010410 layer Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种小语种文本数据的情感判别方法、装置、设备和存储介质。所述方法包括:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。支持向量机模型所采用的语言本身的特征进行判别时,可以提高对不同语言的情感判别准确度,采用mBERT学习不同语言深度语义向量进行的不同语言情感判别,可以很好的提升模型判别的泛化能力。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种小语种文本数据的情感判别方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的快速发展和普及,大量来自不同国家使用不同语言的用户在Twitter、Facebook等社交媒体中针对新闻时事、政策法规、消费产品等话题发表的主观评论,很好地反映了用户个体的观点、情感、态度等重要信息。研究如何利用文本挖掘技术对各语种文本中用户所表达的情感,对舆论监测、商业分析等领域具有重要意义。
情感分析是自然语言处理领域的重要任务,主要方法包括早期基于规则的无监督方法、基于文本表层情感特征的传统机器学习方法,以及近期基于深度学习的方法等。针对语言丰富的语种(例如中文、英文等),学术界和工业界都提出了大量情感分析方法和工具,然而面向小语种文本的情感分析任务目前仍然面临诸多挑战,主要包括两个方面:大多数小语种形态丰富,不同语系的语种表达形式差异较大,并没有通用处理文本的方法;相关研究和带有标注的公开语料资源很少,难以支撑模型训练。由于不同语言形态丰富,不同语系的语种表达形式差异,以及文本表示的独特性,低资源小语种情感判别效果不稳定。
发明内容
为了解决上述技术问题,本申请提供了一种小语种文本数据的情感判别方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种小语种文本数据的情感判别方法,包括:
获取文本数据;
提取文本数据的多个文本特征;
将文本特征输入支持向量机模型,得到文本数据的第一评价特征;
将文本数据输入mBERT模型,得到文本数据的第二评价特征;
输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
第二方面,本申请提供了一种小语种文本数据的情感判别装置,包括:
文本获取模块,用于获取文本数据;
特征提取模块,用于提取文本数据的多个文本特征;
第一评价模块,用于将文本特征输入支持向量机模型,得到文本数据的第一评价特征;
第二评价模块,用于将文本数据输入mBERT模型,得到文本数据的第二评价特征;
情感判别模块,用于输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取文本数据;
提取文本数据的多个文本特征;
将文本特征输入支持向量机模型,得到文本数据的第一评价特征;
将文本数据输入mBERT模型,得到文本数据的第二评价特征;
输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取文本数据;
提取文本数据的多个文本特征;
将文本特征输入支持向量机模型,得到文本数据的第一评价特征;
将文本数据输入mBERT模型,得到文本数据的第二评价特征;
输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
上述小语种文本数据的情感判别方法、装置、计算机设备和存储介质,所述方法包括:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。持向量机模型所采用的语言本身的特征进行判别时,可以提高对不同语言的情感判别准确度,采用mBERT学习不同语言深度语义向量进行的不同语言情感判别,可以很好的提升模型判别的泛化能力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中文本数据的情感判别方法的应用环境图;
图2为一个实施例中文本数据的情感判别方法的流程示意图;
图3为一个实施例中mbert模型的分类示意图;
图4为一个实施例中文本数据的情感判别装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为一个实施例中小语种文本数据的情感判别方法的应用环境图。参照图1,该小语种文本数据的情感判别方法应用于小语种文本数据的情感判别系统。该小语种文本数据的情感判别系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种小语种文本数据的情感判别方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2,该文本数据的情感判别方法具体包括如下步骤:
步骤S201,获取文本数据。
具体地,文本数据为印欧语系中的任意一种语言的文本数据。印欧语系包括日耳曼语族、拉丁语族和斯拉夫语族等等,其中日耳曼语族包括英语、德语、荷兰语等等,拉丁语族包括法语、意大利语、西班牙语和葡萄牙语等等。文本数据中包括情感词、否定词等等,文本数据的各个词汇可以包括各种形态的词汇,如复数、过去式、现在完成时、进行时等等。
步骤S202,提取文本数据的多个文本特征。
具体地,文本特征是通过对文本数据进行筛选、分类和统计等运算得到的文本特征。其中文本特征为向量化的特征,其中特征分类两类,一类为通用特征,另一类为语言自身特征。通用特征是指大部分相似语言中的通用特征,常见的通用特征提取方法包括TF词频统计特征,TF-IDF词频逆文档特征,比如基于词的n元词组特征提取和基于字符的n元字组特征提取。其他的特征还有基于深度学习方法的词向量表示,如word2vec和doc2vec,甚至利用神经网络作为特征提取器,用神经网络中的某一层输出作为特征的方法。语种自身特征包括手工构造情感词统计特征、计算情感极性分值等。统计特征包括正面情感词、负面情感词、否定词在文本中出现的次数或所占的比例等。不同的语言表征文本的情感倾向的词汇各不相同,故在提取语言自身特征时,需要先确定各个情感词的情感倾向。
步骤S203,将文本特征输入支持向量机模型,得到文本数据的第一评价特征。
具体地,支持向量机模型是指通过大量的语料进行训练得到的机器学习模型,通过该机器学习模型对文本特征进行特征筛选和分析,得到该文本数据的情感评价特征,该情感评价特征可以为各个情感类别的评价值,也可以直接输出文本数据对应的情感评价结果,将评价值或评价结果作为第一评价特征。其中情感评价结果包括但不限于正面、负面和中立三种结果,也可以为正面或负面两种结果,具体的评价结果可以自定义。支持向量机模型可以对文本的通用特征和语言自身特征进行处理,能够有效的表征语言自身特征的特点,使得识别准确度更高,能够有效的解决小样本问题,即语料少的问题。
步骤S204,将文本数据输入mBERT模型,得到文本数据的第二评价特征。
具体地,mBERT模型为深度学习模型,该mBERT模型采用维基百科中100多种语种的大量非对齐文本的训练语料进行训练后得到的,也可以是采用单个语言的语料训练后得到的模型。如文本数据为法语,则采用法语训练mBERT模型,得到训练后的mBERT模型,使用该mBERT模型对法语进行文本分类。将文本数据输入mBERT模型,通过mBERT模型对文本数据进行文本分类,得到分类结果,即得到第二评价特征,第二评价特征与第一评价特征为相同类型的特征,如第一评价特征和第二评价特征均为评价值或均为情感评价结果。
步骤S205,输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
具体地,将第一评价特征和第二评价特征确定评价特征输入情感判别器,其中情感判别器可以为投票器,也可以为分类器,为投票器时,通过投票器投票决定文本数据的情感判别结果,为分类器时,对第一评价特征和第二评价特征进行特征融合,对融合后的特征进行情感判别,得到文本数据的情感判别结果,情感判别结果中包含的类别与步骤S203中的类别一致,如为正面、负面和中立等等。
上述小语种文本数据的情感判别方法,包括:获取文本数据;文本预处理及提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。采用传统支持向量机模型对文本进行分类,和深度学习模型对文本的分类结果,综合两个不同模型的分类结果确定该文本的最终分类结果,是的分类更为准确。支持向量机模型所采用的语言本身的特征进行判别时,可以提高对不同语言的情感判别准确度,采用mBERT学习不同语言深度语义向量进行的不同语言情感判别,可以很好的提升模型判别的泛化能力。
在一个实施例中,文本数据中包括情感词,文本特征包括通用特征和语言自身特征,提取文本数据的多个特征,包括:提取文本数据的浅层文本特征,将提取到的浅层文本特征作为通用特征;提取文本数据中情感词的统计特征;计算文本数据中各个情感词的情感极性分值,语言自身特征包括文本数据的情感词的统计特征和情感极性分值。
具体地,浅层文本特征是指对文本词汇进行统计的特征,包括但不限于基于词的n元词组和基于字符的n元字组特征提取等。语言自身特征是指对该语言特有的情感词进行筛选、分类和统计的得到的特征。其中情感词包括正面情感词、负面情感词和与正面情感词或负面器情感词关联的否定词。通过对正面情感词、负面情感词和否定词进行统计得到对应的统计特征,计算每个情感词的情感极性分值,将情感极性分值和统计特征作为语言自身特征。其中统计特征包括但不限于统计每个情感词出现的次数和在文本数据中词汇的占比等等。情感极性分值是用于描述情感词的情感倾向程度。
在一个实施例中,情感词与程度副词和/或否定词次连接,在计算情感词的情感极性分值时,根据程度副词和/或否定词对情感词的情感极性分值进行加权。
在一个实施例中,情感词包括正面情感词和负面情感词,提取文本数据中情感词的统计特征,包括:统计文本数据中正面情感词、负面情感词在文本数据中的出现次数和/或比例;将正面情感词和负面情感词出现次数和/或比例,作为情感词的统计特征。
具体地,统计各个情感词在文本数据中出现的次数,根据出现次数和文本数据的词汇总量计算各个情感词在文本数据中所占的比例,情感词出现的次数和所占的比例影响情感倾向的判断,如正面情感词出现的次数和/或比例远大于负面情感词出现的次数和/或比例时,本文数据的情感倾向为正面概率较大。统计文本数据中情感词的出现次数和/或比例。
在一个实施例中,文本数据还包括否定词,统计文本数据中否定词在文本数据中的出现次数和/或比例;将否定词在文本数据中的出现次数和/或比例,作为情感词的统计特征。
具体地,否定词可以改变情感词的倾向,如正面情感词加个否定词,就变成了负面情感词,反之亦然,故在统计情感词时,若存在否定词,还需要统计否定词的出现次数和/或比例,并确定与各个否定词对应的情感词,通过否定词最终确定各个情感词的情感词。
在一个实施例中,输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果,包括:通过情感判别器对第一评价特征和第二评价特征进行加权,得到加权特征,根据加权特征确定文本数据的情感判别结果;或,通过情感判别器对第一评价特征和第二评价特征进行投票,得到对应的投票结果,根据投票结果确定文本数据的情感判别结果。
具体地,将支持向量机模型和mBERT模型中输出的特征,输入情感判别器,通过情感判别器对两个模型的特征进行处理,如进行加权处理,并根据加权处理后的特征确定文本数据的情感倾向,其中第一评价特征和第二评价特征的加权系数可以为训练得到的系数,也可以是认为定义的系数,具体的根据需求确定。也可以是根据支持向量机模型和mBERT模型输出的情感倾向判别结果进行投票解决,如可以设置为两个情感倾向一致时,则将该情感倾向作为最终倾向,反之,若两者的情感倾向不一致时,可以优先其中一个结果,也可以将情感倾向设置为中立等等,具体的投票规则可以自定义。
在一个实施例中,提取文本数据的多个文本特征之前,还包括:按照预设文本清洗规则,去除文本数据中与清洗规则对应的字符信息,将去除了字符信息的文本数据作为文本数据;对文本数据进行分词,得到多个原始词汇;判断多个原始词汇中是否包括待还原词汇;当多个原始词汇中包括待还原词汇时,对待还原词汇进行还原处理,得到还原词汇;采用还原词汇,替换多个原始词汇中,与还原词汇对应的原始词汇,得到文本数据的词汇。
具体地,清洗规则是指用于对文本数据中进行数据清洗,清洗规则可以自定义,如清洗内容包括标点符号、数字、重复词、中性词、量词、介词等以及停用词,特殊的,社交媒体数据中还包括移除链接(URL),圈人符号(@某某)及话题标签(#某话题#)等等。还原词汇包括缩写词还原、规定搭配还原、词形还原和词干还原等等。
在一个实施例中,对文本数据进行预处理,如对于存在大小不一致的文本数据,执行大小归一化,存在重音符的替换掉重音符。
在一个具体的实施例中,上述小语种文本数据的情感判别方法,包括:
文本预处理:
小语种的文本处理方法主要分为跨语言特性和语言自身独特性两个方面[3]。跨语言特性指可以应用于在大多数相似语言中的共性处理。通常同语系语种具有类似的浅层文本特征,相关文本预处理包括标点符号、变音符号、重复符号、大小写敏感等拼写特性的处理,特殊的,在社交媒体文本数据中还需过滤url链接、用户名、话题标签以及表情符号处理等。分词处理可以按照基于词的n元词组和基于字符的n元字组处理。基于词的n元词组(n-words)中n可以为大于0的正整数(一般n=1,2,3)。如:文本T="the lights andshadows of your future",1-words(unigrams)={the,lights,and,shadows,of,your,future},2-words(bigrams)={the lights,lights and,and shadows,shadows of,ofyour,your future}。基于字符的n元字组(n-grams)中n可以为大于0的正整数(一般n=1,2,3,4,5,6,7)。如:文本T=“abracadabra”,3-grams为{abr,bra,rac,aca,cad,ada,dab}。
语言自身特性指有关语言特定信息的独特处理,包括停用词(不同语种停用词有差异)、词干还原(即把一个任何形式的语言词汇还原为一般形式,不同语种词干还原方法不一,可以进行词干还原的语种有丹麦语、荷兰语、英语、芬兰语、法语、德语、匈牙利语、意大利语、挪威语、波特语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语,常见方法:Porterstemmer、SnowballStemmer、RSLPStemmer)、词形还原(即去除词缀得到词根的过程,支持词形还原的小语种有英语、德语、法语等,可用方法:TreeTagger)、否定词用法(确定文本中的否定运算符是否未标准化,并直接与下一个内容字关联)等预处理方法。针对不同语种文本,采用不同的预处理工作,具体处理方法见表1。
表1小语种预处理方法归纳
特征抽取:
小语种特征提取主要分类跨语言特征和语种自身特征两类。跨语言特征即为大多数相似语言中的通用特征提取方法可以包括:TF词频统计特征,TF-IDF词频逆文档特征,比如基于词的n元词组特征提取和基于字符的n元字组特征提取。其他的特征还有基于深度学习方法的词向量表示,如word2vec和doc2vec,甚至利用神经网络作为特征提取器,用神经网络中的某一层输出作为特征的方法。
语种自身的独特特征可以考虑手工构造情感词统计特征、计算情感极性分值等。统计特征包括正面情感词、负面情感词、否定词在文本中出现的次数或所占的比例等。针对不同语种文本,做不同的特征提取工作(详见表2)。特征提取后针对高维数据还可以进行特征选择,对特征进行降维等处理。
表2小语种特征提取方法归纳
模型判别小语种情感:
融合基于特征的统计学习模型和深度学习两种方法对小语种文本进行情感判别。对于前者,该模块采用支持向量机算法(Support vector machine,简称SVM),SVM算法是一种有坚实理论基础的小样本学习方法,基于特征的SVM模型可以提高模型判别的准确率。SVM模型输入为向量化特征,输出为情感判别三类别概率。该模块采用TF-IDF对文本进行向量化表示,融合构建小语种自身特征作为SVM模型的输入。TF-IDF由TF和IDF组成。TF(termfrequency)衡量了一个词在文档中出现的频率,计算公式如下:
其中,count(w)为词w的出现次数,|Di|为文档第i篇文档D中所有词的数量。IDF(inversed document frequency)指逆文档频率反映关键词的普遍程度--当一个词越普遍(即有大量文档包含这个词)时,其IDF值越低;反之,则IDF值越高。计算IDF公式如下:
其中,N为所有的文档总数,I(w,Di)表示文档Di是否包含词w,若包含则为1,若不包含则为0。若词w在所有文档中均未出现,则IDF公式中的分母为0;因此需要对IDF做平滑(smooth):
TFIDF计算公式就是TF和IDF的乘积,公式如下:
对于后者,该模块采用NLP领域的mBERT模型,除了训练数据是来自维基百科的104种语言的语料外,和BERT是建立在一系列transformer上的深度上下文表征模型,具有一样的模型结构和训练过程。BERT模型输入由字嵌入、位置嵌入和句嵌入三部分构成,并将得到的三个嵌入求和来构造其输入表示,将输入表示作为特征输入到BERT的双向Transformer当中,最终得到一个字向量序列S,取第一个token的输出表示,喂给一个softmax层得到分类结果。mBERT的输入为文本字符串,输出为情感判别三类别概率,具体参考图3,输入文本为“[CLS]my dog is cute[SEP]he likes play##ing[SEP]”。文本对应的词表特征为“E[CLS]Emy Edog Eis Ecute E[SEP]Ehe Elikes Eplay E##ing E[SEP]”,文本对应的词表特征为“EA EA EA EAEA EB EB EB EB EB”。文本对应的位置表征为“E0E1E2E3E4E5E6E7E8E9E10”。输入文本特征至BERT,得到分类结果class label。
最终分别得到两个模型的情感三标签的判别概率,SVM模型输出结果记为Psvm={PPOS,PNEG,PNEU},分别代表其预测正面,负面,中立的概率,同样mBERT模型输出结果记为PmBERT={PPOS,PNEG,PNEU}。
模型预测结果融合
在不改变模型的情况下,对不同模型预测的结果进行模型融合。例如,通过上述两个模型实验,分别得到Psvm={0.7,0.1,0.2},PmBERT={0.4,0.1,0.5}。该模块采用Averaging模型融合技术,即对所有分类器的预测概率做平均。计算公式如下:
其中,n表示模型的个数,Weighti表示模型i权重,Pi,c表示模型i的预测标签c的概率值。设SVM模型权重为0.4,mBERT模型权重为0.6,那么最终的正面标签预测概率PPOS=0.4*0.7+0.6*0.4)=0.52;负面标签预测概率PNEG=0.4*0.1+0.6*0.1=0.1;中立标签预测概率PNEU=0.4*0.2+0.6*0.5=0.38。
通过模型融合情感分类预测概率P={0.52,0.1,0.38},最后选择概率较大的为最终判别标签(class),此例子中小语种文本情感判别结果应为正面。计算公式如下:
class=max(Pc={pos,neg,neu})
针对印欧语系下小语种文本处理和特征提取方法,由于语言自身特征的针对性较强,在采用基于特征的机器学习的算法来判别小语种情感时,可以很好的提高小语种情感判别精确率。采用mBERT对小语种进行情感判别时表现出强大的深度语义理解能力,提升了小语种情感判别的泛化能力,表现出更好的模型性能。融合基于特征分类方法和mBERT模型预测结果可以有效提升小语种判别准确率,较好的实现小语种自动情感分类任务。
图2为一个实施例中小语种文本数据的情感判别方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种小语种文本数据的情感判别装置200,包括:
文本获取模块201,用于获取文本数据。
特征提取模块202,用于提取文本数据的多个文本特征。
第一评价模块203,用于将文本特征输入支持向量机模型,得到文本数据的第一评价特征。
第二评价模块204,用于将文本数据输入mBERT模型,得到文本数据的第二评价特征。
情感判别模块205,用于输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
在一个实施例中,特征提取模块202具体用于提取文本数据的浅层文本特征,将提取到的浅层文本特征作为通用特征;提取文本数据中情感词的统计特征;计算文本数据中各个情感词的情感极性分值,语言自身特征包括文本数据的情感词的统计特征和情感极性分值,其中文本数据中包括情感词,文本特征包括通用特征和语言自身特征。
在一个实施例中,特征提取模块202具体用于统计文本数据中正面情感词、负面情感词在文本数据中的出现次数和/或比例;将正面情感词和负面情感词出现次数和/或比例,作为情感词的统计特征,其中情感词包括正面情感词和负面情感词,提取文本数据中情感词的统计特征。
在一个实施例中,特征提取模块202具体用于统计文本数据中否定词在文本数据中的出现次数和/或比例;将否定词在文本数据中的出现次数和/或比例,作为情感词的统计特征,文本数据还包括否定词。
在一个实施例中,情感判别模块205具体用于通过情感判别器对第一评价特征和第二评价特征进行加权,得到加权特征,根据加权特征确定文本数据的情感判别结果;或通过情感判别器对第一评价特征和第二评价特征进行投票,得到对应的投票结果,根据投票结果确定文本数据的情感判别结果。
在一个实施例中,上述小语种文本数据的情感判别装置200,还包括:
预处理模块,用于按照预设文本清洗规则,去除文本数据中与清洗规则对应的字符信息,将去除了字符信息的文本数据作为文本数据;对文本数据进行分词,得到多个原始词汇;判断多个原始词汇中是否包括待还原词汇;当多个原始词汇中包括待还原词汇时,对待还原词汇进行还原处理,得到还原词汇;采用还原词汇,替换多个原始词汇中,与还原词汇对应的原始词汇,得到文本数据的词汇。
图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图5所示,该计算机设备通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现小语种文本数据的情感判别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行小语种文本数据的情感判别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的小语种文本数据的情感判别装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。计算机设备的存储器中可存储组成该小语种文本数据的情感判别装置的各个程序模块,比如,图4所示的文本获取模块201、特征提取模块202、第一评价模块203、第二评价模块204和情感判别模块205。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的小语种文本数据的情感判别方法中的步骤。
例如,图5所示的计算机设备可以通过如图4所示的小语种文本数据的情感判别装置200中的文本获取模块201执行获取文本数据。计算机设备可以通过特征提取模块202执行提取文本数据的多个文本特征。计算机设备可以通过第一评价模块203执行将文本特征输入支持向量机模型,得到文本数据的第一评价特征。计算机设备可以通过第二评价模块204执行将文本数据输入mBERT模型,得到文本数据的第二评价特征。计算机设备可以通过情感判别模块205执行输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
在一个实施中,文本数据中包括情感词,文本特征包括通用特征和语言自身特征,提取文本数据的多个特征,包括:提取文本数据的浅层文本特征,将提取到的浅层文本特征作为通用特征;提取文本数据中情感词的统计特征;计算文本数据中各个情感词的情感极性分值,语言自身特征包括文本数据的情感词的统计特征和情感极性分值。
在一个实施例中,情感词包括正面情感词和负面情感词,提取文本数据中情感词的统计特征,包括:统计文本数据中正面情感词、负面情感词在文本数据中的出现次数和/或比例;将正面情感词和负面情感词出现次数和/或比例,作为情感词的统计特征。
在一个实施例中,文本数据还包括否定词,计算机程序被处理器执行时还实现以下步骤:统计文本数据中否定词在文本数据中的出现次数和/或比例;将否定词在文本数据中的出现次数和/或比例,作为情感词的统计特征。
在一个实施例中,输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果,包括:通过情感判别器对第一评价特征和第二评价特征进行加权,得到加权特征,根据加权特征确定文本数据的情感判别结果;或通过情感判别器对第一评价特征和第二评价特征进行投票,得到对应的投票结果,根据投票结果确定文本数据的情感判别结果。
在一个实施例中,提取文本数据的多个文本特征之前,计算机程序被处理器执行时还实现以下步骤:按照预设文本清洗规则,去除文本数据中与清洗规则对应的字符信息,将去除了字符信息的文本数据作为文本数据;对文本数据进行分词,得到多个原始词汇;判断多个原始词汇中是否包括待还原词汇;当多个原始词汇中包括待还原词汇时,对待还原词汇进行还原处理,得到还原词汇;采用还原词汇,替换多个原始词汇中,与还原词汇对应的原始词汇,得到文本数据的词汇。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取文本数据;提取文本数据的多个文本特征;将文本特征输入支持向量机模型,得到文本数据的第一评价特征;将文本数据输入mBERT模型,得到文本数据的第二评价特征;输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果。
在一个实施中,文本数据中包括情感词,文本特征包括通用特征和语言自身特征,提取文本数据的多个特征,包括:提取文本数据的浅层文本特征,将提取到的浅层文本特征作为通用特征;提取文本数据中情感词的统计特征;计算文本数据中各个情感词的情感极性分值,语言自身特征包括文本数据的情感词的统计特征和情感极性分值。
在一个实施例中,情感词包括正面情感词和负面情感词,提取文本数据中情感词的统计特征,包括:统计文本数据中正面情感词、负面情感词在文本数据中的出现次数和/或比例;将正面情感词和负面情感词出现次数和/或比例,作为情感词的统计特征。
在一个实施例中,文本数据还包括否定词,计算机程序被处理器执行时还实现以下步骤:统计文本数据中否定词在文本数据中的出现次数和/或比例;将否定词在文本数据中的出现次数和/或比例,作为情感词的统计特征。
在一个实施例中,输入第一评价特征和第二评价特征至情感判别器,输出文本数据的情感判别结果,包括:通过情感判别器对第一评价特征和第二评价特征进行加权,得到加权特征,根据加权特征确定文本数据的情感判别结果;或通过情感判别器对第一评价特征和第二评价特征进行投票,得到对应的投票结果,根据投票结果确定文本数据的情感判别结果。
在一个实施例中,提取文本数据的多个文本特征之前,计算机程序被处理器执行时还实现以下步骤:按照预设文本清洗规则,去除文本数据中与清洗规则对应的字符信息,将去除了字符信息的文本数据作为文本数据;对文本数据进行分词,得到多个原始词汇;判断多个原始词汇中是否包括待还原词汇;当多个原始词汇中包括待还原词汇时,对待还原词汇进行还原处理,得到还原词汇;采用还原词汇,替换多个原始词汇中,与还原词汇对应的原始词汇,得到文本数据的词汇。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种小语种文本数据的情感判别方法,其特征在于,所述方法包括:
获取文本数据;
提取所述文本数据的多个文本特征;
将所述文本特征输入支持向量机模型,得到所述文本数据的第一评价特征;
将所述文本数据输入mBERT模型,得到所述文本数据的第二评价特征;
输入所述第一评价特征和所述第二评价特征至情感判别器,输出所述文本数据的情感判别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述文本数据的多个文本特征之前,还包括:
按照预设文本清洗规则进行文本预处理,去除所述文本数据中与所述清洗规则对应的字符信息,将去除了所述字符信息的文本数据作为所述文本数据;
对所述文本数据进行分词,得到多个原始词汇;
判断多个所述原始词汇中是否包括待还原词汇;
当多个所述原始词汇中包括待还原词汇时,对所述待还原词汇进行还原处理,得到还原词汇;
采用所述还原词汇,替换多个所述原始词汇中与所述还原词汇对应的原始词汇,得到所述文本数据的词汇。
3.根据权利要求1或2所述的方法,其特征在于,所述文本数据中包括情感词,所述文本特征包括通用特征和语言自身特征,所述提取所述文本数据的多个特征,包括:
提取所述文本数据的浅层文本特征,将提取到的浅层文本特征作为所述通用特征;
提取所述文本数据中情感词的统计特征;
计算所述文本数据中各个所述情感词的情感极性分值,所述语言自身特征包括所述文本数据的情感词的统计特征和所述情感极性分值。
4.根据权利要求3所述的方法,其特征在于,所述情感词包括正面情感词和负面情感词,提取所述文本数据中情感词的统计特征,包括:
统计所述文本数据中所述正面情感词、所述负面情感词在所述文本数据中的出现次数和/或比例;
将所述正面情感词和所述负面情感词出现次数和/或比例,作为所述情感词的统计特征。
5.根据权利要求4所述的方法,其特征在于,所述文本数据还包括否定词,所述方法还包括:
统计所述文本数据中所述否定词在所述文本数据中的出现次数和/或比例;
将所述否定词在所述文本数据中的出现次数和/或比例,作为所述情感词的统计特征。
6.根据权利要求1所述的方法,其特征在于,所述输入所述第一评价特征和所述第二评价特征至情感判别器,输出所述文本数据的情感判别结果,包括:
通过所述情感判别器对所述第一评价特征和所述第二评价特征进行加权,得到加权特征,根据所述加权特征确定所述文本数据的情感判别结果;或
通过所述情感判别器对所述第一评价特征和所述第二评价特征进行投票,得到对应的投票结果,根据所述投票结果确定所述文本数据的情感判别结果。
7.一种小语种文本数据的情感判别装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本数据;
特征提取模块,用于提取所述文本数据的多个文本特征;
第一评价模块,用于将所述文本特征输入支持向量机模型,得到所述文本数据的第一评价特征;
第二评价模块,用于将所述文本数据输入mBERT模型,得到所述文本数据的第二评价特征;
情感判别模块,用于输入所述第一评价特征和所述第二评价特征至情感判别器,输出所述文本数据的情感判别结果。
8.根据权利要求7所述的装置,其特征在于,所述特征提取模块具体用于提取所述文本数据的浅层文本特征,将提取到的浅层文本特征作为所述通用特征;提取所述文本数据中情感词的统计特征;计算所述文本数据中各个所述情感词的情感极性分值,所述语言自身特征包括所述文本数据的情感词的统计特征和所述情感极性分值。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319243.7A CN113536802A (zh) | 2020-04-21 | 2020-04-21 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319243.7A CN113536802A (zh) | 2020-04-21 | 2020-04-21 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536802A true CN113536802A (zh) | 2021-10-22 |
Family
ID=78123932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010319243.7A Pending CN113536802A (zh) | 2020-04-21 | 2020-04-21 | 小语种文本数据的情感判别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536802A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320960A (zh) * | 2015-10-14 | 2016-02-10 | 北京航空航天大学 | 一种基于投票的跨语言主客观情感分类方法 |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
CN110955750A (zh) * | 2019-11-11 | 2020-04-03 | 北京三快在线科技有限公司 | 评论区域和情感极性的联合识别方法、装置、电子设备 |
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
-
2020
- 2020-04-21 CN CN202010319243.7A patent/CN113536802A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105320960A (zh) * | 2015-10-14 | 2016-02-10 | 北京航空航天大学 | 一种基于投票的跨语言主客观情感分类方法 |
CN109840328A (zh) * | 2019-02-28 | 2019-06-04 | 上海理工大学 | 深度学习商品评论文本情感倾向分析方法 |
CN110955750A (zh) * | 2019-11-11 | 2020-04-03 | 北京三快在线科技有限公司 | 评论区域和情感极性的联合识别方法、装置、电子设备 |
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
Non-Patent Citations (1)
Title |
---|
SOHN HAJUNG 等: "MC-BERT4HATE: Hate speech detection using multi-channel bert for different languages and translations", 《2019 INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW)》, pages 551 - 559 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108859A (zh) * | 2023-03-17 | 2023-05-12 | 美云智数科技有限公司 | 情感倾向确定、样本构建、模型训练方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tabassum et al. | A survey on text pre-processing & feature extraction techniques in natural language processing | |
Smetanin et al. | Deep transfer learning baselines for sentiment analysis in Russian | |
KR102020756B1 (ko) | 머신러닝을 이용한 리뷰 분석 방법 | |
Sboev et al. | Machine learning models of text categorization by author gender using topic-independent features | |
Millstein | Natural language processing with python: natural language processing using NLTK | |
Atoum et al. | Sentiment analysis of Arabic Jordanian dialect tweets | |
Ghosh et al. | Sentiment identification in code-mixed social media text | |
Suleiman et al. | Comparative study of word embeddings models and their usage in Arabic language applications | |
Sen et al. | Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods | |
KR20200007713A (ko) | 감성 분석에 의한 토픽 결정 방법 및 장치 | |
Bsir et al. | Enhancing deep learning gender identification with gated recurrent units architecture in social text | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
Haque et al. | Opinion mining from bangla and phonetic bangla reviews using vectorization methods | |
Sboev et al. | Deep learning network models to categorize texts according to author's gender and to identify text sentiment | |
Utomo et al. | Text classification of british english and American english using support vector machine | |
Fauziah et al. | Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review | |
Alhuqail | Author identification based on nlp | |
Vīksna et al. | Sentiment analysis in Latvian and Russian: A survey | |
Nama et al. | Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Al Taawab et al. | Transliterated bengali comment classification from social media | |
Kavitha et al. | A review on machine learning techniques for text classification | |
Gouthami et al. | A survey on challenges and techniques of sentiment analysis | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Ningtyas et al. | The Influence of Negation Handling on Sentiment Analysis in Bahasa Indonesia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |
|
RJ01 | Rejection of invention patent application after publication |