CN114091469B - 基于样本扩充的网络舆情分析方法 - Google Patents

基于样本扩充的网络舆情分析方法 Download PDF

Info

Publication number
CN114091469B
CN114091469B CN202111394754.6A CN202111394754A CN114091469B CN 114091469 B CN114091469 B CN 114091469B CN 202111394754 A CN202111394754 A CN 202111394754A CN 114091469 B CN114091469 B CN 114091469B
Authority
CN
China
Prior art keywords
word
words
emotion
public opinion
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111394754.6A
Other languages
English (en)
Other versions
CN114091469A (zh
Inventor
张蕾
吴叶
马超杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Turnip Intelligent Technology Co ltd
Original Assignee
Hangzhou Turnip Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Turnip Intelligent Technology Co ltd filed Critical Hangzhou Turnip Intelligent Technology Co ltd
Priority to CN202111394754.6A priority Critical patent/CN114091469B/zh
Publication of CN114091469A publication Critical patent/CN114091469A/zh
Application granted granted Critical
Publication of CN114091469B publication Critical patent/CN114091469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了了一种基于样本扩充的网络舆情分析方法,包括步骤:S1,扩充情感极性词典,S2,以四元组形式表达情感极性词典中的每个情感词,并从四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;S3,将当前舆情信息作为网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性。本发明通过扩充情感极性词典,增加了模型训练样本的数据量,解决了样本类型不平衡的问题,通过结合ALBERT和TextCNN算法去训练网络舆情倾向分析模型,克服了单独使用TextCNN算法训练模型存在的不能学习到网络舆情文本更深层次、更全面的信息的缺陷,提升模型了对网络舆情倾向性的预测准确度。

Description

基于样本扩充的网络舆情分析方法
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于样本扩充的网络舆情分析方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕社会事件的发生、发展的变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
网络舆情即发生在网络上的舆情。由于网络空间的开放特性,舆论的发布和扩散方式多种多样,一些片面、煽动性的舆情信息也很容易在网络上传播,这些负面信息若不能及时发现和处理,会对社会产生不良影响。因此,面对大规模的网络舆情信息,如何利用大数据技术,快速且准确的分析出网络舆情倾向,成为及时应对各种网络舆情的关键。
目前,应用较为广泛的网络舆情倾向性分析方法为基于NLP(Natural LanguageProcessing,自然语言处理)的网络舆情分析方法。但基于监督学习的NLP方法对网络舆情倾向性的预测准确度受模型训练样本质量的影响较大,当样本数据量过少或者噪声太大时,采用NLP算法训练而得的模型的预测性能较差,所以需要寻找一种全新的方法解决样本质量问题,以快速且准确的分析出网络舆情倾向。
发明内容
本发明以提高网络舆情预测准确性为目的,提供了一种网络舆情分析方法。
为达此目的,本发明采用以下技术方案:
提供一种基于样本扩充的网络舆情分析方法,包括步骤:
S1,扩充情感极性词典,
S2,以四元组形式表达所述情感极性词典中的每个情感词,并从所述四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;
S3,将当前舆情信息作为所述网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性。
作为本发明的一种优选方案,步骤S1中,扩充所述情感极性词典的方法具体包括步骤:
S11,对网络舆情语料库进行分词操作,所分得的词作为待计算情感极性的候选词;
S12,计算所分得的每个所述候选词的情感倾向性概率值;
S13,提取出情感倾向性概率值大于预设概率阈值的所述候选词;
S14,计算步骤S13提取的所述候选词与所述情感极性词典中的同义词的语义相似度,得到相似度值sim;
S15,判断所述相似度值sim是否大于或等于预设的相似度阈值,
若是,则赋予参与相似度计算的所述候选词的情感极性为与其具有最高相似度的所述同义词的情感极性;
若否,则对参与相似度计算的所述候选词作情感极性计算并赋予其所计算的情感极性;
S16,将赋予情感极性后的所述候选词添加到所述情感极性词典中。
作为本发明的一种优选方案,步骤S12中,通过以下公式(1)计算所述候选词的情感倾向性概率值:
Figure BDA0003369871300000021
公式(1)中,P(wi|cj)表示待求解的所述候选词的情感倾向性概率值;
Nij表示候选词wi在情感倾向类别cj下的所有文档中出现的总次数,其中候选词包括情感词和非情感词;
|V|表示所述情感极性词典中的总单词数;
wi表示参与情感倾向性概率计算的第i个所述候选词;
cj表示第j个情感倾向类别。
作为本发明的一种优选方案,步骤S14中,通过以下公式(2)计算所述相似度值sim:
Figure BDA0003369871300000022
公式(2)中,w表示所述候选词;
w1表示HowNet义原树中的一个词语节点;
depth(w)表示在HowNet义原树中候选词w节点距离义原树根结点的深度;
depth(w1)表示在HowNet义原树中w1节点距离义原树根结点的深度;
dist(w,w1)表示w1节点与w节点间的路径距离;
α表示深度对相似度计算的影响参数。
作为本发明的一种优选方案,预设的所述相似度阈值为0.6。
作为本发明的一种优选方案,步骤S25中,通过以下公式(3)对参与相似度计算的所述候选词作情感极性计算:
Figure BDA0003369871300000031
公式(3)中,SO_PMI(w)表示对所述候选词的情感极性计算结果;
w表示待进行情感极性计算的所述候选词;
ci表示所述情感极性词典中的第i个基准褒义词;
di表示所述情感极性词典中的第i个基准贬义词;
n表示基准词总数;
P(w)表示候选词w在文本中单独出现的概率;
P(ci)表示ci在文本中单独出现的概率;
P(di)表示di在文本中单独出现的概率;
P(w&ci)表示候选词w与ci在文本中同时出现的概率;
P(w&di)表示候选词w与di在文本中同时出现的概率。
作为本发明的一种优选方案,所述四元组的表达形式为(M,W,R,D)表示,其中M表示修饰词;W表示极性词;R表示修饰词M与极性词W之间的关系;D表示修饰词M与极性词 W之间的距离。
作为本发明的一种优选方案,步骤S2中,基于ALBERT和TextCNN算法训练所述网络舆情倾向性分析模型的方法步骤包括:
S21,从表征情感词的所述四元组中提取出极性词向量、修饰词向量和以及表征修饰词与极性词间距离的位置向量;
S22,以步骤S21提取的关联每个所述情感词的所述极性词向量、所述修饰词向量和所述位置向量为模型训练样本,并基于ALBERT和TextCNN算法训练形成所述网络舆情倾向性分析模型。
作为本发明的一种优选方案,基于亲和度的舆情迁移算法扩展所述网络舆情语料库,具体步骤包括:
S111,利用WMD算法从已有的网络舆情样本库中筛选出与当前网络舆情领域相似的数据样本;
S112,计算所筛选的所述数据样本与当前网络舆情样本中的情感词的领域亲和度;
S113,判断步骤S112计算的所述领域亲和度是否大于预设的领域亲和度阈值,
若是,则将所述数据样本添加到当前网络舆情样本数据集中;
若否,则过滤掉所述数据样本。
作为本发明的一种优选方案,步骤S112中通过以下公式(4)计算所述领域亲和度:
Figure BDA0003369871300000041
公式(4)中,Sij表示待求解的文本Ti与文本Tj间情感词的领域相似度;
Hij表示同时出现在所述文本Ti与所述文本Tj中的情感词的集合;
k表示集合Hij中的第k个情感词;
nk表示所述集合Hij中情感词的数量;
Wki表示所述集合Hij中的第k个情感词与所述文本Ti中的第i个情感词的关联度;
Wkj表示所述集合Hij中的第k个情感词与所述文本Tj中的第j个情感词的关联度;
Wki通过以下公式(5)计算而得:
Figure BDA0003369871300000042
公式(5)中,fik表示同时出现在Ti、Tj中的情感词的频率;
fi表示Ti中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
dik表示两个情感词在同一文本中的平均词向量距离;
Wkj通过以下公式(6)计算而得:
Figure BDA0003369871300000043
公式(6)中,fjk表示同时出现在Ti、Tj中的情感词(共现情感词)的频率;
fj表示Tj中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
djk表示两个情感词在同一文本中的平均词向量距离。
本发明具有以下有益效果:
1、本发明以情感极性词典中的数据为网络舆情倾向性分析模型的训练样本,通过扩充情感极性词典,增加了模型训练样本的数据量,解决了样本类型不平衡的问题,有利于提升模型对网络舆情倾向性的预测准确度。
2、结合ALBERT算法和TextCNN算法训练网络舆情倾向性分析模型,克服了单独使用 TextCNN算法训练模型存在的不能学习到网络舆情文本更深层次、更全面的信息的缺陷,提升模型了对网络舆情倾向性的预测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的基于样本扩充的网络舆情分析方法的实现步骤图;
图2是扩充情感极性词典的方法步骤图;
图3是扩充情感极性词典的方法原理框图;
图4是基于ALBERT和TextCNN算法训练网络舆情倾向性分析模型的方法步骤图;
图5是本实施例训练网络舆情倾向性分析模型的网络结构图;
图6是基于亲和度的舆情迁移算法扩展网络舆情语料库的方法步骤图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明为解决现有算法对网络舆情倾向性预测不够准确的问题,提供如下技术方案:
1、设计了一种融合HowNet算法、MultinomialNB算法、SO-PMI算法的极性词典扩充算法,以扩充情感极性词典,增加模型训练样本,提高模型对网络舆情倾向性分析的准确度。
2、定义情感极性词典的语义规则,以四元组形式表达情感极性词典中的每一个情感词,并从四元组中提取出极性词向量、修饰词向量以及位置向量作为模型训练样本,提升了样本质量,有利于进一步提升模型预测网络舆情倾向性的准确度。
3、结合ALBERT算法和TextCNN算法训练网络舆情倾向性分析模型,克服了单独使用 TextCNN算法训练模型存在的不能学习到网络舆情文本更深层次、更全面的信息的缺陷。
4、为解决样本类型不平衡的问题,本发明提供了基于亲和度的舆情迁移算法,以情感词的亲和度作为桥梁,扩展网络舆情的语料库,降低了训练样本类型不平衡、噪声过大或者样本数量过少对模型训练效果的影响。
具体地,如图所示,本实施例提供的基于样本扩充的网络舆情分析方法包括如下步骤:
步骤S1,扩充情感极性词典;
步骤S2,以四元组形式表达情感极性词典中的每个情感词,并从四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;
步骤S3,将当前舆情信息作为网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性。
在情感极性词典中,一个词语对应一个情感极性,比如词语“不满意”中的“满意”就是表达情感的极性词,“不”为对极性词“满意”的修饰词。本实施例中,我们采用中国台湾大学 (NTSUSD)提出的简体中文情感词典(以下称情感极性词典)作为网络舆情倾向性分析模型训练的数据集。但由于该情感极性词典覆盖的情感词汇不够全面,缺少一些语义相似但出现频率相对较低的词语,所以需要对该情感极性词典进行扩充。
情感极性词典扩充,即从语料库中识别出与词典中的基准词具有语义相似度的候选词以及候选词对应的情感极性词然后添加到情感极性词典中。HowNet是一种利用义原分类树计算词汇间语义相似度的算法。SO-PMI是一种计算词语情感极性的算法,它通过选取一些代表褒义和贬义的基准词,并计算候选词与基准词在文本中的共现(共同出现)概率,以确定候选词的情感倾向。但HowNet算法和SO-PMI算法本身都存在一些缺点。由于义原分类树是通过人工方式整理,因此HowNet算法对某些词汇的相似度计算可能并不准确。而SO-PMI算法在计算情感极性时,受语料库影响较大,如果候选词或基准词在文本中出现的频次较低,算法的性能就会下降。因此,为了解决HowNet算法的相似度计算结果以及SO-PMI算法的情感极性计算结果可能并不准确的问题,本发明通过将HowNet算法和SO-PMI算法结合,并融入 MultinomialNB算法,创新提出了一种基于HowNet-MultinomialNB-SO-PMI的极性词典扩充算法。通过该极性词典扩充算法可以从语料库中较为准确地提取出具有情感倾向性的候选词,提高了后续应用HowNet算法对所筛选的候选词与基准词的相似度计算的准确度,且有利于提升后续应用SO-PMI算法对候选词情感极性计算的准确度。
具体地,如图2和图3所示,应用基于HowNet-MultinomialNB-SO-PMI的极性词典扩充算法扩充情感极性词典的方法步骤如下:
步骤S11,针对当前网络热点的舆情语料库,首先利用jieba分词模型进行中文分词操作,如语料“我不满意”通过jieba分词模型可以分词为“我/不/满意”,所分得的词作为待计算情感极性的候选词。但由于分词而得的候选词数量庞大,如果不对这些候选词进行筛选而全部作为情感极性的计算对象,无疑计算量巨大,且分得的部分词如“我”并不具备情感极性计算价值,浪费计算资源,降低了计算效果;所以,我们通过步骤S12-S13来解决这个问题,
步骤S12,计算所分得的每个候选词的情感倾向性概率值;
步骤S13,提取出情感倾向性概率值大于预设概率阈值的候选词;
我们通过训练多项式贝叶斯MultinomialNB分类器从步骤S11中分词而得的全部候选词中筛选出具有情感倾向性的候选词。MultinomialNB分类器筛选候选词的技术核心是计算候选词具有情感倾向性的概率,当计算的情感倾向性概率值高于预设概率阈值时,MultinomialNB分类器将这个候选词筛选出来作为后续的情感极性计算对象。MultinomialNB 分类器计算候选词的情感倾向性概率的方法通过以下公式(1)表达:
Figure BDA0003369871300000071
公式(1)中,P(wi|cj)表示待求解的候选词的情感倾向性概率值;
Nij表示候选词wi在情感倾向类别cj下的所有文档中出现的总次数,候选词包括情感词和非情感词;
|V|表示情感极性词典中的总单词数;
wi表示参与情感倾向性概率计算的第i个候选词;
cj表示第j个情感倾向类别。
经过多次实验结果对比,我们将MultinomialNB分类器的维度设置为1500,alpha平滑参数设置为0.01。
请继续参照图2和图3,筛选出候选词后,转入:
步骤S14,计算步骤S13提取的候选词与情感极性词典中的同义词的语义相似度,得到相似度值sim。本发明优选利用HowNet算法计算候选词与同义词的相似度,改进后的HowNet 算法计算相似度值sim的过程通过以下公式(2)表达:
Figure BDA0003369871300000081
公式(2)中,w表示所述候选词;
w1表示HowNet义原树中的一个词语节点;
depth(w)表示在HowNet义原树中该候选词节点距离义原树根结点的深度;
depth(w1)表示在HowNet义原树中w1节点距离义原树根结点的深度;
dist(w,w1)表示w1节点与w节点间的路径距离;
α表示深度对相似度计算的影响参数;
以下对应用公式(2)计算词语相似度值的方法进行举例说明:
设当前的HowNet义原树为“植物(根节点)->树(w1)->庄稼(w2)->花草(w)”,则根据公式(2)求得:
Figure BDA0003369871300000082
Figure BDA0003369871300000083
中的2.5即深度对相似度计算的影响参数α,3即候选词节点w(花草)距离义原树根结点(植物)的深度,1即w1节点(树)距离义原树根结点(植物)的深度,2即w1节点与w节点间的路径距离dist(w,w1)。最后求得相似度sim值为0.71。
步骤S15,判断相似度值sim是否大于或等于预设的相似度阈值(经多次实验结果比对,本实施例将该相似度阈值设置为0.6),
若是,则赋予参与相似度计算的候选词的情感极性为与其具有最高相似度(相似度值越高代表越具相似度)的同义词的情感极性(情感极性通常包括支持性、反对性和中立性情感极性,以及每种类型的情感极性的强度),
若否,则对参与相似度计算的候选词作情感极性计算并赋予其所计算的情感极性。本发明利用SO-PMI算法对相似度低于相似度阈值的候选词作情感极性计算,计算方法如以下公式 (3)表达:
Figure BDA0003369871300000091
公式(3)中,SO_PMI(w)表示对候选词的情感极性计算结果;
w表示待进行情感极性计算的候选词;
ci表示情感极性词典中的第i个基准褒义词;
di表示情感极性词典中的第i个基准贬义词;
n表示基准词总数;
P(w)表示候选词w在文本中单独出现的概率;
P(ci)表示ci在文本中单独出现的概率;
P(di)表示di在文本中单独出现的概率;
P(w&ci)表示候选词w与ci在文本中同时出现的概率;
P(w&di)表示候选词w与di在文本中同时出现的概率。
以下对应用公式(3)计算情感极性的方法进行举例说明:
设候选词为“优雅”,基准褒义词为“美丽”,基准贬义词为“丑陋”。当前共有6个分词处理后的文本{优雅/美丽}、{优雅/美丽}、{优雅}、{美丽}、{优雅/丑陋}、{丑陋},则根据公式(3)求得:
Figure BDA0003369871300000092
Figure BDA0003369871300000093
中的
Figure BDA0003369871300000094
即候选词(优雅)与基准褒义词(美丽)在文本中同时出现的概率,分母中的
Figure BDA0003369871300000095
即候选词(优雅)、基准褒义词(美丽)和基准贬义词(丑陋)在文本中单独出现的概率,分子中的
Figure BDA0003369871300000096
即候选词(优雅)与基准贬义词(丑陋)在文本中同时出现的概率。最后求得候选词的情感极性为1。
步骤S16,将赋予情感极性后的候选词添加到情感极性词典中。
当词汇上下文语境不同时,相同情感词的情感倾向可能也并不相同,此外情感词的情感倾向还容易受修饰词的影响。为了充分表达出情感极性词典中收录的情感词的语义,本发明定义了词典的语义规则,包括词语极性规则、极性强度规则、否定词语规则、表情加权规则、转折词规则,并以四元组形式(M,W,R,D)来表达每个词语最小的独立情感单元,M表示修饰词;W表示极性词;R表示修饰词M与极性词W之间的关系;D表示修饰词M与极性词W之间的距离。
本发明定义的词典语义规则具体内容如下:
1、词语极性规则。本发明将词语极性分为3个类型,分别为+1、0、-1,其中+1代表支持性词汇,即对当前网络舆情表示赞同、支持的词汇;-1代表反对性词汇,即对当前网络舆情表示批判、反对的词汇;0代表中立词汇,即对当前网络舆情不包含感情色彩的词汇。
2、极性强度规则。本发明将词语的极性强度分为5个等级,权值分别为0.5、1、2、3、4。极性强度越大代表相应程度词的情感极性越强烈,比如4代表带有煽动性的程度词。
3、否定词语规则。否定词语规则包含2类,分别为否定词和双重否定词,权值分别为-1、 +1。一些典型的否定词比如为“不”、“不是”、“不会”。双重否定词包括“不是不”、“不可能不”等。
4、表情加权规则。经过研究发现,在网络中有很多表情都包含有强烈的情感色彩,因此表情符号对于情感倾向性的判断也很重要,但由于表情符号不同于其他情感词,不能与程度副词搭配使用,因此,将表情符号的词语极性赋予权重p,p值取极性强度等级的中位数,即 2。
5、转折词规则。由于中文表达经常含有转折词语,且这样的表达常常强调转折后面的词语情感,因此在情感倾向分析中,对于转折词后的极性词语,同样设置极性强度等级的中位数,即2。
对四元组表达形式的举例请见下表1:
Figure BDA0003369871300000101
表1
表1中的“N”表示否定修饰词,即修饰词与极性词的关系为否定,如“不满意”中的“不”为修饰词,“满意”为极性词,四元组(不,满意,N,-1)中的“N”即表示修饰词“不”和极性词“满意”间的关系为否定,这里的四元组表达形式中的“-1”表示修饰词在极性词的左侧第一个位置。(不是,满意,N,-2)中的“-2”则表示修饰词在极性词的左侧第二个位置。(很,满意,V,-1)中的“V”表示副词修饰词,表示修饰词“很”与极性词“满意”间的关系为副词。
四元组表达了词典中词语更多的情感特征信息,同时减少了冗余信息。以四元组代替传统的词向量作为模型训练样本,由于表达了更多的词语情感特征,提升了样本情感数据的丰富程度,有利于提升模型训练效果,提高模型预测网络舆情情感倾向的准确度。另外由于四元组减少了冗余信息,有利于提升模型的训练速度。
本发明基于ALBERT和TextCNN算法训练网络舆情倾向性分析模型,采用的模型训练网络结构请参照图5。本发明训练网络舆情倾向性分析模型的方法步骤如图4所示,包括:
步骤S21,从表征情感词的每个四元组(M,W,R,D)中提取出极性词向量、修饰词向量以及表示修饰词与极性词间距离的位置向量;
步骤S22,将步骤S21提取的关联每条情感词的极性词向量、修饰词向量和位置向量输入到图5所示的ALBERT模型中。在ALBERT模型中,向量会经过由Transformer Block模块组成的中间层。其中,Transformer Block模块的层数为12,Transformer Block模块是一个encoder-decoder编解码结构,由6个编码器和6个解码器堆叠形成。
在编码器和解码器模块中,每个输入向量都将进入到自注意力机制模型和多头注意力机制模型中,以此来得到每个向量的全局信息。其中注意力机制模型的作用是为了得出所关注部分与上下文之间的相似度信息。
然后,将每个情感词的极性词向量、修饰词向量和位置向量的输出向量进行结合,组合一个情感词列向量。并将当前文本的所有情感词列向量组合为文本向量矩阵T,该矩阵融合了全文的语义信息。然后将文本向量矩阵T输入到TextCNN模型中。经过卷积核大小为4的卷积层的卷积操作提取出文本向量矩阵T的卷积特征。随后进入池化层,池化操作为最大池化,具体过程为在feature map求一个最大值,然后把得到的值进行concate连接,输出特征向量。最后,将该特征向量输入到全连接层和SoftMax层作情感倾向分类任务,同时添加Dropout正则化层,使用0.5的概率随机屏蔽训练数据以防止过拟合。同时TextCNN模型使用Adam算法进行参数迭代更新,其中学习率为5e-4,训练轮次为20。
为了解决因样本类型不平衡导致训练而得的模型预测网络舆情情感倾向准确度不高的问题,我们设计了基于亲和度的舆情迁移算法以扩充语料库。具体地,如图6所示,基于亲和度的舆情迁移算法扩展网络舆情语料库的方法包括:
步骤S111,利用WMD算法从已有的网络舆情样本库中初步筛选出与当前网络舆情领域相似的数据样本。WMD(Word Mover’s Distance)算法通过计算两个文本间的距离,进而衡量两个文本的相似度。
步骤S112,计算所筛选的数据样本与当前网络舆情样本中的情感词的领域亲和度,领域亲和度计算方法具体通过以下公式(4)表达:
Figure BDA0003369871300000121
公式(4)中,Sij表示待求解的文本Ti与文本Tj间情感词的领域相似度;
Hij表示同时出现在文本Ti与所述文本Tj中的情感词的集合;
k表示集合Hij中的第k个情感词;
nk表示集合Hij中情感词的数量;
Wki表示集合Hij中的第k个情感词与文本Ti中的第i个情感词的关联度;
Wkj表示集合Hij中的第k个情感词与文本Tj中的第j个情感词的关联度;
Wki通过以下公式(5)计算而得:
Figure BDA0003369871300000122
公式(5)中,fik表示同时出现在Ti、Tj中的情感词(共现情感词)的频率;
fi表示Ti中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
dik表示两个情感词在同一文本中的平均词向量距离;
Wkj通过以下公式(6)计算而得:
Figure BDA0003369871300000123
公式(6)中,fjk表示同时出现在Ti、Tj中的情感词(共现情感词)的频率;
fj表示Tj中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
djk表示两个情感词在同一文本中的平均词向量距离;
以下对应用公式(4)-(6)计算情感词领域相似度的方法进行举例说明:
假设文本Ti为:“民众表示赞同,支持这个提案”;文本Tj为:“我支持,应该加快推进”。经过分词及去除停用词(这里两个文本中的停用词为“,”)后,得到Ti为:“民众/赞同/支持 /提案”,Tj为:“支持/加快/推进”,则Ti中的情感词为{赞同,支持},Tj中的情感词为{支持,推进},Hij为{支持},nk=1。
根据公式(5)求得:
Figure BDA0003369871300000131
Figure BDA0003369871300000132
中的
Figure BDA0003369871300000133
即Ti和Tj中的共性情感词“支持”出现在Ti、Tj中的频率(共现情感词出现次数与Ti、Tj文本中的情感词数量之比);
Figure BDA0003369871300000134
即共性情感词“支持”在Ti出现的频率(共现情感词与Ti文本中的情感词数量之比);
Figure BDA0003369871300000135
即Ti中情感词“赞同”在Ti出现的频率(情感词“赞同”与 Ti文本中的情感词数量之比);1即两个情感词在同一文本中的平均词向量距离。Ti中的情感词“赞同”在情感词“支持”左侧的第一个位置,则对Ti中“赞同”与“支持”的距离用数值“1”表示。
同样的,根据公式(6)求得:
Figure BDA0003369871300000136
Figure BDA0003369871300000137
中的“2”即表示Tj中的情感词“支持”在情感词“推进”左侧的第二个位置。
所以通过公式(4)计算得到Ti和Tj中的情感词的相似度为
Figure BDA0003369871300000138
综上,本发明以情感极性词典中的数据为网络舆情倾向性分析模型的训练样本,通过扩充情感极性词典,增加了模型训练样本的数据量,有利于提升模型对网络舆情倾向性的预测准确度。另外,通过结合ALBERT算法和TextCNN算法训练网络舆情倾向性分析模型,解决了单独使用TextCNN算法训练模型存在的不能学习到网络舆情文本更深层次、更全面的信息的缺陷,提升模型了对网络舆情倾向性的预测准确度。此外,基于亲和度的舆情迁移算法扩充网络舆情的语料库,根本性解决了因不同类型的语料库数量不平衡,情感极性词典难以扩充,模型训练因样本量过少或噪声太大对训练效果的影响。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (7)

1.一种基于样本扩充的网络舆情分析方法,其特征在于,包括步骤:
S1,扩充情感极性词典,
S2,以四元组形式表达所述情感极性词典中的每个情感词,并从所述四元组中提取出模型训练样本,然后基于ALBERT和TextCNN算法训练形成网络舆情倾向性分析模型;
S3,将当前舆情信息作为所述网络舆情倾向性分析模型的输入,模型预测输出当前网络舆情的倾向性;
步骤S1中,扩充所述情感极性词典的方法具体包括步骤:
S11,对网络舆情语料库进行分词操作,所分得的词作为待计算情感极性的候选词;
S12,计算所分得的每个所述候选词的情感倾向性概率值;
S13,提取出情感倾向性概率值大于预设概率阈值的所述候选词;
S14,计算步骤S13提取的所述候选词与所述情感极性词典中的同义词的语义相似度,得到相似度值sim;
S15,判断所述相似度值sim是否大于或等于预设的相似度阈值,
若是,则赋予参与相似度计算的所述候选词的情感极性为与其具有最高相似度的所述同义词的情感极性;
若否,则对参与相似度计算的所述候选词作情感极性计算并赋予其所计算的情感极性;
S16,将赋予情感极性后的所述候选词添加到所述情感极性词典中;
基于亲和度的舆情迁移算法扩展所述网络舆情语料库,具体步骤包括:
S111,利用WMD算法从已有的网络舆情样本库中筛选出与当前网络舆情领域相似的数据样本;
S112,计算所筛选的所述数据样本与当前网络舆情样本中的情感词的领域亲和度;
S113,判断步骤S112计算的所述领域亲和度是否大于预设的领域亲和度阈值,
若是,则将所述数据样本添加到当前网络舆情样本数据集中;
若否,则过滤掉所述数据样本;
步骤S112中通过以下公式(4)计算所述领域亲和度:
Figure FDA0003631189810000011
公式(4)中,Sij表示待求解的文本Ti与文本Tj间情感词的领域亲和度;
Hij表示同时出现在所述文本Ti与所述文本Tj中的情感词的集合;
k表示集合Hij中的第k个情感词;
nk表示所述集合Hij中情感词的数量;
Wki表示所述集合Hij中的第k个情感词与所述文本Ti中的第i个情感词的关联度;
Wkj表示所述集合Hij中的第k个情感词与所述文本Tj中的第j个情感词的关联度;
Wki通过以下公式(5)计算而得:
Figure FDA0003631189810000021
公式(5)中,fik表示同时出现在Ti、Tj中的情感词的频率;
fi表示Ti中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
dik表示两个情感词在同一文本中的平均词向量距离;
Wkj通过以下公式(6)计算而得:
Figure FDA0003631189810000022
公式(6)中,fjk表示同时出现在Ti、Fj中的情感词的频率;
fj表示Tj中情感词出现的频率;
fk表示情感词k在Ti或Tj中出现的频率;
djk表示两个情感词在同一文本中的平均词向量距离。
2.根据权利要求1所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S12中,通过以下公式(1)计算所述候选词的情感倾向性概率值:
Figure FDA0003631189810000023
公式(1)中,P(wi|cj)表示待求解的所述候选词的情感倾向性概率值;
Nij表示候选词wi在情感倾向类别cj下的所有文档中出现的总次数,候选词包括情感词和非情感词;
|V|表示所述情感极性词典中的总单词数;
wi表示参与情感倾向性概率计算的第i个所述候选词;
cj表示第j个情感倾向类别。
3.根据权利要求1或2所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S14中,通过以下公式(2)计算所述相似度值sim:
Figure FDA0003631189810000031
公式(2)中,w表示所述候选词;
w1表示HowNet义原树中的一个词语节点;
depth(w)表示在HowNet义原树中候选词w节点距离义原树根结点的深度;
depth(w1)表示在HowNet义原树中w1节点距离义原树根结点的深度;
dist(w,w1)表示w1节点与w节点间的路径距离;
α表示深度对相似度计算的影响参数。
4.根据权利要求3所述的基于样本扩充的网络舆情分析方法,其特征在于,预设的所述相似度阈值为0.6。
5.根据权利要求1所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S15中,通过以下公式(3)对参与相似度计算的所述候选词作情感极性计算:
Figure FDA0003631189810000032
公式(3)中,SO_PMI(w)表示对所述候选词的情感极性计算结果;
w表示待进行情感极性计算的所述候选词;
ci表示所述情感极性词典中的第i个基准褒义词;
di表示所述情感极性词典中的第i个基准贬义词;
n表示基准词总数;
P(w)表示候选词w在文本中单独出现的概率;
P(ci)表示ci在文本中单独出现的概率;
P(di)表示di在文本中单独出现的概率;
P(w&ci)表示候选词w与ci在文本中同时出现的概率;
P(w&di)表示候选词w与di在文本中同时出现的概率。
6.根据权利要求1所述的基于样本扩充的网络舆情分析方法,其特征在于,所述四元组的表达形式为(M,W,R,D)表示,其中M表示修饰词;W表示极性词;R表示修饰词M与极性词W之间的关系;D表示修饰词M与极性词W之间的距离。
7.根据权利要求6所述的基于样本扩充的网络舆情分析方法,其特征在于,步骤S2中,基于ALBERT和TextCNN算法训练所述网络舆情倾向性分析模型的方法步骤包括:
S21,从表征情感词的所述四元组中提取出极性词向量、修饰词向量和以及表征修饰词与极性词间距离的位置向量;
S22,以步骤S21提取的关联每个所述情感词的所述极性词向量、所述修饰词向量和所述位置向量为模型训练样本,并基于ALBERT和TextCNN算法训练形成所述网络舆情倾向性分析模型。
CN202111394754.6A 2021-11-23 2021-11-23 基于样本扩充的网络舆情分析方法 Active CN114091469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111394754.6A CN114091469B (zh) 2021-11-23 2021-11-23 基于样本扩充的网络舆情分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111394754.6A CN114091469B (zh) 2021-11-23 2021-11-23 基于样本扩充的网络舆情分析方法

Publications (2)

Publication Number Publication Date
CN114091469A CN114091469A (zh) 2022-02-25
CN114091469B true CN114091469B (zh) 2022-08-19

Family

ID=80303439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111394754.6A Active CN114091469B (zh) 2021-11-23 2021-11-23 基于样本扩充的网络舆情分析方法

Country Status (1)

Country Link
CN (1) CN114091469B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062153A (zh) * 2022-07-12 2022-09-16 北京富通东方科技有限公司 一种面向汽车舆情的多标签文本分类系统及方法
CN116522013B (zh) * 2023-06-29 2023-09-05 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111626050A (zh) * 2020-05-25 2020-09-04 安徽理工大学 基于表情词典与情感常识的微博情感分析方法
CN113407644A (zh) * 2021-05-06 2021-09-17 国科元科技(北京)有限公司 一种基于深度学习算法的企业行业二级行业多标签分类器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060155751A1 (en) * 2004-06-23 2006-07-13 Frank Geshwind System and method for document analysis, processing and information extraction
US8200671B2 (en) * 2009-02-26 2012-06-12 Fujitsu Limited Generating a dictionary and determining a co-occurrence context for an automated ontology
CN108874992B (zh) * 2018-06-12 2021-03-19 深圳华讯网络科技有限公司 舆情分析方法、系统、计算机设备和存储介质
CN112434164B (zh) * 2020-12-03 2023-04-28 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239439A (zh) * 2017-04-19 2017-10-10 同济大学 基于word2vec的舆情倾向性分析方法
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN111626050A (zh) * 2020-05-25 2020-09-04 安徽理工大学 基于表情词典与情感常识的微博情感分析方法
CN113407644A (zh) * 2021-05-06 2021-09-17 国科元科技(北京)有限公司 一种基于深度学习算法的企业行业二级行业多标签分类器

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Combining Distributed Word Representation and Document Distance for Short Text Document Clustering;Supavit Kongwudhikunakorn等;《J Inf Process Syst,》;20200430;第16卷(第2期);全文 *
YNU-HPCC at SemEval-2021 Task 6: Combining ALBERT and Text-CNN for Persuasion Detection in Texts and Images;Xingyu Zhu等;《Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)》;20210806;全文 *
一种改进的基于《知网》的词语语义相似度计算;江敏等;《中文信息学报》;20080930;第22卷(第5期);第84-89页 *
基于多项式贝叶斯分类模型的短文本多情感倾向分析及实现;刘正等;《现代计算机》;20160531;第39-42、47页 *
基于情感极性和结构平衡的舆情分析;付霞;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115(第1期);第I138-5556页 *
基于改良SO-PMI算法的在线评论情感倾向性分析研究;马子洲;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190615(第6期);第I138-707页 *
基于特征的商品在线评论情感倾向性分析;徐倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);第I138-4337页 *

Also Published As

Publication number Publication date
CN114091469A (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN110609899B (zh) 一种基于改进bert模型的特定目标情感分类方法
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN109977413A (zh) 一种基于改进cnn-lda的情感分析方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN107092596A (zh) 基于attention CNNs和CCR的文本情感分析方法
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
CN108363743A (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN114091469B (zh) 基于样本扩充的网络舆情分析方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN111966827B (zh) 基于异构二部图的对话情感分析方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110119443B (zh) 一种面向推荐服务的情感分析方法
CN112906397B (zh) 一种短文本实体消歧方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN114428850B (zh) 一种文本检索匹配方法和系统
CN110851601A (zh) 基于分层注意力机制的跨领域情感分类系统及方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20230220

Granted publication date: 20220819

PP01 Preservation of patent right