CN112214991A - 一种基于多特征融合加权的微博文本立场检测方法 - Google Patents
一种基于多特征融合加权的微博文本立场检测方法 Download PDFInfo
- Publication number
- CN112214991A CN112214991A CN202011078456.1A CN202011078456A CN112214991A CN 112214991 A CN112214991 A CN 112214991A CN 202011078456 A CN202011078456 A CN 202011078456A CN 112214991 A CN112214991 A CN 112214991A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- text
- comment
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000002996 emotional effect Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000008676 import Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多特征融合加权的微博文本立场检测方法,包含:S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;S2、对步骤S1中的数据集中的评论文本进行预处理操作;S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x),提取每个评论文本的特征词;S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。其优点是:该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于多特征融合加权的微博文本立场检测方法,以解决立场检测问题。
背景技术
近年来,互联网时代信息资讯丰富、交换方便快捷,微博作为一个热点话题开放平台,多元化趋势正在逐渐符合大众心理需求,人们通过社交平台参与评论、分享观点见解,从海量的微博话题评论中挖掘用户的观点和情感倾向,及时对大众反应态度进行立场检测,可以更好的了解到当前舆情的发展趋势。
立场检测任务是判断评论者对描述话题主体所表达的支持、反对或中立的态度。当前立场检测研究大多直接将话题与评论内容拼接起来,使评论内容有所归属,但是这种方法并未充分认识和利用话题词与评论特征词之间的联系,也造成了高频词对分类无意义的现象;同时立场检测研究数据集由用户评论构成,用户评论大多简短、形式随意,存在内容冗余、杂质较多的问题,在上述微博自动添加话题前缀的情况下,不仅忽略了特征词在不同类之间的分布情况,而且高估了高频词的作用并抑制了低频词的作用。在判断情感态度倾向时,传统扩充情感词典的方法对于模型提取主题词的能力并没有改善,计算词项携带信息量的各个方法考虑的是词项的绝对词频,计算类间区分度时受词频影响较高,当词项频繁出现在文档中时,即使类间区分度数值偏高但若词频过低,也很难使最终权重值有明显提升,特征词也会因此被漏筛。在深度学习研究领域多采用RNN等神经网络模型,因为语言有长期依赖关系,RNN模型不擅长捕捉和保留之前的所有信息,存在长期依赖的问题,神经网络各层参数多、随机初始化特点使这种网络特征提取模型具有不确定性,可解释性差,当针对数据不充分如小型数据集时,神经网络参数训练拟合不足,无法提取出有效特征进行工作,使分类结果准确性严重下降。
发明内容
本发明的目的在于提供一种基于多特征融合加权的微博文本立场检测方法,其为一种可以合理化词频影响、突出较高类别区分度特征词、可解释性好的基于多特征融合加权的微博文本立场检测方法,该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于多特征融合加权的微博文本立场检测方法,包含:
S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;
S2、对步骤S1中的数据集中的评论文本进行预处理操作;
S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x),提取每个评论文本的特征词;
S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;
S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。
可选的,所述步骤S3中,根据词语权重公式计算每个评论文本的词语的重要性standard(x)。
可选的,所述步骤S3中的词语权重公式的构造方式包含:
S31、统计数据集中各词语词频,使用对数函数对词频值进行映射,通过公式(1)合理化词频对特征词提取时的影响,
其中,word frequence(x)函数表示在对词语x的绝对词频采用对数函数降频后的词频值,d表示总文本数,ki表示词语x在评论文本i中的词频;
S32、根据公式(2)计算词语在不同类间的平均信息熵entropy(x),
其中,entropy(x)表示词语x的类间平均信息熵,C取类别数,pi(x)表示词语x出现在某一类别的概率,
根据公式(3)由平均信息熵entropy(x)转换为权重加权值importance(x),
importance(x)=1-entropy(x) (3);
S33、根据公式(4)对词语的词长权重length(x)做出修正,
length(x)=true_lengthx/α (4),
其中,true_lengthx表示词语的实际长度,α表示当前数据集下词长种类的中位数;
S34、根据公式(5)构造词语的词频特征frequence(x),
其中,N表示总评论文本数,Nx表示包含词语x的评论文本数;
S35、结合步骤S31~S34构造特征提取的词语权重公式,所述词语权重公式为:
standard(x)=frequence(x)*importance(x)+length(x) (6)。
可选的,所述步骤S3中,提取评论文本的特征词具体为:
S36、对数据集中的评论文本的各词语按照其重要性standard(x)排序,选取前m个词语构成特征词库;
S37、将数据集中的每条评论文本与所述特征词库比对,筛选出所述评论文本中所含的特征词。
可选的,所述步骤S1具体为:
根据目标话题,利用Python相应爬虫库爬取相应话题下的大众评论内容。
可选的,所述步骤S2中所述预处理操作包含:
对评论文本进行去停用词、去特殊符号、繁简转换、分词操作,使文本数据转化为由词语构成的纯文本格式进行存储。
可选的,所述步骤S4中,
采用外部情感词典识别情感词,具体为采用所述情感词典比对评论文本提取出情感词。
可选的,所述情感词典为大连理工大学的中文情感词汇库。
可选的,采用word2vec对所述原文本进行词向量映射。
可选的,所述步骤S5中,
对步骤S4所得的数据进行数据平衡,将其进行数据集划分,按照预设比例分为训练集和测试集;
将所述训练集和所述测试集输入SVM分类器,进行模型训练、保存和评估。
本发明与现有技术相比具有以下优点:
本发明的一种基于多特征融合加权的微博文本立场检测方法,通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度;
进一步的,该方法考虑词语的类间平均信息熵作为加权特征,将高区分度词语提取出来;另外,其采用数据集词长分布来修正词长特征,使用词长特征合理加权;
进一步的,该方法统计各词项词频,使用对数函数对词频值进行映射,合理调整词频对分类的影响,克服了过高或过低词频在选取特征词时的不利影响;
进一步的,该方法计算词项在不同类间的平均信息熵,根据此项属性筛选出的特征词项具有更高的类间区分特性,有更高的类别区分度;
进一步的,该方法添加修正的词长特征,综合考量了整个数据集词项长度分布特性而不是单一词长影响,可以有效提升对立场检测有较高贡献的低频词被选为特征词的可能性,合理的增大了长词的权重。
附图说明
图1为本发明的一种基于多特征融合加权的微博文本立场检测方法示意图;
图2为本发明的多特征融合加权的特征词提取方法流程示意图。
具体实施方式
以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
需要说明的是,以下实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
如图1所示,为本发明的一种基于多特征融合加权的微博文本立场检测方法,该方法主要是对微博话题下用户评论的观点进行提取,根据本方法构造出的关键词权重公式得到关键词库,进而利用关键词库提取文本中的关键词判断评论的观点情感倾向。
具体地,基于多特征融合加权的微博文本立场检测方法包含:
S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中。
在本实施例中,所述步骤S1具体为:选择NLPCC2016话题公开数据集作为数据样本,同时从微博话题专栏中根据目标话题爬取不同评论文本做以补充,并对数据做立场倾向的标签标注。具体地,可利用Python相应爬虫库爬取相应话题下的大众评论内容。本实施例中的目标话题为“春节放鞭炮”,数据样例如表1所示:
表1
其中,None、Favor、Against分别为立场倾向的标签,表示中立、支持、反对。
S2、对步骤S1中的数据集中的评论文本进行预处理操作。
所述预处理操作包含:对评论文本进行去停用词、去特殊符号、繁简转换、分词操作,使文本数据转化为由词语构成的纯文本格式进行存储。
在本实施例中,所述步骤S2具体为:将长度小于4的评论文本删除;数据去重,去除评论文本中重复的数据;中文繁体处理,将数据集中繁体文本全部转化为中文简体文本;自定义用户字典,将某些专有名词或动名词作为一个整体加入用户自定义字典;去停用词、特殊符号;分词,数据集中评论文本采用jieba分词完成句子的分词工作。如表2所示,为一实施例中采用步骤S2所得数据:
表2
S3、如图2所示,根据词语权重公式计算步骤S2中所得的每个评论文本中各词语的重要性standard(x),提取每个评论文本的特征词。
所述词语权重公式的构造方式即多特征融合包含:
S31、统计数据集中各词语词频,使用对数函数对词频值进行映射,通过公式(1)合理化词频对特征词提取时的影响,
其中,word frequence(x)函数表示在对词语x的绝对词频采用对数函数log(x)降频后的词频值,d表示总文本数,ki表示词语x在评论文本i中的词频。
在本实施例中,通过log2(x)公式合理化词频对特征词提取时的影响,例如词语“文化”,统计绝对词频为32,降低词频后的值为5.04439。
S32、计算词语在不同类间的平均信息熵。熵在信息论中表示对不确定性的数字度量,如果一个词在类A中分布较高,在类B中分布较低,那么平均信息熵就会很小,区分度相应较高。具体地,根据公式(2)计算词语在不同类间的平均信息熵entropy(x),
其中,entropy(x)表示词语x的类间平均信息熵,C取类别数,pi(x)表示词语x出现在某一类别的概率,
根据公式(3)由平均信息熵entropy(x)转换为权重加权值importance(x),
importance(x)=1-entropy(x) (3)。
当词语在各类中分布的越均衡,词语x的类间平均信息熵entropy(x)值相应就越大,表明词区分能力越弱,可得到词语类间区分度属性所带来的权重值importance(x)越小;反之,当词语在某一类中出现次数较多,在其他类中出现次数相对较少,那么entropy(x)值相应就越小,表明词的类间区分能力较强,权重加权值importance(x)较大。通过上述方法得到的权重加权值importance(x)使特征词在挑选时考虑了更强的类别间区分特性。
利用本方法构造的类间平均信息熵公式计算词语在类别区分度方面携带的信息量。熵在信息论中表示对不确定性的数字度量,如果一个词在类A中分布较高,在类B中分布较低,那么平均信息熵就会很小,区分度相应较高。经计算,在本实施例中,词语“文化”所携带的类间平均信息熵值为0.0167036。
S33、因分词自身的局限性以及评论语言的不确定性和自由性,词频为1的词语占了绝大部分,因此,为了突出某些低频长词的重要性,同时也不影响高频词具有重要含义的一般规律,根据公式(4)对词语的词长权重length(x)做出修正:
length(x)=true_lengthx/α (4),
其中,true_lengthx表示词语的实际长度,α表示当前数据集下词长种类的中位数。
具体实施时,统计当前数据集词长分布得出“春节放鞭炮话题集”词长分布的中位数为2,因此对于词语“文化”在词长部分所带来的权重加权为weight=2/2,即1。
S34、根据公式(5)构造词语的词频特征frequence(x),
其中,N表示总评论文本数,Nx表示包含词语x的评论文本数。frequence(x)由两部分构成,皆采用修正后的词频,第一部分使用词频值,第二部分融入了所有文档的条数与含有某词的文档条数的比值的对数,对词频影响稍作了修正。
具体实施时,对词频特征计算融入idf值,根据本步骤构造的公式计算得到“文化”一词在词频属性方面最终的加权权重为13.90362。
S35、结合步骤S31~S34构造特征提取的词语权重公式,所述词语权重公式为:
standard(x)=frequence(x)*importance(x)+length(x) (6)。
根据上式,词语x的权重值即重要性standard(x)计算由三部分组成,权重大小就表示了词语x携带了多少对最终立场检测分类有效的信息。
在本实施例中,综合以上词频加权、类间平均信息熵加权、词长加权三部分融合,得到“文化”一词最终权重所表现出来的信息携带量即重要性为14.67138。
所述步骤S3中,提取评论文本的特征词具体为:
S36、对数据集中评论文本的词语按照其重要性standard(x)排序,选取前m个词语构成特征词库。
具体地,计算出所有词语权重所表现出来的信息携带量即重要性standard(x),根据权重大小降序排列选出前300个词作为当前数据集关键词构成特征词库,如下表3(此处只展示前50个)所示:
表3
S37、将数据集中的每条评论文本与所述特征词库比对,筛选出所述评论文本中所含的特征词。
S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,采用word2vec对所述原文本进行词向量映射。
具体地,所述步骤S4中,采用外部情感词典识别情感词,具体为采用所述情感词典比对评论文本提取出情感词。可选的,所述情感词典为大连理工大学的中文情感词汇库,其包含正负情感词语和正负评价词语,使用时,可删掉一些与话题评论情感无关的词语,形成具有话题文本特色的情感词典。
根据情感词典筛选出原文本数据中包含的情感词,拼接原文本数据中包含的关键词即特征词,例如原文本由“个人看法,放鞭炮本是春节重要的文化传统之一,有着重要的文化意义,环境保护指望鞭炮改善,多少年后的传统何去何从?”转化为['文化','重要','意义','环境','保护','指望','何去何从','传统','改善']。
在本实施例中,使用word2vec训练文本向量表示模型,完成词嵌入表示,具体地,词向量维度设置为300,加载文本词向量集,对于评论文本分词后的每个词,通过索引的方式得到它的词向量,对于未出现词(未出现词即为训练集中未出现的词)使用np.random.uniform()函数得到一个均匀分布的向量。
S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。
具体地,所述步骤S5中,对步骤S4所得的数据进行数据平衡,将其进行数据集划分,按照预设比例分为训练集和测试集。
分类数据各类样本可能出现不均衡的现象,这对分类的整体准确性有很大的影响。在本实施例中,采用np.random()方法将数据集打乱,继而采用sklearn中的train_test_split()函数进行数据集划分,打乱数据集按8:2比例划分为训练集与测试集。
进一步的,将数据集中的评论文本表示向量输入SVM分类模型,进行模型训练、保存与评估。即,将所述训练集和所述测试集输入SVM分类器,进行模型训练、保存和评估。
综上所述,本发明的一种基于多特征融合加权的微博文本立场检测方法,为一种可以合理化词频影响、突出较高类别区分度特征词、可解释性好的基于多特征融合加权的微博文本立场检测方法,该方法通过考虑多个方面的属性特征计算词语的权重,筛选出具有更强意义的特征词,从而提高情感立场倾向检测的准确性,提高对大众舆情事件的响应速度。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于多特征融合加权的微博文本立场检测方法,其特征在于,包含:
S1、根据指定话题采集相应话题下的所有评论文本,将所有评论文本汇聚于数据集中;
S2、对步骤S1中的数据集中的评论文本进行预处理操作;
S3、计算步骤S2中所得的每个评论文本的词语的重要性standard(x),提取每个评论文本的特征词;
S4、提取每个评论文本中的情感词,将所述情感词与步骤S3中的特征词共同作为原文本,对所述原文本进行词向量映射;
S5、将步骤S4所得的数据输入SVM分类器以判断目标文本情感极性倾向。
2.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,
所述步骤S3中,根据词语权重公式计算每个评论文本的词语的重要性standard(x)。
3.如权利要求2所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S3中的词语权重公式的构造方式包含:
S31、统计数据集中各词语词频,使用对数函数对词频值进行映射,通过公式(1)合理化词频对特征词提取时的影响,
其中,word frequence(x)函数表示在对词语x的绝对词频采用对数函数降频后的词频值,d表示总文本数,ki表示词语x在评论文本i中的词频;
S32、根据公式(2)计算词语在不同类间的平均信息熵entropy(x),
其中,entropy(x)表示词语x的类间平均信息熵,C取类别数,pi(x)表示词语x出现在某一类别的概率,
根据公式(3)由平均信息熵entropy(x)转换为权重加权值importance(x),
importance(x)=1-entropy(x) (3);
S33、根据公式(4)对词语的词长权重length(x)做出修正,
length(x)=true_lengthx/α (4),
其中,true_lengthx表示词语的实际长度,α表示当前数据集下词长种类的中位数;
S34、根据公式(5)构造词语的词频特征frequence(x),
其中,N表示总评论文本数,Nx表示包含词语x的评论文本数;
S35、结合步骤S31~S34构造特征提取的词语权重公式,所述词语权重公式为:
standard(x)=frequence(x)*importance(x)+length(x) (6)。
4.如权利要求3所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S3中,提取评论文本的特征词具体为:
S36、对数据集中的评论文本的各词语按照其重要性standard(x)排序,选取前m个词语构成特征词库;
S37、将数据集中的每条评论文本与所述特征词库比对,筛选出所述评论文本中所含的特征词。
5.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S1具体为:
根据目标话题,利用Python相应爬虫库爬取相应话题下的大众评论内容。
6.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S2中所述预处理操作包含:
对评论文本进行去停用词、去特殊符号、繁简转换、分词操作,使文本数据转化为由词语构成的纯文本格式进行存储。
7.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S4中,
采用外部情感词典识别情感词,具体为采用所述情感词典比对评论文本提取出情感词。
8.如权利要求7所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,
所述情感词典为大连理工大学的中文情感词汇库。
9.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,
采用word2vec对所述原文本进行词向量映射。
10.如权利要求1所述的基于多特征融合加权的微博文本立场检测方法,其特征在于,所述步骤S5中,
对步骤S4所得的数据进行数据平衡,将其进行数据集划分,按照预设比例分为训练集和测试集;
将所述训练集和所述测试集输入SVM分类器,进行模型训练、保存和评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078456.1A CN112214991B (zh) | 2020-10-10 | 2020-10-10 | 一种基于多特征融合加权的微博文本立场检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078456.1A CN112214991B (zh) | 2020-10-10 | 2020-10-10 | 一种基于多特征融合加权的微博文本立场检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112214991A true CN112214991A (zh) | 2021-01-12 |
CN112214991B CN112214991B (zh) | 2024-05-14 |
Family
ID=74053079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011078456.1A Active CN112214991B (zh) | 2020-10-10 | 2020-10-10 | 一种基于多特征融合加权的微博文本立场检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112214991B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800233A (zh) * | 2021-04-13 | 2021-05-14 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN116226677A (zh) * | 2023-05-09 | 2023-06-06 | 北京搜狐新媒体信息技术有限公司 | 平行语料构建方法及装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899230A (zh) * | 2014-03-07 | 2015-09-09 | 上海市玻森数据科技有限公司 | 舆情热点自动监测系统 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109584094A (zh) * | 2018-11-23 | 2019-04-05 | 中国运载火箭技术研究院 | 一种人际路径快速定位系统、方法及介质 |
CN110297986A (zh) * | 2019-06-21 | 2019-10-01 | 山东科技大学 | 一种微博热点话题的情感倾向分析方法 |
KR20190135129A (ko) * | 2018-05-28 | 2019-12-06 | 인천대학교 산학협력단 | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 |
-
2020
- 2020-10-10 CN CN202011078456.1A patent/CN112214991B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899230A (zh) * | 2014-03-07 | 2015-09-09 | 上海市玻森数据科技有限公司 | 舆情热点自动监测系统 |
CN107943800A (zh) * | 2016-10-09 | 2018-04-20 | 郑州大学 | 一种微博话题舆情计算与分析的方法 |
KR20190135129A (ko) * | 2018-05-28 | 2019-12-06 | 인천대학교 산학협력단 | 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109584094A (zh) * | 2018-11-23 | 2019-04-05 | 中国运载火箭技术研究院 | 一种人际路径快速定位系统、方法及介质 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN110297986A (zh) * | 2019-06-21 | 2019-10-01 | 山东科技大学 | 一种微博热点话题的情感倾向分析方法 |
Non-Patent Citations (2)
Title |
---|
ALEJANDRO MOREO等: "learning to weight for text classification", pages 1 - 16, Retrieved from the Internet <URL:https://arvix.org/abs/1903.12090> * |
郑海洋等: "基于词向量技术与主题词特征的微博立场检测", 《计算机系统应用》, vol. 27, no. 9, pages 118 - 123 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113239685B (zh) * | 2021-01-13 | 2023-10-31 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN112800233A (zh) * | 2021-04-13 | 2021-05-14 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN112800233B (zh) * | 2021-04-13 | 2021-06-18 | 成都数联铭品科技有限公司 | 一种文本立场检测方法 |
CN113378576A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN113378576B (zh) * | 2021-05-08 | 2023-05-26 | 重庆航天信息有限公司 | 食品安全数据挖掘方法 |
CN116226677A (zh) * | 2023-05-09 | 2023-06-06 | 北京搜狐新媒体信息技术有限公司 | 平行语料构建方法及装置、存储介质及电子设备 |
CN116226677B (zh) * | 2023-05-09 | 2023-07-14 | 北京搜狐新媒体信息技术有限公司 | 平行语料构建方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112214991B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959270B (zh) | 一种基于深度学习的实体链接方法 | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
CN105138511B (zh) | 一种对搜索关键词进行语义分析的方法和系统 | |
CN107220295B (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN107463658B (zh) | 文本分类方法及装置 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110750995A (zh) | 一种基于自定义图谱的文件管理方法 | |
CN110134792A (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN112069326B (zh) | 知识图谱的构建方法、装置、电子设备及存储介质 | |
CN105868347A (zh) | 一种基于多步聚类的重名消歧方法 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN105354184B (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN110196910A (zh) | 一种语料分类的方法及装置 | |
CN108733652A (zh) | 基于机器学习的影评情感倾向性分析的测试方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |