CN111831824A - 一种舆情正负面分类方法 - Google Patents
一种舆情正负面分类方法 Download PDFInfo
- Publication number
- CN111831824A CN111831824A CN202010687019.3A CN202010687019A CN111831824A CN 111831824 A CN111831824 A CN 111831824A CN 202010687019 A CN202010687019 A CN 202010687019A CN 111831824 A CN111831824 A CN 111831824A
- Authority
- CN
- China
- Prior art keywords
- negative
- emotion
- public
- positive
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 133
- 238000012937 correction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种舆情正负面分类方法,属于信息安全技术领域。该方法包括:目标领域舆情数据采集及预处理,所述舆情数据包括多篇舆情文章;基于BosonNLP情感词典构建目标领域情感词典;通过目标领域情感词典获得舆情文章情感倾向性得分,据此判定正负面舆情文章;利用判定为负面舆情文章的舆情数据构建纠正错分模型;利用纠正错分模型对舆情数据进行正负面分类。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种舆情正负面分类方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
随着互联网的快速发展,网络媒体作为一种新的信息传播形式。网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。
舆情分析属于文本分类的一种。目前舆情分析主要是通过获取网络上的新闻、社交媒体评论等语料,对其进行正负面分类。一般有两种方式:基于情感词典的舆情分类,基于机器学习的舆情分类。
基于情感词典的舆情分类主要是通过把待分类的语料进行分词,去除停用词后,与情感词典中的正负面词语、否定词语进行比对汇总后,根据最后得分判定正负面。目前公开的情感词典有知网Hownet、清华大学——李军中文褒贬义词典、台湾大学NTUSD情感词典、玻森自然语言处理(BosonNLP)情感词典等。
基于机器学习的舆情分类主要是根据大量已经标记好正负面的语料,提取特征向量,进行训练,获得舆情分类模型。然后根据此模型对需要分析的语料进行预测,最终得到舆情的正负面信息。
舆情语料多为中性、正面信息,负面舆情极少,数据存在严重的偏分布情况。通过对某金融公司半年内的舆情分析,发现中性舆情占比36.5%、正面舆情占比 62.7%,而负面舆情只占比0.8%。由于数据的分布不均衡在分类过程中容易出现错分情况,而负面舆情往往是企业比较关注的,需要进行预警,所以区分出准确的负面舆情就更为重要。基于情感词典的方法比较简单,但对词典的要求比较高,模型的泛化能力较弱。对于词典中未覆盖到的文本信息不能准确识别,容易发生错分、漏分的情况,分类效果非常依赖语法规则与所用的情感词典。因而构建针对金融领域的情感词典,就可以更准确的区分舆论情况。运用机器学习对舆情分类需要大量人工标注好的正负面语料,很难收集到匹配的语料库,这样就需要耗费大量人工去打标签。且情感词汇前的否定词要仔细提取,注意双重否定的情况。另外,汉语言的复杂性、语境问题也使得分类结果会产生较大偏差。
发明内容
针对现有技术的不足,为了更准确的判定针对金融方向的舆论情况,本文提出了一种舆情正负面分类方法。通过构建针对目标领域的情感词典、添加双重否定词语提炼方式、结合情感词典与机器学习训练两种方式进行舆情分析,尤其注重对负面舆情的分类,进一步提升了舆情分类的准确度。
根据本发明的第一方面,涉及一种舆情正负面分类方法,所述方法包括:
步骤1:目标领域舆情数据采集及预处理,所述舆情数据包括多篇舆情文章;
步骤2:构建目标领域情感词典;
步骤3:通过目标领域情感词典获得舆情文章情感倾向性得分,据此判定正负面舆情文章;
步骤4:利用判定为负面舆情文章的舆情数据构建纠正错分模型;
步骤5:利用纠正错分模型对舆情数据进行正负面分类。
进一步的,所述步骤1具体包括:
步骤11:爬取目标领域舆情数据;
步骤12:去除标题和URL相同的舆情数据;
步骤13:去除内容相似度高的舆情数据。
进一步的,所述目标领域为金融领域。
进一步的,所述步骤12中,通过对目标领域舆情数据的标题、URL进行md5 压缩编码,去除相同的舆情数据。
进一步的,步骤13中,通过计算舆情数据内容的SIM哈希(simhash)值,并计算彼此的编辑距离,去除内容相似度高的舆情数据。
进一步的,所述步骤2具体包括:
步骤21:下载公开的玻森自然语言处理(BosonNLP)情感词典,统计词典中的情感词汇数,计算情感词汇正负面权重的最大最小值、均值;
步骤22:针对目标领域舆情数据进行分词,去除停用词,去重后获得目标领域舆情数据词库;
步骤23:统计目标领域舆情数据词库中未在BosonNLP情感词典中出现的情感词汇,标记为预添加情感词汇库;
步骤24:标记预添加情感词汇库中情感词汇的正负面,包括:中性词、一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇;
步骤25:将一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇加入至BosonNLP情感词典,一级词汇赋二倍权重平均值,二级词汇赋权重平均值,由此构建目标领域情感词典。
进一步的,所述步骤3具体包括:
步骤31:针对目标领域舆情数据的舆情文章进行分词,去除停用词,获取文章情感词汇列表;
步骤32:遍历文章情感词汇列表,依据出现的情感词汇从目标领域情感词典中取出对应的情感强度,记为得分值,文章词汇列表中每一个情感词汇得分值累加后得到文章情感倾向性得分;
步骤33:根据文章情感倾向性得分的正负性来判定舆情文章正负类,得分为正则为正面舆情,反之为负面舆情;
步骤34:标记分为负面舆情的舆情数据的真负、假负。
进一步的,步骤32中,如果情感词汇前出现程度词,则分值在原有基础上乘以程度词强度值;如果情感词汇前出现否定词,则分值在原有基础上取反,若前面仍为否定词,否定词作用累加。
进一步的,步骤32中,文章情感倾向性得分计算公式如下:
其中,Sa为文章情感倾向性得分,k为情感词汇前否定词的个数,Slj为程度副词的权重,Ssi为第i个情感词汇的正负面得分。
进一步的,所述步骤4具体包括:
步骤41:把所有判定为负面舆情的舆情数据作为数据集;
步骤42:针对目标领域舆情数据的舆情文章进行分词,去除停用词,获取文章情感词汇列表;
步骤43:利用文本转词向量(Word2Vec)训练得到文本转词向量模型(word2vec.model);
步骤44:把文章情感词汇列表通过所述文本转词向量模型转成20-500维的词向量,即特征向量;
步骤45:利用极端梯度提升(xgboost)方法进行训练,得到纠正错分模型;
步骤46:通过纠正错分模型,利用测试集进行测试。
进一步的,所述数据集中,70%为训练集,20%为验证集,10%为测试集。
根据本发明的第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据以上任一方面所述方法的步骤。
根据本发明的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据任一方面所述方法的步骤。
本发明的有益效果:
(1)通过构建针对目标领域的情感词典,提升了词典的文本信息覆盖率,能够更准确的识别,减少发生错分、漏分的情况,提高分类效果,使得舆情分类准备率得到了提升。
(2)通过添加双重否定词语提炼方式,减少了只识别到单一否定情况下造成的词语正负面的判断失误问题,使得整篇文章的舆情判断更加精准,提升了分类效果。
(3)通过结合情感词典与机器学习训练两种方式进行舆情分析,尤其注重对负面舆情的分类,减少了数据分布不均衡的情况下分类过程中易出现错分的情况,提升了企业比较关注的负面舆情的识别准确性。真负率得到提升,无需再进行预警前的人工纠错,节省了人力成本。
附图说明
图1示出根据本发明实施例的整体系统结构图;
图2示出根据本发明实施例构建金融情感词典流程图;
图3示出根据本发明实施例通过情感词典对新闻进行舆情分类流程图;
图4示出根据本发明实施例通过机器学习纠正错分流程图流程图;
图5示出根据本发明实施例爬取的金融新闻数据示意图;
图6示出根据本发明实施例的BosonNLP_sentiment_score词典;
图7示出根据本发明实施例的补充金融情感词典;
图8示出根据本发明实施例的否定词词典;
图9示出根据本发明实施例的程度词词典。
具体实施方式
本发明开发了一种针对金融新闻进行舆情分析的方法。通过从简单到复杂设计模型的方式,保证模型的多样化。根据金融新闻构造情感词典,再利用机器学习对分类结果进行纠正,进一步提升检测的准确率,下面将参照附图更详细地描述本公开的示例性实施例。
为了实现上述发明目的,本发明采用的技术方案如下:
本方案主要有5个模块(如下):数据采集及预处理、构建情感词典、利用情感词典进行舆情分类、通过机器学习纠正错分、实际使用流程。
步骤一:数据采集及预处理。从各种主流财经新闻平台爬取金融方向新闻,对标题、URL、内容进行去重处理。
101从主流财经新闻平台爬取金融方向新闻。
102对对标题、URL进行md5压缩编码,去除相同的新闻。
103计算内容的simhash值,并计算彼此的编辑距离,去除重复的相似度高的新闻。
步骤二:构建金融情感词典。利用公开的BosonNLP情感词典,并加入通过自己从财经新闻语料中获得关键词,构建新的情感词典。
201下载公开的BosonNLP情感词典,统计词典中的词汇数,计算词汇正负面权重的最大最小值、均值。
202对爬取的财经新闻通过jieba进行分词,去除停用词,去重后获得新闻词库。
203统计获取刚生成的新闻词库中未在BosonNLP情感词典中出现的词汇,标记为预添加词汇库。
204人工标记预添加词汇库中词语的正负面,中性词、一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇。
205把预添加词汇库中的积极/消极词汇加入至原有的BosonNLP情感词典,一级词汇赋二倍权重平均值,二级词汇赋权重平均值。构建新的金融情感词典。
步骤三:通过情感词典对新闻进行舆情分类。加入金融行业词汇,以增加分类中的命中率。不同行业某些词语的词频会有比较大的差别,而这些词有可能是情感分类的关键词之一。根据构建的金融情感词典,及下载的否定词词典、程度副词词典,计算文章情感分值,判定文章舆情正负面。其中,否定词和程度副词会有特殊的判别规则,否定词会导致权值反号,而程度副词则让权值加倍。
301对文章进行jieba分词,并去除停用词,获取文章词汇列表。
302遍历文章词汇列表,依据出现的词汇从情感词典中取出情感强度,记为得分值;如果情感词前出现程度词,则分值在原有基础上乘以程度词强度值;如果情感词前出现否定词,则分值在原有基础上取反,若前面仍为否定词,否定词作用可累加;词汇组中每一个词汇得分值累加后得到文章情感倾向性得分。文章情感倾向性得分计算公式如下:
其中,Sa为文章情感倾向性得分,k为情感词汇前否定词的个数,Slj为程度副词的权重,Ssi为第i个情感词汇的正负面得分。
在BosonNLP情感词典中,包括情感词及其对应的情感分值(情感强度),以空格分隔。其中负数代表偏负面的词语,非负数代表偏正面的词语,正负的程度可以由数值的大小反应出。如:“最尼玛-6.70400012637”,是负面,强度为6.7。
同时,程度词词典中标记了程度词强度值,如:“百分之百,2”,即程度值为2。
303根据文章情感倾向性得分的正负性来判断文章舆情正负类,得分为正则为正面舆情,反之为负面舆情。
304人工标记分为负面舆情语料的真负、假负。计算真负率:
步骤四:通过机器学习纠正错分。
401把所有判定为负面舆情的新闻作为数据集,其中70%为训练集,20%为验证集,10%为测试集。
402对语料进行jieba分词,并去除停用词,获取文章词汇列表。
403通过把爬取的大量财经新闻分词去停用词后,利用Word2Vec训练得到文本转词向量模型word2vec.model。
404把文章词汇列表通过模型word2vec.model转成300维的词向量,即特征向量。
405利用xgboost进行训练,得到纠正正负面舆情错分的模型。
406通过纠正舆情错分的模型,利用测试集进行测试,即可提升真负率。
步骤五:实际使用模块
501对语料进行分词,去停用词。
502通过构建的情感词典模型判定舆情正负面。
503对初筛的负面新闻,通过xgboost构造的纠正舆情错分的模型近一步预测,最终得到舆情的正负面。
实施例
本发明的整体结构图如图1所示。
本发明公开的一种针对金融领域的舆情分析方法包括以下步骤:
首先从各大金融网站上爬取大量的财经新闻,并对数据进行清洗和预处理,包活一下处理方案:
对标题、URL进行md5压缩编码,去除相同的新闻;
计算内容的simhash值,并计算彼此的编辑距离,去除重复的相似度高的新闻;
将连续多个空格替换成逗号;
删除格式异常的特殊符号;
然后采用无监督情感分类方式,即利用爬取的金融新闻对现有的情感词典进行补充,构建更符合金融舆情分析的情感辞典,来对文本进行情感分析。构建金融情感词典流程图如图2所示。筛选出不在BosonNLP情感词典中存在的关键词,人工判断剩余词的正负面,把带有正负面词性的词语加入语料库。且在添加词语时,对情感词进行分级处理,赋予不同的权重。这样就可以既简洁又有针对性的合成情感词典。实施步骤如下:
对爬取的财经新闻通过jieba进行分词;
过滤掉停用词,如标点符号,特殊动词,特殊名词等,构成新的语料库;
筛选出未在BosonNLP情感词典中出现的词语,作为预情感词库;
人工识别词库中词语是否为情感词,分别用两个级别标记真负面词语。情感强烈的词为一级,轻度的情感词为二级;
把筛选出的情感词汇与BosonNLP情感词典中进行结合,组成新的金融领域的情感辞典。一级情感词情感值为二倍的BosonNLP情感词典正/负平均值,二级的情感词情感值为BosonNLP情感词典正/负平均值。
接下来利用情感词典进行舆情分类,即计算情感得分,流程图见图3。在计算时,建设性的考虑到双重否定问题,如:“不得不佩服”,实际为正,负负得正的情况。对情感词前出现的2个词语进行分析,确保分类的正确性。具体实施步骤如下:
获取分词并去除停用词后的语料库;
设置初始舆情分值为0;
从第一个词开始遍历词库;
根据情感词典,判断词语是否为情感词;
若不是情感词,就接着遍历判断下面的词。
若为情感词就需要判断前面一词是否是程度词,若是程度词,该词段的得分就是情感词分值*前一程度词权重。若前面一个词也是程度词,该词段的得分就是情感词分值*前一程度词权重*前二程度词权重;
若为情感词还需要判断前面一词是否是否定词,若是否定词,还需要判断是否为双重否定,即判断再前面的一个词是否也是否定词。若只有一个否定词,该词段的得分就是情感词分值*(-1)。若为双重否定,该词段的得分就是该情感词分值;
情感得分的总分就是每段情感得分的总和;
情感总得分为正,即认为是正面舆情,为负,即认为是负面舆情。
因为语料是财经新闻,文章很长,语句过多,相互交织。利用情感辞典进行分类后,还会存在一些错分情况。所有就需要对结果进一步分类,流程图见图4。对判定为负面的语料进行分析判定出真负、假负,以减少错分率。具体实施步骤如下:
人工标记分为负面舆情语料的真负、假负,其中70%作为训练集,20%为验证集,10%为测试集。
利用Word2Vec训练大量分词去停用词后财经新闻语料,获得文本转词向量模型word2vec.model,词向量设置为300维;
把数据集通过word2vec.model模型转成词向量,作为特征向量;
通过有监督学习,即利用xgboost训练带标签的数据特征,获得舆情纠错模型。
至此,本发明的一种针对金融领域的舆情分析模型就完成了。
实际使用模型进行舆情分类时的步骤如下:
对语料进行分词,去停用词;
通过构建的情感词典模型判定舆情正负面;
对初筛的负面新闻,通过xgboost构造的纠正舆情错分的模型近一步预测。最终得到舆情的正负面。
通过添加过自建针对金融领域的情感词典,在使用情感词典进行分类中添加双重否定词语提炼方式后,分类效果提升了8.2%。一些金融领域的情感词可以被提取出来了,通过双重否定把一些错分成负面新闻的语料,正确的分类出来。通过结合情感词典与机器学习训练两种方式进行舆情分析,真负率提升了15%,无需再进行预警前的人工纠错,节省了人力成本。
Claims (10)
1.一种舆情正负面分类方法,其特征在于,所述方法包括:
步骤1:目标领域舆情数据采集及预处理,所述舆情数据包括多篇舆情文章;
步骤2:构建目标领域情感词典;
步骤3:通过目标领域情感词典获得舆情文章情感倾向性得分,据此判定正负面舆情文章;
步骤4:利用判定为负面舆情文章的舆情数据构建纠正错分模型;
步骤5:利用纠正错分模型对舆情数据进行正负面分类。
2.根据权利要求1所述的舆情正负面分类方法,其特征在于,所述步骤1具体包括:
步骤11:爬取目标领域舆情数据;
步骤12:去除标题和URL相同的舆情数据;
步骤13:去除内容相似度高的舆情数据。
3.根据权利要求2所述的舆情正负面分类方法,其特征在于,所述步骤12中,通过对目标领域舆情数据的标题、URL进行md5压缩编码,去除相同的舆情数据;步骤13中,通过计算舆情数据内容的SIM哈希值,并计算彼此的编辑距离,去除内容相似度高的舆情数据。
4.根据权利要求1所述的舆情正负面分类方法,其特征在于,所述步骤2具体包括:
步骤21:下载公开的玻森自然语言处理情感词典,统计词典中的情感词汇数,计算情感词汇正负面权重的最大最小值、均值;
步骤22:针对目标领域舆情数据进行分词,去除停用词,去重后获得目标领域舆情数据词库;
步骤23:统计目标领域舆情数据词库中未在玻森自然语言处理情感词典中出现的情感词汇,标记为预添加情感词汇库;
步骤24:标记预添加情感词汇库中情感词汇的正负面,包括:中性词、一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇;
步骤25:将一级积极词汇、二级积极词汇、一级消极词汇、二级消极词汇加入至玻森自然语言处理情感词典,一级词汇赋二倍权重平均值,二级词汇赋权重平均值,由此构建目标领域情感词典。
5.根据权利要求1所述的舆情正负面分类方法,其特征在于,所述步骤3具体包括:
步骤31:针对目标领域舆情数据的舆情文章进行分词,去除停用词,获取文章情感词汇列表;
步骤32:遍历文章情感词汇列表,依据出现的情感词汇从目标领域情感词典中取出对应的情感强度,记为得分值,文章词汇列表中每一个情感词汇得分值累加后得到文章情感倾向性得分;
步骤33:根据文章情感倾向性得分的正负性来判定舆情文章正负类,得分为正则为正面舆情,反之为负面舆情;
步骤34:标记分为负面舆情的舆情数据的真负、假负。
6.根据权利要求5所述的舆情正负面分类方法,其特征在于,步骤32中,如果情感词汇前出现程度词,则分值在原有基础上乘以程度词强度值;如果情感词汇前出现否定词,则分值在原有基础上取反,若前面仍为否定词,否定词作用累加。
8.根据权利要求1所述的舆情正负面分类方法,其特征在于,所述步骤4具体包括:
步骤41:把所有判定为负面舆情的舆情数据作为数据集;
步骤42:针对目标领域舆情数据的舆情文章进行分词,去除停用词,获取文章情感词汇列表;
步骤43:利用文本转词向量训练得到文本转词向量模型;
步骤44:把文章情感词汇列表通过所述文本转词向量模型转成20-500维的词向量,即特征向量;
步骤45:利用极端梯度提升方法进行训练,得到纠正错分模型;
步骤46:通过纠正错分模型,利用测试集进行测试。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-8中任一项所述的舆情正负面分类方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1-8中任一项所述的舆情正负面分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687019.3A CN111831824B (zh) | 2020-07-16 | 2020-07-16 | 一种舆情正负面分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687019.3A CN111831824B (zh) | 2020-07-16 | 2020-07-16 | 一种舆情正负面分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111831824A true CN111831824A (zh) | 2020-10-27 |
CN111831824B CN111831824B (zh) | 2024-02-09 |
Family
ID=72924208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010687019.3A Active CN111831824B (zh) | 2020-07-16 | 2020-07-16 | 一种舆情正负面分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831824B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231483A (zh) * | 2020-11-06 | 2021-01-15 | 中国水利水电科学研究院 | 灾情追踪方法、系统、设备和存储介质 |
CN112380341A (zh) * | 2020-11-09 | 2021-02-19 | 恒瑞通(福建)信息技术有限公司 | 一种基于行政服务中心的舆情分析方法及终端 |
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113378578A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食药舆情分析方法 |
CN113515626A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 一种确定舆论类别的方法、装置及设备 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113609842A (zh) * | 2021-08-17 | 2021-11-05 | 四川轻化工大学 | 一种获取景区评论数据、旅行体验评价的方法 |
CN113642881A (zh) * | 2021-08-09 | 2021-11-12 | 平安国际智慧城市科技股份有限公司 | 舆情数据的风险识别方法、装置、计算机设备及存储介质 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN109933656A (zh) * | 2019-03-15 | 2019-06-25 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110727758A (zh) * | 2018-06-28 | 2020-01-24 | 中国科学院声学研究所 | 一种基于多长度文本向量拼接的舆情分析方法及其系统 |
-
2020
- 2020-07-16 CN CN202010687019.3A patent/CN111831824B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815369A (zh) * | 2017-01-24 | 2017-06-09 | 中山大学 | 一种基于Xgboost分类算法的文本分类方法 |
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
WO2019227710A1 (zh) * | 2018-05-31 | 2019-12-05 | 平安科技(深圳)有限公司 | 网络舆情的分析方法、装置及计算机可读存储介质 |
CN110727758A (zh) * | 2018-06-28 | 2020-01-24 | 中国科学院声学研究所 | 一种基于多长度文本向量拼接的舆情分析方法及其系统 |
CN109933656A (zh) * | 2019-03-15 | 2019-06-25 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN110263344A (zh) * | 2019-06-25 | 2019-09-20 | 名创优品(横琴)企业管理有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231483A (zh) * | 2020-11-06 | 2021-01-15 | 中国水利水电科学研究院 | 灾情追踪方法、系统、设备和存储介质 |
CN112380341A (zh) * | 2020-11-09 | 2021-02-19 | 恒瑞通(福建)信息技术有限公司 | 一种基于行政服务中心的舆情分析方法及终端 |
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113239685B (zh) * | 2021-01-13 | 2023-10-31 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113378578A (zh) * | 2021-05-08 | 2021-09-10 | 重庆航天信息有限公司 | 食药舆情分析方法 |
CN113515626A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 一种确定舆论类别的方法、装置及设备 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113536805B (zh) * | 2021-07-09 | 2023-07-14 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113642881A (zh) * | 2021-08-09 | 2021-11-12 | 平安国际智慧城市科技股份有限公司 | 舆情数据的风险识别方法、装置、计算机设备及存储介质 |
CN113609842A (zh) * | 2021-08-17 | 2021-11-05 | 四川轻化工大学 | 一种获取景区评论数据、旅行体验评价的方法 |
CN114385894A (zh) * | 2021-12-30 | 2022-04-22 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
CN114385894B (zh) * | 2021-12-30 | 2024-05-31 | 粤开证券股份有限公司 | 一种基于词典的舆情监控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111831824B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831824A (zh) | 一种舆情正负面分类方法 | |
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
Ahmed et al. | Detection of online fake news using n-gram analysis and machine learning techniques | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
KR101312770B1 (ko) | 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN102332028A (zh) | 一种面向网页的不良Web内容识别方法 | |
Bayari et al. | Text mining techniques for cyberbullying detection: state of the art | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN111191051A (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
Islam et al. | Deep learning for multi-labeled cyberbully detection: Enhancing online safety | |
CN114997169A (zh) | 一种实体词识别方法、装置、电子设备及可读存储介质 | |
Samadi et al. | Persian fake news detection: Neural representation and classification at word and text levels | |
CN110610007A (zh) | 基于nlp的维保车况智能识别方法及装置 | |
CN111079582A (zh) | 一种图像识别的英语作文跑题判断方法 | |
Avetisyan et al. | Word embeddings for the armenian language: intrinsic and extrinsic evaluation | |
CN114461760A (zh) | 案件事实与法条匹配的方法及装置 | |
CN110232124A (zh) | 一种情感分析系统 | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
CN112905796A (zh) | 基于再注意力机制的文本情绪分类方法及系统 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |