CN106250363A - 一种舆情监控分析方法 - Google Patents
一种舆情监控分析方法 Download PDFInfo
- Publication number
- CN106250363A CN106250363A CN201610562040.4A CN201610562040A CN106250363A CN 106250363 A CN106250363 A CN 106250363A CN 201610562040 A CN201610562040 A CN 201610562040A CN 106250363 A CN106250363 A CN 106250363A
- Authority
- CN
- China
- Prior art keywords
- value
- network information
- info class
- class
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种舆情监控分析方法,包括以下步骤:S1、根据主题收集网络信息;S2、提取网络信息关键词,并根据关键词对网络信息进行归类获得多个信息类;S3、根据关键词为各信息类赋予一个情感倾向值AD;S4、获取各信息类中各网络信息来源网站的信用值,并计算各信息类中信用值之和作为类信权值T;S5、预设情感评估模型;S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E;S7、将各信息类的情感值相加获得主题情感值。本发明中,首先计算各信息类的情感值,然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值,使得网络信息的整体情感倾向的分析明确化、具体化。
Description
技术领域
本发明涉及舆情监控技术领域,尤其涉及一种舆情监控分析方法
背景技术
国内的网络舆情研究始于2005年,目前已成为相关学科领域专家的关注热点,方兴未艾。目前的舆情研究多以群体事件、司法事件或政治事件为研究着力点,面向公共舆情为主。
以微博、博客、社交网络、即时通讯系统为代表的自媒体(We Media)打破信息的控制和垄断,在网络上人们自由表达自己的态度和意见,不再像过去那么容易地无条件接受,相反,不同阶层的利益诉求纷纷呈现,不同思想观点正面碰撞。在这种情况下,建设能够覆盖多数据源的舆情监测系统十分必要,此类系统可针对新的媒介传播环境,进一步溧入研究舆情的热点研判方法以及自媒体带来的影响,对舆情研究进行丰富和完善。
发明内容
基于背景技术存在的技术问题,本发明提出了一种舆情监控分析方法
本发明提出的一种舆情监控分析方法,包括以下步骤:
S1、根据主题收集网络信息;
S2、提取网络信息关键词,并根据关键词对网络信息进行归类获得多个信息类;
S3、根据关键词为各信息类赋予一个情感倾向值AD;
S4、获取各信息类中各网络信息来源网站的信用值,并计算各信息类中信用值之和作为类信权值T;
S5、预设情感评估模型;
S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E;
S7、将各信息类的情感值相加获得主题情感值。
优选地,步骤S2具体为:提取网络信息关键词,并将关键词相同的网络信息进行归类,获得多个信息类。
优选地,步骤S3具体包括以下步骤:
S31、判断信息类对应的关键词词性;
S32、根据关键词中褒义词个数与贬义词个数的比值评估情感倾向值AD。
优选地,步骤S32具体为:
当褒义词个数大于贬义词个数,
当贬义词个数大于褒义词个数,
当贬义词个数等于褒义词个数,AD=0。
优选地,步骤S4中获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤:
S41、预设网站信用测评模型;
S42、从待测评网站随机选取多条真实度已知的信息,并根据真实度为各已知信息赋予真实程度值;
S43、将各已知信息的真实程度值代入网站信用测评模型计算网站信用值T。
优选地,网站信用测评模型为:T=(t1+t2L+tn)/n,其中,t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。
优选地,n≥3。
优选地,n=10。
优选地,步骤S5中,情感评估模型为E=AD×T。
本发明一种舆情监控分析方法,对搜寻到的每一条网络信息提取不少于一个关键词,然后将关键词相同的网络信息进行归类,从而获得多个信息类。如此,通过对网络信息进行归类避免了对每一条网络信息进行分析的繁琐与冗余工作,通过对信息类的情感倾向分析,即保证了情感评估的可靠性,又提高了工作效率。
本发明中,引入各网络信息来源网站的信用值,从而为后续的舆情判断增加了一个诚信参量,有利于提高舆情判断结果的可信程度。
本发明中,首先计算各信息类的情感值,然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值。即通过化繁为简的方式,使得网络信息的整体情感倾向的分析明确化、具体化,有利于提高舆情监控的可靠性。
附图说明
图1为本发明提出的一种舆情监控分析方法流程图;
图2为获取各信息类中各网络信息来源网站的信用值流程图;
图3为本发明提出的一种舆情监控分析系统框图。
具体实施方式
参照图1,本发明提出的一种舆情监控分析方法,包括以下步骤。
S1、根据主题收集网络信息。本步骤中,由工作人员输入主题,然后由预设网络爬虫根据主题在网络中搜寻信息。本实施方式中,以网络数据为库进行主题检索,有利于保证信息搜寻的全面性。
S2、提取网络信息关键词,并根据关键词对网络信息进行归类获得多个信息类。本步骤中,具体地,对搜寻到的每一条网络信息提取不少于一个关键词,然后将关键词相同的网络信息进行归类,从而获得多个信息类。本实施方式中,每一个信息类中包含至少一条网络信息,为了便于信息类之间的区别,各信息类以关键词进行标注。
S31、判断信息类对应的关键词词性,即判断关键词为褒义词还是贬义词。
S32、根据关键词中褒义词个数与贬义词个数的比值评估情感倾向值AD。
具体地,当褒义词个数大于贬义词个数,
当贬义词个数大于褒义词个数,
当贬义词个数等于褒义词个数,AD=0。
本实施方式中,根据关键词为各信息类赋予一个情感倾向值AD,情感倾向值AD可直接反应信息类中包含的网络信息的情感倾向。如此,通过对网络信息进行归类避免了对每一条网络信息进行分析的繁琐与冗余工作,通过对信息类的情感倾向分析,即保证了情感评估的可靠性,又提高了工作效率。
S4、获取各信息类中各网络信息来源网站的信用值,并计算各信息类中信用值之和作为类信权值T。
本实施方式中,引入各网络信息来源网站的信用值,从而为后续的舆情判断增加了一个诚信参量,有利于提高舆情判断结果的可信程度。
参照图2,本实施方式中,获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤。
S41、预设网站信用测评模型。本实施方式中,网站信用测评模型为:T=(t1+t2L+tn)/n,其中,t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。
S42、从待测评网站随机选取多条真实度已知的信息,并根据真实度为各已知信息赋予真实程度值。
S43、将各已知信息的真实程度值代入网站信用测评模型计算网站信用值T。
本实施方式中,结合网站上已知真实度的信息对网站的信用值进行判断,提高了对各网站信用判断的掌控力度和灵活性,有利于适应网络的快速变化。
本实施方式中,n的取值越大,获得的信用值T可信度越高。具体实施时,可取n≥3,例如,n=10。
S5、预设情感评估模型。本实施方式中,情感评估模型为E=AD×T。
S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E。
S7、将各信息类的情感值相加获得主题情感值。
本实施方式中,首先计算各信息类的情感值,然后以各信息类的情感值为基础计算根据预设的主题搜索到的所有网络信息整体的情感倾向即主题情感值。即通过化繁为简的方式,使得网络信息的整体情感倾向的分析明确化、具体化,有利于提高舆情监控的可靠性。
以下结合一种具体地舆情监控分析系统对以上方法做进一步说明。
参照图3,该系统包括:网络信息收集模块、网站信用评估模块、网络信息整理模块、信用计算排序模块、舆情倾向分析模块和评估结果输出模块。
网络信息收集模块用于根据预设的主题收集网络信息。具体地,主题由工作人员手动输入,或者,网络信息收集模块根据工作人员输入的信息进行简化提取主题。
网站信用评估模块,其内部预设有网站信用测评模型,且用于根据网站信用测评模型对各个网站进行评估并赋予信用值。本实施方式中,信用值可根据该网站上发布的已经进行真实程度确认的信息进行评估。例如,可从该网站随机选取10条已经确认了真实程度值的信息评估网站信用值,该网站信用值为该10条信息真实程度值得均值。
结合以上实施例,本实施方式中,网站信用测评模型可设置为:T=(t1+t2L+tn)/n,其中,t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。本实施方式中,选取n=10,具体实施时,n取值越大,网站的信用值越具有代表性。故而,为了避免信用值可信度过低,本实施方式中,限定n≥3。
网络信息整理模块与网络信息收集模块连接。网络信息整理模块获取网络信息收集模块收集的网络信息,并对网络信息进行关键词提取,然后将关键词相同的网络信息进行聚类,以获得不少于一个信息类。本实施方式中,信息类以关键词标注以便区分。
信用计算排序模块分别连接网络信息整理模块、网络信息收集模块和网站信用评估模块。信用计算排序模块对各信息类中包含的网络信息来源网站进行统计,计算各信息类包含的网络信息来源网站的信用值之和作为该信息类的类信权值,并根据类信权值对各信息类进行排序。
舆情倾向分析模块分别与网络信息整理模块和信用计算排序模块连接。舆情倾向分析模块判断各信息类中各关键词词性,并根据各关键词词性计算该信息类情感倾向值。具体地,舆情倾向分析模块根据信息类对应的关键词中褒义词与贬义词的比值计算该信息类情感倾向值。当信息类对应的关键词中褒义词个数与贬义词个数的比值大于1,则该信息类的情感倾向值为正数;当信息类对应的关键词中褒义词个数与贬义词个数的比值小于1,则该信息类的情感倾向值为负数。
具体实施时,可令情感倾向值AD根据以下原则计算:
当褒义词个数大于贬义词个数,
当贬义词个数大于褒义词个数,
当贬义词个数等于褒义词个数,AD=0。
本实施方式中,舆情倾向分析模块根据关键词为各信息类赋予一个情感倾向值后,根据预设的情感评估模型结合情感倾向值和类信权值计算各信息类的情感值,并计算信息类情感值之和作为主题情感值。
情感评估模型为:E=AD×T,其中,AD为情感倾向值,T为类信权值。
舆情倾向分析模块将主题情感值与预设的倾向阈值比较,根据比较结果评估舆情倾向。本实施方式中,倾向阈值为0。当主题情感值大于倾向阈值,则判定舆情倾向褒义;当主题情感值小于倾向阈值,则判定舆情倾向贬义。
评估结果输出模块分别连接信用计算排序模块和舆情分析模块,其将信用计算排序模块的排序结果制成评估表,评估表中各信息类根据关键词进行区别;评估结果输出模块输出评估表和舆情倾向。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种舆情监控分析方法,其特征在于,包括以下步骤:
S1、根据主题收集网络信息;
S2、提取网络信息关键词,并根据关键词对网络信息进行归类获得多个信息类;
S3、根据关键词为各信息类赋予一个情感倾向值AD;
S4、获取各信息类中各网络信息来源网站的信用值,并计算各信息类中信用值之和作为类信权值T;
S5、预设情感评估模型;
S6、将情感倾向值和类信权值代入情感评估模型计算各信息类的情感值E;
S7、将各信息类的情感值相加获得主题情感值。
2.如权利要求1所述的舆情监控分析方法,其特征在于,步骤S2具体为:提取网络信息关键词,并将关键词相同的网络信息进行归类,获得多个信息类。
3.如权利要求1所述的舆情监控分析方法,其特征在于,步骤S3具体包括以下步骤:
S31、判断信息类对应的关键词词性;
S32、根据关键词中褒义词个数与贬义词个数的比值评估情感倾向值AD。
4.如权利要求3所述的舆情监控分析方法,其特征在于,步骤S32具体为:
当褒义词个数大于贬义词个数,
当贬义词个数大于褒义词个数,
当贬义词个数等于褒义词个数,AD=0。
5.如权利要求1所述的舆情监控分析方法,其特征在于,步骤S4中获取各信息类中各网络信息来源网站的信用值的方法包括以下步骤:
S41、预设网站信用测评模型;
S42、从待测评网站随机选取多条真实度已知的信息,并根据真实度为各已知信息赋予真实程度值;
S43、将各已知信息的真实程度值代入网站信用测评模型计算网站信用值T。
6.如权利要求5所述的舆情监控分析方法,其特征在于,网站信用测评模型为:T=(t1+t2L+tn)/n,其中,t1、t2……tn分别为该网站中随机挑选的n条真实度已确认的信息对应的真实程度值。
7.如权利要求1所述的舆情监控分析方法,其特征在于,n≥3。
8.如权利要求1所述的舆情监控分析方法,其特征在于,n=10。
9.如权利要求1所述的舆情监控分析方法,其特征在于,步骤S5中,情感评估模型为E=AD×T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562040.4A CN106250363A (zh) | 2016-07-15 | 2016-07-15 | 一种舆情监控分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610562040.4A CN106250363A (zh) | 2016-07-15 | 2016-07-15 | 一种舆情监控分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106250363A true CN106250363A (zh) | 2016-12-21 |
Family
ID=57613876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610562040.4A Pending CN106250363A (zh) | 2016-07-15 | 2016-07-15 | 一种舆情监控分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250363A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN109165340A (zh) * | 2018-07-19 | 2019-01-08 | 湖南富盟传媒有限公司 | 网络舆情监测系统 |
CN114625985A (zh) * | 2020-12-14 | 2022-06-14 | 北京宸瑞科技股份有限公司 | 基于可信度和传播量的融合情报分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
US20140236923A1 (en) * | 2013-02-21 | 2014-08-21 | Search Skore, Llc | Internet presence scoring |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN104598450A (zh) * | 2013-10-30 | 2015-05-06 | 北大方正集团有限公司 | 一种网络舆情事件的热度分析方法及系统 |
CN104899231A (zh) * | 2014-03-07 | 2015-09-09 | 上海市玻森数据科技有限公司 | 基于细粒度属性分类的感情分析引擎 |
CN105373558A (zh) * | 2014-08-27 | 2016-03-02 | 青岛海尔智能家电科技有限公司 | 一种衡量产品推荐度的方法及系统 |
-
2016
- 2016-07-15 CN CN201610562040.4A patent/CN106250363A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
US20140236923A1 (en) * | 2013-02-21 | 2014-08-21 | Search Skore, Llc | Internet presence scoring |
CN104598450A (zh) * | 2013-10-30 | 2015-05-06 | 北大方正集团有限公司 | 一种网络舆情事件的热度分析方法及系统 |
CN104899231A (zh) * | 2014-03-07 | 2015-09-09 | 上海市玻森数据科技有限公司 | 基于细粒度属性分类的感情分析引擎 |
CN105373558A (zh) * | 2014-08-27 | 2016-03-02 | 青岛海尔智能家电科技有限公司 | 一种衡量产品推荐度的方法及系统 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN108694176B (zh) * | 2017-04-06 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN109165340A (zh) * | 2018-07-19 | 2019-01-08 | 湖南富盟传媒有限公司 | 网络舆情监测系统 |
CN114625985A (zh) * | 2020-12-14 | 2022-06-14 | 北京宸瑞科技股份有限公司 | 基于可信度和传播量的融合情报分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103514174B (zh) | 一种文本分类方法和装置 | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
CN101408883B (zh) | 一种网络舆情观点收集方法 | |
CN103246670B (zh) | 微博排序、搜索、展示方法和系统 | |
KR101565339B1 (ko) | 집단지성을 이용한 추천 시스템 및 방법 | |
CN112463971B (zh) | 一种基于层级组合模型的电商商品分类方法及系统 | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN101984423A (zh) | 一种热搜词生成方法及系统 | |
CN110020176A (zh) | 一种资源推荐方法、电子设备以及计算机可读存储介质 | |
CN107330798A (zh) | 一种基于种子节点传播的社交网络间用户身份识别方法 | |
CN108509461A (zh) | 一种基于强化学习的排序学习方法及服务器 | |
CN107357902A (zh) | 一种基于关联规则的数据表分类系统与方法 | |
CN102789449B (zh) | 对评论文本进行评价的方法和装置 | |
CN106156372A (zh) | 一种互联网网站的分类方法及装置 | |
CN105378730A (zh) | 社交媒体分析与输出 | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN103336771A (zh) | 基于滑动窗口的数据相似检测方法 | |
CN106250363A (zh) | 一种舆情监控分析方法 | |
CN109933648B (zh) | 一种真实用户评论的区分方法和区分装置 | |
KR101067846B1 (ko) | 특허 평가 시스템 및 그 방법, 이를 구현하기 위한 프로그램을 기록한 디지털 처리장치가 판독 가능한 기록매체 | |
CN111026868A (zh) | 一种多维度舆情危机预测方法、终端设备及存储介质 | |
CN107562722A (zh) | 基于大数据的互联网舆情监测分析系统 | |
Hogg et al. | Stochastic models predict user behavior in social media | |
CN110472057A (zh) | 话题标签的生成方法及装置 | |
CN109558591A (zh) | 中文事件检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |
|
RJ01 | Rejection of invention patent application after publication |