CN110991218B - 一种基于图像的网络舆情预警系统和方法 - Google Patents
一种基于图像的网络舆情预警系统和方法 Download PDFInfo
- Publication number
- CN110991218B CN110991218B CN201910959356.0A CN201910959356A CN110991218B CN 110991218 B CN110991218 B CN 110991218B CN 201910959356 A CN201910959356 A CN 201910959356A CN 110991218 B CN110991218 B CN 110991218B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- early warning
- image
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 59
- 238000010195 expression analysis Methods 0.000 claims abstract description 27
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000008451 emotion Effects 0.000 claims description 45
- 230000007935 neutral effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 241000274965 Cyrestis thyodamas Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 206010008531 Chills Diseases 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 206010013647 Drowning Diseases 0.000 description 1
- 206010016952 Food poisoning Diseases 0.000 description 1
- 208000019331 Foodborne disease Diseases 0.000 description 1
- 208000013875 Heart injury Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- -1 strong fire Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种基于图像的网络舆情预警系统和方法,包括:信息获取模块获取网络社区中各话题的主题信息和评论信息,发送主题信息至分类与识别模块,发送评论信息至表情分析模块;分类与识别模块分类主题信息中的图像,得到图像类别,提取图像中的文字,将图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;表情分析模块分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;预警与得分模块根据图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;舆情预警模块根据舆情分析结果和舆情得分确定预警得分,发出预警。本申请能够准确、快速地发布与图像中的舆情对应的舆情预警。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种基于图像的网络舆情预警系统和方法。
背景技术
近几年来,我国在人工智能、云计算、大数据等新兴技术推动下,互联网技术得到了飞速发展。互联网技术造就了我国众多的网络平台。据中国互联网络中心统计,2018年6月底,我国的各类网站数量已超过500万个,类别上除了政府网站,部门网站,媒体网站外,还有许多的网络社区,仅高校网络社区就有4000多个。网络社区对数据的提供和传播具有便捷性、快速性、随机性等特点,便于网民发表自己的观点,贴近网民的用网习惯,深受网民们的欢迎,是社会舆论的聚集地,如论坛BBC、公告栏、贴吧等。庞大的互联网每天都产生着海量的信息,由于人群的复杂性、政治信仰的多元性、知识结构的差异性、民族的多样性等因素,使得海量信息并不都是有用的,有很多冗余的信息、不良的信息。这些信息通过互联网的迅速传播,加入了众多网民的观点,使得舆情产生并发酵,影响着社会的和谐稳定。舆情预警对于舆情的治理至关重要,3.26武汉理工大学研究生坠亡,12.25西安交大学生杨宝德溺亡事件,这些事件若有及时准确的舆情预警方案,势必会减少舆情危机带来的影响。
党和国家一直高度重视民意的动态,关注舆情的走向,特别是高校网络舆情,更是舆情工作的重中之重。高校学生的思想动态,直接影响着国家未来几十年的发展,准确的舆情分析预警有利于科学管理学生,有着重要的现实意义。现阶段,基于文本的网络舆情信息分析和情感分析已经取得一定成果,但“耳听为虚,眼见为实”,以图像为载体的传播方式,其传播速度及影响力远大于用文字描述,网民们更容易去相信和认同。近年来,高校舆情的数量逐年攀升,基于图像引发的舆情事件更是频频产生。12.26北京交通大学实验室爆炸事故,事件最早的信息传播源就是实验室浓烟滚滚的照片。新浪微博的情况通报话题,大部分的主题是用图像的方式发布文本信息,利用添加水印的手段保证图像的真实性和不可篡改性,发布这类图像的部门以公安、消防、法院居多。另外,网民们的用网习惯和交流方式正在逐渐变化,经常会用表情包的方式表达自己的情感,一些表情包通过图文搭配,有助于提升网民对话语的理解和认知,在读图时代具有更好的吸睛能力。这些图像现有的舆情预警系统都难以监测。
当今高校里,以“95后”为主的大学生个性张扬、倡导独立,这种人格特质使得其不拘泥于仅仅倾听外界的声音,而是本着参与社会管理、维护自身权益、倡导公平正义、行使公民权利等目的在网络社区频繁发声,处于此年龄段的大学生辨别信息真伪的能力较弱,自我言行的控制力也不强,极其容易被网络上谣传的、负面的、失真的信息所干扰乃至煽动。网络社区中的用户具有较高的自主权,目前相关法律法规尚不健全,随意发布一张图片是一件很普通的事,而现有的网站审核系统,虽然能对个别文本关键字进行过滤,但对图像的审核还不够成熟,不排除别有用心之人利用网络社区言论开放的特点,以隐蔽性的图像为传播载体,通过网络社区将不良信息传入互联网,制造事端,造成网络混乱,影响网络秩序,引发舆情危机,令人防不胜防。因此,图像舆情监测变得越来越重要。
综上所述,需要提供一种能够对图像舆情进行监测的网络舆情预警系统和方法。
发明内容
为解决以上问题,本申请提出了一种基于图像的网络舆情预警系统和方法。
一方面,本申请提出一种基于图像的网络舆情预警系统,包括:
信息获取模块,用于获取网络社区中各话题的主题信息和评论信息,发送所述主题信息至分类与识别模块,发送所述评论信息至表情分析模块;
分类与识别模块,用于分类主题信息中的图像,得到图像类别,提取所述图像中的文字,将所述图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
表情分析模块,用于分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;
预警与得分模块,用于根据所述图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;
舆情预警模块,用于根据舆情分析结果和舆情得分确定预警得分,发出预警。
优选地,所述分类与识别模块包括:
图像分类单元,用于根据分类模型,对主题信息中的图像进行分类,得到对应所述图像的一个或多个图像类别,发送至预警与得分模块;
文字识别单元,用于提取所述图像中的文字,发送至文本信息单元;
文本信息单元,用于将图像中的文字与主题信息中的文字发送至预警与得分模块。
优选地,所述表情分析模块,具体用于分析评论信息中的图片,得到评论信息的情感倾向类别,统计各情感倾向类别的评论数量,使用舆情分析指标计算舆情分析结果,发送至舆情预警模块。
优选地,所述预警与得分模块包括:
文本预警单元,用于根据图像中的文字和主题信息中的文字,计算文本舆情要素特征,发送至舆情要素计算单元;
舆情要素计算单元,用于根据图像类别,计算图像舆情要素特征,融合文本舆情要素特征和图像舆情要素特征,获得舆情得分,发送至舆情预警模块。
优选地,所述舆情预警模块发出的所述预警的类别与所述舆情得分中的最大值所对应的舆情类别相同。
优选地,所述舆情分析指标包括:消极评论率,消极评论增长率和舆情热度。
优选地,所述情感倾向类别包括:积极、消极和中立。
优选地,所述图像类别、舆情得分、图像舆情要素特征和文本舆情要素特征,均为多维向量。
优选地,所述舆情类别包括多个舆情大类,每个舆情大类包括多个图像类别。
第二方面,本申请提出一种基于图像的网络舆情预警方法,包括:
信息获取模块获取网络社区中各话题的主题信息和评论信息,发送所述主题信息至分类与识别模块,发送所述评论信息至表情分析模块;
分类与文字识别模块分类主题信息中的图像,得到图像类别,提取所述图像中的文字,将所述图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
表情分析模块分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;
预警与得分模块根据所述图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;
舆情预警模块根据舆情分析结果和舆情得分确定预警得分,发出预警。
本申请的优点在于:通过分类主题信息中的图像,得到图像类别,能够识别图像中的舆情类别;根据图像类别、图像中的文字和主题信息中的文字确定舆情得分,使用舆情分析结果和舆情得分确定预警得分,发出预警,能够准确、快速地发布与图像中的舆情对应的舆情预警。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:
图1是本申请提供的一种基于图像的网络舆情预警系统的示意图;
图2是本申请提供的一种基于图像的网络舆情预警系统的结构示意图
图3是本申请提供的一种基于图像的网络舆情预警系统的权值矩阵示意图;
图4是本申请提供的一种基于图像的网络舆情预警系统的预警效果示意图;
图5是本申请提供的一种基于图像的网络舆情预警系统的图像分类单元的模型设计示意图;
图6是本申请提供的一种基于图像的网络舆情预警系统的根据图像类别计算图像舆情要素特征的示意图;
图7是本申请提供的一种基于图像的网络舆情预警系统的文字识别单元的模型设计示意图
图8是本申请提供的一种基于图像的网络舆情预警方法的步骤示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本申请的实施方式,提出一种基于图像的网络舆情预警系统,如图1所示,包括:
信息获取模块101,用于获取网络社区中各话题的主题信息和评论信息,发送主题信息至分类与识别模块,发送评论信息至表情分析模块;
分类与识别模块102,用于分类主题信息中的图像,得到图像类别,提取图像中的文字,将图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
表情分析模块103,用于分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;
预警与得分模块104,用于根据图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;
舆情预警模块105,用于根据舆情分析结果和舆情得分确定预警得分,发出预警。
如图2所示,分类与识别模块包括:
图像分类单元,用于根据分类模型,对主题信息中的图像进行分类,得到对应图像的一个或多个图像类别,发送至预警与得分模块;
文字识别单元,用于提取图像中的文字,发送至文本信息单元;
文本信息单元,用于将图像中的文字与主题信息中的文字发送至预警与得分模块。
表情分析模块,具体用于分析评论信息中的图片,得到评论信息的情感倾向类别,统计各情感倾向类别的评论数量,使用舆情分析指标计算舆情分析结果,发送至舆情预警模块。
如图2所示,预警与得分模块包括:
文本预警单元,用于根据图像中的文字和主题信息中的文字,计算文本舆情要素特征,发送至舆情要素计算单元;
舆情要素计算单元,用于根据图像类别,计算图像舆情要素特征,融合文本舆情要素特征和图像舆情要素特征,获得舆情得分,发送至舆情预警模块。
舆情预警模块发出的预警的类别与舆情得分中的最大值所对应的舆情类别相同。
舆情分析指标包括:消极评论率,消极评论增长率和舆情热度。
情感倾向类别包括:积极、消极和中立。
图像类别、舆情得分、图像舆情要素特征和文本舆情要素特征,均为多维向量。
舆情类别包括多个舆情大类,每个舆情大类包括多个图像类别。
网络社区指包括:BBS、论坛、贴吧、公告栏、个人知识发布、群组讨论、个人空间、微博、无线增值服务等形式的网上交流空间。
文本预警单元可以使用传统的自然语言处理模型,主要基于建立的敏感词库,得到文本舆情要素特征。
优选地,分类与识别模块中的图像分类单元、文字识别单元以及表情分析模块使用基于深度学习的图像分析技术。
图像类别是图像所属舆情类别中的小类别,通过识别图像中包括的舆情要素,判断图像中包括的图像类别。
优选地,还包括存储模块,用于存储采集到的各话题的主题信息和评论信息以及各模块分析得出的数据和结果等。
舆情类别和图像类别能够根据高校网络社区的历史舆情数据,结合高校网络舆情的特点,针对高校舆情工作的具体需求进行设计。
如表1所示,为一种高校网络舆情要素的具体舆情特征(舆情类别)及常见配图(图像类别)表。包括:思想政治类、自然灾害类、公共卫生类、学校管理类、民族宗教类和特殊学生类,共七类高校网络舆情要素。其中,思想政治类舆情要素包含:游行、暴动等舆情,常见配图(即常见的图像类别)有反动标语、人群、特殊组织标志等;自然灾害类舆情要素包含:各种自然灾害引发的舆情,常见配图有消防车、救援队等;公共卫生类舆情要素包含:食物中毒、传染病爆发等舆情,常见配图有救护车、医疗标志等;治安安全类舆情要素包含校园暴力、火灾等舆情,常见配图有浓烟、大火、血迹等;校园管理类舆情要素包含教学事故、学术腐败等舆情,常见配图有社交网络的截图、通知公告截图等;民族宗教类舆情要素包含民族独立、宗教纷争等舆情,常见配图有清真寺、经文等;特殊学生类舆情要素包含各类特殊学生引发的舆情,常见配图有网络社区截图、通知公告截图等。合计相关配图,得到图像类别38类,这些图像都与网络舆情密切相关,直接或间接地影响着舆情走势。
表1
以网络社区中的图像为例,按照图像的产生方式,可以分成两大类,一类是网友在现场拍摄的照片,这种类型的图像均为自然图像,图像的分辨率参差不齐,图中的敏感信息容易被噪声掩盖;另外一类图像则是网友通过截图或者手机APP转存等形式保存在手机相册里的图像,这类图像的特点在于分辨率相对固定,图像的背景不变,但图中经常含有大量的文字信息量,仅识别出图像的类型难以辨别深层语义,为了解决这种底层特征与高层语义之间特有的语义鸿沟,需要通过文字识别模型识别出此类图像的文本信息,为舆情预警模型提供文本语义。
优选地,文字识别单元使用自然语言处理(Natural Language Processing,NLP)技术识别图像中的文字。
自然语言处理技术包括:字符编码技术和光学字符识别(Optical CharacterRecognition,OCR)技术。
其中,字符编码技术包括:独热编码和词嵌入(Word Embedding)等。
表情分析模块根据情感分类标准,对评论信息中的图片进行分类,得到评论信息的情感倾向类别。
评论信息中的图片主要包括各种表情图片(表情包)。
人类是情感丰富的动物,不同表情对应着不同的情绪,不同动作也表现出不同的情感。Jichang Zhao、Li Dong、JunjieWu和KeXu在论文“MoodLens:一个基于表情符号的中文微博情感分析系统(MoodLens:An emoticon-based sentiment analysis system forchinese tweets)”中,在1000多个表情符号中,手工选择95个作为情感标签(记为E),并将它们分为四个不同的情绪类别,包括:愤怒、厌恶、快乐和悲伤。从2010年12月到2011年2月,Moodlens收集了7000多万的微博,抽取包含E中表情符号的350万微博作为标记微博集并分类,记为T。将这些微博作为初始情感语料。
通过对上述论文的情感分类中各情感的特征进行分析,本申请实施例的情感分类标准,根据人类八种基本情绪:生气、恶心、害怕、伤心、期待、喜悦、惊喜、信任,以及表情包中常见的动作,建立图片的情感分类标准,将情感倾向性分为三类,分别为积极、消极和中立,三个情感倾向类别,如表2所示。
表2
情感倾向类别 | 动作 | 情绪 |
积极 | 支持,鼓掌,握手,爱心等 | 期待、喜悦、惊喜、信任 |
消极 | 反对,发抖,心碎,哭泣等 | 生气、恶心、害怕、伤心 |
中立 | 偷笑,说悄悄话,摊手等 | 其他 |
人类的情感具有强烈的主观性,同样的事件引发的情感会因人而异,同样的表情不同人也有可能代表不同情感,所以在进行表情包分类时,出现比较含糊的情感表达时,将其分入中立。虽然表情包的种类繁多,且特征各异,但网络社区中的内置表情包是固定的,模型以准确识别这些常见类别表情包为主要目的。
网络舆情具有较强的不确定性,没有在预设范围内的主题或图像,也有可能引发网络舆情,因此,需要从多个维度进行舆情监控。网民评论的情感倾向性能够侧面反映舆情的走向和发展趋势,是舆情热度的直接体现,准确分析用户的情感倾向性,也能为舆情预警提供有效帮助。
在现有的网络社区主题热度的算法中,用户的情感倾向性不是常用的计算指标,主要的指标有:发布人的影响力、话题的浏览量、点赞数、用户停留时间等,这之中有的指标难以获取。在图像的情感倾向性分析的基础上,结合基于文本的情感倾向性分析技术,提出了舆情分析指标。
情感倾向性分析是一个三分类任务,输出是消极、积极和中立三个类别。三种极性对舆情的热度都有加成,只是程度不一样。网络舆情的状态是一个动态的结果,其走势随时都在变化,而高校网络社区的传播速度更快,一小时就能起不小波澜。
信息获取模块根据设定的时间单位,以设定的时间单位为间隔,获取获取网络社区中各话题的主题信息和评论信息。
时间单位可以跟需要设定,包括秒、分、小时和日等。
优选地,可以一小时为时间单位,跟踪网络舆情走势,将每个主题的评论极性沿时间轴展开,每n小时做一次统计。
下面,以一小时为例,对舆情分析指标进行说明。
计第i小时内的积极评论数为Li,消极评论数为Ni,中立评论数为Mi。根据每小时这三个数字特征,设计舆情分析指标,包括:消极评论率Ti,消极评论增长率Pi,舆情热度Yi。
消极评论率Ti是消极评论占总评论的比例,用来衡量该网络舆情给广大网民带来多大程度的负面情绪。该指标的范围从0到1,指标越大,内容带来的负面影响越大,越危险。优选地,当Ti>0.5时,需要发出警报。
消极评论增长率Pi是消极评论率的变化情况,用来表示网络舆情的走势,当该Pi为正数时,网络舆情正在往消极方向发展,当该指标为负数时,网络舆情正在往积极的方向发展。Ti-1为前一个小时的消极评论率。优选地,当Pi>1.5时,需要发出警报。
舆情热度Yi用来衡量网络舆情的规模。其中,λ1、λ2和λ3分别用来调节积极评论数、消极评论数和中立评论数对指标贡献的权重比例,优选地,λ1=0.1,λ2=0.2,λ3=0.1。具体的权重(λ1、λ2和λ3)可根据网络社区的日活流量以及是否处于重大会议、节日、纪念日等敏感时期做调整。该指标(Yi)的范围从0到1,指标越大,说明舆情影响的范围越大。优选地,当Yi>0.9时,需要发出警报。这个阈值是根据单位小时发出了10条以上的消极评论得到的Yi而设定的。
以上三个指标的阈值,均能够根据实际情况做调整。在实际舆情治理当中,这些指标可以为科学管理决策提供数据支持。Yi是判断是否发生网络舆情的重要指标,也是判断网络舆情影响规模的重要指标,是整个网络舆情的平均舆情热度,能够体现网络舆情的平均热度,MAX(Yi)表示整个网络舆情的热度峰值,是舆情热度的拐点,对分析舆情周期有一定帮助;Ti反映了用户评论的极性,当Ti较小时,则可晓之以情,动之以理,引导网民理性对待网络舆情,当Ti较大时,说明存在网络社区中的消极评论比例已经较高了,此时难以通过正常方式安抚引导网民,应避免过激言论,尽早通过官方渠道阐述事实;Pi则是观察消极评论变化的重要指标,Pi值的正负调换时,说明用户的情感极性正在发生翻转,同时可以反映网络舆情的走向,体现舆情治理的效果。
文本舆情要素特征在用于计算舆情得分之前,需要进行归一化处理,将结果归一化至0到1之间。
图像舆情要素特征在用于计算舆情得分之前,需要进行归一化处理,将结果归一化至0到1之间。
舆情得分通过融合归一化后的文本舆情要素特征和归一化后的图像舆情要素特征得到。
由于舆情预警任务的特殊性,无论是基于图像舆情要素特征还是文本舆情要素特征,都应该关注特征最为明显的维度,所以舆情得分取两种舆情要素特征的最大值符合设计思想。
舆情得分W为多维向量,表示融合了文本舆情要素特征V和图像舆情要素特征U,每个维度的取值范围均为[0,1]。
Wi=max(Vi,Ui)
根据舆情得分W,取最大值F=max(W)作为舆情预警的舆情语义指标,结合表情分析模块得到的舆情分析结果Ti、Pi、Yi,计算预警得分score。
score=F+λ1(Yi-Y)+λ2(Ti-T)+λ3(Pi-P)
优选地,Y=0.9,T=0.5,P=1.5,分别是消极评论率Ti,消极评论增长率Pi,舆情热度Yi的危险阈值,而λ1、λ2和λ3为三项指标对预警得分score的影响权重。
以一小时为例,由于Ti、Pi和Yi三项指标是根据回帖可以按小时为单位进行统计分析,所以当主贴刚发出来第一个小时内,预警得分score主要以F为主,在一个小时后会根据回帖的情况进行动态变化。score达到一定阈值时,则发出预警,这时候舆情得分W中最大值对应的舆情类别就是需要预警的舆情类别。
需要发出警报的消极评论率Ti,消极评论增长率Pi和舆情热度Yi,也会发送至舆情预警模块进行预警。
下面,以表1中的七个舆情类别和38个图像类别,以及表2中的情感分类标准为例,对本申请的实施方式进行进一步的说明,如图2所示。
信息获取模块按照设定的时间单位,通过网络爬虫技术,获取网络社区中各话题的主题信息和评论信息,发送所述主题信息至分类与识别模块,发送所述评论信息至表情分析模块。
其中,主题信息包括文字和图像。评论信息只包括图像(各种类型的表情包)。
将主题中的图像输入至分类与识别模块中的图像分类单元,提取输入图像的特征,对特征进行处理和分类,得到输入图像的图像类别,发送至预警与得分模块。此图像类别的维数对应表1的图像类别数量,为38维特征向量。
将主题中的图像输入至分类与识别模块中的文字识别单元。文字识别单元对输入图像的进行文字检测,获取输入图像文本区域。依次对获得的文本区域的特征进行提取,对提取到的特征进行处理、分类,的带字符识别结果序列,即图像中的文字。将图像中的文字发送至文本信息单元。
将主题中的文字输入至分类与识别模块中的文本信息单元。文本信息单元将接收到的主题中的文字和图像中的文字发送至预警与得分模块。
将评论信息发送至表情分析模块。表情分析模块分析评论信息中的图片,得到评论信息的情感倾向类别,统计各情感倾向类别的评论数量,使用舆情分析指标计算舆情分析结果,发送至舆情预警模块。
预警与得分模块中的文本预警单元使用基于表1建立的敏感词库,对图像中的文字和主题信息中的文字进行处理,得到文本舆情要素特征。此文本舆情要素特征的维数对应表1的舆情类别数量,为七维特征向量。将文本舆情要素特征发送至舆情要素计算单元。
舆情要素计算单元将图像类别与权值矩阵进行矩阵相乘,得到图像舆情要素特征。若38类图像类别与七个舆情类别相关,则对应元素为1,如图3所示。此图像舆情要素特征的维数对应表1的舆情类别数量,为七维特征向量。融合文本舆情要素特征和图像舆情要素特征,获得舆情得分,发送至舆情预警模块。此舆情得分的维数对应表1的舆情类别数量,为七维特征向量。
各模块及单元的分析结果及输出结果如表3所示,其中R表示实数集。
表3
舆情预警模块取舆情得分的最大值作为舆情预警的舆情语义指标,结合表情分析模块得到的舆情分析结果Ti、Pi和Yi,计算预警得分score,发出预警,预警的效果示意图如图4所示。舆情得分中的最大值对应的舆情类别就是需要预警的舆情类别。
如图5所示,为一种图像分类单元的模型设计示意图,其中提取图像特征模块采用的是DenseNet网络结构。在深度学习中,为了避免出现过拟合(Overfitting),最好的方法就是增加训练的数据集,数据集越多,训练出来的模型精度越高,泛化能力越强。但当数据集稀少或者采集困难的时候,数据增强(Data Augmentation)是一种可靠的方式。图像的数据增强是通过一系列数字图像处理,将源图像变换成其他图像,但从视觉上,不影响图像的类别和具体语义。
模型训练的具体流程为:将输入图像进行零均值和单位方差的图像预处理操作,进行随机翻转和随机裁剪的图像增强操作;选取合适的参数构建DenseNet网络结构提取图像的特征;将得到的图像特征送入全连接层的分类器进行分类;设计损失函数,计算分类结果的损失值;根据损失值,利用优化算法进行反向传播得到DenseNet网络结构及分类器中各参数的梯度,结合学习率训练参数;训练模型,选取一定的训练轮次,当损失值不再下降,停止训练。
如图6所示,对于图像分类单元,保留训练好的模型的softmax层以前的结构,全连接层得到的38维特征向量即为图像类别。舆情要素计算单元将图像类别与权值矩阵进行矩阵相乘,得到图像舆情要素特征。
如图7所示,为一种文字识别单元的模型设计示意图,其中文字识别模型的结构是CTPN+DenseNet+CTC。由CTPN实现图像的文字检测部分,DenseNet网络结构对检测的文本区域进行特征提取。连接文本提议网络(Connectionist Text Proposal Network,CTPN)是现在处理文字检测问题中效果非常不错的模型。模型先通过CNN+BLSTM的方式检测出可能含有文本的区域,再通过文本线构造算法,将含有文本的区域合并成一条文本线。BLSTM为双向长短时记忆(Bidirectional Long Short-Term Memory)。时序连接分类(ConnectionistTemporal Classification,CTC)是基于隐马尔科夫(Hidden Markov Model,HMM)模型提出的,它可以解决无对齐信息的多对多序列问题,在文字识别中,可以将识别结果序列中的空白字符和连续识别的字符去除。
模型训练的具体流程为:将输入图像进行零均值和单位方差的图像预处理操作;利用开源的CTPN文本检测模型识别图像的文本区域;将文本区域依次送入DenseNet网络结构提取图像的特征;将得到的特征沿着每一列进行切分,依次送入全连接层的字符分类器中识别;最后将得到的字符识别结果序列,利用CTC损失函数,计算损失值;根据损失值,利用优化算法进行反向传播得到DenseNet网络结构及分类器中各参数的梯度,结合学习率训练参数;训练模型,选取一定的训练轮次,当损失值不再下降,停止训练。
表情分析单元中的表情分析模型采用DenseNet网络结构,器分类器的输出为3,即三种情感倾向类别。
本申请实施例的验证使用的实验数据是高校网络社区实际采集到的含有图像的网络舆情主贴,一共有6040条,最少的类别为民族宗教类网络舆情,仅有584条,另外按照10:1的比例引入非网络舆情的主题60400条合计66440条验证数据。
通过预警得分score是否超过设定阈值,来判断是否发出预警。由于舆情预警任务的特殊性,舆情预警的召回率要比舆情预警的准确率更为重要,通过调整阈值,观察预警召回率(Recall Rate)与预警准确率的关系,以此反映系统的性能。
召回率也叫查全率,是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。召回率(Recall)和精度(Precise)是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。
下面是衡量系统性能的具体指标:
(1)识别准确率CP:即预警系统识别七类舆情要素的准确率,是预警正确的舆情图像样本数与全部舆情图像样本数的比值,这里不计算非舆情图像;
(2)预警精确率AP80:即预警系统召回率为80%时的预警精确率;
(3)预警精确率AP90:即预警系统召回率为90%时的预警精确率;
(4)预警精确率AP95:即预警系统召回率为95%时的预警精确率。
验证的实验结果如表4所示。最终选取的预警阈值为0.63,此阈值下,在实际采集到的66440个高校网络社区主贴中,识别舆情要素的平均准确率达到了81.67%,舆情预警方面在保证95%召回率的情况下有着75.03%的预警精确率,体现了模型良好的效果,能够满足实际应用需求。
表4
/>
根据本申请的实施方式,还提出一种基于图像的网络舆情预警方法,如图8所示,包括:
S101,信息获取模块获取网络社区中各话题的主题信息和评论信息,发送主题信息至分类与识别模块,发送评论信息至表情分析模块;
S102,分类与文字识别模块分类主题信息中的图像,得到图像类别,提取图像中的文字,将图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
S103,表情分析模块分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;
S104,预警与得分模块根据所述图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;
S105,舆情预警模块根据舆情分析结果和舆情得分确定预警得分,发出预警。
优选地,还能够存储采集到的各话题的主题信息和评论信息以及各模块分析得出的数据和结果等。
本申请的系统中,通过分类主题信息中的图像,得到图像类别,能够识别图像中的舆情类别;根据图像类别、图像中的文字和主题信息中的文字确定舆情得分,使用舆情分析结果和舆情得分确定预警得分,发出预警,能够准确、快速地发布与图像中的舆情对应的舆情预警。通过以单位时间计算舆情分析指标,获得消极评论率Ti,消极评论增长率Pi和舆情热度Yi,能够迅速对舆情的变化做出反应。本申请的系统识别舆情要素的平均准确率达到了81.67%,舆情预警方面在保证95%召回率的情况下有着75.03%的预警精确率,舆情识别质量高。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于图像的网络舆情预警系统,其特征在于,包括:
信息获取模块,用于获取网络社区中各话题的主题信息和评论信息,发送所述主题信息至分类与识别模块,发送所述评论信息至表情分析模块;
分类与识别模块,用于分类主题信息中的图像,得到图像类别,提取所述图像中的文字,将所述图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
表情分析模块,用于分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;所述表情分析模块,具体用于分析评论信息中的图片,得到评论信息的情感倾向类别,统计各情感倾向类别的评论数量,使用舆情分析指标计算舆情分析结果,发送至舆情预警模块;所述舆情分析指标包括:消极评论率,消极评论增长率和舆情热度;
计第i小时内的积极评论数为Li,消极评论数为Ni,中立评论数为Mi;消极评论率Ti是消极评论占总评论的比例;
消极评论增长率Pi是消极评论率的变化情况;Ti-1为前一个小时的消极评论率;
舆情热度Yi用来衡量网络舆情的规模;其中,λ1、λ2和λ3分别用来调节积极评论数、消极评论数和中立评论数的权重比例;
预警与得分模块,用于根据所述图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;
舆情预警模块,用于根据舆情分析结果和舆情得分确定预警得分,发出预警。
2.如权利要求1所述的一种网络舆情预警系统,其特征在于,所述分类与识别模块包括:
图像分类单元,用于根据分类模型,对主题信息中的图像进行分类,得到对应所述图像的一个或多个图像类别,发送至预警与得分模块;
文字识别单元,用于提取所述图像中的文字,发送至文本信息单元;
文本信息单元,用于将图像中的文字与主题信息中的文字发送至预警与得分模块。
3.如权利要求1所述的一种网络舆情预警系统,其特征在于,所述预警与得分模块包括:
文本预警单元,用于根据图像中的文字和主题信息中的文字,计算文本舆情要素特征,发送至舆情要素计算单元;
舆情要素计算单元,用于根据图像类别,计算图像舆情要素特征,融合文本舆情要素特征和图像舆情要素特征,获得舆情得分,发送至舆情预警模块。
4.如权利要求1所述的一种网络舆情预警系统,其特征在于,所述舆情预警模块发出的所述预警的类别与所述舆情得分中的最大值所对应的舆情类别相同。
5.如权利要求1所述的一种网络舆情预警系统,其特征在于,所述情感倾向类别包括:积极、消极和中立。
6.如权利要求3所述的一种网络舆情预警系统,其特征在于,所述图像类别、舆情得分、图像舆情要素特征和文本舆情要素特征,均为多维向量。
7.如权利要求4所述的一种网络舆情预警系统,其特征在于,所述舆情类别包括多个舆情大类,每个舆情大类包括多个图像类别。
8.一种基于图像的网络舆情预警方法,其特征在于,包括:
信息获取模块获取网络社区中各话题的主题信息和评论信息,发送所述主题信息至分类与识别模块,发送所述评论信息至表情分析模块;
分类与文字识别模块分类主题信息中的图像,得到图像类别,提取所述图像中的文字,将所述图像类别、图像中的文字与主题信息中的文字发送至预警与得分模块;
表情分析模块分析评论信息中的图片,得到评论信息的舆情分析结果,发送至舆情预警模块;
预警与得分模块根据所述图像类别、图像中的文字和主题信息中的文字确定舆情得分,发送至舆情预警模块;所述表情分析模块,具体用于分析评论信息中的图片,得到评论信息的情感倾向类别,统计各情感倾向类别的评论数量,使用舆情分析指标计算舆情分析结果,发送至舆情预警模块;所述舆情分析指标包括:消极评论率,消极评论增长率和舆情热度;
计第i小时内的积极评论数为Li,消极评论数为Ni,中立评论数为Mi;消极评论率Ti是消极评论占总评论的比例;
消极评论增长率Pi是消极评论率的变化情况;Ti-1为前一个小时的消极评论率;
舆情热度Yi用来衡量网络舆情的规模;其中,λ1、λ2和λ3分别用来调节积极评论数、消极评论数和中立评论数的权重比例;
舆情预警模块根据舆情分析结果和舆情得分确定预警得分,发出预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910959356.0A CN110991218B (zh) | 2019-10-10 | 2019-10-10 | 一种基于图像的网络舆情预警系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910959356.0A CN110991218B (zh) | 2019-10-10 | 2019-10-10 | 一种基于图像的网络舆情预警系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991218A CN110991218A (zh) | 2020-04-10 |
CN110991218B true CN110991218B (zh) | 2024-01-12 |
Family
ID=70081944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910959356.0A Active CN110991218B (zh) | 2019-10-10 | 2019-10-10 | 一种基于图像的网络舆情预警系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991218B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780038A (zh) * | 2020-06-10 | 2021-12-10 | 深信服科技股份有限公司 | 一种图片审计方法、装置、计算设备及存储介质 |
CN111968753A (zh) * | 2020-08-06 | 2020-11-20 | 平安科技(深圳)有限公司 | 疫情监控方法、装置、计算机设备和存储介质 |
CN112051905B (zh) * | 2020-10-10 | 2021-03-19 | 青海师范大学 | 一种舆情预警装置 |
CN112214661B (zh) * | 2020-10-12 | 2022-04-08 | 西华大学 | 一种面向视频常规评论的情感不稳定用户检测方法 |
CN114661974B (zh) * | 2022-03-21 | 2024-03-08 | 重庆市规划和自然资源信息中心 | 利用自然语言语义分析的政务网站舆情分析与预警的方法 |
CN115827989B (zh) * | 2023-02-16 | 2023-04-28 | 杭州金诚信息安全科技有限公司 | 大数据环境下网络舆情人工智能预警系统及方法 |
CN116522013B (zh) * | 2023-06-29 | 2023-09-05 | 乐麦信息技术(杭州)有限公司 | 基于社交网络平台的舆情分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279894A (zh) * | 2011-09-19 | 2011-12-14 | 嘉兴亿言堂信息科技有限公司 | 基于语义的查找、集成和提供评论信息的方法及搜索系统 |
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及系统 |
CN109933782A (zh) * | 2018-12-03 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 用户情绪预测方法和装置 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111488499A (zh) * | 2020-03-06 | 2020-08-04 | 北京健康之家科技有限公司 | 舆情数据的处理方法及装置 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11257161B2 (en) * | 2011-11-30 | 2022-02-22 | Refinitiv Us Organization Llc | Methods and systems for predicting market behavior based on news and sentiment analysis |
-
2019
- 2019-10-10 CN CN201910959356.0A patent/CN110991218B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279894A (zh) * | 2011-09-19 | 2011-12-14 | 嘉兴亿言堂信息科技有限公司 | 基于语义的查找、集成和提供评论信息的方法及搜索系统 |
CN103559233A (zh) * | 2012-10-29 | 2014-02-05 | 中国人民解放军国防科学技术大学 | 微博中网络新词抽取方法和微博情感分析方法及系统 |
CN109933782A (zh) * | 2018-12-03 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 用户情绪预测方法和装置 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111488499A (zh) * | 2020-03-06 | 2020-08-04 | 北京健康之家科技有限公司 | 舆情数据的处理方法及装置 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
Non-Patent Citations (1)
Title |
---|
王英 等.基于情感维度的大数据网络舆情情感倾向性分析研究――以"南昌大学自主保洁"微博舆情事件为例.情报科学.2017,(第04期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110991218A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991218B (zh) | 一种基于图像的网络舆情预警系统和方法 | |
Kennedy et al. | Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application | |
Febriana et al. | Twitter dataset for hate speech and cyberbullying detection in Indonesian language | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
US20170286867A1 (en) | Methods to determine likelihood of social media account deletion | |
Batzdorfer et al. | Conspiracy theories on Twitter: emerging motifs and temporal dynamics during the COVID-19 pandemic | |
Bhattacharya et al. | Perceptions of presidential candidates' personalities in twitter | |
Qiao et al. | Topic modelling and sentiment analysis of global warming tweets: Evidence from big data analysis | |
Luo et al. | Spread of misinformation in social networks: Analysis based on Weibo tweets | |
Xu et al. | MNRD: A merged neural model for rumor detection in social media | |
Mu et al. | Identifying Twitter users who repost unreliable news sources with linguistic information | |
Chen | Research on Fine-Grained Classification of Rumors in Public Crisis——Take the COVID-19 incident as an example | |
Roy et al. | Analyzing abusive text messages to detect digital dating abuse | |
Sintaha et al. | Cyberbullying detection using sentiment analysis in social media | |
He et al. | Detecting polarized topics using partisanship-aware contextualized topic embeddings | |
Joshi et al. | Modeling and detecting change in user behavior through his social media posting using cluster analysis | |
Purwandari et al. | Twitter-based classification for integrated source data of weather observations | |
CN112669936A (zh) | 一种基于文本和图像社交网络抑郁检测方法 | |
Wongkoblap et al. | Predicting social network users with depression from simulated temporal data | |
CN107590742B (zh) | 一种基于行为的社交网络用户属性值反演方法 | |
Awate et al. | Detection of Cyber bullying on Social Media Using Machine Learning | |
Azeez et al. | Classification of Virtual Harassment on Social Networks Using Ensemble Learning Techniques | |
Shubhang et al. | Identification of Hate Speech and Offensive Content using BI-GRU-LSTM-CNN Model | |
Rosińska et al. | Analysis of Individual Susceptibility of Social Media Users to Fake News: Polish Perspective. | |
Sambare et al. | A Review Paper on Cyber Harassment Detection Using Machine Learning Algorithm on Social Networking Website |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |