CN114912026B - 一种网络舆情监测分析处理方法、设备及计算机存储介质 - Google Patents
一种网络舆情监测分析处理方法、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114912026B CN114912026B CN202210601315.6A CN202210601315A CN114912026B CN 114912026 B CN114912026 B CN 114912026B CN 202210601315 A CN202210601315 A CN 202210601315A CN 114912026 B CN114912026 B CN 114912026B
- Authority
- CN
- China
- Prior art keywords
- news
- information
- release
- transfer
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 47
- 238000012544 monitoring process Methods 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012546 transfer Methods 0.000 claims description 156
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 20
- 230000005540 biological transmission Effects 0.000 abstract description 6
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开一种网络舆情监测分析处理方法、设备及计算机存储介质,通过在对目标新闻资讯在网络中存在的转传新闻进行真实性甄别过程中,分别从各转传新闻的发布标题、发布形式和发布主体信息三个维度进行真实性分析,进而根据以上分析结果评估各条转传新闻的发布内容真实度,从而对不符合发布内容真实度阈值的转传新闻进行预警,实现了转传新闻真实性的多维度甄别,丰富了虚假网络新闻的甄别维度,能够在一定程度上提高甄别结果的精准可靠度,进而有效减少了一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到情况的发生率,有利于保障互联网的公共舆论环境安全。
Description
技术领域
本发明涉及网络舆情监测技术领域,具体是一种网络舆情监测分析处理方法、设备及计算机存储介质。
背景技术
随着信息技术的迅猛发展,全媒体时代已经到来,人们获取新闻的渠道已经不再局限于传统的电视、报纸、杂志等形式,网络新闻凭借获取方式简单、形式新颖、生动活泼等优势吸引着广大网友,已经成为人们获取新闻的主要渠道。
然而,由于互联网的开放性和自主参与性较强,容易存在一些好事者为博取关注度对正规新闻发布平台发布的新闻资讯进行改编上传,形成虚假网络新闻。在这种情况下,如果不加以监测,这些虚假网络新闻在互联网的高速传播下会迅速发酵,进而形成社会舆论,轻则有损公共形象,重则会对社会稳定构成威胁。因此在形成社会舆论早期对互联网上存在的虚假网络新闻进行监测处理显得尤为必要。
当前在进行虚假新闻监测处理过程中较为重要的操作步骤即是对虚假网络新闻的甄别,但现有技术中对虚假网络新闻采取的甄别方式基本都只是对待甄别的新闻进行发布主体信息的甄别,忽略了对新闻的发布标题和发布形式的甄别,导致甄别维度过于单一,在一定程度上影响甄别结果的精准可靠度,容易存在一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到的情况,进而为互联网的公共舆论环境安全埋下了安全隐患。
发明内容
为了克服上述不足,本发明搭建了一种网络舆情监测分析处理方法、设备及计算机存储介质。
本发明的目的可以通过以下技术方案来实现:
本发明的第一方面提供一种网络舆情监测分析处理方法,包括以下步骤:
步骤1:将待进行舆情监测的新闻资讯记为目标新闻资讯,进而获取目标新闻资讯在正规新闻发布平台上的发布时间点和发布内容;
步骤2:从目标新闻资讯在正规新闻发布平台上的发布内容中提取发布参数;
步骤3:在发布时间点对应的设定时间间隔后,从目标新闻资讯对应的发布参数中提取发布标题,并将发布标题进行主题关键词提取,进而将提取的主题关键词进行网络搜索,由此得到目标新闻资讯在传播过程中的若干转传新闻;
步骤4:统计目标新闻资讯在传播过程中存在的转传新闻数量,并将各条转传新闻按照发布时间点的先后顺序编号为1,2,...,i,...,n;
步骤5:分别采集各条转传新闻对应的发布内容,并从中提取发布参数和发布平台;
步骤6:分别将各条转传新闻的发布参数与目标新闻资讯的发布参数进行对比,由此分析各条转传新闻对应的发布内容真实度;
步骤7:将各条转传新闻对应的发布内容真实度与预设的发布内容真实度阈值进行对比,若某条转传新闻对应的发布内容真实度小于预设的发布内容真实度阈值,则将该条转传新闻记为重点转传新闻;
步骤8:统计目标新闻资讯在网络上存在的重点转传新闻数量,并基于各条重点转传新闻的编号获取各条重点转传新闻对应的发布平台,进而对各条重点转传新闻对应的发布平台进行预警处理。
根据本发明第一方面的一种能够实现的方式,所述发布参数包括发布形式、发布标题和发布主体信息。
根据本发明第一方面的一种能够实现的方式,所述发布形式包括文本形式、图片形式、视频形式和图文形式。
根据本发明第一方面的一种能够实现的方式,所述发布主体信息包括文本信息、图片信息、视频信息和图文信息。
根据本发明第一方面的一种能够实现的方式,所述文本形式对应的发布主体信息为文本信息,图片形式对应的发布主体信息为图片信息,视频形式对应的发布主体信息为视频信息,图文形式对应的发布主体信息为图文信息。
根据本发明第一方面的一种能够实现的方式,所述步骤6中分析各条转传新闻对应的发布内容真实度具体参照以下:
步骤4-1:从发布参数中提取发布标题,进而将各条转传新闻对应的发布标题与目标新闻资讯对应的发布标题进行重合对比,从中获取各条转传新闻对应发布标题的重合字数;
步骤4-2:统计目标新闻资讯对应发布标题的字数,进而将各条转传新闻对应发布标题的重合字数与目标新闻资讯对应发布标题的字数进行对比,计算各条转传新闻对应的发布标题相似度,其计算公式为TSi表示为第i条转传新闻对应的发布标题相似度,ki表示为第i条转传新闻对应发布标题的重合字数,K表示为目标新闻资讯对应发布标题的总字数;
步骤4-3:从发布参数中提取发布形式,进而将各条转传新闻对应的发布形式与目标新闻资讯对应的发布形式进行匹配,若某条转传新闻对应的发布形式与目标新闻资讯对应的发布形式匹配一致,则将该条转传新闻对应的发布形式符合度记为ε,并将该条转传新闻记为形似转传新闻,同时执行步骤4-4,反之则将该条转传新闻对应的发布形式符合度记为ε′,并将该条转传新闻记为形异转传新闻,同时执行步骤4-5;
步骤4-4:构建各种发布形式对应的发布主体信息一致度分析算法,进而基于目标新闻资讯对应的发布形式,将形似转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的发布主体信息一致度分析算法中,分析形似转传新闻对应的发布主体信息一致度,记为λ;
步骤4-5:分别基于形异转传新闻和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息,进而将形异转传新闻对应的实质信息与目标新闻资讯对应的实质信息进行对比,从中获取形异转传新闻对应的实质信息重合字数,进而将形异转传新闻对应的实质信息重合字数与目标新闻资讯对应实质信息的总字数进行对比,分析形异转传新闻对应的发布主体信息一致度,记为λ′,其计算公式为
步骤4-6:将各条转传新闻对应的发布标题相似度、发布形式符合度和发布主体信息一致度通过发布内容真实度计算公式计算出各条转传新闻对应的发布内容真实度,其中/>表示为第i条转传新闻对应的发布内容真实度,FCi表示为第i条转传新闻对应的发布形式符合度,且FCi的取值可以为ε或ε′,SCi表示为第i条转传新闻对应的发布主体信息一致度,且SCi的取值可以为λ或λ′,a、b、c分别表示为发布标题相似度、发布形式符合度、发布主体信息一致度对应的权重系数;
根据本发明第一方面的一种能够实现的方式,所述步骤4-4中各种发布形式对应的发布主体信息一致度分析算法具体为:
(1)文本形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的文本信息与目标新闻资讯对应的文本信息进行去停用词处理,得到形似转传新闻和目标新闻资讯对应的初步处理文本信息;
将形似转传新闻对应的初步处理文本信息与目标新闻资讯对应的初步处理文本信息进行重合对比,由此获取形似转传新闻对应的文本信息重合字数,进而将形似转传新闻对应的文本信息重合字数除以目标新闻资讯对应的初步处理文本信息总字数,得到形似转传新闻对应的发布主体信息一致度;
(2)图片形式对应的主体信息一致度分析算法执行过程如下:
将形似转传新闻对应的图片信息与目标新闻资讯对应的图片信息进行重合,由此获取形似转传新闻对应的图片重合轮廓面积,进而将形似转传新闻对应的图片重合面积除以目标新闻资讯对应的图片轮廓面积,得到形似转传新闻对应的发布主体信息一致度;
(3)视频形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的视频信息和目标新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
将形似转传新闻和目标新闻资讯对应视频信息分割的各视频图片按照统一的顺序进行编号;
分别将形似转传新闻和目标新闻资讯中同一编号的视频图片按照图片形式对应的主体信息一致度分析算法进行分析,得到形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度;
将形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度进行累加,得到形似转传新闻对应的发布主体信息一致度;
(4)图文形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻和目标新闻资讯对应的图文信息划分为文本部分和图片部分;
依据文本形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的文本部分与目标新闻资讯对应图文信息中的文本部分进行对比,得到形似转传新闻对应图文信息中文本部分的发布主体信息一致度;
依据图片形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的图片部分与目标新闻资讯对应图文信息中的图片部分进行对比,得到形似转传新闻对应图文信息中图片部分的发布主体信息一致度;
将形似转传新闻对应图文信息中文本部分和图片部分的发布主体信息一致度进行叠加,得到形似转传新闻对应的发布主体信息一致度。
根据本发明第一方面的一种能够实现的方式,所述步骤4-5中分别基于形异转传新闻对应的发布形式和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息具体包括:
步骤4-5-1:搭建各种发布形式对应的实质信息识别模型;
步骤4-5-2:分别将形异转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的实质信息识别模型中,由此识别出形异转传新闻和目标新闻资讯对应的实质信息。
本发明的第二方面提出一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的一种网络舆情监测分析处理方法。
本发明的第三方面提出一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的一种网络舆情监测分析处理方法。
基于上述,本发明具有的优点在于:
本发明在对目标新闻资讯在网络中存在的转传新闻进行真实性甄别过程中,分别从各转传新闻的发布标题、发布形式和发布主体信息三个维度进行真实性分析,进而根据以上分析结果评估各条转传新闻的发布内容真实度,从而对不符合发布内容真实度阈值的转传新闻进行预警,实现了转传新闻真实性的多维度甄别,丰富了虚假网络新闻的甄别维度,能够在一定程度上提高甄别结果的精准可靠度,进而有效减少了一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到情况的发生率,有利于保障互联网的公共舆论环境安全。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明的方法实施步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,一种网络舆情监测分析处理方法,包括以下步骤:
步骤1:将待进行舆情监测的新闻资讯记为目标新闻资讯,进而获取目标新闻资讯在正规新闻发布平台上的发布时间点和发布内容;
步骤2:从目标新闻资讯在正规新闻发布平台上的发布内容中提取发布参数,所述发布参数包括发布形式、发布标题和发布主体信息,其中发布形式包括文本形式、图片形式、视频形式和图文形式,发布主体信息包括文本信息、图片信息、视频信息和图文信息;
上述中文本形式对应的发布主体信息为文本信息,图片形式对应的发布主体信息为图片信息,视频形式对应的发布主体信息为视频信息,图文形式对应的发布主体信息为图文信息;
步骤3:在发布时间点对应的设定时间间隔后,从目标新闻资讯对应的发布参数中提取发布标题,并将发布标题进行主题关键词提取,进而将提取的主题关键词进行网络搜索,由此得到目标新闻资讯在网络中的若干转传新闻;
需要说明的是,上述提到的转传新闻是指目标新闻资讯在正规新闻平台发布之后,其他资讯平台对目标新闻资讯进行转载改编之后形成的新闻;
步骤4:统计目标新闻资讯在网络中存在的转传新闻数量,并将各条转传新闻按照发布时间点的先后顺序编号为1,2,...,i,...,n;
步骤5:分别采集各条转传新闻对应的发布内容,并从中提取发布参数和发布平台;
步骤6:分别将各条转传新闻的发布参数与目标新闻资讯的发布参数进行对比,由此分析各条转传新闻对应的发布内容真实度,其具体分析步骤如下:
步骤4-1:从发布参数中提取发布标题,进而将各条转传新闻对应的发布标题与目标新闻资讯对应的发布标题进行重合对比,从中获取各条转传新闻对应发布标题的重合字数;
步骤4-2:统计目标新闻资讯对应发布标题的字数,进而将各条转传新闻对应发布标题的重合字数与目标新闻资讯对应发布标题的字数进行对比,计算各条转传新闻对应的发布标题相似度,其计算公式为TSi表示为第i条转传新闻对应的发布标题相似度,ki表示为第i条转传新闻对应发布标题的重合字数,K表示为目标新闻资讯对应发布标题的总字数;
步骤4-3:从发布参数中提取发布形式,进而将各条转传新闻对应的发布形式与目标新闻资讯对应的发布形式进行匹配,若某条转传新闻对应的发布形式与目标新闻资讯对应的发布形式匹配一致,则将该条转传新闻对应的发布形式符合度记为ε,并将该条转传新闻记为形似转传新闻,同时执行步骤4-4,反之则将该条转传新闻对应的发布形式符合度记为ε′,并将该条转传新闻记为形异转传新闻,同时执行步骤4-5;
步骤4-4:构建各种发布形式对应的发布主体信息一致度分析算法,进而基于目标新闻资讯对应的发布形式,将形似转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的发布主体信息一致度分析算法中,分析形似转传新闻对应的发布主体信息一致度,记为λ;
上述中各种发布形式对应的发布主体信息一致度分析算法具体为:
(1)文本形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的文本信息与目标新闻资讯对应的文本信息进行去停用词处理,得到形似转传新闻和目标新闻资讯对应的初步处理文本信息;
将形似转传新闻对应的初步处理文本信息与目标新闻资讯对应的初步处理文本信息进行重合对比,由此获取形似转传新闻对应的文本信息重合字数,进而将形似转传新闻对应的文本信息重合字数除以目标新闻资讯对应的初步处理文本信息总字数,得到形似转传新闻对应的发布主体信息一致度;
(2)图片形式对应的主体信息一致度分析算法执行过程如下:
将形似转传新闻对应的图片信息与目标新闻资讯对应的图片信息进行重合,由此获取形似转传新闻对应的图片重合轮廓面积,进而将形似转传新闻对应的图片重合面积除以目标新闻资讯对应的图片轮廓面积,得到形似转传新闻对应的发布主体信息一致度;
(3)视频形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的视频信息和目标新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
将形似转传新闻和目标新闻资讯对应视频信息分割的各视频图片按照统一的顺序进行编号;
分别将形似转传新闻和目标新闻资讯中同一编号的视频图片按照图片形式对应的主体信息一致度分析算法进行分析,得到形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度;
将形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度进行累加,得到形似转传新闻对应的发布主体信息一致度;
(4)图文形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻和目标新闻资讯对应的图文信息划分为文本部分和图片部分;
依据文本形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的文本部分与目标新闻资讯对应图文信息中的文本部分进行对比,得到形似转传新闻对应图文信息中文本部分的发布主体信息一致度;
依据图片形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的图片部分与目标新闻资讯对应图文信息中的图片部分进行对比,得到形似转传新闻对应图文信息中图片部分的发布主体信息一致度;
将形似转传新闻对应图文信息中文本部分和图片部分的发布主体信息一致度进行叠加,得到形似转传新闻对应的发布主体信息一致度;
步骤4-5:分别基于形异转传新闻和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息,进而将形异转传新闻对应的实质信息与目标新闻资讯对应的实质信息进行对比,从中获取形异转传新闻对应的实质信息重合字数,进而将形异转传新闻对应的实质信息重合字数与目标新闻资讯对应实质信息的总字数进行对比,分析形异转传新闻对应的发布主体信息一致度,记为λ′,其计算公式为
上述中识别形异转传新闻和目标新闻资讯对应的实质信息具体包括:
步骤4-5-1:搭建各种发布形式对应的实质信息识别模型,其中具体操作过程如下:
A:文本形式对应的实质信息识别模型如下:
A-1:将发布形式属于文本形式的新闻资讯对应的文本信息进行分词和去停用词处理,得到若干分词词组;
A-2:对各分词词组进行词性标注;
A-3:根据各分词词组对应的词性分别从中筛选出词性为名词和动词的词组;
A-4:根据预定义的各种新闻要素参数适配的词性,从筛选出的词组中提取新闻要素参数;
上述中提到的新闻要素参数包括人物、时间、地点、事件、原因和发生过程,其中人物、时间和地点适配的词性均为名词,事件、原因和发生过程适配的词性为动词;
A-5:将提取的新闻要素参数按照设定的新闻报道规则组合成叙事语句,从而将组合成的叙事语句作为新闻资讯的实质信息;
在一个具体实施例中,设定的新闻报道规则可以为时间+人物+地点+原因+事件+发生过程;
B:图片形式对应的实质信息识别模型如下:
B-1:将发布形式属于图片形式的新闻资讯对应的图片信息进行人物展示区域和背景环境展示区域划分;
B-2:从图片信息对应的人物展示区域中提取人物外形特征和人物动作特征,并从图片信息对应的背景环境展示区域中提取发生地信息和发生时间信息;
B-3:基于提取的人物外形特征识别新闻要素参数中的人物,并从提取的人物动作特征中识别新闻要素参数中的事件、原因和发生过程;
B-4:基于提取的发生地信息和发生时间信息识别新闻要素参数中的时间和地点;
B-5:将识别出的新闻要素参数按照设定的新闻报道规则组合成叙事语句,从而将组合成的叙事语句作为新闻资讯的实质信息;
C:视频形式对应的实质信息识别模型如下:
C-1:将发布形式属于视频形式的新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
C-2:将分割的各视频图片分别进行展示主体识别,进而从中筛选出存在展示主体的视频图片,并将其记为特征视频图片;
上述提到的展示主体是指人物和背景环境均具备;
C-3:将筛选出的特征视频图片按照图片形式对应的实质信息识别模型进行实质信息识别,其识别出的信息作为作为新闻资讯的实质信息;
B-2:从图片信息对应的人物展示区域中提取人物外形特征和人物动作特征,并从图片信息对应的背景环境展示区域中提取发生地信息和发生时间信息;
B-3:基于提取的人物外形特征识别新闻要素参数中的人物,并从提取的人物动作特征中识别新闻要素参数中的事件、原因和发生过程;
D.图文形式对应的实质信息识别模型如下:
D-1:将发布形式属于图文形式的新闻资讯对应的图文信息划分为文本部分和图片部分;
D-2:依据文本形式对应的实质信息识别模型将图文信息划分的文本部分进行实质信息识别;
D-3:依据图片形式对应的实质信息识别模型将图文信息划分的图片部分进行实质信息识别;
D-4:将文本部分识别的实质信息和图片部分识别的实质信息进行去重处理,并将处理后的信息作为新闻资讯的实质信息;
步骤4-5-2:分别将形异转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的实质信息识别模型中,由此识别出形异转传新闻和目标新闻资讯对应的实质信息;
步骤4-6:将各条转传新闻对应的发布标题相似度、发布形式符合度和发布主体信息一致度通过发布内容真实度计算公式计算出各条转传新闻对应的发布内容真实度,其中/>表示为第i条转传新闻对应的发布内容真实度,FCi表示为第i条转传新闻对应的发布形式符合度,且FCi的取值可以为ε或ε′,SCi表示为第i条转传新闻对应的发布主体信息一致度,且SCi的取值可以为λ或λ′,a、b、c分别表示为发布标题相似度、发布形式符合度、发布主体信息一致度对应的权重系数;
步骤7:将各条转传新闻对应的发布内容真实度与预设的发布内容真实度阈值进行对比,若某条转传新闻对应的发布内容真实度小于预设的发布内容真实度阈值,则将该条转传新闻记为重点转传新闻;
步骤8:统计目标新闻资讯在网络上存在的重点转传新闻数量,并基于各条重点转传新闻的编号获取各条重点转传新闻对应的发布平台,进而对各条重点转传新闻对应的发布平台进行预警处理。
本发明实施例在对目标新闻资讯在网络中存在的转传新闻进行真实性甄别过程中,分别从各转传新闻的发布标题、发布形式和发布主体信息三个维度进行真实性分析,进而根据以上分析结果评估各条转传新闻的发布内容真实度,从而对不符合发布内容真实度阈值的转传新闻进行预警,实现了转传新闻真实性的多维度甄别,丰富了虚假网络新闻的甄别维度,能够在一定程度上提高甄别结果的精准可靠度,进而有效减少了一些发布主体信息真实,但发布标题和发布形式存在捏造的虚假网络新闻无法甄别到情况的发生率,有利于保障互联网的公共舆论环境安全。
本发明的第二方面提出一种设备,包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行本发明所述的一种网络舆情监测分析处理方法。
本发明的第三方面提出一种计算机存储介质,所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现本发明所述的一种网络舆情监测分析处理方法。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种网络舆情监测分析处理方法,其特征在于,包括以下步骤:
步骤1:将待进行舆情监测的新闻资讯记为目标新闻资讯,进而获取目标新闻资讯在正规新闻发布平台上的发布时间点和发布内容;
步骤2:从目标新闻资讯在正规新闻发布平台上的发布内容中提取发布参数;
步骤3:在发布时间点对应的设定时间间隔后,从目标新闻资讯对应的发布参数中提取发布标题,并将发布标题进行主题关键词提取,进而将提取的主题关键词进行网络搜索,由此得到目标新闻资讯在网络中的若干转传新闻;
步骤4:统计目标新闻资讯在网络中存在的转传新闻数量,并将各条转传新闻按照发布时间点的先后顺序编号为1,2,...,i,...,n;
步骤5:分别采集各条转传新闻对应的发布内容,并从中提取发布参数和发布平台;
步骤6:分别将各条转传新闻的发布参数与目标新闻资讯的发布参数进行对比,由此分析各条转传新闻对应的发布内容真实度;
步骤7:将各条转传新闻对应的发布内容真实度与预设的发布内容真实度阈值进行对比,若某条转传新闻对应的发布内容真实度小于预设的发布内容真实度阈值,则将该条转传新闻记为重点转传新闻;
步骤8:统计目标新闻资讯在网络上存在的重点转传新闻数量,并基于各条重点转传新闻的编号获取各条重点转传新闻对应的发布平台,进而对各条重点转传新闻对应的发布平台进行预警处理。
2.根据权利要求1所述的一种网络舆情监测分析处理方法,其特征在于:所述发布参数包括发布形式、发布标题和发布主体信息。
3.根据权利要求2所述的一种网络舆情监测分析处理方法,其特征在于:所述发布形式包括文本形式、图片形式、视频形式和图文形式。
4.根据权利要求2所述的一种网络舆情监测分析处理方法,其特征在于:所述发布主体信息包括文本信息、图片信息、视频信息和图文信息。
5.根据权利要求3所述的一种网络舆情监测分析处理方法,其特征在于:所述文本形式对应的发布主体信息为文本信息,图片形式对应的发布主体信息为图片信息,视频形式对应的发布主体信息为视频信息,图文形式对应的发布主体信息为图文信息。
6.根据权利要求1所述的一种网络舆情监测分析处理方法,其特征在于:所述步骤6中分析各条转传新闻对应的发布内容真实度具体参照以下:
步骤4-1:从发布内容参数中提取发布标题,并从发布参数中提取发布标题,进而将各条转传新闻对应的发布标题与目标新闻资讯对应的发布标题进行重合对比,从中获取各条转传新闻对应发布标题的重合字数;
步骤4-2:统计目标新闻资讯对应发布标题的字数,进而将各条转传新闻对应发布标题的重合字数与目标新闻资讯对应发布标题的字数进行对比,计算各条转传新闻对应的发布标题相似度,其计算公式为TSi表示为第i条转传新闻对应的发布标题相似度,ki表示为第i条转传新闻对应发布标题的重合字数,K表示为目标新闻资讯对应发布标题的总字数;
步骤4-3:从发布参数中提取发布形式,进而将各条转传新闻对应的发布形式与目标新闻资讯对应的发布形式进行匹配,若某条转传新闻对应的发布形式与目标新闻资讯对应的发布形式匹配一致,则将该条转传新闻对应的发布形式符合度记为ε,并将该条转传新闻记为形似转传新闻,同时执行步骤4-4,反之则将该条转传新闻对应的发布形式符合度记为ε′,并将该条转传新闻记为形异转传新闻,同时执行步骤4-5;
步骤4-4:构建各种发布形式对应的发布主体信息一致度分析算法,进而基于目标新闻资讯对应的发布形式,将形似转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的发布主体信息一致度分析算法中,分析形似转传新闻对应的发布主体信息一致度,记为λ;
步骤4-5:分别基于形异转传新闻和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息,进而将形异转传新闻对应的实质信息与目标新闻资讯对应的实质信息进行对比,从中获取形异转传新闻对应的实质信息重合字数,进而将形异转传新闻对应的实质信息重合字数与目标新闻资讯对应实质信息的总字数进行对比,分析形异转传新闻对应的发布主体信息一致度,记为λ′,其计算公式为
步骤4-6:将各条转传新闻对应的发布标题相似度、发布形式符合度和发布主体信息一致度通过发布内容真实度计算公式计算出各条转传新闻对应的发布内容真实度,其中/>表示为第i条转传新闻对应的发布内容真实度,FCi表示为第i条转传新闻对应的发布形式符合度,且FCi的取值可以为ε或ε′,SCi表示为第i条转传新闻对应的发布主体信息一致度,且SCi的取值可以为λ或λ′,a、b、c分别表示为发布标题相似度、发布形式符合度、发布主体信息一致度对应的权重系数。
7.根据权利要求6所述的一种网络舆情监测分析处理方法,其特征在于:所述步骤4-4中各种发布形式对应的发布主体信息一致度分析算法具体为:
(1)文本形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的文本信息与目标新闻资讯对应的文本信息进行去停用词处理,得到形似转传新闻和目标新闻资讯对应的初步处理文本信息;
将形似转传新闻对应的初步处理文本信息与目标新闻资讯对应的初步处理文本信息进行重合对比,由此获取形似转传新闻对应的文本信息重合字数,进而将形似转传新闻对应的文本信息重合字数除以目标新闻资讯对应的初步处理文本信息总字数,得到形似转传新闻对应的发布主体信息一致度;
(2)图片形式对应的主体信息一致度分析算法执行过程如下:
将形似转传新闻对应的图片信息与目标新闻资讯对应的图片信息进行重合,由此获取形似转传新闻对应的图片重合轮廓面积,进而将形似转传新闻对应的图片重合面积除以目标新闻资讯对应的图片轮廓面积,得到形似转传新闻对应的发布主体信息一致度;
(3)视频形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻对应的视频信息和目标新闻资讯对应的视频信息按照设定的视频侦进行分割,得到若干视频图片;
将形似转传新闻和目标新闻资讯对应视频信息分割的各视频图片按照统一的顺序进行编号;
分别将形似转传新闻和目标新闻资讯中同一编号的视频图片按照图片形式对应的主体信息一致度分析算法进行分析,得到形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度;
将形似转传新闻对应的视频信息中各视频图片对应的发布主体信息一致度进行累加,得到形似转传新闻对应的发布主体信息一致度;
(4)图文形式对应的主体信息一致度分析算法执行过程如下:
分别将形似转传新闻和目标新闻资讯对应的图文信息划分为文本部分和图片部分;
依据文本形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的文本部分与目标新闻资讯对应图文信息中的文本部分进行对比,得到形似转传新闻对应图文信息中文本部分的发布主体信息一致度;
依据图片形式对应的主体信息一致度分析算法将形似转传新闻对应图文信息中的图片部分与目标新闻资讯对应图文信息中的图片部分进行对比,得到形似转传新闻对应图文信息中图片部分的发布主体信息一致度;
将形似转传新闻对应图文信息中文本部分和图片部分的发布主体信息一致度进行叠加,得到形似转传新闻对应的发布主体信息一致度。
8.根据权利要求6所述的一种网络舆情监测分析处理方法,其特征在于:所述步骤4-5中分别基于形异转传新闻对应的发布形式和目标新闻资讯对应的发布形式识别形异转传新闻和目标新闻资讯对应的实质信息具体包括:
步骤4-5-1:搭建各种发布形式对应的实质信息识别模型;
步骤4-5-2:分别将形异转传新闻和目标新闻资讯对应的发布主体信息导入相应发布形式对应的实质信息识别模型中,由此识别出形异转传新闻和目标新闻资讯对应的实质信息。
9.一种设备,其特征在于:所述设备包括处理器,以及与处理器连接的内存和网络接口;所述网络接口与服务器中的非易失性存储器连接;所述处理器在运行时通过所述网络接口从所述非易失性存储器中调取计算机程序,并通过所述内存运行所述计算机程序,以执行上述权利要求1-8任一项所述的方法。
10.一种计算机存储介质,其特征在于:所述计算机存储介质烧录有计算机程序,所述计算机程序在服务器的内存中运行时实现上述权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601315.6A CN114912026B (zh) | 2022-05-30 | 2022-05-30 | 一种网络舆情监测分析处理方法、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210601315.6A CN114912026B (zh) | 2022-05-30 | 2022-05-30 | 一种网络舆情监测分析处理方法、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114912026A CN114912026A (zh) | 2022-08-16 |
CN114912026B true CN114912026B (zh) | 2023-11-07 |
Family
ID=82771554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210601315.6A Active CN114912026B (zh) | 2022-05-30 | 2022-05-30 | 一种网络舆情监测分析处理方法、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912026B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116664080B (zh) * | 2023-07-25 | 2023-10-10 | 山东唐和智能科技有限公司 | 一种微建议信息处理系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257457A (zh) * | 2016-07-15 | 2016-12-28 | 合肥指南针电子科技有限责任公司 | 一种舆情收集整理方法 |
CN110008428A (zh) * | 2019-03-29 | 2019-07-12 | 深圳市元征科技股份有限公司 | 新闻数据处理方法、装置、区块链节点设备及存储介质 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
CN113220533A (zh) * | 2021-05-21 | 2021-08-06 | 南京诺迈特网络科技有限公司 | 一种网络舆情监控方法及系统 |
CN114443930A (zh) * | 2022-02-16 | 2022-05-06 | 周金玉 | 一种新闻舆情智能监测分析方法、系统及计算机存储介质 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020061578A1 (en) * | 2018-09-21 | 2020-03-26 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
CN110188194B (zh) * | 2019-04-26 | 2020-12-01 | 哈尔滨工业大学(深圳) | 一种基于多任务学习模型的假新闻检测方法及系统 |
US11494446B2 (en) * | 2019-09-23 | 2022-11-08 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
-
2022
- 2022-05-30 CN CN202210601315.6A patent/CN114912026B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257457A (zh) * | 2016-07-15 | 2016-12-28 | 合肥指南针电子科技有限责任公司 | 一种舆情收集整理方法 |
WO2019183191A1 (en) * | 2018-03-22 | 2019-09-26 | Michael Bronstein | Method of news evaluation in social media networks |
CN110008428A (zh) * | 2019-03-29 | 2019-07-12 | 深圳市元征科技股份有限公司 | 新闻数据处理方法、装置、区块链节点设备及存储介质 |
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
CN113220533A (zh) * | 2021-05-21 | 2021-08-06 | 南京诺迈特网络科技有限公司 | 一种网络舆情监控方法及系统 |
CN114547293A (zh) * | 2022-01-13 | 2022-05-27 | 山东师范大学 | 一种跨平台虚假新闻检测方法及系统 |
CN114443930A (zh) * | 2022-02-16 | 2022-05-06 | 周金玉 | 一种新闻舆情智能监测分析方法、系统及计算机存储介质 |
Non-Patent Citations (4)
Title |
---|
基于标题特征词密度聚类以及相似度计算的热点发现研究;韩晨靖;《中国优秀硕士学位论文全文数据库(基础科学辑)》;20140115;第1-68页 * |
改进的K-means算法在网络舆情分析中的应用;汤寒青、王汉军;《计算机系统应用》;20110315;第20卷(第3期);第165-168、196页 * |
浅谈大数据时代网络舆情的分析与研究;薛重阳;《西藏科技》;20200215(第323期);第65-67页 * |
社交媒体附加信息对用户信任与分享健康类谣言的影响分析;邓胜利等;《情报科学》;20180305(第03期);第51-57页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114912026A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020437B (zh) | 一种视频和弹幕相结合的情感分析及可视化方法 | |
CN110245259B (zh) | 基于知识图谱的视频打标签方法及装置、计算机可读介质 | |
Bruni et al. | Distributional semantics from text and images | |
CN108268539A (zh) | 基于文本分析的视频匹配系统 | |
CN105354216B (zh) | 一种中文微博话题信息处理方法 | |
CN108550054B (zh) | 一种内容质量评估方法、装置、设备和介质 | |
CN107180087B (zh) | 一种搜索方法及装置 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN104376108B (zh) | 一种基于6w语义标识的非结构化自然语言信息抽取方法 | |
Zhou et al. | Neural storyline extraction model for storyline generation from news articles | |
CN114912026B (zh) | 一种网络舆情监测分析处理方法、设备及计算机存储介质 | |
Beleveslis et al. | A hybrid method for sentiment analysis of election related tweets | |
CN115775363A (zh) | 一种基于文本与视频融合的违规视频检测方法 | |
CN110378190B (zh) | 基于主题识别的视频内容检测系统及检测方法 | |
CN109062905B (zh) | 一种弹幕文本价值评价方法、装置、设备及介质 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
KR20170048736A (ko) | 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN111986259A (zh) | 颜文字检测模型的训练、视频数据的审核方法及相关装置 | |
CN116453013A (zh) | 视频数据的处理方法及设备 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
CN114443930A (zh) | 一种新闻舆情智能监测分析方法、系统及计算机存储介质 | |
Kikkisetti et al. | Using LLMs to discover emerging coded antisemitic hate-speech emergence in extremist social media | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 | |
Sakamoto et al. | Classification of texts describing baseball batting results on Twitter using BERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231016 Address after: Building A1, Bainiaohe Digital Town, Haohuahong Town, Huishui County, Qiannan Buyi and Miao Autonomous Prefecture, Guizhou Province, 550600 Applicant after: Guizhou Mengdong Technology Co.,Ltd. Address before: No. 11, Jiangxing Road, Jianghan District, Wuhan City, Hubei Province, 430021 Applicant before: Wuhan Jiayue Sijin Culture Media Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |