CN117150104B - 一种基于互联网的多路径舆情话题溯源追踪系统 - Google Patents
一种基于互联网的多路径舆情话题溯源追踪系统 Download PDFInfo
- Publication number
- CN117150104B CN117150104B CN202311373333.4A CN202311373333A CN117150104B CN 117150104 B CN117150104 B CN 117150104B CN 202311373333 A CN202311373333 A CN 202311373333A CN 117150104 B CN117150104 B CN 117150104B
- Authority
- CN
- China
- Prior art keywords
- public opinion
- path
- user
- users
- traced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000012790 confirmation Methods 0.000 claims abstract description 7
- 238000013075 data extraction Methods 0.000 claims abstract description 6
- 238000012795 verification Methods 0.000 claims abstract description 6
- 230000005540 biological transmission Effects 0.000 claims description 45
- 230000007935 neutral effect Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 19
- 238000011161 development Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 8
- 230000007480 spreading Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/30—Managing network names, e.g. use of aliases or nicknames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于舆情话题溯源追踪技术领域,具体公开提供的一种基于互联网的多路径舆情话题溯源追踪系统,该系统包括路径基本传播数据提取模块、舆情传播状态初步核实模块、舆情传播路径溯源跟踪模块、舆情路径源头解析确认模块和舆情路径源头反馈终端;本发明通过根据目标舆情话题以及各衍生子舆情话题参与用户的观点情况进行舆情传播状态初步核实,由此进行传播路径筛选,并对筛选后的传播路径进行舆情跟踪分析,确认舆情传播源头路径和舆情源头传播用户,有效解决了当前对多路径舆情溯源采用统一整体式溯源跟踪的不足,规避了当前溯源跟踪流程的繁琐性,实现了不同传播舆情的预先分类,同时提高了舆情溯源定位的精准性。
Description
技术领域
本发明属于舆情话题溯源追踪技术领域,涉及到一种基于互联网的多路径舆情话题溯源追踪系统。
背景技术
在互联网时代,舆情信息以高速、广泛的方式传播。人们通过社交媒体、新闻媒体、论坛等各种渠道获取信息和表达观点。这种信息传播机制使得舆情事件的形成和传播路径多样化和复杂化,由此凸显了多路径舆情话题溯源追踪的重要性。
现有的多路径舆情话题溯源追踪主要是从时间维度进行追踪,即主要依据于时间进行舆情源头评定,很显然,这种评定方式还存在以下几个方面的问题:1、较为单一和局限,未对同一时间内或者相差较短时间内发布观点进行进一步舆情源头评定,进而使得舆情溯源结果的可靠性和合理性得不到保障。
2、当前属于结果导向型追踪,当前仅从时间节点层面进行溯源,而舆情事件往往是一个动态的过程,随着时间的推移可能会发展、演变或消退,当前未对其发展动态进行进一步分析,进而无法提高多路径舆情溯源追踪结果的真实性和参考性。
3、当前对多路径舆情溯源采用统一整体式溯源跟踪,需要进行大规模数据处理和分析,溯源跟踪流程较为繁琐,舆情溯源的效率得不到保障,未对不同路径进行预先舆情评定分类,无法降低溯源跟踪的工作量,同时也无法提高舆情溯源定位的精准性。
发明内容
鉴于此,为解决上述背景技术中所提出的问题,现提出一种基于互联网的多路径舆情话题溯源追踪系统。
本发明的目的可以通过以下技术方案实现:本发明提供一种基于互联网的多路径舆情话题溯源追踪系统,该系统包括:路径基本传播数据提取模块,用于提取各传播路径的注册用户数目和各传播路径内目标舆情话题的基本传播数据。
舆情传播状态初步核实模块,用于核实各传播路径的舆情状态,得到各传播路径的舆情触发指数,将大于设定舆情触发指数的各传播路径记为各待溯源路径。
舆情传播路径溯源跟踪模块,用于对各待溯源路径进行舆情溯源跟踪,得到各待溯源路径的舆情跟踪数据。
舆情路径源头解析确认模块,用于根据各待溯源路径的舆情跟踪数据,分析各待溯源路径对应的舆情源头趋向指数,/>表示待溯源路径编号,/>,将舆情源头趋向指数最大的待溯源路径记为舆情传播源头路径,并确认舆情源头传播用户,同时提取舆情源头传播用户的ID账号。
舆情路径源头反馈终端,用于将舆情传播源头路径和舆情源头用户的ID账号反馈至舆情管理人员。
优选地,所述基本传播数据包括参与用户数目、各参与用户的观点内容以及衍生子舆情话题数目、各衍生子舆情话题下的参与用户数目和各参与用户的观点内容。
优选地,所述核实各传播路径的舆情状态,包括:将各传播路径的注册用户数目记为,同时从各传播路径内目标舆情话题的基本传播数据中提取参与用户数目和衍生子舆情话题数目,分别记为/>和/>,/>表示传播路径编号,/>。
从所述目标舆情话题基本传播数据中提取各参与用户的观点内容,确认各传播路径内目标舆情话题对应各参与用户的观点类型,其中,观点类型包括正面、负面和中立。
将观点类型为负面和中立的参与用户分别记为负面参与用户和中立参与用户,统计各传播路径内目标舆情话题的负面参与用户数目和中立参与用户数目,分别记为和。
从目标舆情话题基本传播数据中提取各衍生子舆情话题下各参与用户的观点内容,统计各传播路径的负面衍生子舆情话题数目。
统计各传播路径的舆情触发指数,/>,为设定的参照衍生子话题数目。
优选地,所述确认各传播路径内目标舆情话题对应各参与用户的观点类型,包括:通过关键词识别技术对各传播路径内目标舆情话题对应各参与用户的观点内容进行关键词识别,并统计各传播路径内目标舆情话题对应各参与用户的负面、中立和正面的关键词占比,分别记为、/>和/>,j表示目标舆情话题参与用户编号,/>。
统计各传播路径中各参与用户的观点单一趋向度,,/>为设定的观点关键词占比偏差。
将、/>、/>和/>导入观点类型评估模型/>中,输出各传播路径中目标舆情话题对应各参与用户的观点类型,其中,/>分别为设定的各观点类型评定条件,/>表示/>且/>成立,/>表示/>且/>成立,表示/>或者/>且/>成立。
优选地,所述舆情跟踪数据包括各参与用户的账号信息以及在各次发表观点的时间点、显示粉丝数、评论用户数目、转发用户数目和各转发用户的账号信息,其中,账号信息包括累计评论用户数目、累计转发用户数目、累计获赞数和累计注册时长。
优选地,所述分析各待溯源路径对应的舆情源头趋向指数,包括:从各待溯源路径的舆情跟踪数据中提取各参与用户在各次发表观点的时间点,进而提取首次发表观点的时间点,记为。
将各待溯源路径对应各参与用户首次发表观点的时间点进行相互对比,从中筛选出最早首次发表观点时间点,作为起源时间点,记为,设定各待溯源路径的舆情源头趋势权重因子/>。
从各待溯源路径的舆情跟踪数据中提取各参与用户的账号信息以及各参与用户在各次发表观点对应的转发用户数目和各转发用户的账号信息,统计各待溯源路径对应的舆情发展影响度。
统计各待溯源路径对应的舆情源头趋向指数,/>,分别为设定的参照的传播路径传播间隔时长、舆情发展影响度。
优选地,所述设定各待溯源路径的舆情源头趋势权重因子,包括:以起源时间点和设定的相似发表间隔时长组成参照发表时间区间,将首次发表观点的时间点位于参照发表时间区间内的各参与用户作为各目标分析用户,统计各待溯源路径的目标分析用户数目。
将各待溯源路径对应各目标分析用户首次发表观点的时间点与起源时间点进行对比,得到各待溯源路径对应各目标分析用户的发表起源间隔时长,并通过均值计算得到各待溯源路径对应平均发表起源间隔时长,记为。
统计各待溯源路径的舆情源头趋势权重因子,/>,/>分别为设定的参照参与用户数目、参照最短间隔时长。
优选地,所述统计各待溯源路径对应的舆情发展影响度,包括:从各待溯源路径对应各参与用户的账号信息中提取累计评论用户数目、累计转发用户数目和累计获赞数,分别记为、/>和/>,r表示待溯源路径内参与用户编号,/>。
统计各待溯源路径对应各参与用户的舆情影响度,,/>、/>、/>分别为设定的参照干扰的评论用户数目、转发用户数目、获赞数。
将与设定参照舆情影响度/>进行对比,统计各待溯源路径中大于/>的参与用户数目,作为影响用户数目,并记为/>。
将各待溯源路径内目标舆情话题对应各参与用户在各次发表观点对应的转发用户数目进行累加,得到各参与用户对应发表观点的转发用户总和,记为。
按照的统计方式同理统计得到各待溯源路径对应各参与用户在各次发表观点对应各转发用户的舆情影响度。
将舆情影响度大于的转发用户记为影响转发用户,统计各待溯源路径对应各参与用户在各次发表观点的影响转发用户数目,进而累加得到各待溯源路径内各参与用户对应发表影响转发用户数目总和,记为/>。
将各待溯源路径内目标舆情话题对应参与用户数目记为。
统计各待溯源路径对应的舆情发展影响度,,/>分别为设定参照影响发表用户比、影响转发用户比、影响转发用户比偏差。
优选地,所述确认舆情源头传播用户,包括:将舆情传播源头路径对应的各参与用户记为各关注用户。
提取各关注用户首次发表观点的时间点,并在时间数轴上进行标注,得到各标注点,同时以时间的增长方向为右方向。
提取位于时间数轴最左侧的标注点,记为目标标注点,并提取其他各标注点与目标标注点之间的间隔长度,由此确认各干扰标注点。
将目标标注点和各干扰标注点的对应关注用户作为各备选用户,将各备选用户的首次发表观点的时间点记为,/>表示备选用户编号,/>。
从舆情传播源头路径的舆情跟踪数据中提取各备选用户的累计注册时长以及在各次发表观点的时间点、显示粉丝数、评论用户数目和转发用户数目,统计各备选用户的账号变更度,记为。
从各待溯源路径对应各参与用户的舆情影响度中筛选出舆情传播源头路径对应各备选用户的舆情影响度,记为。
统计各备选用户的舆情源头趋向指数,/>,为设定的参照用户传播间隔时长,/>为设定参照的账号变更度。
优选地,所述统计各备选用户的账号变更度,包括:将各备选用户在各次发表观点的评论用户数目和转发用户数目进行累加,得到各备选用户在各次发表观点的互动用户数目。
以发表观点时间点为横坐标,分别以显示粉丝数和互动用户数目为纵坐标,构建各备选用户的粉丝变化曲线和互动变化曲线,从各备选用户的粉丝变化曲线和互动变化曲线中分别进行斜率和幅值提取,分别记为、/>和/>和/>。
提取各备选用户的累计账号注册时长,并与设定的各账号注册时长对应常规粉丝增长率和常规互动增长率进行匹配对比,得到各备选用户的常规粉丝增长率和常规互动增长率,分别记为和/>。
统计各备选用户的账号变更度,/>,分别为设定参照的粉丝突增数、互动突增数。
相较于现有技术,本发明的有益效果如下:(1)本发明通过根据目标舆情话题以及各衍生子舆情话题参与用户的观点情况进行舆情传播状态初步核实,由此进行传播路径筛选,并对筛选后的传播路径进行舆情跟踪分析,确认舆情传播源头路径和舆情源头传播用户,并进行反馈,有效解决了当前对多路径舆情溯源采用统一整体式溯源跟踪的不足,规避了当前溯源跟踪流程的繁琐性,实现了不同传播舆情的预先分类,降低了舆情溯源跟踪的工作量,进而缩减了舆情溯源的处理数据规模,从而提高了舆情溯源的效率,同时提高了舆情溯源定位的精准性。
(2)本发明通过从时间和用户账号影响两个维度进行舆情源头评定,从而确认舆情传播源头路径,有效规避了当前对路径舆情溯源跟踪的单一性和局限性,实现了同一时间内或者相差较短时间内发布观点的深度舆情源头评定,确保了舆情溯源结果的可靠性和合理性,。
(3)本发明通过从时间、用户账号影响以及用户账号的动态变化这三个维度进行舆情源头评定,进而确认舆情源头传播用户,拓展了舆情源头传播用户的评定依据,实现了舆情源头传播用户的多维度评定,还充分结合了账号在目标舆情话题发布时间周期内的动态变化规律,规避了当前结果导向型追踪方式的不足,提高了路径舆情溯源追踪结果的真实性和参考性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统各模块连接示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1所示,本发明提供了一种基于互联网的多路径舆情话题溯源追踪系统,该系统包括路径基本传播数据提取模块、舆情传播状态初步核实模块、舆情传播路径溯源跟踪模块、舆情路径源头解析确认模块和舆情路径源头反馈终端。
上述中,舆情传播状态初步核实模块分别与基本传播数据提取模块和舆情传播路径溯源跟踪模块连接,舆情路径源头解析确认模块分别与舆情传播路径溯源跟踪模块和舆情路径源头反馈终端连接。
所述路径基本传播数据提取模块,用于提取各传播路径的注册用户数目和各传播路径内目标舆情话题的基本传播数据。
具体地,所述基本传播数据包括参与用户数目、各参与用户的观点内容以及衍生子舆情话题数目、各衍生子舆情话题下的参与用户数目和各参与用户的观点内容。
所述舆情传播状态初步核实模块,用于核实各传播路径的舆情状态,得到各传播路径的舆情触发指数,将大于设定舆情触发指数的各传播路径记为各待溯源路径。
示例性地,核实各传播路径的舆情状态,包括:J1、将各传播路径的注册用户数目记为,同时从各传播路径内目标舆情话题的基本传播数据中提取参与用户数目和衍生子舆情话题数目,分别记为/>和/>,/>表示传播路径编号,/>。
J2、从所述目标舆情话题基本传播数据中提取各参与用户的观点内容,确认各传播路径内目标舆情话题对应各参与用户的观点类型,其中,观点类型包括正面、负面和中立。
进一步地,确认各传播路径内目标舆情话题对应各参与用户的观点类型,包括:J2-1、通过关键词识别技术对各传播路径内目标舆情话题对应各参与用户的观点内容进行关键词识别,并统计各传播路径内目标舆情话题对应各参与用户的负面、中立和正面的关键词占比,分别记为、/>和/>,j表示目标舆情话题参与用户编号,/>。
需要说明的是,目标舆情话题对应各参与用户的负面、中立和正面的关键词占比的具体获取方式为:提取识别得到的目标舆情话题对应各参与用户的各观点关键词。
将目标舆情话题对应各参与用户的各观点关键词与设定的目标舆情话题对应的正面关键词集合、中立关键词集合和负面关键词集合内的各关键词进行匹配对比,由此筛选出各参与用户对应的正面关键词数目、中立关键词数目和负面关键词数目。
将各参与用户对应的负面关键词数目、中立关键词数目和正面关键词数目分别与其观点关键词数目进行作比,得到目标舆情话题对应各参与用户的负面、中立和正面的关键词占比。
J2-2、统计各传播路径中各参与用户的观点单一趋向度,,/>为设定的观点关键词占比偏差。
J2-3、将、/>、/>和/>导入观点类型评估模型/>中,输出各传播路径中目标舆情话题对应各参与用户的观点类型,其中,/>分别为设定的各观点类型评定条件,/>表示/>且/>成立,/>表示/>且/>成立,/>表示/>或者/>且/>成立。
J3、将观点类型为负面和中立的参与用户分别记为负面参与用户和中立参与用户,统计各传播路径内目标舆情话题的负面参与用户数目和中立参与用户数目,分别记为和/>。
J4、从目标舆情话题基本传播数据中提取各衍生子舆情话题下各参与用户的观点内容,统计各传播路径的负面衍生子舆情话题数目。
需要说明的是,确认各传播路径的负面衍生子舆情话题数目,包括:按照目标舆情话题的负面参与用户数目和中立参与用户数目的统计方式同理统计各衍生子舆情话题的负面参与用户数目和中立参与用户数目。
将各衍生子舆情话题的负面参与用户数目和中立参与用户数目进行累加并与各衍生子舆情话题的参与用户数目进行作比,将比值记为负面趋向比,若某衍生子舆情话题的负面趋向比大于或者等于,则将该衍生子舆情话题记为负面衍生子舆情话题,由此统计得到各传播路径的负面衍生子舆情话题数目。
J5、统计各传播路径的舆情触发指数,/>,为设定的参照衍生子话题数目。
在一个具体实施例中,负面观点和中立观点的参与用户数目越多,表明正面观点的参与用户越少,同时参与用户的数目越多,舆情爆发的可能性越大,并且当衍生的子舆情话题越多,表明目标舆情话题的热点和关注度越高,当负面衍生子舆情话题占比越大,舆情的发展风险越大,进而触发指数越大。
所述舆情传播路径溯源跟踪模块,用于对各待溯源路径进行舆情溯源跟踪,得到各待溯源路径的舆情跟踪数据。
具体地,舆情跟踪数据包括各参与用户的账号信息以及在各次发表观点的时间点、显示粉丝数、评论用户数目、转发用户数目和各转发用户的账号信息,其中,账号信息包括累计评论用户数目、累计转发用户数目、累计获赞数和累计注册时长。
所述舆情路径源头解析确认模块,用于根据各待溯源路径的舆情跟踪数据,分析各待溯源路径对应的舆情源头趋向指数,/>表示待溯源路径编号,/>,将舆情源头趋向指数最大的待溯源路径记为舆情传播源头路径,并确认舆情源头传播用户,同时提取舆情源头传播用户的ID账号。
示例性地,分析各待溯源路径对应的舆情源头趋向指数,包括:F1、从各待溯源路径的舆情跟踪数据中提取各参与用户在各次发表观点的时间点,进而提取首次发表观点的时间点,记为。
F2、将各待溯源路径对应各参与用户首次发表观点的时间点进行相互对比,从中筛选出最早首次发表观点时间点,作为起源时间点,记为,设定各待溯源路径的舆情源头趋势权重因子/>。
可理解地,设定各待溯源路径的舆情源头趋势权重因子,包括:F2-1、以起源时间点和设定的相似发表间隔时长组成参照发表时间区间,将首次发表观点的时间点位于参照发表时间区间内的各参与用户作为各目标分析用户,统计各待溯源路径的目标分析用户数目。
F2-2、将各待溯源路径对应各目标分析用户首次发表观点的时间点与起源时间点进行对比,得到各待溯源路径对应各目标分析用户的发表起源间隔时长,并通过均值计算得到各待溯源路径对应平均发表起源间隔时长,记为。
F2-3、统计各待溯源路径的舆情源头趋势权重因子,/>,分别为设定的参照参与用户数目、参照最短间隔时长。
F3、从各待溯源路径的舆情跟踪数据中提取各参与用户的账号信息以及各参与用户在各次发表观点对应的转发用户数目和各转发用户的账号信息,统计各待溯源路径对应的舆情发展影响度。
可理解地,统计各待溯源路径对应的舆情发展影响度,包括:F3-1、从各待溯源路径对应各参与用户的账号信息中提取累计评论用户数目、累计转发用户数目和累计获赞数,分别记为、/>和/>,r表示待溯源路径内参与用户编号,/>。
F3-2、统计各待溯源路径对应各参与用户的舆情影响度,,/>、/>、/>分别为设定的参照干扰的评论用户数目、转发用户数目、获赞数。
F3-3、将与设定参照舆情影响度/>进行对比,统计各待溯源路径中大于/>的参与用户数目,作为影响用户数目,并记为/>。
F3-4、将各待溯源路径内目标舆情话题对应各参与用户在各次发表观点对应的转发用户数目进行累加,得到各参与用户对应发表观点的转发用户总和,记为。
F3-5、按照的统计方式同理统计得到各待溯源路径对应各参与用户在各次发表观点对应各转发用户的舆情影响度。
F3-6、将舆情影响度大于的转发用户记为影响转发用户,统计各待溯源路径对应各参与用户在各次发表观点的影响转发用户数目,进而累加得到各待溯源路径内各参与用户对应发表影响转发用户数目总和,记为/>。
F3-7、将各待溯源路径内目标舆情话题对应参与用户数目记为。
F3-8、统计各待溯源路径对应的舆情发展影响度,,/>分别为设定参照影响发表用户比、影响转发用户比、影响转发用户比偏差。
在一个具体实施例中,影响用户数目占比越大、影响转发用户占比越大,表明待溯源路径的舆情发展影响越大,即发展风险越高。
F4、统计各待溯源路径对应的舆情源头趋向指数,/>,分别为设定的参照的传播路径传播间隔时长、舆情发展影响度。
本发明实施例通过从时间和用户账号影响两个维度进行舆情源头评定,从而确认舆情传播源头路径,有效规避了当前对路径舆情溯源跟踪的单一性和局限性,实现了同一时间内或者相差较短时间内发布观点的深度舆情源头评定,确保了舆情溯源结果的可靠性和合理性。
又一示例性地,确认舆情源头传播用户,包括:Q1、将舆情传播源头路径对应的各参与用户记为各关注用户。
Q2、提取各关注用户首次发表观点的时间点,并在时间数轴上进行标注,得到各标注点,同时以时间的增长方向为右方向。
Q3、提取位于时间数轴最左侧的标注点,记为目标标注点,并提取其他各标注点与目标标注点之间的间隔长度,由此确认各干扰标注点。
需要说明的是,确认各干扰标注点的确认过程为:若其他某标注点与目标标注点之间的间隔长度小于或者等于设定模糊源头发表间隔长度内,则将该标注点记为干扰标注点,以此得到各干扰标注点。
Q4、将目标标注点和各干扰标注点的对应关注用户作为各备选用户,将各备选用户的首次发表观点的时间点记为,/>表示备选用户编号,/>。
Q5、从舆情传播源头路径的舆情跟踪数据中提取各备选用户的累计注册时长以及在各次发表观点的时间点、显示粉丝数、评论用户数目和转发用户数目,统计各备选用户的账号变更度,记为。
可理解地,统计各备选用户的账号变更度,包括:Q5-1、将各备选用户在各次发表观点的评论用户数目和转发用户数目进行累加,得到各备选用户在各次发表观点的互动用户数目。
Q5-2、以发表观点时间点为横坐标,分别以显示粉丝数和互动用户数目为纵坐标,构建各备选用户的粉丝变化曲线和互动变化曲线,从各备选用户的粉丝变化曲线和互动变化曲线中分别进行斜率和幅值提取,分别记为、/>和/>和/>。
Q5-3、提取各备选用户的累计账号注册时长,并与设定的各账号注册时长对应常规粉丝增长率和常规互动增长率进行匹配对比,得到各备选用户的常规粉丝增长率和常规互动增长率,分别记为和/>。
Q5-4、统计各备选用户的账号变更度,/>,分别为设定参照的粉丝突增数、互动突增数。
Q6、从各待溯源路径对应各参与用户的舆情影响度中筛选出舆情传播源头路径对应各备选用户的舆情影响度,记为。
Q7、统计各备选用户的舆情源头趋向指数,/>,为设定的参照用户传播间隔时长,/>为设定参照的账号变更度。
本发明实施例通过从时间、用户账号影响以及用户账号的动态变化这三个维度进行舆情源头评定,进而确认舆情源头传播用户,拓展了舆情源头传播用户的评定依据,实现了舆情源头传播用户的多维度评定,还充分结合了账号在目标舆情话题发布时间周期内的动态变化规律,规避了当前结果导向型追踪方式的不足,提高了路径舆情溯源追踪结果的真实性和参考性。
所述舆情路径源头反馈终端,用于将舆情传播源头路径和舆情源头用户的ID账号反馈至舆情管理人员。
本发明实施例通过根据目标舆情话题以及各衍生子舆情话题参与用户的观点情况进行舆情传播状态初步核实,由此进行传播路径筛选,并对筛选后的传播路径进行舆情跟踪分析,确认舆情传播源头路径和舆情源头传播用户,并进行反馈,有效解决了当前对多路径舆情溯源采用统一整体式溯源跟踪的不足,规避了当前溯源跟踪流程的繁琐性,实现了不同传播舆情的预先分类,降低了舆情溯源跟踪的工作量,进而缩减了舆情溯源的处理数据规模,从而提高了舆情溯源的效率,同时提高了舆情溯源定位的精准性。
以上内容仅仅是对本发明的构思所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的构思或者超越本发明所定义的范围,均应属于本发明的保护范围。
Claims (4)
1.一种基于互联网的多路径舆情话题溯源追踪系统,其特征在于:该系统包括:
路径基本传播数据提取模块,用于提取各传播路径的注册用户数目和各传播路径内目标舆情话题的基本传播数据;
舆情传播状态初步核实模块,用于核实各传播路径的舆情状态,得到各传播路径的舆情触发指数,将大于设定舆情触发指数的各传播路径记为各待溯源路径;
所述核实各传播路径的舆情状态,包括:
将各传播路径的注册用户数目记为,同时从各传播路径内目标舆情话题的基本传播数据中提取参与用户数目和衍生子舆情话题数目,分别记为/>和/>,/>表示传播路径编号,/>;
从所述目标舆情话题基本传播数据中提取各参与用户的观点内容,确认各传播路径内目标舆情话题对应各参与用户的观点类型,其中,观点类型包括正面、负面和中立;
将观点类型为负面和中立的参与用户分别记为负面参与用户和中立参与用户,统计各传播路径内目标舆情话题的负面参与用户数目和中立参与用户数目,分别记为和/>;
从目标舆情话题基本传播数据中提取各衍生子舆情话题下各参与用户的观点内容,统计各传播路径的负面衍生子舆情话题数目;
统计各传播路径的舆情触发指数,/>,为设定的参照衍生子话题数目;
舆情传播路径溯源跟踪模块,用于对各待溯源路径进行舆情溯源跟踪,得到各待溯源路径的舆情跟踪数据;
舆情路径源头解析确认模块,用于根据各待溯源路径的舆情跟踪数据,分析各待溯源路径对应的舆情源头趋向指数,/>表示待溯源路径编号,/>,将舆情源头趋向指数最大的待溯源路径记为舆情传播源头路径,并确认舆情源头传播用户,同时提取舆情源头传播用户的ID账号;
所述分析各待溯源路径对应的舆情源头趋向指数,包括:
从各待溯源路径的舆情跟踪数据中提取各参与用户在各次发表观点的时间点,进而提取首次发表观点的时间点,记为;
将各待溯源路径对应各参与用户首次发表观点的时间点进行相互对比,从中筛选出最早首次发表观点时间点,作为起源时间点,记为,设定各待溯源路径的舆情源头趋势权重因子/>;
从各待溯源路径的舆情跟踪数据中提取各参与用户的账号信息以及各参与用户在各次发表观点对应的转发用户数目和各转发用户的账号信息,统计各待溯源路径对应的舆情发展影响度;
统计各待溯源路径对应的舆情源头趋向指数,/>,分别为设定的参照的传播路径传播间隔时长、舆情发展影响度;
所述设定各待溯源路径的舆情源头趋势权重因子,包括:
以起源时间点和设定的相似发表间隔时长组成参照发表时间区间,将首次发表观点的时间点位于参照发表时间区间内的各参与用户作为各目标分析用户,统计各待溯源路径的目标分析用户数目;
将各待溯源路径对应各目标分析用户首次发表观点的时间点与起源时间点进行对比,得到各待溯源路径对应各目标分析用户的发表起源间隔时长,并通过均值计算得到各待溯源路径对应平均发表起源间隔时长,记为;
统计各待溯源路径的舆情源头趋势权重因子,/>,分别为设定的参照参与用户数目、参照最短间隔时长;
所述统计各待溯源路径对应的舆情发展影响度,包括:
从各待溯源路径对应各参与用户的账号信息中提取累计评论用户数目、累计转发用户数目和累计获赞数,分别记为、/>和/>,r表示待溯源路径内参与用户编号,/>;
统计各待溯源路径对应各参与用户的舆情影响度,,/>、/>、/>分别为设定的参照干扰的评论用户数目、转发用户数目、获赞数;
将与设定参照舆情影响度/>进行对比,统计各待溯源路径中大于/>的参与用户数目,作为影响用户数目,并记为/>;
将各待溯源路径内目标舆情话题对应各参与用户在各次发表观点对应的转发用户数目进行累加,得到各参与用户对应发表观点的转发用户总和,记为;
按照的统计方式同理统计得到各待溯源路径对应各参与用户在各次发表观点对应各转发用户的舆情影响度;
将舆情影响度大于的转发用户记为影响转发用户,统计各待溯源路径对应各参与用户在各次发表观点的影响转发用户数目,进而累加得到各待溯源路径内各参与用户对应发表影响转发用户数目总和,记为/>;
将各待溯源路径内目标舆情话题对应参与用户数目记为;
统计各待溯源路径对应的舆情发展影响度,/>,分别为设定参照影响发表用户比、影响转发用户比、影响转发用户比偏差;
所述确认舆情源头传播用户,包括:
将舆情传播源头路径对应的各参与用户记为各关注用户;
提取各关注用户首次发表观点的时间点,并在时间数轴上进行标注,得到各标注点,同时以时间的增长方向为右方向;
提取位于时间数轴最左侧的标注点,记为目标标注点,并提取其他各标注点与目标标注点之间的间隔长度,由此确认各干扰标注点;
将目标标注点和各干扰标注点的对应关注用户作为各备选用户,将各备选用户的首次发表观点的时间点记为,/>表示备选用户编号,/>;
从舆情传播源头路径的舆情跟踪数据中提取各备选用户的累计注册时长以及在各次发表观点的时间点、显示粉丝数、评论用户数目和转发用户数目,统计各备选用户的账号变更度,记为;
从各待溯源路径对应各参与用户的舆情影响度中筛选出舆情传播源头路径对应各备选用户的舆情影响度,记为;
统计各备选用户的舆情源头趋向指数,/>,为设定的参照用户传播间隔时长,/>为设定参照的账号变更度;
所述统计各备选用户的账号变更度,包括:
将各备选用户在各次发表观点的评论用户数目和转发用户数目进行累加,得到各备选用户在各次发表观点的互动用户数目;
以发表观点时间点为横坐标,分别以显示粉丝数和互动用户数目为纵坐标,构建各备选用户的粉丝变化曲线和互动变化曲线,从各备选用户的粉丝变化曲线和互动变化曲线中分别进行斜率和幅值提取,分别记为、/>和/>和/>;
提取各备选用户的累计账号注册时长,并与设定的各账号注册时长对应常规粉丝增长率和常规互动增长率进行匹配对比,得到各备选用户的常规粉丝增长率和常规互动增长率,分别记为和/>;
统计各备选用户的账号变更度,/>,分别为设定参照的粉丝突增数、互动突增数;
舆情路径源头反馈终端,用于将舆情传播源头路径和舆情源头用户的ID账号反馈至舆情管理人员。
2.根据权利要求1所述的一种基于互联网的多路径舆情话题溯源追踪系统,其特征在于:所述基本传播数据包括参与用户数目、各参与用户的观点内容以及衍生子舆情话题数目、各衍生子舆情话题下的参与用户数目和各参与用户的观点内容。
3.根据权利要求1所述的一种基于互联网的多路径舆情话题溯源追踪系统,其特征在于:所述确认各传播路径内目标舆情话题对应各参与用户的观点类型,包括:
通过关键词识别技术对各传播路径内目标舆情话题对应各参与用户的观点内容进行关键词识别,并统计各传播路径内目标舆情话题对应各参与用户的负面、中立和正面的关键词占比,分别记为、/>和/>,j表示目标舆情话题参与用户编号,/>;
统计各传播路径中各参与用户的观点单一趋向度,,/>为设定的观点关键词占比偏差;
将、/>、/>和/>导入观点类型评估模型/>中,输出各传播路径中目标舆情话题对应各参与用户的观点类型,其中,/>分别为设定的各观点类型评定条件,/>表示/>且/>成立,/>表示/>且/>成立,/>表示或者/>且/>成立。
4.根据权利要求1所述的一种基于互联网的多路径舆情话题溯源追踪系统,其特征在于:所述舆情跟踪数据包括各参与用户的账号信息以及在各次发表观点的时间点、显示粉丝数、评论用户数目、转发用户数目和各转发用户的账号信息,其中,账号信息包括累计评论用户数目、累计转发用户数目、累计获赞数和累计注册时长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373333.4A CN117150104B (zh) | 2023-10-23 | 2023-10-23 | 一种基于互联网的多路径舆情话题溯源追踪系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311373333.4A CN117150104B (zh) | 2023-10-23 | 2023-10-23 | 一种基于互联网的多路径舆情话题溯源追踪系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150104A CN117150104A (zh) | 2023-12-01 |
CN117150104B true CN117150104B (zh) | 2024-01-26 |
Family
ID=88910300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311373333.4A Active CN117150104B (zh) | 2023-10-23 | 2023-10-23 | 一种基于互联网的多路径舆情话题溯源追踪系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150104B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105146A (ja) * | 2010-11-11 | 2012-05-31 | Sharp Corp | 端末装置、基地局装置、通信システム、通信方法、及びプロセッサ |
CN104133897A (zh) * | 2014-08-01 | 2014-11-05 | 哈尔滨工程大学 | 一种基于话题影响力的微博话题溯源方法 |
WO2015161644A1 (zh) * | 2014-04-22 | 2015-10-29 | 深圳市志友企业发展促进中心 | 一种资源地址的生成方法、装置及系统 |
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
CN109670046A (zh) * | 2018-11-12 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种舆情监控方法、存储介质和终端设备 |
CN111552856A (zh) * | 2020-04-30 | 2020-08-18 | 安徽博约信息科技股份有限公司 | 一种微博舆情传播路径分析方法 |
CN113177155A (zh) * | 2021-06-02 | 2021-07-27 | 苏州远略知识产权运营有限公司 | 在线网络的舆情信息溯源方法及装置 |
WO2023124778A1 (zh) * | 2021-12-29 | 2023-07-06 | 浙江中控技术股份有限公司 | 一种流程工业生产过程中的实时报警溯源装置及其方法 |
-
2023
- 2023-10-23 CN CN202311373333.4A patent/CN117150104B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105146A (ja) * | 2010-11-11 | 2012-05-31 | Sharp Corp | 端末装置、基地局装置、通信システム、通信方法、及びプロセッサ |
WO2015161644A1 (zh) * | 2014-04-22 | 2015-10-29 | 深圳市志友企业发展促进中心 | 一种资源地址的生成方法、装置及系统 |
CN104133897A (zh) * | 2014-08-01 | 2014-11-05 | 哈尔滨工程大学 | 一种基于话题影响力的微博话题溯源方法 |
CN106503230A (zh) * | 2016-11-07 | 2017-03-15 | 贾志娟 | 一种基于复杂网络的微博传播溯源方法 |
CN109670046A (zh) * | 2018-11-12 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种舆情监控方法、存储介质和终端设备 |
CN111552856A (zh) * | 2020-04-30 | 2020-08-18 | 安徽博约信息科技股份有限公司 | 一种微博舆情传播路径分析方法 |
CN113177155A (zh) * | 2021-06-02 | 2021-07-27 | 苏州远略知识产权运营有限公司 | 在线网络的舆情信息溯源方法及装置 |
WO2023124778A1 (zh) * | 2021-12-29 | 2023-07-06 | 浙江中控技术股份有限公司 | 一种流程工业生产过程中的实时报警溯源装置及其方法 |
Non-Patent Citations (2)
Title |
---|
Zhen Qiu等.Public Sentiment Monitoring and Early-Warning for Enterprise.《Advances in Natural Computation,Fuzzy Systems and Knowledge Discovery》.2019,第509-516页. * |
基于传播路径的微博热点话题溯源;周福星;《中国优秀硕士学位论文全文数据库信息科技辑》(第06期);第I138-1236页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150104A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Parra-Arnau et al. | Measuring the privacy of user profiles in personalized information systems | |
Lento et al. | The ties that blog: Examining the relationship between social ties and continued participation in the wallop weblogging system | |
Welser et al. | Visualizing the signatures of social roles in online discussion groups | |
Song et al. | Not all emotions are created equal: Expressive behavior of the networked public on China's social media site | |
CN102629275A (zh) | 面向跨媒体新闻检索的人脸-人名对齐方法及系统 | |
CN111898038B (zh) | 一种基于人机协作的社交媒体假新闻检测方法 | |
CN110990683A (zh) | 一种基于地域与情感特征的微博谣言集成识别方法及装置 | |
CN106951471A (zh) | 一种基于svm的标签发展趋势预测模型的构建方法 | |
Miskell | International films and international markets: The globalisation of Hollywood entertainment, c. 1921–1951 | |
CN117150104B (zh) | 一种基于互联网的多路径舆情话题溯源追踪系统 | |
Han et al. | Teens are from mars, adults are from venus: analyzing and predicting age groups with behavioral characteristics in instagram | |
Bhardwaj et al. | Attendee-sourcing: Exploring the design space of community-informed conference scheduling | |
Wang et al. | A data‐driven approach for sketch‐based 3d shape retrieval via similar drawing‐style recommendation | |
Wu et al. | A multi‐semantics classification method based on deep learning for incredible messages on social media | |
Liu et al. | Learning from various labeling strategies for suicide-related messages on social media: An experimental study | |
CN105447196A (zh) | 一种重点博主追踪确认方法及装置 | |
Dehghani et al. | An evolutionary-based method for reconstructing conversation threads in email corpora | |
Zhang et al. | An exploratory study of Twitter metrics for measuring user influence | |
Singh et al. | Review of Machine Learning methods for Identification of Cyberbullying in Social Media | |
Cui et al. | Identification of Micro-blog Opinion Leaders based on User Features and Outbreak Nodes. | |
Li et al. | A novel integrated framework based on multi-view features for multidimensional social bot detection | |
Xu et al. | A Survey of State of the Art on Rumor Detection in Social Network | |
Yu et al. | Fine-grained emotion role detection based on retweet information | |
Chen et al. | Identifying high-quality chinese news comments based on multi-target text matching model | |
Zhou et al. | Unveiling the silent majority: stance detection and characterization of passive users on social media using collaborative filtering and graph convolutional networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |