CN110837608B - 一种基于多源数据的舆情话题传播路径分析系统和方法 - Google Patents
一种基于多源数据的舆情话题传播路径分析系统和方法 Download PDFInfo
- Publication number
- CN110837608B CN110837608B CN201911080716.6A CN201911080716A CN110837608B CN 110837608 B CN110837608 B CN 110837608B CN 201911080716 A CN201911080716 A CN 201911080716A CN 110837608 B CN110837608 B CN 110837608B
- Authority
- CN
- China
- Prior art keywords
- propagation
- source
- propagation path
- data
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims description 28
- 238000010586 diagram Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 description 9
- 238000005474 detonation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 235000015895 biscuits Nutrition 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010902 straw Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;路径显示模块,用于显示路径信息。本发明还提供了一种基于多源数据的舆情话题传播路径分析方法,帮助用户更加直观的了解舆情话题的传播情况。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种基于多源数据的舆情话题传播路径分析系统和方法。
背景技术
近年来随着互联网技术的发展和普及,以去中心、交互性和社会化为特点的网络新技术,促使自媒体快速普及的同时,也在改变网络舆论生态,舆论表达多源复杂成为当下舆论的格局。自媒体传播的及时、互动、平等、分享特征,使网络舆论衍生出许多“新倾向”。舆论话题的生成与扩散,更自由、灵活、多元,借助非线性的网络化传播,主体分散,这一过程没有明显的中心,没有固定的舆论集散地。
但是话题的传播情况,如关键传播节点及路径,不能直观地被了解,导致后续无法对传播情况进行有效地控制。
因此,本领域亟需一种基于多源数据的舆情话题传播路径分析系统和方法。
因此,有鉴于此,提出本发明。
发明内容
本发明的目的在于提供一种基于多源数据的舆情话题传播路径分析系统和方法,以解决上述至少一个技术问题。
本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息。
采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。
进一步地,所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
进一步地,所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
进一步地,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
进一步地,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
进一步,所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示。
优选地,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
优选地,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。
更优选地,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。
优选地,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型、发布时间,并利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
具体的,本发明另一方面提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:
多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示:显示路径信息。
采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。
进一步地,所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
进一步地,所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
进一步地,所述关键传播节点的判定方法为:
遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
进一步地,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:
传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
进一步,所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示。
优选地,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
优选地,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。
更优选地,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。
优选地,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
综上所述,本发明具有以下有益效果:
1、本发明结合数据采集、自然语言处理、机器学习技术,帮助用户更直观了解话题的传播情况;
2、所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率;
3、先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径;
4、所述显示模块显示路径信息,帮助用户更加直观的了解舆情话题的传播情况;
5、通过上述三种单源方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储;
6、将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于多源数据的舆情话题传播路径分析系统一种实施方式的示意图;
图2为本发明基于多源数据的舆情话题传播路径分析方法一种实施方式的示意图;
图3为本发明交叉传播路径一种实施方式的示意图;
图4为本发明传播主路径一种实施方式的示意图;
图5为本发明关键传播节点信息一种实施方式的示意图;
图6为本发明传播层级分配信息一种实施方式的示意图;
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
发明中提到的术语进行说明:
(1)节点
数据所在的站点名作为节点,所述数据可为文字、图片、视频、音频或其结合,所述站点为如微博、新闻网站、贴吧等媒体。
(2)传播路径
传播路径中以最早的话题相关数据的站点作为起始节点,将起始节点作为根节点,其它转发节点作为下级节点,并用用线将其连接起来。依次类推,最终会形成以起始节点为圆心,各转发节点追层发散的放射性结构图。
(3)关键传播节点
关键传播节点是指在话题传播过程中起到重要作用的节点,例如话题的2次引爆点。
(4)传播主路径
传播主路径是指从话题根节点(即起始节点)连接到各个关键传播节点的路径图。
(5)传播层级
以传播路径图中的根节点(即起始节点)为起点,所有与根节点连接的节点为第一层级,与第一层级中所有节点连接的节点为第二层级,依次类推。
以下将通过实施例对本发明进行详细描述。
实施例一
参考图1,本实施例提供了一种基于多源数据的舆情话题传播路径分析系统,包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;具体地,本模块主要是获取舆情话题相关的新闻、论坛、APP新闻、微信、贴吧、博客、微博等媒体发布的信息。
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息。
采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。
在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
在本实施例的一个优选实施方式中,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
在本实施例的一个优选实施方式中,所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图,如图3所示;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图,如图4所示;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示,如图5所示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。
在本实施例的一个优选实施方式中,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。具体地,弹出信息可以为名称、个数等。
在本实施例的一个优选实施方式中,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。
在本实施例的一个优选实施方式中,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。
在本实施例的一个优选实施方式中,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型(即通道)、发布时间,并利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
实施例二
参考图2,本实施例提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:
S101,多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
具体地,所述多源数据采集,可利用网络爬虫,通过百度、必应、360搜索、搜狗搜索等搜索引擎、微博官网、搜狗微信、百度贴吧、各大主流论坛搜索舆情话题关键词,采集各媒体平台上关于话题的舆情数据,包括标题、内容、来源、发布时间等;
S102,传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
S103,传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
S105,路径显示:显示路径信息。
采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。
在本实施例的一个优选实施方式中,所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
具体地,所述多源数据进行传播路径分析,分为新闻、微博、其它3类数据进行处理;
对于微博数据,由于其自身特点,从微博内容中可以分析出其转发关系,如微博:“哇真给搞出来了//@等边直角三角饼干://@二十四節記:天呐天呐//@4517_Voy吸管管:啊啊啊啊啊啊啊好可爱[泪][泪][泪]太用心了吧”,从内容中可以得到转发关系为:“等边直角三角饼干”->“二十四節記”->“4517_Voy吸管管”。通过“//@”转发符号,结合“:提取转发用户昵称和转发关系,构造传播路径;
对于新闻数据,可以通过来源判断这篇新闻是转发还是原创,如果来源字段存在且不是该新闻发布网站,是其它网站,则是该新闻为转发新闻,则可将该新闻网站和来源网站之间建立转发关系,依次类推构造传播路径;
其它数据,如微信、贴吧等,其本身不存在转发关系,因此可参考信息发布时间先后顺序构造传播路径。
采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
在本实施例的一个优选实施方式中,所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
具体地,微博、微信和新闻、其它数据源传播路径之间可先通过短链接和用户认证信息两种方式进行关联。短链接是微博内容中嵌入的新闻、微信等文章链接地址,可以通过短链接将微博和对应的新闻、微信等媒体源的数据进行关联;用户认证信息是有些用户在微博、微信上进行了机构认证,可以通过认证机构与新闻媒体进行关联。若还有未关联的单源传播路径,再将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。所示预设值可为1h-48h任意值。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
在本实施例的一个优选实施方式中所述关键传播节点的判定方法为:
遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:
S104,传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
在本实施例的一个优选实施方式中,所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;具体地,利用gephi-toolkit工具绘制交叉传播路径图,如图3所示;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;具体地,利用gephi-toolkit工具绘制传播主路径图,如图4所示;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示,如图5所示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。
在本实施例的一个优选实施方式中,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。
在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
在本实施例的一个优选实施方式中,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。
在本实施例的一个优选实施方式中,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。
在本实施例的一个优选实施方式中,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种基于多源数据的舆情话题传播路径分析系统,其特征在于:包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息;
所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
2.根据权利要求1所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
3.根据权利要求1所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示。
4.根据权利要求3所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
5.一种基于多源数据的舆情话题传播路径分析方法,其特征在于:包括以下步骤:
多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示:显示路径信息;
所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
6.根据权利要求5所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
7.根据权利要求5所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示。
8.根据权利要求7所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911080716.6A CN110837608B (zh) | 2019-11-07 | 2019-11-07 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911080716.6A CN110837608B (zh) | 2019-11-07 | 2019-11-07 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837608A CN110837608A (zh) | 2020-02-25 |
CN110837608B true CN110837608B (zh) | 2024-04-12 |
Family
ID=69576388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911080716.6A Active CN110837608B (zh) | 2019-11-07 | 2019-11-07 | 一种基于多源数据的舆情话题传播路径分析系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837608B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814065B (zh) * | 2020-06-24 | 2022-05-06 | 平安科技(深圳)有限公司 | 信息传播路径分析方法、装置、计算机设备及存储介质 |
CN112235179B (zh) * | 2020-08-29 | 2022-01-28 | 上海量明科技发展有限公司 | 即时通信中话题的处理方法、装置及即时通信工具 |
CN116452699A (zh) * | 2023-02-28 | 2023-07-18 | 北京麦克斯泰科技有限公司 | 一种社会网络舆论信息监测传播统计方法和系统 |
CN117093762B (zh) * | 2023-07-18 | 2024-02-13 | 南京特尔顿信息科技有限公司 | 一种舆情数据评估分析系统及方法 |
CN117611374B (zh) * | 2024-01-23 | 2024-05-07 | 深圳博十强志科技有限公司 | 一种基于多元化大数据分析的信息传播分析方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370119B1 (en) * | 1998-02-27 | 2002-04-09 | Cisco Technology, Inc. | Computing the widest shortest path in high-speed networks |
CN1614934A (zh) * | 2003-11-06 | 2005-05-11 | 华为技术有限公司 | 一种路径搜索方法 |
EP1668561A2 (en) * | 2003-09-30 | 2006-06-14 | Exxonmobil Upstream Research Company Copr-Urc | Characterizing connectivity in reservoir models using paths of least resistance |
CN103138981A (zh) * | 2011-11-30 | 2013-06-05 | 中国移动通信集团公司 | 一种社交网络分析方法和装置 |
US8631094B1 (en) * | 2008-08-08 | 2014-01-14 | Google Inc. | Distributed parallel determination of single and multiple source shortest paths in large directed graphs |
CN104572687A (zh) * | 2013-10-17 | 2015-04-29 | 北大方正集团有限公司 | 微博传播的关键用户识别方法和装置 |
CN106341265A (zh) * | 2016-09-09 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 网络数据的展示方法和装置 |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN106779225A (zh) * | 2016-12-22 | 2017-05-31 | 福州大学 | 一种包含必经节点集的最佳路径求解方法 |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
CN108183956A (zh) * | 2017-12-29 | 2018-06-19 | 武汉大学 | 一种传播网络的关键路径提取方法 |
CN108733763A (zh) * | 2018-04-16 | 2018-11-02 | 国家计算机网络与信息安全管理中心 | 基于微博热门事件计算关键节点的方法及装置 |
CN108989105A (zh) * | 2018-07-16 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 传播路径图生成方法、装置及服务器 |
CN110247805A (zh) * | 2019-06-24 | 2019-09-17 | 南瑞集团有限公司 | 一种基于k壳分解的识别传播关键节点的方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030131097A1 (en) * | 2002-01-09 | 2003-07-10 | Stephane Kasriel | Interactive path analysis |
-
2019
- 2019-11-07 CN CN201911080716.6A patent/CN110837608B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370119B1 (en) * | 1998-02-27 | 2002-04-09 | Cisco Technology, Inc. | Computing the widest shortest path in high-speed networks |
EP1668561A2 (en) * | 2003-09-30 | 2006-06-14 | Exxonmobil Upstream Research Company Copr-Urc | Characterizing connectivity in reservoir models using paths of least resistance |
CN1614934A (zh) * | 2003-11-06 | 2005-05-11 | 华为技术有限公司 | 一种路径搜索方法 |
US8631094B1 (en) * | 2008-08-08 | 2014-01-14 | Google Inc. | Distributed parallel determination of single and multiple source shortest paths in large directed graphs |
CN103138981A (zh) * | 2011-11-30 | 2013-06-05 | 中国移动通信集团公司 | 一种社交网络分析方法和装置 |
CN104572687A (zh) * | 2013-10-17 | 2015-04-29 | 北大方正集团有限公司 | 微博传播的关键用户识别方法和装置 |
CN106341265A (zh) * | 2016-09-09 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 网络数据的展示方法和装置 |
CN106776841A (zh) * | 2016-11-28 | 2017-05-31 | 福建亿榕信息技术有限公司 | 一种互联网舆情事件传播指数的获取方法和系统 |
CN106779225A (zh) * | 2016-12-22 | 2017-05-31 | 福州大学 | 一种包含必经节点集的最佳路径求解方法 |
CN108183956A (zh) * | 2017-12-29 | 2018-06-19 | 武汉大学 | 一种传播网络的关键路径提取方法 |
CN108170842A (zh) * | 2018-01-16 | 2018-06-15 | 重庆邮电大学 | 基于三部图模型的微博热点话题溯源方法 |
CN108733763A (zh) * | 2018-04-16 | 2018-11-02 | 国家计算机网络与信息安全管理中心 | 基于微博热门事件计算关键节点的方法及装置 |
CN108989105A (zh) * | 2018-07-16 | 2018-12-11 | 阿里巴巴集团控股有限公司 | 传播路径图生成方法、装置及服务器 |
CN110247805A (zh) * | 2019-06-24 | 2019-09-17 | 南瑞集团有限公司 | 一种基于k壳分解的识别传播关键节点的方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于微博的事件传播分析;朱湘;贾焰;聂原平;曲铭;;计算机研究与发展(第02期);第179-186页 * |
基于有向加权网络模型的复杂产品多源设计变更传播路径优化;李玉鹏;李孟泽;王召同;;机械工程学报(第06期);第227-236页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110837608A (zh) | 2020-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837608B (zh) | 一种基于多源数据的舆情话题传播路径分析系统和方法 | |
CN105095480B (zh) | 社交网络更新中到媒体对象部分的链接的实时提供 | |
Ratkiewicz et al. | Detecting and tracking political abuse in social media | |
US9965563B2 (en) | Method and apparatus to identify outliers in social networks | |
Naaman et al. | Hip and trendy: Characterizing emerging trends on Twitter | |
KR101728122B1 (ko) | 소셜 네트워크에서 사용자들을 추천하기 위한 방법 및 그 시스템 | |
Krishnamurthy et al. | A few chirps about twitter | |
Xu et al. | Discovering user interest on twitter with a modified author-topic model | |
CN102395969B (zh) | 基于主题的活力 | |
CN103078881A (zh) | 网络资源下载信息的分享控制系统和方法 | |
CN100384134C (zh) | 播存网格环境下客户端资源检索及自动下载方法 | |
CN102750299B (zh) | 一种网上信息汇聚的方法 | |
US8504545B2 (en) | Apparatus and methods for managing a social media universe | |
CN101901252A (zh) | 一种整合多个网站中同一用户数据的方法及整合平台 | |
CN106445894A (zh) | 新媒体智能在线编辑方法、装置及网络信息发布平台 | |
US11558333B1 (en) | Organizing self-replying messages | |
Laine et al. | User groups in social networks: an experimental study on Youtube | |
CN112256880A (zh) | 文本识别方法和装置、存储介质及电子设备 | |
US20170331909A1 (en) | System and method of monitoring and tracking online source content and/or determining content influencers | |
CN101577626B (zh) | 基于eMule的主动式特定信息传播监测方法 | |
US10198737B2 (en) | Peer-to-peer data collector and analyzer | |
KR20170114321A (ko) | 키워드 분석을 이용한 뉴스 콘텐츠들의 개인화 필터링 시스템 및 그 방법 | |
Ribeiro et al. | Youniverse: Large-scale channel and video metadata from english-speaking youtube | |
Chin | Finding cohesive subgroups and relevant members in the nokia friend view mobile social network | |
Mislove et al. | An empirical validation of growth models for complex networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |