CN110837608A - 一种基于多源数据的舆情话题传播路径分析系统和方法 - Google Patents

一种基于多源数据的舆情话题传播路径分析系统和方法 Download PDF

Info

Publication number
CN110837608A
CN110837608A CN201911080716.6A CN201911080716A CN110837608A CN 110837608 A CN110837608 A CN 110837608A CN 201911080716 A CN201911080716 A CN 201911080716A CN 110837608 A CN110837608 A CN 110837608A
Authority
CN
China
Prior art keywords
propagation
source
propagation path
node
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911080716.6A
Other languages
English (en)
Other versions
CN110837608B (zh
Inventor
李祥
贺敏
杜慧
孙庆
王秀文
董琳
郭富民
杜漫
余智华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Branch Dnt Data Polytron Technologies Inc
National Computer Network and Information Security Management Center
Original Assignee
Branch Dnt Data Polytron Technologies Inc
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Branch Dnt Data Polytron Technologies Inc, National Computer Network and Information Security Management Center filed Critical Branch Dnt Data Polytron Technologies Inc
Priority to CN201911080716.6A priority Critical patent/CN110837608B/zh
Publication of CN110837608A publication Critical patent/CN110837608A/zh
Application granted granted Critical
Publication of CN110837608B publication Critical patent/CN110837608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;路径显示模块,用于显示路径信息。本发明还提供了一种基于多源数据的舆情话题传播路径分析方法,帮助用户更加直观的了解舆情话题的传播情况。

Description

一种基于多源数据的舆情话题传播路径分析系统和方法
技术领域
本发明涉及数据分析领域,尤其涉及一种基于多源数据的舆情话题传播路径分析系统和方法。
背景技术
近年来随着互联网技术的发展和普及,以去中心、交互性和社会化为特点的网络新技术,促使自媒体快速普及的同时,也在改变网络舆论生态,促进公共话语权的转移。新旧媒体交互影响、官民舆论相互对话、舆论表达多源复杂成为当下中国舆论的格局。自媒体传播的草根、及时、互动、平等、分享特征,使网络舆论衍生出许多“新倾向”。舆论话题的生成与扩散不再受制于官方媒体,更自由、灵活、多元,借助非线性的网络化传播,主体分散,这一过程没有明显的中心,没有固定的舆论集散地,更没有传统的把关人,任何人的任何一个微小的“举动”和“信息”,都可能成为引爆舆论的“导火线”,酿成重大舆论事件。
但是话题的传播情况,如关键传播节点及路径,不能直观地被了解,导致后续无法对传播情况进行有效地控制。
因此,本领域亟需一种基于多源数据的舆情话题传播路径分析系统和方法。
因此,有鉴于此,提出本发明。
发明内容
本发明的目的在于提供一种基于多源数据的舆情话题传播路径分析系统和方法,以解决上述至少一个技术问题。
本发明提供了一种基于多源数据的舆情话题传播路径分析系统,包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息。
采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。
进一步地,所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
进一步地,所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
进一步地,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
进一步地,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
进一步,所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示。
优选地,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
优选地,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。
更优选地,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。
优选地,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型、发布时间,并利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
具体的,本发明另一方面提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:
多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示:显示路径信息。
采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。
进一步地,所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
进一步地,所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
进一步地,所述关键传播节点的判定方法为:
遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
进一步地,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:
传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
进一步,所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示。
优选地,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。更优选地,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
更优选地,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
优选地,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。
更优选地,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。
优选地,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
综上所述,本发明具有以下有益效果:
1、本发明结合数据采集、自然语言处理、机器学习技术,帮助用户更直观了解话题的传播情况和社会影响;
2、所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率;
3、先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径;
4、所述显示模块显示路径信息,帮助用户更加直观的了解舆情话题的传播情况;
5、通过上述三种单源方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储;
6、将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于多源数据的舆情话题传播路径分析系统一种实施方式的示意图;
图2为本发明基于多源数据的舆情话题传播路径分析方法一种实施方式的示意图;
图3为本发明交叉传播路径一种实施方式的示意图;
图4为本发明传播主路径一种实施方式的示意图;
图5为本发明关键传播节点信息一种实施方式的示意图;
图6为本发明传播层级分配信息一种实施方式的示意图;
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
发明中提到的术语进行说明:
(1)节点
数据所在的站点名作为节点,所述数据可为文字、图片、视频、音频或其结合,所述站点为如微博、新闻网站、贴吧等媒体。
(2)传播路径
传播路径中以最早的话题相关数据的站点作为起始节点,将起始节点作为根节点,其它转发节点作为下级节点,并用用线将其连接起来。依次类推,最终会形成以起始节点为圆心,各转发节点追层发散的放射性结构图。
(3)关键传播节点
关键传播节点是指在话题传播过程中起到重要作用的节点,例如话题的2次引爆点。
(4)传播主路径
传播主路径是指从话题根节点(即起始节点)连接到各个关键传播节点的路径图。
(5)传播层级
以传播路径图中的根节点(即起始节点)为起点,所有与根节点连接的节点为第一层级,与第一层级中所有节点连接的节点为第二层级,依次类推。
以下将通过实施例对本发明进行详细描述。
实施例一
参考图1,本实施例提供了一种基于多源数据的舆情话题传播路径分析系统,包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;具体地,本模块主要是获取舆情话题相关的新闻、论坛、APP新闻、微信、贴吧、博客、微博等媒体发布的信息。
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息。
采用上述方案,所述传播路径分析模块融合多源数据进行舆情话题传播路径分析,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述传播主路径分析模块分析其关键传播节点和传播主路径,所述显示模块显示路径信息,所述路径信息包括交叉传播路径、传播主路径等信息,帮助用户更加直观的了解舆情话题的传播情况。
在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
采用上述方案,第一单源方案单元,适用于微博类来源的数据,其内容包含了转发关系,第二单源方案单元适用于新闻类来源的数据,数据包含来源网站,第三单源方案适用于微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案单元也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
在本实施例的一个优选实施方式中,所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案单元,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
在本实施例的一个优选实施方式中,所述传播主路径分析模块包括关键传播节点单元,所述关键传播节点单元用于遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析系统还包括传播层级分布分析模块,传播层级分布分析模块用于遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
在本实施例的一个优选实施方式中,所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图,如图3所示;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图,如图4所示;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示,如图5所示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。
在本实施例的一个优选实施方式中,所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。具体地,弹出信息可以为名称、个数等。
在本实施例的一个优选实施方式中,传播主路径显示单元包括下级节点子单元,所述下级节点子单元用于当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。
在本实施例的一个优选实施方式中,所述下级节点情况可为图中下级节点的绘制图或下级节点个数。
在本实施例的一个优选实施方式中,关键传播节点信息显示单元中,获取的关键传播节点信息还包括来源类型(即通道)、发布时间,并利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
实施例二
参考图2,本实施例提供了一种基于多源数据的舆情话题传播路径分析方法,包括以下步骤:
S101,多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
具体地,所述多源数据采集,可利用网络爬虫,通过百度、必应、360搜索、搜狗搜索等搜索引擎、微博官网、搜狗微信、百度贴吧、各大主流论坛搜索舆情话题关键词,采集各媒体平台上关于话题的舆情数据,包括标题、内容、来源、发布时间等;
S102,传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
S103,传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
S105,路径显示:显示路径信息。
采用上述方案,融合多源数据进行舆情话题传播路径分析,分析其关键传播节点和传播主路径,帮助用户更加直观的了解舆情话题的传播情况,根据来源信息类型采用不同的单源传播路径建立方案,提高建立成功率和效率,减少信息存储和内存占用率,先建立单源传播路径再进行多源路径关联,分层次进行,处理方便,效率高,关联得更全面,所述路径信息包括交叉传播路径、传播主路径等信息,所述来源信息类型包括内容、来源网站、发布时间等。
在本实施例的一个优选实施方式中,所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
具体地,所述多源数据进行传播路径分析,分为新闻、微博、其它3类数据进行处理;
对于微博数据,由于其自身特点,从微博内容中可以分析出其转发关系,如微博:“哇真给搞出来了//@等边直角三角饼干://@二十四節記:天呐天呐//@4517_Voy吸管管:啊啊啊啊啊啊啊好可爱[泪][泪][泪]太用心了吧”,从内容中可以得到转发关系为:“等边直角三角饼干”->“二十四節記”->“4517_Voy吸管管”。通过“//@”转发符号,结合“:提取转发用户昵称和转发关系,构造传播路径;
对于新闻数据,可以通过来源判断这篇新闻是转发还是原创,如果来源字段存在且不是该新闻发布网站,是其它网站,则是该新闻为转发新闻,则可将该新闻网站和来源网站之间建立转发关系,依次类推构造传播路径;
其它数据,如微信、贴吧等,其本身不存在转发关系,因此可参考信息发布时间先后顺序构造传播路径。
采用上述方案,第一单源方案适合微博类来源的数据,其内容包含了转发关系,第二单源方案适合新闻类来源的数据,数据包含来源网站,第三单源方案适合微信、贴吧类来源的数据,本身不存在转发关系,可参考数据发布时间先后顺序构造单源传播路径,第三单源方案也适用于找不到转发关系的微博类、新闻类的根节点,将标题相同或相似的根节点按其发布时间先后顺序建立单源传播路径,通过上述三种方案单独或组合适用,使单个来源建立转发关系,形成树状结构,结构清晰,便于后续关联时数据访问与存储。
在本实施例的一个优选实施方式中,所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
具体地,微博、微信和新闻、其它数据源传播路径之间可先通过短链接和用户认证信息两种方式进行关联。短链接是微博内容中嵌入的新闻、微信等文章链接地址,可以通过短链接将微博和对应的新闻、微信等媒体源的数据进行关联;用户认证信息是有些用户在微博、微信上进行了机构认证,可以通过认证机构与新闻媒体进行关联。若还有未关联的单源传播路径,再将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。所示预设值可为1h-48h任意值。
采用上述方案,将不同来源的数据进行关联,通过一个或多个关联方案,形成交叉传播路径,便于查看数据的传播方式,还可观察到时间接近的不同来源的初始发布,传播方式清楚明了。
在本实施例的一个优选实施方式中所述关键传播节点的判定方法为:
遍历交叉传播路径,计算每个节点的连接的下级节点个数,判定是否达到设定阈值,若是,将该节点记为关键传播节点。
采用上述方案,所述下级节点不包括多层连接的下级节点,仅包含直接连接的下级节点,达到设定阈值,表明此节点有大量转发,形成2次引爆点,为数据传播的关键节点,具有重要参考意义,便于用户有针对应对,对数据传播进行干涉。
在本实施例的一个优选实施方式中,所述基于多源数据的舆情话题传播路径分析方法还包括以下步骤:
S104,传播层级分布分析:遍历交叉传播路径,统计每一层的节点数。
采用上述方案,便于用于查看不同层的节点数,查看转发的爆发层级,便于后续选择不同的层级进行干涉。
在本实施例的一个优选实施方式中,所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;具体地,利用gephi-toolkit工具绘制交叉传播路径图,如图3所示;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;具体地,利用gephi-toolkit工具绘制传播主路径图,如图4所示;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示,如图5所示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示,如图6所示。
在本实施例的一个优选实施方式中,所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。
在本实施例的一个优选实施方式中,根节点可与关键传播节点显示方式相同,也可以与前两者的显示方式均不同。
在本实施例的一个优选实施方式中,所述不同的显示方式可以为节点大小、颜色、背景或弹出信息至少一项。
在本实施例的一个优选实施方式中,所述显示传播主路径的过程中,当满足一定条件时,所述关键传播节点显示下级节点情况。所述满足一定的条件可以为鼠标单击、右击、鼠标放置位置、触屏点击等条件。
在本实施例的一个优选实施方式中,可采用图中补充绘制下级节点或显示下级节点个数方式显示下级节点情况。
在本实施例的一个优选实施方式中,所述显示关键节点信息的过程中,还获取来源类型、发布时间,利用表格进行显示。
采用上述方案,路径信息可通过不同的方式显示,用户直观获得所需信息。
应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于多源数据的舆情话题传播路径分析系统,其特征在于:包括:
多源数据采集模块,用于对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析模块,用于根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析模块,用于分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示模块,用于显示路径信息。
2.根据权利要求1所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述传播路径分析模块包括以下至少二个单元:
第一单源方案单元,用于通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立单源传播路径;
第二单源方案单元,用于通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向上依次类推建立单源传播路径;
第三单源方案单元,用于通过数据的发布时间,建立单源传播路径。
3.根据权利要求1所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述传播路径分析模块包括以下至少一个单元:
第一关联方案单元,用于通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案单元,用于通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案单元,用于将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
4.根据权利要求1所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述路径显示模块包括以下至少一项:
交叉传播路径显示单元,用于利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
传播主路径显示单元,用于利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
关键传播节点信息显示单元,用于获取关键传播节点信息,包括节点名称和转发数量,利用表格或统计图进行显示;
传播层级分布信息显示单元,用于获取传播层级每一层的节点数,利用表格或统计图进行显示。
5.根据权利要求4所述的基于多源数据的舆情话题传播路径分析系统,其特征在于:所述交叉传播路径显示单元包括区分子单元,所述区分子单元用于使关键传播节点与非关键传播节点采用不同的显示方式。
6.一种基于多源数据的舆情话题传播路径分析方法,其特征在于:包括以下步骤:
多源数据采集:对舆情话题进行多源数据采集,获取至少一项来源信息;
传播路径分析:根据来源信息的类型采用不同的单源传播路径建立方案,得到单源传播路径,多个单源传播路径相互关联,得到交叉传播路径;
传播主路径分析:分析各个节点的转发关系和转发量,得到舆情话题的关键传播节点,保留根节点与关键传播节点、关键传播节点之间的传播路径,删掉无关路径,得到传播主路径;
路径显示:显示路径信息。
7.根据权利要求6所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述单源传播路径建立方案包括以下至少二个方案:
第一单源方案:通过数据的内容分析数据的转发关系,获取节点名称及转发关系,建立传播路径;
第二单源方案:通过数据的来源网站分析数据是否为转发,若是,则可将该网站所在节点和来源网站所在节点之间建立转发关系,向来源依次类推建立传播路径;
第三单源方案:通过数据的发布时间,建立传播路径。
8.根据权利要求6所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述多个单源传播路径相互关联的方法包括以下至少一个方案:
第一关联方案:通过数据内容中嵌入的链接地址,将不同来源的节点进行关联,将链接地址所在节点作为上层节点,建立传播路径;
第二关联方案:通过单个用户在不同来源上的认证信息,将不同来源的节点进行关联,按发布时间先后建立传播路径;
第三关联方案:将不同来源的根节点发布时间进行比较,判断时间差是否超过预设值,若是,将不同来源的根节点进行关联,按发布时间先后建立传播路径;若否,将不同来源的根节点进行关联,建立同级路径。
9.根据权利要求6所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述路径信息的显示方法包括以下至少一项:
显示交叉传播路径:利用树形结构对交叉传播路径进行数据存储,记为T,绘图软件读取T,绘制交叉传播路径图;
显示传播主路径:利用树形结构对传播主路径进行数据存储,记为Tm,绘图软件读取Tm,绘制传播主路径图;
显示关键传播节点信息:获取关键传播节点信息的节点名称和转发数量,利用表格或统计图进行显示;
显示传播层级分布信息:获取传播层级每一层的节点数,利用表格或统计图进行显示。
10.根据权利要求9所述的基于多源数据的舆情话题传播路径分析方法,其特征在于:所述显示交叉传播路径的过程中,关键传播节点与非关键传播节点采用不同的显示方式。
CN201911080716.6A 2019-11-07 2019-11-07 一种基于多源数据的舆情话题传播路径分析系统和方法 Active CN110837608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911080716.6A CN110837608B (zh) 2019-11-07 2019-11-07 一种基于多源数据的舆情话题传播路径分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911080716.6A CN110837608B (zh) 2019-11-07 2019-11-07 一种基于多源数据的舆情话题传播路径分析系统和方法

Publications (2)

Publication Number Publication Date
CN110837608A true CN110837608A (zh) 2020-02-25
CN110837608B CN110837608B (zh) 2024-04-12

Family

ID=69576388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911080716.6A Active CN110837608B (zh) 2019-11-07 2019-11-07 一种基于多源数据的舆情话题传播路径分析系统和方法

Country Status (1)

Country Link
CN (1) CN110837608B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814065A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 信息传播路径分析方法、装置、计算机设备及存储介质
CN112235179A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 即时通信中话题的处理方法、装置及即时通信工具
CN116452699A (zh) * 2023-02-28 2023-07-18 北京麦克斯泰科技有限公司 一种社会网络舆论信息监测传播统计方法和系统
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117611374A (zh) * 2024-01-23 2024-02-27 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370119B1 (en) * 1998-02-27 2002-04-09 Cisco Technology, Inc. Computing the widest shortest path in high-speed networks
US20030131097A1 (en) * 2002-01-09 2003-07-10 Stephane Kasriel Interactive path analysis
CN1614934A (zh) * 2003-11-06 2005-05-11 华为技术有限公司 一种路径搜索方法
EP1668561A2 (en) * 2003-09-30 2006-06-14 Exxonmobil Upstream Research Company Copr-Urc Characterizing connectivity in reservoir models using paths of least resistance
CN103138981A (zh) * 2011-11-30 2013-06-05 中国移动通信集团公司 一种社交网络分析方法和装置
US8631094B1 (en) * 2008-08-08 2014-01-14 Google Inc. Distributed parallel determination of single and multiple source shortest paths in large directed graphs
CN104572687A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 微博传播的关键用户识别方法和装置
CN106341265A (zh) * 2016-09-09 2017-01-18 百度在线网络技术(北京)有限公司 网络数据的展示方法和装置
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN106779225A (zh) * 2016-12-22 2017-05-31 福州大学 一种包含必经节点集的最佳路径求解方法
CN108170842A (zh) * 2018-01-16 2018-06-15 重庆邮电大学 基于三部图模型的微博热点话题溯源方法
CN108183956A (zh) * 2017-12-29 2018-06-19 武汉大学 一种传播网络的关键路径提取方法
CN108733763A (zh) * 2018-04-16 2018-11-02 国家计算机网络与信息安全管理中心 基于微博热门事件计算关键节点的方法及装置
CN108989105A (zh) * 2018-07-16 2018-12-11 阿里巴巴集团控股有限公司 传播路径图生成方法、装置及服务器
CN110247805A (zh) * 2019-06-24 2019-09-17 南瑞集团有限公司 一种基于k壳分解的识别传播关键节点的方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370119B1 (en) * 1998-02-27 2002-04-09 Cisco Technology, Inc. Computing the widest shortest path in high-speed networks
US20030131097A1 (en) * 2002-01-09 2003-07-10 Stephane Kasriel Interactive path analysis
EP1668561A2 (en) * 2003-09-30 2006-06-14 Exxonmobil Upstream Research Company Copr-Urc Characterizing connectivity in reservoir models using paths of least resistance
CN1614934A (zh) * 2003-11-06 2005-05-11 华为技术有限公司 一种路径搜索方法
US8631094B1 (en) * 2008-08-08 2014-01-14 Google Inc. Distributed parallel determination of single and multiple source shortest paths in large directed graphs
CN103138981A (zh) * 2011-11-30 2013-06-05 中国移动通信集团公司 一种社交网络分析方法和装置
CN104572687A (zh) * 2013-10-17 2015-04-29 北大方正集团有限公司 微博传播的关键用户识别方法和装置
CN106341265A (zh) * 2016-09-09 2017-01-18 百度在线网络技术(北京)有限公司 网络数据的展示方法和装置
CN106776841A (zh) * 2016-11-28 2017-05-31 福建亿榕信息技术有限公司 一种互联网舆情事件传播指数的获取方法和系统
CN106779225A (zh) * 2016-12-22 2017-05-31 福州大学 一种包含必经节点集的最佳路径求解方法
CN108183956A (zh) * 2017-12-29 2018-06-19 武汉大学 一种传播网络的关键路径提取方法
CN108170842A (zh) * 2018-01-16 2018-06-15 重庆邮电大学 基于三部图模型的微博热点话题溯源方法
CN108733763A (zh) * 2018-04-16 2018-11-02 国家计算机网络与信息安全管理中心 基于微博热门事件计算关键节点的方法及装置
CN108989105A (zh) * 2018-07-16 2018-12-11 阿里巴巴集团控股有限公司 传播路径图生成方法、装置及服务器
CN110247805A (zh) * 2019-06-24 2019-09-17 南瑞集团有限公司 一种基于k壳分解的识别传播关键节点的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱湘;贾焰;聂原平;曲铭;: "基于微博的事件传播分析", 计算机研究与发展, no. 02, pages 179 - 186 *
李玉鹏;李孟泽;王召同;: "基于有向加权网络模型的复杂产品多源设计变更传播路径优化", 机械工程学报, no. 06, pages 227 - 236 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814065A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 信息传播路径分析方法、装置、计算机设备及存储介质
CN112235179A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 即时通信中话题的处理方法、装置及即时通信工具
CN112235179B (zh) * 2020-08-29 2022-01-28 上海量明科技发展有限公司 即时通信中话题的处理方法、装置及即时通信工具
WO2022041170A1 (zh) * 2020-08-29 2022-03-03 深圳市永兴元科技股份有限公司 即时通信中话题的处理方法、装置及即时通信工具
CN116452699A (zh) * 2023-02-28 2023-07-18 北京麦克斯泰科技有限公司 一种社会网络舆论信息监测传播统计方法和系统
CN117093762A (zh) * 2023-07-18 2023-11-21 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117093762B (zh) * 2023-07-18 2024-02-13 南京特尔顿信息科技有限公司 一种舆情数据评估分析系统及方法
CN117611374A (zh) * 2024-01-23 2024-02-27 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统
CN117611374B (zh) * 2024-01-23 2024-05-07 深圳博十强志科技有限公司 一种基于多元化大数据分析的信息传播分析方法及系统

Also Published As

Publication number Publication date
CN110837608B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN110837608A (zh) 一种基于多源数据的舆情话题传播路径分析系统和方法
Ratkiewicz et al. Detecting and tracking political abuse in social media
Schifferes et al. Identifying and verifying news through social media: Developing a user-centred tool for professional journalists
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
TWI416344B (zh) 用來提供對內容之存取的電腦執行方法及電腦可讀取媒體
Stieglitz et al. Emotions and information diffusion in social media—sentiment of microblogs and sharing behavior
Naaman et al. Hip and trendy: Characterizing emerging trends on Twitter
CN101025737B (zh) 基于关注度的同源信息搜索引擎聚合显示方法
Rosen et al. Social networks and online environments: when science and practice co-evolve
CN101556609B (zh) 基于网页内容的客户行为分析和服务系统
CN104135694B (zh) 信息处理装置以及信息处理方法
CN104717185B (zh) 短统一资源定位符的展示响应方法、装置、服务器和系统
US20100268776A1 (en) System and Method for Determining Information Reliability
CN109155136A (zh) 从视频自动检测和渲染精彩场面的计算机化系统和方法
US8572118B2 (en) Computer method and apparatus of information management and navigation
CN1165348A (zh) 通信互联网络
US20110184815A1 (en) System and method for sharing profits with one or more content providers
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN102164186A (zh) 一种实现云搜索服务的方法及系统
CN104102733B (zh) 搜索内容提供方法和搜索引擎
Sheth et al. Semantic filtering for social data
US8180752B2 (en) Apparatus and methods for managing a social media universe
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
CN101968810A (zh) 基于树形数据结构展示好友间交互内容的方法与系统
Samory et al. Quotes reveal community structure and interaction dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant