CN104063456A - 基于向量查询的自媒体传播图谱分析方法和装置 - Google Patents

基于向量查询的自媒体传播图谱分析方法和装置 Download PDF

Info

Publication number
CN104063456A
CN104063456A CN201410290283.8A CN201410290283A CN104063456A CN 104063456 A CN104063456 A CN 104063456A CN 201410290283 A CN201410290283 A CN 201410290283A CN 104063456 A CN104063456 A CN 104063456A
Authority
CN
China
Prior art keywords
media
article
document
vector
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410290283.8A
Other languages
English (en)
Other versions
CN104063456B (zh
Inventor
屈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Original Assignee
Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd filed Critical Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Priority to CN201410290283.8A priority Critical patent/CN104063456B/zh
Publication of CN104063456A publication Critical patent/CN104063456A/zh
Application granted granted Critical
Publication of CN104063456B publication Critical patent/CN104063456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种基于向量查询的自媒体传播图谱分析方法和装置。该方法主要包括:采集自媒体中的各种媒体传播平台所传播的媒体信息,构造事件主题相关的查询语句,利用查询语句的查询向量对媒体信息的文档数据进行查询,输出与事件主题相关的文档集合;对文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成元组数据集;根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,生成事件主题相关的媒体信息的传播路径。本发明实施例能够实现对所有自媒体平台中的媒体信息的传播情况的综合分析,做到真正的自媒体传播图谱分析,能够实现对自媒体中任意事件的传播分析结果的查询功能。

Description

基于向量查询的自媒体传播图谱分析方法和装置
技术领域
本发明涉及媒体传播分析技术领域,尤其涉及一种基于向量查询的自媒体传播图谱分析方法和装置。
背景技术
微博(Weibo)是微型博客(MicroBlog)的简称,即一句话博客,是一个基于用户关系信息分享、传播以及获取的平台。通过该平台用户可以通过WEB、WAP(Wireless Application Protocol,无线应用协议)等各种客户端组建个人社区,在该个人社区中更新图片、文字或视频等信息,并实现即时分享。
目前,现有技术中的微博传播路径分析方法主要包括:分析微博的转发时间、转发人、关键账号、转发层级,从而分析出微博传播的路径。
上述现有技术中的微博传播路径分析方法的缺点为:只能对微博单一媒体进行分析,不能分析微信等其他自媒体;无查询功能,只能提供对特定微博事件的简单统计功能。
发明内容
本发明的实施例提供了一种基于向量查询的自媒体传播图谱分析方法和装置,以实现对所有自媒体平台中的媒体信息的传播情况的综合分析。
本发明提供了如下方案:
一种基于向量查询的自媒体传播图谱分析方法,包括:
采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;
构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;
对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;
根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
所述的采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据,包括:
根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器中;
利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。
所述的构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合,包括:
根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。
所述的对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集,包括:
对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性;
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
所述的根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径,包括:
根据地域特征对所述元组数据集中的各个文章进行地理编码,获取各个文章的经纬度坐标;
根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
一种基于向量查询的自媒体传播图谱分析装置,包括:
媒体信息采集模块,用于采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;
向量查询模块,用于构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;
相似性分析模块,用于对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;
传播图谱展现模块,用于根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
所述的媒体信息采集模块,具体用于根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器中;
利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。
所述的向量查询模块,具体用于根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。
所述的相似性分析模块,具体用于对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性;
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
所述的传播图谱展现模块,具体用于根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过基于向量查询的自媒体传播图谱分析技术,能够实现对所有自媒体平台中的媒体信息的传播情况的综合分析,做到真正的自媒体传播图谱分析。本发明实施例以向量查询技术为基础,能够实现对自媒体中任意事件的传播分析结果的查询功能,能够对自媒体传播进行深入分析,自动生成多维度智能图谱,展示自媒体传播轨迹、传播趋势。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于向量查询的自媒体传播图谱分析方法的处理流程图;
图2为本发明实施例二提供的一种基于向量查询的自媒体传播图谱分析装置的具体实现结构图,图中,媒体信息采集模块21,向量查询模块22,相似性分析模块23和传播图谱展现模块24。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
该实施例提供了一种基于向量查询的自媒体传播图谱分析方法的处理流程如图1所示,包括如下的处理步骤:
步骤S110、通过媒体采集工具采集自媒体中的各种媒体传播平台所传播的媒体信息。
自媒体是包含博客、SNS(Social Networking Services,社会性网络服务)、微博、微信公众平台等多种媒体传播平台的即时传播方式。通过自媒体,一个普通市民或机构组织能够在任何时间、任何地点,以任何一个自媒体平台提供并分享各种信息。
本发明实施例需要利用云采集技术通过媒体采集工具采集自媒体中的各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,得到格式化的媒体信息,并存储在媒体信息数据库中。上述媒体采集工具可以为网页爬虫工具等。
在实际应用中,可以根据每种媒体传播平台的特征信息分别设计对应的媒体采集工具,现在有很多成熟的基于HTTP(Hypertext transfer protocol,超文本转移协议)协议的抓取技术和框架可以使用。比如,可以采用python技术,基于http协议对相应的站点进行定时定点的抓取。Python技术具有灵活,可移植,跨平台,功能强大的特点。又比如,还可以采用正则表达式,基于http协议将感兴趣的内容,从自媒体上抓取过来,并进行结构化的存储。
然后,将采集的自媒体中的媒体信息使用大数据存储方式,分布式的存储到云服务器上。
步骤S120、对采集的自媒体中的各种媒体信息进行多维度的综合分析,输出结构化的文档数据。
本发明实施例需要对上述待分析的自媒体文章的传播轨迹、传播趋势相关的各种因素进行多维度的综合分析,该综合分析可以包括:传播轨迹分析、媒体事件分析技术、媒体覆盖分析、媒体粉丝分析等。
其中,传播轨迹分析,主要包括分析媒体信息在新闻、论坛、博客、微博等媒体传播载体中的传播规律。
媒体事件分析技术,主要包括分析媒体事件的起因,传播速度,爆发趋势。
媒体舆情分析技术,主要包括分析媒体舆情的舆情走势,舆情传播,发展态势。
媒体覆盖分析技术,主要包括分析媒体覆盖的媒体范围,媒体数量,文章数量等。
媒体信息的存储技术可以采用hadoop集群,使用haddop集群自带的分布式文件系统,支持超大数据集,支持数据备份。
媒体信息的分析技术可以采用MapReduce模型,Map函数将所有的媒体信息的文章进行拆分,将拆分后的文章分配给对应的Reduce函数。
利用Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析,Reduce函数还可以进行不同文章之间的具体的相似性分析。
所以,经过这一步骤,文章经过初步的分析、整理和过滤,输出了比较整齐的、结构化的文档数据,该文档数据包括文档集和文档的元数据。
步骤S130、将事件主题相关的查询语句向量化,利用查询向量对上述文档数据进行查询,输出与上述事件主题相关的原始的文档集合。
根据自媒体中用户感兴趣的事件主题构造查询语句,将查询语句进行向量化,采用分词技术将向量化的查询语句切分解成n维查询向量。然后使用全文查询技术,利用上述n维查询向量对上述步骤S120处理输出的文档数据进行查询,输出一个与上述事件主题相关的原始的文档集合。
该步骤可以实现对自媒体中任意事件主题相关的文档的查询功能。
步骤S140、对事件主题相关的文档集合进行基于文档向量模型的相似性分析,生成原始文章的元组数据集。
对S130步骤输出的原始的文档集合中的两两文档之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性。示例性的,上述第一判断阈值可以为0.9,上述第二判断阈值可以为0.7。
上述文档向量模型是一种成熟、稳定的相似性分析技术,该技术的原理主要包括:把每篇文章分词成n维的文档向量,然后计算两篇文档向量之间的夹角,夹角越小,就认为两篇文档之间的相似度越大。
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
步骤S150、对原始文章的元组数据集中的各个文章的经纬度坐标,在GIS系统上将各个文章展现出来,生成事件主题相关的各种文章的传播路径和地域模型。
基于向量查询的自媒体传播图谱分析技术能够对自媒体传播进行深入分析,自动生成多维度的传播图谱,展示采集的自媒体中的媒体信息的传播轨迹、传播趋势。
根据地域特征对于上述元组数据集中的各个文章进行地理编码,获取各个文章大致的经纬度坐标。
然后,根据各个文章的经纬度坐标,在GIS(Geographic InformationSystem,地理信息系统)系统上将各个文章展现出来,并对各个文章进行多个维度的展示,如根据时间,根据地域,把上述事件主题相关的各个文章随着时间和地域的扩散的情况采用GIS推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
上述本发明实施例的方法可以采用向量的,并行的方式同时分析多组文章,得到任意媒体的传播路线和传播图谱,并按照时间序列进行排序,并使用gis的方式建立相应的舆情传播和预测模型。
实施例二
该实施例提供了一种基于向量查询的自媒体传播图谱分析装置,其具体实现结构如图2所示,具体可以包括如下的模块:
媒体信息采集模块21,用于采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;
向量查询模块22,用于构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;
相似性分析模块23,用于对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;
传播图谱展现模块24,用于根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
进一步地,所述的媒体信息采集模块21,具体用于根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器中;
利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。
进一步地,所述的向量查询模块22,具体用于根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。
进一步地,所述的相似性分析模块23,具体用于对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性;
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
进一步地,所述的传播图谱展现模块24,具体用于根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
用本发明实施例的装置进行基于向量查询的自媒体传播图谱分析的具体过程与前述方法实施例类似,此处不再赘述。
综上所述,本发明实施例通过基于向量查询的自媒体传播图谱分析技术,能够实现对所有自媒体平台中的媒体信息的传播情况的综合分析,做到真正的自媒体传播图谱分析。
本发明实施例基于向量查询技术,以向量查询技术为基础,能够实现对自媒体中任意事件的传播分析结果的查询功能,能够对自媒体传播进行深入分析,自动生成多维度智能图谱,展示自媒体传播轨迹、传播趋势。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于向量查询的自媒体传播图谱分析方法,其特征在于,包括:
采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;
构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;
对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;
根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
2.根据权利要求1所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所述的采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据,包括:
根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器中;
利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。
3.根据权利要求2所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所述的构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合,包括:
根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。
4.根据权利要求3所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所述的对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集,包括:
对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性;
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
5.根据权利要求4所述的基于向量查询的自媒体传播图谱分析方法,其特征在于,所述的根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径,包括:
根据地域特征对所述元组数据集中的各个文章进行地理编码,获取各个文章的经纬度坐标;
根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
6.一种基于向量查询的自媒体传播图谱分析装置,其特征在于,包括:
媒体信息采集模块,用于采集自媒体中的各种媒体传播平台所传播的媒体信息,对所述媒体信息进行分析得到结构化的文档数据;
向量查询模块,用于构造事件主题相关的查询语句,对所述查询语句进行向量化得到查询向量,利用所述查询向量对所述文档数据进行查询,输出与所述事件主题相关的文档集合;
相似性分析模块,用于对所述文档集合中的各个文档之间进行相似性分析,根据相似性分析结果生成所述事件主题相关的元组数据集;
传播图谱展现模块,用于根据所述元组数据集中的各个文章的经纬度坐标,在地理信息系统上将所述各个文章展现出来,生成所述事件主题相关的媒体信息的传播路径。
7.根据权利要求6所述的基于向量查询的自媒体传播图谱分析装置,其特征在于:
所述的媒体信息采集模块,具体用于根据自媒体中的每种媒体传播平台的特征信息分别设计对应的媒体采集工具,通过媒体采集工具采集各种媒体传播平台所传播的媒体信息,将采集到的媒体信息进行格式化处理,将格式化的媒体信息分布式地存储在服务器中;
利用Map函数将所述服务器中存储的媒体信息中的文章进行拆分,将拆分后的文章分配给对应的Reduce函数,利用所述Reduce函数对对应的文章进行传播轨迹分析和/或媒体事件分析技术,得到结构化的文档数据,该文档数据包括文档集和文档的元数据。
8.根据权利要求7所述的基于向量查询的自媒体传播图谱分析装置,其特征在于:
所述的向量查询模块,具体用于根据自媒体中感兴趣的事件主题构造查询语句,将所述查询语句进行向量化,采用分词技术将向量化的查询语句切分解成多维查询向量,使用全文查询技术利用所述多维查询向量对所述文档数据进行查询,输出一个与所述事件主题相关的原始的文档集合。
9.根据权利要求8所述的基于向量查询的自媒体传播图谱分析装置,其特征在于:
所述的相似性分析模块,具体用于对所述事件主题相关的原始的文档集合中的两两文章之间进行基于文档向量模型的相似性分析,将相似性高于第一判断阈值的两篇文章判断为属于相互转载,将相似性高于或者等于第二判断阈值的两篇文章判断为属于在讨论同一个话题,将相似性低于第二判断阈值的两篇文章判断为属于没有相似性;
将属于相互转载和属于在讨论同一个话题的所有文章组成元组数据集,将所述元组数据集中发布时间最早的文章作为原始文章。
10.根据权利要求9所述的基于向量查询的自媒体传播图谱分析装置,其特征在于:
所述的传播图谱展现模块,具体用于根据各个文章的经纬度坐标,在地理信息系统上将各个文章展现出来,并对各个文章进行多个维度的展示,把所述事件主题相关的各个文章随着时间和地域的扩散的情况采用地理信息系统推演的方式展示出来,生成事件主题相关的媒体信息的传播路径和地域模型。
CN201410290283.8A 2014-06-25 2014-06-25 基于向量查询的自媒体传播图谱分析方法和装置 Active CN104063456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410290283.8A CN104063456B (zh) 2014-06-25 2014-06-25 基于向量查询的自媒体传播图谱分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410290283.8A CN104063456B (zh) 2014-06-25 2014-06-25 基于向量查询的自媒体传播图谱分析方法和装置

Publications (2)

Publication Number Publication Date
CN104063456A true CN104063456A (zh) 2014-09-24
CN104063456B CN104063456B (zh) 2018-02-23

Family

ID=51551170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410290283.8A Active CN104063456B (zh) 2014-06-25 2014-06-25 基于向量查询的自媒体传播图谱分析方法和装置

Country Status (1)

Country Link
CN (1) CN104063456B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389389A (zh) * 2015-12-10 2016-03-09 安徽博约信息科技有限责任公司 一种网络舆情传播态势媒体联动分析方法
CN105468768A (zh) * 2015-12-07 2016-04-06 临沂大学 一种微信舆情的系统监测方法
CN106326610A (zh) * 2016-11-04 2017-01-11 山东大学 一种基于设计网络的设计变更传播预测方法及系统
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
CN101090437A (zh) * 2006-04-17 2007-12-19 株式会社理光 图像读取系统
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN102651748A (zh) * 2011-02-23 2012-08-29 上海博路信息技术有限公司 一种基于地理位置的照片分享系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
CN101090437A (zh) * 2006-04-17 2007-12-19 株式会社理光 图像读取系统
CN102651748A (zh) * 2011-02-23 2012-08-29 上海博路信息技术有限公司 一种基于地理位置的照片分享系统
CN102411638A (zh) * 2011-12-30 2012-04-11 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776609A (zh) * 2015-11-19 2017-05-31 北京国双科技有限公司 网站转载数量的统计方法及装置
CN106776609B (zh) * 2015-11-19 2020-05-22 北京国双科技有限公司 网站转载数量的统计方法及装置
CN105468768A (zh) * 2015-12-07 2016-04-06 临沂大学 一种微信舆情的系统监测方法
CN105389389A (zh) * 2015-12-10 2016-03-09 安徽博约信息科技有限责任公司 一种网络舆情传播态势媒体联动分析方法
CN105389389B (zh) * 2015-12-10 2018-09-25 安徽博约信息科技股份有限公司 一种网络舆情传播态势媒体联动分析方法
CN106326610A (zh) * 2016-11-04 2017-01-11 山东大学 一种基于设计网络的设计变更传播预测方法及系统

Also Published As

Publication number Publication date
CN104063456B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
Zhang et al. 5Ws model for big data analysis and visualization
US9268716B2 (en) Writing data from hadoop to off grid storage
Zawoad et al. Digital forensics in the age of big data: Challenges, approaches, and opportunities
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN103838867A (zh) 日志处理方法和装置
CN104394118A (zh) 一种用户身份识别方法及系统
Ballatore Google chemtrails: A methodology to analyze topic representation in search engine results
CN104182506A (zh) 日志管理方法
CN104778208A (zh) 一种搜索引擎 seo 网站数据的优化抓取方法及系统
JP2016535345A (ja) 地図上で実時間のソーシャルデータを処理及び提示するための方法
CN104660427A (zh) 日志实时统计方法及装置
Sharma et al. Proliferating Cloud Density through Big Data Ecosystem, Novel XCLOUDX Classification and Emergence of as-a-Service Era
CN104615627A (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN104063456A (zh) 基于向量查询的自媒体传播图谱分析方法和装置
CN106649498A (zh) 一种基于爬虫和文本聚类分析的网络舆情分析系统
Yadav et al. Review paper on big data analytics in Cloud computing
US20170052968A1 (en) Analyzing and viewing social interactions based on personal electronic devices
Huang et al. On the understanding of interdependency of mobile app usage
CN108664492A (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
CN108763506A (zh) 一种消息推送处理方法及装置
Stefanov Analysis of cloud based etl in the era of iot and big data
Borruto Analysis of tweets in Twitter.
CN111723063A (zh) 一种离线日志数据处理的方法和装置
Mandavilli et al. Detection of natural disaster affected areas using R
Ethirajan et al. Adoption of E-governance applications towards big data approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant