CN112000866B - 互联网数据分析方法、装置、电子装置及介质 - Google Patents
互联网数据分析方法、装置、电子装置及介质 Download PDFInfo
- Publication number
- CN112000866B CN112000866B CN202010776716.6A CN202010776716A CN112000866B CN 112000866 B CN112000866 B CN 112000866B CN 202010776716 A CN202010776716 A CN 202010776716A CN 112000866 B CN112000866 B CN 112000866B
- Authority
- CN
- China
- Prior art keywords
- key element
- key
- texts
- multiple dimensions
- key elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007405 data analysis Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 230000009193 crawling Effects 0.000 claims abstract description 19
- 238000005065 mining Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims abstract description 9
- 230000014509 gene expression Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000009792 diffusion process Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008520 organization Effects 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种互联网数据分析方法、电子装置和存储介质。该互联网数据分析方法包括:从多个预设引擎中爬取与目标文本关联的多个待分析的文本;按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素;将多个维度的关键要素按预设方式进行排列,得到关键要素集群;在关键要素集群中挖掘所述目标文本的溯源信息。通过本申请,解决了相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题,实现了基于关键要素分析获知热点内容源头与其扩散途径、有效协助网络监管机构对网络环境进行监管的有益效果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及互联网数据分析方法、装置、电子装置及存储介质。
背景技术
近年来,互联网在我国快速发展、迅速普及,日益成为人民群众关注社会热点事件和表达意见的重要渠道。随着我国信息化建设加快推进,互联网在为信息交流带来方便的同时,也为互联网敏感信息的传播提供的便利。互联网敏感信息一经出现就会引起网民的格外关注,进而产生巨大的舆论压力。借助现代信息技术,网络敏感信息的传播方式、传播速度、影响范围里几何级数增长,危害巨大,加强此类信息的有效监管,对确保我国构建和谐社会、创造良好的网络文化环境具有重要意义。
现有互联网数据分析技术立足于当下,常见于网络监控机构防治即时情况下的热点内容。但互联网上存在海量数据,网络监管机构或企业往往会在监管到一些热点内容被迅猛传播,但无法对该热点内容的源头回溯和发现该热点内容的传播途径与扩散方式,无法对互联网敏感信息进行有效防护。
目前针对相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种互联网数据分析方法、装置、电子装置及存储介质,以至少解决相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题。
第一方面,本申请实施例提供了一种互联网数据分析方法,包括:从多个预设引擎中爬取与目标文本关联的多个待分析的文本;按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群;在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。
在其中一些实施例中,从多个预设引擎中爬取与目标文本关联的多个待分析的文本包括:获取所述目标文本,并提取所述目标文本的数据信息,其中,所述数据信息至少包括标题、文本内容、关键词;根据所述数据信息从所述多个预设引擎中爬取多个所述文本,其中,所述文本的数据信息包括所述目标文本的数据信息。
在其中一些实施例中,按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素包括:利用多个维度的正则表达式对所述多个待分析的文本进行解析,得到所述多个待分析的文本的多个维度的关键要素,其中,所述多个维度包括时间维度、空间维度、用户名维度、账号维度。
在其中一些实施例中,所述多个维度的正则表达式包括:通过机器学习算法对预设目标文本库进行训练得到多种格式的正则表达式,其中,所述多种格式包括时间格式、空间格式、用户名格式、账号格式。
在其中一些实施例中,将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群包括:
按第一要素对应的时间的先后顺序对所述多个维度的关键要素进行排序,得到关键要素序列,其中,所述第一要素包括所述多个维度的关键要素中的时间要素;
在所述关键要素序列中检测预设时间内的第二要素,聚合所述第二要素得到多个维度的关键要素集,其中,所述第二要素包括所述多个维度的关键要素其中一个所述关键要素;
组合所述多个维度的关键要素集,得到所述关键要素集群。
在其中一些实施例中,在所述关键要素集群中挖掘所述目标文本的溯源信息包括:从所述关键要素集群中提取所述关键要素集;
在每一个所述关键要素集中选取数目最多的所述关键要素作为所述关键要素集的特征关键要素;
根据多个所述特征关键要素确定所述目标文本的溯源信息,其中,一个所述特征关键要素对应所述目标文本的一个维度的溯源信息。
在其中一些实施例中,在每一个所述关键要素集中选取数目最多的所述关键要素作为所述关键要素集的特征关键要素包括:
获取每一所述关键要素集中的所有所述关键要素;
检测预设时段内的所述关键要素,得到多个关键要素子集;
选取每一个所述关键要素子集中数目最多的所述关键要素作为所述关键要素子集的特征关键要素,并根据多个所述关键要素子集的特征关键要素确定所述关键要素集的特征关键要素。
第二方面,本申请实施例提供一种互联网数据分析装置,包括:
获取模块,用于从多个预设引擎中爬取与目标文本关联的多个待分析的文本;
解析模块,用于按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;
处理模块,用于将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群;
分析模块,用于在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面所述的互联网数据分析方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行第一方面所述的互联网数据分析方法。
相比于相关技术,本申请实施例提供的一种互联网数据分析方法、装置、电子装置及存储介质,通过从多个预设引擎中爬取与目标文本关联的多个待分析的文本;按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素;将多个维度的关键要素按预设方式进行排列,得到关键要素集群;在关键要素集群中挖掘所述目标文本的溯源信息,解决了相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题,实现了基于关键要素分析获知热点内容源头与其扩散途径、有效协助网络监管机构对网络环境进行监管的有益效果。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例的互联网数据分析方法的终端的硬件结构框图;
图2是根据本申请实施例的互联网数据分析方法的流程图;
图3是根据本申请实施例的互联网数据分析装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请中描述的各种技术可用于互联网文章、新闻、谣言、舆情的分析、溯源。
在对本申请的实施例进行描述和说明之前,先对本申请中使用的相关技术进行说明如下:
网络爬虫,又被称为网页蜘蛛、网络机器人、网页追逐者,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,网络爬虫还称为蚂蚁、自动索引、模拟程序、蠕虫。实现网络爬虫使用的编程语言多样,也衍生出了大量插件可供使用。
正则表达式(Regular Expression,RE),又称规则表达式,是计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,格式化文本内容经常以此类方式批量获取关注目标。
本实施例提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。以运行在终端上为例,图1是本发明实施例的互联网数据分析方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的互联网数据分析方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。本实施例提供了一种互联网数据分析方法,图2是根据本申请实施例的互联网数据分析方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,从多个预设引擎中爬取与目标文本关联的多个待分析的文本。
在本实施例中,从多个预设引擎中爬取文本之前,需要部署数据采集引擎,具体地包括建立网站服务器、设置账号功能模块、设置爬虫任务目标、设置爬虫规则及发布爬虫任务,其中,建立的网站服务器可用于互联网访问、页面展示,且网站服务器的应用环境包括:linux、apache、mysql、php,同时,本申请实施例中的网站服务器采用分布式部署,籍以实现接收从不同网络环境中爬取的数据,该网站服务器还采用高并发数据传输方式,提高服务数据发送及收据接收能力;账号功能模块采用分账号模式,每一个账号对应不同的爬虫引擎,并可以通过移动网络设置爬虫客户端,每个爬虫客户端的每个线程可以接收不同爬虫引擎任务;设置爬虫任务是通过设置爬虫任务目标实现的,该爬虫任务目标包括需要爬取的搜索引擎或社交媒体的查询连接,爬虫任务设置时还采用将爬虫任务分配给不同引擎,从而提高相关爬取内容的成功率。设置爬虫规则是采用编程语言、正则语句对目标链接进行规则设置;发布爬虫任务是通过对外发布包括账户ID、爬虫任务ID和爬虫HTTP的请求报文,从而获取爬取文本的结果。
在本实施例中,预设引擎包括搜索引擎、社交媒体,爬取的文本包括但不限于文章、新闻、谣言、发帖、舆情报告、热点事件评论。
步骤S202,按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素。
在本实施例中,每个文本均包括多个维度的关键要素,每一个维度包括至少一个关键要素,每一个所述文本的关键要素包括:文本生成时间、文本发布地点、文本内容、发文态度(包括正面和负面)、阅读量和文本发布者(对应为发文的账号)。
在本实施例中,预设解析规则是根据文本的来源建立或设置的不同的来源解析规则,例如:当文本来源新浪、百度、搜狗等网站时,其对应的解析规则分别为:新浪网站的页面规则、百度网站的页面规则和搜狗网站的页面规则。同时,预设解析规则还根据文本的不同关键要素设置或建立的要素解析规则,例如:时间维度的解析规则、空间维度的解析规则、用户名维度的解析规则、账号邮箱维度的解析规则;在本实施例中,预设解析规则还可以为来源解析规则与要素解析规则的组合的解析规则。
步骤S203,将多个维度的关键要素按预设方式进行排列,得到关键要素集群。
在本实施例中,按照时间要素排列内容,具体为按时间先后顺序将多个维度的关键要素进行排序,在本实施例中,按预设方式排列多个维度的关键要素后还将排列的关键要素进行json格式转换,也就是关键要素集群为json格式的数据。在生成该json格式的数据,能通过时间维度从其中检测出最早发布的文本的时间、账号、链接、网站;同时,通过时间节点,能发现同一时间批量发布文本的账号和链接,和/或发现地域性特征的文本释放规律。
步骤S204,在关键要素集群中挖掘目标文本的溯源信息,其中,溯源信息至少包括目标文本的起源信息、传播途径信息。
在本实施例中,通过分析关键要素集群中的关键要素对应的特征,分析目标文本的内容的起源、发展及地域规律。
通过上述步骤S201至步骤S204,采用从多个预设引擎中爬取与目标文本关联的多个待分析的文本;按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素;将多个维度的关键要素按预设方式进行排列,得到关键要素集群;在关键要素集群中挖掘所述目标文本的溯源信息,解决了相关技术中无法对热点内容的源头回溯和发现热点内容的传播途径与扩散方式的问题,实现了基于关键要素分析获知热点内容源头与其扩散途径、有效协助网络监管机构对网络环境进行监管的有益效果。
在其中一个具体实施例中,假定当目标文本对应的事件或内容为诋毁M部门,目标文本对应为文章或新闻,且目标文本的标题为“A打人,M部门不作为”,对于该目标文本的源头回溯分析过程如下:
将该文章输入到多个预设的引擎中,通过文章标题、文章内容进行实时互联网爬取,得到多篇文章;
从多篇文章中提取各篇文章的关键要素,该关键要素包括:发布时间,发布地点、发布态度及发布者;
将关键要素按时间先后顺序排序,并分析关键要素,
若发现到最早发布该文章的发布地点为“H市B社区论坛”,则表示该事件的发源地为“H市B社区论坛”;若发现发布时间最早的100文本中,发布地点为H市的有90个,10个为其他地方,则分析出该事件的发起地为H市;若发现发布时间最早的100文本中,正面的有90个,10个是负面的,则分析出该事件的发布态度为正面的;若发布时间为近期的100个文本中有90个的发布地点为C市,发布时间最早的100文本中有90个在H市,则分析C市为该事件的关键宣传点。
在其中一些实施例中,从多个预设引擎中爬取与目标文本关联的多个待分析的文本包括如下步骤:
获取目标文本,并提取目标文本的数据信息,其中,数据信息至少包括标题、文本内容、关键词。
在本实施例中,目标文本的数据信息是用于爬取文本的关键词,通过目标文本的数据信息搜索目标文本对应的热点事件/热点内容关联的文本。
根据数据信息从多个预设引擎中爬取多个文本,其中,文本的数据信息包括目标文本的数据信息。
在本实施例中,目标文本和文本对应的内容是相同的,均是描述的相同事件、新闻、谣言、舆情报告等。
在其中一些实施例中,按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素包括如下步骤:
利用多个维度的正则表达式对多个待分析的文本进行解析,得到多个待分析的文本的多个维度的关键要素,其中,多个维度包括时间维度、空间维度、用户名维度、账号维度。
在本实施例中,多个维度的正则表达式包括:通过机器学习算法对预设目标文本库进行训练得到多种格式的正则表达式,其中,多种格式包括时间格式、空间格式、用户名格式、账号格式。
在本实施例中,通过爬取文本建立常规文章库和对文章进行机器学习,分形成通用的正则,提供格式识别度。其中,
时间格式的正则表达式可参考国际时间表达格式,年月日、时分秒等;
空间格式的正则表达式可参考中国境内省市区区划表,将其中文名及简写系记录下来,形成国内地区字典,境外则通过国际地区表,形成国外地区字典;
用户名格式的正则表达式,可通过互联网公布的用户名库,进行机器学习,形成用户名策略库,在匹配到用户名后,以判断此用户名是否符合用户名常用习惯而形成用户名格式的正则表达式。
在其中一些实施例中,将多个维度的关键要素按预设方式进行排列,得到关键要素集群包括如下步骤:
按第一要素对应的时间的先后顺序对多个维度的关键要素进行排序,得到关键要素序列,其中,第一要素包括多个维度的关键要素中的时间要素。
在本实施例中,以时间先后为基准,将多个维度的关键要素进行排序成包含一系列关键要素的关键要素序列。
在关键要素序列中检测预设时间内的第二要素,聚合第二要素得到多个维度的关键要素集,其中,第二要素包括多个维度的关键要素其中一个关键要素。
在本实施例中,按时间先后顺序完成排序后在进行聚合的第二要素为时间敏感型的关键要素,而对于时间不敏感的关键要素则在可以在按时间先后顺序进行排序之前进行聚合,而聚合的目的在于:将时间在设定时间内的相同的关键要素进行集合,进而形成一个维度的关键要素集,籍以反应目标文本的起源和/或传播对应的信息。例如:集合的关键要素集对应的关键要素为文章发布地点,而该关键要素集中对应最早时间点的文章发布地点均为B市,而对应近期时间点的文章发布点均为C市,则表示文章发布源地在于B市,而C市在为该文章的关键宣传节点。
在其中一些实施例中,在关键要素集群中挖掘目标文本的溯源信息包括如下步骤:
从关键要素集群中提取关键要素集。
在每一个关键要素集中选取数目最多的关键要素作为关键要素集的特征关键要素。
根据多个特征关键要素确定目标文本的溯源信息,其中,一个特征关键要素对应目标文本的一个维度的溯源信息。
在其中一些实施例中,在每一个关键要素集中选取数目最多的关键要素作为关键要素集的特征关键要素包括如下步骤:
获取每一关键要素集中的所有关键要素。
检测预设时段内的关键要素,得到多个关键要素子集。
在本实施例中,一个关键要素集包括至少一个关键要素子集,且每一个关键要素子集对应不同维度关键要素。例如:在一个关键要素集中,包括文本发布地点的关键要素子集、文本发布者的关键要素子集。
选取每一个关键要素子集中数目最多的关键要素作为关键要素子集的特征关键要素,并根据多个关键要素子集的特征关键要素确定关键要素集的特征关键要素。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种互联网数据分析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的互联网数据分析装置的结构框图,如图3所示,该装置包括:
获取模块31,用于从多个预设引擎中爬取与目标文本关联的多个待分析的文本。
解析模块32,与获取模块31耦合连接,用于按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素。
处理模块33,与解析模块32耦合连接,用于将多个维度的关键要素按预设方式进行排列,得到关键要素集群。
分析模块34,与处理模块33耦合连接,用于在关键要素集群中挖掘目标文本的溯源信息,其中,溯源信息至少包括目标文本的起源信息、传播途径信息。
在其中一些实施例中,获取模块31用于获取目标文本,并提取目标文本的数据信息,其中,数据信息至少包括标题、文本内容、关键词;根据数据信息从多个预设引擎中爬取多个文本,其中,文本的数据信息包括目标文本的数据信息。
在其中一些实施例中,解析模块32用于利用多个维度的正则表达式对多个待分析的文本进行解析,得到多个待分析的文本的多个维度的关键要素,其中,多个维度包括时间维度、空间维度、用户名维度、账号维度。
在其中一些实施例中,处理模块33用于按第一要素对应的时间的先后顺序对多个维度的关键要素进行排序,得到关键要素序列,其中,第一要素包括多个维度的关键要素中的时间要素;在关键要素序列中检测预设时间内的第二要素,聚合第二要素得到多个维度的关键要素集,其中,第二要素包括多个维度的关键要素其中一个关键要素;组合多个维度的关键要素集,得到关键要素集群。
在其中一些实施例中,分析模块34用于从关键要素集群中提取关键要素集;在每一个关键要素集中选取数目最多的关键要素作为关键要素集的特征关键要素;根据多个特征关键要素确定目标文本的溯源信息,其中,一个特征关键要素对应目标文本的一个维度的溯源信息。
在其中一些实施例中,分析模块34还用于获取每一关键要素集中的所有关键要素;检测预设时段内的关键要素,得到多个关键要素子集;选取每一个关键要素子集中数目最多的关键要素作为关键要素子集的特征关键要素,并根据多个关键要素子集的特征关键要素确定关键要素集的特征关键要素。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从多个预设引擎中爬取与目标文本关联的多个待分析的文本。
S2,按照预设解析规则对多个待分析的文本进行解析处理,得到多个待分析的文本的多个维度的关键要素。
S3,将多个维度的关键要素按预设方式进行排列,得到关键要素集群。
S4,在关键要素集群中挖掘目标文本的溯源信息,其中,溯源信息至少包括目标文本的起源信息、传播途径信息。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的互联网数据分析方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种互联网数据分析方法。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种互联网数据分析方法,其特征在于,包括:
从多个预设引擎中爬取与目标文本关联的多个待分析的文本;
按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;
将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群,包括:
按第一要素对应的时间的先后顺序对所述多个维度的关键要素进行排序,得到关键要素序列,其中,所述第一要素包括所述多个维度的关键要素中的时间要素;
在所述关键要素序列中检测预设时间内的第二要素,聚合所述第二要素得到多个维度的关键要素集,其中,所述第二要素包括所述多个维度的关键要素其中一个所述关键要素;
组合所述多个维度的关键要素集,得到所述关键要素集群;
在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。
2.根据权利要求1所述的互联网数据分析方法,其特征在于,从多个预设引擎中爬取与目标文本关联的多个待分析的文本包括:
获取所述目标文本,并提取所述目标文本的数据信息,其中,所述数据信息至少包括标题、文本内容、关键词;
根据所述数据信息从所述多个预设引擎中爬取多个所述文本,其中,所述文本的数据信息包括所述目标文本的数据信息。
3.根据权利要求1所述的互联网数据分析方法,其特征在于,按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素包括:利用多个维度的正则表达式对所述多个待分析的文本进行解析,得到所述多个待分析的文本的多个维度的关键要素,其中,所述多个维度包括时间维度、空间维度、用户名维度、账号维度。
4.根据权利要求3所述的互联网数据分析方法,其特征在于,所述多个维度的正则表达式包括:通过机器学习算法对预设目标文本库进行训练得到多种格式的正则表达式,其中,所述多种格式包括时间格式、空间格式、用户名格式、账号格式。
5.根据权利要求1所述的互联网数据分析方法,其特征在于,在所述关键要素集群中挖掘所述目标文本的溯源信息包括:
从所述关键要素集群中提取所述关键要素集;
在每一个所述关键要素集中选取数目最多的所述关键要素作为所述关键要素集的特征关键要素;
根据多个所述特征关键要素确定所述目标文本的溯源信息,其中,一个所述特征关键要素对应所述目标文本的一个维度的溯源信息。
6.根据权利要求5所述的互联网数据分析方法,其特征在于,在每一个所述关键要素集中选取数目最多的所述关键要素作为所述关键要素集的特征关键要素包括:
获取每一所述关键要素集中的所有所述关键要素;
检测预设时段内的所述关键要素,得到多个关键要素子集;
选取每一个所述关键要素子集中数目最多的所述关键要素作为所述关键要素子集的特征关键要素,并根据多个所述关键要素子集的特征关键要素确定所述关键要素集的特征关键要素。
7.一种互联网数据分析装置,其特征在于,包括:
获取模块,用于从多个预设引擎中爬取与目标文本关联的多个待分析的文本;
解析模块,用于按照预设解析规则对所述多个待分析的文本进行解析处理,得到所述多个待分析的文本的多个维度的关键要素;
处理模块,用于将所述多个维度的关键要素按预设方式进行排列,得到关键要素集群;
所述处理模块还用于按第一要素对应的时间的先后顺序对多个维度的关键要素进行排序,得到关键要素序列,其中,第一要素包括多个维度的关键要素中的时间要素;在关键要素序列中检测预设时间内的第二要素,聚合第二要素得到多个维度的关键要素集,其中,第二要素包括多个维度的关键要素其中一个关键要素;组合多个维度的关键要素集,得到关键要素集群;
分析模块,用于在所述关键要素集群中挖掘所述目标文本的溯源信息,其中,所述溯源信息至少包括所述目标文本的起源信息、传播途径信息。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至6中任一项所述的互联网数据分析方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至6中任一项所述的互联网数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776716.6A CN112000866B (zh) | 2020-08-05 | 2020-08-05 | 互联网数据分析方法、装置、电子装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776716.6A CN112000866B (zh) | 2020-08-05 | 2020-08-05 | 互联网数据分析方法、装置、电子装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112000866A CN112000866A (zh) | 2020-11-27 |
CN112000866B true CN112000866B (zh) | 2024-03-26 |
Family
ID=73463098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010776716.6A Active CN112000866B (zh) | 2020-08-05 | 2020-08-05 | 互联网数据分析方法、装置、电子装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000866B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529392A (zh) * | 2020-12-04 | 2021-03-19 | 国网山东省电力公司昌乐县供电公司 | 一种输配电系统中关键电力数据分析展示系统、方法及输配电监控服务器 |
CN116468032B (zh) * | 2023-03-07 | 2024-04-16 | 北京智慧星光信息技术股份有限公司 | 基于自媒体信息的信息溯源方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231641A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动分析互联网上热点主题传播过程的方法及系统 |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
CN110427549A (zh) * | 2019-06-20 | 2019-11-08 | 北京清博大数据科技有限公司 | 一种网络舆论溯源分析方法、装置、终端及存储介质 |
CN110609969A (zh) * | 2019-08-08 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
-
2020
- 2020-08-05 CN CN202010776716.6A patent/CN112000866B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231641A (zh) * | 2007-01-22 | 2008-07-30 | 北大方正集团有限公司 | 一种自动分析互联网上热点主题传播过程的方法及系统 |
CN107943905A (zh) * | 2017-11-17 | 2018-04-20 | 北京锐安科技有限公司 | 一种热点话题分析方法及系统 |
CN110427549A (zh) * | 2019-06-20 | 2019-11-08 | 北京清博大数据科技有限公司 | 一种网络舆论溯源分析方法、装置、终端及存储介质 |
CN110609969A (zh) * | 2019-08-08 | 2019-12-24 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112000866A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khder | Web scraping or web crawling: State of art, techniques, approaches and application. | |
Oussalah et al. | A software architecture for Twitter collection, search and geolocation services | |
CN110209827B (zh) | 搜索方法、装置、计算机可读存储介质和计算机设备 | |
CN104850546B (zh) | 移动媒介信息的展示方法和系统 | |
CN107193987B (zh) | 获取与页面相关的搜索词的方法、装置和系统 | |
CN107885873B (zh) | 用于输出信息的方法和装置 | |
CN102855309B (zh) | 一种基于用户行为关联分析的信息推荐方法及装置 | |
CN106021583B (zh) | 页面流量数据的统计方法及其系统 | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN114417197A (zh) | 一种访问记录处理方法、装置及存储介质 | |
CN103902535A (zh) | 获取联想词的方法、装置及系统 | |
CN112000866B (zh) | 互联网数据分析方法、装置、电子装置及介质 | |
US20190163828A1 (en) | Method and apparatus for outputting information | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN103399855B (zh) | 基于多数据源的行为意图确定方法及装置 | |
CN103838862A (zh) | 一种视频搜索的方法、装置及终端 | |
CN103745006A (zh) | 一种互联网信息搜索系统及方法 | |
CN102955802A (zh) | 从数据报表中获取数据的方法和装置 | |
CN105808642B (zh) | 推荐方法及装置 | |
CN107153702A (zh) | 一种数据处理方法及装置 | |
Kim et al. | TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme | |
Shu et al. | Automatic extraction of web page text information based on network topology coincidence degree | |
CN104376066A (zh) | 一种网络特定内容挖掘方法和装置、及一种电子设备 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN103699590A (zh) | 提供图文教程类问题解决方案的方法和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |