CN108846043A

CN108846043A - 基于互联网大数据的网络痕迹挖掘分析方法及系统

Info

Publication number: CN108846043A
Application number: CN201810535369.0A
Authority: CN
Inventors: 李森虎; 张丁凡; 莫宏霖
Original assignee: Shenzhen Ruian Information Safe Technology Ltd
Current assignee: Shenzhen Ruian Information Safe Technology Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-20

Abstract

本发明公开一种基于互联网大数据的网络痕迹挖掘分析方法及系统，该挖掘分析方法包括：数据挖掘、数据关联及智能分析。本发明是基于互联网大数据的热点事件发展预测分析引擎，是并通过对互联网数据的挖掘和分析结合，跟踪和深挖彼此之间的信息，分析引擎则爬虫、自然语义分析、机器智能、自动渗透、结构化检索、智能归类等模块，实现真正意义上的热点事件预测分析。

Description

基于互联网大数据的网络痕迹挖掘分析方法及系统

技术领域

本发明涉及大数据分析技术领域，特别涉及一种基于互联网大数据的网络痕迹挖掘分析方法及系统。

背景技术

随着人类信息化的发展，智能手机、平板电脑、移动办公逐步开始替代传统的生活方式，网络也进一步成为人类生活、社会、政治与经济不可或缺的一部分，且扮演着愈来愈重要的角色。

今天，我们已然进入了一个“微竞争”的时代，每个人都会在网上或多或少表达自己的观点、爱好、兴趣以及好恶。信息通信技术的发展创造了优势、便利和效率，同时也带来了劣势、挑战和威胁。在激烈的市场竞争中，谁能够深入的了解他的每一个用户的个性化需求，谁就能在竞争中击败对手，获取胜利。全面海量的网络信息数据，可以让我们给每个在日常生活中依赖到网络的人建立数据档案、建立画像(消费画像、政治画像、性格画像等等)，并且可以挖掘彼此之间的关系、兴趣、导向等。

虚拟的电脑空间，既消除了国境线，也打破了社会和空间界限，使得双向性、多向性交流传播成为可能。在这个虚拟空间里对所有事物的拟空间作为犯罪工具、犯罪场所进行的犯罪。

发明内容

针对现有技术存在的问题，本发明提供一种基于互联网大数据的网络痕迹挖掘分析方法及系统，辅助于大数据分析和机器学习功能，让使用者能够高效快捷的对热点事件的相关网络虚拟元素进行梳理，全面透析该元素的相关网络留痕，并进行分析和预测。

为实现上述目的，本发明的具体技术方案如下：

一种基于互联网大数据的网络痕迹挖掘分析方法，包括如下步骤：

S1：数据挖掘

通过爬虫技术，对互联网上的虚拟元素进行挖掘并分类，将这些元素作为唯一标识(微博、fackbook、推特、邮箱、QQ号码、电话号码注册的站点等大型社交网络)建立数据库结构；

S2：数据关联

根据挖掘到的数据的唯一标识进行网络匹配，关联其在其他网络中是否也有留痕，并且根据结果通知挖掘模组进行挖掘，对持续性挖掘的数据进行智能管理；

S3：智能分析

以一个热点事件作为输入元素启动引擎，引擎根据输入元素启动爬虫挖掘，然后再调用数学模型对挖掘回来的数据进行分析，启用挖掘和数据关联模组对网络数据进行整合，并持续识别和采集相关的网络其它痕迹。

本发明还提供一种基于互联网大数据的网络痕迹挖掘分析系统，具体技术方案如下：

一种基于互联网大数据的网络痕迹挖掘分析系统，包括：渗透单元、数据阵列单元、数据挖掘单元、机器智能单元，所述渗透单元调用EXP自动扫描网络中存在的漏洞的主机进行渗透获取互联网上的虚拟元素；所述数据阵列单元是将自备数据与获取的虚拟元素进行清洗后分类存储以供调用；所述数据挖掘单元通过自定义爬虫和外接爬虫，对互联网数据机械自动挖掘；所述机器智能单元通过数学模型对数据阵列单元与数据挖掘单元获取的数据进行自然语义分析、识别和自动化定义。

优选地，所述渗透单元包括：扫描模块、渗透模块、插件接口、人工干预模块。

优选地，所述数据阵列单元包括：数据清洗模块、分布阵列模块、自备数据模块、网络数据模块。

优选地，所述数据挖掘单元包括：谷歌接口、爬虫引擎、社区接口、移动接口。

优选地，所述机器智能单元包括：决策知识模块、专家决策模块、自我学习模块、数控模型模块。

本发明是基于互联网大数据的热点事件发展预测分析引擎，是并通过对互联网数据的挖掘和分析结合，跟踪和深挖彼此之间的信息，分析引擎则爬虫、自然语义分析、机器智能、自动渗透、结构化检索、智能归类等模块，实现真正意义上的热点事件预测分析。

附图说明

图1为本发明挖掘分析方法流程图；

图2为基于本发明挖掘分析方法的事件检索示意图；

图3为基于本发明挖掘分析方法的人物检索示意图；

图4为基于本发明挖掘分析方法的关联挖掘示意图；

图5为本发明挖掘分析系统原理框图；

图6为本发明混淆器模块的文句和语义化分析示意图；

图7为本发明引擎机器学习工作流程图；

图8为本发明专家决策模块工作原理图；

图9为本发明数据模型示意图。

具体实施方式

以下结合附图和具体实施例，对本发明进一步说明。

参照图1所示，本发明提供一种基于互联网大数据的网络痕迹挖掘分析方法，包括如下步骤：

S1：数据挖掘

S2：数据关联

S3：智能分析

参考图2所示，其提供一种基于本发明挖掘分析方法的事件检索示意图。根据知识库建立数据递归，从海量数据中自动检索一个事件主题，并且以此事件主题进行巨量数据关联和建立递归关系，自动生成一个摘要，根据所有数据进行语义鉴别，组成准确且简明扼要又便于检索查询的结构化体系。

参考图3所示，其提供一种基于本发明挖掘分析方法的人物检索示意图。人物是依托在人物库规则，自动建立一个以人物为树冠的树结构标识，通过分词词典摘取数据中包含人物名的关键字，再通过语义分析抽取摘要、关系拓扑和子集，建立人物递归。

参考图4所示，其提供一种基于本发明挖掘分析方法的关联挖掘示意图。关联挖掘示例指的是在当前规则库的基础上，通过外部挖掘热点事件与当前规则库直接的单点关联，一旦外部热点事件中包含规则库某个关键值(人物或事件或区域)时，自动递归挖掘并建立关系。将建立起来的数据仓库深度扫描，查找可能存在任何关系的数据，然后筛选出符合的模式。

挖掘后的数据预处理包括数据清洗、数据集成、数据变换和数据规约四个处理过程。最终的数据会构成若干个节点，节点与节点之间的互相关联，每个节点代表一种特定的输出，每个节点间的链接密度，可能反映和代表一个表达两者关系的权重相位，从而做出对象属性与对象值之间的映射关系，不但可以用来智能化分析数据，还可以做预判和预测。

参考图5所示，本发明还提供一种基于互联网大数据的网络痕迹挖掘分析系统，包括：渗透单元、数据阵列单元、数据挖掘单元、机器智能单元，所述渗透单元调用EXP自动扫描网络中存在的漏洞的主机进行渗透获取互联网上的虚拟元素；所述数据阵列单元是将自备数据与获取的虚拟元素进行清洗后分类存储以供调用；所述数据挖掘单元通过自定义爬虫和外接爬虫，对互联网数据机械自动挖掘；所述机器智能单元通过数学模型对数据阵列单元与数据挖掘单元获取的数据进行自然语义分析、识别和自动化定义。

其中，所述渗透单元包括：扫描模块、渗透模块、插件接口、人工干预模块。

所述数据阵列单元包括：数据清洗模块、分布阵列模块、自备数据模块、网络数据模块。

所述数据挖掘单元包括：谷歌接口、爬虫引擎、社区接口、移动接口。

所述机器智能单元包括：决策知识模块、专家决策模块、自我学习模块、数控模型模块。

其中，其总体技术框架本如下：包括：数据层、知识层、计算层、展现层、管理层；所述数据层负责采集、挖掘、提取、网络爬虫和汇聚数据；所述知识层依托于知识库、数学模型，知识库包括常识知识、专家知识、分词词典、跨界语种、文本逻辑蕴含；数学模型包含决策树、相似度原型、推理机、机器学习、进化计算、关联计算；所述展现层包含信息抽取、信息检索、结构化、索引、查询、热点推送的可视化表达；所述管理层是用于引擎运维、管理、定制展现。

所述管理层包括数据采集模块管理、运维管理、项目管理。

整个技术框架(引擎系统)以数据集中存储、分布式计算、私有云构架等结构构成，突出和优化“找、转、编、发”，基于循环性质的情报业务模型、以定制任务和智能控制为核心的人机协调理论、基于大数据挖掘智能计算平台的能力框架。

管理层主要为运维而设计，它是人机协同作业的重要环节。当机器分析结果概率阈值不达标时，可同步提醒人工跟进审计。还包括系统、各功能模块、定制化展示、外部推送、自定义任务、用户权限管理等内容。

各功能模块详细介绍：

该引擎的基础功能是最终输出结果体现的基础，也是核心，功能的有效性决定最终表现的可行性。

(1)集中存储

数据源汇聚是从不同区域获取的异构数据进行整合汇总，数据综合来自于多个方面，有线下基础数据，而其它知识型数据获取主要由互联网等渠道。

对电子数据进行汇聚，将其接驳入引擎。目前存储的电子数据集中导入系统，利用数据源汇聚功能实现对电子数据的文件属性进行自动归类，并且将分散的、异构数据集中分布存储。建立一个庞大的数据库，把各种电子数据存入其中，各种功能模块围绕数据库的周围并对数据库进行导入、添加和删除等操作的基本表现方式。

(2)、数据采集器

数据采集器的基本功能是对非电子化数据和互联网大数据进行更加高效便捷的采集和处理。对不管任何非电子化的数据，通过拍照、扫描等进行图片转制扫描，利用批量模块功能对数据进行分拣和排序。数据采集器具有自动侦测、即放即拍(扫)功能。

(3)、文本化处理

要做数据识别和智能分析，首先对数据进行文本化。采集器采集到的归类为图片格式的将图片转义为文本字符，然后再进行智能分析。通过数据采集并且归类汇聚成唯一格式后，通过转码和图文识别技术将其文本化。

其技术逻辑为：灰度化(亮度)→图片分割→边缘处理→像素密度处理→字符替换→转存。

(4)、人工干预体系

机器智能分析会自动化处理海量数据，但在一定程度上，人工辅助可以让数据分析结果更加准确和有效。该引擎系统具有人工干预模式，主要用于对数据采集器、文本化处理和智能分析、专家决策进行完善。

数学模型会根据语义设定分析结果，并且通过概算法对结果进行最大概率推算，系统设定阈值，当机器最大概率低于设定阈值时，系统自动生成一个人工处理任务单。

(5)、知识库体系

知识库体系是收集、处理、分享一个情报数据的全部知识模块，它是解决人工智能和知识工程技术瓶颈难题的一项关键措施，其特点是数量上规模大。知识库体系是由多个特定规则组成的知识集群。知识库中的知识根据它们的应用领域特征、背景特征(获取时的背景信息)、使用特征、属性特征等而被构成便于利用的、有结构的组织形式。知识库由常识知识库、领域知识库和策略规则构成。常识知识库是基于分词词典、关键标签和规则库；策略规则是通过爬虫自动跟踪获取外部(互联网)资源。

(6)、混淆器模块

混淆器的目的是判断文句和语义化分析，它是对一个文本文章中重复出现的相似句子而消解赘述之用。主要是找回原先被替换过的字词，为了避免重复的字词因指代的因素和造成权重计算降低的问题。

如图6所示，一个文本片段多次重复出现一个相似字词，“抢包山比赛”和“包山嘉年华”、“攀爬嘉年华”实际表达的是一个事件组。而“全港”与“香港”之间存在指代因素，因此混淆器可以对其做消解的处理，可以将被替换过的字词还原成原有的意思，以提高权重计算的次数，增加检索的正确性。

(7)、机器学习

人工智能机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，本平台应用引入人工智能机器学习理论，基于支持向量机(SVM:Support VectorMachine)算法，使平台可以向人脑一样不断获取新的知识，重新组织已有的知识结构使之不断改善自身的分析/判断精度。

该引擎机器学习的工作流程如图7所示：

引擎机器学习模组通过SVM算法的广义线性判别及最优分类面思想判别面，通过不断获得的专家分析结论持续修改其模型内部的判别线或判别面的数据，以达到不断学习的目的。

(8)、专家决策模块

参照图8所示，引擎系统引入专家决策系统的思想，面对海量数据流时，由机器代替人工做综合分析和数据分拣，综合分析不同角度的算法的结果，结合自身的逻辑规则(Rules)和事实(Facts)，做出机器分析的决策。

在面对互联网上海量数据流时，传统的分拣系统误报率和遗漏严重制约数据的有效性和时效性，专家决策系统的最大优势在于降低和减少遗漏。

(9)、数学模型

参考图9所示，该引擎引用数学统计分析模型—隐马尔可夫模型(HMM)进行概率分析和匹配，除了对数据所设行为进行概率分析之外，根据文本作为输入特征观察值，通过特征值的初始矩阵和状态转移矩阵，以及特征值的观察序列推算和估计数据与数据之间的概率。另外一个方面，垂直引擎也引入HMM概率，在互联网上对关注点进行自动匹配。

隐马尔可夫模型(Hidden Markov Model，HMM)作为一种统计分析模型，现已成功地用于语音识别，行为识别，文字识别以及故障诊断等领域。隐马尔可夫模型是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察倒每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程--具有一定状态数的隐马尔可夫链和显示随机函数集。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于互联网大数据的网络痕迹挖掘分析方法，其特征在于，包括如下步骤：

S1：数据挖掘

通过爬虫技术，对互联网上的虚拟元素进行挖掘并分类，将这些元素作为唯一标识建立数据库结构；

S2：数据关联

S3：智能分析

2.根据权利要求1所述的挖掘分析方法，其特征在于，所述唯一标识为微博、fackbook、推特、邮箱、QQ号码、电话号码注册的大型社交网络站点。

3.一种基于互联网大数据的网络痕迹挖掘分析系统，其特征在于，包括：渗透单元、数据阵列单元、数据挖掘单元、机器智能单元，所述渗透单元调用EXP自动扫描网络中存在的漏洞的主机进行渗透获取互联网上的虚拟元素；所述数据阵列单元是将自备数据与获取的虚拟元素进行清洗后分类存储以供调用；所述数据挖掘单元通过自定义爬虫和外接爬虫，对互联网数据机械自动挖掘；所述机器智能单元通过数学模型对数据阵列单元与数据挖掘单元获取的数据进行自然语义分析、识别和自动化定义。

4.根据权利要求3所述的挖掘分析系统，其特征在于，所述渗透单元包括：扫描模块、渗透模块、插件接口、人工干预模块。

5.根据权利要求3所述的挖掘分析系统，其特征在于，所述数据阵列单元包括：数据清洗模块、分布阵列模块、自备数据模块、网络数据模块。

6.根据权利要求3所述的挖掘分析系统，其特征在于，所述数据挖掘单元包括：谷歌接口、爬虫引擎、社区接口、移动接口。

7.根据权利要求3所述的挖掘分析系统，其特征在于，所述机器智能单元包括：决策知识模块、专家决策模块、自我学习模块、数控模型模块。