CN113779473A

CN113779473A - 一种基于人工智能的互联网大数据处理方法及系统

Info

Publication number: CN113779473A
Application number: CN202110904305.5A
Authority: CN
Inventors: 毛卫宁
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-12-10

Abstract

本发明提出了一种基于人工智能的互联网大数据处理方法及系统，涉及数据处理领域。一种基于人工智能的互联网大数据处理方法包括：获取原始互联网数据中的特征样本集合；将特征提取后的特征样本集合数据进行加密后存储；通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。其能够处理动态数据，实时性较好，满足了人们对互联网流量大数据分析日益增长的高要求。此外本发明还提出了一种基于人工智能的互联网大数据处理系统，包括：获取模块、加密模块、处理模块及输出模块。

Description

一种基于人工智能的互联网大数据处理方法及系统

技术领域

本发明涉及数据处理领域，具体而言，涉及一种基于人工智能的互联网大数据处理方法及系统。

背景技术

随着互联网、移动智能终端、物联网等信息与通信技术的迅猛发展，以及计算机存储和计算能力的不断提升，各种数据的爆炸式增长和持续获取成为可能，大数据时代悄然而至。

相较于传统的数据，人们将大数据的特征总结为5个V，即体量大(volume)、速度快(velocity)、模态多(variety)、难辨识(veracity)和价值大密度低(value)。如何分析大数据，充分挖掘大数据的潜在价值，成为需要深入探讨的科学问题。

大数据，或称巨量数据、海量数据；是由数量巨大、结构复杂、类型众多数据构成的数据集合，是基于云计算的数据处理与应用模式，通过数据的集成共享，交叉复用形成的智力资源和知识服务能力。有研究机构如此定义“大数据”:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种程度上说，大数据是数据分析的前沿技术。简言之，从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。

发明内容

本发明的目的在于提供一种基于人工智能的互联网大数据处理方法，其能够处理动态数据，实时性较好，满足了人们对互联网流量大数据分析日益增长的高要求。

本发明的另一目的在于提供一种基于人工智能的互联网大数据处理系统，其能够运行一种基于人工智能的互联网大数据处理方法。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于人工智能的互联网大数据处理方法，其包括获取原始互联网数据中的特征样本集合；将特征提取后的特征样本集合数据进行加密后存储；通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。

在本发明的一些实施例中，上述获取原始互联网数据中的特征样本集合包括：通过互联网数据监测对互联网进行对应的大数据进行采集操作，从采集到的互联网大数据信息中获取特征样本集合。

在本发明的一些实施例中，上述还包括：获取样本数据并对样本数据预处理进行标签预测，确定各样本数据的目标标签和目标标签概率，根据各样本数据的目标标签及目标标签概率，对各样本数据进行筛选，获得目标数据。

在本发明的一些实施例中，上述将特征提取后的特征样本集合数据进行加密后存储包括：将待加密的数据进行清洗操作，之后对清洗后的数据进行加密算法运算，得到加密后的密文数据。

在本发明的一些实施例中，上述还包括：对加密后的密文数据再次进行Logistic加密运算，得到二次密文数据，最后对二次密文数据进行对称加密运算，完成对数据的最终加密。

在本发明的一些实施例中，上述通过数据填充算法对存储的互联网特征样本集合数据进行填充处理包括：采用融合missForest填充算法和临近填充算法对互联网特征样本集合数据进行填充处理。

在本发明的一些实施例中，上述根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果包括：根据填充处理后的互联网特征样本集合数据采用深度神经网络进行分类处理，得到分类结果，分类后进行决策树数据分析，对分析后的特征样本集合数据进行MapReduce并行处理以及数据抓取与解析处理，并将解析出的数据内容存储到数据库中并输出分析结果。

第二方面，本申请实施例提供一种基于人工智能的互联网大数据处理系统，其包括获取模块，用于获取原始互联网数据中的特征样本集合；

加密模块，用于将特征提取后的特征样本集合数据进行加密后存储；

处理模块，用于通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；

输出模块，用于根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。

在本发明的一些实施例中，上述包括：用于存储计算机指令的至少一个存储器；与上述存储器通讯的至少一个处理器，其中当上述至少一个处理器执行上述计算机指令时，上述至少一个处理器使上述系统执行：获取模块、加密模块、处理模块及输出模块。

第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如一种基于人工智能的互联网大数据处理方法中任一项的方法。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

从采集的互联网大数据信息中获取特征样本集合，然后从特征样本集合中提取出对应的特征向量，采用填充算法对获取的互联网大数据进行填充处理，减少了数据不完整的情况发生，提高了互联网流量大数据分析的精度。基于互联网网站的用户行为特征作为预测的依据，有效地提高了预测的合理性与准确性。可以实现互联网数据流量规律和互联网用户行为规律的准确挖掘，从而将纷繁多样的互联网流量大数据转换成具有信息和商业价值的可用数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于人工智能的互联网大数据处理方法步骤示意图；

图2为本发明实施例提供的一种基于人工智能的互联网大数据处理方法详细步骤示意图；

图3为本发明实施例提供的一种基于人工智能的互联网大数据处理系统模块示意图；

图4为本发明实施例提供的一种电子设备。

图标：10-获取模块；20-加密模块；30-处理模块；40-输出模块；101-存储器；102-处理器；103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1为本发明实施例提供的一种基于人工智能的互联网大数据处理方法步骤示意图，其如下所示：

步骤S100，获取原始互联网数据中的特征样本集合；

在一些实施方式中，在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后，确定与页面用户行为信息相匹配的互联网功能业务信息。根据互联网功能业务信息以及与互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息。通过大数据采集控件将数据采集识别节点信息关联到页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中，并根据数据采集识别节点信息对数据采集脚本进行配置后，执行大数据采集。在大数据采集过程中通过数据采集脚本对移动互联网终端进行对应的数据采集识别操作。

扩展页面对象可以是指当前页面访问过程中与当前页面相关的可访问页面。互联网功能业务信息可以是指基于扩展页面对象的页面用户行为信息可能会产生关联的互联网功能业务，互联网功能业务可以是指互联网访问的功能类型。相对应地，主题域信息可以是指基于以上确定的互联网功能业务所对应的页面访问过程中的主题数据信息。数据采集识别节点信息可以是指在访问采集过程中用于产生数据采集的配置信息。

步骤S110，将特征提取后的特征样本集合数据进行加密后存储；

在一些实施方式中，首先对待加密的数据进行清洗操作；之后对清洗后的数据进行AES加密算法运算，得到加密后的一次密文数据；然后对一次密文数据再次进行超混沌加密运算，得到二次密文数据；最后对二次密文数据进行DES加密运算，完成对数据的最终加密。采用的数据加密方法能够对数据传输进行多重加密，提高了数据的安全性和保密性。

步骤S120，通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；

在一些实施方式中，根据填充处理后的数据采用基于无限深度神经网络的深度学习方法进行分类处理，从HDFS中读取互联网流量记录；对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理，并将解析出的网页内容存储到HBase数据库中；库识别模块采用基于库的识别方法直接对互联网流量记录中每条记录的URL进行识别分类，其中，库识别模块通过库文件来对URL识别结果表和URL未识别结果表进行更新和维护；以经过库识别模块分类后未识别的网页内容作为训练集，采用基于无限深度神经网络的深度学习方法进行建模和分类，以完成不同类型互联网网站的自动识别和分类；基于深度学习识别的结果，提取出正确分类的URL，对库识别模块中的库文件进行更新和扩充。对读取的互联网流量记录进行MapReduce并行处理以及数据抓取与解析处理，并将解析出的网页内容存储到HBase数据库中。

步骤S130，根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。

在一些实施方式中，数据抓取与解析处理，是指采用多个并行网页爬取线程对URL地址进行爬取和解析，得到网站标题、关键词和描述这三个字段的内容，并将这三个字段的内容存储到HBase数据库中。网站标题、关键词和描述这三个字段为网页的核心内容，为了节省存储空间，可以选择这三个字段进行爬取和解析。数据抓取与解析处理，可采用jsoup解析器来实现。

实施例2

请参阅图2，图2为本发明实施例提供的一种基于人工智能的互联网大数据处理方法详细步骤示意图，其如下所示：

步骤S200，通过互联网数据监测对互联网进行对应的大数据进行采集操作，从采集到的互联网大数据信息中获取特征样本集合。

步骤S210，获取样本数据并对样本数据预处理进行标签预测，确定各样本数据的目标标签和目标标签概率，根据各样本数据的目标标签及目标标签概率，对各样本数据进行筛选，获得目标数据。

步骤S220，将待加密的数据进行清洗操作，之后对清洗后的数据进行加密算法运算，得到加密后的密文数据。

步骤S230，对加密后的密文数据再次进行Logistic加密运算，得到二次密文数据，最后对二次密文数据进行对称加密运算，完成对数据的最终加密。

步骤S240，采用融合missForest填充算法和临近填充算法对互联网特征样本集合数据进行填充处理。

步骤S250，根据填充处理后的互联网特征样本集合数据采用深度神经网络进行分类处理，得到分类结果，分类后进行决策树数据分析，对分析后的特征样本集合数据进行MapReduce并行处理以及数据抓取与解析处理，并将解析出的数据内容存储到数据库中并输出分析结果。

在一些实施方式中，采用数据挖掘模块基于预设的互联网流量大数据挖掘规则实现互联网流量大数据挖掘；基于NMKNN填充算法实现互联网流量监测数据的填充处理；基于类间区分度的属性约简算法实现互联网流量监测数据的约简处理，得约简互联网流量监测数据；基于Bi-LSTM+Attention模型实现约简互联网流量监测数据的分类，得互联网流量监测数据集；基于Hadoop运行预设的互联网流量大数据分析算法实现互联网流量监测数据集的分析，并输出对应的分析结果；基于异常流量数据监测模块实现异常互联网流量大数据监测，并基于异常分析模块实现异常互联网流量大数据出现原因的分析；基于TableauDesktop实现分析结果及其与目标数据关联关系的可视化分析。

每一个互联网流量监测数据集对应一个互联网流量大数据分析算法。每一个数据挖掘模块配置一组互联网流量大数据挖掘规则。每一组互联网流量大数据挖掘规则均配置一身份标记模块，用于实现互联网流量大数据来源的标记，且每一种来源配置唯一的标记符号。

实施例3

请参阅图3，图3为本发明实施例提供的一种基于人工智能的互联网大数据处理系统模块示意图，其如下所示：

获取模块10，用于获取原始互联网数据中的特征样本集合；

加密模块20，用于将特征提取后的特征样本集合数据进行加密后存储；

处理模块30，用于通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；

输出模块40，用于根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。

如图4所示，本申请实施例提供一种电子设备，其包括存储器101，用于存储一个或多个程序；处理器102。当一个或多个程序被处理器102执行时，实现如上述第一方面中任一项的方法。

还包括通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器101(Random Access Memory，RAM)，只读存储器101(Read Only Memory，ROM)，可编程只读存储器101(ProgrammableRead-Only Memory，PROM)，可擦除只读存储器101(Erasable Programmable Read-OnlyMemory，EPROM)，电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器102，包括中央处理器102(Central Processing Unit，CPU)、网络处理器102(Network Processor，NP)等；还可以是数字信号处理器102(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请所提供的实施例中，应该理解到，所揭露的方法及系统和方法，也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

另一方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器102执行时实现如上述第一方面中任一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器101(ROM，Read-Only Memory)、随机存取存储器101(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于人工智能的互联网大数据处理方法及系统，从采集的互联网大数据信息中获取特征样本集合，然后从特征样本集合中提取出对应的特征向量，采用填充算法对获取的互联网大数据进行填充处理，减少了数据不完整的情况发生，提高了互联网流量大数据分析的精度。基于互联网网站的用户行为特征作为预测的依据，有效地提高了预测的合理性与准确性。可以实现互联网数据流量规律和互联网用户行为规律的准确挖掘，从而将纷繁多样的互联网流量大数据转换成具有信息和商业价值的可用数据。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于人工智能的互联网大数据处理方法，其特征在于，包括：

获取原始互联网数据中的特征样本集合；

将特征提取后的特征样本集合数据进行加密后存储；

通过数据填充算法对存储的互联网特征样本集合数据进行填充处理；

根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果。

2.如权利要求1所述的一种基于人工智能的互联网大数据处理方法，其特征在于，所述获取原始互联网数据中的特征样本集合包括：

通过互联网数据监测对互联网进行对应的大数据进行采集操作，从采集到的互联网大数据信息中获取特征样本集合。

3.如权利要求2所述的一种基于人工智能的互联网大数据处理方法，其特征在于，还包括：

获取样本数据并对样本数据预处理进行标签预测，确定各样本数据的目标标签和目标标签概率，根据各样本数据的目标标签及目标标签概率，对各样本数据进行筛选，获得目标数据。

4.如权利要求1所述的一种基于人工智能的互联网大数据处理方法，其特征在于，所述将特征提取后的特征样本集合数据进行加密后存储包括：

将待加密的数据进行清洗操作，之后对清洗后的数据进行加密算法运算，得到加密后的密文数据。

5.如权利要求4所述的一种基于人工智能的互联网大数据处理方法，其特征在于，还包括：

对加密后的密文数据再次进行Logistic加密运算，得到二次密文数据，最后对二次密文数据进行对称加密运算，完成对数据的最终加密。

6.如权利要求1所述的一种基于人工智能的互联网大数据处理方法，其特征在于，所述通过数据填充算法对存储的互联网特征样本集合数据进行填充处理包括：

采用融合missForest填充算法和临近填充算法对互联网特征样本集合数据进行填充处理。

7.如权利要求1所述的一种基于人工智能的互联网大数据处理方法，其特征在于，所述根据填充处理后的特征样本集合数据根据深度学习方法进行预处理，输出数据分析结果包括：

根据填充处理后的互联网特征样本集合数据采用深度神经网络进行分类处理，得到分类结果，分类后进行决策树数据分析，对分析后的特征样本集合数据进行MapReduce并行处理以及数据抓取与解析处理，并将解析出的数据内容存储到数据库中并输出分析结果。

8.一种基于人工智能的互联网大数据处理系统，其特征在于，包括：

获取模块，用于获取原始互联网数据中的特征样本集合；

9.如权利要求8所述的一种基于人工智能的互联网大数据处理系统，其特征在于，包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：获取模块、加密模块、处理模块及输出模块。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。