CN115827982A

CN115827982A - 基于计算机大数据信息采集系统

Info

Publication number: CN115827982A
Application number: CN202211651830.1A
Authority: CN
Inventors: 王艳丽; 王静婷; 王锦; 高美琪
Original assignee: Xian Fanyi University
Current assignee: Xian Fanyi University
Priority date: 2022-12-21
Filing date: 2022-12-21
Publication date: 2023-03-21

Abstract

本发明公开了基于计算机大数据信息采集系统，属于数据采集领域，包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块；本发明能够自行寻找最优参数，无需人工设置参数，减少工作人员工作量，同时提高参数寻找效率以及数据筛选精确性，并且保证了采集的数据完整性，能够自行对内存进行压缩与清理，提高云端服务器响应效率，保证用户端与云端服务器连接稳定性，保证数据交互的流畅，提高使用体验。

Description

基于计算机大数据信息采集系统

技术领域

本发明涉及数据采集领域，尤其涉及基于计算机大数据信息采集系统。

背景技术

大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程，数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据，不但数据源的种类多，数据的类型繁杂，数据量大，并且产生的速度快，传统的数据采集方法完全无法胜任，所以，大数据采集技术面临着许多技术挑战，一方面需要保证数据采集的可靠性和高效性，同时还要避免重复数据；

现有的基于计算机大数据信息采集系统在筛选数据时，无法自行寻找最优参数，需要人工设置，增加工作人员工作量，降低参数寻找效率以及数据筛选精确性；此外，现有的基于计算机大数据信息采集系统的云端服务器响应效率慢，用户端与云端服务器连接不稳定，降低用户使用体验，为此，我们提出基于计算机大数据信息采集系统。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的基于计算机大数据信息采集系统。

为了实现上述目的，本发明采用了如下技术方案：

基于计算机大数据信息采集系统，包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块；

其中，所述云端服务器用于数据处理以及存储数据；

所述用户端用于工作人员确定并下发信息采集目标信息；

所述目标数据采集模块用于依据用户端下发的目标信息进行数据比对采集；

所述数据筛选模块用于对采集到的各组目标信息进行筛除整理；

所述神经参数优化模块用于寻找最优筛选参数；

所述数据展示模块用于向工作人员展示筛选后的各组目标信息；

所述优化回收模块用于对云端服务器连接效率进行优化。

作为本发明的进一步方案，所述目标数据采集模块比对采集具体步骤如下：

步骤一：目标数据采集模块接收采集目标信息，并收集工作人员选择的各组目标计算机以生成计算机集，之后对工作人员下发的各组目标信息进行关键词提取；

步骤二：之后通过数据爬虫从计算机集中获取需要抓取数据的各组目标计算机IP地址，对各组目标计算机中抓取相关数据内容，并依据提取的关键词抽取各组计算机数据中的目标数据。

作为本发明的进一步方案，所述数据筛选模块筛除整理具体步骤如下：

步骤(1)：数据筛选模块构建筛选神经网络，之后接收神经参数优化模块生成的参数数据，并替换筛选神经网络原有参数，然后数据筛选模块将采集到的目标数据导入筛选神经网络中；

步骤(2)：筛选神经网络对各组目标数据进行归一化处理以使各组目标数据处于工作人员规定的检测区间内，之后通过特征降维方法筛选出能够表示目标数据的特征参数，并筛除对于表征能力差的特征参数；

步骤(3)：将剩余的特征参数分为训练集以及测试集，并对训练集进行标准化处理以生成训练样本，之后将训练样本输送到筛选神经网络中，采用长期迭代法训练该神经网络，再将测试集输入到训练好的筛选神经网络中，生成各组目标数据对应检测曲线，并加以分析以筛除存在重复、冗余以及数据缺失的目标数据。

作为本发明的进一步方案，步骤(2)中所述归一化处理具体计算公式如下：

式中，x_new代表归一化后的数据，x_min代表特征参数最小值，x_max代表特征参数最大值，x代表目标数据的特征参数；

步骤(2)中所述特征降维具体计算公式如下：

式中，CV代表特征参数的方差系数，σ代表特征参数的标准差，μ代表特征参数的均值，其中，若方差系数越大，则表示越重要，反之，则表示不重要，予以剔除；

步骤(3)中所述标准化处理具体计算公式如下：

其中，x表示目标数据的特征参数；mean(x)表示对所有特征参数进行平均处理；std(x)表示对特征参数求标准差。

作为本发明的进一步方案，所述神经参数优化模块最优参数具体寻找步骤如下：

步骤Ⅰ：神经参数优化模块从云端服务器中调用多组数据以生成观测数据集，之后从观测数据集中选择一组数据作为验证数据，再使用剩余的数据拟合一组测试模型；

步骤Ⅱ：使用选取的验证数据来验证测试模型精度，并重复多次通过均方根误差对该测试模型的预测能力进行计算，再初始化参数范围，并依据系统默认或人工设定确定测试模型学习率以及步长，之后列出所有可能的数据结果；

步骤Ⅲ：对于每组数据，选取任意一个子集作为测试集，其余子集作为训练集，并通过训练集训练测试模型后，再通过测试模型对测试集进行检测，并统计检测结果的均方根误差；

步骤Ⅳ：之后将测试集更换为另一子集，再取剩余子集作为训练集，再次统计均方根误差，直至对所有数据都进行一次检测，通过选取均方根误差最小时对应的组合参数作为最优参数。

作为本发明的进一步方案，步骤Ⅱ中所述均方根误差具体计算公式如下：

其中，E(y_i)表示第i个实际观测值，y_i为模型反演出的第i个预测值，n是观测样本总数。

作为本发明的进一步方案，所述优化回收模块效率优化具体步骤如下：

步骤①：优化回收模块为云端服务器所连接的各组用户端生成一个启动链表，并通过LRU链表对各组启动链表头部进行进一步链接，收集交互次数最少的用户端信息，并将该用户端的启动链表安排在LRU链表的首位，并依据交互次数由少到多依次进行排序；

步骤③：对各组启动链表中的各组页面实时进行数据更新，并从LRU链表的头部依次选择最不活跃的用户端启动链表进行受害页面选择，直至回收足够的受害页面后停止；

步骤④：将选择的受害页面合并为一个块并进行标记，之后唤醒一个压缩驱动程序以解析被标记的块，并获得属于该块的物理页，再将该物理页复制到缓冲区中，然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中，并将压缩块存储至优化回收模块压缩区域中，之后定期检测压缩区域内的压缩块数量，并对其回收率进行更新计算，再依据更新的回收率比例对压缩块进行回收。

相比于现有技术，本发明的有益效果在于：

1、该基于计算机大数据信息采集系统通过数据筛选模块构建筛选神经网络，之后神经参数优化模块从云端服务器中调用多组数据并构建测试模型获取均方根误差最小时对应的组合参数作为最优参数，同时将生成的最优参数传输直筛选神经网络中进行参数设置，然后通过特征降维方法筛选出能够表示目标数据的特征参数，并筛除对于表征能力差的特征参数，再将剩余的特征参数分为训练集以及测试集，并对训练集进行标准化处理以生成训练样本，之后将训练样本输送到筛选神经网络中，采用长期迭代法训练该神经网络，再将测试集输入到训练好的筛选神经网络中，生成各组目标数据对应检测曲线，并加以分析以筛除存在重复、冗余以及数据缺失的目标数据，能够自行寻找最优参数，无需人工设置参数，减少工作人员工作量，同时提高参数寻找效率以及数据筛选精确性，并且保证了采集的数据完整性；

2、本发明通过优化回收模块为云端服务器所连接的各组用户端生成一个启动链表，并依据交互次数由少到多依次进行排序，对各组启动链表中的各组页面实时进行数据更新，并依次选择最不活跃的用户端启动链表进行受害页面选择，直至回收足够的受害页面后停止，再将选择的受害页面合并为一个块并进行标记，之后唤醒一个压缩驱动程序以解析被标记的块，并获得属于该块的物理页，再将该物理页复制到缓冲区中，然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中，并将压缩块存储至优化回收模块压缩区域中，之后定期检测压缩区域内的压缩块数量，并对其回收率进行更新计算，再依据更新的回收率比例对压缩块进行回收，能够自行对内存进行压缩与清理，提高云端服务器响应效率，保证用户端与云端服务器连接稳定性，保证数据交互的流畅，提高使用体验。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的基于计算机大数据信息采集系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1

参照图1，基于计算机大数据信息采集系统，包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块。

云端服务器用于数据处理以及存储数据；用户端用于工作人员确定并下发信息采集目标信息；目标数据采集模块用于依据用户端下发的目标信息进行数据比对采集。

具体的，目标数据采集模块接收采集目标信息，并收集工作人员选择的各组目标计算机以生成计算机集，之后对工作人员下发的各组目标信息进行关键词提取，之后通过数据爬虫从计算机集中获取需要抓取数据的各组目标计算机IP地址，对各组目标计算机中抓取相关数据内容，并依据提取的关键词抽取各组计算机数据中的目标数据。

数据筛选模块用于对采集到的各组目标信息进行筛除整理。

具体的，数据筛选模块构建筛选神经网络，之后接收神经参数优化模块生成的参数数据，并替换筛选神经网络原有参数，然后数据筛选模块将采集到的目标数据导入筛选神经网络中，筛选神经网络对各组目标数据进行归一化处理以使各组目标数据处于工作人员规定的检测区间内，之后通过特征降维方法筛选出能够表示目标数据的特征参数，并筛除对于表征能力差的特征参数，再将剩余的特征参数分为训练集以及测试集，并对训练集进行标准化处理以生成训练样本，之后将训练样本输送到筛选神经网络中，采用长期迭代法训练该神经网络，再将测试集输入到训练好的筛选神经网络中，生成各组目标数据对应检测曲线，并加以分析以筛除存在重复、冗余以及数据缺失的目标数据。

本实施例中，归一化处理具体计算公式如下：

特征降维具体计算公式如下：

标准化处理具体计算公式如下：

神经参数优化模块用于寻找最优筛选参数。

具体的，神经参数优化模块从云端服务器中调用多组数据以生成观测数据集，之后从观测数据集中选择一组数据作为验证数据，再使用剩余的数据拟合一组测试模型，使用选取的验证数据来验证测试模型精度，并重复多次通过均方根误差对该测试模型的预测能力进行计算，再初始化参数范围，并依据系统默认或人工设定确定测试模型学习率以及步长，之后列出所有可能的数据结果，对于每组数据，选取任意一个子集作为测试集，其余子集作为训练集，并通过训练集训练测试模型后，再通过测试模型对测试集进行检测，并统计检测结果的均方根误差，之后将测试集更换为另一子集，再取剩余子集作为训练集，再次统计均方根误差，直至对所有数据都进行一次检测，通过选取均方根误差最小时对应的组合参数作为最优参数。

需要进一步说明的是，均方根误差具体计算公式如下：

实施例2

数据展示模块用于向工作人员展示筛选后的各组目标信息；优化回收模块用于对云端服务器连接效率进行优化。

具体的，优化回收模块为云端服务器所连接的各组用户端生成一个启动链表，并通过LRU链表对各组启动链表头部进行进一步链接，收集交互次数最少的用户端信息，并将该用户端的启动链表安排在LRU链表的首位，并依据交互次数由少到多依次进行排序，对各组启动链表中的各组页面实时进行数据更新，并从LRU链表的头部依次选择最不活跃的用户端启动链表进行受害页面选择，直至回收足够的受害页面后停止，再将选择的受害页面合并为一个块并进行标记，之后唤醒一个压缩驱动程序以解析被标记的块，并获得属于该块的物理页，再将该物理页复制到缓冲区中，然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中，并将压缩块存储至优化回收模块压缩区域中，之后定期检测压缩区域内的压缩块数量，并对其回收率进行更新计算，再依据更新的回收率比例对压缩块进行回收。