CN115827982A - 基于计算机大数据信息采集系统 - Google Patents

基于计算机大数据信息采集系统 Download PDF

Info

Publication number
CN115827982A
CN115827982A CN202211651830.1A CN202211651830A CN115827982A CN 115827982 A CN115827982 A CN 115827982A CN 202211651830 A CN202211651830 A CN 202211651830A CN 115827982 A CN115827982 A CN 115827982A
Authority
CN
China
Prior art keywords
data
module
target
group
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211651830.1A
Other languages
English (en)
Inventor
王艳丽
王静婷
王锦
高美琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Fanyi University
Original Assignee
Xian Fanyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Fanyi University filed Critical Xian Fanyi University
Priority to CN202211651830.1A priority Critical patent/CN115827982A/zh
Publication of CN115827982A publication Critical patent/CN115827982A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于计算机大数据信息采集系统,属于数据采集领域,包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块;本发明能够自行寻找最优参数,无需人工设置参数,减少工作人员工作量,同时提高参数寻找效率以及数据筛选精确性,并且保证了采集的数据完整性,能够自行对内存进行压缩与清理,提高云端服务器响应效率,保证用户端与云端服务器连接稳定性,保证数据交互的流畅,提高使用体验。

Description

基于计算机大数据信息采集系统
技术领域
本发明涉及数据采集领域,尤其涉及基于计算机大数据信息采集系统。
背景技术
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程,数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据,不但数据源的种类多,数据的类型繁杂,数据量大,并且产生的速度快,传统的数据采集方法完全无法胜任,所以,大数据采集技术面临着许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据;
现有的基于计算机大数据信息采集系统在筛选数据时,无法自行寻找最优参数,需要人工设置,增加工作人员工作量,降低参数寻找效率以及数据筛选精确性;此外,现有的基于计算机大数据信息采集系统的云端服务器响应效率慢,用户端与云端服务器连接不稳定,降低用户使用体验,为此,我们提出基于计算机大数据信息采集系统。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的基于计算机大数据信息采集系统。
为了实现上述目的,本发明采用了如下技术方案:
基于计算机大数据信息采集系统,包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块;
其中,所述云端服务器用于数据处理以及存储数据;
所述用户端用于工作人员确定并下发信息采集目标信息;
所述目标数据采集模块用于依据用户端下发的目标信息进行数据比对采集;
所述数据筛选模块用于对采集到的各组目标信息进行筛除整理;
所述神经参数优化模块用于寻找最优筛选参数;
所述数据展示模块用于向工作人员展示筛选后的各组目标信息;
所述优化回收模块用于对云端服务器连接效率进行优化。
作为本发明的进一步方案,所述目标数据采集模块比对采集具体步骤如下:
步骤一:目标数据采集模块接收采集目标信息,并收集工作人员选择的各组目标计算机以生成计算机集,之后对工作人员下发的各组目标信息进行关键词提取;
步骤二:之后通过数据爬虫从计算机集中获取需要抓取数据的各组目标计算机IP地址,对各组目标计算机中抓取相关数据内容,并依据提取的关键词抽取各组计算机数据中的目标数据。
作为本发明的进一步方案,所述数据筛选模块筛除整理具体步骤如下:
步骤(1):数据筛选模块构建筛选神经网络,之后接收神经参数优化模块生成的参数数据,并替换筛选神经网络原有参数,然后数据筛选模块将采集到的目标数据导入筛选神经网络中;
步骤(2):筛选神经网络对各组目标数据进行归一化处理以使各组目标数据处于工作人员规定的检测区间内,之后通过特征降维方法筛选出能够表示目标数据的特征参数,并筛除对于表征能力差的特征参数;
步骤(3):将剩余的特征参数分为训练集以及测试集,并对训练集进行标准化处理以生成训练样本,之后将训练样本输送到筛选神经网络中,采用长期迭代法训练该神经网络,再将测试集输入到训练好的筛选神经网络中,生成各组目标数据对应检测曲线,并加以分析以筛除存在重复、冗余以及数据缺失的目标数据。
作为本发明的进一步方案,步骤(2)中所述归一化处理具体计算公式如下:
Figure BDA0004010978720000031
式中,xnew代表归一化后的数据,xmin代表特征参数最小值,xmax代表特征参数最大值,x代表目标数据的特征参数;
步骤(2)中所述特征降维具体计算公式如下:
Figure BDA0004010978720000032
式中,CV代表特征参数的方差系数,σ代表特征参数的标准差,μ代表特征参数的均值,其中,若方差系数越大,则表示越重要,反之,则表示不重要,予以剔除;
步骤(3)中所述标准化处理具体计算公式如下:
Figure BDA0004010978720000041
其中,x表示目标数据的特征参数;mean(x)表示对所有特征参数进行平均处理;std(x)表示对特征参数求标准差。
作为本发明的进一步方案,所述神经参数优化模块最优参数具体寻找步骤如下:
步骤Ⅰ:神经参数优化模块从云端服务器中调用多组数据以生成观测数据集,之后从观测数据集中选择一组数据作为验证数据,再使用剩余的数据拟合一组测试模型;
步骤Ⅱ:使用选取的验证数据来验证测试模型精度,并重复多次通过均方根误差对该测试模型的预测能力进行计算,再初始化参数范围,并依据系统默认或人工设定确定测试模型学习率以及步长,之后列出所有可能的数据结果;
步骤Ⅲ:对于每组数据,选取任意一个子集作为测试集,其余子集作为训练集,并通过训练集训练测试模型后,再通过测试模型对测试集进行检测,并统计检测结果的均方根误差;
步骤Ⅳ:之后将测试集更换为另一子集,再取剩余子集作为训练集,再次统计均方根误差,直至对所有数据都进行一次检测,通过选取均方根误差最小时对应的组合参数作为最优参数。
作为本发明的进一步方案,步骤Ⅱ中所述均方根误差具体计算公式如下:
Figure BDA0004010978720000051
其中,E(yi)表示第i个实际观测值,yi为模型反演出的第i个预测值,n是观测样本总数。
作为本发明的进一步方案,所述优化回收模块效率优化具体步骤如下:
步骤①:优化回收模块为云端服务器所连接的各组用户端生成一个启动链表,并通过LRU链表对各组启动链表头部进行进一步链接,收集交互次数最少的用户端信息,并将该用户端的启动链表安排在LRU链表的首位,并依据交互次数由少到多依次进行排序;
步骤③:对各组启动链表中的各组页面实时进行数据更新,并从LRU链表的头部依次选择最不活跃的用户端启动链表进行受害页面选择,直至回收足够的受害页面后停止;
步骤④:将选择的受害页面合并为一个块并进行标记,之后唤醒一个压缩驱动程序以解析被标记的块,并获得属于该块的物理页,再将该物理页复制到缓冲区中,然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中,并将压缩块存储至优化回收模块压缩区域中,之后定期检测压缩区域内的压缩块数量,并对其回收率进行更新计算,再依据更新的回收率比例对压缩块进行回收。
相比于现有技术,本发明的有益效果在于:
1、该基于计算机大数据信息采集系统通过数据筛选模块构建筛选神经网络,之后神经参数优化模块从云端服务器中调用多组数据并构建测试模型获取均方根误差最小时对应的组合参数作为最优参数,同时将生成的最优参数传输直筛选神经网络中进行参数设置,然后通过特征降维方法筛选出能够表示目标数据的特征参数,并筛除对于表征能力差的特征参数,再将剩余的特征参数分为训练集以及测试集,并对训练集进行标准化处理以生成训练样本,之后将训练样本输送到筛选神经网络中,采用长期迭代法训练该神经网络,再将测试集输入到训练好的筛选神经网络中,生成各组目标数据对应检测曲线,并加以分析以筛除存在重复、冗余以及数据缺失的目标数据,能够自行寻找最优参数,无需人工设置参数,减少工作人员工作量,同时提高参数寻找效率以及数据筛选精确性,并且保证了采集的数据完整性;
2、本发明通过优化回收模块为云端服务器所连接的各组用户端生成一个启动链表,并依据交互次数由少到多依次进行排序,对各组启动链表中的各组页面实时进行数据更新,并依次选择最不活跃的用户端启动链表进行受害页面选择,直至回收足够的受害页面后停止,再将选择的受害页面合并为一个块并进行标记,之后唤醒一个压缩驱动程序以解析被标记的块,并获得属于该块的物理页,再将该物理页复制到缓冲区中,然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中,并将压缩块存储至优化回收模块压缩区域中,之后定期检测压缩区域内的压缩块数量,并对其回收率进行更新计算,再依据更新的回收率比例对压缩块进行回收,能够自行对内存进行压缩与清理,提高云端服务器响应效率,保证用户端与云端服务器连接稳定性,保证数据交互的流畅,提高使用体验。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提出的基于计算机大数据信息采集系统的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
参照图1,基于计算机大数据信息采集系统,包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块。
云端服务器用于数据处理以及存储数据;用户端用于工作人员确定并下发信息采集目标信息;目标数据采集模块用于依据用户端下发的目标信息进行数据比对采集。
具体的,目标数据采集模块接收采集目标信息,并收集工作人员选择的各组目标计算机以生成计算机集,之后对工作人员下发的各组目标信息进行关键词提取,之后通过数据爬虫从计算机集中获取需要抓取数据的各组目标计算机IP地址,对各组目标计算机中抓取相关数据内容,并依据提取的关键词抽取各组计算机数据中的目标数据。
数据筛选模块用于对采集到的各组目标信息进行筛除整理。
具体的,数据筛选模块构建筛选神经网络,之后接收神经参数优化模块生成的参数数据,并替换筛选神经网络原有参数,然后数据筛选模块将采集到的目标数据导入筛选神经网络中,筛选神经网络对各组目标数据进行归一化处理以使各组目标数据处于工作人员规定的检测区间内,之后通过特征降维方法筛选出能够表示目标数据的特征参数,并筛除对于表征能力差的特征参数,再将剩余的特征参数分为训练集以及测试集,并对训练集进行标准化处理以生成训练样本,之后将训练样本输送到筛选神经网络中,采用长期迭代法训练该神经网络,再将测试集输入到训练好的筛选神经网络中,生成各组目标数据对应检测曲线,并加以分析以筛除存在重复、冗余以及数据缺失的目标数据。
本实施例中,归一化处理具体计算公式如下:
Figure BDA0004010978720000081
式中,xnew代表归一化后的数据,xmin代表特征参数最小值,xmax代表特征参数最大值,x代表目标数据的特征参数;
特征降维具体计算公式如下:
Figure BDA0004010978720000091
式中,CV代表特征参数的方差系数,σ代表特征参数的标准差,μ代表特征参数的均值,其中,若方差系数越大,则表示越重要,反之,则表示不重要,予以剔除;
标准化处理具体计算公式如下:
Figure BDA0004010978720000092
其中,x表示目标数据的特征参数;mean(x)表示对所有特征参数进行平均处理;std(x)表示对特征参数求标准差。
神经参数优化模块用于寻找最优筛选参数。
具体的,神经参数优化模块从云端服务器中调用多组数据以生成观测数据集,之后从观测数据集中选择一组数据作为验证数据,再使用剩余的数据拟合一组测试模型,使用选取的验证数据来验证测试模型精度,并重复多次通过均方根误差对该测试模型的预测能力进行计算,再初始化参数范围,并依据系统默认或人工设定确定测试模型学习率以及步长,之后列出所有可能的数据结果,对于每组数据,选取任意一个子集作为测试集,其余子集作为训练集,并通过训练集训练测试模型后,再通过测试模型对测试集进行检测,并统计检测结果的均方根误差,之后将测试集更换为另一子集,再取剩余子集作为训练集,再次统计均方根误差,直至对所有数据都进行一次检测,通过选取均方根误差最小时对应的组合参数作为最优参数。
需要进一步说明的是,均方根误差具体计算公式如下:
Figure BDA0004010978720000101
其中,E(yi)表示第i个实际观测值,yi为模型反演出的第i个预测值,n是观测样本总数。
实施例2
参照图1,基于计算机大数据信息采集系统,包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块。
数据展示模块用于向工作人员展示筛选后的各组目标信息;优化回收模块用于对云端服务器连接效率进行优化。
具体的,优化回收模块为云端服务器所连接的各组用户端生成一个启动链表,并通过LRU链表对各组启动链表头部进行进一步链接,收集交互次数最少的用户端信息,并将该用户端的启动链表安排在LRU链表的首位,并依据交互次数由少到多依次进行排序,对各组启动链表中的各组页面实时进行数据更新,并从LRU链表的头部依次选择最不活跃的用户端启动链表进行受害页面选择,直至回收足够的受害页面后停止,再将选择的受害页面合并为一个块并进行标记,之后唤醒一个压缩驱动程序以解析被标记的块,并获得属于该块的物理页,再将该物理页复制到缓冲区中,然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中,并将压缩块存储至优化回收模块压缩区域中,之后定期检测压缩区域内的压缩块数量,并对其回收率进行更新计算,再依据更新的回收率比例对压缩块进行回收。

Claims (7)

1.基于计算机大数据信息采集系统,其特征在于,包括云端服务器、用户端、目标数据采集模块、数据筛选模块、神经参数优化模块、数据展示模块以及优化回收模块;
其中,所述云端服务器用于数据处理以及存储数据;
所述用户端用于工作人员确定并下发信息采集目标信息;
所述目标数据采集模块用于依据用户端下发的目标信息进行数据比对采集;
所述数据筛选模块用于对采集到的各组目标信息进行筛除整理;
所述神经参数优化模块用于寻找最优筛选参数;
所述数据展示模块用于向工作人员展示筛选后的各组目标信息;
所述优化回收模块用于对云端服务器连接效率进行优化。
2.根据权利要求1所述的基于计算机大数据信息采集系统,其特征在于,所述目标数据采集模块比对采集具体步骤如下:
步骤一:目标数据采集模块接收采集目标信息,并收集工作人员选择的各组目标计算机以生成计算机集,之后对工作人员下发的各组目标信息进行关键词提取;
步骤二:之后通过数据爬虫从计算机集中获取需要抓取数据的各组目标计算机IP地址,对各组目标计算机中抓取相关数据内容,并依据提取的关键词抽取各组计算机数据中的目标数据。
3.根据权利要求2所述的基于计算机大数据信息采集系统,其特征在于,所述数据筛选模块筛除整理具体步骤如下:
步骤(1):数据筛选模块构建筛选神经网络,之后接收神经参数优化模块生成的参数数据,并替换筛选神经网络原有参数,然后数据筛选模块将采集到的目标数据导入筛选神经网络中;
步骤(2):筛选神经网络对各组目标数据进行归一化处理以使各组目标数据处于工作人员规定的检测区间内,之后通过特征降维方法筛选出能够表示目标数据的特征参数,并筛除对于表征能力差的特征参数;
步骤(3):将剩余的特征参数分为训练集以及测试集,并对训练集进行标准化处理以生成训练样本,之后将训练样本输送到筛选神经网络中,采用长期迭代法训练该神经网络,再将测试集输入到训练好的筛选神经网络中,生成各组目标数据对应检测曲线,并加以分析以筛除存在重复、冗余以及数据缺失的目标数据。
4.根据权利要求3所述的基于计算机大数据信息采集系统,其特征在于,步骤(2)中所述归一化处理具体计算公式如下:
Figure FDA0004010978710000021
式中,xnew代表归一化后的数据,xmin代表特征参数最小值,
xmax代表特征参数最大值,x代表目标数据的特征参数;
步骤(2)中所述特征降维具体计算公式如下:
Figure FDA0004010978710000022
式中,CV代表特征参数的方差系数,σ代表特征参数的标准差,μ代表特征参数的均值,其中,若方差系数越大,则表示越重要,反之,则表示不重要,予以剔除;
步骤(3)中所述标准化处理具体计算公式如下:
Figure FDA0004010978710000031
其中,x表示目标数据的特征参数;mean(x)表示对所有特征参数进行平均处理;std(x)表示对特征参数求标准差。
5.根据权利要求1所述的基于计算机大数据信息采集系统,其特征在于,所述神经参数优化模块最优参数具体寻找步骤如下:
步骤Ⅰ:神经参数优化模块从云端服务器中调用多组数据以生成观测数据集,之后从观测数据集中选择一组数据作为验证数据,再使用剩余的数据拟合一组测试模型;
步骤Ⅱ:使用选取的验证数据来验证测试模型精度,并重复多次通过均方根误差对该测试模型的预测能力进行计算,再初始化参数范围,并依据系统默认或人工设定确定测试模型学习率以及步长,之后列出所有可能的数据结果;
步骤Ⅲ:对于每组数据,选取任意一个子集作为测试集,其余子集作为训练集,并通过训练集训练测试模型后,再通过测试模型对测试集进行检测,并统计检测结果的均方根误差;
步骤Ⅳ:之后将测试集更换为另一子集,再取剩余子集作为训练集,再次统计均方根误差,直至对所有数据都进行一次检测,通过选取均方根误差最小时对应的组合参数作为最优参数。
6.根据权利要求5所述的基于计算机大数据信息采集系统,其特征在于,步骤Ⅱ中所述均方根误差具体计算公式如下:
Figure FDA0004010978710000041
其中,E(yi)表示第i个实际观测值,yi为模型反演出的第i个预测值,n是观测样本总数。
7.根据权利要求1所述的基于计算机大数据信息采集系统,其特征在于,所述优化回收模块效率优化具体步骤如下:
步骤①:优化回收模块为云端服务器所连接的各组用户端生成一个启动链表,并通过LRU链表对各组启动链表头部进行进一步链接,收集交互次数最少的用户端信息,并将该用户端的启动链表安排在LRU链表的首位,并依据交互次数由少到多依次进行排序;
步骤③:对各组启动链表中的各组页面实时进行数据更新,并从LRU链表的头部依次选择最不活跃的用户端启动链表进行受害页面选择,直至回收足够的受害页面后停止;
步骤④:将选择的受害页面合并为一个块并进行标记,之后唤醒一个压缩驱动程序以解析被标记的块,并获得属于该块的物理页,再将该物理页复制到缓冲区中,然后调用压缩算法将缓冲区中的该物理页压缩到压缩块中,并将压缩块存储至优化回收模块压缩区域中,之后定期检测压缩区域内的压缩块数量,并对其回收率进行更新计算,再依据更新的回收率比例对压缩块进行回收。
CN202211651830.1A 2022-12-21 2022-12-21 基于计算机大数据信息采集系统 Withdrawn CN115827982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211651830.1A CN115827982A (zh) 2022-12-21 2022-12-21 基于计算机大数据信息采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211651830.1A CN115827982A (zh) 2022-12-21 2022-12-21 基于计算机大数据信息采集系统

Publications (1)

Publication Number Publication Date
CN115827982A true CN115827982A (zh) 2023-03-21

Family

ID=85517475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211651830.1A Withdrawn CN115827982A (zh) 2022-12-21 2022-12-21 基于计算机大数据信息采集系统

Country Status (1)

Country Link
CN (1) CN115827982A (zh)

Similar Documents

Publication Publication Date Title
WO2021184630A1 (zh) 基于知识图谱定位排污对象的方法及相关设备
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN113779272A (zh) 基于知识图谱的数据处理方法、装置、设备及存储介质
CN111126820A (zh) 反窃电方法及系统
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN115719283A (zh) 一种智能化会计管理系统
CN112015779A (zh) 学生偏好预测的方法、系统和装置
CN112532652A (zh) 一种基于多源数据的攻击行为画像装置及方法
CN116016869A (zh) 一种基于人工智能以及物联网的校园安全监测系统
CN118072829A (zh) 一种蛋白质酸碱稳定性预测方法、电子设备及存储介质
CN116681556A (zh) 一种基于教育大数据的智慧远程教学云平台系统及方法
CN113722230B (zh) 针对模糊测试工具漏洞挖掘能力的集成化评估方法及装置
CN115827982A (zh) 基于计算机大数据信息采集系统
CN116304112A (zh) 一种基于大数据技术的智能监测方法
CN113033694B (zh) 一种基于深度学习的数据清洗方法
CN113010339A (zh) 联机交易测试中故障自动处理方法及装置
CN114185785A (zh) 面向深度神经网络的自然语言处理模型测试用例约简方法
CN113836005A (zh) 一种虚拟用户的生成方法、装置、电子设备和存储介质
CN112819527A (zh) 一种用户分群处理方法及装置
CN110321342A (zh) 基于智能特征选择的公司评估方法、装置及存储介质
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及系统
CN115643059B (zh) 基于深度学习的电力网络恶意攻击防护系统及其控制方法
CN116781771B (zh) 一种使用ocr技术的工位机自动截屏图片解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230321