CN116567068B

CN116567068B - 一种基于大数据的信息管理方法及系统

Info

Publication number: CN116567068B
Application number: CN202310836960.0A
Authority: CN
Inventors: 陈旭; 牛大军; 李君�; 焦明辉
Original assignee: Shenzhen Bitnet Information Technology Co ltd
Current assignee: Shenzhen Bitnet Information Technology Co ltd
Priority date: 2023-07-10
Filing date: 2023-07-10
Publication date: 2023-09-15
Anticipated expiration: 2043-07-10
Also published as: CN116567068A

Abstract

本发明公开了一种基于大数据的信息管理方法，包括以下步骤:S1：获取服务器内信息数据的管理信息，基于管理信息得到信息数据的存在值，将存在值与存在值阈值进行比较得到真信息数据；S2：对真信息数据进行计算处理，获取真信息数据的自主提醒值，将自主提醒值大的信息数据向用户终端进行推送；本发明将信息数据在服务器内的存储初始时间长、存储大、重复值高、被动点击次数小及安全值低的信息数据识别为伪信息数据，反之其余数据识别为真信息数据，实现对服务器内信息数据的分类，便于操作人员对服务器内的数据进行更新或删除，便于操作人员对价值数据和无价值数据进行更好的管理，有利于服务器存储空间的改善。

Description

一种基于大数据的信息管理方法及系统

技术领域

本发明涉及信息管理技术领域，具体涉及一种基于大数据的信息管理方法及系统。

背景技术

随着互联网的快速发展，人们对互联网的运用越来越广泛，同时，在对互联网的运用过程中，产生的数据越来越多，尤其是工业方面，通过互联网与传感器的技术的结合，产生了海量的数据，为了快速获取传感器对应的监控结果，人们用到了基于大数据的信息管理系统，在一定程度上帮助人们实现对大数据的监控及处理，在节省了人力资源的同时，监控效果更好。

但是，当前现有的基于大数据的信息管理系统尚且存在不足之处，尤其针对企业管理的时候，由于企业所面临的数据远比个人非常庞大，导致服务器内通常存在僵尸信息数据(无价值数据)，对服务器的内存占用一定空间，同时，现在的基于大数据的信息管理系统也缺少基于使用人员行为习惯的自主推荐能力，导致使用人员不能及时有效的获取所需数据。

发明内容

本发明的目的在于提供一种基于大数据的信息管理方法及系统，通过对信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值进行处理，得到信息数据的存在值，将信息数据在服务器内的存储初始时间长、存储大、重复值高、被动点击次数小及安全值低的信息数据识别为伪信息数据，反之其余数据识别为真信息数据，实现对服务器内信息数据的分类，便于操作人员对服务器内的数据进行更新或删除。

本发明的目的可以通过以下技术方案实现：

一种基于大数据的信息管理方法，包括以下步骤:

S1：获取服务器内信息数据的管理信息，基于管理信息得到信息数据的存在值，将存在值与存在值阈值进行比较；

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

若存在值大于等于存在值阈值，则该信息数据记为真信息数据；

S2：对真信息数据进行计算处理，获取真信息数据的自主提醒值，将自主提醒值大的信息数据向用户终端进行推送。

作为本发明进一步的方案：S1中，信息数据的管理信息包括信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值。

作为本发明进一步的方案：信息数据的存在值的获取过程为：

将存储时长标记为G1；

将信息数据的被动点击次数标记为G2；

将信息数据的存储大小标记为G3；

将信息数据的安全值标记为G4；

将信息数据的重复值标记为G5；

再将信息数据的存储时长、被动点击次数、存储大小、安全值和重复值进行归一化处理并取其数值；

通过公式计算得到信息数据的存在值，其中，b1、b2均为预设比例系数。

作为本发明进一步的方案：存储时长为信息数据在服务器内的存储初始时间为服务器中首次接收该信息数据的时间；

被动点击次数为信息数据在服务器内被查看的点击查看的次数；

存储大小为信息数据在服务器内所占内存的大小；

安全值为信息数据在服务器内安全程度；

重复值为信息数据内存在相同或相似的信息数据的程度值。

作为本发明进一步的方案：信息数据的安全值G4的获取过程为：

通过Hash算法计算信息数据中文本字符数据和图片关键帧数据；

将计算得到的文本字符数据和图片关键帧数据与文本信息库中对应信息数据的文本字符数据和图片数据进行对比，统计文本字符数据和图片数据与文本信息库对比结果不同的数目占总文件数目的比例，将其标记为Qi；

通过公式获取传输数据信息组的安全值G4，其中，δ为预设比例系数，Fi为修正系数。

作为本发明进一步的方案：信息数据的重复值G5的获取过程为：

将服务器内存储时间最长的信息数据记为当前信息数据，将服务器内存储的时间位于当前信息数据之后的信息数据记为参照信息数据；

将信息数据转化为基底图片；

获取当前信息数据基底图片与参照信息数据基底图片的相同或相似区域，对当前信息数据基底图片与参照信息数据基底图片相同或相似区域进行渲染上色；

当前信息数据基底图片与参照信息数据基底图片均进行放大形成像素表格照片；

统计当前信息数据基底图片上色区域的像素格个数与当前信息数据基底图片像素格个数的比值，得到基础百分数标记为e；

统计参照信息数据基底图片上色区域的像素格个数与参照信息数据基底图片像素格个数的比值，得到参照百分数标记为Ej；

将基础百分数与参照百分数进行比值计算，得到重复预算值eEj；j为参照信息条数编号，j＝1，……，m

通过公式计算得到信息数据的重复值G5，k为修正系数。

作为本发明进一步的方案：信息数据包括视频数据、图片数据和文本数据；

将视频数据按照每一帧转化成图片信息，文本数据进行图片转化，得到图片信息。

作为本发明进一步的方案：S2中，真信息数据的自主提醒值的获取过程为：

获取周期内用户终端的信息数据搜索值，根据信息数据搜索值得到用户终端的最相关数据；

基于用户终端的最相关数据确定真信息数据内的待推荐信息数据；

对待推荐信息数据的运行数据进行处理，从而得到待推荐信息数据的自主提醒值。

作为本发明进一步的方案：待推荐信息数据的运行数据包括待推荐信息数据的幅值比、待推荐信息数据的时间差、待推荐信息数据的有效值。

作为本发明进一步的方案：一种基于大数据的信息管理系统,包括：

数据处理模块，所述数据处理模块用于获取服务器内信息数据的管理信息，基于管理信息得到信息数据的存在值，将存在值与存在值阈值进行比较；

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

自主推送模块所述自主推送模块用于获取真信息数据的运行数据，基于运行数据对真信息数据的自主提醒值进行获取，并向数据管理人员进行关联性信息数据的推送。

本发明的有益效果：

(1)本发明通过数据处理模块对存储在服务内的信息数据进行处理，即通过对信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值进行处理，得到信息数据的存在值，将信息数据在服务器内的存储初始时间长、存储大、重复值高、被动点击次数小及安全值低的信息数据识别为伪信息数据，反之其余数据识别为真信息数据，实现对服务器内信息数据的分类，便于操作人员对服务器内的数据进行更新或删除，便于操作人员对价值数据和无价值数据进行更好的管理，有利于服务器存储空间的改善；

(2)本发明通过自主推送模块对服务器操作人员(用户终端)的使用习惯进行识别，即通过服务器周期内用户终端的搜索量、用户终端的浏览频率和用户终端的浏览时间进行处理，得到周期内用户终端的信息数据搜索值，并根据周期内用户终端的信息数据搜索值按一定条件处理得到用户终端的最相关数据，根据最相关数据在真信息数据内匹配待推荐信息数据，通过对待推荐信息数据的幅值、待推荐信息数据的时间差和待推荐信息数据的存储价值进行处理待推荐信息数据的自主提醒值，并根据最相关数据所属领域匹配待推荐信息数据，将相同或相近领域的最大自主提醒值所对应的信息数据推荐给用户终端，使用户终端在管理数据或调用数据时，系统能够实现自主推荐或提醒，提高系统的可操作性。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的流程图；

图2是本发明的程序框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

请参阅图1所示，本发明为一种基于大数据的信息管理方法，包括以下步骤：

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

S2：获取真信息数据的运行数据，基于运行数据对真信息数据的自主提醒值进行获取，并向数据管理人员进行关联性信息数据的推送。

S1中，信息数据的管理信息包括信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值；

其中，信息数据在服务器内的存储初始时间为服务器中首次接收该信息数据的时间；

信息数据在服务器内的被动点击次数为该信息数据在服务器内被查看的点击查看的次数；

信息数据在服务器内的存储大小为该信息数据在服务器内所占内存的大小；

信息数据在服务器内的安全值为该信息数据在服务器内是否安全，若信息数据存在病毒，则信息数据的安全值越小；

信息数据在服务器内的重复值为该信息数据在服务器内是否存在相同或相似的信息数据，该信息数据与相同或相似的信息数据重复率越高，则信息数据的重复值越大；

信息数据的存在值的获取过程为：

将信息数据的存储初始时间与服务器当前时间进行时间差计算，获取得到存储时长，将存储时长标记为G1；

将信息数据的被动点击次数标记为G2；

将信息数据的存储大小标记为G3；

将信息数据的安全值标记为G4；

将信息数据的重复值标记为G5；

通过公式计算得到信息数据的存在值，其中，b1、b2均为预设比例系数；

信息数据的存在值与存在值阈值进行比较，将得到的伪信息数据进行压缩进行存储，并通过设定自动删除程序，对于信息数据被定义为伪信息数据之日起，两个月内无再次查看，则自动删除；

信息数据的存在值与存在值阈值进行比较，得到的真信息数据进行正常存储。

其中，信息数据的安全值G4的获取过程为：

服务器中存储有信息数据的文本信息库；

通过公式获取传输数据信息组的安全值G4，其中，δ为预设比例系数，Fi为修正系数；

其中，信息数据包括文本信息数据和视频信息数据，对于文本信息数据在信息数据的安全值的计算过程中提取文本字符数据，对于视频信息数据在信息数据的安全值的计算过程中将视频按关键帧转化为图片，提取图片中的图片数据。

其中，信息数据的重复值G5的获取过程为：

其中，参照信息数据能够或1条或N条；

将当前信息数据记为CZ；

将参照信息数据记为Cj,j为参照信息条数编号，j＝1，……，m；

信息数据包括视频数据、图片数据和文本数据，将视频数据按照每一帧转化成图片信息，文本数据进行图片转化，得到图片信息，图片信息包括一张或多张基底图片；

按照上述方式，得到当前信息数据和参照信息数据的基底图片；

通过公式计算得到信息数据的重复值G5，k为修正系数。

真信息数据的自主提醒值的获取过程为：

获取周期内用户终端在服务器内的对同一类型数据或相似数据的搜索量，将用户终端的搜索量标记为F1；

获取周期内用户终端在服务器内的对同一类型数据或相似数据的浏览频率，将用户终端的浏览频率标记为F2；

获取周期内用户终端在服务器内的对同一类型数据或相似数据的浏览时间，将用户终端的浏览时间标记为F3；

将用户终端的搜索量F1、用户终端的浏览频率F2及用户终端的浏览时间F3分别赋予修正因子x、y和z，x>y>z>0，且x+y+z＝3.6875；再依据公式计算得到周期内用户终端的信息数据搜索值Wi，其中，α、β和δ均为权重系数，α>β>δ,且α+β+δ＝4.3212；

本实施例中的周期为7天；

对周期内用户终端的信息数据搜索值按大到下的顺序进行排列，将最大的信息数据搜索值所对应的同一类型数据或相似数据记为最相关数据；

提取最相关数据中的关键字符串信息，根据最相关数据中的关键字符串信息在真信息数据内进行匹配，将相似度高于70％的真信息数据进行汇总，得到提醒信息数据组，将提醒信息数据组内的真信息数据记为待推荐信息数据；

对提醒信息数据组内的待推荐信息数据的运行数据进行提取，待推荐信息数据的运行数据包括待推荐信息数据的幅值比、待推荐信息数据的时间差、待推荐信息数据的有效值；

待推荐信息数据的幅值比为待推荐信息数据的数据大小与最相关数据的数据大小的比值，将待推荐信息数据的幅值比记为Fz；

待推荐信息数据的时间差为待推荐信息数据的数据在服务器内的存储开始时间与最相关数据在服务器内的存储开始时间的差值，将待推荐信息数据的时间差记为Dt；

待推荐信息数据的有效值是通过对待推荐信息数据的近一个月内被浏览次数和待推荐信息数据的存储价值处理得到；

其中，待推荐信息数据的存储价值是根据信息数据的被使用次数、被存储时长得到，本实施例中信息数据的存储价值以信息数据的存储时间和被使用的次数为例；

信息数据的存储时间和被使用次数越多，则说明该待推荐信息数据的存储价值更高；

将待推荐信息数据的近一个月内被浏览次数记为Bd,将待推荐信息数据的存储价值记为Cj，通过公式获取待推荐信息数据的自主提醒值YX，其中∈为特定比例系数，且∈>0；

根据公式对计算得到待推荐信息数据的自主提醒值Wxi,其中d1、d2、d3均为预设比例系数，λ为预设的修正系数；

根据待推荐信息数据的自主提醒值按大到小的顺序进行排序，并对排序后的待推荐信息数据按所述领域进行划分；

具体领域包括新一代信息技术产业工艺、高端装备制造产业工艺、新材料产业工艺、生物产业工艺、新能源汽车产业工艺和节能环保产业工艺；

新一代信息技术产业工业又包括信息技术服务工艺数据和电子核心产业工艺数据；

高端装备制造产业工艺又包括智能制造装备产业工艺数据和航洋工程装备产业工艺数据；

新材料产业工艺又包括新型功能材料产业工艺数据和高性能复合材料产业工艺数据；

生物产业工艺又包括生物医药产业工艺数据和生物质能产业工艺数据；

新能源汽车产业工艺又包括新能源汽车产品工艺数据和生产测试设备工艺数据；

节能环保产业工艺又包括高效节能产业工艺数据和资源循环利用产业工艺数据；

再根据最相关数据领域的相关性，将待推荐信息数据按领域进行划分，领域相关性越高，则优先推送该领域内的自主提醒值大的信息数据。

实施例2

请参阅图1所示，本发明为一种基于大数据的信息管理系统，包括数据处理模块、自主推送模块和服务器，所述数据处理模块、自主推动模块与服务器电性连接；

数据处理模块用于获取服务器内信息数据的管理信息，基于管理信息得到信息数据的存在值，将存在值与存在值阈值进行比较；

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

自主推送模块用于获取真信息数据的运行数据，基于运行数据对真信息数据的自主提醒值进行获取，并向数据管理人员进行关联性信息数据的推送。

本实施例的在使用时，通过数据处理模块对存储在服务内的信息数据进行处理，即通过对信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值进行处理，得到信息数据的存在值，将信息数据在服务器内的存储初始时间长、存储大、重复值高、被动点击次数小及安全值低的信息数据识别为伪信息数据，反之其余数据识别为真信息数据，实现对服务器内信息数据的分类，便于操作人员对服务器内的数据进行更新或删除，便于操作人员对价值数据和无价值数据进行更好的管理，有利于服务器存储空间的改善；

本实施例的在使用时，通过自主推送模块对服务器操作人员(用户终端)的使用习惯进行识别，即通过服务器周期内用户终端的搜索量、用户终端的浏览频率和用户终端的浏览时间进行处理，得到周期内用户终端的信息数据搜索值，并根据周期内用户终端的信息数据搜索值按一定条件处理得到用户终端的最相关数据，根据最相关数据在真信息数据内匹配待推荐信息数据，通过对待推荐信息数据的幅值、待推荐信息数据的时间差和待推荐信息数据的存储价值进行处理待推荐信息数据的自主提醒值，并根据最相关数据所属领域匹配待推荐信息数据，将相同或相近领域的最大自主提醒值所对应的信息数据推荐给用户终端；

推荐时间为每次用户终端使用服务器时，且推荐时间或推荐次数可根据用户终端的需求进行设置。

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于大数据的信息管理方法，其特征在于，包括以下步骤:

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

S2：对真信息数据进行计算处理，获取真信息数据的自主提醒值，将自主提醒值大的信息数据向用户终端进行推送；

信息数据的存在值的获取过程为：

将存储时长标记为G1；

将信息数据的被动点击次数标记为G2；

将信息数据的存储大小标记为G3；

将信息数据的安全值标记为G4；

将信息数据的重复值标记为G5；

存储时长为信息数据在服务器内的存储初始时间为服务器中首次接收该信息数据的时间；

存储大小为信息数据在服务器内所占内存的大小；

安全值为信息数据在服务器内安全程度；

重复值为信息数据内存在相同或相似的信息数据的程度值；

信息数据的安全值G4的获取过程为：

2.根据权利要求1所述的一种基于大数据的信息管理方法,其特征在于，信息数据的重复值G5的获取过程为：

将信息数据转化为基底图片；

通过公式计算得到信息数据的重复值G5，k为修正系数。

3.根据权利要求2所述的一种基于大数据的信息管理方法,其特征在于，信息数据包括视频数据、图片数据和文本数据；

4.根据权利要求1所述的一种基于大数据的信息管理方法,其特征在于，S2中，真信息数据的自主提醒值的获取过程为：

5.根据权利要求4所述的一种基于大数据的信息管理方法,其特征在于，待推荐信息数据的运行数据包括待推荐信息数据的幅值比、待推荐信息数据的时间差、待推荐信息数据的有效值。

6.一种基于大数据的信息管理系统,其特征在于，包括：

若存在值小于存在值阈值，则该信息数据记为伪信息数据；

自主推送模块，所述自主推送模块用于获取真信息数据的运行数据，基于运行数据对真信息数据的自主提醒值进行获取，并向数据管理人员进行关联性信息数据的推送；

信息数据的管理信息包括信息数据在服务器内的存储初始时间、信息数据在服务器内的被动点击次数、信息数据在服务器内的存储大小、信息数据在服务器内的安全值和信息数据在服务器内的重复值；

信息数据的存在值的获取过程为：

将存储时长标记为G1；

将信息数据的被动点击次数标记为G2；

将信息数据的存储大小标记为G3；

将信息数据的安全值标记为G4；

将信息数据的重复值标记为G5；

存储大小为信息数据在服务器内所占内存的大小；

安全值为信息数据在服务器内安全程度；

重复值为信息数据内存在相同或相似的信息数据的程度值；

信息数据的安全值G4的获取过程为：