CN115757591A - 一种基于多数据源的资料库管理系统、方法、设备和介质 - Google Patents

一种基于多数据源的资料库管理系统、方法、设备和介质 Download PDF

Info

Publication number
CN115757591A
CN115757591A CN202211550560.5A CN202211550560A CN115757591A CN 115757591 A CN115757591 A CN 115757591A CN 202211550560 A CN202211550560 A CN 202211550560A CN 115757591 A CN115757591 A CN 115757591A
Authority
CN
China
Prior art keywords
data
module
information
database
coincidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211550560.5A
Other languages
English (en)
Inventor
朱广名
李海亮
张梅英
谭火超
梁瑞莹
张艳
李水荣
钟小丽
陈志容
李一平
陈思明
林秋童
任小杏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Maoming Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Maoming Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Maoming Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202211550560.5A priority Critical patent/CN115757591A/zh
Publication of CN115757591A publication Critical patent/CN115757591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多数据源的资料库管理系统、方法、设备和介质,包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块,数据请求模块响应任一多数据源的输入请求,对输入数据进行格式转换和初步去重生成去重文件,根据约定秘钥加密传输去重文件至数据控制模块,数据控制模块解密后提取去重文件的初始信息,数据对比模块采用写入资料对初始信息进行去重筛选生成目标信息并更新重合数据库,数据分类模块基于目标分类模型采用目标信息的信息关键词确定分类结果,数据存储模块根据分类结果将目标信息导入资料库,安全管理模块对系统进行安全管控,以提高资料库整体的管理可靠性。

Description

一种基于多数据源的资料库管理系统、方法、设备和介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多数据源的资料库管理系统、方法、设备和介质。
背景技术
在大数据时代,海量数据的存储成为人们日益关注的重点,而随着互联网的快速发展,网络资料库作为一种可以对各种资料集中存储的管理设备进入发展热潮。
网络资料库的现有管理技术中,面对不同源的数据进行收集存储时,需先对数据进行格式统一转换导致系统构建较为复杂,同时由于数据来源广而可能与网络资料库中的数据重复,重复资料存储会造成额外的内存占用且后续资料查阅效率低,影响了网络资料库整体的管理可靠性。
发明内容
本发明提供了一种基于多数据源的资料库管理系统、方法、设备和介质,解决了现有技术中网络资料库整体的管理可靠性较低的技术问题。
本发明第一方面提供了一种基于多数据源的资料库管理系统,包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块;
所述数据请求模块,用于响应任一多数据源的输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件;
所述数据控制模块,用于基于所述约定秘钥对所述加密文件进行解密输出所述去重文件,并提取所述去重文件的初始信息;
所述数据对比模块,用于基于重合对比算法,采用资料库的写入资料对所述初始信息进行筛选,生成目标信息并更新所述重合数据库;
所述数据分类模块,用于采用爬虫技术爬取所述目标信息的信息关键词,将所述信息关键词输入预设的目标分类模型输出对应的分类结果;
所述数据存储模块,用于根据所述分类结果将所述目标信息导入所述资料库;
所述安全管理模块,用于对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
可选地,所述数据请求模块,具体用于:
响应任一多数据源的输入请求,解析所述输入请求获取对应的输入数据;
对所述输入数据进行格式转换生成XML文件,采用爬虫技术爬取所述XML文件的数据信息的数据关键词;
采用所述数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
基于重合比对算法对所述目标数据关键词的数据信息与所述目标重合关键词的写入重合信息进行重合运算,输出重复信息;
对所述数据信息筛除所述重复信息,生成去重文件;
通过约定秘钥对所述去重文件进行加密,构建加密文件。
可选地,所述数据对比模块,具体用于:
接收所述初始信息,并获取所述资料库的写入资料;
基于重合对比算法,对所述初始信息和所述写入资料进行重合比对输出重合信息;
根据所述重合信息对所述初始信息进行去重操作,生成目标信息;
采用爬虫技术对所述重合信息进行关键字爬取,构建对应的重合关键词;
将所述重合关键词和所述重合信息作为新的写入重合关键词和新的写入重合信息,导入所述重合数据库。
可选地,所述数据分类模块,还用于:
获取类目样本数据,按预设比例将所述类目样本数据划分为训练数据和测试数据;其中所述类目样本数据包括所述资料库的主分类类目和从属分类类目以及对应的分类关键词;
基于蒙特卡罗算法,采用所述训练数据构建初始分类模型;
采用所述测试数据对所述初始分类模型进行验证,输出验证结果;
若所述验证结果为标准,则将所述初始分类模型作为目标分类模型
若所述验证结果为不标准,则采用所述训练数据对所述初始分类模型进行训练优化,并跳转执行采用所述测试数据对所述初始分类模型进行验证,输出验证结果的步骤。
可选地,所述安全管理模块包括安全监测单元和告警反馈单元;
所述安全监测单元,用于对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行实时数据安全监测并生成监测结果;
所述告警反馈单元,用于根据监测结果执行对应的告警机制。
可选地,所述告警反馈单元,具体用于:
解析所述监测结果,获取所述监测结果的类型;
若所述类型为正常,则保持正常工作模式;
若所述类型为异常,则执行防护工作模式。
本发明第二方面提供了一种基于多数据源的资料库管理方法,应用于基于多数据源的资料库管理系统,所述资料库管理系统包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块;所述方法包括:
通过所述数据请求模块响应输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件;
通过所述数据控制模块基于所述约定秘钥对所述加密文件进行解密输出所述去重文件,并提取所述去重文件的初始信息;
通过所述数据对比模块基于重合对比算法,采用所述资料库的写入资料对所述初始信息进行筛选,生成目标信息并更新所述重合数据库;
通过所述数据分类模块采用爬虫技术爬取所述目标信息的信息关键词,将所述信息关键词输入预设的目标分类模型输出对应的分类结果;
通过所述数据存储模块根据所述分类结果和所述信息关键词将所述目标信息导入所述资料库;
通过所述安全管理模块对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
可选地,所述通过所述数据请求模块响应输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件的步骤,包括:
通过所述数据请求模块响应任一多数据源的输入请求,解析所述输入请求获取对应的输入数据;
通过所述数据请求模块对所述输入数据进行格式转换生成XML文件,采用爬虫技术爬取所述XML文件的数据信息的数据关键词;
通过所述数据请求模块采用所述数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
通过所述数据请求模块基于重合比对算法对所述目标数据关键词的数据信息与所述目标重合关键词的写入重合信息进行重合运算,输出重复信息;
通过所述数据请求模块对所述数据信息筛除所述重复信息,生成去重文件;
通过所述数据请求模块通过约定秘钥对所述去重文件进行加密,构建加密文件。
本发明第三方面提供了一种电子设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如本发明第二方面任一项所述的基于多数据源的资料库管理方法的步骤。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如本发明第二方面任一项所述的基于多数据源的资料库管理方法。
从以上技术方案可以看出,本发明具有以下优点:
在本发明提供一种基于多数据源的资料库管理系统,包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块,通过数据请求模块响应任一多数据源的输入请求,对接收到的输入数据进行格式转换和采用重合数据库初步去重生成去重文件,并根据约定秘钥加密传输去重文件至数据控制模块,以通过数据控制模块解密后提取去重文件的初始信息,数据对比模块采用资料库的写入资料对初始信息进行去重筛选生成目标信息并更新重合数据库,数据分类模块基于目标分类模型采用目标信息的信息关键词确定分类结果,通过数据存储模块根据分类结果将目标信息导入资料库对应的存储位置,并通过安全管理模块对系统进行安全管控。通过本发明的基于多数据源的资料库管理系统,可实现多源数据的统一采集,不需在数据采集前进行数据的转换,从而在系统构建上降低了其复杂性并一定程度上避免了数据入口的权限安全隐患问题;在进行数据存储时,通过数据请求模块和数据比对模块的双重去重操作,使得资料库的存储内容更加精简,也有助于在资料查找时提高查阅效率,同时采用目标分类模型对数据关键词进行智能类目分类,从而提高了资料库整体的管理可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种基于多数据源的资料库管理系统的结构框图;
图2为本发明实施例二提供的一种基于多数据源的资料库管理方法的步骤流程图。
具体实施方式
本发明实施例提供了一种基于多数据源的资料库管理系统、方法、设备和介质,用于解决现有技术中网络资料库整体的管理可靠性较低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种基于多数据源的资料库管理系统的结构框图。
本发明提供的一种基于多数据源的资料库管理系统,包括通信连接的数据请求模块101、数据控制模块102、数据对比模块103、数据分类模块104、数据存储模块105和安全管理模块106;
数据请求模块101,用于响应任一多数据源的输入请求,对输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件。
在本发明的一个示例中,数据请求模块101,具体用于:
响应任一多数据源的输入请求,解析输入请求获取对应的输入数据;
对输入数据进行格式转换生成XML文件,采用爬虫技术爬取XML文件的数据信息的数据关键词;
采用数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
基于重合比对算法对目标数据关键词的数据信息与目标重合关键词的写入重合信息进行重合运算,输出重复信息;
对数据信息筛除重复信息,生成去重文件;
通过约定秘钥对去重文件进行加密,构建加密文件。
在本发明实施例中,数据请求模块的端口可以支持多种数据源的录入途径,包括但不限于页面请求、Excel导入、其他数据库数据导入、外接设备导入和不同平台语言导入等。通过数据请求模块响应任一支持的数据源的终端发出的输入请求,对输入请求进行解析得到输入请求携带的输入数据,按照设定的格式模板将该输入数据转换为XML文件,读写该XML文件获取对应的数据信息,并通过爬虫技术爬取数据信息的数据关键词。数据请求模块中还部署有重合数据库,该重合数据库中含有曾被筛除而不存入资料库的写入重合信息以及写入重合信息对应的重合关键词。采用数据关键词与重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词,并通过重合对比算法对二者关联的数据信息与写入重合信息进行重合运算,输出存在与写入重合信息内容实质相同的数据信息作为重复信息。从XML文件的数据信息中筛除该重复信息,生成对应的去重文件。采用预先确定的约定秘钥对去重文件进行加密构建加密文件,并将该加密文件传输至数据控制模块。通过初步重合比对筛除数据降低冗余数据,减少了数据对比模块的数据处理量。
可选地,数据请求模块中采用DAO模式进行数据接收管理,同时通过JVAV进行数据映射,最终通过JVAV BEAN进行数据映射后的数据逻辑校验工作。
可选地,数据请求模块中采用约定秘钥构建加密文件从而实现数据加密传输,可以具体采用MD5加密算法、PGP加密软件、RSA加密软件、DES加密算法或链路加密算法中的一种或几种的组合。
数据控制模块102,用于基于约定秘钥对加密文件进行解密输出去重文件,并提取去重文件的初始信息。
在本发明实施例中,数据控制模块对接收到的加密文件进行约定密钥的编码解密,待加密文件变为明文即得到加密前的去重文件后,提取去重文件的数据内容作为初始信息,并将该初始信息发送至数据对比模块。
可选地,数据控制模块中进行去重文件的初始信息提取时,可以具体采用MID函数、Web数据信息抽取技术、爬虫提取技术、Tempo数据挖掘技术中的一种或几种的组合。
数据对比模块103,用于基于重合对比算法,采用资料库的写入资料对初始信息进行筛选,生成目标信息并更新重合数据库。
在本发明的一个示例中,数据对比模块102,具体用于:
接收初始信息,并获取资料库的写入资料;
基于重合对比算法,对初始信息和写入资料进行重合比对输出重合信息;
根据重合信息对初始信息进行去重操作,生成目标信息;
采用爬虫技术对重合信息进行关键字爬取,构建对应的重合关键词;
将重合关键词和重合信息作为新的写入重合关键词和新的写入重合信息,导入重合数据库。
在本发明实施例中,数据对比模块接收到去重文件的初始信息后,调取资料库中已经写入存储的写入资料,通过重合对比算法将初始信息和写入资料进行大范围的重合比对,确定存在与写入资料内容实质相同的初始信息作为重合信息,从初始信息中筛除该重合信息后输出需要写入资料库的目标信息,并将该目标信息传输至数据分类模块。通过爬虫技术对被筛除的重合信息进行关键字爬取,构建其对应的重合关键词作为新的重合关键词,并将该新的重合关键词以及关联的重合信息作为新的写入重合信息,导入到预设的重合数据库中进行更新。
可选地,数据请求模块和数据对比模块采用的重合比对算法,可以具体为TF-IDF算法、余弦类似度、向量空间模型算法、SVD算法、LSI算法或LDA算法中的一种或几种的组合。
数据分类模块104,用于采用爬虫技术爬取目标信息的信息关键词,将信息关键词输入预设的目标分类模型输出对应的分类结果。
在本发明实施例中,数据分类模块接收到目标信息后,基于爬虫技术对目标信息进行关键词提取生成对应的信息关键词。在数据分类模块中还部署有目标分类模型,该目标分类模型中含有分类关键词与分类类目的关联模式,通过将信息关键词输入目标分类模型,经过目标分类模型基于该关联模式输出对应的分类类目作为分类结果。
可选地,数据请求模块、数据对比模块和数据分类模块采用的爬虫技术,可以具体为python爬虫技术、聚焦爬虫技术、通用爬虫技术、增量爬虫技术或深层网络爬虫技术中的一种或几种的组合。
在本发明的一个示例中,数据分类模块104,还用于:
获取类目样本数据,按预设比例将类目样本数据划分为训练数据和测试数据;其中类目样本数据包括资料库的主分类类目和从属分类类目以及对应的分类关键词;
基于蒙特卡罗算法,采用训练数据构建初始分类模型;
采用测试数据对初始分类模型进行验证,输出验证结果;
若验证结果为标准,则将初始分类模型作为目标分类模型;
若验证结果为不标准,则采用训练数据对初始分类模型进行训练优化,并跳转执行采用测试数据对初始分类模型进行验证,输出验证结果的步骤。
在本发明实施例中,数据分类模块可以基于资料库的写入资料构建类目样本数据,其中类目样本数据包括资料库的分类类目以及对应的分类关键词,资料库的分类类目包括主分类类目和从属分类类目。将该类目样本数据按照一定的比例划分为训练数据和测试数据,采用训练数据基于蒙特卡罗算法的学习机制构建初始分类模型,然后通过将测试数据输入初始分类模型进行模型验证。当输出的验证结果符合预期即为标准时,则将初始分类模型作为目标分类模型;当输出的验证结果为不标准时,则继续采用训练数据基于蒙特卡罗算法对初始分类模型进行训练优化并进行模型验证,直至输出验证结果为标准得到目标分类模型。
数据存储模块105,用于根据分类结果将目标信息导入资料库。
在本发明实施例中,目标分类模型的分类类目和分类关键词与资料库中设定的分类类目和分类关键词是一一对应的,则在资料库中根据分类类目包括主分类类目和从属分类类目,创建有对应的多个主文件夹和多个从属文件夹,其中主文件夹和从属文件夹可以按照文件夹名称的首字母进行排序。同时,通过目标分类模型输出的分类结果包括信息关键词所属的主分类类目结果和从属分类类目结果,数据存储模块按照该分类结果可以将目标信息逐级导入资料库对应的主文件夹和从属文件夹中。
安全管理模块106,用于对数据请求模块、数据控制模块、数据对比模块、数据分类模块和数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
在本发明的一个示例中,安全管理模块106包括安全监测单元和告警反馈单元;
安全监测单元,用于对数据请求模块、数据控制模块、数据对比模块、数据分类模块和数据存储模块进行实时数据安全监测并生成监测结果;
告警反馈单元,用于根据监测结果执行对应的告警机制。
告警反馈单元,具体用于:
解析监测结果,获取监测结果的类型;
若类型为正常,则保持正常工作模式;
若类型为异常,则执行防护工作模式。
在本发明实施例中,安全管理模块包括安全监测单元和告警反馈单元,在数据请求模块、数据控制模块、数据对比模块、数据分类模块和数据存储模块对数据进行处理的过程中,安全监测单元进行数据的实时安全检测生成对应的监测结果,例如检测是否潜在病毒链接数据,告警反馈单元则通过解析监测结果确定监测结果的类型,若类型为正常即说明数据安全,则保持当前的工作模式,若类型为异常即说明存在安全异常数据,如潜在病毒链接数据,则对安全异常数据进行定位、剔除并防护攻击系统。
可选地,安全监测单元可以具体采用黑客技术、防火墙技术、入侵检测技术、病毒防护技术以及信息隐藏技术综合的数据安全防护检测技术。
在本发明实施例中,提供一种基于多数据源的资料库管理系统,包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块,通过数据请求模块响应任一多数据源的输入请求,对接收到的输入数据进行格式转换和采用重合数据库初步去重生成去重文件,并根据约定秘钥加密传输去重文件至数据控制模块,以通过数据控制模块解密后提取去重文件的初始信息,数据对比模块采用资料库的写入资料对初始信息进行去重筛选生成目标信息并更新重合数据库,数据分类模块基于目标分类模型采用目标信息的信息关键词确定分类结果,通过数据存储模块根据分类结果将目标信息导入资料库对应的存储位置,并通过安全管理模块对系统进行安全管控。通过本发明的基于多数据源的资料库管理系统,可实现多源数据的统一采集,不需在数据采集前进行数据的转换,从而在系统构建上降低了其复杂性并一定程度上避免了数据入口的权限安全隐患问题;在进行数据存储时,通过数据请求模块和数据比对模块的双重去重操作,使得资料库的存储内容更加精简,也有助于在资料查找时提高查阅效率,同时采用目标分类模型对数据关键词进行智能类目分类,从而提高了资料库整体的管理可靠性。
请参阅图2,图2为本发明实施例二提供的一种基于多数据源的资料库管理方法的步骤流程图。
本发明实施例提供的一种基于多数据源的资料库管理方法,应用于基于多数据源的资料库管理系统,所述资料库管理系统包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块,方法包括:
步骤201、通过数据请求模块响应输入请求,对输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件;
步骤202、通过数据控制模块基于约定秘钥对加密文件进行解密输出去重文件,并提取去重文件的初始信息;
步骤203、通过数据对比模块基于重合对比算法,采用资料库的写入资料对初始信息进行筛选,生成目标信息并更新重合数据库;
步骤204、通过数据分类模块采用爬虫技术爬取目标信息的信息关键词,将信息关键词输入预设的目标分类模型输出对应的分类结果;
步骤205、通过数据存储模块根据分类结果和信息关键词将目标信息导入资料库;
步骤206、通过安全管理模块对数据请求模块、数据控制模块、数据对比模块、数据分类模块和数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
可选地,步骤201包括以下子步骤:
响应任一多数据源的输入请求,解析所述输入请求获取对应的输入数据;
对所述输入数据进行格式转换生成XML文件,采用爬虫技术爬取所述XML文件的数据信息的数据关键词;
采用所述数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
基于重合比对算法对所述目标数据关键词的数据信息与所述目标重合关键词的写入重合信息进行重合运算,输出重复信息;
对所述数据信息筛除所述重复信息,生成去重文件;
通过约定秘钥对所述去重文件进行加密,构建加密文件。
可选地,步骤203包括以下子步骤:
通过数据对比模块接收所述初始信息,并获取所述资料库的写入资料;
基于重合对比算法,通过数据对比模块对所述初始信息和所述写入资料进行重合比对输出重合信息;
通过数据对比模块根据所述重合信息对所述初始信息进行去重操作,生成目标信息;
通过数据对比模块采用爬虫技术对所述重合信息进行关键字爬取,构建对应的重合关键词;
通过数据对比模块将所述重合关键词和所述重合信息作为新的写入重合关键词和新的写入重合信息,导入所述重合数据库。
可选地,还包括:
通过数据分类模块获取类目样本数据,按预设比例将所述类目样本数据划分为训练数据和测试数据;其中所述类目样本数据包括所述资料库的主分类类目和从属分类类目以及对应的分类关键词;
基于蒙特卡罗算法,通过数据分类模块采用所述训练数据构建初始分类模型;
通过数据分类模块采用所述测试数据对所述初始分类模型进行验证,输出验证结果;
若所述验证结果为标准,通过数据分类模块则将所述初始分类模型作为目标分类模型
若所述验证结果为不标准,则通过数据分类模块采用所述训练数据对所述初始分类模型进行训练优化,并跳转执行采用所述测试数据对所述初始分类模型进行验证,输出验证结果的步骤。
可选地,步骤206包括以下子步骤:
通过安全监测单元对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行实时数据安全监测并生成监测结果;
通过告警反馈单元根据监测结果执行对应的告警机制。
可选地,步骤206具体包括:
通过告警反馈单元解析所述监测结果,获取所述监测结果的类型;
若所述类型为正常,则通过告警反馈单元保持正常工作模式;
若所述类型为异常,则通过告警反馈单元执行防护工作模式。
本发明实施例还提供了一种电子设备,其特征在于,包括存储器及处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行如本发明方法实施例的基于多数据源的资料库管理方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被执行时实现如本发明方法实施例的基于多数据源的资料库管理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于多数据源的资料库管理系统,其特征在于,包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块;
所述数据请求模块,用于响应任一多数据源的输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件;
所述数据控制模块,用于基于所述约定秘钥对所述加密文件进行解密输出所述去重文件,并提取所述去重文件的初始信息;
所述数据对比模块,用于基于重合对比算法,采用资料库的写入资料对所述初始信息进行筛选,生成目标信息并更新所述重合数据库;
所述数据分类模块,用于采用爬虫技术爬取所述目标信息的信息关键词,将所述信息关键词输入预设的目标分类模型输出对应的分类结果;
所述数据存储模块,用于根据所述分类结果将所述目标信息导入所述资料库;
所述安全管理模块,用于对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
2.根据权利要求1所述的基于多数据源的资料库管理系统,其特征在于,所述数据请求模块,具体用于:
响应任一多数据源的输入请求,解析所述输入请求获取对应的输入数据;
对所述输入数据进行格式转换生成XML文件,采用爬虫技术爬取所述XML文件的数据信息的数据关键词;
采用所述数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
基于重合比对算法对所述目标数据关键词的数据信息与所述目标重合关键词的写入重合信息进行重合运算,输出重复信息;
对所述数据信息筛除所述重复信息,生成去重文件;
通过约定秘钥对所述去重文件进行加密,构建加密文件。
3.根据权利要求1所述的基于多数据源的资料库管理系统,其特征在于,所述数据对比模块,具体用于:
接收所述初始信息,并获取所述资料库的写入资料;
基于重合对比算法,对所述初始信息和所述写入资料进行重合比对输出重合信息;
根据所述重合信息对所述初始信息进行去重操作,生成目标信息;
采用爬虫技术对所述重合信息进行关键字爬取,构建对应的重合关键词;
将所述重合关键词和所述重合信息作为新的写入重合关键词和新的写入重合信息,导入所述重合数据库。
4.根据权利要求1所述的基于多数据源的资料库管理系统,其特征在于,所述数据分类模块,还用于:
获取类目样本数据,按预设比例将所述类目样本数据划分为训练数据和测试数据;其中所述类目样本数据包括所述资料库的主分类类目和从属分类类目以及对应的分类关键词;
基于蒙特卡罗算法,采用所述训练数据构建初始分类模型;
采用所述测试数据对所述初始分类模型进行验证,输出验证结果;
若所述验证结果为标准,则将所述初始分类模型作为目标分类模型;
若所述验证结果为不标准,则采用所述训练数据对所述初始分类模型进行训练优化,并跳转执行采用所述测试数据对所述初始分类模型进行验证,输出验证结果的步骤。
5.根据权利要求1所述的基于多数据源的资料库管理系统,其特征在于,所述安全管理模块包括安全监测单元和告警反馈单元;
所述安全监测单元,用于对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行实时数据安全监测并生成监测结果;
所述告警反馈单元,用于根据监测结果执行对应的告警机制。
6.根据权利要求5所述的基于多数据源的资料库管理系统,其特征在于,所述告警反馈单元,具体用于:
解析所述监测结果,获取所述监测结果的类型;
若所述类型为正常,则保持正常工作模式;
若所述类型为异常,则执行防护工作模式。
7.一种基于多数据源的资料库管理方法,其特征在于,应用于基于多数据源的资料库管理系统,所述资料库管理系统包括通信连接的数据请求模块、数据控制模块、数据对比模块、数据分类模块、数据存储模块和安全管理模块;所述方法包括:
通过所述数据请求模块响应输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件;
通过所述数据控制模块基于所述约定秘钥对所述加密文件进行解密输出所述去重文件,并提取所述去重文件的初始信息;
通过所述数据对比模块基于重合对比算法,采用所述资料库的写入资料对所述初始信息进行筛选,生成目标信息并更新所述重合数据库;
通过所述数据分类模块采用爬虫技术爬取所述目标信息的信息关键词,将所述信息关键词输入预设的目标分类模型输出对应的分类结果;
通过所述数据存储模块根据所述分类结果和所述信息关键词将所述目标信息导入所述资料库;
通过所述安全管理模块对所述数据请求模块、所述数据控制模块、所述数据对比模块、所述数据分类模块和所述数据存储模块进行安全监测,并根据监测结果执行对应的告警机制。
8.根据权利要求7所述的基于多数据源的资料库管理方法,其特征在于,所述通过所述数据请求模块响应输入请求,对所述输入请求携带的输入数据进行格式转换和采用预设的重合数据库进行去重操作,对生成的去重文件根据约定秘钥构建对应的加密文件的步骤,包括:
通过所述数据请求模块响应任一多数据源的输入请求,解析所述输入请求获取对应的输入数据;
通过所述数据请求模块对所述输入数据进行格式转换生成XML文件,采用爬虫技术爬取所述XML文件的数据信息的数据关键词;
通过所述数据请求模块采用所述数据关键词与预设的重合数据库中的写入重合关键词进行匹配,确定匹配成功的目标数据关键词和目标重合关键词;
通过所述数据请求模块基于重合比对算法对所述目标数据关键词的数据信息与所述目标重合关键词的写入重合信息进行重合运算,输出重复信息;
通过所述数据请求模块对所述数据信息筛除所述重复信息,生成去重文件;
通过所述数据请求模块通过约定秘钥对所述去重文件进行加密,构建加密文件。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求7-8所述的基于多数据源的资料库管理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求7-8所述的基于多数据源的资料库管理方法。
CN202211550560.5A 2022-12-05 2022-12-05 一种基于多数据源的资料库管理系统、方法、设备和介质 Pending CN115757591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211550560.5A CN115757591A (zh) 2022-12-05 2022-12-05 一种基于多数据源的资料库管理系统、方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211550560.5A CN115757591A (zh) 2022-12-05 2022-12-05 一种基于多数据源的资料库管理系统、方法、设备和介质

Publications (1)

Publication Number Publication Date
CN115757591A true CN115757591A (zh) 2023-03-07

Family

ID=85343346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211550560.5A Pending CN115757591A (zh) 2022-12-05 2022-12-05 一种基于多数据源的资料库管理系统、方法、设备和介质

Country Status (1)

Country Link
CN (1) CN115757591A (zh)

Similar Documents

Publication Publication Date Title
CN107408135B (zh) 用于对加密数据进行查询处理的数据库服务器和客户端
Studiawan et al. A survey on forensic investigation of operating system logs
CN103119594A (zh) 可检索密码处理系统
US8234283B2 (en) Search reporting apparatus, method and system
CN109522328B (zh) 一种数据处理方法及其装置、介质、终端
CN111638908A (zh) 接口文档生成方法、装置、电子设备及介质
US9104877B1 (en) Detecting penetration attempts using log-sensitive fuzzing
CN111274227B (zh) 一种基于聚类分析和关联规则的数据库审计系统及方法
CN109241484A (zh) 一种基于加密技术的网页数据的发送方法及设备
CN113726784A (zh) 一种网络数据的安全监控方法、装置、设备及存储介质
Bjelland et al. Practical use of Approximate Hash Based Matching in digital investigations
Iftikhar et al. A reversible watermarking technique for social network data sets for enabling data trust in cyber, physical, and social computing
KR20200063187A (ko) 개선된 컴퓨팅 장치
EP4120096A1 (en) Method and device for data retrieval, electronic device, and storage medium
CN111222181B (zh) Ai模型的监管方法、系统、服务器及存储介质
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
CN104657504A (zh) 一种文件快速识别方法
CN115758432A (zh) 一种基于机器学习算法的全方位数据加密方法及系统
CN115757591A (zh) 一种基于多数据源的资料库管理系统、方法、设备和介质
US20220385635A1 (en) Combined machine learning and formal techniques for network traffic analysis
CN113257375A (zh) 突发急性传染病数据脱敏方法
CN103366129A (zh) 基于网络的数据文件控管系统及其数据文件控管方法
Kamal et al. Data retrieval based on the smart contract within the blockchain
WO2022201307A1 (ja) 情報分析装置、情報分析方法、及びコンピュータ読み取り可能な記録媒体
CN116070252B (zh) 工业互联网节点的批量文件处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination