CN116701411B - 一种多领域数据归档方法、装置、介质及设备 - Google Patents
一种多领域数据归档方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN116701411B CN116701411B CN202310982107.XA CN202310982107A CN116701411B CN 116701411 B CN116701411 B CN 116701411B CN 202310982107 A CN202310982107 A CN 202310982107A CN 116701411 B CN116701411 B CN 116701411B
- Authority
- CN
- China
- Prior art keywords
- data
- determining
- database
- training
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 82
- 238000007906 compression Methods 0.000 claims abstract description 57
- 230000006835 compression Effects 0.000 claims abstract description 57
- 238000013145 classification model Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 238000010801 machine learning Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 13
- 238000007635 classification algorithm Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 3
- 230000036541 health Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多领域数据归档方法、装置、介质及设备。其中,方法包括:接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。
Description
技术领域
本发明涉及数据归档技术领域,并且更具体地,涉及一种多领域数据归档方法、装置、介质及设备。
背景技术
随着时代的发展,各行各业产生的数据正在急速的增长,人们对于数据存档的需求也在逐渐增加,现在的数据存档方案通过为用户建立账户实现数据存储,但是这种存储方式效率低,并且不便于查找,如何实现数据分类归档成为现在亟待解决的技术问题。
发明内容
针对现有技术的不足,本发明提供一种多领域数据归档方法、装置、介质及设备。
根据本发明的一个方面,提供了一种多领域数据归档方法,包括:
接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;
根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;
根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;
将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。
可选地,还包括:
通过预设的监测算法实时监测数据库的响应时间,通过数据库的响应时间判断数据库的存储状态;
在响应时间超过预设的时间阈值的情况下,将数据库中的数据按照存储日期进行排序;
将预定数量的存储日期在前的存储数据转移至预先设定的历史数据库中。
可选地,数据分类模型的构建步骤如下:
收集各个数据类别领域内的文档数据,文档数据中包括用于标记该领域数据类别的标记数据;
对所有的文档数据进行特征提取,确定每个标记数据的特征向量;
将所有的特征向量划分为训练数据集和测试数据集;
利用机器学习算法对训练数据集进行训练,确定初始数据分类模型;
根据测试训练集对初始数据分类模型进行测试调整,确定优化后的数据分类模型。
可选地,机器学习算法为Adaboost分类算法,利用机器学习算法对训练数据集进行训练,确定初始数据分类模型,包括:
1)初始化权重w i;
2)在初始化权重下利用训练数据集训练Adaboost分类器f m (x);
3)计算加权类概率估计:
;
4)根据加权类概率估计计算基分类器hm(x):
;
5)根据基分类器h(x)更新权重w i到:
;
6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定初始数据分类模型,其中
K为数据类别数量,N为训练数据集样本数量,x为样本特征向量,yi是样本标签向量,为概率函数,预设阈值为0.65。
可选地,数据类别包括:工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据,Adaboost分类算法的损失函数为:
其中,L为损失函数。
可选地,数据类型包括以下的任意一种或多种:图像数据、视频数据、文本数据、语音数据,多约束目标包括:归档效率约束、决策属性约束以及决策属性约简约束,其中
归档效率约束为剔除多个候选算法中归档效率低于预先设置的业务要求的压缩算法;
决策属性约束为剔除剩余的候选算法中决策属性低的压缩算法,保留决策属性最高的一个候选压缩算法或多个决策属性相同的候选压缩算法;
决策属性约简约束为在保留多个决策属性相同的候选压缩算法的情况下,对多个候选压缩算法进行约简,确定最优压缩算法。
根据本发明的另一个方面,提供了一种多领域数据归档装置,包括:
分类模块,用于接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;
确定模块,用于根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;
压缩模块,用于根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;
存放模块,用于将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。
根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。
根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一方面所述的方法。
从而,本申请通过对接收的需要存档的原始数据进行分类,并确定数据类型,然后确定存储的子数据库,实现了数据分类归档的技术效果,并通过压缩算法对数据进行压缩存储,节约存储空间。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1是本发明一示例性实施例提供的多领域数据归档方法的流程示意图;
图2是本发明一示例性实施例提供的多领域数据归档装置的结构示意图;
图3是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
示例性方法
图1是本发明一示例性实施例提供的多领域数据归档方法的流程示意图。本实施例可应用在电子设备上,如图1所示,多领域数据归档方法100包括以下步骤:
步骤101,接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;
步骤102,根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;
步骤103,根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;
步骤104,将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。
具体地,树形数据库可以为三层数据库,第一层为主节点,第二层为领域节点,第三层为数据类型节点。从而通过逐层分类归档数据的数据类型,确定归档数据的存储位置,实现了数据分类统一管理的技术效果。
此外,本申请中还可以对每一个大领域下的小领域进行细分,和类别确定方法相同,此处不再介绍。
可选地,还包括:
通过预设的监测算法实时监测数据库的响应时间,通过数据库的响应时间判断数据库的存储状态;
在响应时间超过预设的时间阈值的情况下,将数据库中的数据按照存储日期进行排序;
将预定数量的存储日期在前的存储数据转移至预先设定的历史数据库中。
具体地,本申请在系统中设置历史数据库以存储时间久但是又需要长久存档的数据,当子数据库的存储状态将要达到满载的情况下,将时间长的数据进行专利到历史数据,从而通过实时检测子数据库的响应状态来判断子数据库的存储状态,实现数据库的有效管理。
可选地,数据分类模型的构建步骤如下:
收集各个数据类别领域内的文档数据,文档数据中包括用于标记该领域数据类别的标记数据;
对所有的文档数据进行特征提取,确定每个标记数据的特征向量;
将所有的特征向量划分为训练数据集和测试数据集;
利用机器学习算法对训练数据集进行训练,确定初始数据分类模型;
根据测试训练集对初始数据分类模型进行测试调整,确定优化后的数据分类模型。
具体地,本申请在工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据领域收集样本数据,通过特征提取以及标签分类,进行数据分类模型训练,实现数据分类模型的精准训练,从而未归档数据的分类做好基础,达到准确进行归档数据分类的技术效果。
可选地,机器学习算法为Adaboost分类算法,利用机器学习算法对训练数据集进行训练,确定初始数据分类模型,包括:
1)初始化权重w i;
2)在初始化权重下利用训练数据集训练Adaboost分类器f m (x);
3)计算加权类概率估计:
;
4)根据加权类概率估计计算基分类器hm(x):
;
5)根据基分类器h(x)更新权重w i到:
;
6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定初始数据分类模型,其中
K为数据类别数量,N为训练数据集样本数量,x为样本特征向量,yi是样本标签向量,为概率函数,预设阈值为0.65。
具体地,本申请选择六个数据领域进行分类,为了提高分类效果本申请中使用的多分类算法采用加权概率估计(weighted probability estimates)的方法更新加法模型,将加权分类模型的概率输出信息与boosting方法相结合。从而提高多分类效果。
可选地,数据类别包括:工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据,Adaboost分类算法的损失函数为:
其中,L为损失函数。
具体地,本申请中对六个领域数据进行训练得到的输出概率如下:
从而通过上述输出概率,确定多领域数据分类模型的损失函数,从而在数据归档中可以更加高效的实现数据分类,进行便于数据的分类归档。
可选地,数据类型包括以下的任意一种或多种:图像数据、视频数据、文本数据、语音数据,多约束目标包括:归档效率约束、决策属性约束以及决策属性约简约束,其中
归档效率约束为剔除多个候选算法中归档效率低于预先设置的业务要求的压缩算法;
决策属性约束为剔除剩余的候选算法中决策属性低的压缩算法,保留决策属性最高的一个候选压缩算法或多个决策属性相同的候选压缩算法;
决策属性约简约束为在保留多个决策属性相同的候选压缩算法的情况下,对多个候选压缩算法进行约简,确定最优压缩算法。
具体地,本申请中的无损压缩编码算法主要包括Huffman编码、算术编码和游程编码等;有损压缩编码算法主要有预测编码、变换编码、向量量化、分层编码、频带分割编码、模型编码等。但是对于不同领域的数据其数据大小和格式并不相同,从而本申请通过设置多约束目标进行数据压缩算法的选择,从而为归档数据选择合适的压缩算法。
从而,本申请通过对接收的需要存档的原始数据进行分类,并确定数据类型,然后确定存储的子数据库,实现了数据分类归档的技术效果,并通过压缩算法对数据进行压缩存储,节约存储空间。
示例性装置
图2是本发明一示例性实施例提供的多领域数据归档装置的结构示意图。如图2所示,装置200包括:
分类模块210,用于接收需要存档的原始数据,并通过预先构建的数据分类模型对原始数据进行分类,确定原始数据的数据类别;
确定模块220,用于根据原始数据以及原始数据的数据格式类型,确定原始数据的数据类型;
压缩模块230,用于根据数据类型以及预先设定的多约束目标确定原始数据的最优压缩算法,通过压缩算法对原始数据进行压缩,生成压缩数据;
存放模块240,用于将压缩数据存放在数据类型对应的子数据库中,其中子数据库为树形数据库的一个节点,树形数据库为根据数据不同领域和类型构建的。
可选地,装置200还包括:
判断模块,用于通过预设的监测算法实时监测数据库的响应时间,通过数据库的响应时间判断数据库的存储状态;
排序模块,用于在响应时间超过预设的时间阈值的情况下,将数据库中的数据按照存储日期进行排序;
转移模块,用于将预定数量的存储日期在前的存储数据转移至预先设定的历史数据库中。
可选地,分类模块210数据分类模型的构建步骤如下:
收集子模块,用于收集各个数据类别领域内的文档数据,文档数据中包括用于标记该领域数据类别的标记数据;
提取子模块,用于对所有的文档数据进行特征提取,确定每个标记数据的特征向量;
划分子模块,用于将所有的特征向量划分为训练数据集和测试数据集;
第一确定子模块,用于利用机器学习算法对训练数据集进行训练,确定初始数据分类模型;
第二确定子模块,用于根据测试训练集对初始数据分类模型进行测试调整,确定优化后的数据分类模型。
可选地,机器学习算法为Adaboost分类算法,利第一确定子模块,包括:
1)初始化权重w i;
2)在初始化权重下利用训练数据集训练Adaboost分类器f m (x);
3)计算加权类概率估计:
;
4)根据加权类概率估计计算基分类器hm(x):
;
5)根据基分类器h(x)更新权重w i到:
;
6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定初始数据分类模型,其中
K为数据类别数量,N为训练数据集样本数量,x为样本特征向量,yi是样本标签向量,为概率函数,预设阈值为0.65。
可选地,数据类别包括:工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据,Adaboost分类算法的损失函数为:
其中,L为损失函数。
可选地,数据类型包括以下的任意一种或多种:图像数据、视频数据、文本数据、语音数据,多约束目标包括:归档效率约束、决策属性约束以及决策属性约简约束,其中
归档效率约束为剔除多个候选算法中归档效率低于预先设置的业务要求的压缩算法;
决策属性约束为剔除剩余的候选算法中决策属性低的压缩算法,保留决策属性最高的一个候选压缩算法或多个决策属性相同的候选压缩算法;
决策属性约简约束为在保留多个决策属性相同的候选压缩算法的情况下,对多个候选压缩算法进行约简,确定最优压缩算法。
示例性电子设备
图3是本发明一示例性实施例提供的电子设备的结构。如图3所示,电子设备30包括一个或多个处理器31和存储器32。
处理器31可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器32可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器31可以运行所述程序指令,以实现上文所述的本发明的各个实施例的软件程序的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置33和输出装置34,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置33还可以包括例如键盘、鼠标等等。
该输出装置34可以向外部输出各种信息。该输出装置34可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
还需要指出的是,在本发明的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (5)
1.一种多领域数据归档方法,其特征在于,包括:
接收需要存档的原始数据,并通过预先构建的数据分类模型对所述原始数据进行分类,确定所述原始数据的数据类别;
根据所述原始数据以及所述原始数据的数据格式类型,确定所述原始数据的数据类型;
根据所述数据类型以及预先设定的多约束目标确定所述原始数据的最优压缩算法,通过所述压缩算法对所述原始数据进行压缩,生成压缩数据;
将所述压缩数据存放在所述数据类型对应的子数据库中,其中所述子数据库为树形数据库的一个节点,所述树形数据库为根据数据的不同领域和类型构建的,其中
所述数据分类模型的构建步骤如下:
收集各个数据类别领域内的文档数据,所述文档数据中包括用于标记该领域数据类别的标记数据;
对所有的所述文档数据进行特征提取,确定每个标记数据的特征向量;
将所有的特征向量划分为训练数据集和测试数据集;
利用机器学习算法对所述训练数据集进行训练,确定初始数据分类模型;
根据所述测试数据集对所述初始数据分类模型进行测试调整,确定优化后的所述数据分类模型;
所述机器学习算法为Adaboost分类算法,利用机器学习算法对所述训练数据集进行训练,确定初始数据分类模型,包括:
1)初始化权重w i;
2)在所述初始化权重下利用所述训练数据集训练Adaboost分类器f m (x),m为分类器数量;
3)计算加权类概率估计,K 表示数据类别数量:
;
4)根据加权类概率估计计算基分类器/>:
;
5)根据所述基分类器更新权重w i到/>:
i=1,2,3...N;
6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定所述初始数据分类模型,其中
K为数据类别数量,N为训练数据集样本数量,x为样本特征向量,yi是样本标签向量,为概率函数,所述预设阈值为0.65;
所述数据类别包括:工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据,所述Adaboost分类算法的损失函数为:
;
其中,L为损失函数;
所述数据类型包括以下任意一种或多种:图像数据、视频数据、文本数据、语音数据,所述多约束目标包括:归档效率约束、决策属性约束以及决策属性约简约束,其中
所述归档效率约束为剔除多个候选算法中归档效率低于预先设置的业务要求的压缩算法;
所述决策属性约束为剔除剩余的候选算法中决策属性低的压缩算法,保留决策属性最高的一个候选压缩算法或多个决策属性相同的候选压缩算法;
所述决策属性约简约束为在保留多个决策属性相同的候选压缩算法的情况下,对多个候选压缩算法进行约简,确定最优压缩算法。
2.根据权利要求1所述的方法,其特征在于,还包括:
通过预设的监测算法实时监测数据库的响应时间,通过所述数据库的响应时间判断所述数据库的存储状态;
在所述响应时间超过预设的时间阈值的情况下,将所述数据库中的数据按照存储日期进行排序;
将预定数量的存储日期在前的存储数据转移至预先设定的历史数据库中。
3.一种多领域数据归档装置,其特征在于,包括:
分类模块,用于接收需要存档的原始数据,并通过预先构建的数据分类模型对所述原始数据进行分类,确定所述原始数据的数据类别;
确定模块,用于根据所述原始数据以及所述原始数据的数据格式类型,确定所述原始数据的数据类型;
压缩模块,用于根据所述数据类型以及预先设定的多约束目标确定所述原始数据的最优压缩算法,通过所述压缩算法对所述原始数据进行压缩,生成压缩数据;
存放模块,用于将所述压缩数据存放在所述数据类型对应的子数据库中,其中所述子数据库为树形数据库的一个节点,所述树形数据库为根据数据的不同领域和类型构建的;
分类模块中数据分类模型的构建步骤如下:
收集子模块,用于收集各个数据类别领域内的文档数据,所述文档数据中包括用于标记该领域数据类别的标记数据;
提取子模块,用于对所有的文档数据进行特征提取,确定每个标记数据的特征向量;
划分子模块,用于将所有的特征向量划分为训练数据集和测试数据集;
第一确定子模块,用于利用机器学习算法对训练数据集进行训练,确定初始数据分类模型;
第二确定子模块,用于根据测试数据集对初始数据分类模型进行测试调整,确定优化后的数据分类模型;
机器学习算法为Adaboost分类算法,第一确定子模块,包括:
1)初始化权重w i;
2)在初始化权重下利用训练数据集训练Adaboost分类器f m (x),m为分类器数量;
3)计算加权类概率估计,K 表示数据类别数量:
;
4)根据加权类概率估计计算基分类器/>:
;
5)根据基分类器更新权重w i到/>:
i=1,2,3...N;
6)归一化权重;
7)迭代训练直至每一类数据的概率估计均大于或等于预设阈值,确定初始数据分类模型,其中
K为数据类别数量,N为训练数据集样本数量,x为样本特征向量,yi是样本标签向量,为概率函数,预设阈值为0.65;
数据类别包括:工业数据、遥感数据、健康医疗数据、营销数据、金融数据、财政数据,Adaboost分类算法的损失函数为:
;
其中,L为损失函数;
数据类型包括以下的任意一种或多种:图像数据、视频数据、文本数据、语音数据,多约束目标包括:归档效率约束、决策属性约束以及决策属性约简约束,其中
归档效率约束为剔除多个候选算法中归档效率低于预先设置的业务要求的压缩算法;
决策属性约束为剔除剩余的候选算法中决策属性低的压缩算法,保留决策属性最高的一个候选压缩算法或多个决策属性相同的候选压缩算法;
决策属性约简约束为在保留多个决策属性相同的候选压缩算法的情况下,对多个候选压缩算法进行约简,确定最优压缩算法。
4.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-2任一所述的方法。
5.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-2任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982107.XA CN116701411B (zh) | 2023-08-07 | 2023-08-07 | 一种多领域数据归档方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310982107.XA CN116701411B (zh) | 2023-08-07 | 2023-08-07 | 一种多领域数据归档方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701411A CN116701411A (zh) | 2023-09-05 |
CN116701411B true CN116701411B (zh) | 2023-11-21 |
Family
ID=87831556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310982107.XA Active CN116701411B (zh) | 2023-08-07 | 2023-08-07 | 一种多领域数据归档方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701411B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117411875A (zh) * | 2023-12-14 | 2024-01-16 | 国网浙江省电力有限公司 | 一种电力数据传输系统、方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457255A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 数据归档的方法、服务器及计算机可读存储介质 |
CN115481272A (zh) * | 2022-10-25 | 2022-12-16 | 珠高智能科技(深圳)有限公司 | 业务标签数据归档方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210279525A1 (en) * | 2020-03-05 | 2021-09-09 | Samsung Electronics Company, Ltd. | Hierarchy-preserving learning for multi-label classification |
-
2023
- 2023-08-07 CN CN202310982107.XA patent/CN116701411B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457255A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 数据归档的方法、服务器及计算机可读存储介质 |
CN115481272A (zh) * | 2022-10-25 | 2022-12-16 | 珠高智能科技(深圳)有限公司 | 业务标签数据归档方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116701411A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10296846B2 (en) | Adapted domain specific class means classifier | |
CN106649890B (zh) | 数据存储方法和装置 | |
Kasiviswanathan et al. | Online l1-dictionary learning with application to novel document detection | |
US11301506B2 (en) | Automated digital asset tagging using multiple vocabulary sets | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
KR102041242B1 (ko) | 오토인코더를 이용한 산업분류 시스템 및 방법 | |
CN111027707B (zh) | 模型的优化方法、装置及电子设备 | |
CN108629358B (zh) | 对象类别的预测方法及装置 | |
CN116701411B (zh) | 一种多领域数据归档方法、装置、介质及设备 | |
CN105069424A (zh) | 面部快速识别系统和方法 | |
CN111583274A (zh) | 图像分割方法、装置、计算机可读存储介质及电子设备 | |
CN115244587A (zh) | 高效基础事实注释 | |
CN110708285B (zh) | 流量监控方法、装置、介质及电子设备 | |
CN111429161B (zh) | 特征提取方法、特征提取装置、存储介质及电子设备 | |
CN115809887B (zh) | 一种基于发票数据确定企业主要经营范围的方法和装置 | |
US20220309292A1 (en) | Growing labels from semi-supervised learning | |
CN111062431A (zh) | 图像聚类方法、图像聚类装置、电子设备及存储介质 | |
CN112347246A (zh) | 一种基于谱分解的自适应文档聚类方法及系统 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN114049516A (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
CN109325512A (zh) | 图像分类方法及装置、电子设备、计算机程序及存储介质 | |
CN112905885A (zh) | 向用户推荐资源的方法、装置、设备、介质和程序产品 | |
CN113704566B (zh) | 识别号主体识别方法、存储介质和电子设备 | |
CN113536252B (zh) | 账号识别方法和计算机可读存储介质 | |
CN115169489A (zh) | 数据检索方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |