CN116303404B

CN116303404B - 基于数据归类同级比对防止数据冗余的大数据存储系统

Info

Publication number: CN116303404B
Application number: CN202310525487.4A
Authority: CN
Inventors: 张芬
Original assignee: Start Shandong Big Data Technology Co ltd
Current assignee: Start Shandong Big Data Technology Co ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-04
Anticipated expiration: 2043-05-11
Also published as: CN116303404A

Abstract

本发明涉及大数据存储技术领域，具体地说，涉及基于数据归类同级比对防止数据冗余的大数据存储系统。其包括关联度分析模块以及记忆点标记模块。本发明通过关联度分析模块对处于同类型的数据进行关联度分析，确定冗余数据与重复数据，避免数据存储重复，影响数据库存储空间，通过记忆点标记模块建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理，通过标记结果识别各项已经完成关联度比对的数据，减少后期二次比对工作，提高数据处理效率，同时通过对冗余数据的划分后，能够整合冗余数据中的各项数据，按照用户存储需求便捷快速的处理冗余数据，避免冗余数据处理方式单一化。

Description

基于数据归类同级比对防止数据冗余的大数据存储系统

技术领域

本发明涉及大数据存储技术领域，具体地说，涉及基于数据归类同级比对防止数据冗余的大数据存储系统。

背景技术

数据冗余发生在数据库系统中，指的是一个字段在多个表里重复出现，举个例子，如果每条客户购买商品的信息里都连带记录了客户自身的信息，这样的数据冗余可能造成不一致，因为客户自身的信息可能不一样，数据冗余会导致数据异常和损坏，一般来说设计上应该被避免，数据库规范化防止了冗余而且不浪费存储容量。

冗余数据在数据库系统中有利有弊，优点：例如数据恢复，如建立备份文件以备正式文件被破坏时恢复；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变；数据核查，如设立数据校验位可以检查数据在存贮、传输等过程中的改变，冗余信息被作为加快数据访问速度的手段应用最多的情况一般不是在一个表里设置冗余字段，而是在很多海量数据的数据仓库里把很多小粒度的数据计算成为以一天、一周、一个月作为更大粒度统计单位的冗余信息表或者指标信息表，而直接访问这些大粒度的冗余数据，比直接访问最小粒度的数据进行统计效率可能快上几千倍，缺点：造成维护成本的提高；造成资源浪费，数据库存储的空间是一定的，如果冗余数据过多的话，会造成资源的浪费。

现有的数据库系统中大多数采用单一化处理方式，对不同类型的冗余数据进行相同方式处理，例如剔除，导致冗余数据中存在的备份数据很容易直接被剔除，后期使用时需要进行二次备份，即使采用多种处理方式，其每次识别同类型的数据时，均需要重复先前识别规则，导致数据处理效率大大降低。

为了应对上述问题，现亟需基于数据归类同级比对防止数据冗余的大数据存储系统。

发明内容

本发明的目的在于提供基于数据归类同级比对防止数据冗余的大数据存储系统，以解决上述背景技术中提出的问题。

为实现上述目的，提供了基于数据归类同级比对防止数据冗余的大数据存储系统，包括数据信息采集模块、存储内容分析模块、数据归类模块、关联度分析模块、记忆点标记模块以及数据分类存储模块；

所述数据信息采集模块识别即将进行存储的数据，并采集即将进行存储的数据信息；

所述数据信息采集模块输出端与所述存储内容分析模块输入端连接，所述存储内容分析模块结合即将进行存储的数据信息，提取各个数据信息对应的信息内容；

所述存储内容分析模块输出端与所述数据归类模块输入端连接，所述数据归类模块根据各个数据信息对应的信息内容，规划归类规则，按照归类规则对各个数据信息进行同类型归类处理；

所述数据归类模块输出端与所述关联度分析模块输入端连接，所述关联度分析模块对处于同类型的数据进行关联度分析，确定冗余数据与重复数据；

所述关联度分析模块输出端连接有记忆点标记模块，所述记忆点标记模块建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理；

所述记忆点标记模块输出端与所述数据分类存储模块输入端连接，所述数据分类存储模块建立分类数据库，分类存储标记后的各项冗余数据以及重复数据。

作为本技术方案的进一步改进，所述数据归类模块包括分类规则规划单元以及同类型数据整合单元；

所述分类规则规划单元用于规划分类规则；

所述分类规则规划单元输出端与所述同类型数据整合单元输入端连接，所述同类型数据整合单元通过分类规则划分各项采集数据，并将属于同类型的数据整合。

作为本技术方案的进一步改进，所述同类型数据整合单元输入端连接有归纳方法预存储单元，所述归纳方法预存储单元用于存储数据归类过程中的各项分类规则。

作为本技术方案的进一步改进，所述关联度分析模块包括字符比对分析单元、重合字符计算单元以及互异字符识别单元；

所述字符比对分析单元用于确定同类型数据中字符分布情况；

所述字符比对分析单元输出端与所述重合字符计算单元输入端连接，所述重合字符计算单元比对同类型中各项数据中字符分布，确定字符重合率；

所述重合字符计算单元输出端与所述互异字符识别单元输入端连接，所述互异字符识别单元用于识别同类型中各项数据中存在的互异字符。

作为本技术方案的进一步改进，所述关联度分析模块中关联度分析包括如下步骤：

步骤1、确定同类型数据，建立集合N存储同类型数据/>；

步骤2、调取集合N中各项数据的字符分布情况；

步骤3、比对各项数据的出现重复的字符，生成比对结果；

步骤4、根据比对结果，规划重合阈值，将重合字符超过重合阈值的同类型数据标记为备用冗余数据；

步骤5、比对各组备用冗余数据，识别其中存在的互异字符，将存在互异字符的备用冗余数据标记为冗余数据，将不存在互异字符的备用冗余数据标记为重复数据。

作为本技术方案的进一步改进，所述记忆点标记模块包括记忆规则数据库、对应数据标记单元以及绑定数据输出单元；

所述记忆规则数据库用于建立记忆标记规则数据库；

所述记忆规则数据库输出端与所述对应数据标记单元输入端连接，所述对应数据标记单元结合数据类型，调用记忆标记规则数据库对应的标记规则对当前数据进行标记处理；

所述对应数据标记单元输出端与所述绑定数据输出单元输入端连接，所述绑定数据输出单元对标记后的数据进行输出。

作为本技术方案的进一步改进，所述记忆点标记模块中数据标记方法包括如下步骤：

S1、建立记忆标记规则数据库，确定各项数据匹配规则；

S2、分辨每组冗余数据以及每组重复数据，匹配对应的标记规则，对每组冗余数据以及每组重复数据进行同类标记处理；

S3、绑定标记内容以及对应的输出数据。

作为本技术方案的进一步改进，所述关联度分析模块输出端连接有重复数据处理模块，所述重复数据处理模块用于规划重复数据处理规则，按照处理规则对重复数据进行数据处理。

作为本技术方案的进一步改进，所述重复数据处理模块输出端与所述数据分类存储模块输入端连接。

与现有技术相比，本发明的有益效果：

1、该基于数据归类同级比对防止数据冗余的大数据存储系统中，通过关联度分析模块对处于同类型的数据进行关联度分析，确定冗余数据与重复数据，避免数据存储重复，影响数据库存储空间，通过记忆点标记模块建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理，通过标记结果识别各项已经完成关联度比对的数据，减少后期二次比对工作，提高数据处理效率，同时通过对冗余数据的划分后，能够整合冗余数据中的各项数据，按照用户存储需求便捷快速的处理冗余数据，避免冗余数据处理方式单一化。

2、该基于数据归类同级比对防止数据冗余的大数据存储系统中，通过归纳方法预存储单元存储数据归类过程中的各项分类规则，在进行数据备份过程中，直接调用预存储中的分类规则，减少归类操作步骤，提高数据备份效率。

3、该基于数据归类同级比对防止数据冗余的大数据存储系统中，通过重复数据处理模块规划重复数据处理规则，按照处理规则对重复数据进行数据处理，即建立重复数据阈值，当同组重复数据中的数据量超过重复数据阈值，剔除超过量，保证正常数据备份的同时，减少数据库空间存储压力。

附图说明

图1为本发明的整体结构示意图；

图2为本发明的数据归类模块结构示意图；

图3为本发明的关联度分析模块结构示意图；

图4为本发明的记忆点标记模块结构示意图。

图中各个标号意义为：

10、数据信息采集模块；

20、存储内容分析模块；

30、数据归类模块；310、分类规则规划单元；320、同类型数据整合单元；330、归纳方法预存储单元；

40、关联度分析模块；410、字符比对分析单元；420、重合字符计算单元；430、互异字符识别单元；

50、记忆点标记模块；510、记忆规则数据库；520、对应数据标记单元；530、绑定数据输出单元；

60、数据分类存储模块；

70、重复数据处理模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图4所示，提供了基于数据归类同级比对防止数据冗余的大数据存储系统，包括数据信息采集模块10、存储内容分析模块20、数据归类模块30、关联度分析模块40、记忆点标记模块50以及数据分类存储模块60；

数据信息采集模块10识别即将进行存储的数据，并采集即将进行存储的数据信息；

数据信息采集模块10输出端与存储内容分析模块20输入端连接，存储内容分析模块20结合即将进行存储的数据信息，提取各个数据信息对应的信息内容；

存储内容分析模块20输出端与数据归类模块30输入端连接，数据归类模块30根据各个数据信息对应的信息内容，规划归类规则，按照归类规则对各个数据信息进行同类型归类处理；

数据归类模块30输出端与关联度分析模块40输入端连接，关联度分析模块40对处于同类型的数据进行关联度分析，确定冗余数据与重复数据；

关联度分析模块40输出端连接有记忆点标记模块50，记忆点标记模块50建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理；

记忆点标记模块50输出端与数据分类存储模块60输入端连接，数据分类存储模块60建立分类数据库，分类存储标记后的各项冗余数据以及重复数据。

具体使用时，在进行数据存储过程中，首先通过数据信息采集模块10识别即将进行存储的数据，并采集即将进行存储的数据信息，随后存储内容分析模块20结合即将进行存储的数据信息，提取各个数据信息对应的信息内容，即各项数据信息内包含的字符信息，以及每个字符信息对应的表达功能，数据归类模块30根据各个数据信息对应的信息内容，规划归类规则，按照归类规则对各个数据信息进行同类型归类处理，例如处理同一工作项目的多项信息内容；

数据采集分类工作完成后，关联度分析模块40对处于同类型的数据进行关联度分析，确定冗余数据与重复数据，关联度分析同类型的各项数据进行相同字符识别，即对重复数据：即同类型的两项或者多项数据中存在的字符保持完全重合，冗余数据：同类型的两项或者多项数据中存在相同字符，且互相存在互异字符；

随后通过记忆点标记模块50建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理，并将标记结果传输至数据分类存储模块60，通过数据分类存储模块60建立分类数据库，分类存储标记后的各项冗余数据以及重复数据。

本发明通过关联度分析模块40对处于同类型的数据进行关联度分析，确定冗余数据与重复数据，在进行数据存储前对各项数据进行归类处理，避免数据存储重复，影响数据库存储空间，通过记忆点标记模块50建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理，通过标记结果识别各项已经完成关联度比对的数据，减少后期二次比对工作，提高数据处理效率，同时通过对冗余数据的划分后，能够整合冗余数据中的各项数据，按照用户存储需求便捷快速的处理冗余数据，避免冗余数据处理方式单一化，导致冗余数据中存在的备份数据被清除。

此外，数据归类模块30包括分类规则规划单元310以及同类型数据整合单元320；

分类规则规划单元310用于规划分类规则，以供后期进行重复数据以及冗余数据分析；

分类规则规划单元310输出端与同类型数据整合单元320输入端连接，同类型数据整合单元320通过分类规则划分各项采集数据，并将属于同类型的数据整合，以便后期进行集中分析处理，提前滤除无需比对的数据组合，提高数据处理效率。

由于在进行数据归类过程中，为了能够整合同类型的数据，需要提前规划分类规则，即该类型中各项数据的共同特征，当采集到的相同数据需要进行多次备份时，每备份一次就需要进行一次规则规划，进一步的，同类型数据整合单元320输入端连接有归纳方法预存储单元330，归纳方法预存储单元330用于存储数据归类过程中的各项分类规则，通过归纳方法预存储单元330存储数据归类过程中的各项分类规则，在进行数据备份过程中，直接调用预存储中的分类规则，减少归类操作步骤，提高数据备份效率。

再进一步的，关联度分析模块40包括字符比对分析单元410、重合字符计算单元420以及互异字符识别单元430；

字符比对分析单元410用于确定同类型数据中字符分布情况；

字符比对分析单元410输出端与重合字符计算单元420输入端连接，重合字符计算单元420比对同类型中各项数据中字符分布，确定字符重合率；

重合字符计算单元420输出端与互异字符识别单元430输入端连接，互异字符识别单元430用于识别同类型中各项数据中存在的互异字符。

在进行数据关联度分析过程中，首先通过字符比对分析单元410确定同类型数据中字符分布情况，即每个数据中的字符组成，并将字符分布情况传输至重合字符计算单元420，通过重合字符计算单元420比对同类型中各项数据中字符分布，确定字符重合率，作为后期评判重合字符与冗余字符的参考标准，随后通过互异字符识别单元430识别同类型中各项数据中存在的互异字符，作为重合字符与冗余字符的划分规则。

具体的，关联度分析模块40中关联度分析包括如下步骤：

步骤1、确定同类型数据，建立集合N存储同类型数据/>；

步骤2、调取集合N中各项数据的字符分布情况；

步骤3、比对各项数据的出现重复的字符，生成比对结果；

此外，记忆点标记模块50包括记忆规则数据库510、对应数据标记单元520以及绑定数据输出单元530；

记忆规则数据库510用于建立记忆标记规则数据库；

记忆规则数据库510输出端与对应数据标记单元520输入端连接，对应数据标记单元520结合数据类型，调用记忆标记规则数据库对应的标记规则对当前数据进行标记处理；

对应数据标记单元520输出端与绑定数据输出单元530输入端连接，绑定数据输出单元530对标记后的数据进行输出。

在进行数据标记过程中，首先通过记忆规则数据库510建立记忆标记规则数据库，对应数据标记单元520结合数据类型，调用记忆标记规则数据库对应的标记规则对当前数据进行标记处理，属于同一类型的多个冗余数据中，其标记规则一致，例如规划前缀名或者后缀名，用于后期区分冗余数据与其他数据，数据标记完成后，通过绑定数据输出单元530对标记后的数据进行输出。

进一步的，记忆点标记模块50中数据标记方法包括如下步骤：

S1、建立记忆标记规则数据库，确定各项数据匹配规则；

S3、绑定标记内容以及对应的输出数据。

为了区分各组冗余数据以及重复数据，首先建立记忆标记规则数据库，确定各项数据匹配规则，例如对各组冗余数据中的重复字符进行标记处理，标记为重复字符，后期进行二次比对处理时，直接调用对应标记过的重复字符进行冗余数据比对，从而减少比对流程，提高数据识别效率；

完成记忆标记规则数据库建立工作后，分辨每组冗余数据以及每组重复数据，匹配对应的标记规则，对每组冗余数据以及每组重复数据进行同类标记处理，作为后期识别同组冗余数据或者重复数据的参考标准，并绑定标记内容以及对应的输出数据。

由于同一批次需要进行存储数据量过大，出现重复数据的概率增加，为了防止存储数据库空间满载，再进一步的，关联度分析模块40输出端连接有重复数据处理模块70，重复数据处理模块70用于规划重复数据处理规则，按照处理规则对重复数据进行数据处理，通过重复数据处理模块70规划重复数据处理规则，按照处理规则对重复数据进行数据处理，即建立重复数据阈值，当同组重复数据中的数据量超过重复数据阈值，剔除超过量，保证正常数据备份的同时，减少数据库空间存储压力。

此外，重复数据处理模块70输出端与数据分类存储模块60输入端连接，当重复数据处理模块70规划重复数据处理规则后，将规划的重复数据传输至数据分类存储模块60，通过数据分类存储模块60进行存储，后期在进行重复数据处理过程中，可直接调用数据分类存储模块60存储的处理规则，减少操作流程，提高重复数据处理效率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：包括数据信息采集模块（10）、存储内容分析模块（20）、数据归类模块（30）、关联度分析模块（40）、记忆点标记模块（50）以及数据分类存储模块（60）；

所述数据信息采集模块（10）识别即将进行存储的数据，并采集即将进行存储的数据信息；

所述数据信息采集模块（10）输出端与所述存储内容分析模块（20）输入端连接，所述存储内容分析模块（20）结合即将进行存储的数据信息，提取各个数据信息对应的信息内容；

所述存储内容分析模块（20）输出端与所述数据归类模块（30）输入端连接，所述数据归类模块（30）根据各个数据信息对应的信息内容，规划归类规则，按照归类规则对各个数据信息进行同类型归类处理；

所述数据归类模块（30）输出端与所述关联度分析模块（40）输入端连接，所述关联度分析模块（40）对处于同类型的数据进行关联度分析，确定冗余数据与重复数据；

所述关联度分析模块（40）输出端连接有记忆点标记模块（50），所述记忆点标记模块（50）建立记忆标记规则数据库，调用对应的记忆规则对各项冗余数据以及重复数据进行标记处理；

所述记忆点标记模块（50）输出端与所述数据分类存储模块（60）输入端连接，所述数据分类存储模块（60）建立分类数据库，分类存储标记后的各项冗余数据以及重复数据；

所述关联度分析模块（40）包括字符比对分析单元（410）、重合字符计算单元（420）以及互异字符识别单元（430）；

所述字符比对分析单元（410）用于确定同类型数据中字符分布情况；

所述字符比对分析单元（410）输出端与所述重合字符计算单元（420）输入端连接，所述重合字符计算单元（420）比对同类型中各项数据中字符分布，确定字符重合率；

所述重合字符计算单元（420）输出端与所述互异字符识别单元（430）输入端连接，所述互异字符识别单元（430）用于识别同类型中各项数据中存在的互异字符；

所述关联度分析模块（40）中关联度分析包括如下步骤：

步骤1、确定同类型数据，建立集合N存储同类型数据/>；

步骤2、调取集合N中各项数据的字符分布情况；

步骤3、比对各项数据的出现重复的字符，生成比对结果；

步骤5、比对各组备用冗余数据，识别其中存在的互异字符，将存在互异字符的备用冗余数据标记为冗余数据，将不存在互异字符的备用冗余数据标记为重复数据；

所述记忆点标记模块（50）包括记忆规则数据库（510）、对应数据标记单元（520）以及绑定数据输出单元（530）；

所述记忆规则数据库（510）用于建立记忆标记规则数据库；

所述记忆规则数据库（510）输出端与所述对应数据标记单元（520）输入端连接，所述对应数据标记单元（520）结合数据类型，调用记忆标记规则数据库对应的标记规则对当前数据进行标记处理；

所述对应数据标记单元（520）输出端与所述绑定数据输出单元（530）输入端连接，所述绑定数据输出单元（530）对标记后的数据进行输出；

所述记忆点标记模块（50）中数据标记方法包括如下步骤：

S1、建立记忆标记规则数据库，确定各项数据匹配规则；

S3、绑定标记内容以及对应的输出数据。

2.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述数据归类模块（30）包括分类规则规划单元（310）以及同类型数据整合单元（320）；

所述分类规则规划单元（310）用于规划分类规则；

所述分类规则规划单元（310）输出端与所述同类型数据整合单元（320）输入端连接，所述同类型数据整合单元（320）通过分类规则划分各项采集数据，并将属于同类型的数据整合。

3.根据权利要求2所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述同类型数据整合单元（320）输入端连接有归纳方法预存储单元（330），所述归纳方法预存储单元（330）用于存储数据归类过程中的各项分类规则。

4.根据权利要求1所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述关联度分析模块（40）输出端连接有重复数据处理模块（70），所述重复数据处理模块（70）用于规划重复数据处理规则，按照处理规则对重复数据进行数据处理。

5.根据权利要求4所述的基于数据归类同级比对防止数据冗余的大数据存储系统，其特征在于：所述重复数据处理模块（70）输出端与所述数据分类存储模块（60）输入端连接。