CN113239252A

CN113239252A - 基于大数据的信息数据存储整合系统

Info

Publication number: CN113239252A
Application number: CN202110547445.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Pan Qianwen
Current assignee: Pan Qianwen
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-08-10
Also published as: CN112100469B; CN112100469A

Abstract

本发明公开了一种基于大数据的信息数据存储整合系统，所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块，所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息，所述文档信息包括文档名称和最后修改时间，所述文档选取模块从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，所述拆分合并处理模块对相近文档进行拆分合并处理。

Description

基于大数据的信息数据存储整合系统

技术领域

本发明涉及大数据技术领域，具体为一种基于大数据的信息数据存储整合系统。

背景技术

随着计算机领域的快速发展，出现了电子文档。电子文档是指人们在社会活动中形成的，以计算机盘片、固态硬盘、磁盘和光盘等化学磁性物理材料为载体的文字、图片材料。依赖计算机系统存取并可在通信网络上传输。由于电子文档的易保存性和易复制性，电子文档也逐渐代替了传统的纸质文档。

在工作开展中，会产生大量的电子文档，如果不及时整理这些电子文档，会占用计算机的存储空间，导致存储空间的浪费。目前主要通过人工操作整理文档，但是人工操作十分麻烦，费时费力，而且还容易在整理的时候出错误，无法提高工作效率。

发明内容

本发明的目的在于提供一种基于大数据的信息数据存储整合系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于大数据的信息数据存储整合系统，所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块，所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息，所述文档信息包括文档名称和最后修改时间，所述文档选取模块从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，所述拆分合并处理模块对相近文档进行拆分合并处理。

进一步的，所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块，所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块，所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度，将各个文档名称按照名称长度从短到长的顺序依次排序，并设该排序为第一排序，选取第一排序中第一个文档名称作为对比文档名称，对比文档名称所对应的文档为对比文档，所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度，如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值，那么该其他文档名称所对应的文档为对比文档的相关文档，所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值，那么对比文档和该对比文档的相关文档均为疑似相近文档，在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值，按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档；所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块，所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称，所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称，其中，候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分，所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值，判断该候选文档名称为目标文档名称，所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称，判断该疑似相近文档为目标文档名称的相近文档。

进一步的，所述拆分合并处理模块包括拆分模块和合并处理模块，所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块，所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序，选取排序第一的文档为第一文档，排序第二的文档为第二文档，排序倒数第一的文档为第三文档，排序倒数第二的文档为第四文档，所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容，并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记，所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置，所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整，所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档；所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块，所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序，所述分文档比较模块针对分文档排序模块得到的排序结果，将排在后面的分文档依次与前面相应的分文档进行比较，如果排在后面的分文档与前面的分文档内容完全相同，删除该排在后面的分文档，如果排在后面的分文档与前面的分文档内容不相同，在该排在后面的分文档打上最后修改时间戳，所述分文档存储模块创建多个分文档文件夹，将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹，将所有的分文档文件夹和第三文档存入已合并文件夹。

进一步的，所述拆分标记设置模块包括比较文档设置模块和段落比较模块，所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组，并在待比较文档组中，设置一个文档为第一待比较文档、另一个为第二待比较文档，所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字，在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同，并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时，在位于后面的段落开头前设置拆分标记。

一种基于大数据的信息数据存储整合方法，所述存储整合方法包括以下步骤：

获取上一个周期内待处理文件夹中各个待合并文档的文档信息，所述文档信息包括文档名称和最后修改时间，

从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，对相近文档进行拆分合并处理。

进一步的，所述从待合并文档中筛选出疑似相近文档包括：

获取各个待合并文档的文档名称的名称长度，将各个文档名称按照名称长度从短到长的顺序依次排序，并设该排序为第一排序，选取第一排序中第一个文档名称作为对比文档名称，对比文档名称所对应的文档为对比文档；

比较对比文档名称与第一排序中其他文档名称的相似度，如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值，那么该其他文档名称所对应的文档为对比文档的相关文档，如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值，那么对比文档和该对比文档的相关文档均为疑似相近文档；

如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值，按照第一排序的顺序选取下一个文档的名称作为对比文档名称。

进一步的，所述从疑似相近文档中筛选出相近文档包括：

从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称，比较这三个文档名称，

所述比较这三个文档名称包括：

从第一文档名称和第二文档名称中提取候选文档名称，其中，候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分，

如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值，那么该候选文档名称为目标文档名称，将各个疑似相近文档的文档名称与目标文档名称进行比较，如果某个疑似相近文档的文档名称中包含目标文档名称，那么该疑似相近文档为目标文档名称的相近文档；

否则，重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称，比较这三个文档名称。

进一步的，所述对相近文档进行拆分合并处理包括：

将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序，选取排序第一的文档为第一文档，排序第二的文档为第二文档，排序倒数第一的文档为第三文档，排序倒数第二的文档为第四文档，

分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容，并据此在第一文档中、第三文档、第二文档中设置拆分标记，其中，第一文档中的拆分标记为第一拆分标记，第三文档中的拆分标记为第二拆分标记，第二文档的拆分标记为第三拆分标记；

如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同，按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分；

如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同，将第一文档中相应的第一拆分标记设置为第一存疑拆分标记，将第三文档中相应的第二拆分标记设置为第二存疑拆分标记；

将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较，如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同，修改该第一存疑拆分标记为第一拆分标记；

如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同，修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置，并将该第一存疑拆分标记修改为第一拆分标记；

按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。

进一步的，所述在第一文档中、第三文档、第二文档中设置拆分标记包括：

将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组，其中，在待比较文档组中，一个文档为第一待比较文档、另一个为第二待比较文档，第一文档、第三文档、第二文档为第一待比较文档，

获取第一待比较文档和第二待比较文档中段落文字，如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同，并且位于后面的段落开头前的空白间隔行数大于等于行数阈值，那么在位于后面的段落开头前设置拆分标记。

进一步的，所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括：

对除第三文档以外的每篇相近文档进行拆分成多个分文档，将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序，将排在后面的分文档依次与前面相应的分文档进行比较，如果排在后面的分文档与前面的分文档内容完全相同，删除该排在后面的分文档，如果排在后面的分文档与前面的分文档内容不相同，在该排在后面的分文档打上最后修改时间戳；

创建多个分文档文件夹，分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等，将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹，将所有的分文档文件夹和第三文档存入已合并文件夹，其中，已合并文件夹的名称为目标文档名称。

与现有技术相比，本发明所达到的有益效果是：本发明通过分析各个待合并文档的文档名称，从待合并文档中选出相近文档，将相近文档拆分成多个分文档，删除内容相同重复的分文档，减少文档占用的存储空间。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于大数据的信息数据存储整合系统的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：一种基于大数据的信息数据存储整合系统，所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块，所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息，所述文档信息包括文档名称和最后修改时间，所述文档选取模块从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，所述拆分合并处理模块对相近文档进行拆分合并处理。

所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块，所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块，所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度，将各个文档名称按照名称长度从短到长的顺序依次排序，并设该排序为第一排序，选取第一排序中第一个文档名称作为对比文档名称，对比文档名称所对应的文档为对比文档，所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度，如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值，那么该其他文档名称所对应的文档为对比文档的相关文档，所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值，那么对比文档和该对比文档的相关文档均为疑似相近文档，在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值，按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档；所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块，所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称，所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称，其中，候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分，所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值，判断该候选文档名称为目标文档名称，所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称，判断该疑似相近文档为目标文档名称的相近文档。

所述拆分合并处理模块包括拆分模块和合并处理模块，所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块，所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序，选取排序第一的文档为第一文档，排序第二的文档为第二文档，排序倒数第一的文档为第三文档，排序倒数第二的文档为第四文档，所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容，并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记，所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置，所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整，所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档；所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块，所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序，所述分文档比较模块针对分文档排序模块得到的排序结果，将排在后面的分文档依次与前面相应的分文档进行比较，如果排在后面的分文档与前面的分文档内容完全相同，删除该排在后面的分文档，如果排在后面的分文档与前面的分文档内容不相同，在该排在后面的分文档打上最后修改时间戳，所述分文档存储模块创建多个分文档文件夹，将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹，将所有的分文档文件夹和第三文档存入已合并文件夹。

所述拆分标记设置模块包括比较文档设置模块和段落比较模块，所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组，并在待比较文档组中，设置一个文档为第一待比较文档、另一个为第二待比较文档，所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字，在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同，并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时，在位于后面的段落开头前设置拆分标记。

所述从待合并文档中筛选出疑似相近文档包括：

所述从疑似相近文档中筛选出相近文档包括：

所述比较这三个文档名称包括：

比如；三个文档名称分别为：“一种项目修改稿”“20200102一种项目”“一种项目初稿”，那么目标文档名称为“一种项目”，相近文档为所有包含“一种项目”的文档；

所述对相近文档进行拆分合并处理包括：

所述在第一文档中、第三文档、第二文档中设置拆分标记包括：

获取第一待比较文档和第二待比较文档中段落文字，如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同，并且位于后面的段落开头前的空白间隔行数大于等于行数阈值，那么在位于后面的段落开头前设置拆分标记。空白间隔行数可以理解为没有文字的行数，更进一步的，可以设置为存在两个段落的开头文字内容相同且这两个段落位于不同的页面上，并且位于后面的段落开头前的空白间隔行数大于等于行数阈值，那么在位于后面的段落开头前设置拆分标记；

所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括：

对除第三文档以外的每篇相近文档进行拆分成多个分文档，将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序，将排在后面的分文档依次与前面相应的分文档进行比较，如果排在后面的分文档与前面的分文档内容完全相同，删除该排在后面的分文档，如果排在后面的分文档与前面的分文档内容不相同，在该排在后面的分文档打上最后修改时间戳；最后修改时间戳便于对文档进行追溯查询；在比较分文档时，比如，如果排在第一、第二、第三的文档都没有删除，那么排在第四的文档要依次与排在第一、第二、第三的文档进行比较，如果排在第二的文档删除了，排在第四的文档要依次与排在第一、第三的文档进行比较；

创建多个分文档文件夹，分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等，将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹，将所有的分文档文件夹和第三文档存入已合并文件夹，其中，已合并文件夹的名称为目标文档名称。一篇文档拆分后的不同部分的份文档存入不同的分文档文件夹。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的信息数据存储整合系统，其特征在于，所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块，所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息，所述文档信息包括文档名称和最后修改时间，所述文档选取模块从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，所述拆分合并处理模块对相近文档进行拆分合并处理；

所述信息数据存储整合系统的整合方法包括以下步骤：

从待合并文档中选出疑似相近文档，再从疑似相近文档中筛选出相近文档，对相近文档进行拆分合并处理；

所述从待合并文档中筛选出疑似相近文档包括：

如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值，按照第一排序的顺序选取下一个文档的名称作为对比文档名称；

所述从疑似相近文档中筛选出相近文档包括：

所述比较这三个文档名称包括：