CN113239252A - 基于大数据的信息数据存储整合系统 - Google Patents
基于大数据的信息数据存储整合系统 Download PDFInfo
- Publication number
- CN113239252A CN113239252A CN202110547445.1A CN202110547445A CN113239252A CN 113239252 A CN113239252 A CN 113239252A CN 202110547445 A CN202110547445 A CN 202110547445A CN 113239252 A CN113239252 A CN 113239252A
- Authority
- CN
- China
- Prior art keywords
- document
- name
- documents
- comparison
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 12
- 238000013500 data storage Methods 0.000 title claims abstract description 11
- 238000012986 modification Methods 0.000 claims abstract description 20
- 230000004048 modification Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- -1 computer disks Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。
Description
技术领域
本发明涉及大数据技术领域,具体为一种基于大数据的信息数据存储整合系统。
背景技术
随着计算机领域的快速发展,出现了电子文档。电子文档是指人们在社会活动中形成的,以计算机盘片、固态硬盘、磁盘和光盘等化学磁性物理材料为载体的文字、图片材料。依赖计算机系统存取并可在通信网络上传输。由于电子文档的易保存性和易复制性,电子文档也逐渐代替了传统的纸质文档。
在工作开展中,会产生大量的电子文档,如果不及时整理这些电子文档,会占用计算机的存储空间,导致存储空间的浪费。目前主要通过人工操作整理文档,但是人工操作十分麻烦,费时费力,而且还容易在整理的时候出错误,无法提高工作效率。
发明内容
本发明的目的在于提供一种基于大数据的信息数据存储整合系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。
进一步的,所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档。
进一步的,所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。
进一步的,所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。
一种基于大数据的信息数据存储整合方法,所述存储整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理。
进一步的,所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称。
进一步的,所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
进一步的,所述对相近文档进行拆分合并处理包括:
将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,
分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中设置拆分标记,其中,第一文档中的拆分标记为第一拆分标记,第三文档中的拆分标记为第二拆分标记,第二文档的拆分标记为第三拆分标记;
如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同,按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分;
如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同,将第一文档中相应的第一拆分标记设置为第一存疑拆分标记,将第三文档中相应的第二拆分标记设置为第二存疑拆分标记;
将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较,如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改该第一存疑拆分标记为第一拆分标记;
如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置,并将该第一存疑拆分标记修改为第一拆分标记;
按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。
进一步的,所述在第一文档中、第三文档、第二文档中设置拆分标记包括:
将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,其中,在待比较文档组中,一个文档为第一待比较文档、另一个为第二待比较文档,第一文档、第三文档、第二文档为第一待比较文档,
获取第一待比较文档和第二待比较文档中段落文字,如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记。
进一步的,所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括:
对除第三文档以外的每篇相近文档进行拆分成多个分文档,将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳;
创建多个分文档文件夹,分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹,其中,已合并文件夹的名称为目标文档名称。
与现有技术相比,本发明所达到的有益效果是:本发明通过分析各个待合并文档的文档名称,从待合并文档中选出相近文档,将相近文档拆分成多个分文档,删除内容相同重复的分文档,减少文档占用的存储空间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于大数据的信息数据存储整合系统的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。
所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档。
所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。
所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。
一种基于大数据的信息数据存储整合方法,所述存储整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理。
所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称。
所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
比如;三个文档名称分别为:“一种项目修改稿”“20200102一种项目”“一种项目初稿”,那么目标文档名称为“一种项目”,相近文档为所有包含“一种项目”的文档;
所述对相近文档进行拆分合并处理包括:
将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,
分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中设置拆分标记,其中,第一文档中的拆分标记为第一拆分标记,第三文档中的拆分标记为第二拆分标记,第二文档的拆分标记为第三拆分标记;
所述在第一文档中、第三文档、第二文档中设置拆分标记包括:
将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,其中,在待比较文档组中,一个文档为第一待比较文档、另一个为第二待比较文档,第一文档、第三文档、第二文档为第一待比较文档,
获取第一待比较文档和第二待比较文档中段落文字,如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记。空白间隔行数可以理解为没有文字的行数,更进一步的,可以设置为存在两个段落的开头文字内容相同且这两个段落位于不同的页面上,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记;
如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同,按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分;
如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同,将第一文档中相应的第一拆分标记设置为第一存疑拆分标记,将第三文档中相应的第二拆分标记设置为第二存疑拆分标记;
将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较,如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改该第一存疑拆分标记为第一拆分标记;
如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置,并将该第一存疑拆分标记修改为第一拆分标记;
按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。
所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括:
对除第三文档以外的每篇相近文档进行拆分成多个分文档,将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳;最后修改时间戳便于对文档进行追溯查询;在比较分文档时,比如,如果排在第一、第二、第三的文档都没有删除,那么排在第四的文档要依次与排在第一、第二、第三的文档进行比较,如果排在第二的文档删除了,排在第四的文档要依次与排在第一、第三的文档进行比较;
创建多个分文档文件夹,分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹,其中,已合并文件夹的名称为目标文档名称。一篇文档拆分后的不同部分的份文档存入不同的分文档文件夹。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;
所述信息数据存储整合系统的整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理;
所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称;
所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547445.1A CN113239252A (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547445.1A CN113239252A (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统 |
CN202011008763.2A CN112100469B (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统及方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008763.2A Division CN112100469B (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239252A true CN113239252A (zh) | 2021-08-10 |
Family
ID=73756494
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110547445.1A Pending CN113239252A (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统 |
CN202011008763.2A Active CN112100469B (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统及方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011008763.2A Active CN112100469B (zh) | 2020-09-23 | 2020-09-23 | 基于大数据的信息数据存储整合系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113239252A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023505A1 (en) * | 2006-09-14 | 2010-01-28 | Nec Corporation | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof |
CN104615768A (zh) * | 2015-02-13 | 2015-05-13 | 广州神马移动信息科技有限公司 | 文档的同本识别方法及装置 |
WO2018003115A1 (ja) * | 2016-07-01 | 2018-01-04 | 株式会社日立製作所 | 分析支援装置、分析支援方法、および分析支援プログラム |
CN108334513A (zh) * | 2017-01-20 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 一种识别相似文本的处理方法、装置及系统 |
CN108491492A (zh) * | 2018-03-15 | 2018-09-04 | 传神语联网网络科技股份有限公司 | 一种文档在线可视化拆分以及自动合并的方法、系统 |
CN109299452A (zh) * | 2018-11-26 | 2019-02-01 | 深圳龙图腾创新设计有限公司 | 一种文档合并方法、装置及设备 |
CN111460098A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本匹配方法、装置及终端设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011128669A (ja) * | 2009-12-15 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置および情報検索プログラム |
CN107766392A (zh) * | 2016-08-22 | 2018-03-06 | 南京中兴软件有限责任公司 | 一种数据处理方法和装置 |
-
2020
- 2020-09-23 CN CN202110547445.1A patent/CN113239252A/zh active Pending
- 2020-09-23 CN CN202011008763.2A patent/CN112100469B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023505A1 (en) * | 2006-09-14 | 2010-01-28 | Nec Corporation | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof |
CN104615768A (zh) * | 2015-02-13 | 2015-05-13 | 广州神马移动信息科技有限公司 | 文档的同本识别方法及装置 |
WO2018003115A1 (ja) * | 2016-07-01 | 2018-01-04 | 株式会社日立製作所 | 分析支援装置、分析支援方法、および分析支援プログラム |
CN108334513A (zh) * | 2017-01-20 | 2018-07-27 | 阿里巴巴集团控股有限公司 | 一种识别相似文本的处理方法、装置及系统 |
CN108491492A (zh) * | 2018-03-15 | 2018-09-04 | 传神语联网网络科技股份有限公司 | 一种文档在线可视化拆分以及自动合并的方法、系统 |
CN109299452A (zh) * | 2018-11-26 | 2019-02-01 | 深圳龙图腾创新设计有限公司 | 一种文档合并方法、装置及设备 |
CN111460098A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本匹配方法、装置及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112100469B (zh) | 2021-07-27 |
CN112100469A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1240011C (zh) | 应用于操作系统的文件分类管理系统及方法 | |
US6865715B2 (en) | Statistical method for extracting, and displaying keywords in forum/message board documents | |
DE69731418T2 (de) | Such- und Wiederauffindungssystem für Dokumente mit Suchverfahren von teilweise passenden, benutzergezeichneten Anmerkungen | |
US20020091700A1 (en) | Unique architecture for handheld computers | |
US20070112841A1 (en) | Device, a program and a system for managing electronic documents | |
US20060041606A1 (en) | Indexing system for a computer file store | |
US20020174095A1 (en) | Very-large-scale automatic categorizer for web content | |
CN101488147B (zh) | 用于信息搜索的设备、系统和方法 | |
WO2000007094A9 (en) | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment | |
DE202015009255U1 (de) | Automatische Bildorganisation | |
CN110232126B (zh) | 热点挖掘方法及服务器和计算机可读存储介质 | |
CN105589894B (zh) | 文档索引建立方法和装置、文档检索方法和装置 | |
Elkasrawi et al. | What you see is what you get? Automatic Image Verification for Online News Content | |
CN113297457A (zh) | 一种高精准性的信息资源智能推送系统及推送方法 | |
CN112100469B (zh) | 基于大数据的信息数据存储整合系统及方法 | |
Tiberio et al. | Selecting signature files for specific applications | |
CN115794745A (zh) | 文件搜索方法、系统、设备及存储介质 | |
US20050203936A1 (en) | Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion | |
CN109902148A (zh) | 一种通讯录联系人的企业名称自动补全的方法 | |
CN115203474A (zh) | 一种数据库自动分类提取技术 | |
US20030187833A1 (en) | Hypermedia resource search engine and related indexing method | |
CN112925755A (zh) | 一种文件系统超长路径智能存储方法及装置 | |
CN113407678A (zh) | 知识图谱构建方法、装置和设备 | |
JPH07120355B2 (ja) | 画像情報記憶検索方法 | |
CN115033680A (zh) | 一种笔记摘引及结构化的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |