CN113239252A - 基于大数据的信息数据存储整合系统 - Google Patents

基于大数据的信息数据存储整合系统 Download PDF

Info

Publication number
CN113239252A
CN113239252A CN202110547445.1A CN202110547445A CN113239252A CN 113239252 A CN113239252 A CN 113239252A CN 202110547445 A CN202110547445 A CN 202110547445A CN 113239252 A CN113239252 A CN 113239252A
Authority
CN
China
Prior art keywords
document
name
documents
comparison
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110547445.1A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pan Qianwen
Original Assignee
Pan Qianwen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pan Qianwen filed Critical Pan Qianwen
Priority to CN202110547445.1A priority Critical patent/CN113239252A/zh
Publication of CN113239252A publication Critical patent/CN113239252A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。

Description

基于大数据的信息数据存储整合系统
技术领域
本发明涉及大数据技术领域,具体为一种基于大数据的信息数据存储整合系统。
背景技术
随着计算机领域的快速发展,出现了电子文档。电子文档是指人们在社会活动中形成的,以计算机盘片、固态硬盘、磁盘和光盘等化学磁性物理材料为载体的文字、图片材料。依赖计算机系统存取并可在通信网络上传输。由于电子文档的易保存性和易复制性,电子文档也逐渐代替了传统的纸质文档。
在工作开展中,会产生大量的电子文档,如果不及时整理这些电子文档,会占用计算机的存储空间,导致存储空间的浪费。目前主要通过人工操作整理文档,但是人工操作十分麻烦,费时费力,而且还容易在整理的时候出错误,无法提高工作效率。
发明内容
本发明的目的在于提供一种基于大数据的信息数据存储整合系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。
进一步的,所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档。
进一步的,所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。
进一步的,所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。
一种基于大数据的信息数据存储整合方法,所述存储整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理。
进一步的,所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称。
进一步的,所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
进一步的,所述对相近文档进行拆分合并处理包括:
将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,
分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中设置拆分标记,其中,第一文档中的拆分标记为第一拆分标记,第三文档中的拆分标记为第二拆分标记,第二文档的拆分标记为第三拆分标记;
如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同,按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分;
如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同,将第一文档中相应的第一拆分标记设置为第一存疑拆分标记,将第三文档中相应的第二拆分标记设置为第二存疑拆分标记;
将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较,如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改该第一存疑拆分标记为第一拆分标记;
如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置,并将该第一存疑拆分标记修改为第一拆分标记;
按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。
进一步的,所述在第一文档中、第三文档、第二文档中设置拆分标记包括:
将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,其中,在待比较文档组中,一个文档为第一待比较文档、另一个为第二待比较文档,第一文档、第三文档、第二文档为第一待比较文档,
获取第一待比较文档和第二待比较文档中段落文字,如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记。
进一步的,所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括:
对除第三文档以外的每篇相近文档进行拆分成多个分文档,将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳;
创建多个分文档文件夹,分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹,其中,已合并文件夹的名称为目标文档名称。
与现有技术相比,本发明所达到的有益效果是:本发明通过分析各个待合并文档的文档名称,从待合并文档中选出相近文档,将相近文档拆分成多个分文档,删除内容相同重复的分文档,减少文档占用的存储空间。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于大数据的信息数据存储整合系统的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供技术方案:一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。
所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档。
所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中分别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。
所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。
一种基于大数据的信息数据存储整合方法,所述存储整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理。
所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称。
所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
比如;三个文档名称分别为:“一种项目修改稿”“20200102一种项目”“一种项目初稿”,那么目标文档名称为“一种项目”,相近文档为所有包含“一种项目”的文档;
所述对相近文档进行拆分合并处理包括:
将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第四文档,
分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中设置拆分标记,其中,第一文档中的拆分标记为第一拆分标记,第三文档中的拆分标记为第二拆分标记,第二文档的拆分标记为第三拆分标记;
所述在第一文档中、第三文档、第二文档中设置拆分标记包括:
将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,其中,在待比较文档组中,一个文档为第一待比较文档、另一个为第二待比较文档,第一文档、第三文档、第二文档为第一待比较文档,
获取第一待比较文档和第二待比较文档中段落文字,如果第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记。空白间隔行数可以理解为没有文字的行数,更进一步的,可以设置为存在两个段落的开头文字内容相同且这两个段落位于不同的页面上,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值,那么在位于后面的段落开头前设置拆分标记;
如果第一文档中各个第一拆分标记在第一文档中的位置与第四文档中各个第二拆分标记在第四文档中的位置均相同,按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分;
如果第一文档中存在第一拆分标记在第一文档中的位置与第三文档中相应的第二拆分标记在第三文档中的位置不相同,将第一文档中相应的第一拆分标记设置为第一存疑拆分标记,将第三文档中相应的第二拆分标记设置为第二存疑拆分标记;
将第一文档中的第一存疑拆分标记、第三文档中的第二存疑拆分标记与第二文档中相对应的第三拆分标记进行比较,如果第一文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改该第一存疑拆分标记为第一拆分标记;
如果第三文档中的第一存疑拆分标记的位置与第二文档中相对应的第三拆分标记的位置相同,修改第一文档中相应的第一存疑拆分标记的位置为第二存疑拆分标记在第三文档中的位置,并将该第一存疑拆分标记修改为第一拆分标记;
按照第一拆分标记在第一文档中的位置对各个相近文档进行拆分。
所述按照第一拆分标记在第一文档中的位置对相近文档进行拆分后还包括:
对除第三文档以外的每篇相近文档进行拆分成多个分文档,将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳;最后修改时间戳便于对文档进行追溯查询;在比较分文档时,比如,如果排在第一、第二、第三的文档都没有删除,那么排在第四的文档要依次与排在第一、第二、第三的文档进行比较,如果排在第二的文档删除了,排在第四的文档要依次与排在第一、第三的文档进行比较;
创建多个分文档文件夹,分文档文件夹的个数与每篇相近文档拆分出的分文档个数相等,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹,其中,已合并文件夹的名称为目标文档名称。一篇文档拆分后的不同部分的份文档存入不同的分文档文件夹。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理;
所述信息数据存储整合系统的整合方法包括以下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理;
所述从待合并文档中筛选出疑似相近文档包括:
获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档;
比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,如果该对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档;
如果该对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称;
所述从疑似相近文档中筛选出相近文档包括:
从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,比较这三个文档名称,
所述比较这三个文档名称包括:
从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,
如果候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,那么该候选文档名称为目标文档名称,将各个疑似相近文档的文档名称与目标文档名称进行比较,如果某个疑似相近文档的文档名称中包含目标文档名称,那么该疑似相近文档为目标文档名称的相近文档;
否则,重新在各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称,比较这三个文档名称。
CN202110547445.1A 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统 Pending CN113239252A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110547445.1A CN113239252A (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110547445.1A CN113239252A (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统
CN202011008763.2A CN112100469B (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统及方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202011008763.2A Division CN112100469B (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统及方法

Publications (1)

Publication Number Publication Date
CN113239252A true CN113239252A (zh) 2021-08-10

Family

ID=73756494

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110547445.1A Pending CN113239252A (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统
CN202011008763.2A Active CN112100469B (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统及方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202011008763.2A Active CN112100469B (zh) 2020-09-23 2020-09-23 基于大数据的信息数据存储整合系统及方法

Country Status (1)

Country Link
CN (2) CN113239252A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023505A1 (en) * 2006-09-14 2010-01-28 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
WO2018003115A1 (ja) * 2016-07-01 2018-01-04 株式会社日立製作所 分析支援装置、分析支援方法、および分析支援プログラム
CN108334513A (zh) * 2017-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种识别相似文本的处理方法、装置及系统
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109299452A (zh) * 2018-11-26 2019-02-01 深圳龙图腾创新设计有限公司 一种文档合并方法、装置及设备
CN111460098A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 文本匹配方法、装置及终端设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011128669A (ja) * 2009-12-15 2011-06-30 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置および情報検索プログラム
CN107766392A (zh) * 2016-08-22 2018-03-06 南京中兴软件有限责任公司 一种数据处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100023505A1 (en) * 2006-09-14 2010-01-28 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN104615768A (zh) * 2015-02-13 2015-05-13 广州神马移动信息科技有限公司 文档的同本识别方法及装置
WO2018003115A1 (ja) * 2016-07-01 2018-01-04 株式会社日立製作所 分析支援装置、分析支援方法、および分析支援プログラム
CN108334513A (zh) * 2017-01-20 2018-07-27 阿里巴巴集团控股有限公司 一种识别相似文本的处理方法、装置及系统
CN108491492A (zh) * 2018-03-15 2018-09-04 传神语联网网络科技股份有限公司 一种文档在线可视化拆分以及自动合并的方法、系统
CN109299452A (zh) * 2018-11-26 2019-02-01 深圳龙图腾创新设计有限公司 一种文档合并方法、装置及设备
CN111460098A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 文本匹配方法、装置及终端设备

Also Published As

Publication number Publication date
CN112100469B (zh) 2021-07-27
CN112100469A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN1240011C (zh) 应用于操作系统的文件分类管理系统及方法
US6865715B2 (en) Statistical method for extracting, and displaying keywords in forum/message board documents
DE69731418T2 (de) Such- und Wiederauffindungssystem für Dokumente mit Suchverfahren von teilweise passenden, benutzergezeichneten Anmerkungen
US20020091700A1 (en) Unique architecture for handheld computers
US20070112841A1 (en) Device, a program and a system for managing electronic documents
US20060041606A1 (en) Indexing system for a computer file store
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
CN101488147B (zh) 用于信息搜索的设备、系统和方法
WO2000007094A9 (en) Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment
DE202015009255U1 (de) Automatische Bildorganisation
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
Elkasrawi et al. What you see is what you get? Automatic Image Verification for Online News Content
CN113297457A (zh) 一种高精准性的信息资源智能推送系统及推送方法
CN112100469B (zh) 基于大数据的信息数据存储整合系统及方法
Tiberio et al. Selecting signature files for specific applications
CN115794745A (zh) 文件搜索方法、系统、设备及存储介质
US20050203936A1 (en) Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion
CN109902148A (zh) 一种通讯录联系人的企业名称自动补全的方法
CN115203474A (zh) 一种数据库自动分类提取技术
US20030187833A1 (en) Hypermedia resource search engine and related indexing method
CN112925755A (zh) 一种文件系统超长路径智能存储方法及装置
CN113407678A (zh) 知识图谱构建方法、装置和设备
JPH07120355B2 (ja) 画像情報記憶検索方法
CN115033680A (zh) 一种笔记摘引及结构化的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination