CN115422125B - 一种基于智能算法的电子文档自动归档方法与系统 - Google Patents

一种基于智能算法的电子文档自动归档方法与系统 Download PDF

Info

Publication number
CN115422125B
CN115422125B CN202211199213.2A CN202211199213A CN115422125B CN 115422125 B CN115422125 B CN 115422125B CN 202211199213 A CN202211199213 A CN 202211199213A CN 115422125 B CN115422125 B CN 115422125B
Authority
CN
China
Prior art keywords
document
electronic document
keywords
electronic
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211199213.2A
Other languages
English (en)
Other versions
CN115422125A (zh
Inventor
王玲丽
蔡利华
郑望献
周蕾
楼新园
陈平刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Original Assignee
Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xinghan Information Technology Ltd By Share Ltd filed Critical Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority to CN202211199213.2A priority Critical patent/CN115422125B/zh
Publication of CN115422125A publication Critical patent/CN115422125A/zh
Application granted granted Critical
Publication of CN115422125B publication Critical patent/CN115422125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于智能算法的电子文档自动归档方法与系统,属于计算机技术领域,具体包括:基于图像分割算法对电子文档进行分割,获取电子文档的版面结构,确定电子文档的基础文档类型,并基于基础文档类型,构建关键词提取模型,对电子文档的关键词进行提取,并基于关键词对基础文档类型进行修正,确定电子文档的文档类型,并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果;基于匹配结果进行重复文档的识别,当且仅当文档数据库中不存在重复文档时,基于电子文档的关键词对所述电子文档进行自动分档,从而进一步提升了电子文档自动归档的准确性以及效率。

Description

一种基于智能算法的电子文档自动归档方法与系统
技术领域
本发明属于计算机技术领域,具体涉及一种基于智能算法的电子文档自动归档方法与系统。
背景技术
在国内外各个国家,机关文件资料的存储管理都在逐渐实现信息化。自上世纪90年代以来,计算机技术与现代通讯技术的结合,使世界各国的档案工作正朝着数字化、网络化的方向发展。在档案的数字化管理和网络化利用方面,越来越多的国家先后着手推进档案信息化建设。
为了实现对电子文档的自动归档,在中国发明专利公告号CN112733658A《电子文档归档方法及其装置》中通过采用图像分割算法对待归档电子文档的版面进行分析,根据版面结构,对具有关键信息的区域再进行OCR识别,从而实现对电子文档的分类与归目,避免了大量OCR识别导致的资源占用和数据冗余,进一步提高电子文档归档的精度和效率,但是却具有以下技术问题:
1)没有对电子文档的重复性进行检查,从而使得重复性的进行文件的存储,造成了极大的存储空间的浪费,并且造成了不小的经济损失;
2)没有同时结合版本结构和关键字识别结果对电子文档进行自动归档,仅仅采用版面结构或者关键字识别结果进行归档,有很多的版面结构类似的文档其内容和分类差别很大,同时若不能根据电子文档的版面结构,基于特定的关键字提取模型对文字识别结果进行提取和解析,会导致不能准确的对文档的类型进行判断,从而使得分类结果较为混乱,不能满足合理有序的文档管理的需要。
基于上述技术问题,需要设计及一种基于智能算法的电子文档自动归档方法与系统。
发明内容
本发明的目的是提供一种基于智能算法的电子文档自动归档方法与系统。
为了解决上述技术问题,本发明第一方面提供了一种基于智能算法的电子文档自动归档方法,包括:
S100基于图像分割算法对电子文档进行分割,获取所述电子文档的版面结构;
S102基于所述电子文档的版面结构,确定所述电子文档的基础文档类型,并基于所述基础文档类型,构建关键词提取模型;
S104基于所述关键词提取模型,对所述电子文档的关键词进行提取,并基于所述关键词对所述基础文档类型进行修正,确定所述电子文档的文档类型,并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果;
S106基于所述匹配结果进行重复文档的识别,当且仅当所述文档数据库中不存在重复文档时,基于所述电子文档的关键词对所述电子文档进行自动分档。
通过首先对电子文档的版面结构的识别,从而可以得到电子文档的基础文档类型,具体的可以通过映射模型或者机器学习算法实现对基础文档类型的识别和确定,在此基础上,基于基础文档类型,进行关键词提取模型的构建,对于不同的基础文档类型,需要提取的版面结构的区域不相同,同时采用的关键词提取模型也不相同,必须按照自身的基本文档类型进行关键词提取模型的构建,从而解决了原来没有同时结合版本结构和关键字识别结果对电子文档进行自动归档的技术问题,使得分档结果变得更加的准确,与此同时,通过提取得到的关键词,从而可以更加明确文档类型,对基础文档类型进行修正得到文档类型,再对相同文档类型的历史电子文档进行重复查询,在不存在重复时,再进行自动分档,从而解决了原来的没有考虑重复的技术问题,进一步提升了存储的利用率,提升了经济效益。
通过基于基本文档类型进行关键词提取模型的构建,从而使得对于关键词的提取更加准确,能够更加准确的对需要提取的版面结构的关键词的提取,同时结合基本文档类型,也使得对于关键词本身的提取结合基本文档类型领域的要求,提升了关键词提取的准确率和全面性,进一步保证了最终的自动分档结果的准确性。
通过对基本文档类型的修正,从而可以全面考虑关键词和版面结构两方面的因素,实现对文档类型的确认,在此基础上再进行文档的自动分档,提升了文档类型确认的可靠性,也使得自动分档的结果变得更加的准确。
通过对重复电子文档的查询,从而避免了重复的电子文档的存储,极大的节约了存储空间,同时也具有较好的经济效益,也兼顾了文档管理的有序性和可靠性。
进一步的技术方案在于,所述图像分割算法采用U-Net图像分割算法。
进一步的技术方案在于,确定所述电子文档的文档类型的具体步骤为:
S200提取所述电子文档的版面结构,建立基于版面结构与所述基本文档类型的映射关系;
S202基于所述电子文档的版面结构与所述映射关系得到所述电子文档的基础文档类型,并提取所述电子文档的关键词;
S204将所述电子文档的关键词送入到基于机器学习算法的预测模型中,得到疑似文档类型;
S206基于所述疑似文档类型与所述基础文档类型确认所述电子文档的文档类型。
进一步的技术方案在于,所述机器学习算法采用BP神经网络算法,所述BP神经网络算法的隐含层数量的计算公式为:
Figure BDA0003871798530000031
其中M、N分别为输入层和输出层节点数,K1、K2、a为常数,t1、P1分别根据模型对于时效的要求确定的权值以及根据误差的要求确定的权值,取值范围均在1到2之间,其中误差要求越大,P1越大,时效要求越高,t1越小。
通过基于模型对于时效的要求以及误差的要求对隐含层的数量进行确定,从而可以与实际的应用场合相结合,从而可以同时兼顾时效和误差的要求,进一步保证了模型的稳定性和效率。
进一步的技术方案在于,提取关键词的具体步骤为:
S300基于所述基本文档类型和版面结构,确定所述电子文档需要进行OCR识别的版面结构,并采用基于OCR识别算法对所述版面结构进行识别,得到文字识别结果;
S302采用基于TF-IDF算法对所述文字识别结果进行提取得到初始关键词;
S304基于所述基本文档类型,基于所述基本文档类型领域的专家算法对所述初始关键词进行二次筛选,并基于所述二次筛选结果提取得到关键词。
通过基于基本文档类型实现对版面结构的筛选以及对于关键词的二次筛选,提升了关键词提取的全面性和专业性,使得关键词提取的结果能够更加准确的反应实际的电子文档的具体情况。
进一步的技术方案在于,当所述初始关键词数量小于第一阈值时,则不再对所述初始关键词进行二次筛选,同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词,基于所述初始关键词与所述叠加关键词去重后提取得到关键词。
通过两者去重,从而使得得到的关键词数量能够维持在一定的数量之上,同样保证了在重复率识别时的准确性和筛选的有效性,提升了在电子文档重复率识别的效率。
进一步的技术方案在于,进行重复文档的识别的具体步骤为:
S400基于所述电子文档的页数,得到所述文档数据库中的文档类型相同且页数相同的历史疑似电子文档;
S401基于所述电子文档的字数,判断是否存在与所述电子文档的字数相同的历史疑似电子文档,若是,则将与所述电子文档的字数相同的历史疑似电子文档作为类似电子文档,并进入步骤S402,若否,则输出文档数据库中不存在重复文档;
S402基于所述电子文档的关键词,判断是否存在与所述电子文档的关键词的匹配度大于第一匹配阈值的类似电子文档,若是,则将所述匹配度大于第一匹配阈值的类似电子文档作为高度接近电子文档,并进入步骤S404,若否,则输出文档数据库中不存在重复文档;
S404对所述电子文档进行全文OCR识别得到识别结果,并基于所述识别结果与所述高度接近电子文档的文字进行匹配得到OCR全文匹配结果,并根据所述OCR全文匹配结果进行重复文档的识别。
通过首先基于页数、字数对电子文档进行重复性识别,在不进行较为复杂的匹配的基础上,首先将历史电子书文档的数量降低了不少,因此提升了重复文档识别的效率,再次基础上,再根据关键词识别的结果确定是否进行全文OCR识别,从而不仅使得重复性识别的过程具有较高的效率,也具有很好的准确性。
进一步的技术方案在于,所述第一匹配阈值的计算公式为:
Figure BDA0003871798530000041
其中K3、K4为常数,Y1为基础的匹配阈值,I、S分别为根据所述电子文档的重要性确定的权值、类似电子文档的数量,其中电子文档的重要性越大,电子文档的重要性确定的权值越大,取值范围在1到2之间。
通过基于电子文档的重要性以及类似电子文档的数量,从而使得第一匹配阈值能够自适应的进行调节,从而极大的提升了重要文档的识别的准确性和可靠性。
进一步的技术方案在于,还包括题目名词关键词匹配,当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时,再进行全文OCR识别。
由于题目名词关键词往往是反应最为核心的东西,当不一致时,则文档必定不属于重复文档,因此进一步保证了重复性识别的效率。
另一方面,本发明提供了一种基于智能算法的电子文档自动归档系统,采用上述的电子文档自动归档方法,包括版面结构分割模块,关键词提取模块,文档类型确定模块,重复文档识别模块,自动分档模块;
其中所述版面结构分割模块负责基于图像分割算法对电子文档进行分割,获取电子文档的版面结构;
所述关键词提取模块负责对所述电子文档的关键词进行提取;
所述文档类型确定模块负责确定所述电子文档的文档类型;
所述重复文档识别模块负责进行重复文档的识别;
所述自动分档模块负责对所述电子文档进行自动分档。
其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1是根据实施例1的一种基于智能算法的电子文档自动归档方法的流程图;
图2是实施例1中的确定所述电子文档的文档类型的具体步骤的流程图;
图3是实施例1中的提取关键词的具体步骤的流程图;
图4是实施例1中的进行重复文档的识别的具体步骤的流程图;
图5是实施例2中的一种基于智能算法的电子文档自动归档系统的框架图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
实施例1
为解决上述问题,根据本发明的一个方面,如图1所示,提供了一种基于智能算法的电子文档自动归档方法,包括:
S100基于图像分割算法对电子文档进行分割,获取所述电子文档的版面结构;
具体的举个例子,版面结构包括版面的数量、先后顺序、版面的大小等。
S102基于所述电子文档的版面结构,确定所述电子文档的基础文档类型,并基于所述基础文档类型,构建关键词提取模型;
具体的举个例子,基础文档类型可以为论文、公文文件、邮件等大类的版面结构。
S104基于所述关键词提取模型,对所述电子文档的关键词进行提取,并基于所述关键词对所述基础文档类型进行修正,确定所述电子文档的文档类型,并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果;
具体的举个例子,例如关键词为关于、通知,说明是一种通知类的公文文件。
S106基于所述匹配结果进行重复文档的识别,当且仅当所述文档数据库中不存在重复文档时,基于所述电子文档的关键词对所述电子文档进行自动分档。
通过首先对电子文档的版面结构的识别,从而可以得到电子文档的基础文档类型,具体的可以通过映射模型或者机器学习算法实现对基础文档类型的识别和确定,在此基础上,基于基础文档类型,进行关键词提取模型的构建,对于不同的基础文档类型,需要提取的版面结构的区域不相同,同时采用的关键词提取模型也不相同,必须按照自身的基本文档类型进行关键词提取模型的构建,从而解决了原来没有同时结合版本结构和关键字识别结果对电子文档进行自动归档的技术问题,使得分档结果变得更加的准确,与此同时,通过提取得到的关键词,从而可以更加明确文档类型,对基础文档类型进行修正得到文档类型,再对相同文档类型的历史电子文档进行重复查询,在不存在重复时,再进行自动分档,从而解决了原来的没有考虑重复的技术问题,进一步提升了存储的利用率,提升了经济效益。
通过基于基本文档类型进行关键词提取模型的构建,从而使得对于关键词的提取更加准确,能够更加准确的对需要提取的版面结构的关键词的提取,同时结合基本文档类型,也使得对于关键词本身的提取结合基本文档类型领域的要求,提升了关键词提取的准确率和全面性,进一步保证了最终的自动分档结果的准确性。
通过对基本文档类型的修正,从而可以全面考虑关键词和版面结构两方面的因素,实现对文档类型的确认,在此基础上再进行文档的自动分档,提升了文档类型确认的可靠性,也使得自动分档的结果变得更加的准确。
通过对重复电子文档的查询,从而避免了重复的电子文档的存储,极大的节约了存储空间,同时也具有较好的经济效益,也兼顾了文档管理的有序性和可靠性。
在另外一种可能的实施例中,所述图像分割算法采用U-Net图像分割算法。
在另外一种可能的实施例中,如图2所示,确定所述电子文档的文档类型的具体步骤为:
S200提取所述电子文档的版面结构,建立基于版面结构与所述基本文档类型的映射关系;
S202基于所述电子文档的版面结构与所述映射关系得到所述电子文档的基础文档类型,并提取所述电子文档的关键词;
S204将所述电子文档的关键词送入到基于机器学习算法的预测模型中,得到疑似文档类型;
S206基于所述疑似文档类型与所述基础文档类型确认所述电子文档的文档类型。
在另外一种可能的实施例中,所述机器学习算法采用BP神经网络算法,所述BP神经网络算法的隐含层数量的计算公式为:
Figure BDA0003871798530000071
其中M、N分别为输入层和输出层节点数,K1、K2、a为常数,t1、P1分别根据模型对于时效的要求确定的权值以及根据误差的要求确定的权值,取值范围均在1到2之间,其中误差要求越大,P1越大,时效要求越高,t1越小。
通过基于模型对于时效的要求以及误差的要求对隐含层的数量进行确定,从而可以与实际的应用场合相结合,从而可以同时兼顾时效和误差的要求,进一步保证了模型的稳定性和效率。
在另外一种可能的实施例中,如图3所示,提取关键词的具体步骤为:
S300基于所述基本文档类型和版面结构,确定所述电子文档需要进行OCR识别的版面结构,并采用基于OCR识别算法对所述版面结构进行识别,得到文字识别结果;
S302采用基于TF-IDF算法对所述文字识别结果进行提取得到初始关键词;
S304基于所述基本文档类型,基于所述基本文档类型领域的专家算法对所述初始关键词进行二次筛选,并基于所述二次筛选结果提取得到关键词。
通过基于基本文档类型实现对版面结构的筛选以及对于关键词的二次筛选,提升了关键词提取的全面性和专业性,使得关键词提取的结果能够更加准确的反应实际的电子文档的具体情况。
在另外一种可能的实施例中,当所述初始关键词数量小于第一阈值时,则不再对所述初始关键词进行二次筛选,同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词,基于所述初始关键词与所述叠加关键词去重后提取得到关键词。
通过两者去重,从而使得得到的关键词数量能够维持在一定的数量之上,同样保证了在重复率识别时的准确性和筛选的有效性,提升了在电子文档重复率识别的效率。
在另外一种可能的实施例中,如图4所示,进行重复文档的识别的具体步骤为:
S400基于所述电子文档的页数,得到所述文档数据库中的文档类型相同且页数相同的历史疑似电子文档;
S401基于所述电子文档的字数,判断是否存在与所述电子文档的字数相同的历史疑似电子文档,若是,则将与所述电子文档的字数相同的历史疑似电子文档作为类似电子文档,并进入步骤S402,若否,则输出文档数据库中不存在重复文档;
S402基于所述电子文档的关键词,判断是否存在与所述电子文档的关键词的匹配度大于第一匹配阈值的类似电子文档,若是,则将所述匹配度大于第一匹配阈值的类似电子文档作为高度接近电子文档,并进入步骤S404,若否,则输出文档数据库中不存在重复文档;
S404对所述电子文档进行全文OCR识别得到识别结果,并基于所述识别结果与所述高度接近电子文档的文字进行匹配得到OCR全文匹配结果,并根据所述OCR全文匹配结果进行重复文档的识别。
通过首先基于页数、字数对电子文档进行重复性识别,在不进行较为复杂的匹配的基础上,首先将历史电子书文档的数量降低了不少,因此提升了重复文档识别的效率,再次基础上,再根据关键词识别的结果确定是否进行全文OCR识别,从而不仅使得重复性识别的过程具有较高的效率,也具有很好的准确性。
进一步的技术方案在于,所述第一匹配阈值的计算公式为:
Figure BDA0003871798530000091
其中K3、K4为常数,Y1为基础的匹配阈值,I、S分别为根据所述电子文档的重要性确定的权值、类似电子文档的数量,其中电子文档的重要性越大,电子文档的重要性确定的权值越大,取值范围在1到2之间。
通过基于电子文档的重要性以及类似电子文档的数量,从而使得第一匹配阈值能够自适应的进行调节,从而极大的提升了重要文档的识别的准确性和可靠性。
在另外一种可能的实施例中,还包括题目名词关键词匹配,当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时,再进行全文OCR识别。
由于题目名词关键词往往是反应最为核心的东西,当不一致时,则文档必定不属于重复文档,因此进一步保证了重复性识别的效率。
实施例2
如图5所示,本申请实施例中提供一种基于智能算法的电子文档自动归档系统,采用上述的电子文档自动归档方法,包括版面结构分割模块,关键词提取模块,文档类型确定模块,重复文档识别模块,自动分档模块;
其中所述版面结构分割模块负责基于图像分割算法对电子文档进行分割,获取电子文档的版面结构;
所述关键词提取模块负责对所述电子文档的关键词进行提取;
所述文档类型确定模块负责确定所述电子文档的文档类型;
所述重复文档识别模块负责进行重复文档的识别;
所述自动分档模块负责对所述电子文档进行自动分档。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (9)

1.一种基于智能算法的电子文档自动归档方法,其特征在于,具体包括:
S100基于图像分割算法对电子文档进行分割,获取所述电子文档的版面结构;
S102基于所述电子文档的版面结构,确定所述电子文档的基础文档类型,并基于所述基础文档类型,构建关键词提取模型;
S104基于所述关键词提取模型,对所述电子文档的关键词进行提取,并基于所述关键词对所述基础文档类型进行修正,确定所述电子文档的文档类型,并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果;
S106基于所述匹配结果进行重复文档的识别,当且仅当所述文档数据库中不存在重复文档时,基于所述电子文档的关键词对所述电子文档进行自动分档;
确定所述电子文档的文档类型的具体步骤为:
S200 提取所述电子文档的版面结构,建立基于版面结构与所述基础文档类型的映射关系;
S202 基于所述电子文档的版面结构与所述映射关系得到所述电子文档的基础文档类型,并提取所述电子文档的关键词;
S204 将所述电子文档的关键词送入到基于机器学习算法的预测模型中得到疑似文档类型;
S206 基于所述疑似文档类型与所述基础文档类型确认所述电子文档的文档类型。
2.如权利要求 1所述的电子文档自动归档方法,其特征在于,所述图像分割算法采用U-Net 图像分割。
3.如权利要求1所述的电子文档自动归档方法,其特征在于,所述机器学习算法采用BP神经网络算法,所述BP神经网络算法的隐含层数量的计算公式为:
Figure QLYQS_1
其中M、N分别为输入层和输出层节点数,K1、K2、a为常数,t1、P1分别根据模型对于时效的要求确定的权值以及根据误差的要求确定的权值,取值范围均在1到2之间,其中误差要求越大,P1越大,时效要求越高,t1越小。
4.如权利要求1所述的电子文档自动归档方法,其特征在于,提取关键词的具体步骤为:
S300基于所述基础文档类型和版面结构,确定所述电子文档需要进行OCR识别的版面结构,并采用基于OCR识别算法对所述版面结构进行识别,得到文字识别结果;
S302采用基于TF-IDF算法对所述文字识别结果进行提取得到初始关键词;
S304基于所述基础文档类型,基于基础文档类型领域的专家算法对所述初始关键词进行二次筛选,并基于所述二次筛选结果提取得到关键词。
5.如权利要求4所述的电子文档自动归档方法,其特征在于,当所述初始关键词数量小于第一阈值时,则不再对所述初始关键词进行二次筛选,同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词,基于所述初始关键词与所述叠加关键词去重后提取得到关键词。
6.如权利要求1所述的电子文档自动归档方法,其特征在于,进行重复文档的识别的具体步骤为:
S400基于所述电子文档的页数,得到所述文档数据库中的文档类型相同且页数相同的历史疑似电子文档;
S401基于所述电子文档的字数,判断是否存在与所述电子文档的字数相同的历史疑似电子文档,若是,则将与所述电子文档的字数相同的历史疑似电子文档作为类似电子文档,并进入步骤S402,若否,则输出文档数据库中不存在重复文档;
S402基于所述电子文档的关键词,判断是否存在与所述电子文档的关键词的匹配度大于第一匹配阈值的类似电子文档,若是,则将所述匹配度大于第一匹配阈值的类似电子文档作为高度接近电子文档,并进入步骤S404,若否,则输出文档数据库中不存在重复文档;
S404对所述电子文档进行全文OCR识别得到识别结果,并基于所述识别结果与所述高度接近电子文档的文字进行匹配得到OCR全文匹配结果,并根据所述OCR全文匹配结果进行重复文档的识别。
7.如权利要求6所述的电子文档自动归档方法,其特征在于,所述第一匹配阈值的计算公式为:
Figure QLYQS_2
其中K3、K4为常数,Y1为基础的匹配阈值,I、S分别为根据所述电子文档的重要性确定的权值、类似电子文档的数量,其中电子文档的重要性越大,电子文档的重要性确定的权值越大,取值范围在1到2之间。
8.如权利要求1所述的电子文档自动归档方法,其特征在于,还包括题目名词关键词匹配,当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时,再进行全文OCR识别。
9.一种基于智能算法的电子文档自动归档系统,采用权利要求1-8任意一项所述的电子文档自动归档方法,包括版面结构分割模块,关键词提取模块,文档类型确定模块,重复文档识别模块,自动分档模块;
其中所述版面结构分割模块负责基于图像分割算法对电子文档进行分割,获取电子文档的版面结构;
所述关键词提取模块负责对所述电子文档的关键词进行提取;
所述文档类型确定模块负责确定所述电子文档的文档类型;
所述重复文档识别模块负责进行重复文档的识别;
所述自动分档模块负责对所述电子文档进行自动分档。
CN202211199213.2A 2022-09-29 2022-09-29 一种基于智能算法的电子文档自动归档方法与系统 Active CN115422125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211199213.2A CN115422125B (zh) 2022-09-29 2022-09-29 一种基于智能算法的电子文档自动归档方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211199213.2A CN115422125B (zh) 2022-09-29 2022-09-29 一种基于智能算法的电子文档自动归档方法与系统

Publications (2)

Publication Number Publication Date
CN115422125A CN115422125A (zh) 2022-12-02
CN115422125B true CN115422125B (zh) 2023-05-19

Family

ID=84206404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211199213.2A Active CN115422125B (zh) 2022-09-29 2022-09-29 一种基于智能算法的电子文档自动归档方法与系统

Country Status (1)

Country Link
CN (1) CN115422125B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503889B (zh) * 2023-01-18 2024-01-19 苏州工业园区航星信息技术服务有限公司 档案及电子文件的处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684272A (zh) * 2018-12-29 2019-04-26 国家电网有限公司 文档保存方法、系统及终端设备
CN112818275A (zh) * 2021-04-16 2021-05-18 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理系统
CN113516041A (zh) * 2021-05-14 2021-10-19 西北民族大学 一种藏文古籍文档图像版面分割、识别方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095320B (zh) * 2014-05-23 2019-04-19 邓寅生 基于关系叠加组合的文档的标识、关联、搜索及展现的系统
CN107992633B (zh) * 2018-01-09 2021-07-27 国网福建省电力有限公司 基于关键词特征的电子文档自动分类方法及系统
CN109635084B (zh) * 2018-11-30 2020-11-24 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN112733658B (zh) * 2020-12-31 2022-11-25 北京华宇信息技术有限公司 电子文档归档方法及其装置
CN113361247A (zh) * 2021-06-23 2021-09-07 北京百度网讯科技有限公司 文档版面分析方法、模型训练方法、装置和设备
CN113449698A (zh) * 2021-08-30 2021-09-28 湖南文盾信息技术有限公司 纸质文档的自动化录入方法、系统、装置及存储介质
CN115116082B (zh) * 2022-03-04 2023-09-01 杭州京胜航星科技有限公司 一种基于ocr识别算法的一键成档系统
CN114664400A (zh) * 2022-03-18 2022-06-24 浙江星汉信息技术股份有限公司 病历档案归档方法及装置
CN115048515A (zh) * 2022-06-09 2022-09-13 广西力意智能科技有限公司 文档分类方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684272A (zh) * 2018-12-29 2019-04-26 国家电网有限公司 文档保存方法、系统及终端设备
CN112818275A (zh) * 2021-04-16 2021-05-18 泰德网聚(北京)科技股份有限公司 一种基于音视频的图文资源管理系统
CN113516041A (zh) * 2021-05-14 2021-10-19 西北民族大学 一种藏文古籍文档图像版面分割、识别方法及系统

Also Published As

Publication number Publication date
CN115422125A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
US10346257B2 (en) Method and device for deduplicating web page
US9633257B2 (en) Method and system of pre-analysis and automated classification of documents
CN101467145B (zh) 用于自动注释图像的方法和装置
US10789281B2 (en) Regularities and trends discovery in a flow of business documents
US7937338B2 (en) System and method for identifying document structure and associated metainformation
AU2015203150A1 (en) System and method for data extraction and searching
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
US9141853B1 (en) System and method for extracting information from documents
US8838657B1 (en) Document fingerprints using block encoding of text
US20120278705A1 (en) System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents
US20080140653A1 (en) Identifying Relationships Among Database Records
CN112132710B (zh) 法律要素处理方法、装置、电子设备及存储介质
CN115422125B (zh) 一种基于智能算法的电子文档自动归档方法与系统
US20100082625A1 (en) Method for merging document clusters
US20230081737A1 (en) Determining data categorizations based on an ontology and a machine-learning model
CN115934926A (zh) 信息提取方法、装置、计算机设备、存储介质
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN116052199A (zh) 一种基于ai的工程施工档案文件电子化方法及装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN115438147A (zh) 面向轨道交通领域的信息检索方法及系统
CN114495138A (zh) 一种智能文档识别与特征提取方法、装置平台和存储介质
JP4895988B2 (ja) 文書分類装置の余分構造減退方法
Banerjee et al. Automatic Creation of Hyperlinks in AEC Documents by Extracting the Sheet Numbers Using LSTM Model
CN112948574A (zh) 批量文件上传分类的系统及方法
CN112785464B (zh) 一种诉讼文件的整理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant