CN113449698A - 纸质文档的自动化录入方法、系统、装置及存储介质 - Google Patents

纸质文档的自动化录入方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN113449698A
CN113449698A CN202110999809.XA CN202110999809A CN113449698A CN 113449698 A CN113449698 A CN 113449698A CN 202110999809 A CN202110999809 A CN 202110999809A CN 113449698 A CN113449698 A CN 113449698A
Authority
CN
China
Prior art keywords
data
target image
archive
document
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110999809.XA
Other languages
English (en)
Inventor
任江春
徐奇
胡润
田荣
张妲
任双春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Wendun Information Technology Co ltd
Original Assignee
Hunan Wendun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Wendun Information Technology Co ltd filed Critical Hunan Wendun Information Technology Co ltd
Priority to CN202110999809.XA priority Critical patent/CN113449698A/zh
Publication of CN113449698A publication Critical patent/CN113449698A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种纸质文档的自动化录入方法、系统、装置及存储介质,其中纸质文档的自动化录入系统包括:RPA机器人、OCR识别模块、数据分类模块、模型匹配模块和数据录入模块。本发明公开的技术方案将RPA技术和OCR技术结合起来,使纸质文档录入过程不需要人工干预,极大提高了文档的录入效率,同时也降低了人工操作的错误率,给政府和企业管理、利用纸质文档带来了极大的便利。

Description

纸质文档的自动化录入方法、系统、装置及存储介质
技术领域
本发明涉及档案自动化管理技术领域,具体涉及一种纸质文档的自动化录入方法、系统、装置及存储介质。
背景技术
随着“互联网+”时代信息技术的迅速发展和应用,档案管理工作也呈现出新的发展态势,积极推进数字档案建设成为国家各部门以及企业的重要发展规划。
然而,在实际工作中,由于历史原因或工作条件的限制,政府部门和企业依然存在大量重要的纸质文档,需要对这些纸质文档资源进行数字化加工、存储和应用。目前,纸质文档的录入工作主要依靠档案管理人员手动录入,大量的人工操作不仅非常耗时、效率低下,而且由于长时间的重复操作,管理员在录入过程中容易出现错误,这为纸质文档的有效利用带来了限制。
发明内容
本发明的目的在于提供一种纸质文档的自动化录入方法及管理系统,以解决人工录入档案时存在的低效、易失误的问题。
为了实现上述目的,第一方面,本发明提供了一种纸质文档的自动化录入方法,包括如下步骤:
获取纸质文档的目标图像;
识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据,所述文字数据包括文字特征数据和正文文字数据;
根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
根据目标图像的属性标签匹配预设的实体文档模型;
将文字数据录入选定的实体文档模型,生成结构化文档数据;
存储所述结构化文档数据。
在一些可能的实施例中,将文字数据录入选定的实体文档模型后,对生成的结构化档案数据进行校审;
若校审结果合格,则存储所述结构化档案数据;
若校审结果不合格,则从步骤“识别目标图像以获取相应的内容数据”开始循环;如果循环第N次后,校审结果仍不合格,转由人工校审。
在一些可能的实施例中,根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签,包括:
预设文档属性标签数据集,其中包括不同类型文档的版面特征数据、以及与版面特征数据相对应的第一类属性标签;
用从目标图像中获取的版面特征数据,匹配预设文档属性标签数据集中的版面特征数据;将匹配到的版面特征数据所对应的第一类属性标签设为目标图像的第一类属性标签。
在一些可能的实施例中,预设文档属性标签数据集,其中还包括:文字特征数据以及与文字特征数据相对应的第二类属性标签;第二类属性标签对应唯一的第一类属性标签;
对从目标图像中获取的标题文字数据进行语义解析,用语义解析的结果匹配预设文档属性标签数据集中的文字特征数据;将匹配到的文字特征数据所对应的第二类属性标签设为目标图像的第二类属性标签;
若同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系,则完成对目标图像分类标记;
若同一目标图像的第二类属性标签和第一类属性标签不满足预设的对应关系,则输出报错内容后,又从新开始分类标记步骤,直至同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系。
在一些可能的实施例中,预设实体文档模型集合中,每一个实体文档模型对应一个预设子集,所述预设子集里面包括该实体文档模型的若干预设结构表征数据;
将文字数据录入选定的实体文档模型,生成结构化档案数据,步骤包括:
对从目标图像中获取的正文文字数据进行语义解析,用语义解析的结果去匹配该实体文档模型对应的预设结构表征数据,确定相匹配的预设结构表征数据;
将正文文字数据和相匹配的预设结构表征数据组合,生成结构化档案数据。
在一些可能的实施例中,对生成的结构化档案数据进行校审,包括:
预设标准档案模型集合,其中包括若干标准档案模型、以及与标准档案模型相对应的属性标签;所述标准档案模型中包含若干必备字段和可选字段;
根据属性标签,选择所述结构化档案数据对应的标准档案模型;
检查所述结构化档案数据中是否包括全部的必备字段;
若所述结构化档案数据中缺少必备字段,则校审结果不合格;
若所述结构化档案数据中包括全部的必备字段,则校审结果合格;
校审结果合格后,采用自然语言处理技术检查所述结构化档案数据中是否存在文字错误或缺失,若出现错误则用预设纠错模型纠错。
第二方面,本发明提供了一种纸质文档的自动化录入系统,用于实现上述纸质文档的自动化录入方法,所述自动化录入系统包括:
RPA机器人,用于控制所述自动化录入系统的各个模块;
OCR识别模块,用于识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据;
数据分类模块,根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
模型匹配模块,根据目标图像的属性标签匹配预设的实体文档模型;
数据录入模块,所述数据录入模块包括:
数据录入单元,用于将文字数据录入选定的实体文档模型,生成结构化档案数据;
数据校审单元,用于校审录入后的结构化档案数据。
第三方面,本发明提供了一种纸质文档的自动化录入装置,包括:
计算机终端设备,所述计算机终端设备包括上述纸质文档的自动化录入系统;
扫描设备,用于获取纸质文档的目标图像;所述扫描设备与计算机终端设备通信连接;
存储设备,用于存储采用上述纸质文档的自动化录入方法所生成的结构化档案数据。
第四方面,本发明提供了一种存储介质,,用于存储程序,所述程序被执行时,能够实现上述纸质文档的自动化录入方法。
本发明具有如下有益效果:
(1)本发明将RPA技术和OCR技术结合起来,使纸质文档录入过程不需要人工干预,极大提高了文档的录入效率,同时也降低了人工操作的错误率,给政府和企业管理、利用纸质文档带来了极大的便利。
(2)本发明在档案内容录入数字档案存储管理设备之前,基于已有的档案分类属性标签对档案内容的完整性进行校验,对缺少内容项的结构化档案采取更换OCR方式重新识别、分类的机制,能够及时避免识别不准确导致的档案内容录入错误,提高数字档案质量。
(3)采用本发明提供的技术方案将纸质文档转化为结构化档案数据,更便于检索和查阅。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种纸质文档的自动化录入装置的框架示意图;
图2为本发明实施例所提供的一种纸质文档的自动化录入系统的框架示意图;
图3为本发明实施例所提供的一种纸质文档的自动化录入方法的流程图;
图4为本发明实施例所提供的另一种纸质文档的自动化录入方法的流程图;
图5为图3所示实施例中步骤S300的一种具体实施方式的流程图;
图6为图3所示实施例中步骤S300的另一种具体实施方式的流程图;
图7为图3所示实施例中步骤S400的一种具体实施方式的流程图;
图8为图3所示实施例中步骤S500的一种具体实施方式的流程图;
图9位图3所示实施例中步骤S500的另一种具体实施方式的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。
除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。本发明所使用的设备或材料均可通过常规途径购买获得,如无特殊说明,本发明所使用的设备或材料均按照本领域常规方式使用或者按照产品说明书使用。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。本发明中所述的较佳实施方法与材料仅作示范之用。
请参阅图1,本发明实施例提供的一种纸质文档的自动化录入装置,包括:
计算机终端设备,计算机终端设备包括硬件部分和软件部分,软件部分包括纸质文档的自动化录入系统;
扫描设备,用于获取纸质文档的目标图像;扫描设备与终端设备通信连接;
存储设备,用于存储由纸质文档的自动化录入系统生成的结构化档案数据。
在本实施例中,计算机终端设备应该理解为包括智能手机、平板电脑等在内的移动智能终端;存储设备可以是云服务器,也可以是固态存储器。
请参阅图2,本申请实施例提供的一种纸质文档的自动化录入系统,包括:
RPA机器人,用于控制自动化录入系统的各个模块;
OCR识别模块,用于识别目标图像以获取相应的内容数据,内容数据包括版面特征数据和文字数据;
数据分类模块,根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
模型匹配模块,根据目标图像的属性标签匹配预设的实体文档模型;
数据录入模块,所述数据录入模块包括:
数据录入单元,用于将文字数据录入选定的实体文档模型,生成结构化档案数据;
数据校审单元,用于校审录入后的结构化档案数据。
为了更好地理解本发明实施例提供的纸质文档的自动化录入系统的优越性,在此,对RPA技术和OCR技术做简单介绍:
(1)RPA(机器人流程自动化)是指通过模仿用户在计算机设备上的手动操作方式,以自动化、智能化技术来“替代人”进行重复性、低价值和无需人工决策等固定性流程化操作,从而有效提升工作效率,减少错误;
(2)OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机等)检查纸质文档上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机数据的过程。
本发明实施例所提供的纸质文档的自动化录入系统将RPA技术和OCR技术结合起来,使纸质文档录入过程不需要人工干预,极大提高了文档的录入效率,同时也降低了人工操作的错误率,给政府和企业管理、利用纸质文档带来了极大的便利。
请参阅图3,运用上述纸质文档的自动化录入装置及系统,本发明实施例还提供了一种纸质文档的自动化录入方法,在计算机上启动RPA机器人后,执行如下步骤:
步骤S100、获取纸质文档的目标图像;
步骤S200、识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据;所述文字数据包括文字特征数据和正文文字数据;
步骤S300、根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
步骤S400、根据目标图像的属性标签匹配预设的实体文档模型;
步骤S500、将文字数据录入选定的实体文档模型,生成结构化档案数据;
步骤S600、存储所述结构化档案数据。
请参阅图4,在本发明另一些具体的实施例中,步骤S500包括:
步骤S510、将文字数据录入选定的实体文档模型,生成结构化档案数据;
步骤S520、对生成的结构化档案数据进行校审;
若校审结果合格,则存储所述结构化档案数据;
若校审结果不合格,则从步骤S200开始循环,;如果循环第N次后,校审结果仍不合格,转由人工校审。在本实施例中,N取值为3。当然,根据需要,在其他的具体实施例中,N还可以取其他正整数。
相较于图3所示的实施例,图4所示实施例增加的步骤S520使最终存储的结构化档案数据更加准确。
图5示出了图3中的步骤S300(对目标图像进行分类标记,获取目标图像的属性标签)的一种具体实施方式,该实施方式包括:
步骤S311、预设文档属性标签数据集,其中包括不同类型文档的版面特征数据、以及与版面特征数据相对应的第一类属性标签;
步骤S312、用从目标图像中获取的版面特征数据,匹配预设文档属性标签数据集中的版面特征数据;将匹配到的版面特征数据所对应的第一类属性标签设为目标图像的第一类属性标签。
在该具体实施方式中,第一类属性标签代表着文档的类型。以专利管理部门的纸质文档为例,专利申请时递交的文档类型包括:请求书、权利要求书、说明书和摘要等。OCR识别的过程中,对目标图像进行了版面划分,得到目标图像中标题、正文段落、图片和表格等元素的位置关系,即版面特征数据,不同类型的文档对应的版面特征数据不同。
图6示出了图3中的步骤S300(对目标图像进行分类标记,获取目标图像的属性标签)的另一种具体实施方式,相比图5所示的具体实施方式,图6所示的具体实施方式还包括了:
步骤S321、预设文档属性标签数据集,其中还包括:文字特征数据以及与文字特征数据相对应的第二类属性标签;第二类属性标签对应唯一的第一类属性标签;
步骤S322、对从目标图像中获取的标题文字数据进行语义解析,用语义解析的结果匹配预设文档属性标签数据集中的文字特征数据;将匹配到的文字特征数据所对应的第二类属性标签设为目标图像的第二类属性标签;
步骤S323、检查同一目标图像的第二类属性标签和第一类属性标签是否满足预设的对应关系;
若满足,则完成步骤S300;若不满足,则从步骤S312重新开始,直至同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系。
不同类型的文档中有一些特殊的文档标题,例如专利说明书中有背景技术、发明内容和附图说明等特殊标题。通过对目标图像中的文字标题进行语义分析,然后再匹配这些特殊的标题字段,获得第二类属性标签。第一类属性标签通过匹配宏观的版面特征数据来获取,第二类属性标签通过匹配微观的标题语义内容来获取,二者结合起来能够进一步保证对文档分类标记的准确性。在另一些应用场景中,例如办公文档,可以利用第一类属性标签确认目标图像属于合同类文档,而不属于公告通知类文档;利用第二类属性标签可以确认该合同文档为采购合同文档,而不是劳动关系合同文档。
图7示出了图3中的步骤S400(根据目标图像的属性标签匹配预设的实体文档模型)的一种具体实施方式,包括:
步骤S410、预设实体档案模型集合,其中包括若干实体档案模型、以及与实体档案模型相对应的属性标签;
步骤S420、用目标图像的属性标签匹配预设实体档案模型中的属性标签,将匹配到的属性标签对应的实体档案模型作为选定的实体文档模型。
图8示出了图3中的步骤S500(将文字数据录入选定的实体文档模型,生成结构化档案数据)的一种具体实施方式,即步骤S510,包括:
步骤S511、预设实体文档模型集合中,每一个实体文档模型对应一个预设子集,所述预设子集里面包括该实体文档模型的若干预设结构表征数据;
步骤S512、对从目标图像中获取的正文文字数据进行语义解析,用语义解析的结果去匹配该实体文档模型对应的预设结构表征数据,确定相匹配的预设结构表征数据;
步骤S513、将正文文字数据和相匹配的预设结构表征数据组合,生成结构化档案数据。
图9示出了图3中的步骤S500(将文字数据录入选定的实体文档模型,生成结构化档案数据)的另一种具体实施方式,相比于图8所示的具体实施方式,图9所示的具体实施方式还包括步骤S520(对生成的结构化数据进行校审),具体为:
步骤S521、预设标准档案模型集合,其中包括若干标准档案模型、以及与标准档案模型相对应的属性标签;所述标准档案模型中包含若干必备字段和可选字段;
步骤S522、根据第一类属性标签,选择所述结构化档案数据对应的标准档案模型;
步骤S523、检查所述结构化数据中是否包括全部的必备字段
若所述结构化数据中包括全部的必备字段,则校审结果合格,进入步骤S524;
若所述结构化数据中缺少必备字段,则校审结果不合格,进入步骤S300;
步骤S524、采用自然语言处理技术检查所述结构化数据中是否存在文字错误或缺失;
若出现错误,进入步骤S525;
若没有错误,进步步骤S600;
步骤S525、用预设纠错模型纠错。
上述步骤中的每一次匹配结果输出都能用于训练相应的匹配模型,使各个匹配模型越来越精准。
最后,基于上述纸质文档的自动化录入方案,本发明实施例还提供一种存储介质,用于存储程序,当存储的程序被执行时,能够实现上述纸质文档的自动化录入方法。
在本说明书中描述的“一些具体的实施例中”、“一些可能的实施例中”或“本发明”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书的不同之处出现的语句“一些具体的实施例中”、“一些可能的实施例中”或“本发明”等不是必然都参考相同的实施例,而意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。在本说明书中描述的“第一”、“第二”和“第三”仅仅是用于表达不同区域的不同部件,不具备技术特征上的特殊含义,亦可采用其他用语进行表达。
以上所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围,而仅仅是表示本发明的选定实施例。因此,本发明的保护范围应以权利要求的保护范围为准。此外,基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本发明保护的范围。

Claims (7)

1.一种纸质文档的自动化录入方法,其特征在于,包括:
获取纸质文档的目标图像;
识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据,所述文字数据包括文字特征数据和正文文字数据;
根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
根据目标图像的属性标签匹配预设的实体文档模型;
将文字数据录入选定的实体文档模型,生成结构化文档数据;
存储所述结构化文档数据;
将文字数据录入选定的实体文档模型后,对生成的结构化档案数据进行校审;
若校审结果合格,则存储所述结构化档案数据;
若校审结果不合格,则从步骤“识别目标图像以获取相应的内容数据”开始循环;如果循环第N次后,校审结果仍不合格,转由人工校审;
根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签,包括:
预设文档属性标签数据集,其中包括不同类型文档的版面特征数据、以及与版面特征数据相对应的第一类属性标签;
用从目标图像中获取的版面特征数据,匹配预设文档属性标签数据集中的版面特征数据;将匹配到的版面特征数据所对应的第一类属性标签设为目标图像的第一类属性标签;
预设文档属性标签数据集,其中还包括:文字特征数据以及与文字特征数据相对应的第二类属性标签;第二类属性标签对应唯一的第一类属性标签;
对从目标图像中获取的标题文字数据进行语义解析,用语义解析的结果匹配预设文档属性标签数据集中的文字特征数据;将匹配到的文字特征数据所对应的第二类属性标签设为目标图像的第二类属性标签;
若同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系,则完成对目标图像分类标记;
若同一目标图像的第二类属性标签和第一类属性标签不满足预设的对应关系,则输出报错内容后,又从新开始分类标记步骤,直至同一目标图像的第二类属性标签和第一类属性标签满足预设的对应关系。
2.根据权利要求1所述的自动化录入方法,其特征在于,根据目标图像的属性标签匹配预设的实体文档模型,包括:
预设实体档案模型集合,其中包括若干实体档案模型、以及与实体档案模型相对应的属性标签,所述属性标签包括第一类属性标签和第二类属性标签;
用目标图像的属性标签匹配预设实体档案模型中的属性标签,将匹配到的属性标签对应的实体档案模型作为选定的实体文档模型。
3.根据权利要求2所述的自动化录入方法,其特征在于,预设实体文档模型集合中,每一个实体文档模型对应一个预设子集,所述预设子集里面包括该实体文档模型的若干预设结构表征数据;
将文字数据录入选定的实体文档模型,生成结构化档案数据,步骤包括:
对从目标图像中获取的正文文字数据进行语义解析,用语义解析的结果去匹配该实体文档模型对应的预设结构表征数据,确定相匹配的预设结构表征数据;
将正文文字数据和相匹配的预设结构表征数据组合,生成结构化档案数据。
4.根据权利要求3所述的自动化录入方法,其特征在于,对生成的结构化档案数据进行校审,包括:
预设标准档案模型集合,其中包括若干标准档案模型、以及与标准档案模型相对应的属性标签;所述标准档案模型中包含若干必备字段和可选字段;
根据属性标签,选择所述结构化档案数据对应的标准档案模型;
检查所述结构化档案数据中是否包括全部的必备字段;
若所述结构化档案数据中缺少必备字段,则校审结果不合格;
若所述结构化档案数据中包括全部的必备字段,则校审结果合格;
校审结果合格后,采用自然语言处理技术检查所述结构化档案数据中是否存在文字错误或缺失,若出现错误则用预设纠错模型纠错。
5.一种纸质文档的自动化录入系统,其特征在于,所述自动化录入系统用于实现权利要求1-4任意一项所述的自动化录入方法;所述自动化录入系统包括:
RPA机器人,用于控制所述自动化录入系统的各个模块;
OCR识别模块,用于识别目标图像以获取相应的内容数据,所述内容数据包括版面特征数据和文字数据;
数据分类模块,根据所述内容数据对目标图像进行分类标记,获取目标图像的属性标签;
模型匹配模块,根据目标图像的属性标签匹配预设的实体文档模型;
数据录入模块,所述数据录入模块包括:
数据录入单元,用于将文字数据录入选定的实体文档模型,生成结构化档案数据;
数据校审单元,用于校审录入后的结构化档案数据。
6.一种纸质文档的自动化录入装置,其特征在于,包括:
计算机终端设备,所述计算机终端设备包括如权利要求5所述的自动化录入系统;
扫描设备,用于获取纸质文档的目标图像;所述扫描设备与计算机终端设备通信连接;
存储设备,用于存储采用权利要求1-4任意一项所述的自动化录入方法所生成的结构化档案数据。
7.一种存储介质,其特征在于,用于存储程序,所述程序被执行时,能够实现如权利要求1-4中任意一项所述的自动化录入方法。
CN202110999809.XA 2021-08-30 2021-08-30 纸质文档的自动化录入方法、系统、装置及存储介质 Pending CN113449698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110999809.XA CN113449698A (zh) 2021-08-30 2021-08-30 纸质文档的自动化录入方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110999809.XA CN113449698A (zh) 2021-08-30 2021-08-30 纸质文档的自动化录入方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113449698A true CN113449698A (zh) 2021-09-28

Family

ID=77818850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110999809.XA Pending CN113449698A (zh) 2021-08-30 2021-08-30 纸质文档的自动化录入方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113449698A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282065A (zh) * 2021-12-22 2022-04-05 重庆汇博利农科技有限公司 一种政务大数据平台数据采集方法
CN114996545A (zh) * 2022-08-03 2022-09-02 中国计量科学研究院 一种基于射频识别及图像识别技术的学生档案管理系统
CN115422125A (zh) * 2022-09-29 2022-12-02 浙江星汉信息技术股份有限公司 一种基于智能算法的电子文档自动归档方法与系统
CN116187717A (zh) * 2023-04-24 2023-05-30 四川金投科技股份有限公司 一种档案入库管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109858420A (zh) * 2019-01-24 2019-06-07 国信电子票据平台信息服务有限公司 一种票据处理系统和处理方法
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111931664A (zh) * 2020-08-12 2020-11-13 腾讯科技(深圳)有限公司 混贴票据图像的处理方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114282065A (zh) * 2021-12-22 2022-04-05 重庆汇博利农科技有限公司 一种政务大数据平台数据采集方法
CN114996545A (zh) * 2022-08-03 2022-09-02 中国计量科学研究院 一种基于射频识别及图像识别技术的学生档案管理系统
CN115422125A (zh) * 2022-09-29 2022-12-02 浙江星汉信息技术股份有限公司 一种基于智能算法的电子文档自动归档方法与系统
CN116187717A (zh) * 2023-04-24 2023-05-30 四川金投科技股份有限公司 一种档案入库管理方法及系统
CN116187717B (zh) * 2023-04-24 2023-07-11 四川金投科技股份有限公司 一种档案入库管理方法及系统

Similar Documents

Publication Publication Date Title
CN113449698A (zh) 纸质文档的自动化录入方法、系统、装置及存储介质
CN108829652B (zh) 一种基于众包的图片标注系统
CN111259873B (zh) 一种表格数据提取方法及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN116049397B (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
CN112232352B (zh) 一种智能识别pcb图纸自动计价系统和方法
CN110991446B (zh) 标签识别方法、装置、设备及计算机可读存储介质
US20240143899A1 (en) Systems and methods for conversion of documents to reusable content types
CN114218467A (zh) 一种数字档案管理方法和系统
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
TWI793432B (zh) 工程專案文件管理方法與系統
CN109919153A (zh) 基于手写识别人工智能技术的自动单据录入系统及方法
CN112464907A (zh) 一种文档处理系统及方法
TWM590730U (zh) 基於人工智慧之文件管理系統
CN112364790B (zh) 基于卷积神经网络的机场工作单信息识别方法及系统
CN115982272A (zh) 一种城市大数据管理的数据标注方法、装置及计算机存储介质
CN115391567A (zh) 风机标准作业知识图谱构建方法、装置及作业机械
US20210295211A1 (en) Information processing apparatus and non-transitory computer readable medium
CN113705180A (zh) 一种文档编审方法、装置、电子设备及存储介质
CN112686238B (zh) 一种基于深度学习的航运单识别方法
CN114898370A (zh) 基于rpa和ai的制造工艺信息处理、装置、设备和介质
CN115617951A (zh) 合同信息提取方法、装置、计算机设备、介质和程序产品
CN117292387A (zh) 一种影像数据自动标注方法及系统
CN117010842A (zh) 一种变电站两票归档方法、装置、电子设备及存储介质
CN117668071A (zh) 基于结构化文件实现的核电厂巡检记录处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210928