CN113157642A - 一种实现电子材料数字化流程自动化的方法 - Google Patents
一种实现电子材料数字化流程自动化的方法 Download PDFInfo
- Publication number
- CN113157642A CN113157642A CN202110294010.0A CN202110294010A CN113157642A CN 113157642 A CN113157642 A CN 113157642A CN 202110294010 A CN202110294010 A CN 202110294010A CN 113157642 A CN113157642 A CN 113157642A
- Authority
- CN
- China
- Prior art keywords
- file
- electronic
- electronic file
- directory data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000012776 electronic material Substances 0.000 title claims abstract description 26
- 238000004801 process automation Methods 0.000 title claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000013515 script Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 12
- 238000013075 data extraction Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
- G06F16/1794—Details of file format conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实现电子材料数字化流程自动化的方法,属于电子信息化技术领域。本发明的实现电子材料数字化流程自动化的方法包括以下步骤:S1、获取电子文件;S2、判断电子文件类型;S3、电子文件预处理;S4、生成可搜索PDF文件;S5、提取结构化目录数据;S6、结构化目录数据入库;S7、电子文件特定规则重新命名;S8、电子文件上传;S9、电子文件与结构化目录数据自动连接。该发明的实现电子材料数字化流程自动化的方法能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题,具有很好的推广应用价值。
Description
技术领域
本发明涉及电子信息化技术领域,具体提供一种实现电子材料数字化流程自动化的方法。
背景技术
纸质档案扫描、电子文件数字化是档案大数据库建设最基础的工作,其操作流程包括纸质档案扫描、电子文件预处理、电子文件分类、电子文件目录数据提取入库、档案数据挂接等步骤。整个处理过程因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,加大了误操作和数据不一致的出现几率,电子文件和文件目录数据也无法快速入库挂接。
电子文件数字化操作流程包括电子文件预处理、电子文件分类、电子文件目录数据提取入库、电子文件上传、档案数据挂接等步骤。因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,容易出现系统错误或者人工失误造成数据不一致的问题,有待进一步的改进。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题的实现电子材料数字化流程自动化的方法。
为实现上述目的,本发明提供了如下技术方案:
一种实现电子材料数字化流程自动化的方法,包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
作为优选,步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。
作为优选,PDF生成组件基于脚本实现office格式文件转换成PDF文件。
其中Windows环境下基于Microsoft、Office、Interop、Word类库编写PowerShell脚本实现。Linux环境下基于libreoffice基础组件编写shell脚本实现。
作为优选,步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。
作为优选,步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。
作为优选,步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
作为优选,步骤S6中,将解析出的结构化目录数据导入关系数据库,以业务唯一标识码作为数据库表主键。
作为优选,步骤S7中,将解析出的结构化目录数据,以业务唯一标识码-文件业务类别的命名规则,重新命名当前电子文件。
作为优选,电子文件上传组件调用云对象存储HTTP接口,上传当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
作为优选,步骤S9中,结构化目录数据的关系数据库表以业务唯一标识码作为主键,云对象存储中的文件元数据包含业务唯一标识码信息,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
此外该实现电子材料数字化流程自动化的方法基于电子文件数字化系统,将各个电子文件数字化处理定义为一个流程,实现自动化执行处理。电子文件数字化系统将一个请求处理过程分成几个步骤,不同资源消耗的步骤使用不同数量的线程来处理,步骤间使用事件驱动的异步通信模式。电子文件数字化系统提供常用文件读写组件、数据库读写和脚本扩展调用组件,其中“脚本扩展调用组件”可通过脚本实现对其他专业软件处理能力的调用执行,比如“可搜索PDF生成”处理步骤的底层实现既可以调用专业商业软件,也可以调用OCR云服务或者自定义实现。电子文件数字化的处理作业系统,可以将各类不同技术实现处理程序组织成工作流,让系统按照组装的流水线模式和工作流进行自动运行,实现高度智能化。
与现有技术相比,本发明的实现电子材料数字化流程自动化的方法具有以下突出的有益效果:所述实现电子材料数字化流程自动化的方法实现电子化文件预处理、OCR文字识别、结构化目录数据自动提取及最终电子文件和目录数据入库等流水线的工作,加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致的情况,具有良好的推广应用价值。
附图说明
图1是本发明所述实现电子材料数字化流程自动化的方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的实现电子材料数字化流程自动化的方法作进一步详细说明。
实施例
如图1所示,本发明的实现电子材料数字化流程自动化的方法,包括以下步骤:
S1、获取电子文件。
S2、判断电子文件类型。
判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。基于PowerShell脚本引入Microsoft.Office.Interop.Word等类库实现office格式文件转换生成pdf文件,Linux环境可基于libreoffice基础组件来生成PDF文件,统一转换成PDF格式文件的目的是在电子文件数字化数据查询系统中能够提供文件在线浏览功能。
S3、电子文件预处理。
针对横向排版的页面进行自动纠偏和去空白页的预处理。
S4、生成可搜索PDF文件。
“生成可搜索PDF”步骤对应的功能程序将检查PDF文件的文本图层,并且如果存在文本图层且包含的文本质量较好,将使用现有的文本图层,否者将使用OCR创建新的文本图层。
S5、提取结构化目录数据。
结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
S6、结构化目录数据入库。
基于“结构化目录数据提取”步骤提取电子文件的目录数据,以“{业务唯一标识码}-{文件业务类别}”规则重新命名当前电子文件。在“电子文件上传”步骤中,调用云对象存储服务接口传递当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的“业务唯一标识码”和“文件业务类别”两个参数。云对象存储服务不只提供文件存储功能,同时提供电子文件元数据如文件名称、文件大小、文件存储路径、文件类别及业务编码(对应科技计划类电子材料的业务唯一标识码)等的结构化目录数据的存储。
S7、电子文件特定规则重新命名。
将解析出的结构化目录数据,以业务唯一标识码-文件业务类别规则,重新命名当前电子文件。
S8、电子文件上传。
电子文件上传组件基于电子文件固定的命名规则解析当前电子文件的业务唯一标识码和所属文件业务类别,调用云对象存储服务接口传递当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
S9、电子文件与结构化目录数据自动连接。
结构化目录数据的关系数据库表以业务唯一标识码作为主键,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
该实现电子材料数字化流程自动化的方法基于电子文件数字化系统,将各个电子文件数字化处理定义为一个流程,实现自动化执行处理。电子文件数字化系统将一个请求处理过程分成几个步骤,不同资源消耗的步骤使用不同数量的线程来处理,步骤间使用事件驱动的异步通信模式。电子文件数字化系统提供常用文件读写组件、数据库读写和脚本扩展调用组件,其中“脚本扩展调用组件”可通过脚本实现对其他专业软件处理能力的调用执行,比如“可搜索PDF生成”处理步骤的底层实现既可以调用专业商业软件,也可以调用OCR云服务或者自定义实现。电子文件数字化的处理作业系统,可以将各类不同技术实现处理程序组织成工作流,让系统按照组装的流水线模式和工作流进行自动运行,实现高度智能化。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。
Claims (10)
1.一种实现电子材料数字化流程自动化的方法,其特征在于:包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。
2.根据权利要求1所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。
3.根据权利要求2所述的实现电子材料数字化流程自动化的方法,其特征在于:PDF生成组件基于脚本实现office格式文件转换成PDF文件。
4.根据权利要求3所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。
5.根据权利要求4所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。
6.根据权利要求5所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。
7.根据权利要求6所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S6中,将解析出的结构化目录数据导入关系数据库,以业务唯一标识码作为数据库表主键。
8.根据权利要求7所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S7中,将解析出的结构化目录数据,以业务唯一标识码-文件业务类别的命名规则,重新命名当前电子文件。
9.根据权利要求8所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S8中,电子文件上传组件调用云对象存储HTTP接口,上传当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。
10.根据权利要求9所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S9中,结构化目录数据的关系数据库表以业务唯一标识码作为主键,云对象存储中的文件元数据包含业务唯一标识码信息,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294010.0A CN113157642A (zh) | 2021-03-19 | 2021-03-19 | 一种实现电子材料数字化流程自动化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110294010.0A CN113157642A (zh) | 2021-03-19 | 2021-03-19 | 一种实现电子材料数字化流程自动化的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157642A true CN113157642A (zh) | 2021-07-23 |
Family
ID=76887818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110294010.0A Pending CN113157642A (zh) | 2021-03-19 | 2021-03-19 | 一种实现电子材料数字化流程自动化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157642A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590551A (zh) * | 2021-07-30 | 2021-11-02 | 广东时谛智能科技有限公司 | 一种材料数字化扩展格式系统、方法、介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN110675289A (zh) * | 2019-09-29 | 2020-01-10 | 四川大学 | 一种随案刑事一审电子卷宗目录编著方法 |
CN110705503A (zh) * | 2019-10-14 | 2020-01-17 | 北京信息科技大学 | 生成目录结构化信息的方法和装置 |
CN111352898A (zh) * | 2020-05-25 | 2020-06-30 | 浙江明度智控科技有限公司 | 一种药品申报文档的智能归档方法和系统 |
CN111753500A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 版式化后的电子表单与ofd合并展现及目录生成的方法 |
CN112380255A (zh) * | 2020-11-16 | 2021-02-19 | 广东亿迅科技有限公司 | 一种业务处理方法、装置、设备和存储介质 |
-
2021
- 2021-03-19 CN CN202110294010.0A patent/CN113157642A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN110675289A (zh) * | 2019-09-29 | 2020-01-10 | 四川大学 | 一种随案刑事一审电子卷宗目录编著方法 |
CN110705503A (zh) * | 2019-10-14 | 2020-01-17 | 北京信息科技大学 | 生成目录结构化信息的方法和装置 |
CN111352898A (zh) * | 2020-05-25 | 2020-06-30 | 浙江明度智控科技有限公司 | 一种药品申报文档的智能归档方法和系统 |
CN111753500A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 版式化后的电子表单与ofd合并展现及目录生成的方法 |
CN112380255A (zh) * | 2020-11-16 | 2021-02-19 | 广东亿迅科技有限公司 | 一种业务处理方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590551A (zh) * | 2021-07-30 | 2021-11-02 | 广东时谛智能科技有限公司 | 一种材料数字化扩展格式系统、方法、介质及设备 |
CN113590551B (zh) * | 2021-07-30 | 2023-09-01 | 广东时谛智能科技有限公司 | 一种材料数字化扩展格式系统、方法、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2006102512A2 (en) | Change control management of xml documents | |
CN110738049B (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN117033249B (zh) | 一种测试用例生成方法、装置、计算机设备及存储介质 | |
CN110737630A (zh) | 电子归档文件的处理方法、装置、计算机设备及存储介质 | |
CN113157642A (zh) | 一种实现电子材料数字化流程自动化的方法 | |
CN114330284A (zh) | 一种基于规则模型的自动化保险条款解析方法 | |
CN108287889A (zh) | 一种基于弹性表模型的多源异构数据存储方法和系统 | |
CN108108478B (zh) | 数据格式转换方法、系统及电子设备 | |
CN113268265A (zh) | 字典数据提取方法、装置、设备及存储介质 | |
CN111522815A (zh) | 一种企业基本信息入库的方法 | |
CN117592450A (zh) | 基于员工信息整合的全景档案生成方法及系统 | |
CN112667873A (zh) | 一种适用于多数网站通用采集数据的爬虫系统及方法 | |
CN109740130B (zh) | 用于生成文件的方法和装置 | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
Fani Sani et al. | LLMs and Process Mining: Challenges in RPA: Task Grouping, Labelling and Connector Recommendation | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN108182285B (zh) | 信息处理方法、终端及计算机可读存储介质 | |
CN112612841A (zh) | 一种知识抽取构建方法、装置、设备及存储介质 | |
CN113947389B (zh) | 一种陶瓷供应链系统磅单的数字化方法及其数字化系统 | |
CN115640758B (zh) | 一种基于知识构建的三维模型数模质检方法 | |
CN111427938B (zh) | 数据转存的方法和装置 | |
CN118411190A (zh) | 一种数据资产管理方法、装置、设备及可读存储介质 | |
CN112861473B (zh) | 基于openpyxl的目录审查结果汇总系统及方法 | |
CN117648920A (zh) | 研报数据处理方法、装置、计算机设备和存储介质 | |
CN114564929A (zh) | 一种标准化技术工程文件的信息处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210723 |