CN103177064A - 一种自动取录电子文档中指定内容的方法 - Google Patents

一种自动取录电子文档中指定内容的方法 Download PDF

Info

Publication number
CN103177064A
CN103177064A CN201210517787XA CN201210517787A CN103177064A CN 103177064 A CN103177064 A CN 103177064A CN 201210517787X A CN201210517787X A CN 201210517787XA CN 201210517787 A CN201210517787 A CN 201210517787A CN 103177064 A CN103177064 A CN 103177064A
Authority
CN
China
Prior art keywords
document
content
documents
template
medelling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210517787XA
Other languages
English (en)
Other versions
CN103177064B (zh
Inventor
师建中
郝华杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210517787.XA priority Critical patent/CN103177064B/zh
Publication of CN103177064A publication Critical patent/CN103177064A/zh
Application granted granted Critical
Publication of CN103177064B publication Critical patent/CN103177064B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动取录电子文档中指定内容的方法,通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;然后在预设的文件集路径中查找与文档名识别符相符的待取录文档;通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;再通过预设的制表分隔符对入库文档进行模式化,形成统一的模式化文档;按格式特征分别选取若干模式化文档,仅保留内容相同的内容,分别生成若干模板文档;再按各模板为取录内容命名,并预设取录内容的所在位置;最后遍历选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;并记录已取录的内容。本发明解决了文档内容取录的难题,具有可移植性和通用性。

Description

一种自动取录电子文档中指定内容的方法
技术领域
本发明涉及计算机信息技术领域,特别涉及一种利用计算机辅助设计技术实现自动取录电子文档中指定内容的方法。
背景技术
现代信息工程(特别是标准化、实时监控、物联网等业务)的应用,产生了大量以计算机电子文档(以下简称文档)样式存在的分析、检验及测量结果报告,这些文档由各种仪器设备或人工填写而产生,在实际工作中,需要对此类文档进行实时识别、取录其中的指定数据、文字或内容。因而,近年来人们利用快速发展的计算机软、硬件技术,通过大量设计建造实验室信息管理系统(NIMS),工业生产数控系统(DCS),乃至各种商业、政务、资讯服务类信息系统,期望在海量的、烦琐的文档内容取录技术中实现自动化、实时化。
然而,计算机提供的信息处理功能,还不能像经过专业训练的人一样,通过对文档的文字阅读和分隔样式认定,识别出所需内容的所在位置;除非未来的计算机能够像人脑般基于语言、图案而不是仅基于符号进行信息处理。因而,计算机只能针对特定样式(格式)的文档,通过设定一系列用以区分位置,并从指定的位置提取其中的数据、文字和内容,形成可用于计算机程序的建模,通过计算机程序实现自动取录。
在现有技术开发的系统中,通常设计开发的过程如下:
(1)按应用需求,收集所有要求自动取录其中内容的文档的样板,确定其查找路径、目录、文档名称,以及使其能够被唯一选定的若干特征;
(2)针对每一种文档样板,按其所属专业,确定需要从中读取的各内容的命名,用以判断内容所在位置的特征,以及适用该文档类型的提取技术手段;
(3)按照上述过程产生的文档内容取录作业清单,分析总结出一整套既定建模,进而设计伺服性特定业务软件;为每一种文档样板,编写专用程序部份;自动、实时地遵循其建模,识别、提取新生成(或未处理)的文档,并按其所在位置识别和内容命名编制,完成数据、文字取录;
(4)通过实际应用现场试验运行,逐渐修正、完善建模编制,并调整、改编相应的程序部份。
显然,由于现有系统是基于既定建模设计的,也就难免出现以下技术缺陷或不足:
(1)现有技术要求编程人员,能够通过文档内容使用方的专业人员的讲解和操作示范,透彻地认知所需处理的每一种文档样板,针对各种取录内容的识别特征形成其既定建模。这种方式的结果和应用成效,都受限于编程人员对被处理文档内容的掌握水平和对相关专业的理解程度,难以统一标准。
(2)如果某个既定建模的编制发生改变,或者需要增加新的文档内容取录作业,都需要由原班编程人员进行程序扩容、升级。这不仅造成了工程建设的工耗、时耗增加,而且带来升级停止后无法继续适用的风险。
(3)现代化的信息管理与服务系统,在文档内容取录作业方面的多样性、多变性和不可预定性,使现有技术开发的程序难以形成通用产品,即使在同一系统上也很难持续与其业务发展相适应,结果导致需要重复、反复投资建设。
(4)现有技术未发挥计算机人工智能、计算机辅助设计等方面的优势,欠缺前瞻性和推动性,使工程投入与应用功能之间的性价比欠佳。
(5)电子文档所属专业的技术人员所拥有的,且不断增长的专业知识和经验,难以在现有技术建造的信息系统的持续运行中得到及时利用,对专业人员业务水平提升反而产生局限性等负面作用。
发明内容
针对现有技术中存在的技术缺陷,为了突破现有的文档内容取录方法不能适用于现代化信息系统,特别是其作业需求具有多样性、多变性及不可预定性的难题,本发明的目的在于提供一种自动取录电子文档中指定内容的方法。
本发明所采用的技术方案:一种自动取录电子文档中指定内容的方法,包括以下步骤:
(1)通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;
(2)在预设的文件集路径中查找与文档名识别符相符的待取录文档;
(3)文档入库,通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;
(4)文档模式化,通过预设的制表分隔符对入库文档进行模式化,形成统一为表格的模式化文档;
(5)按格式特征分别选取若干模式化文档,仅保留内容相同的各位置内容,分别生成若干模板文档;
(6)按各模板为取录内容命名,并预设取录内容的所在位置;
(7)遍历(逐一地)选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;
(8)记录已取录的内容。
上述步骤(1)中的文档名识别符为文档名中存在的各段固定不变的文字。
上述步骤(3)中所查询待取录文档的属性为文档创建时间和修改时间,并按照该文档的最新修改时间定义入库文档。
上述步骤(4)中所形成的模式化文档为电子表格文档。
上述步骤(5)中所选模式化文档的数量至少为两篇。所述步骤(5)在生成模板文档之后,进一步为该模版文档命名;在同一任务中生成的多个模板文档定义为一个模板集;并保存到设定模板集
上述步骤(6)中取录内容的所在位置采用行、列表示。
本发明利用计算机辅助技术实现了对电子文档中指定内容的自动取录,采用自行动态建模的方法,从而摆脱了现有技术的阻碍。具体而言,本发明具有以下优点:
(1)解决了现代信息系统的文档内容取录作业多样性、多变性及不可预定性的难题;
(2)改变将既定建模固化为计算机程序的简单做法,转而由用户随时根据作业需求,发挥自身专业知识、经验优势,在计算机辅助技术的支持下实现自行动态建模;
(3)使文档内容取录的计算机程序工具化,且具有可移植性和通用性;
(4)通过该方法可以将被取录文档按预设定的制表符模式化为同一书写样式的表格文档,以引用多个模式化文档的内容生成模板(相当于未填写的“空白表”),将模式化文档与模板进行同位印对(在相同的位置印证对照)以确定取录的数据、文字和内容等。
附图说明
图1是本发明的流程示意图;
图2是本发明所述取录电子文档中指定内容的计算机程序图;
图3是本发明的操作界面示意图。其中,图中各构件的编号、名称及作用如下:
1——任务列选、输入框;
2——任务添加按键;
3——任务删除按键;
4——仪器设备列选、输入框;
5——仪器设备添加按键;
6——仪器设备删除按键;
7——文档路径列选、输入框;
8——文档路径添加按键;
9——文档路径删除按键;
10——文档名称识别符列选、输入框;
11——文档名称识别符添加按键;
12——文档名称识别符删除按键;
13——制表分隔符列选、输入框;
14——制表分隔符添加按键;
15——制表分隔符删除按键;
16——模板集列选、输入框;
17——模板集添加按键;
18——模板集删除按键;
19——模板列选、输入框;
20——模板添加按键;
21——模板删除按键;
22——取录内容命名列选、输入框;
23——取录内容命名添加按键;
24——取录内容命名删除按键;
25——取录内容所在行输入框;
26——取录内容所在列输入框;
27——已完成取录模式化文档列表;
28——已取录内容命名列表;
29——取录得,数据、文字显示;
30——取录自,行显示;
31——取录自,列显示;
32——退回重新取录按键;
33——等待取录模式化文档列表;
34——生成模板用模式化文档列表
35——添加选定文档按键;
36——取消选定文档按键;
37——停止/进行自动取录按键;
38——人工取录按键。
具体实施方式
本发明建立的技术方法是基于对以下事实与规律的认知:
记载数据、文字内容的文档,无论采用何种属于在用人类文化的书写样式,即使原来不是表格书写样式,也都可以用设定的字符作为制表分隔符,产生其表格书写样式的文档,且被填充分格的数量,取决于原文档中出现该制表分隔符的数量,且所填充产生的表格记载内容与原文档完全相同;本发明称此为模式化文档。
由仪器设备重复执行同一作业任务所提交的(还有虽需人工填写,但遵从规定书写样式提交的)任意多个文档,在采用同一制表符产生的各模式化文档之间,如果仅保留在所有参比表格中均具有相同(固定)内容的分格的内容,将得到一个“空白表”——其“控白”程度取决于参比模式化文档数量与涉及日期时间跨度;如果以这个“空白表”为模板,则,可依据与模板不为空分格印对全部符合,确定来自同一提交链路,并以同一制表分隔符产生的模式化文档为适用本模板(如模板全部分格为空则自然适用),进而可按照预定的,从属于本模板的取录内容定位编制,从被印对的模式化文档中获得所需数据、文字。
可使用已有的,需要从中取录数据、文字的文档,进行全自建模,获得取录操作从属关系编制,特别是等同于未填写的“空白表”样式的模板。其所需软件的设计开发,仅需解决简约的计算机辅助设计支持,与自动按从属关系编制执行取录作业。
从复杂、困难程度比较,能够满足实验室信息管理系统(NIMS)中文档数据自动取录需求的技术手段与方案,无疑最为优越、通用,且容易推广引用到其他门类信息系统。
因而,此间以应用于实验室信息管理系统(NIMS))的技术实施例,描述本发明的技术手段与运作机制。
如图1、2所示,本发明所述自动取录电子文档中指定内容的方法的工作流程和原理如下:
(1)通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;
(2)在预设的文件集路径中查找与文档名识别符相符的待取录文档;
(3)文档入库,通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;
(4)文档模式化,通过预设的制表分隔符对入库文档进行模式化,形成统一为表格的模式化文档;
(5)按格式特征分别选取若干模式化文档,仅保留内容相同的各位置内容,分别生成若干模板文档;
(6)按各模板为取录内容命名,并预设取录内容的所在位置;
(7)遍历选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;
(8)记录已取录的内容。
如图3所示,本发明所述自动取录电子文档中指定内容的操作流程如下(以下描述中的标号名称详见附图说明):
在1选定或输入自设的,提交文档的各作业任务的名称;并可使用2、3进行添加、删除。
在1有选定时,则,可在4选定或输入其下各仪器设备;并可使用5、6进行添加、删除。
在1、4有选定时,则,可在7选定或输入其下(文档)各查找路径;并可使用8、9进行添加、删除。
在1、4、7有选定时,则,可在10选定或输入其下各文档名识别符;并可使用11、12进行添加、删除;此名称识别符的表达样式为:<符号1><符号2>......<符号n>——其中:符号所包含字符必须是操作系统规定的文档名合法字符,以“<”、“>”区分各符号,符号取自文档名称的各固定不变部份,并以各符号均能在文档名中按先后、不重迭印对识别为属取文档;如符号为空,则属取文档为路径下所有文档。
遵循操作1、2、3、4、5、6、7、8、9、10、11、12所生成的文档查找、提取编制,按照从属关系链与作业记录,自动识别出所需取录文档,以其最后修改日期时间加入原名作为入库名,存放到特定路径,并作记录。
在1、4、7、10有选定时,则,可在13选定或输入其下各制表分隔符;并可使用14、15进行添加、删除;其中:对于表格文档,则以此声明类型。
遵循操作1、2、3、4、5、6、7、8、9、10、11、12、13、14、15所生成的模式化文档制表编制,按照从属关系链与作业记录,自动用对应的入库文档生成对应的各模式化文档,存放到特定路径,并作记录;此模式化即:按制表分隔符或其声明涵义等,将文档书写样式统一模式化为表格书写样式,并最终据此进行建立模板及文档内容取录。
在1、4、7、10、13有选定时,则,可在16选定或输入其下各模板集;并可使用17、18进行添加、删除。
在1、4、7、10、13、16有选定时,则,可在19选定其下各模板;并可使用21进行删除;使用20添加模板过程如下:
当27或33中有模式化文档被选定,则,可使用35添加到34,可使用36从34中清除;添加模板时,先为模板建立一个与模式化文档相同的表格且所有分格默认为空,扫描34中各模式化文档的适当范围(例如第1到500行,每行第1到100列)的所有分格,如果某个不为空的分格的内容在34中各模式化文档中均相同,则引用为模板中同位分格的内容——因此34中模式化文档的数量与涉及日期时间跨度宜大,完成后,保存新建模板到特定路径,并作记录。
在1、4、7、10、13、16、19有选定时,则,可在22选定或输入其下各取录内容命名,以及在25输入取录内容按模板及模式化文档定位的所在行,在26输入取录内容按模板及模式化文档定位的所在列;并可使用23、24进行添加、删除。
遵循上述操作各构件所生成的文档内容取录编制,按照从属关系链与作业记录,自动将等待取录的模式化文档与对应的模板印对,如果模板中有不为空的分格,则仅当这些分格与被印对模式化文档的同位分格均内容相同,才判断为印对成功;如果模板全部分格为空,则直接判断为印对成功;一旦印对成功,则按该模板其下各取录内容命名及所在行、所在列,从被印对模式化文档中提取数据、文字,并做记录。
在1、4、7、10有选定时,则,按照从属关系链与作业记录,将其下各已完成取录的模式化文档列于27,将其下各等待取录模式化文档列于33。
在1、4、7、10、27有选定时,则,按照从属关系链与作业记录,将其下各已取录内容命名列于28。
在1、4、7、10、27有选定时,则,操作32,可将被选定模式化文档退回到等待取录,并作记录。
在1、4、7、10、27、28有选定时,则,按照从属关系链与作业记录,将取录得的数据、文字显示在29,取自行显示在30,取自列显示在31;可由此察看、判断建模是否正确。
操作37,可停止或进行自动取录,在停止时,便于根据文档处理成功率与取录出错状况,重新增删修改、调整建模的编制,达到完善。
操作38,可针对33中选定的模式化文档,引导到人工取录操作流程,按照从属关系链与作业记录,提示完成所有取录内容命名项的数据、文字输入,并作记录,取消等待。

Claims (7)

1.一种自动取录电子文档中指定内容的方法,其特征在于,包括以下步骤:
(1)通过计算机设定任务名称、仪器设备、文件集路径和文档名识别符;
(2)在预设的文件集路径中查找与文档名识别符相符的待取录文档;
(3)文档入库,通过查询待取录文档的属性,重新定义待取录文档的名称,生成入库文档,并入库存储;
(4)文档模式化,通过预设的制表分隔符对入库文档进行模式化,形成统一为表格的模式化文档;
(5)按格式特征分别选取若干模式化文档,仅保留内容相同的各位置内容,分别生成若干模板文档;
(6)按各模板为取录内容命名,并预设取录内容的所在位置;
(7)遍历选取各模板文档和入库文档,按照印对方法与结果取录预设位置的内容;
(8)记录已取录的内容。
2.根据权利要求1所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(1)中的文档名识别符为文档名中存在的各段固定不变的文字。
3.根据权利要求1所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(3)中所查询待取录文档的属性为文档创建时间和修改时间,并按照该文档的最新修改时间定义入库文档。
4.根据权利要求1所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(4)中所形成的模式化文档为电子表格文档。
5.根据权利要求1所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(5)中所选模式化文档的数量至少为两篇。
6.根据权利要求1或5所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(5)在生成模板文档之后,进一步为该模版文档命名;并保存到设定模板集。
7.根据权利要求1所述自动取录电子文档中指定内容的方法,其特征在于,所述步骤(6)中取录内容的所在位置采用行、列表示。
CN201210517787.XA 2012-12-05 2012-12-05 一种自动取录电子文档中指定内容的方法 Expired - Fee Related CN103177064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210517787.XA CN103177064B (zh) 2012-12-05 2012-12-05 一种自动取录电子文档中指定内容的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210517787.XA CN103177064B (zh) 2012-12-05 2012-12-05 一种自动取录电子文档中指定内容的方法

Publications (2)

Publication Number Publication Date
CN103177064A true CN103177064A (zh) 2013-06-26
CN103177064B CN103177064B (zh) 2016-10-05

Family

ID=48636935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210517787.XA Expired - Fee Related CN103177064B (zh) 2012-12-05 2012-12-05 一种自动取录电子文档中指定内容的方法

Country Status (1)

Country Link
CN (1) CN103177064B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280201A (zh) * 2018-01-29 2018-07-13 优信数享(北京)信息技术有限公司 一种车辆信息生成方法、装置及其系统
CN110147354A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN111563065A (zh) * 2020-07-09 2020-08-21 北京联想协同科技有限公司 一种文档保存方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1519279A2 (en) * 2003-09-24 2005-03-30 NTT DoCoMo, Inc. Document transformation system
CN101046808A (zh) * 2006-03-31 2007-10-03 株式会社理光 一种文档处理系统和方法
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1519279A2 (en) * 2003-09-24 2005-03-30 NTT DoCoMo, Inc. Document transformation system
CN101046808A (zh) * 2006-03-31 2007-10-03 株式会社理光 一种文档处理系统和方法
CN101727498A (zh) * 2010-01-15 2010-06-09 西安交通大学 一种基于web结构的网页信息自动提取方法
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280201A (zh) * 2018-01-29 2018-07-13 优信数享(北京)信息技术有限公司 一种车辆信息生成方法、装置及其系统
CN110147354A (zh) * 2019-04-19 2019-08-20 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN110147354B (zh) * 2019-04-19 2023-06-02 平安科技(深圳)有限公司 批量数据编辑方法、装置、计算机设备及存储介质
CN111563065A (zh) * 2020-07-09 2020-08-21 北京联想协同科技有限公司 一种文档保存方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN103177064B (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN112181416B (zh) 一种从视觉稿直接生成ui代码的方法及装置
CN101661460B (zh) 管理系统报表生成方法和装置
CN110232177B (zh) 一种政务领域的标书生成系统及方法
US8346773B2 (en) Product classification system
CN104133772A (zh) 一种自动生成测试数据的方法
CN110244936B (zh) 用于支持visio流程图自动导入dcs算法组态软件的方法和装置
CN111309313A (zh) 一种快速生成html以及存储表单数据的方法
CN112396287A (zh) 一种生产工序记录方法
KR100982527B1 (ko) 통합 블록정도 관리 시스템 및 방법
CN118173238B (zh) 医疗器械电子dhr在线处理方法及系统
CN105183966B (zh) 基于数据库的仪表平面布置图快速绘制方法
CN103177064A (zh) 一种自动取录电子文档中指定内容的方法
CN109086985B (zh) 面向航天器总装的专业测试信息管理系统
CN115344246A (zh) 使用过程控制计划数字孪生的产品的开发
CN117521629A (zh) 一种基于大语言模型的桥梁检测报告生成方法
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN117610527A (zh) 基于大语言模型的报表分析及报告生成方法及系统
CN109976719B (zh) 一种管理系统的设计方法、电子设备、存储介质及平台
CN111966350A (zh) Web前端界面生成方法及装置
CN109634215B (zh) 一种基于平面图形编码技术的核电厂操作规程设计方法
KR101022716B1 (ko) 전자문서 자동생성시스템 및 자동생성방법
CN106598580A (zh) 一种构建业务软件的方法
Zhang et al. Advancing Building Energy Modeling with Large Language Models: Exploration and Case Studies
CN110188800A (zh) 一种基于智能分配算法的数据标注系统及方法
CN114818679A (zh) 一种文本数据的智能辅助标注方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Shi Jianzhong

Inventor after: Wen Zuojun

Inventor after: Hao Huajie

Inventor after: Chen Zhao

Inventor after: Jiang Ming

Inventor before: Shi Jianzhong

Inventor before: Hao Huajie

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161005

Termination date: 20181205

CF01 Termination of patent right due to non-payment of annual fee