CN114065719A - 文档处理方法及其装置、电子设备、计算机可读存储介质 - Google Patents
文档处理方法及其装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114065719A CN114065719A CN202111396605.3A CN202111396605A CN114065719A CN 114065719 A CN114065719 A CN 114065719A CN 202111396605 A CN202111396605 A CN 202111396605A CN 114065719 A CN114065719 A CN 114065719A
- Authority
- CN
- China
- Prior art keywords
- document
- preset
- paragraph
- content
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008676 import Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000018109 developmental process Effects 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文档处理方法及其装置、电子设备、计算机可读存储介质,涉及大数据处理领域,该处理方法包括:导入待分析的目标文档,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。本公开基于预设文档模板的模板格式,对文档内容进行自动化结构分析,能够提高处理文档的效率。
Description
技术领域
本发明涉及大数据处理技术领域,具体而言,涉及一种文档处理方法及其装置、电子设备、计算机可读存储介质。
背景技术
文档是企业规范管理的重要组成部分,它在企业的日常事务中,承担着事务流转、承上启下的桥梁作用。随着计算机技术的日益发展,企业办公文档的电子化日趋普遍,存储简易方便的电子文档成为企业信息资产积累的重要方式,由此各个企业也积累了数量庞大的电子文档文件,因此,如何解析电子文档内的文字,表格等数据,并使文档内的结构化数据被自动化程序分析,以及将有增值价值的数据合并导出,成为研究的关键。
相关技术中,常规的办公软件为拓展用户自定义功能,提供了一套二次开发库接口,这套COM组件接口可以让用户使用各种编程工具(例如,C++,C#,JavaScript脚本等)进行调用。相关技术中,大多用户使用这套开发库接口对表格工具Excel进行功能性的拓展,但针对以文本数据为主的Word软件,很少有用户使用这套二次开发库来拓展word的功能,更没有对这些文本数据进行文档处理,使得文档处理效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文档处理方法及其装置、电子设备、计算机可读存储介质,以至少解决相关技术中没有对文档进行结构化解析,降低了文档处理效率的技术问题。
根据本发明实施例的一个方面,提供了一种文档处理方法,包括:导入待分析的目标文档;基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
可选地,基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容的步骤,包括:基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。
可选地,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;确定每个所述段落所属大纲的大纲等级;将所述段落所属大纲的大纲等级表征为结构化数据。
可选地,在确定每个所述段落所属大纲的大纲等级之后,还包括:基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。
可选地,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;对所述表格对象中的表格内容进行解析,得到结构化的表格数据。
可选地,对所述表格对象中的表格内容进行解析,得到结构化的表格数据的步骤,包括:对所述表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,对所述表格对象中的业务处理流程表进行分析,得到业务字段数据。
可选地,还包括:采用预设处理控件,将所述文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;调用所述预设处理控件,将所述剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件。
根据本发明实施例的另一方面,还提供了一种文档处理装置,包括:导入单元,用于导入待分析的目标文档;扫描单元,用于基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;区分单元,用于依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
可选地,所述扫描单元包括:第一查询模块,用于基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。
可选地,所述区分单元包括:第一分割模块,用于采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;第一确定模块,用于确定每个所述段落所属大纲的大纲等级;第一表征模块,用于将所述段落所属大纲的大纲等级表征为结构化数据。
可选地,所述第一表征模块包括:第一赋予子模块,用于基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。
可选地,所述区分单元包括:第一获取模块,用于采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;第二分割模块,用于基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;第一解析模块,用于对所述表格对象中的表格内容进行解析,得到结构化的表格数据。
可选地,所述第一解析模块包括:第一分析子模块,用于对所述表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,第二分析子模块,用于对所述表格对象中的业务处理流程表进行分析,得到业务字段数据。
可选地,还包括:第一复制模块,用于采用预设处理控件,将所述文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;第一调用模块,用于调用所述预设处理控件,将所述剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项所述的文档处理方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的文档处理方法。
在本公开中,通过导入待分析的目标文档,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。在本申请中,基于预设文档模板的模板格式,对文档内容进行自动化结构分析,能够提高处理文档的效率,进而解决了相关技术中没有对文档进行结构化解析,降低了文档处理效率的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文档处理方法的流程图;
图2是根据本发明实施例的一种可选的章节结构树状图的示意图;
图3是根据本发明实施例的一种可选的复杂对象的处理方法的流程图;
图4是根据本发明实施例的一种可选的用于处理文档的结构示意图;
图5是根据本发明实施例的一种可选的解析文档的方法的流程图;
图6是根据本发明实施例的一种可选的文档处理装置的示意图;
图7是根据本发明实施例的一种用于实现业务报文的处理方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明下述各实施例可应用于各种开发平台/系统/应用处理文档的场景下,本发明以应用开发全生命周期管理平台系统(ADLM系统)为例,可以在Windows平台下,基于Microsoft Office开发库,提出一种针对如Office word或WPS等软件中的电子文档进行自动化解析以及合并的方法,可以构建一套低成本、高效率的文档服务器处理系统。
实施例一
根据本发明实施例,提供了一种文档处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的文档处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,导入待分析的目标文档。
步骤S104,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容。
步骤S106,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
通过上述步骤,可以导入待分析的目标文档,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。在本发明实施例中,基于预设文档模板的模板格式,对文档内容进行自动化结构分析,能够提高处理文档的效率,进而解决了相关技术中没有对文档进行结构化解析,降低了文档处理效率的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S102,导入待分析的目标文档。
在本发明实施例中,目标文档可以是Word软件中的文档,也可以为其他软件中的文档,例如,WPS软件中的文档,文档内容包括但不限于:文字、表格、图片、附件等。
步骤S104,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容。
在本发明实施例中,可以根据预设文档模板的模板格式,扫描导入的电子文档内容(即目标文档的文档内容),依据文档段落的大纲等级、可识别标示等,来区分识别的文字内容(或者表格内容等),并可以制定一套存储结构化数据的数据结构,使结构化数据能离散化的存入数据库。
可选的,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容的步骤,包括:基于预设文档模板的模板格式,查询目标文档中的关键词,以得到目标文档的文档内容。
在本发明实施例中,对于文字部分解析逻辑相对统一的内容,可以基于预设文档模板的模板格式,通过VBA接口查找文本(即目标文档)内关键字(或关键标题),以确定目标文档的文档内容。
步骤S106,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
在本发明实施例中,可以通过对目标文档的章节结构进行分析,获取目标文档的结构化数据。本实施例中,可根据三种解析条件(即预设解析条件),区分文档内容中的文档章节,并对文档章节进行解析,得到结构化数据。
可选的,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第一子解析条件,分割文档内容中的每个段落;确定每个段落所属大纲的大纲等级;将段落所属大纲的大纲等级表征为结构化数据。
在本发明实施例中,文档并非是以回车符作为文档段落的区分,在相邻段落之间,还存在有父子关系的章节等级(即段落的大纲等级),在解析文档内容时,可以以大纲等级为段落区分条件(即第一解析条件),分割文档内容中的每个段落,在确定每个段落所属大纲的大纲等级后,将段落的所属大纲等级作为结构化数据的一部分,通过该段落所属大纲等级确定结构化数据的属性。
可选的,在确定每个段落所属大纲的大纲等级之后,还包括:基于段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与目标文档一致。
在本发明实施例中,图2是根据本发明实施例的一种可选的章节结构树状图的示意图,如图2所示,包括:根段落1.2现金管理、一层叶子段落1.2.1项目实施、二层叶子段落1.2.1.1存款自动转换协议、二层叶子段落1.2.1.2支票直通车协议、三层叶子段落1.2.1.1.1存款自动转换协议录入、三层叶子段落1.2.1.2.1支票直通车协议录入、三层叶子段落1.2.1.2.2支票直通车协议复核、三层叶子段落1.2.1.2.3支票直通车协议修改、三层叶子段落1.2.1.2.4支票直通车协议变更、三层叶子段落1.2.1.2.5支票直通车协议查询、四层叶子段落1.2.1.2.1.1支票直通车协议录入、四层叶子段落1.2.1.2.2.1支票直通车协议复核、四层叶子段落1.2.1.2.3.1支票直通车协议修改、四层叶子段落1.2.1.2.4.1支票直通车协议变更、四层叶子段落1.2.1.2.4.2支票直通车协议暂停、四层叶子段落1.2.1.2.4.3支票直通车协议启用、四层叶子段落1.2.1.2.4.4支票直通车协议终止。即文档中的段落等级既有不同层的叶子段落(例如,1.2.1.1.1.1与1.2.1.2.5章节都是叶子段落),又有同层的叶子段落数目不同(例如,图2中二层叶子段落有2个,三层叶子段落有6个),针对不同层的叶子段落以及同层的叶子段落数目不同,可以基于段落所属大纲的大纲等级,设计相应的递归算法(即预设递归算法)将段落等级赋予结构化数据,使得每个叶子段落、标题段落的层次等级与目标文档一致,以保证文档资产的正确性。
可选的,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:采用预设解析条件中的第二子解析条件,获取文档内容中各段落中存在表格对象的句柄及表格数;基于文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到目标文档的文档内容;对表格对象中的表格内容进行解析,得到结构化的表格数据。
在本发明实施例中,对目标文档中的表格内容进行解析时,可以根据表格的特殊标记来获取表格属性,以表格为基本解析元(即第二解析条件),对文档内容进行解析,可以先通过表格的相关接口(例如,VBA接口),获取文档内容中各段落中存在表格对象的句柄及表格数,例如,可采用如下程序获取对应段落的表格对象句柄及表格数:
var tables=wordApp.ActiveDocument.Tables;
var tableCount=tables.Count;
基于文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落作为文本内容统一处理(即将每两个表格对象之间的段落进行分割,得到目标文档的文档内容),对每个将表格中的文本内容根据标记进行解析(即对表格对象中的表格内容进行解析),得到结构化的表格数据。
可选的,对表格对象中的表格内容进行解析,得到结构化的表格数据的步骤,包括:对表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,对表格对象中的业务处理流程表进行分析,得到业务字段数据。
在本发明实施例中,可按序完成对各个段落节的解析,如以原始需求IPO文档为例:输入画面设计,对其进行分析,可以输出画面设计;输入字段定义表,对其进行分析,可以输出凭证格式或报表表样;输入业务处理流程表,对其进行分析,可以输出业务字段数据。即可以按序一一完成解析,并存入相应的缓存对象中。
可选的,文档处理方法还包括:采用预设处理控件,将文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;调用预设处理控件,将剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件;对于文本对象、文档附件和/或图片对象,在文档内容中的对应位置设置文件标识。
在本发明实施例中,文档内容可以包括图片、附件、Ole对象等复杂对象,并且图片、附件在文档中,并非是独立文件的链接,而是直接内嵌入二进制文件(例如,doc文件)的,针对这些复杂对象的解析,可以将这些对象与二进制文件分离,使之成为独立文件,可以采用预设处理控件(例如,DocServerUtil6 ActiveX控件),通过VBA接口将文档内容中的文本对象、文档附件或者图片对象复制至剪贴板,然后可通过VBA程序调用该控件接口,将剪贴板内容根据图片、附件等附加属性,在临时目录另存为文件(即,将剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件)。
并在文档中在对象、图片等的位置留下以文本形式存在的文件标识(即在文档内容中的对应位置设置文件标识),用以保证文档的完整性。
图3是根据本发明实施例的一种可选的复杂对象的处理方法的流程图,如图3所示,对源文档(即目标文档)中的复杂对象进行识别,如果是简单对象,则直接采用解析引擎进行解析,如果是复杂对象,则将该对象复制至剪贴板中,并另存为文件,并且需要在复杂对象位置设置标签,以保证文档的完整性。
本实施例中,在得到结构化数据之后,可以将结构化数据存入数据库。
在本发明实施例中,可以依据文档段落的大纲等级、可识别标示等,来区分识别的文字内容,并可以制定一套存储结构化数据的数据结构,使结构化数据能离散化的存入数据库。
本发明实施例,可以采用如图4所示的用于处理文档的结构示意图,即可采用宿主程序(例如,C++,C#,JavaScript脚本等),基于VBA自动化编译环境,调用Microsoft OfficeInterop Word中的COM接口,对Word文档进行结构化解析。本发明实施例可以基于上述结构来获取文档内容,并采用如图5所示的解析方法对获取的文档内容进行解析,具体方法如下:获取待解析文档,对文档的结构化段落进行识别,如果是非结构化段落,则通过持久化模块进行处理后,存入离散数据库,如果为结构化段落,则通过解析引擎进行解析,将解析后的数据缓存至数据文件中,通过持久化模块进行处理后,存入离散数据库。
本发明实施例能够实现将文档的结构化数据(即根据一定的模板表格定义的文本内容)进行离散化解析,即可以基于办公软件开发库接口,实现对文档进行自动结构化解析及合并,该方法既可以大幅度提高文档结构化数据的录入效率,又能自由组合结构化文档数据,依照用户所需的文档格式,导出生成所需文档以供阅读或流转。
本发明实施例,通过上述解析方法,可以在一些文档处理系统中经过统计分析后,得到以下统计数据,下面通过表1示意说明:
表1
由于系统架构设计文档服务器之间具有较高的独立性,每台文档服务器的运行效率可以简单得出:每小时可以处理3000页左右的合并文档,或可以解析1000条章节条目的文档文件。
基于办公软件开发库的文档处理方法,极大地丰富了针对电子文档的解析方式,可以从数量庞大的文档库内,提炼出新的增值信息,并且采用合并文档策略,可以将一些原本零碎的信息,按照新的模板重新整合成一套满足用户新需求的文档,能够提高这些信息资产的复用率。
并且,可以将本发明实施例中的文档处理方法应用于以下功能场景中:
(1)待解析处理文档具有固定章节条目及章节条目大纲层级的场景;
(2)待解析处理文档拥有大量的子条目,但各子条目的结构相似(例如,各子条目具有相同的表格),即系统能抽象化子条目结构模板的场景中。
实施例二
本实施例中提供的一种文档处理装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图6是根据本发明实施例的一种可选的文档处理装置的示意图,如图6所示,该处理装置可以包括:导入单元60,扫描单元62,区分单元64,其中,
导入单元60,用于导入待分析的目标文档。
扫描单元62,用于基于预设文档模板的模板格式,扫描导入的目标文档的文档内容。
区分单元64,用于依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
上述处理装置,可以通过导入单元60导入待分析的目标文档,通过扫描单元62基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,通过区分单元64依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。在本发明实施例中,基于预设文档模板的模板格式,对文档内容进行自动化结构分析,能够提高处理文档的效率,进而解决了相关技术中没有对文档进行结构化解析,降低了文档处理效率的技术问题。
可选的,扫描单元包括:第一查询模块,用于基于预设文档模板的模板格式,查询目标文档中的关键词,以得到目标文档的文档内容。
可选的,区分单元包括:第一分割模块,用于采用预设解析条件中的第一子解析条件,分割文档内容中的每个段落;第一确定模块,用于确定每个段落所属大纲的大纲等级;第一表征模块,用于将段落所属大纲的大纲等级表征为结构化数据。
可选的,第一表征模块包括:第一赋予子模块,用于基于段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与目标文档一致。
可选的,区分单元包括:第一获取模块,用于采用预设解析条件中的第二子解析条件,获取文档内容中各段落中存在表格对象的句柄及表格数;第二分割模块,用于基于文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到目标文档的文档内容;第一解析模块,用于对表格对象中的表格内容进行解析,得到结构化的表格数据。
可选的,第一解析模块包括:第一分析子模块,用于对表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,第二分析子模块,用于对表格对象中的业务处理流程表进行分析,得到业务字段数据。
可选的,还包括:第一复制模块,用于采用预设处理控件,将所述文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;第一调用模块,用于调用所述预设处理控件,将所述剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件。
可选的,还包括:第一设置模块,用于对于文本对象、文档附件和/或图片对象,在文档内容中的对应位置设置文件标识。
上述的处理装置还可以包括处理器和存储器,上述导入单元60,扫描单元62,区分单元64等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数将结构化数据存入数据库。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:导入待分析的目标文档,基于预设文档模板的模板格式,扫描导入的目标文档的文档内容,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据,将结构化数据存入数据库。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的业务报文的处理方法。
图7是根据本发明实施例的一种用于实现业务报文的处理方法的电子设备(或移动设备)的硬件结构框图。如图7所示,电子设备可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图4所示不同的配置。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的文档处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文档处理方法,其特征在于,包括:
导入待分析的目标文档;
基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;
依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
2.根据权利要求1所述的处理方法,其特征在于,基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容的步骤,包括:
基于预设文档模板的模板格式,查询所述目标文档中的关键词,以得到所述目标文档的文档内容。
3.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:
采用预设解析条件中的第一子解析条件,分割所述文档内容中的每个段落;
确定每个所述段落所属大纲的大纲等级;
将所述段落所属大纲的大纲等级表征为结构化数据。
4.根据权利要求3所述的处理方法,其特征在于,在确定每个所述段落所属大纲的大纲等级之后,还包括:
基于所述段落所属大纲的大纲等级,采用预设递归算法将段落等级赋予结构化数据,以使段落的层次等级与所述目标文档一致。
5.根据权利要求1所述的处理方法,其特征在于,依据预设解析条件,区分文档内容中的文档章节,得到结构化数据的步骤,包括:
采用预设解析条件中的第二子解析条件,获取所述文档内容中各段落中存在表格对象的句柄及表格数;
基于所述文档内容中的表格对象的句柄及表格数,循环调用表格对象,将每两个表格对象之间的段落进行分割,得到所述目标文档的文档内容;
对所述表格对象中的表格内容进行解析,得到结构化的表格数据。
6.根据权利要求5所述的处理方法,其特征在于,对所述表格对象中的表格内容进行解析,得到结构化的表格数据的步骤,包括:
对所述表格对象中的字段定义表进行解析,得到凭证格式数据或报表表样;和/或,
对所述表格对象中的业务处理流程表进行分析,得到业务字段数据。
7.根据权利要求1所述的处理方法,其特征在于,还包括:
采用预设处理控件,将所述文档内容中的文本对象、文档附件或者图片对象复制至剪贴板;
调用所述预设处理控件,将所述剪贴板中的文本对象、文档附件或者图片对象另存至临时目录的指定文件。
8.一种文档处理装置,其特征在于,包括:
导入单元,用于导入待分析的目标文档;
扫描单元,用于基于预设文档模板的模板格式,扫描导入的所述目标文档的文档内容;
区分单元,用于依据预设解析条件,区分文档内容中的文档章节,得到结构化数据。
9.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的文档处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的文档处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396605.3A CN114065719A (zh) | 2021-11-23 | 2021-11-23 | 文档处理方法及其装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111396605.3A CN114065719A (zh) | 2021-11-23 | 2021-11-23 | 文档处理方法及其装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065719A true CN114065719A (zh) | 2022-02-18 |
Family
ID=80275482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111396605.3A Pending CN114065719A (zh) | 2021-11-23 | 2021-11-23 | 文档处理方法及其装置、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065719A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
CN115391439A (zh) * | 2022-08-24 | 2022-11-25 | 中化现代农业有限公司 | 文档数据导出方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
CN106528877A (zh) * | 2016-12-12 | 2017-03-22 | 远光软件股份有限公司 | word文档的模块化方法及系统 |
CN108614898A (zh) * | 2018-05-10 | 2018-10-02 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN109783787A (zh) * | 2018-12-29 | 2019-05-21 | 远光软件股份有限公司 | 一种结构化文档的生成方法、装置及存储介质 |
CN110175322A (zh) * | 2019-05-22 | 2019-08-27 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化方法及装置 |
CN112951444A (zh) * | 2019-12-11 | 2021-06-11 | 天津开心生活科技有限公司 | 一种文档处理方法以及系统 |
-
2021
- 2021-11-23 CN CN202111396605.3A patent/CN114065719A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
CN106528877A (zh) * | 2016-12-12 | 2017-03-22 | 远光软件股份有限公司 | word文档的模块化方法及系统 |
CN108614898A (zh) * | 2018-05-10 | 2018-10-02 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN109783787A (zh) * | 2018-12-29 | 2019-05-21 | 远光软件股份有限公司 | 一种结构化文档的生成方法、装置及存储介质 |
CN110175322A (zh) * | 2019-05-22 | 2019-08-27 | 北京神州泰岳软件股份有限公司 | 一种文档的结构化方法及装置 |
CN112951444A (zh) * | 2019-12-11 | 2021-06-11 | 天津开心生活科技有限公司 | 一种文档处理方法以及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374239A (zh) * | 2022-07-13 | 2022-11-22 | 北京中海住梦科技有限公司 | 法律法规解析方法、装置、计算机设备及可读存储介质 |
CN115391439A (zh) * | 2022-08-24 | 2022-11-25 | 中化现代农业有限公司 | 文档数据导出方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
Déjean et al. | A system for converting PDF documents into structured XML format | |
CN109669933B (zh) | 交易数据智能处理方法、装置及计算机可读存储介质 | |
US9098581B2 (en) | Method for finding text reading order in a document | |
CN111125598A (zh) | 数据智能查询方法、装置、设备及存储介质 | |
CN114065719A (zh) | 文档处理方法及其装置、电子设备、计算机可读存储介质 | |
CN114722137A (zh) | 基于敏感数据识别的安全策略配置方法、装置及电子设备 | |
CN112328805B (zh) | 基于nlp的漏洞描述信息与数据库表的实体映射方法 | |
CN112667563A (zh) | 一种文档管理及操作方法和系统 | |
CN112328936A (zh) | 一种网站识别方法、装置、设备及计算机可读存储介质 | |
CN110765402A (zh) | 一种基于网络资源的可视化采集系统及采集方法 | |
CN109636303B (zh) | 一种半自动提取和结构化文档信息的存储方法及系统 | |
CN116126997B (zh) | 一种文献去重存储方法、系统、设备及存储介质 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
KR100762712B1 (ko) | 규칙기반의 전자문서 변환방법 및 그 시스템 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN115294586A (zh) | 一种识别发票的方法、装置、存储介质及电子设备 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114297236A (zh) | 一种数据血缘分析方法、终端设备及存储介质 | |
Gkotsis et al. | Self-supervised automated wrapper generation for weblog data extraction | |
US11170164B2 (en) | System and method for cell comparison between spreadsheets | |
Sithole et al. | Attributes extraction for fine-grained differentiation of the Internet of Things patterns | |
CN112149022A (zh) | 基于启发式规则的网页内容的抽取方法与系统 | |
CN110851346A (zh) | 查询语句边界问题的检测方法、装置、设备及存储介质 | |
Oita et al. | FOREST: Focused object retrieval by exploiting significant tag paths |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |