CN104199975A - 一种基于可配置的word文档结构化提取方法 - Google Patents
一种基于可配置的word文档结构化提取方法 Download PDFInfo
- Publication number
- CN104199975A CN104199975A CN201410492079.4A CN201410492079A CN104199975A CN 104199975 A CN104199975 A CN 104199975A CN 201410492079 A CN201410492079 A CN 201410492079A CN 104199975 A CN104199975 A CN 104199975A
- Authority
- CN
- China
- Prior art keywords
- node
- template
- file
- word
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
一种基于可配置的WORD文档结构化提取方法,包括以下步骤:步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档。本发明实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。
Description
技术领域
本发明涉及对WORD文档结构化提取的技术领域,具体涉及可配置方式的WORD文档结构化提取的计算机方法。
背景技术
现代信息化社会中,通过计算机来管理资料是所有企业都需要面对的问题。一个企业在信息化过程中,通常都是由文档管理到数据库管理的一个过程转换,怎样将积累的文档资源转化到数据库中,在提高效率的同时也要保证质量。如果采用人工的方式转换,对于成千上万的文档资料来说,难度是相当大的,而且人工转换的方式出现错误的概率也很大,数据质量也难于保障。如何通过一种计算机的数据提取方式,实现一种可动态配置文档目录结构的,将WORD文档通过结构化技术实现数据提取?在降低工作难度、提高工作效率的同时也保证数据转换的质量。
基于以上的这些原因,需要一个能够对WORD文档实现可配置的结构化提取的通用计算机方法,能够验证这些文档的合规性,并提取相应文档中的内容,实现文档数据的结构化。
发明内容
本发明正是为了解决WORD文档结构化提取的难题,提出一种基于可配置的WORD文档结构化提取方法,该方法具有便捷操作、方便使用的特点,同时能够验证文档的合规性,保障数据质量。
实现本发明的技术方案如下:
一种基于可配置的WORD文档结构化提取方法,步骤为:
步骤一、定义可配置的模板文件。在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构,和需要提取word的内容。模板文件需要定义的内容有:
1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。节点的类型包括:标题、文本、表格、图片;
2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;
3)、定义模板节点的校验,或者读取的数据应该存放到数据库表的哪个字段中;
步骤二、根据第一步定义了模板文件为基准,检测待读取的Word文档。实现过程包含以下步骤:
1)、加载模板文件,并遍历其中的所有节点。根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;
2)、根据当前的节点类型来进行不同的加载:
2.1 标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;
2.2 文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;
2.3 表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;
2.4 图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
本发明的有益效果是:
本发明通过采用XML技术,解决了WORD文档目录结构可配置的问题,通过定制模板的不同类型节点及定义节点的属性,能够根据业务需求进行不同类型文档结构的定制,满足各种结构的WORD的结构化数据提取。通过以模板为基准,提取WORD文档的数据,同时进行数据合规性的检查,为数据质量保证奠定基础。本方法实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。
附图说明
图1为本发明WORD结构化提取流程图。
具体实施方式
下面结合附图和实施例对本发明作时一步详细说明。
如图1,基于可配置的WORD文档结构化提取的流程包括定制并加载模板配置文件,遍历模板树节点,解析各节点并按属性结构化内容。
以信息化项目建设的资料结构化为例子,信息化项目一般分为业务模型、需求分析、概要设计、详细设计四个阶段,每个阶段有几十个文档,四个阶段全部的文档加起来有几百个文档,每个文档的大小有十几M。如果这些文档全部由人工来进行录入的话,一是工作量大,二是由于文档大,人工录入的话出现错误的概率很大。以需求分析的文档为实例,来说明本发明的实施例子。
具体实施步骤如下:
步骤一、定制并加载模板配置文件。根据需求分析文档的结构,采用XML技术进行模板化,生成模板的配置文件;
1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。需求分析文档的结构包括项目概述、需求总体分析、功能规格、需求清单、功能项、功能子项、业务流程图、接口需求、非功能规格;
2)、配置各个节点的属性,包括标题名、标题编号、是否为可循环出现的标题,各节点的属性如下:
a)项目概述,1,不可循环出现;
b)需求总体分析,2,不可循环出现;
c)功能规格,3,不可循环出现;
d)需求清单,3.1,不可循环出现;
e)功能项,3.2,可循环出现;
f)功能子项3.3,可循环出现;
g)业务流程图,3.4,可循环出现;
h)接口需求,4,不可循环出现;
i)非功能规格,5,不可循环出现;
3、定义模板节点的校验,与数据库表建立关系,实现文档节点与数据库表字段的对应映射;
步骤二、遍历文档的树节点,根据步骤一定制的模板配置文件进行节点的遍历。首先加载模板配置文件,然后按顺序进行标题节点的提取及标题下对应的文本节点、表格节点、图片节点的提取,并将提取的数据存放到指定的数据库表中的字段。下面以功能规格目录及其子目录为例子,说明数据提取并结构化入库的过程。具体过程如下:
1)、提取标题节点:依据模板配置文件的定义,扫描当前WORD文档的目录结构,匹配标题为“功能规格”的标题节点。分二种情况处理:
情况一:如果能定位到,则获取标题名,并执行2);
情况二:如果不能定位到,而且“功能规格”不是‘可选’的标题节点,输出日志信息“功能规格标题节点找不到,请核对WORD文档目录结构!”。根据模板配置文件继续遍历文档的树节点;
2)、提取文本节点:依据模板配置文件可知,‘功能规格’为文本节点。定位到‘功能规格’的层级目录,提取‘功能规格’节点内容,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的数据存入数据库表的指定字段中;
3)、提取表格节点:依据模板配置文件可知,‘需求清单’为表格节点。定位到‘功能规格’的层级目录,提取‘需求清单’的表格数据,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的数据通过结构化处理,存入数据库表的指定字段中;
4)、提取图片节点:依据模板定义可知,‘业务流程图’为图片节点。定位到‘功能规格’的层级目录,提取‘业务流程图’的流程图数据,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的图片通过矢量化技术进行解析分析,并进行结构化处理,存入数据库表的指定字段中。
重复步骤二操作,遍历步骤一定制的模板配置文件的结构目录,将项目概述、需求总体分析、功能规格、需求清单、功能项、功能子项、业务流程图、接口需求、非功能规格的内容进行提取,并根据数据库的映射关系,将提取的数据通过结构化处理,存入数据库表的指定字段。
同理,重复以上步骤,通过定制四个阶段对应的文档的模板配置文件,并进行遍历模板树节点,定位并提取各节点的内容,采用结构化技术、矢量化技术存入到数据库表中。
Claims (1)
1.一种基于可配置的WORD文档结构化提取方法,其特征在于,包括以下步骤:
步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;模板文件需要定义的内容有:
1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点;节点的类型包括:标题、文本、表格、图片;
2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;
3)、定义模板节点的校验或者读取的数据应该存放到数据库表的哪个字段中;
步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档;实现过程包含以下步骤:
1)、加载模板文件,并遍历其中的所有节点;根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;
2)、根据当前的节点类型来进行不同的加载:
2.1) 标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;
2.2) 文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;
2.3) 表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;
2.4)图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410492079.4A CN104199975A (zh) | 2014-09-23 | 2014-09-23 | 一种基于可配置的word文档结构化提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410492079.4A CN104199975A (zh) | 2014-09-23 | 2014-09-23 | 一种基于可配置的word文档结构化提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104199975A true CN104199975A (zh) | 2014-12-10 |
Family
ID=52085268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410492079.4A Pending CN104199975A (zh) | 2014-09-23 | 2014-09-23 | 一种基于可配置的word文档结构化提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104199975A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127402A (zh) * | 2016-06-29 | 2016-11-16 | 于晓义 | 基于架构元模型的企业信息系统优化方法及工具 |
CN107203627A (zh) * | 2017-05-27 | 2017-09-26 | 山东浪潮通软信息科技有限公司 | 一种结构化数据与Word文档之间互相转换的方法 |
CN107329745A (zh) * | 2017-06-16 | 2017-11-07 | 贵州广思信息网络有限公司 | 一种增强word文档可操作性的方法 |
CN108073646A (zh) * | 2016-11-18 | 2018-05-25 | 北大方正集团有限公司 | 目录提取方法及装置 |
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
CN109885569A (zh) * | 2018-12-29 | 2019-06-14 | 天津南大通用数据技术股份有限公司 | 基于配置文件对xml数据进行字段提取及结构化方法 |
CN112785284A (zh) * | 2020-12-31 | 2021-05-11 | 银清科技有限公司 | 基于结构化文档的报文入库方法及装置 |
CN113642291A (zh) * | 2021-08-10 | 2021-11-12 | 东方财富信息股份有限公司 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
CN114065719A (zh) * | 2021-11-23 | 2022-02-18 | 中国工商银行股份有限公司 | 文档处理方法及其装置、电子设备、计算机可读存储介质 |
CN114399774A (zh) * | 2022-01-19 | 2022-04-26 | 润申标准化技术服务(上海)有限公司 | 文件处理方法、装置和电子设备 |
WO2023231760A1 (zh) * | 2022-06-01 | 2023-12-07 | 北京字节跳动网络技术有限公司 | 用于管理电子书籍中的元素的方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101216849A (zh) * | 2008-01-11 | 2008-07-09 | 清华大学 | 基于集成化企业模型的文档自动生成方法 |
CN101493839A (zh) * | 2009-03-04 | 2009-07-29 | 北京航空航天大学 | 一种通用测试文档的生成方法 |
CN103399857A (zh) * | 2013-07-01 | 2013-11-20 | 北京航空航天大学 | 一种通用文档结构信息抽取方法 |
CN103886098A (zh) * | 2014-04-04 | 2014-06-25 | 浙江大学城市学院 | 一种Word文档格式检查方法 |
-
2014
- 2014-09-23 CN CN201410492079.4A patent/CN104199975A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101216849A (zh) * | 2008-01-11 | 2008-07-09 | 清华大学 | 基于集成化企业模型的文档自动生成方法 |
CN101493839A (zh) * | 2009-03-04 | 2009-07-29 | 北京航空航天大学 | 一种通用测试文档的生成方法 |
CN103399857A (zh) * | 2013-07-01 | 2013-11-20 | 北京航空航天大学 | 一种通用文档结构信息抽取方法 |
CN103886098A (zh) * | 2014-04-04 | 2014-06-25 | 浙江大学城市学院 | 一种Word文档格式检查方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127402A (zh) * | 2016-06-29 | 2016-11-16 | 于晓义 | 基于架构元模型的企业信息系统优化方法及工具 |
CN108073646B (zh) * | 2016-11-18 | 2021-12-24 | 北大方正集团有限公司 | 目录提取方法及装置 |
CN108073646A (zh) * | 2016-11-18 | 2018-05-25 | 北大方正集团有限公司 | 目录提取方法及装置 |
CN107203627A (zh) * | 2017-05-27 | 2017-09-26 | 山东浪潮通软信息科技有限公司 | 一种结构化数据与Word文档之间互相转换的方法 |
CN107329745A (zh) * | 2017-06-16 | 2017-11-07 | 贵州广思信息网络有限公司 | 一种增强word文档可操作性的方法 |
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN109062874B (zh) * | 2018-06-12 | 2022-03-04 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN109062874A (zh) * | 2018-06-12 | 2018-12-21 | 平安科技(深圳)有限公司 | 财政数据的获取方法、终端设备及介质 |
CN109885569A (zh) * | 2018-12-29 | 2019-06-14 | 天津南大通用数据技术股份有限公司 | 基于配置文件对xml数据进行字段提取及结构化方法 |
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
CN112785284A (zh) * | 2020-12-31 | 2021-05-11 | 银清科技有限公司 | 基于结构化文档的报文入库方法及装置 |
CN113642291A (zh) * | 2021-08-10 | 2021-11-12 | 东方财富信息股份有限公司 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
CN113642291B (zh) * | 2021-08-10 | 2022-10-18 | 东方财富信息股份有限公司 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
CN114065719A (zh) * | 2021-11-23 | 2022-02-18 | 中国工商银行股份有限公司 | 文档处理方法及其装置、电子设备、计算机可读存储介质 |
CN114399774A (zh) * | 2022-01-19 | 2022-04-26 | 润申标准化技术服务(上海)有限公司 | 文件处理方法、装置和电子设备 |
WO2023231760A1 (zh) * | 2022-06-01 | 2023-12-07 | 北京字节跳动网络技术有限公司 | 用于管理电子书籍中的元素的方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199975A (zh) | 一种基于可配置的word文档结构化提取方法 | |
US8954480B2 (en) | End-to-end interoperability and workflows from building architecture design to one or more simulations | |
US8484255B2 (en) | Automatic conversion of multidimentional schema entities | |
US20210203713A1 (en) | Form Engine | |
CN101430714B (zh) | 一种基于样式的内容结构化加工方法及系统 | |
US20180067905A1 (en) | System and method for dynamic linking between graphic documents and comment data bases | |
CN102122280B (zh) | 一种智能提取内容对象的方法及系统 | |
CN1392986A (zh) | 用于产生各种呈现的结构化文档的方法和装置 | |
US9646004B2 (en) | Hierarchical database report generation with automated query generation for placeholders | |
CN103810152A (zh) | 可视化公式编辑器 | |
CN106528684A (zh) | 一种建立工程材料数据库的方法及系统 | |
US20120197681A1 (en) | Software tool for generating technical business data requirements | |
KR20120011583A (ko) | 통합의료정보 시스템의 전자서식 생성 시스템 및 관리 방법 | |
US8892505B2 (en) | Method for scheduling a task in a data warehouse | |
CN109445794B (zh) | 一种页面构造方法及装置 | |
CN111753717A (zh) | 用于提取文本的结构化信息的方法、装置、设备及介质 | |
CN104951630A (zh) | Pds三维数据转换为pipestress建模代码的系统及方法 | |
CN104008107A (zh) | 运维知识库的实现方法 | |
Potey et al. | Database migration from structured database to non-structured database | |
CN109471957B (zh) | 一种基于统一标签的元数据转换方法及装置 | |
CN105912723A (zh) | 一种自定义字段的存储方法 | |
CN101916260A (zh) | 一种灾害本体和关系数据库间语义映射构建的方法 | |
US20150154567A1 (en) | Facility management system using perspective definition metadata and method therefor | |
CN103713930A (zh) | 一种图形化定义流程地图的方法和装置 | |
CN102193907B (zh) | 一种基于b/s结构的文稿对比方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141210 |
|
RJ01 | Rejection of invention patent application after publication |