CN108733638A - Word稿件的结构化方法及word稿件的结构化装置 - Google Patents

Word稿件的结构化方法及word稿件的结构化装置 Download PDF

Info

Publication number
CN108733638A
CN108733638A CN201710247950.8A CN201710247950A CN108733638A CN 108733638 A CN108733638 A CN 108733638A CN 201710247950 A CN201710247950 A CN 201710247950A CN 108733638 A CN108733638 A CN 108733638A
Authority
CN
China
Prior art keywords
xml
file
word
structuring
contributions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710247950.8A
Other languages
English (en)
Other versions
CN108733638B (zh
Inventor
代芳
陈瀚博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201710247950.8A priority Critical patent/CN108733638B/zh
Publication of CN108733638A publication Critical patent/CN108733638A/zh
Application granted granted Critical
Publication of CN108733638B publication Critical patent/CN108733638B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种WORD稿件的结构化方法和WORD稿件的结构化装置,其中,WORD稿件的结构化方法包括:获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;对所述待结构化的WORD稿件的结构内容进行识别;根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。通过本发明的技术方案,实现了WORD稿件结构化,并且易用性强、可靠性高,便于后续将WORD稿件转换为XML标准文件。

Description

WORD稿件的结构化方法及WORD稿件的结构化装置
技术领域
本发明涉及文档格式转换技术领域,具体而言,涉及WORD稿件的结构化方法及WORD稿件的结构化装置。
背景技术
Office是我们最常用的办公软件。目前图书、期刊、百科类图书等的出版、发行起始多是利用WORD进行创作的。XML(Extensible Markup Language,可扩展标记语言)文件,它是标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。它是各种应用程序之间进行数据传输最常用的工具。
随着网络技术的发展,XML技术已经应用到了数字出版相关领域,随之,WORD稿件到XML文件的转换,也成为迫切的需求。然而,在转换过程中,最大的难度在于WORD稿件的标引结构化。
发明内容
本发明正是基于上述技术问题,提出了一种新的技术方案,通过本发明的技术方案,实现了WORD稿件的结构化,并且易用性强、可靠性高,便于后续将WORD稿件转换为XML标准文件。
有鉴于此,本发明的第一方面,提出了一种WORD稿件的结构化方法,包括:获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;对所述待结构化的WORD稿件的结构内容进行识别;根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该技术方案中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
在上述技术方案中,优选地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该技术方案中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
在上述技术方案中,优选地,所述根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件的步骤,包括:将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;对匹配完所述样式信息的所述结构内容标记内容标签;根据所述XML标签文件将所述内容标签转换为对应的XML节点标签;根据所述XML节点标签输出所述目标XML标准文件。
在该技术方案中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
在上述技术方案中,优选地,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该技术方案中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
在上述技术方案中,优选地,在所述获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件的步骤之前,还包括:根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该技术方案中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
根据本发明的另一方面,还提出了一种WORD稿件的结构化装置,包括:获取模块,用于获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;识别模块,用于对所述待结构化的WORD稿件的结构内容进行识别;处理模块,用于根据所述获取模块获取的所述样式模板文件和所述XML标签文件对所述识别模块识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该技术方案中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
在上述技术方案中,优选地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该技术方案中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
在上述技术方案中,优选地,所述处理模块包括:加载子模块,用于将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;标记子模块,用于对匹配完所述样式信息的所述结构内容标记内容标签;转换子模块,用于根据所述XML标签文件将所述标记子模块标记的所述内容标签转换为对应的XML节点标签;输出子模块,用于根据所述转换子模块转换得到的所述XML节点标签输出所述目标XML标准文件。
在该技术方案中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
在上述技术方案中,优选地,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该技术方案中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
在上述技术方案中,优选地,WORD稿件的结构化装置还包括:生成模块,用于在所述获取模块获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件之前,根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该技术方案中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
通过以上技术方案,利用样式处理和使用WORD内容控件实现了WORD稿件的结构化,并且易用性强、可靠性高,便于WORD稿件到XML文件的转换。
附图说明
图1示出了本发明的实施例的WORD稿件的结构化方法的流程示意图;
图2示出了本发明的实施例的对WORD稿件中的结构内容进行结构化处理的方法流程示意图;
图3示出了本发明的实施例的WORD稿件的结构化装置的示意框图;
图4示出了本发明的实施例的XML标签文件的示意图;
图5示出了本发明的实施例的XML标准文件的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明的实施例的WORD稿件的结构化方法的流程示意图。
如图1所示,根据本发明的实施例的WORD稿件的结构化方法,具体包括以下流程步骤:
步骤102,获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件。
步骤104,对所述待结构化的WORD稿件的结构内容进行识别。
在该步骤中,具体可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
步骤106,根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该实施例中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
进一步地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该实施例中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
进一步地,如图2所示,在上述实施例中,步骤106可以具体执行为:
步骤1062,将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配。
步骤1064,对匹配完所述样式信息的所述结构内容标记内容标签。
在该步骤中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control RichText(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
步骤1066,根据所述XML标签文件将所述内容标签转换为对应的XML节点标签。
步骤1068,根据所述XML节点标签输出所述目标XML标准文件。
在该实施例中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
进一步地,在上述任一实施例中,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
进一步地,在上述任一实施例中,根据本发明的实施例的WORD稿件的结构化方法,在步骤102之前还包括如下步骤:
根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该实施例中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
图3示出了本发明的实施例的WORD稿件的结构化装置的示意框图。
如图3所示,根据本发明的实施例的WORD稿件的结构化装置300,具体包括:获取模块302、识别模块304和处理模块306。
其中,所述获取模块302用于获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;所述识别模块304用于对所述待结构化的WORD稿件的结构内容进行识别;所述处理模块306用于根据所述获取模块302获取的所述样式模板文件和所述XML标签文件对所述识别模块304识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
在该实施例中,当需要对待结构化的WORD稿件进行结构化处理时,可以获取适用于该待结构化的WORD稿件的XML标签文件与样式模板文件,其中,XML标签文件与样式模板文件存在一一对应的关系,并在识别出该待结构化的WORD稿件的结构内容确定其结构层次关系后,根据上述样式模板文件、XML标签文件对识别出的结构内容进行处理,实现对WORD稿件的结构化,以便输出目标XML标准文件,从而解决WORD稿件到XML文件的转换过程中的最大难题,易用性强、可靠性高。
其中,可以利用正则表达式、人工智能、样式匹配、特征相似度等算法识别待结构化的WORD稿件的结构内容。
进一步地,所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
在该实施例中,与XML标签文件对应的样式模板文件中包含有样式信息,具体地,在样式模板文件中以XML标签的形式命名定义样式信息,而XML标签的层次关系可以采用样式信息的基准样式进行层次表达,其中,样式信息至少包括样式名称和样式类型信息。
进一步地,在上述实施例中,所述处理模块306包括:加载子模块3062、标记子模块3064、转换子模块3066和输出子模块3068。
其中,所述加载子模块3062用于将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;所述标记子模块3064用于对匹配完所述样式信息的所述结构内容标记内容标签;所述转换子模块3066用于根据所述XML标签文件将所述标记子模块3064标记的所述内容标签转换为对应的XML节点标签;所述输出子模块3068用于根据所述转换子模块3066转换得到的所述XML节点标签输出所述目标XML标准文件。
在该实施例中,根据样式模板文件、XML标签文件对识别出的WORD稿件中的结构内容进行处理时,将样式模板文件引用为待结构化的WORD稿件的模板文件,即将样式模板文件中的样式信息加载到待结构化的WORD稿件中,以通过样式信息标记该WORD稿件中的结构内容,实现二者的匹配,以便于WORD稿件后续的结构化处理,然后为待结构化的WORD稿件中的结构内容进行内容标签的标记,并根据XML标签文件将该内容标签转换为对应的XML节点标签,如此,则可以基于该XML节点标签输出与该待结构化的WORD稿件的目标XML标准文件,实现WORD稿件的结构化,方便而快捷。
其中,可以利用WORD中自带的内容控件对在待结构化的WORD稿件中识别出来的结构内容进行内容标签的标记,该内容控件具体地可以为Content Control Rich Text(内容控制项中的格式文本块)类型的;进一步地,可以利用WORD的查找功能在整个WORD稿件中查找加载的样式信息,以便于内容标签的标记。
进一步地,在上述任一实施例中,所述内容标签包括:XML显式标签名称和XML节点属性信息;所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
在该实施例中,为了根据XML标签文件能够将待结构化的WORD稿件的内容标签准确地转换为对应的XML节点标签,则内容标签中应至少包括XML标签文件中的XML显式标签名称和XML节点属性信息,其中,XML显式标签名称一般为易于理解的中文名称;而XML标签文件中还应包括与XML显式标签名称对应的XML节点标签名称,以便于将中文名称转换成需要输出对应的XML节点标签名称,进而输出目标XML标准文件,进一步地,与样式模板文件对应的XML标签文件中还可以包括其样式类型信息,该样式类型信息至少包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别。
进一步地,根据本发明的实施例的WORD稿件的结构化装置300还包括:生成模块308,用于在所述获取模块302获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件之前,根据XML标准文件生成对应的XML标签文件和样式模板文件。
在该实施例中,为了在根据获取到的样式模板文件、XML标签文件对在待结构化的WORD稿件中识别出的结构内容进行结构化处理后,能够将其快速、方便而准确地转换成相应的目标XML标准文件,则需要事先根据用户需要的XML标准文件生成与其对应的XML标签文件和样式模板文件,以确保WORD稿件结构化方案的顺利实施。
下面结合图4和图5对本发明的实施例的WORD稿件的结构化方案进行详细说明。
当需要将WORD稿件转换为符合用户预期标准的XML文件(即XML标准文件),而在转换之前,需要将平层的WORD稿件标记成具有层次结构的稿件,即对稿件进行结构化,具体是将WORD稿件利用样式和内容控件进行结构化,主要包括以下内容:
(1)根据XML标准文件的输出标准制定XML标签文件和对应的样式模板文件。
在该步骤中,具体根据XML标准文件的schema(架构或模式,一份XML schema文件描述了可扩展标记语言文档的结构)定义易于理解的XML标签文件,并记录标签之间的对应关系,方便后续XML节点的直接输出。
另外,样式模板文件中以XML标签命名定义了样式(即样式信息),而XML标签的继承关系(或层次关系)可以用样式的基准样式进行层次表达;具体地,样式模板文件也是一个word模板(.dot)文件,而样式类型包括段落样式和字符样式,分别用于段落级别以及段内级别元素的拆分和识别,其主要目的是将预先定义好的样式拷贝到待结构化的WORD稿件中,方便后续稿件结构化时使用。
进一步地,XML标签文件中记录XML显式标签名(易于理解的中文标签名)、XML隐式标签名(即XML节点标签名称)、样式类型和XML节点属性信息,而样式模板文件中也记录了显示标签名;具体地,如图4所示,为一个XML标签文件的示例,其中:标签名(比如“中图分类号”)是显示标签;class属性的内容是隐式标签,即作为XML输出时的XML节点标签名称;styleType=“parachar style”代表可以是一个段落内容也可以是一个字符内容;“att_”开头的属性都是在XML输出时XML节点的属性(例如att_subj-group-type=“clc”),此XML标签文件对应输出的XML标准文件如图5所示。
(2)对待结构化的WORD稿件应用样式模板文件作为模板文件,以将预先定义好的样式拷贝到WORD稿件中,方便后续在对WORD稿件进行结构化识别时使用。
(3)利用正则表达式、样式匹配、人工智能、特征相似度等算法识别出待结构化的WORD稿件中的结构内容,进而可以对识别出的结构内容应用预先定义好的样式,即用样式在稿件中进行标识、记录,以建立样式与结构内容之间的对应关系。
(4)利用WORD自身的查找功能,在待结构化的WORD稿件全文查找定义的样式,并打上ContentControl(内容控制)标签(即内容标签),ContentControl标签显示的是易于理解的中文名称,具体可以利用WORD自身的ContentControl控件(即内容控件)将样式标引的内容打上标签,以便于查看结果,其中,ContentControl控件的tag属性显示显式标签名,title属性记录输出的XML节点属性信息,即ContentControl标签记录了XML显式标签名和XML节点属性信息。
(5)根据上述(1)中定义的XML标签文件,将上述(4)中在待结构化的WORD稿件中标记出的ContentControl标签转换为对应的XML标签,即将易于理解的中文名称转换为需要输出的XML节点标签名称,在XML输出时,直接读取WORD稿件中的ContentControl标签,并依据其tag和title的属性值转换成对应的XML信息。
综上,通过本发明的上述实施例,利用本发明Word稿件的结构化方案,可以在WORD中方便、快速地对稿件进行结构化,特别是为WORD转XML格式文件的输出提供了一种简单、快捷的方法。
以上结合附图详细说明了本发明的技术方案,WORD稿件到XML文件的转换过程中的最重要的WORD稿件的结构化问题,通过以上技术方案,利用样式处理和使用WORD内容控件得以解决,并且易用性强、可靠性高,便于后续WORD稿件到XML文件的转换。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种WORD稿件的结构化方法,其特征在于,包括:
获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;
对所述待结构化的WORD稿件的结构内容进行识别;
根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
2.根据权利要求1所述的WORD稿件的结构化方法,其特征在于,
所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
3.根据权利要求2所述的WORD稿件的结构化方法,其特征在于,所述根据所述样式模板文件和所述XML标签文件对识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件的步骤,包括:
将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;
对匹配完所述样式信息的所述结构内容标记内容标签;
根据所述XML标签文件将所述内容标签转换为对应的XML节点标签;
根据所述XML节点标签输出所述目标XML标准文件。
4.根据权利要求3所述的WORD稿件的结构化方法,其特征在于,
所述内容标签包括:XML显式标签名称和XML节点属性信息;
所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;
所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
5.根据权利要求1至4中任一项所述的WORD稿件的结构化方法,其特征在于,在所述获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件的步骤之前,还包括:
根据XML标准文件生成对应的XML标签文件和样式模板文件。
6.一种WORD稿件的结构化装置,其特征在于,包括:
获取模块,用于获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件;
识别模块,用于对所述待结构化的WORD稿件的结构内容进行识别;
处理模块,用于根据所述获取模块获取的所述样式模板文件和所述XML标签文件对所述识别模块识别出的结构内容进行处理,以将所述待结构化的WORD稿件转换为目标XML标准文件。
7.根据权利要求6所述的WORD稿件的结构化装置,其特征在于,
所述样式模板文件中包含样式信息,以及所述样式信息包括:样式名称和样式类型信息。
8.根据权利要求7所述的WORD稿件的结构化装置,其特征在于,所述处理模块包括:
加载子模块,用于将所述样式信息加载于所述待结构化的WORD稿件中,以使所述样式信息与所述结构内容进行匹配;
标记子模块,用于对匹配完所述样式信息的所述结构内容标记内容标签;
转换子模块,用于根据所述XML标签文件将所述标记子模块标记的所述内容标签转换为对应的XML节点标签;
输出子模块,用于根据所述转换子模块转换得到的所述XML节点标签输出所述目标XML标准文件。
9.根据权利要求8所述的WORD稿件的结构化装置,其特征在于,
所述内容标签包括:XML显式标签名称和XML节点属性信息;
所述XML标签文件内包括:XML显式标签名称、与所述XML显式标签名称对应的XML节点标签名称、样式类型信息和XML节点属性信息;
所述样式类型信息包括:段落样式和字符样式,以及所述样式名称与所述XML显式标签名称对应。
10.根据权利要求6至9中任一项所述的WORD稿件的结构化装置,其特征在于,还包括:
生成模块,用于在所述获取模块获取与待结构化的WORD稿件匹配的XML标签文件以及与所述XML标签文件对应的样式模板文件之前,根据XML标准文件生成对应的XML标签文件和样式模板文件。
CN201710247950.8A 2017-04-17 2017-04-17 Word稿件的结构化方法及word稿件的结构化装置 Expired - Fee Related CN108733638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710247950.8A CN108733638B (zh) 2017-04-17 2017-04-17 Word稿件的结构化方法及word稿件的结构化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710247950.8A CN108733638B (zh) 2017-04-17 2017-04-17 Word稿件的结构化方法及word稿件的结构化装置

Publications (2)

Publication Number Publication Date
CN108733638A true CN108733638A (zh) 2018-11-02
CN108733638B CN108733638B (zh) 2020-09-04

Family

ID=63924699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710247950.8A Expired - Fee Related CN108733638B (zh) 2017-04-17 2017-04-17 Word稿件的结构化方法及word稿件的结构化装置

Country Status (1)

Country Link
CN (1) CN108733638B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815447A (zh) * 2019-01-10 2019-05-28 浙江小泰科技有限公司 一种Word表单Schema处理系统
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN113065337A (zh) * 2021-02-26 2021-07-02 成都环宇知了科技有限公司 一种基于OpenXml的定位文档并进行评分的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251777B1 (en) * 2003-04-16 2007-07-31 Hypervision, Ltd. Method and system for automated structuring of textual documents
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251777B1 (en) * 2003-04-16 2007-07-31 Hypervision, Ltd. Method and system for automated structuring of textual documents
CN101055578A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 基于规则的文档内容挖掘器
CN102479248A (zh) * 2011-05-30 2012-05-30 北京中科希望软件股份有限公司 一种电子文档结构化处理的方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN111274768B (zh) * 2018-12-04 2022-02-22 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN109815447A (zh) * 2019-01-10 2019-05-28 浙江小泰科技有限公司 一种Word表单Schema处理系统
CN109815447B (zh) * 2019-01-10 2023-05-12 浙江小泰科技有限公司 一种Word表单Schema处理系统
CN112232032A (zh) * 2020-09-04 2021-01-15 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN112232032B (zh) * 2020-09-04 2023-08-18 科航(苏州)信息科技有限公司 docx文档的内容样式自动转换方法
CN113065337A (zh) * 2021-02-26 2021-07-02 成都环宇知了科技有限公司 一种基于OpenXml的定位文档并进行评分的方法及系统

Also Published As

Publication number Publication date
CN108733638B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
US8924415B2 (en) Schema mapping and data transformation on the basis of a conceptual model
US7343549B2 (en) Layout system, layout program, and layout method
CN108733638A (zh) Word稿件的结构化方法及word稿件的结构化装置
CN110866383B (zh) 一种交互式电子数据清单生成方法及系统
US20040221233A1 (en) Systems and methods for report design and generation
US20070250762A1 (en) Context-aware content conversion and interpretation-specific views
CN110083805A (zh) 一种将Word文件转换为EPUB文件的方法及系统
CN100461173C (zh) 电子归档系统和电子归档方法
CN109614504A (zh) 一种互联网电子书的管理系统及方法
CN101101600A (zh) 网络搜索中基于多种规则的元数据自动抽取方法
US10713425B2 (en) System and method for generating a proposal based on a request for proposal (RFP)
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
Huang The era of artificial intelligence and big data provides knowledge services for the publishing industry in China
CN106209936B (zh) 第三方系统数据获取方法和装置
GB2458692A (en) A process for generating database-backed, web-based documents
JP2002149676A (ja) マークアップ言語文書変換装置および方法
CN107609155B (zh) 一种基于xbrl标准的数据资产化模型的构建方法
CN107423271A (zh) 文档生成方法和装置
Li et al. [Retracted] The Research of Multimedia Complex Intelligent System in Financial Reporting Mode
Seels et al. Redefining the field: A collaborative effort
CN108984676A (zh) 一种基于xml的电子书跨终端自适应显示系统及方法
JP7086424B1 (ja) 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム
Castellanos et al. FACTS: an approach to unearth legacy contracts
CN118569233A (zh) 一种基于案件要素生成卷册的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200904