CN106776495B - 一种文档逻辑结构重建方法 - Google Patents

一种文档逻辑结构重建方法 Download PDF

Info

Publication number
CN106776495B
CN106776495B CN201611034443.8A CN201611034443A CN106776495B CN 106776495 B CN106776495 B CN 106776495B CN 201611034443 A CN201611034443 A CN 201611034443A CN 106776495 B CN106776495 B CN 106776495B
Authority
CN
China
Prior art keywords
document
paragraph
node
vector
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611034443.8A
Other languages
English (en)
Other versions
CN106776495A (zh
Inventor
侯霞
李宁
赵雪
杨鸿波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201611034443.8A priority Critical patent/CN106776495B/zh
Publication of CN106776495A publication Critical patent/CN106776495A/zh
Application granted granted Critical
Publication of CN106776495B publication Critical patent/CN106776495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提供一种文档逻辑结构重建方法,包括:步骤1、提取源文档的分段,并识别出每一段落的类型;具体包括:步骤11、获取每一段落的特征向量M=[m1 m2...mn];其中向量M具有n个分量:m1、m2……mn;其中每个分量表示一种格式信息,所述格式信息为以下的至少一种:字体大小、字型、大纲级别、行距、是否加黑、是否粗体、是否斜体;步骤12、利用预设的向量模板集合,对所述每一段落的向量进行匹配,以确定每一段落的角色;其中预设的向量模板集合中包含多个预定义的向量,且每一向量对应一种特定的角色类型;步骤2、根据源文档的每一段落的角色类型,构建出源文档的逻辑模型。

Description

一种文档逻辑结构重建方法
技术领域
本发明涉及信息技术领域,尤其是指一种文档逻辑结构重建方法。
背景技术
随着信息技术的发展,越来越多的数据采用电子形式存储,其中最常见的文档存储形式就是OOXML的字处理文档。本发明实施例中所称的“word文档”其不仅是指Microsoft公司推出的office软件中的word软件产生的文档,还包括一切采用与word软件兼容、相同、相似格式的文档格式。
Word格式的文档,其底层虽然是由开放的文档格式OOXML形式存储的,但是其中描述了复杂的与显现相关的文档格式信息,而内容只是文档格式的一部分。由于内容在存储时没有任何语义信息,因此非常不利于自动化的信息处理。如果对文档内容的章节逻辑结构进行重构,将word文档转化为带有语义信息的数据,则可以提高文档处理的自动化程度,使文档处理更快速、更便捷。
Word格式的文档,其底层是采用OOXML形式存储的,且文档中的各级章节标题和正文在OOXML文档中都是以段落元素<w:p>存储的,只是段落的格式属性描述不同。例如,图1中给出了一个段示例性的word文档,包括一级章节标题“2系统方案”和一段正文“本文提出一种能够支持公式编辑的在线编辑器的实现方案。”,其对应的OOXML代码分别如图2a和图2b所示。
图2a示出了一级标题“2系统方案”在<w:p>标签中,<w:p>标签下包含属性标签<w:pPr>说明其引用a3样式。图2b示出了一级标题下的正文“本文提出一种能够支持公式编辑的在线编辑器的实现方案。”同样存储在<w:p>标签中,其属性标签<w:rPr>说明其引用aff8样式和首行缩进的值。这两个<w:p>标签在OOXML中是并列存储的,相互之间没有逻辑关系。虽然这种格式显现上的差别,可以使人非常轻易的理解,但是系统则无法进行自动化处理;即系统无法区分出哪一部分是标题哪一部分是正文。另外,段落在OOXML中是顺序存储的,章节标题和内容并没有逻辑上的包含关系。因此,自动化地识别word文档的章节逻辑结构对于后期文档信息处理、挖掘和利用是非常有用的。
发明内容
针对现有技术中存在的word格式的文档中的章节标题和正文无法被系统自动识别的问题,本发明实施例要解决的技术问题是提出一种能够帮助系统识别的文档逻辑结构重建方法。
为了解决上述问题,本发明实施例提出了一种文档逻辑结构重建方法,包括:
步骤1、针对源文档进行分段,并识别出每一段落的角色类型;具体包括:
步骤11、获取每一段落的特征向量M=[m1 m2 ... mn];其中每一段落的特征向量M具有n个分量:m1、m2……mn;其中每个分量表示一种格式信息,所述格式信息为以下的至少一种:字体大小、字型、大纲级别、行距、是否加黑、是否粗体、是否斜体;
步骤12、利用预设的向量模板集合,对所述每一段落的向量进行匹配,以确定每一段落的角色;其中预设的向量模板集合中包含多个预定义的向量,且每一向量对应一种特定的角色类型;
步骤2、根据源文档的每一段落的角色类型,构建出源文档的逻辑模型。
其中,所述步骤12具体包括:针对源文档的每一段落,利用以下公式计算每一段落的向量M与向量模板集合中的预定义的向量M角色之间的相似度:
Figure BDA0001159457400000021
其中
ki是权值,表示计算相似度时特征分量i的贡献度,
Figure BDA0001159457400000022
mmaxi是第i个分量的最大值。
其中,所述方法还包括:
设计通用的文档模型以描述文档各部分内容之间的逻辑关系;其中所述通用的文档模型包括用于表示文档的根节点,所述根节点有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,其中所述用于表示内容的子节点包括5种内容单元:段落、公式、列表、表格、图形;其中所述用于表示文档的根节点可以直接包含0‐n个一级章节,或者通过一级章节外部引用的方式包含0‐n个外部定义的一级章节;
所述每一一级章节可以包含有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含0‐n个二级章节;
以此类推,每个章节节点都可以包含一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含0‐n个下一级章节;且包含下一级章节都可以直接包含,或通过外部引用的方式包含。
其中,所述步骤2具体包括:利用预设的通用的文档模型,并根据源文档每一段落的类型,生成源文档的逻辑结构模型。
其中,所述每一段落的向量为:
M=[字体大小 字型 大纲级别 是否斜体 是否加黑 行距]。
其中,所述方法还包括:根据每一段落的特征向量M的格式信息预赋值。
其中,所述步骤2具体包括:
步骤21、识别段落的角色类型;
步骤22、为当前段落创建XML节点,并为该XML节点的元素赋级别值D当前
步骤23、获取当前节点的父节点的级别值D,判断当前节点的父节点的级别值D≥当前节点的级别值D当前是否成立,如果是则进入步骤24,如果否则进入步骤25;
步骤24、将当前节点的父节点的级别值D赋值给当前节点的父节点的父节点,并将当前节点的父节点的级别值D‐1;即D=D,且D=D‐1;然后返回步骤23;
步骤25、将当前节点添加到当前节点的父节点的孩子;然后将当前节点作为父节点,并将父节点的级别数+1。
本发明的上述技术方案的有益效果如下:上述技术方案提出了一种文档逻辑结构重建方法,能够提取源文档每一段落的OOXML代码,根据其格式特征生成特征向量,然后将源文档的特征向量与向量模板集合中预设的向量模板进行相似度度量以确定最相似的向量模板,最终确定该段落的角色类型。基于预设的通用的文档模型的逻辑规则,根据每个段落的角色和段落间的关系重构源文档的逻辑结构。这样就可以对源文档进行处理,最终将word文档构建为一个XML格式的带有逻辑结构的目标文档。该XML格式的文档除了仍然包含源word文档的内容之外,还能够清晰地描述出源word文档的章节逻辑结构。由此可以看出,本发明实施例为提高文档信息处理的自动化、进行文档数据的深入分析和挖掘提供了数据保障。
附图说明
图1为示例性的一段word格式文档;
图2a为图1中的章节标题对应的OOXML格式代码;
图2b为图1中的正文对应的OOXML格式代码;
图3为本发明实施例中通用的文档模型的结构示意图;
图4为本发明实施例中根据识别出的段落的角色进行文档逻辑结构重建的方法流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提出了一种文档逻辑结构重建方法,包括:
步骤1、构造通用的文档模型,包括:
设计通用的文档模型来描述文档各部分内容之间的逻辑关系,文档模型需要容纳常用的文档内容类型,并描述文档的各部分逻辑蕴含关系。图3给出用Schema描述的模型结构。其中文档的根节点“文档”下有两个子节点:即“文档元数据”和“内容”节点;其中“文档元数据”用于描述文档本身的一些元数据;“内容”节点包括段落、公式、列表、表格、图形四类内容单元。
文档可以包含0‐n个一级章节,包含形式有两种:一种是直接包含节点“一级章节”,另一种是通过“一级章节外部引用”的方式包含一个外部定义的“一级章节”。
章节的级别可以根据需要定义,各级章节的结构类似,都包含“基本元数据”、“内容”、以及0‐n个下一级章节。其中,“基本元数据”用于描述文档的标题、副标题的元数据;“内容”内容包括段落、公式、列表、表格、图形四类内容单元。与“文档”包含“一级章节”类似,下一级章节可以通过直接包含和间接引用外部文档两种形式进行包含。这种章节之间的蕴含关系可以根据需要一直延伸至三级、四级,……。
本发明实施例所提出的通用的文档模型,并没有限定文档的类型是科技论文、通知、标准或其他,而是抽取各种文档的通用描述需求,因此是一种通用的文档模型。
步骤2、word文档的逻辑结构重建;具体包括:
逻辑结构重建的过程包括两个重要问题:
(1)识别每个段落的角色
通过步骤1中获取的通用的文档模型,可以确定针对上述文档模型的定义,段落的角色可以是某级标题或者是正文。识别的过程是个相似度计算问题。包含如下步骤:
(1.1)首先定义模型向量M=[m1 m2 ... mn];其中模型向量M具有n个分量:m1、m2……mn;其中每个分量表示一种格式信息,例如字体大小、字型、大纲级别、行距等。格式特征中有些属性是数值型的,例如字体大小;有些是非数值型的,例如字型。对于非数值性属性,可以根据预先定义的映射关系对应关系对其进行量化;例如,宋体为2001、楷体为2002……。在本发明实施例的一个具体事例中,该模型向量的具体分量可以为:
M=[字体大小 字型 大纲级别 斜体 加黑 行距]
(1.2)针对待处理的word文档的类型格式特征,为每个角色的向量模型赋值。
例如,某个期刊的格式要求为:一级标题的字体大小为四号,字型为黑体,加黑,行距为1.5;正文的字体大小为五号,字型为宋体,不加黑,行距为1;……。其相应的角色模型为:
M一级标题=[16 2 1 0 1 1.5]
M正文=[10.5 1 0 0 0 1]
在赋值的过程中涉及到一个问题是属性值的数值化。字体大小、行距等在OOXML中直接用数值表示,但是字型、加黑等属性并非数值,因此需要将其进行数值化。例如对字体是否加黑,用“1”表示加黑,用“0”表示否;预先给每种字型指定一个对应的数值。
依次,可根据特定类型文档的格式要求,为每个角色的向量模型赋值。
(1.3)计算实际段落与模型的相似度,判断段落角色。
提取待处理文档中的每个段落,提取段落的格式特征并为其特征向量M赋值。根据下述公式计算该段落和某个角色模型的相似度,
Figure BDA0001159457400000061
其中ki是权值,表示特征分量的计算相似度时的贡献度,
Figure BDA0001159457400000062
mmaxi是第i个分量的最大值,经过该处理可保证计算出来的相似度的值的范围为[0,1]。权值的设置可以根据待处理文档类型的特征来设置。例如,国家标准文档的编写一般大纲级别的使用是比较规范,此时可以将大纲级别分量对应的权值设大以提高其影响。
该段落和哪个角色模型的相似度最大,即判定该段落为哪个角色。例如一个段落与二级标题的相似度最大,则判定该段落为二级标题。
(2)文档逻辑结构重建
逻辑结构重建是将word文档转换为符合文档模型的XML文档,其实质是根据前面识别出的各个段落的角色,根据各部分之间的关系构造文档的逻辑层次结构。
设目标XML中根节点“文档”的级别数值为0,一级标题的级别数值为1,二级标题的级别数值为2,以此类推;正文的级别数值最大。文档逻辑结构重建的流程图见图4。
经过上述过程,可将word文档构建为一个XML格式的文档。该XML格式的文档除了仍然包含源word格式的文档的内容之外,还能够清晰地描述出源word格式的文档的逻辑结构。由此可以看出,本发明实施例为提高文档信息处理的自动化、进行文档数据的深入分析和挖掘提供了数据保障。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种文档逻辑结构重建方法,其特征在于,包括:
步骤1、针对源文档进行分段,并识别出每一段落的角色类型;具体包括:
步骤11、获取每一段落的特征向量M=[m1 m2 ... mn];其中每一段落的特征向量具有n个分量:m1、m2......mn;其中每个分量表示一种格式信息,所述格式信息为以下的至少一种:字体大小、字型、大纲级别、行距、是否加黑、是否粗体、是否斜体;
步骤12、利用预设的向量模板集合,对所述每一段落的向量进行匹配,以确定每一段落的角色;其中预设的向量模板集合中包含多个预定义的向量,且每一向量对应一种特定的角色类型;
步骤2、根据源文档的每一段落的角色类型,构建出源文档的逻辑模型;
所述步骤12具体包括:针对源文档的每一段落,利用以下公式计算每一段落的向量M与向量模板集合中的预定义的向量M角色之间的相似度:
Figure FDA0002438986470000011
其中
ki是权值,表示计算相似度时特征分量i的贡献度,
Figure FDA0002438986470000012
mmaxi是第i个段落的分量和第i段落角色的分量的最大值;m段i为第i段落的分量,m角色i为第i段落角色的分量;
所述步骤2具体包括:
步骤21、识别段落的角色类型;
步骤22、为当前段落创建XML节点,并为该XML节点的元素赋级别值D当前
步骤23、获取当前节点的父节点的级别值D,判断当前节点的父节点的级别值D≥当前节点的级别值D当前是否成立,如果是则进入步骤24,如果否则进入步骤25;
步骤24、将当前节点的父节点的级别值D赋值给当前节点的父节点的父节点,并将当前节点的父节点的级别值D-1;即D=D,且D=D-1;然后返回步骤23;
步骤25、将当前节点添加到当前节点的父节点的孩子;然后将当前节点作为父节点,并将父节点的级别数+1。
2.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述方法还包括:
设计通用的文档模型以描述文档各部分内容之间的逻辑关系;其中所述通用的文档模型包括用于表示文档的根节点,所述根节点有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,其中所述用于表示内容的子节点包括5种内容单元:段落、公式、列表、表格、图形;其中所述用于表示文档的根节点可以直接包含O-n个一级章节,或者通过一级章节外部引用的方式包含O-n个外部定义的一级章节;
每一所述一级章节可以包含有一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含O-n个二级章节;
以此类推,每个章节节点都可以包含一个用于表示文档元数据的子节点和一个用于表示内容的子节点,还可以包含O-n个下一级章节;且包含下一级章节都可以直接包含,或通过外部引用的方式包含。
3.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述步骤2具体包括:利用预设的通用的文档模型,并根据源文档每一段落的类型,生成源文档的逻辑结构模型。
4.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述每一段落的向量为:
M=[字体大小 字型 大纲级别 是否斜体 是否加黑 行距]。
5.根据权利要求1所述的文档逻辑结构重建方法,其特征在于,所述方法还包括:根据每一段落的特征向量M的格式信息预赋值。
CN201611034443.8A 2016-11-23 2016-11-23 一种文档逻辑结构重建方法 Active CN106776495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611034443.8A CN106776495B (zh) 2016-11-23 2016-11-23 一种文档逻辑结构重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611034443.8A CN106776495B (zh) 2016-11-23 2016-11-23 一种文档逻辑结构重建方法

Publications (2)

Publication Number Publication Date
CN106776495A CN106776495A (zh) 2017-05-31
CN106776495B true CN106776495B (zh) 2020-06-09

Family

ID=58971055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611034443.8A Active CN106776495B (zh) 2016-11-23 2016-11-23 一种文档逻辑结构重建方法

Country Status (1)

Country Link
CN (1) CN106776495B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536683A (zh) * 2018-04-18 2018-09-14 同方知网数字出版技术股份有限公司 一种基于机器学习的论文碎片化信息抽取方法
CN111274768B (zh) * 2018-12-04 2022-02-22 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN116702723A (zh) * 2018-12-25 2023-09-05 创新先进技术有限公司 一种合同段落标注模型的训练方法、装置及设备
CN111460083B (zh) * 2020-03-31 2023-07-25 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN112651218A (zh) * 2020-12-31 2021-04-13 盘锦丙衡商务服务有限公司 一种标书自动生成方法、管理方法、介质以及计算机
CN113362026A (zh) * 2021-06-04 2021-09-07 北京金山数字娱乐科技有限公司 文本处理方法及装置
CN113361256A (zh) * 2021-06-24 2021-09-07 上海真虹信息科技有限公司 一种基于Aspose技术的Word文档快速解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1825302A (zh) * 2005-02-22 2006-08-30 中国电子技术标准化研究所 一种xml文档处理方法
CN102103574B (zh) * 2009-12-17 2013-04-24 北大方正集团有限公司 一种格式化输出书版小样文件内容的方法及系统
CN101799825B (zh) * 2010-03-05 2012-04-25 南开大学 基于扩展邻接矩阵的xml文档结构及语义相似性计算方法
CN103186510B (zh) * 2011-12-30 2016-08-03 北大方正集团有限公司 一种转换文档格式的方法和装置

Also Published As

Publication number Publication date
CN106776495A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776495B (zh) 一种文档逻辑结构重建方法
US8442998B2 (en) Storage of a document using multiple representations
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
US7689527B2 (en) Attribute extraction using limited training data
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20120278705A1 (en) System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents
CN111178079B (zh) 一种三元组抽取方法及装置
GB2555207A (en) System and method for identifying passages in electronic documents
Sasidhar et al. A survey on named entity recognition in Indian languages with particular reference to Telugu
CN107590119B (zh) 人物属性信息抽取方法及装置
CN114462384A (zh) 一种面向数字对象建模的元数据自动生成装置
CN112925879A (zh) 信息处理装置、存储介质及信息处理方法
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Wang A cross-domain natural language interface to databases using adversarial text method
Klampfl et al. Machine learning techniques for automatically extracting contextual information from scientific publications
Negara et al. Topic modeling using latent dirichlet allocation (LDA) on twitter data with Indonesia keyword
CN113836316A (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
US11836445B2 (en) Spreadsheet table transformation
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN110967030A (zh) 一种用于车载导航的信息处理方法及其装置
CN114970543A (zh) 一种众包设计资源的语义分析方法
US10474726B2 (en) Generation of digital documents
CN111723177B (zh) 信息提取模型的建模方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant