CN107145479A

CN107145479A - 基于文本语义的篇章结构分析方法

Info

Publication number: CN107145479A
Application number: CN201710307876.4A
Authority: CN
Inventors: 张梦迪; 郑锦光; 段清华; 吴珂皓; 鲍捷; 马新磊
Original assignee: Beijing Wen Jie Internet Technology Co Ltd
Current assignee: Hefei Tupu Intelligent Technology Co ltd
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2017-09-08
Anticipated expiration: 2037-05-04
Also published as: CN107145479B

Abstract

本发明公开了一种基于文本语义的篇章结构分析方法，其步骤如下：步骤1，数据获取；步骤2，正文抽取；步骤3，标题识别和抽取；步骤4，层级结构构建。本发明可以解决纯文本的文档结构信息还原，为文本挖掘任务铺垫基础等技术问题。

Description

基于文本语义的篇章结构分析方法

技术领域

本发明涉及一种文档语义信息分析方法。

背景技术

文本结构是一种天然的文档语义信息，可以辅助阅读者理解文档的层次。文档写作者通常使用视觉手段和语义手段相结合的方法来设计文档结构。视觉信息如字体样式、页面布局等，语义信息包括使用多级标题、区分标题和正文、段落顺序安排等。

文本挖掘(Text Mining)技术是指使用计算机程序自动处理文本内容，对有价值的文本信息进行挖掘和抽取。文本挖掘是一个综合计算机技术，涉及语言学模型、自然语言处理技术、机器学习算法等。

从文档内容的语义角色来说，文档篇章结构一般包括：文档标题、章节标题、章节子标题、正文段落。获取文档的结构信息，对于很多文本信息的挖掘任务十分有帮助，比如在丰富的结构信息基础上进行细粒度的信息抽取、文档检索等。互联网上存在大量的文档数据，而绝大部分文档是非结构化或半结构化的文档格式(此处的非结构化和半结构化，是指机器可读但不易处理的文档格式，如PDF；详见W3C语义数据评级)。以PDF为例的信息抽取，一般先通过开源工具将PDF转化为TXT文本，再进行具体的文本挖掘任务，以减小任务复杂度。然而这个过程会严重丢失掉很多原文的视觉信息，而使文本结构的还原很困难。

发明内容

本发明的目的是提供一种基于文本语义的篇章结构分析方法，以解决纯文本的文档结构信息还原，为文本挖掘任务铺垫基础等技术问题。

为了实现上述发明目的，本发明所采用的分析方法步骤如下：

步骤1，数据获取；

101纯文本数据，使用开源工具将待处理文档转为机器可读的TXT格式，获取机器不可读格式的纯文本TXT数据；

步骤2，正文抽取；

102噪声内容过滤，过滤对结构抽取任务而言的噪音内容，包括：空行、页眉页脚、表格内容；

103目录和正文分割，对于有目录的文本，进行目录和正文的分割；目录部分识别出来后将其所有行以及之前行的内容剔除，仅保留其后的正文内容；

104正文内容分行，切分正文内容为行列表，为之后每一行内容的判断做准备；

步骤3，标题识别和抽取，

105初始化根节点，初始化文档结构树的根节点，作为结构树的顶层节点。一个结构节点代表文章的一个章节结构，包括章节标题内容、章节标题层级、章节父节点、内容段落列表；根节点的标题内容设置为文章标题，标题层级设置为最高级，父节点设置为空，内容段落列表暂设为空；同时设置当前节点为根节点；

106遍历每一行，顺序处理正文中的每一行，进入107步骤判断逻辑；每一次遍历时，记录一个当前行的指针，进入107处理模块；

107识别是否为标题，使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题；如果识别某一行为标题时，转入109处理模块；反之进入110处理模块；

108标题层级分类，使用标题层级分类器判别一个标题是第几层级的标题；根据经验语义知识，设定不同种类标题的层级关系：判断结束后，更新当前节点的标题层级信息；

109初始化一个新节点，如果107处理模块返回为真时，进入当前处理模块；初始化一个节点，设置节点的标题内容为107模块处理的行的内容；设置新节点的标题层级、父节点、内容段落暂时为空；更改新节点为当前处理节点，进入112处理模块；

110识别是否为内容段落，如果107处理模块返回为假时，进入当前处理模块；使用内容段落识别器识别当前行是否为内容段落；内容段落识别器是一个融合了段落特征信息的二分类器，主要用来剔除正文中的噪声内容，作为102模块处理遗漏情况的补充；内容段落分类器主要用到的特征是行中是否包含句子特征；如果识别结果为真则进入111处理模块；反之返回106处理模块；

步骤4，层级结构构建，

111更新当前行到当前节点的内容列表中；更新当前行的内容到当前节点的内容列表尾部，进入116处理模块。

112判断新节点是否比当前节点层级高，比较新节点和当前节点的标题层级的大小情况；如果新节点比当前节点的标题层级高，则进入115处理模块；如果新节点比当前节点的标题层级低，则进入113处理模块；如果新节点和当前节点的标题层级相等，则进入114处理模块；

113设置新节点为当前节点的子节点，更新新节点的父节点为当前节点；114设置新节点为当前节点的兄弟节点，更新新节点的父节点为当前节点的父节点；

115设置新节点为当前节点父节点的兄弟节点，更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点；

116判断循环是否结束，判断正文是否处理完毕；如果是则进入117处理模块；反之返回到106处理模块；

117返回根节点，返回文档结构树的根节点引用，以此节点为入口可以回溯整个文档结构。

本发明的优点：本发明方法能够极大的还原了纯文本的文档结构信息，为后续文本挖掘任务铺垫了基础。本发明方法框架通用，可广泛地应用于智能信息处理。

附图说明

图1是本发明的基于文本语义的文档提取过程流程图。

具体实施方式

下面结合实施例详细描述本发明。

一、数据获取

101纯文本数据。获取机器不可读格式如PDF、图片等的纯文本TXT数据。可使用开源工具将待处理文档转为机器可读的TXT格式。比如使用PDFBOX将PDF文档解析为TXT文档，或使用OCR技术将JEPG格式的扫描文件转化为TXT文档。

二、正文抽取

102噪声内容过滤。过滤对结构抽取任务而言的噪音内容，如空行、页眉页脚、表格内容等。页眉页脚可根据每个页的重复信息进行过滤，或基于规则进行特定种类文档的页眉页脚过滤。表格内容可能会影响层级结构判断，需要进行表格识别和剔除。

103目录和正文分割。对于有目录的文本，进行目录和正文的分割。遍历每一行，判断当前行是否为目录起始行、是否为目录条目索引行、是否为目录终止行。目录部分识别出来后将其所有行以及之前行的内容剔除，仅保留其后的正文内容。

104正文内容分行。切分正文内容为行列表，为之后每一行内容的判断做准备。断行可以根据PDF转化为TXT后保留的换行符进行分割。

三、标题识别和抽取

105初始化根节点。初始化文档结构树的根节点，作为结构树的顶层节点。一个结构节点代表文章的一个章节结构，包括了章节标题内容、章节标题层级、章节父节点、内容段落列表。根节点的标题内容设置为文章标题，标题层级设置为最高级，父节点设置为空，内容段落列表暂设为空。同时设置当前节点为根节点。

106遍历每一行。顺序处理正文中的每一行，进入107步骤判断逻辑。每一次遍历时，记录一个当前行的指针。进入107处理模块。

107识别是否为标题。使用标题识别器识别某一行是否为标题。标题识别器是一种基于规则知识特征的二分类器。使用特征包括是否以像”一、”、”1.”等这样标题前缀。这些文本特征不需要依赖视觉信息就能组织文章的结构语义。如果识别某一行为标题时，转入109处理模块；反之进入110处理模块。

108标题层级分类。使用标题层级分类器判别一个标题是第几层级的标题。标题层级分类器是是一个基于规则知识的多分类器。根据经验语义知识，设定不同种类标题的层级关系：比如，以数字汉字如”一二三”开头的标题为同级且设为一级，以阿拉伯数字”123”开头的标题为同级标题且都为二级标题，依次类推。判断结束后，更新当前节点的标题层级信息。

109初始化一个新节点。如果107处理模块返回为真时，进入当前处理模块。初始化一个节点，设置节点的标题内容为107模块处理的行的内容。设置新节点的标题层级、父节点、内容段落暂时为空。更改新节点为当前处理节点。进入112处理模块。

110识别是否为内容段落。如果107处理模块返回为假时，进入当前处理模块。使用内容段落识别器识别当前行是否为内容段落。内容段落识别器是一个融合了段落特征信息的二分类器，主要用来剔除正文中的噪声内容，作为102模块处理遗漏情况的补充。内容段落分类器主要用到的特征是行中是否包含句子特征。如果识别结果为真则进入111处理模块；反之返回106处理模块。

四、层级结构构建

111更新当前行到当前节点的内容列表中。更新当前行的内容到当前节点的内容列表尾部。进入116处理模块。

112判断新节点是否比当前节点层级高。比较新节点和当前节点的标题层级的大小情况。如果新节点比当前节点的标题层级高，则进入115处理模块；如果新节点比当前节点的标题层级低，则进入113处理模块；如果新节点和当前节点的标题层级相等，则进入114处理模块。

113设置新节点为当前节点的子节点。更新新节点的父节点为当前节点。114设置新节点为当前节点的兄弟节点。更新新节点的父节点为当前节点的父节点。

115设置新节点为当前节点父节点的兄弟节点。更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点。

116判断循环是否结束。判断正文是否处理完毕。如果是则进入117处理模块；反之返回到106处理模块。

117返回根节点。返回文档结构树的根节点引用。以此节点为入口可以回溯整个文档结构。

Claims

1.基于文本语义的篇章结构分析方法，其步骤如下：

步骤1，数据获取；

步骤2，正文抽取；

步骤3，标题识别和抽取，

步骤4，层级结构构建，