CN107145479B - 基于文本语义的篇章结构分析方法 - Google Patents

基于文本语义的篇章结构分析方法 Download PDF

Info

Publication number
CN107145479B
CN107145479B CN201710307876.4A CN201710307876A CN107145479B CN 107145479 B CN107145479 B CN 107145479B CN 201710307876 A CN201710307876 A CN 201710307876A CN 107145479 B CN107145479 B CN 107145479B
Authority
CN
China
Prior art keywords
node
content
title
current
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710307876.4A
Other languages
English (en)
Other versions
CN107145479A (zh
Inventor
张梦迪
郑锦光
段清华
吴珂皓
鲍捷
马新磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Tupu Intelligent Technology Co ltd
Original Assignee
Memect Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Memect Technology Co ltd filed Critical Memect Technology Co ltd
Priority to CN201710307876.4A priority Critical patent/CN107145479B/zh
Publication of CN107145479A publication Critical patent/CN107145479A/zh
Application granted granted Critical
Publication of CN107145479B publication Critical patent/CN107145479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本语义的篇章结构分析方法,其步骤如下:步骤1,数据获取;步骤2,正文抽取;步骤3,标题识别和抽取;步骤4,层级结构构建。本发明可以解决纯文本的文档结构信息还原,为文本挖掘任务铺垫基础等技术问题。

Description

基于文本语义的篇章结构分析方法
技术领域
本发明涉及一种文档语义信息分析方法。
背景技术
文本结构是一种天然的文档语义信息,可以辅助阅读者理解文档的层次。文档写作者通常使用视觉手段和语义手段相结合的方法来设计文档结构。视觉信息如字体样式、页面布局等,语义信息包括使用多级标题、区分标题和正文、段落顺序安排等。
文本挖掘(Text Mining)技术是指使用计算机程序自动处理文本内容,对有价值的文本信息进行挖掘和抽取。文本挖掘是一个综合计算机技术,涉及语言学模型、自然语言处理技术、机器学习算法等。
从文档内容的语义角色来说,文档篇章结构一般包括:文档标题、章节标题、章节子标题、正文段落。获取文档的结构信息,对于很多文本信息的挖掘任务十分有帮助,比如在丰富的结构信息基础上进行细粒度的信息抽取、文档检索等。互联网上存在大量的文档数据,而绝大部分文档是非结构化或半结构化的文档格式(此处的非结构化和半结构化,是指机器可读但不易处理的文档格式,如PDF;详见W3C语义数据评级)。以PDF为例的信息抽取,一般先通过开源工具将PDF转化为TXT文本,再进行具体的文本挖掘任务,以减小任务复杂度。然而这个过程会严重丢失掉很多原文的视觉信息,而使文本结构的还原很困难。
发明内容
本发明的目的是提供一种基于文本语义的篇章结构分析方法,以解决纯文本的文档结构信息还原,为文本挖掘任务铺垫基础等技术问题。
为了实现上述发明目的,本发明所采用的分析方法步骤如下:
步骤1,数据获取;
101获取纯文本数据,使用开源工具将待处理机器不可读格式文档转为机器可读的TXT格式;
步骤2,正文抽取;
102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;
103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;
104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;
步骤3,标题识别和抽取,
105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点,一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;
106遍历每一行,顺序处理正文中的每一行,每一次遍历时,记录一个当前行的指针,进入107步骤;
107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入109;反之进入110;
108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;
109初始化一个新节点,设置新节点的标题内容为107步骤处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112;
110识别是否为内容段落,使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102步骤遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为是则进入111;反之返回106;
步骤4,层级结构构建,
111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116;
112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115;如果新节点比当前节点的标题层级低,则进入113;如果新节点和当前节点的标题层级相等,则进入114;
113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;进入116;
114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;进入116;
115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;进入116;
116判断循环是否结束,判断正文是否处理完毕;如果是则进入117;反之返回到106;
117返回根节点,返回文档结构树的根节点引用,以此节点为入口回溯整个文档结构。
本发明的优点:本发明方法能够极大的还原了纯文本的文档结构信息,为后续文本挖掘任务铺垫了基础。本发明方法框架通用,可广泛地应用于智能信息处理。
附图说明
图1是本发明的基于文本语义的文档提取过程流程图。
具体实施方式
下面结合实施例详细描述本发明。
一、数据获取
101获取纯文本数据。获取机器不可读格式如PDF、图片等的纯文本TXT数据。可使用开源工具将待处理文档转为机器可读的TXT格式。比如使用PDFBOX将PDF文档解析为TXT文档,或使用OCR技术将JEPG格式的扫描文件转化为TXT文档。
二、正文抽取
102噪声内容过滤。过滤对结构抽取任务而言的噪音内容,如空行、页眉页脚、表格内容等。页眉页脚可根据每个页的重复信息进行过滤,或基于规则进行特定种类文档的页眉页脚过滤。表格内容可能会影响层级结构判断,需要进行表格识别和剔除。
103目录和正文分割。对于有目录的文本,进行目录和正文的分割。遍历每一行,判断当前行是否为目录起始行、是否为目录条目索引行、是否为目录终止行。目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容。
104正文内容分行。切分正文内容为行列表,为之后每一行内容的判断做准备。断行可以根据PDF转化为TXT后保留的换行符进行分割。
三、标题识别和抽取
105初始化根节点。初始化文档结构树的根节点,作为结构树的顶层节点。一个结构节点代表文章的一个章节结构,包括了章节标题内容、章节标题层级、章节父节点、内容段落列表。根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空。同时设置当前节点为根节点。
106遍历每一行。顺序处理正文中的每一行,每一次遍历时,记录一个当前行的指针,进入107步骤。
107识别是否为标题。使用标题识别器识别某一行是否为标题。标题识别器是一种基于规则知识特征的二分类器。使用特征包括是否以像”一、”、”1.”等这样标题前缀。这些文本特征不需要依赖视觉信息就能组织文章的结构语义。如果识别某一行为标题时,转入108;反之进入110。
108标题层级分类。使用标题层级分类器判别一个标题是第几层级的标题。标题层级分类器是是一个基于规则知识的多分类器。根据经验语义知识,设定不同种类标题的层级关系:比如,以数字汉字如”一二三”开头的标题为同级且设为一级,以阿拉伯数字”123”开头的标题为同级标题且都为二级标题,依次类推。判断结束后,更新当前节点的标题层级信息。
109初始化一个新节点。设置新节点的标题内容为107步骤处理的行的内容。设置新节点的标题层级、父节点、内容段落暂时为空。更改新节点为当前处理节点。进入112。
110识别是否为内容段落。使用内容段落识别器识别当前行是否为内容段落。内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102步骤遗漏情况的补充。内容段落分类器主要用到的特征是行中是否包含句子特征。如果识别结果为是则进入111;反之返回106。
四、层级结构构建
111更新当前行到当前节点的内容列表中。更新当前行的内容到当前节点的内容列表尾部。进入116。
112判断新节点是否比当前节点层级高。比较新节点和当前节点的标题层级的大小情况。如果新节点比当前节点的标题层级高,则进入115;如果新节点比当前节点的标题层级低,则进入113;如果新节点和当前节点的标题层级相等,则进入114。
113设置新节点为当前节点的子节点。更新新节点的父节点为当前节点。进入116.
114设置新节点为当前节点的兄弟节点。更新新节点的父节点为当前节点的父节点。进入116。
115设置新节点为当前节点父节点的兄弟节点。更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点。进入116。
116判断循环是否结束。判断正文是否处理完毕。如果是则进入117;反之返回到106。
117返回根节点。返回文档结构树的根节点引用。以此节点为入口回溯整个文档结构。

Claims (1)

1.基于文本语义的篇章结构分析方法,其步骤如下:
步骤1,数据获取;
101获取纯文本数据,使用开源工具将待处理机器不可读格式文档转为机器可读的TXT格式;
步骤2,正文抽取;
102噪声内容过滤,过滤对结构抽取任务而言的噪音内容,包括:空行、页眉页脚、表格内容;
103目录和正文分割,对于有目录的文本,进行目录和正文的分割;目录部分识别出来后将其所有行以及之前行的内容剔除,仅保留其后的正文内容;
104正文内容分行,切分正文内容为行列表,为之后每一行内容的判断做准备;
步骤3,标题识别和抽取,
105初始化根节点,初始化文档结构树的根节点,作为结构树的顶层节点,一个结构节点代表文章的一个章节结构,包括章节标题内容、章节标题层级、章节父节点、内容段落列表;根节点的标题内容设置为文章标题,标题层级设置为最高级,父节点设置为空,内容段落列表暂设为空;同时设置当前节点为根节点;
106遍历每一行,顺序处理正文中的每一行,每一次遍历时,记录一个当前行的指针,进入107步骤;
107识别是否为标题,使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题;如果识别某一行为标题时,转入108;反之进入110;
108标题层级分类,使用标题层级分类器判别一个标题是第几层级的标题;根据经验语义知识,设定不同种类标题的层级关系:判断结束后,更新当前节点的标题层级信息;
109初始化一个新节点,设置新节点的标题内容为107步骤处理的行的内容;设置新节点的标题层级、父节点、内容段落暂时为空;更改新节点为当前处理节点,进入112;
110识别是否为内容段落,使用内容段落识别器识别当前行是否为内容段落;内容段落识别器是一个融合了段落特征信息的二分类器,主要用来剔除正文中的噪声内容,作为102步骤遗漏情况的补充;内容段落分类器主要用到的特征是行中是否包含句子特征;如果识别结果为是则进入111;反之返回106;
步骤4,层级结构构建,
111更新当前行到当前节点的内容列表中;更新当前行的内容到当前节点的内容列表尾部,进入116;
112判断新节点是否比当前节点层级高,比较新节点和当前节点的标题层级的大小情况;如果新节点比当前节点的标题层级高,则进入115;如果新节点比当前节点的标题层级低,则进入113;如果新节点和当前节点的标题层级相等,则进入114;
113设置新节点为当前节点的子节点,更新新节点的父节点为当前节点;进入116;
114设置新节点为当前节点的兄弟节点,更新新节点的父节点为当前节点的父节点;进入116;
115设置新节点为当前节点父节点的兄弟节点,更新新节点的父节点为当前节点的祖辈节点中第一个与新节点层级相同的节点的父节点;进入116;
116判断循环是否结束,判断正文是否处理完毕;如果是则进入117;反之返回到106;
117返回根节点,返回文档结构树的根节点引用,以此节点为入口回溯整个文档结构。
CN201710307876.4A 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法 Active CN107145479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710307876.4A CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710307876.4A CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Publications (2)

Publication Number Publication Date
CN107145479A CN107145479A (zh) 2017-09-08
CN107145479B true CN107145479B (zh) 2020-06-02

Family

ID=59775480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710307876.4A Active CN107145479B (zh) 2017-05-04 2017-05-04 基于文本语义的篇章结构分析方法

Country Status (1)

Country Link
CN (1) CN107145479B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN108009137B (zh) * 2017-12-22 2021-01-29 鼎富智能科技有限公司 一种基于配置文件的规范文书处理方法、装置及系统
CN108614898B (zh) * 2018-05-10 2021-06-25 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109635681B (zh) * 2018-11-26 2021-11-26 汉王科技股份有限公司 一种文献处理方法及装置
CN109657221B (zh) * 2018-12-13 2023-08-01 北京金山数字娱乐科技有限公司 一种文档段落排序方法、排序装置、电子设备及存储介质
CN110287784B (zh) * 2019-05-20 2023-12-15 暨南大学 一种年报文本结构识别方法
CN110427614B (zh) * 2019-07-16 2023-08-08 深圳追一科技有限公司 段落层级的构建方法、装置、电子设备及存储介质
CN110427884B (zh) * 2019-08-01 2023-05-09 达而观信息科技(上海)有限公司 文档篇章结构识别方法、装置、设备和存储介质
CN110609983B (zh) * 2019-08-19 2023-06-09 广州利科科技有限公司 一种政策文件结构化分解方法
CN110765188A (zh) * 2019-09-05 2020-02-07 中科鼎富(北京)科技发展有限公司 合同相对方信息的结构化方法及装置
CN111046629B (zh) * 2019-12-16 2022-03-01 北大方正集团有限公司 大纲显示方法、装置及设备
CN111460141B (zh) * 2020-03-05 2023-12-05 支付宝(杭州)信息技术有限公司 一种文本处理方法、装置及电子设备
CN113642320A (zh) * 2020-04-27 2021-11-12 北京庖丁科技有限公司 文档目录结构的提取方法、装置、设备和介质
CN111768820A (zh) * 2020-06-04 2020-10-13 上海森亿医疗科技有限公司 纸质病历数字化及目标检测模型训练方法、装置、存储介质
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112597267B (zh) * 2020-12-14 2022-09-20 北京理工大学 一种基于模式识别的英文论文文档多粒度内容处理方法
CN113779931A (zh) * 2021-08-31 2021-12-10 民商数字科技(深圳)有限公司 基于Word的知识库构建方法及其控制方法
CN115438628B (zh) * 2022-11-08 2023-03-17 宏景科技股份有限公司 结构化文档协作管理方法、系统及文档结构
CN116758565B (zh) * 2023-08-23 2023-11-24 中国电子科技集团公司第十研究所 一种基于决策树的ocr文本还原方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751420A (zh) * 2008-12-10 2010-06-23 华中科技大学 语义脉络文档查询方法
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法

Also Published As

Publication number Publication date
CN107145479A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN107145479B (zh) 基于文本语义的篇章结构分析方法
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
CN108614898B (zh) 文档解析方法与装置
CN104598577B (zh) 一种网页正文的提取方法
CN110968667B (zh) 一种基于文本状态特征的期刊文献表格抽取方法
CN101079025B (zh) 一种文档相关度计算系统和方法
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
JP2005526314A (ja) 文書構造識別器
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN111061882A (zh) 一种知识图谱构建方法
CN106502991B (zh) 出版物处理方法和装置
CN106372053B (zh) 句法分析的方法和装置
CN109492177A (zh) 一种基于网页语义结构的网页分块方法
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
CN115618883A (zh) 一种业务语义识别方法及装置
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN112328792A (zh) 一种基于dbscan聚类算法识别信用事件的优化方法
EP2544100A2 (en) Method and system for making document modules
Karpinski et al. Combination of structural and factual descriptors for document stream segmentation
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201012

Address after: 100094, No. 695, building D, building 24, 68 North Ching Road, Beijing, Haidian District, 4

Patentee after: MEMECT TECHNOLOGY Co.,Ltd.

Patentee after: Hefei Wenyin Internet Technology Co.,Ltd.

Address before: 100094, No. 695, building D, building 24, 68 North Ching Road, Beijing, Haidian District, 4

Patentee before: MEMECT TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210113

Address after: Room 501A, 5 / F, A3 / F, phase I, chuanggu Science Park, no.900, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province, 230011

Patentee after: Hefei Tupu Intelligent Technology Co.,Ltd.

Address before: 100094 695, floor 4, block D, building 24, yard 68, Beiqing Road, Haidian District, Beijing

Patentee before: MEMECT TECHNOLOGY Co.,Ltd.

Patentee before: Hefei Wenyin Internet Technology Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Text structure analysis method based on text semantics

Effective date of registration: 20220401

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2022980003810

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230704

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2022980003810

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method for Analyzing Text Structure Based on Text Semantics

Effective date of registration: 20230713

Granted publication date: 20200602

Pledgee: Industrial Bank Limited by Share Ltd. Hefei branch

Pledgor: Hefei Tupu Intelligent Technology Co.,Ltd.

Registration number: Y2023980048336