CN110287784B - 一种年报文本结构识别方法 - Google Patents

一种年报文本结构识别方法 Download PDF

Info

Publication number
CN110287784B
CN110287784B CN201910416590.9A CN201910416590A CN110287784B CN 110287784 B CN110287784 B CN 110287784B CN 201910416590 A CN201910416590 A CN 201910416590A CN 110287784 B CN110287784 B CN 110287784B
Authority
CN
China
Prior art keywords
title
candidate
annual
titles
annual report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910416590.9A
Other languages
English (en)
Other versions
CN110287784A (zh
Inventor
梁倬骞
罗旭
潘定
朱淑华
伍旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN201910416590.9A priority Critical patent/CN110287784B/zh
Publication of CN110287784A publication Critical patent/CN110287784A/zh
Application granted granted Critical
Publication of CN110287784B publication Critical patent/CN110287784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种年报文本结构识别方法,体步骤为:步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;步骤3:比对候选第一标题和候选第二标题形成候选第三标题;步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;步骤5:整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。

Description

一种年报文本结构识别方法
技术领域
本发明涉及年报文本结构识别技术领域,具体为一种年报文本结构识别方法。
背景技术
财务报告披露文件格式必须采用PDF形式,因此从PDF格式中提取财务报告结构数据需依靠必要的技术支持,PDF,是一种可移植文档格式,独立于软件、硬件、操作系统,即使跨平台时仍能保留文件原有格式的优点,因此被广泛使用在各个场景中,与HTML、XML类似,PDF包含关键字、分隔符、数据等标识,不同的是,HTML文件采用的是可读文本方式保存信息内容,而PDF文件则按照二进制流的方式保存相应信息。所以,PDF文件结构更加复杂,PDF文件提取数据技术相对困难。
作为结构化的文件格式,PDF文档是由一些称为“对象”的模块组成的,通过对这些对象进行编号,实现了对象间的引用和随机访问,页面对象中除了包含页面的内容(文字和图片等),也有显示该页面的信息,例如字体和页面大小等,整个文档如同一个树形结构,每个对象为一个节点,包含了不同类型的数据,因此,解析PDF难度较大,需要借助第三方模块解决。
由于表项中多存在类似标题结构的描述,一旦经过纯文本提取,表项内容将脱离了表格,使得其分辨率不断下降,机器筛选难度较大,PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,进一步增大了分析难度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种年报文本结构识别方法,解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种年报文本结构识别方法,具体步骤为;
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构。
优选的,步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性。
优选的,所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性。
优选的,步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化。
优选的,所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题。
优选的,步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果。
优选的,步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
优选的,所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
(三)有益效果
本发明提供了一种年报文本结构识别方法。具备以下有益效果:
(1)、该年报文本结构识别方法,通过使用正则表达式进行标题识别和筛选,降低分析难度,解决表格中表项干扰问题,也解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
(2)、该年报文本结构识别方法,通过本文采用PDFBox工具,一个开源Java工具它能够创建修改PDF文档和从PDF文档中提取内容,只要几行代码可以轻松的获得文档中的文本信息,但其使用范围仅限纯文本,原文本的字体格式、表格和排版等都会丢失,尽管提取出来的纯文本txt文件失去了样式,但没有破坏句子的完整性,目录的数据是完整的,而一些乱码也可以轻松解决,它既可以做为语料库用于模型训练,也可以作为目录提取的目标。
附图说明
图1为本发明的文本结构框架的获取流程图;
图2为本发明最长公共子串算法具体识别流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明实施例提供一种技术方案:一种年报文本结构识别方法,具体步骤为;
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构;
进一步地,步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性;
进一步地,所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性;
困惑度为了保证标题的出现概率的可靠性,本文采用困惑度(perplexity,PPL)估算出“句子”的概率,再将句子长度正则化,避免了句子长度对概率和的影响。
困惑度的计算公式为:
实际计算中,由于计算机进行乘法的效率远不及加法,通常在计算句子的概率时对每个条件概率进行log运算,相加后再进行幂运算还原,因此PPL的计算公式变为:
PPL表示的是平均分支系数,即一个词后面可能性选择的数量。例如当一个语言模型的PPL值为20时,可以认为,预测下一个词时,有等同于20个词的可能性选择
进一步地,步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化;
进一步地,所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题;
进一步地,步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果;
进一步地,步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
优选的,所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种年报文本结构识别方法,具体步骤为:
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构;
步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化;
步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果;
所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
2.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性。
3.根据权利要求2所述的一种年报文本结构识别方法,其特征在于:所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性。
4.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题。
5.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
CN201910416590.9A 2019-05-20 2019-05-20 一种年报文本结构识别方法 Active CN110287784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910416590.9A CN110287784B (zh) 2019-05-20 2019-05-20 一种年报文本结构识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910416590.9A CN110287784B (zh) 2019-05-20 2019-05-20 一种年报文本结构识别方法

Publications (2)

Publication Number Publication Date
CN110287784A CN110287784A (zh) 2019-09-27
CN110287784B true CN110287784B (zh) 2023-12-15

Family

ID=68002155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910416590.9A Active CN110287784B (zh) 2019-05-20 2019-05-20 一种年报文本结构识别方法

Country Status (1)

Country Link
CN (1) CN110287784B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837788B (zh) * 2019-10-31 2022-10-28 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN110889401A (zh) * 2019-11-01 2020-03-17 暨南大学 一种基于opencv库的文本版面识别方法
CN111753717B (zh) * 2020-06-23 2023-07-28 北京百度网讯科技有限公司 用于提取文本的结构化信息的方法、装置、设备及介质
CN112328825A (zh) * 2020-10-15 2021-02-05 苏州零泉科技有限公司 一种基于自然语言处理的图片构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951400A (zh) * 2017-02-06 2017-07-14 北京因果树网络科技有限公司 一种pdf文件的信息抽取方法及装置
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法

Also Published As

Publication number Publication date
CN110287784A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287784B (zh) 一种年报文本结构识别方法
US11580763B2 (en) Representative document hierarchy generation
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
US7310773B2 (en) Removal of extraneous text from electronic documents
US6336124B1 (en) Conversion data representing a document to other formats for manipulation and display
US7801392B2 (en) Image search system, image search method, and storage medium
CN102053991B (zh) 用于多语言文档检索的方法及系统
US8290269B2 (en) Image document processing device, image document processing method, program, and storage medium
US9098581B2 (en) Method for finding text reading order in a document
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
US7046847B2 (en) Document processing method, system and medium
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Frinken et al. A novel word spotting algorithm using bidirectional long short-term memory neural networks
Al-Barhamtoshy et al. Arabic documents information retrieval for printed, handwritten, and calligraphy image
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
CN110209759B (zh) 自动识别书页的方法及装置
Rahman et al. Bn-htrd: A benchmark dataset for document level offline bangla handwritten text recognition (htr) and line segmentation
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN117194607A (zh) 基于自然语言的搜索方法和系统
JP2000181931A (ja) 自動オーサリング装置および記録媒体
CN114579796B (zh) 机器阅读理解方法及装置
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN100444194C (zh) 文章标题及关联信息的自动抽取装置和抽取方法
CN116384344A (zh) 一种文档转换方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant