CN110287784B - 一种年报文本结构识别方法 - Google Patents
一种年报文本结构识别方法 Download PDFInfo
- Publication number
- CN110287784B CN110287784B CN201910416590.9A CN201910416590A CN110287784B CN 110287784 B CN110287784 B CN 110287784B CN 201910416590 A CN201910416590 A CN 201910416590A CN 110287784 B CN110287784 B CN 110287784B
- Authority
- CN
- China
- Prior art keywords
- title
- candidate
- annual report
- titles
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种年报文本结构识别方法,体步骤为:步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;步骤3:比对候选第一标题和候选第二标题形成候选第三标题;步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;步骤5:整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
Description
技术领域
本发明涉及年报文本结构识别技术领域,具体为一种年报文本结构识别方法。
背景技术
财务报告披露文件格式必须采用PDF形式,因此从PDF格式中提取财务报告结构数据需依靠必要的技术支持,PDF,是一种可移植文档格式,独立于软件、硬件、操作系统,即使跨平台时仍能保留文件原有格式的优点,因此被广泛使用在各个场景中,与HTML、XML类似,PDF包含关键字、分隔符、数据等标识,不同的是,HTML文件采用的是可读文本方式保存信息内容,而PDF文件则按照二进制流的方式保存相应信息。所以,PDF文件结构更加复杂,PDF文件提取数据技术相对困难。
作为结构化的文件格式,PDF文档是由一些称为“对象”的模块组成的,通过对这些对象进行编号,实现了对象间的引用和随机访问,页面对象中除了包含页面的内容(文字和图片等),也有显示该页面的信息,例如字体和页面大小等,整个文档如同一个树形结构,每个对象为一个节点,包含了不同类型的数据,因此,解析PDF难度较大,需要借助第三方模块解决。
由于表项中多存在类似标题结构的描述,一旦经过纯文本提取,表项内容将脱离了表格,使得其分辨率不断下降,机器筛选难度较大,PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,进一步增大了分析难度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种年报文本结构识别方法,解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种年报文本结构识别方法,具体步骤为;
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构。
优选的,步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性。
优选的,所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性。
优选的,步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化。
优选的,所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题。
优选的,步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果。
优选的,步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
优选的,所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
(三)有益效果
本发明提供了一种年报文本结构识别方法。具备以下有益效果:
(1)、该年报文本结构识别方法,通过使用正则表达式进行标题识别和筛选,降低分析难度,解决表格中表项干扰问题,也解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。
(2)、该年报文本结构识别方法,通过本文采用PDFBox工具,一个开源Java工具它能够创建修改PDF文档和从PDF文档中提取内容,只要几行代码可以轻松的获得文档中的文本信息,但其使用范围仅限纯文本,原文本的字体格式、表格和排版等都会丢失,尽管提取出来的纯文本txt文件失去了样式,但没有破坏句子的完整性,目录的数据是完整的,而一些乱码也可以轻松解决,它既可以做为语料库用于模型训练,也可以作为目录提取的目标。
附图说明
图1为本发明的文本结构框架的获取流程图;
图2为本发明最长公共子串算法具体识别流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明实施例提供一种技术方案:一种年报文本结构识别方法,具体步骤为;
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构;
进一步地,步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性;
进一步地,所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性;
困惑度为了保证标题的出现概率的可靠性,本文采用困惑度(perplexity,PPL)估算出“句子”的概率,再将句子长度正则化,避免了句子长度对概率和的影响。
困惑度的计算公式为:
实际计算中,由于计算机进行乘法的效率远不及加法,通常在计算句子的概率时对每个条件概率进行log运算,相加后再进行幂运算还原,因此PPL的计算公式变为:
PPL表示的是平均分支系数,即一个词后面可能性选择的数量。例如当一个语言模型的PPL值为20时,可以认为,预测下一个词时,有等同于20个词的可能性选择
进一步地,步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化;
进一步地,所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题;
进一步地,步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果;
进一步地,步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
优选的,所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种年报文本结构识别方法,具体步骤为:
步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;
步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;
步骤3:比对候选第一标题和候选第二标题形成候选第三标题;
步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;
步骤5:整理年报小标题形成企业年报目录结构;
步骤2中OpenCV为开源码的计算机视觉库,利用OpenCV的dilate函数,对PDF财务报告版面进行膨胀操作,并扩大图像的白色区域,黑色文字部分细化;
步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比,利用最长公共子串算法可以得到两种方法结合起来处理的结果;
所述最长公共子串算法具体识别步骤为:
a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B;
b、逐行读取文本框A记为StrA,逐行读取文本框B记为StrB;
c、计算StrA与StrB中的最长公子串;
d、将结果存储到新的文档中;
e、判断新的文档是否读取完毕,若读取完毕输出结果;若为未读取完毕则进入步骤c中进行读取,直到读取完毕。
2.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:步骤1中标题规则利用正则表达式和企业年报标题的表达特征,组合形成规则对TXT中文本行进行筛选,形成候第一选标题,提出结合语言模型,将这类在统计概率上不符合标题概率的句子去掉,以保证第一候选标题的准确性。
3.根据权利要求2所述的一种年报文本结构识别方法,其特征在于:所述语言模型通过对语料库进行词频统计,将结果储存于数组字典中,即可根据公式训练得到语料库的二元模型,基于概率计算时,读取预先记录好的数据,利用困惑度来评价标题的可靠性。
4.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:所述PDF财务报告版面膨胀到阈值,可以将正文文本模糊掉,只剩下标题行可以通过OCR识别出来,形成候选第二标题。
5.根据权利要求1所述的一种年报文本结构识别方法,其特征在于:步骤4中信息熵是对概率分布的整体的估量,以表示信息的不确定性,其本质是信息量的期望,计算公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416590.9A CN110287784B (zh) | 2019-05-20 | 2019-05-20 | 一种年报文本结构识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416590.9A CN110287784B (zh) | 2019-05-20 | 2019-05-20 | 一种年报文本结构识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287784A CN110287784A (zh) | 2019-09-27 |
CN110287784B true CN110287784B (zh) | 2023-12-15 |
Family
ID=68002155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910416590.9A Expired - Fee Related CN110287784B (zh) | 2019-05-20 | 2019-05-20 | 一种年报文本结构识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287784B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837788B (zh) * | 2019-10-31 | 2022-10-28 | 北京深度制耀科技有限公司 | 一种pdf文档的处理方法及装置 |
CN110889401A (zh) * | 2019-11-01 | 2020-03-17 | 暨南大学 | 一种基于opencv库的文本版面识别方法 |
CN111753717B (zh) * | 2020-06-23 | 2023-07-28 | 北京百度网讯科技有限公司 | 用于提取文本的结构化信息的方法、装置、设备及介质 |
CN112328825A (zh) * | 2020-10-15 | 2021-02-05 | 苏州零泉科技有限公司 | 一种基于自然语言处理的图片构建方法 |
CN114201620B (zh) * | 2021-12-17 | 2025-01-14 | 上海朝阳永续信息技术股份有限公司 | 用于挖掘pdf文件中的pdf表格的方法、设备和介质 |
CN116824615A (zh) * | 2023-05-05 | 2023-09-29 | 北京啄木鸟云健康科技有限公司 | 一种器官功能报告的解析方法、装置以及电子设备 |
CN119152533B (zh) * | 2024-11-20 | 2025-02-25 | 杭州恒生聚源信息技术有限公司 | 目录生成方法、电子设备以及计算机程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
-
2019
- 2019-05-20 CN CN201910416590.9A patent/CN110287784B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951400A (zh) * | 2017-02-06 | 2017-07-14 | 北京因果树网络科技有限公司 | 一种pdf文件的信息抽取方法及装置 |
CN107145479A (zh) * | 2017-05-04 | 2017-09-08 | 北京文因互联科技有限公司 | 基于文本语义的篇章结构分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110287784A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287784B (zh) | 一种年报文本结构识别方法 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
US10360294B2 (en) | Methods and systems for efficient and accurate text extraction from unstructured documents | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
US8451292B2 (en) | Video summarization method based on mining story structure and semantic relations among concept entities thereof | |
US20110213784A1 (en) | Semantic object characterization and search | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN109960730B (zh) | 一种基于特征扩展的短文本分类方法、装置以及设备 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN108491512A (zh) | 新闻标题的摘要方法及装置 | |
EP4089568A1 (en) | Cascade pooling for natural language document processing | |
CN108399265A (zh) | 基于搜索的实时热点新闻提供方法及装置 | |
CN113822059A (zh) | 中文敏感文本识别方法、装置、存储介质及设备 | |
CN112765976A (zh) | 文本相似度计算方法、装置、设备及存储介质 | |
CN1604073A (zh) | 一种对报纸版面进行标题与正文逻辑关联的方法 | |
US8554696B2 (en) | Efficient computation of ontology affinity matrices | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN117235546B (zh) | 多版本文件比对方法、装置、系统及存储介质 | |
US11361565B2 (en) | Natural language processing (NLP) pipeline for automated attribute extraction | |
CN109902162B (zh) | 基于数字指纹的文本相似性的识别方法、存储介质及装置 | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
CN101533391A (zh) | 一种查找相似的匹配句的系统及其方法 | |
JP2009277099A (ja) | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20231215 |