CN110287784B

CN110287784B - 一种年报文本结构识别方法

Info

Publication number: CN110287784B
Application number: CN201910416590.9A
Authority: CN
Inventors: 梁倬骞; 罗旭; 潘定; 朱淑华; 伍旭
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2023-12-15
Anticipated expiration: 2039-05-20
Also published as: CN110287784A

Abstract

本发明公开了一种年报文本结构识别方法，体步骤为：步骤1：利用标题规则抽取TXT版本年报中的行，作为候选第一标题；步骤2：利用OpenCV基于视觉的图像处理技术，识别出PDF文件中具有标题特征的候选第二标题；步骤3：比对候选第一标题和候选第二标题形成候选第三标题；步骤4：利用信息熵计算标题行的左右互信息，对候选第三标题进行筛选形成企业年报小标题；步骤5：整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格，还嵌有类型各异的文件，这些表格和文件具有独立表格和独立文件的结构，分析难度大的问题。

Description

一种年报文本结构识别方法

技术领域

本发明涉及年报文本结构识别技术领域，具体为一种年报文本结构识别方法。

背景技术

财务报告披露文件格式必须采用PDF形式，因此从PDF格式中提取财务报告结构数据需依靠必要的技术支持，PDF，是一种可移植文档格式，独立于软件、硬件、操作系统，即使跨平台时仍能保留文件原有格式的优点，因此被广泛使用在各个场景中，与HTML、XML类似，PDF包含关键字、分隔符、数据等标识，不同的是，HTML文件采用的是可读文本方式保存信息内容，而PDF文件则按照二进制流的方式保存相应信息。所以，PDF文件结构更加复杂，PDF文件提取数据技术相对困难。

作为结构化的文件格式，PDF文档是由一些称为“对象”的模块组成的，通过对这些对象进行编号，实现了对象间的引用和随机访问，页面对象中除了包含页面的内容(文字和图片等)，也有显示该页面的信息，例如字体和页面大小等，整个文档如同一个树形结构，每个对象为一个节点，包含了不同类型的数据，因此，解析PDF难度较大，需要借助第三方模块解决。

由于表项中多存在类似标题结构的描述，一旦经过纯文本提取，表项内容将脱离了表格，使得其分辨率不断下降，机器筛选难度较大，PDF财务报告中不仅内嵌多种多样的表格，还嵌有类型各异的文件，这些表格和文件具有独立表格和独立文件的结构，进一步增大了分析难度。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种年报文本结构识别方法，解决了PDF财务报告中不仅内嵌多种多样的表格，还嵌有类型各异的文件，这些表格和文件具有独立表格和独立文件的结构，分析难度大的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种年报文本结构识别方法，具体步骤为；

步骤1：利用标题规则抽取TXT版本年报中的行，作为候选第一标题；

步骤2：利用OpenCV基于视觉的图像处理技术，识别出PDF文件中具有标题特征的候选第二标题；

步骤3：比对候选第一标题和候选第二标题形成候选第三标题；

步骤4：利用信息熵计算标题行的左右互信息，对候选第三标题进行筛选形成企业年报小标题；

步骤5：整理年报小标题形成企业年报目录结构。

优选的，步骤1中标题规则利用正则表达式和企业年报标题的表达特征，组合形成规则对TXT中文本行进行筛选，形成候第一选标题，提出结合语言模型，将这类在统计概率上不符合标题概率的句子去掉，以保证第一候选标题的准确性。

优选的，所述语言模型通过对语料库进行词频统计，将结果储存于数组字典中，即可根据公式训练得到语料库的二元模型，基于概率计算时，读取预先记录好的数据，利用困惑度来评价标题的可靠性。

优选的，步骤2中OpenCV为开源码的计算机视觉库，利用OpenCV的dilate函数，对PDF财务报告版面进行膨胀操作，并扩大图像的白色区域，黑色文字部分细化。

优选的，所述PDF财务报告版面膨胀到阈值，可以将正文文本模糊掉，只剩下标题行可以通过OCR识别出来，形成候选第二标题。

优选的，步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比，利用最长公共子串算法可以得到两种方法结合起来处理的结果。

优选的，步骤4中信息熵是对概率分布的整体的估量，以表示信息的不确定性，其本质是信息量的期望，计算公式为：

优选的，所述最长公共子串算法具体识别步骤为：

a、载入经图像处理后的候选第二标题为文本框B和基于规则的和统计所获的候选第一标题为文本框B；

b、逐行读取文本框A记为StrA，逐行读取文本框B记为StrB；

c、计算StrA与StrB中的最长公子串；

d、将结果存储到新的文档中；

e、判断新的文档是否读取完毕，若读取完毕输出结果；若为未读取完毕则进入步骤c中进行读取，直到读取完毕。

(三)有益效果

本发明提供了一种年报文本结构识别方法。具备以下有益效果：

(1)、该年报文本结构识别方法，通过使用正则表达式进行标题识别和筛选，降低分析难度，解决表格中表项干扰问题，也解决了PDF财务报告中不仅内嵌多种多样的表格，还嵌有类型各异的文件，这些表格和文件具有独立表格和独立文件的结构，分析难度大的问题。

(2)、该年报文本结构识别方法，通过本文采用PDFBox工具，一个开源Java工具它能够创建修改PDF文档和从PDF文档中提取内容，只要几行代码可以轻松的获得文档中的文本信息，但其使用范围仅限纯文本，原文本的字体格式、表格和排版等都会丢失，尽管提取出来的纯文本txt文件失去了样式，但没有破坏句子的完整性，目录的数据是完整的，而一些乱码也可以轻松解决，它既可以做为语料库用于模型训练，也可以作为目录提取的目标。

附图说明

图1为本发明的文本结构框架的获取流程图；

图2为本发明最长公共子串算法具体识别流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例提供一种技术方案：一种年报文本结构识别方法，具体步骤为；

步骤5：整理年报小标题形成企业年报目录结构；

进一步地，步骤1中标题规则利用正则表达式和企业年报标题的表达特征，组合形成规则对TXT中文本行进行筛选，形成候第一选标题，提出结合语言模型，将这类在统计概率上不符合标题概率的句子去掉，以保证第一候选标题的准确性；

进一步地，所述语言模型通过对语料库进行词频统计，将结果储存于数组字典中，即可根据公式训练得到语料库的二元模型，基于概率计算时，读取预先记录好的数据，利用困惑度来评价标题的可靠性；

困惑度为了保证标题的出现概率的可靠性，本文采用困惑度(perplexity,PPL)估算出“句子”的概率，再将句子长度正则化，避免了句子长度对概率和的影响。

困惑度的计算公式为：

实际计算中，由于计算机进行乘法的效率远不及加法，通常在计算句子的概率时对每个条件概率进行log运算，相加后再进行幂运算还原，因此PPL的计算公式变为：

PPL表示的是平均分支系数，即一个词后面可能性选择的数量。例如当一个语言模型的PPL值为20时，可以认为，预测下一个词时，有等同于20个词的可能性选择

进一步地，步骤2中OpenCV为开源码的计算机视觉库，利用OpenCV的dilate函数，对PDF财务报告版面进行膨胀操作，并扩大图像的白色区域，黑色文字部分细化；

进一步地，所述PDF财务报告版面膨胀到阈值，可以将正文文本模糊掉，只剩下标题行可以通过OCR识别出来，形成候选第二标题；

进一步地，步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比，利用最长公共子串算法可以得到两种方法结合起来处理的结果；

进一步地，步骤4中信息熵是对概率分布的整体的估量，以表示信息的不确定性，其本质是信息量的期望，计算公式为：

优选的，所述最长公共子串算法具体识别步骤为：

b、逐行读取文本框A记为StrA，逐行读取文本框B记为StrB；

c、计算StrA与StrB中的最长公子串；

d、将结果存储到新的文档中；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种年报文本结构识别方法，具体步骤为：

步骤5：整理年报小标题形成企业年报目录结构；

步骤2中OpenCV为开源码的计算机视觉库，利用OpenCV的dilate函数，对PDF财务报告版面进行膨胀操作，并扩大图像的白色区域，黑色文字部分细化；

步骤3具体为将规则与统计处理的候选第一标题和OCR出来的候选第二标题进行对比，利用最长公共子串算法可以得到两种方法结合起来处理的结果；

所述最长公共子串算法具体识别步骤为：

b、逐行读取文本框A记为StrA，逐行读取文本框B记为StrB；

c、计算StrA与StrB中的最长公子串；

d、将结果存储到新的文档中；

2.根据权利要求1所述的一种年报文本结构识别方法，其特征在于：步骤1中标题规则利用正则表达式和企业年报标题的表达特征，组合形成规则对TXT中文本行进行筛选，形成候第一选标题，提出结合语言模型，将这类在统计概率上不符合标题概率的句子去掉，以保证第一候选标题的准确性。

3.根据权利要求2所述的一种年报文本结构识别方法，其特征在于：所述语言模型通过对语料库进行词频统计，将结果储存于数组字典中，即可根据公式训练得到语料库的二元模型，基于概率计算时，读取预先记录好的数据，利用困惑度来评价标题的可靠性。

4.根据权利要求1所述的一种年报文本结构识别方法，其特征在于：所述PDF财务报告版面膨胀到阈值，可以将正文文本模糊掉，只剩下标题行可以通过OCR识别出来，形成候选第二标题。

5.根据权利要求1所述的一种年报文本结构识别方法，其特征在于：步骤4中信息熵是对概率分布的整体的估量，以表示信息的不确定性，其本质是信息量的期望，计算公式为：