CN114821612B - 一种证券期货场景下pdf文档的信息抽取方法和系统 - Google Patents

一种证券期货场景下pdf文档的信息抽取方法和系统 Download PDF

Info

Publication number
CN114821612B
CN114821612B CN202210601538.2A CN202210601538A CN114821612B CN 114821612 B CN114821612 B CN 114821612B CN 202210601538 A CN202210601538 A CN 202210601538A CN 114821612 B CN114821612 B CN 114821612B
Authority
CN
China
Prior art keywords
document
text
information
picture
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210601538.2A
Other languages
English (en)
Other versions
CN114821612A (zh
Inventor
杨胜利
吴福文
康维鹏
唐逐时
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zheshang Futures Co ltd
Original Assignee
Zheshang Futures Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zheshang Futures Co ltd filed Critical Zheshang Futures Co ltd
Priority to CN202210601538.2A priority Critical patent/CN114821612B/zh
Publication of CN114821612A publication Critical patent/CN114821612A/zh
Application granted granted Critical
Publication of CN114821612B publication Critical patent/CN114821612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种证券期货场景下PDF文档的信息抽取方法和系统,其中,该方法包括:通过按页遍历读取PDF文档的文档对象;根据PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对文档对象进行识别分类,得到正文对象和非正文对象,其中,若正文对象包括文本对象、表格对象和图片对象;对抽取得到文本对象、表格对象和图片对象进行进一步地细分处理识别,通过本申请,解决了针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题,实现了对PDF文档中粗抽取的文档对象进一步地细分处理识别,提高了对PDF文档中信息的还原能力。

Description

一种证券期货场景下PDF文档的信息抽取方法和系统
技术领域
本申请涉及数据处理技术领域,特别是涉及一种证券期货场景下PDF文档的信息抽取方法和系统。
背景技术
在证券期货领域,有大量的研报或公告以PDF形式进行发布,其中既包含一般性的文本信息、也包含一些表格、图片等信息,如何识别这些非结构化的数据并转化为结构化数据是当下急需解决的问题。
目前对PDF文档进行结构化信息解析,大多基于pdfbox等开源工具进行。pdfbox提供了对PDF文档按页码进行文档对象(包含文本、图片、表格、附件等)基础信息的遍历和读取功能,例如:提供文本对象的字符内容、字符编码、字体大小、文档对象的位置点起止信息等,提供图片对象的图片名称、原始图片数据、图片展示大小等基本信息。但由于PDF在不同业务场景中,其内容形式根据业务属性而变,具有多样化和复杂性,单是使用pdfbox这样的开源工具并不能做细化的业务化处理识别工作,例如其不能识别出具体对象是标题、目录、小标题、层级标题、页眉、页脚、还是正文内容,更不具有图表的业务结构化信息识别、抽取、组装及转化等功能。
目前针对相关技术中针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种证券期货场景下PDF文档的信息抽取方法和系统,以至少解决相关技术中针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题。
第一方面,本申请实施例提供了一种证券期货场景下PDF文档的信息抽取方法,所述方法包括:
按页遍历读取PDF文档的文档对象;
根据所述PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对所述文档对象进行识别分类,得到正文对象和非正文对象;
若所述正文对象为文本对象,则从所述文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
若所述正文对象为表格对象,则识别所述表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
若所述正文对象为图片对象,则对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域,识别并矫正所述文字区域中的图片文字。
在其中一些实施例中,根据所述PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对所述文档对象进行识别分类包括:
根据所述PDF文档中当前页面的文档对象的起止位置,将文档对象按从上到下、从左到右进行排序,并生成每个文档对象的矩形框位置信息;
根据所述起止位置,计算所述排序后每个文档对象与上下左右最近邻文档对象的第一距离信息,计算每个文档对象与页面中心点的第二距离信息,计算每个文档对象与页面中心矩形框的第三距离信息;
根据所述PDF文档中当前页面的文档对象的字体形态和字符大小,计算每个文档对象与所述页面中心矩形框的平均字体差异信息;
将每个文档对象的矩形框位置信息、第一距离信息、第二距离信息、第三距离信息和平均字体差异信息进行向量化组装,得到每个文档对象的类型特征化信息,并采用SVM支持向量机分类模型对所述文档对象进行识别分类。
在其中一些实施例中,从所述文本对象中识别标注出章节目录标题包括:
提取所述文本对象的字符格式特征和文本语义特征,并输入SENet分类模型得出高度语义特征信息,所述高度语义特征信息经过SENet分类模型中的全连接层,识别标注出对应的文本对象是否为章节目录标题。
在其中一些实施例中,对非章节目录标题的正文段落进行段落识别与拼接包括:
提取非章节目录标题的正文段落的段落格式特征和语意连贯特征,通过SENet分类模型识别出所述正文段落是否为同一段落,若是,则进行段落拼接,若否,则不拼接。
在其中一些实施例中,识别所述表格对象的数据范围,判断表格对象是否为同一表格包括:
逐行对所述表格对象进行特征提取,判断当前行特征是否为所述表格对象的第一行特征,若是,则向下抽取两行特征,与所述当前行特征组成上下文特征矩阵,若否,则抽取上一行特征、下一行特征,与所述当前行特征组成上下文特征矩阵;
将所述上下文特征矩阵输入Biaffine双仿射模型,识别所述表格对象是否为同一表格。
在其中一些实施例中,对齐相同数据范围内的表格对象的列元素,并进行跨页合并包括:
计算相同数据范围内的表格对象中列文本的平均起止位置和中心位置,来进行列元素对齐,并进行跨页合并。
在其中一些实施例中,对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域
按预设尺寸对所述图片对象进行缩放,采用霍夫变换直线检测算法进行所述缩放后图片对象的图片旋转角度的检测计算,矫正所述图片对象的倾斜旋转;
通过卷积神经网络模型提取所述矫正后图片对象的卷积特征,识别出所述图片对象中的文字位置;
采用OpenCV工具定位出基于所述文字位置的若干最大连通域,所述最大连通域即为图片对象的文字区域。
在其中一些实施例中,识别并矫正所述文字区域中的图片文字
通过Bert预训练模型和CRNN网络模型识别出所述文字区域中的文字,并将所述文字区域的位置信息进行记录传递;
根据所述位置信息,在卷积神经网络中通过预设上下文窗口对所述识别出的文字进行类型信息特征、位置信息特征和行列数信息特征提取;
根据所述类型信息特征、所述位置信息特征和所述行列数信息特征,通过全连接层判断所述文字是否为同一表格,若是,则将所述文字进行表格合并。
在其中一些实施例中,按页遍历读取PDF文档的文档对象包括:
采用pdfbox工具按页对PDF文档进行遍历读取,得到所述PDF文档的文档对象。
第二方面,本申请实施例提供了一种证券期货场景下PDF文档的信息抽取系统,所述系统包括对象抽取模块、识别分类模块、第一处理模块、第二处理模块和第三处理模块;
所述对象抽取模块,用于按页遍历读取PDF文档的文档对象;
所述识别分类模块,用于根据所述PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对所述文档对象进行识别分类,得到正文对象和非正文对象;
所述第一处理模块,用于若所述正文对象为文本对象,则从所述文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
所述第二处理模块,用于若所述正文对象为表格对象,则识别所述表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
所述第三处理模块,用于若所述正文对象为图片对象,则对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域,识别并矫正所述文字区域中的图片文字。
相比于相关技术,本申请实施例提供的一种证券期货场景下PDF文档的信息抽取方法和系统,通过按页遍历读取PDF文档的文档对象;根据PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对文档对象进行识别分类,得到正文对象和非正文对象,其中,若正文对象包括文本对象、表格对象和图片对象;对抽取得到文本对象、表格对象和图片对象进行进一步地细分处理识别,解决了针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题,实现了对PDF文档中粗抽取的文档对象进一步地细分处理识别,提高了对PDF文档中信息的还原能力。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的证券期货场景下PDF文档的信息抽取方法的步骤流程图;
图2是根据本申请实施例的证券期货场景下PDF文档的信息抽取系统的结构框图;
图3是根据本申请实施例的电子设备的内部结构示意图。
附图说明:21、对象抽取模块;22、识别分类模块;23、第一处理模块;24、第二处理模块;25、第三处理模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供了一种证券期货场景下PDF文档的信息抽取方法,图1是根据本申请实施例的证券期货场景下PDF文档的信息抽取方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,按页遍历读取PDF文档的文档对象;
具体地,采用pdfbox工具按页对PDF文档进行遍历读取,得到PDF文档的文档对象。
需要说明的是,pdfbox提供了对PDF文档按页码进行文档对象(包含文本、图片、表格、附件等)基础信息的遍历和读取功能,例如:提供文本对象的字符内容、字符编码、字体大小、文档对象的位置点起止信息等,提供图片对象的图片名称、原始图片数据、图片展示大小等基本信息。但由于PDF在不同业务场景中,其内容形式根据业务属性而变,具有多样化和复杂性,pdfbox这样的开源工具并不能做细化的业务化处理识别工作,例如其不能识别出具体对象是标题、目录、小标题、层级标题、页眉、页脚、还是正文内容,更不具有图表的业务结构化信息识别、抽取、组装及转化等功能。
步骤S104,根据PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对文档对象进行识别分类,得到正文对象和非正文对象;
需要说明的是,PDF文档每页的基本对象,这些对象除了正文之外,还有不少是页眉、页脚、边注等内容,本方案需要将这些对象与正文区别开来。这些页眉页脚与边注,主要是根据所在PDF页面起止位置、字体形态、字符大小,及与页面中心位置的间隔边距等特征信息进行分类。
具体地,根据PDF文档中当前页面的文档对象的起止位置,将文档对象按从上到下、从左到右进行排序,并生成每个文档对象的矩形框位置信息;
根据起止位置,计算排序后每个文档对象与上下左右最近邻文档对象的第一距离信息,计算每个文档对象与页面中心点的第二距离信息,计算每个文档对象与页面中心矩形框的第三距离信息;优选地,PDF文档的页面中心矩形框可以为以文档中心点,X\Y轴长度皆为各自2/3页面尺寸所形成的矩形框;
根据PDF文档中当前页面的文档对象的字体形态和字符大小,计算每个文档对象与页面中心矩形框的平均字体差异信息;
将每个文档对象的矩形框位置信息、第一距离信息、第二距离信息、第三距离信息和平均字体差异信息进行向量化组装,得到每个文档对象的类型特征化信息,并采用SVM支持向量机分类模型对文档对象进行识别分类,从而确定出正文等正文对象,页眉、页脚、边注等非正文对象。
经过上述步骤S102至步骤S104,能够识别出PDF页面正文、页眉、页脚、边注文档对象等,后续再着重对正文文档对象按照不同类别进行细化处理。
步骤S106,若正文对象为文本对象,则从文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
需要说明的是,在PDF文档的页面中,章节目录标题都是由文本来标识,主要通过字符形态、字体颜色、字体大小、加粗、前置章节符号或章节序号、标题换行、字数不满行、无标点符号,并且一般与后面正文内容在字体形态、字符大小、字符长度、颜色等方面具有显著性差异。此外,章节标题文本一般是对后面内容性文本的摘要性说明。
具体地,若正文对象为文本对象,则提取文本对象的字符格式特征和文本语义特征,并输入SENet分类模型得出高度语义特征信息,高度语义特征信息经过SENet分类模型中的全连接层,识别标注出对应的文本对象是否为章节目录标题。
优选地,将字符格式特征和文本语义特征都统一转化为H*W的特征向量(H表示特征数目,W表示每个特征向量化维度),将转化后的字符格式特征和文本语义特征放入不同通道,SENet通过SE操作(Squeeze-and-Excitation,即进行挤压和抽取),抽取通道之间的关系特征,具体先通过Squeeze挤压操作聚合特征映射,产生通道语义特征;其次,通过Excitation抽取操作对通道语义特征符重新加权,用于强调有用信息,抑制无用信息;再次,进行归一化操作,重新加权各个通道权重,从而最终产生高度语义特征信息,最后通过全连接层中的sigmoid函数转化为二分类输出,识别标注出对应的文本对象是否为章节目录标题。
具体地,提取非章节目录标题的正文段落的段落格式特征和语意连贯特征,通过SENet分类模型识别出正文段落是否为同一段落,若是,则进行段落拼接,若否,则不拼接。
优选地,由于非章节目录标题的正文段落可能由于换行、格式控制等原因导致统一段落的文本被分成不同文本对象,因此可以采用从上到下从左至右的方式现将同行文本行进行对齐拼接。
步骤S108,若正文对象为表格对象,则识别表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
需要说明的是,在证券期货领域的表格一般是对证券期货品种的行情交易、品种库存、现货等各方面的数据进行分析的;在数据的排列格式上,表格具有每行数据字段数量一致、每列数据类型一致、每行间隔宽度大体一致、每行数据的位置居于中间位置等特点。本方案根据这些特点抽取表格对象的信息,具体包括表格对象总数(即列总数)、每个文本对象的起止位置及中心位置、文本字符个数、文本字符实体类型(基本上分为期货品种、NUM、地点、日期等几大类,主要采用分词实体识别)、近邻左右间距信息等,并将这些信息进行转化为数值向量化信息,一个数值向量化,因此,本方案利用这些特征信息对每个页面中表格内容的范围进行判定识别。
具体地,若正文对象为表格对象,则逐行对表格对象进行特征提取,判断当前行特征是否为表格对象的第一行特征,若是,则向下抽取两行特征,与当前行特征组成上下文特征矩阵,若否,则抽取上一行特征、下一行特征,与当前行特征组成上下文特征矩阵;
将上下文特征矩阵输入Biaffine双仿射模型,计算表格行之间的对齐关系的语义特征,并采用全连接层进行分类输出判定当前是否为同一表格。
若当前表格对象与上一表格对象在相同的数据范围内,计算相同数据范围内的表格对象中列文本的平均起止位置和中心位置,来进行列元素对齐,并进行跨页合并。
步骤S110,若正文对象为图片对象,则对图片对象进行预处理,定位预处理后图片对象的文字区域,识别并矫正文字区域中的图片文字。
具体地,若正文对象为图片对象,按预设尺寸对图片对象进行缩放,采用霍夫变换(Hough Transform)直线检测算法进行缩放后图片对象的图片旋转角度的检测计算,矫正图片对象的倾斜旋转;通过卷积神经网络模型提取矫正后图片对象的卷积特征,识别出图片对象中的文字位置;采用OpenCV工具定位出基于文字位置的若干最大连通域,最大连通域即为图片对象的文字区域。
优选地,将最大可识别图片尺寸设置为2056*2056,并且要求长宽都是32的整数倍。如果一张图片的长或宽大于2056,那么就需要按照比例进行缩小将长或宽最大值转化为2056;同时,如果长或宽不是32的整数倍,例如一张28*30的图片,那么就需要将图片长宽分别放大32/28、32/30倍数,从而得到标准输入尺寸的图片。
需要说明的是,本方案通过深度网络识别文字区域中的文字,深度网络的识别处理过程一般为:首先,将文本区域块(用平行四边形表示,一般都为长方形矩阵块)进行缩放或者填充,转化成标准高度的长方形矩阵块,如果是平行四边形则进行相应位置进行空白信息填充;然后,对转化后得到的标准文本矩阵框,按滑动窗口进行多种CNN卷积特征提取,从而得到文本矩阵框中的字符图形抽象化的特性信息;最后,将抽象化的特征信息进行序列化的文字识别从而完成文字识别,对于中文识别而言,序列化分类时每个位置上的字符总体分类类别约为4000汉字左右。
具体地,通过Bert预训练模型和CRNN网络模型(Convolutional RecurrentNeural Network)识别出文字区域中的文字,并将文字区域的位置信息进行记录传递;根据位置信息,在卷积神经网络中通过预设上下文窗口对识别出的文字进行类型信息特征、位置信息特征和行列数信息特征提取;根据类型信息特征、位置信息特征和行列数信息特征,通过全连接层判断文字是否为同一表格,若是,则将文字进行表格合并。
优选地,CRNN网络模型是目前较为流行的图文识别网络,可识别相对较长、可变的文本序列,其特征提取层包含CNN和BLSTM,可进行端到端的联合训练。在本方案中采用Bert预训练模型代替原生CRNN模型中的BLSTM来捕捉上下文语义图形化信息,由于Bert预训练模型融合了词语文本语义、字符形态和拼音信息,能够弥补原生态CRNN模型中上下文信息捕捉不足的问题,从而解决图片褶皱、不清晰等导致的识别问题,从而提升最终文字识别准确率。
优选地,预设上下文窗口,是指与文字的行文本X轴位置信息在一定偏差范围内的上下N行文本信息,以及与该文字的列文本Y轴位置信息一定偏差范围内的上的左右N列文本信息。
通过本申请实施例中的步骤S102至步骤S110,解决了针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题,实现了对PDF文档中粗抽取的文档对象进一步地细分处理识别,提高了对PDF文档中信息的还原能力。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种证券期货场景下PDF文档的信息抽取系统,图2是根据本申请实施例的证券期货场景下PDF文档的信息抽取系统的结构框图,如图2所示,系统包括对象抽取模块21、识别分类模块22、第一处理模块23、第二处理模块24和第三处理模块25;
对象抽取模块21,用于按页遍历读取PDF文档的文档对象;
识别分类模块22,用于根据PDF文档中当前页面的文档对象的起止位置、字体形态和字符大小,对文档对象进行识别分类,得到正文对象和非正文对象;
第一处理模块23,用于若正文对象为文本对象,则从文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
第二处理模块24,用于若正文对象为表格对象,则识别表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
第三处理模块25,用于若正文对象为图片对象,则对图片对象进行预处理,定位预处理后图片对象的文字区域,识别并矫正文字区域中的图片文字。
通过本申请实施例中的对象抽取模块21、识别分类模块22、第一处理模块23、第二处理模块24和第三处理模块25,解决了针对证券期货场景下PDF文档的信息抽取存在着完整度低的问题,实现了对PDF文档中粗抽取的文档对象进一步地细分处理识别,提高了对PDF文档中信息的还原能力。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的证券期货场景下PDF文档的信息抽取方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种证券期货场景下PDF文档的信息抽取方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种证券期货场景下PDF文档的信息抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图3是根据本申请实施例的电子设备的内部结构示意图,如图3所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种证券期货场景下PDF文档的信息抽取方法,数据库用于存储数据。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种证券期货场景下PDF文档的信息抽取方法,其特征在于,所述方法包括:
按页遍历读取PDF文档的文档对象;
根据所述PDF文档中当前页面的文档对象的起止位置,将文档对象按从上到下、从左到右进行排序,并生成每个文档对象的矩形框位置信息;
根据所述起止位置,计算所述排序后每个文档对象与上下左右最近邻文档对象的第一距离信息,计算每个文档对象与页面中心点的第二距离信息,计算每个文档对象与页面中心矩形框的第三距离信息;
根据所述PDF文档中当前页面的文档对象的字体形态和字符大小,计算每个文档对象与所述页面中心矩形框的平均字体差异信息;
将每个文档对象的矩形框位置信息、第一距离信息、第二距离信息、第三距离信息和平均字体差异信息进行向量化组装,得到每个文档对象的类型特征化信息,并采用支持向量机分类模型对所述文档对象进行识别分类,得到正文对象和非正文对象;
若所述正文对象为文本对象,则从所述文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
若所述正文对象为表格对象,则识别所述表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
若所述正文对象为图片对象,则对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域,识别并矫正所述文字区域中的图片文字。
2.根据权利要求1所述的方法,其特征在于,从所述文本对象中识别标注出章节目录标题包括:
提取所述文本对象的字符格式特征和文本语义特征,并输入SENet分类模型得出高度语义特征信息,所述高度语义特征信息经过SENet分类模型中的全连接层,识别标注出对应的文本对象是否为章节目录标题。
3.根据权利要求1所述的方法,其特征在于,对非章节目录标题的正文段落进行段落识别与拼接包括:
提取非章节目录标题的正文段落的段落格式特征和语意连贯特征,通过SENet分类模型识别出所述正文段落是否为同一段落,若是,则进行段落拼接,若否,则不拼接。
4.根据权利要求1所述的方法,其特征在于,识别所述表格对象的数据范围,判断表格对象是否为同一表格包括:
逐行对所述表格对象进行特征提取,判断当前行特征是否为所述表格对象的第一行特征,若是,则向下抽取两行特征,与所述当前行特征组成上下文特征矩阵,若否,则抽取上一行特征、下一行特征,与所述当前行特征组成上下文特征矩阵;
将所述上下文特征矩阵输入Biaffine双仿射模型,识别所述表格对象是否为同一表格。
5.根据权利要求1所述的方法,其特征在于,对齐相同数据范围内的表格对象的列元素,并进行跨页合并包括:
计算相同数据范围内的表格对象中列文本的平均起止位置和中心位置,来进行列元素对齐,并进行跨页合并。
6.根据权利要求1所述的方法,其特征在于,对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域包括:
按预设尺寸对所述图片对象进行缩放,采用霍夫变换直线检测算法进行所述缩放后图片对象的图片旋转角度的检测计算,矫正所述图片对象的倾斜旋转;
通过卷积神经网络模型提取所述矫正后图片对象的卷积特征,识别出所述图片对象中的文字位置;
采用OpenCV工具定位出基于所述文字位置的若干最大连通域,所述最大连通域即为图片对象的文字区域。
7.根据权利要求1所述的方法,其特征在于,识别并矫正所述文字区域中的图片文字包括:
通过Bert预训练模型和CRNN网络模型识别出所述文字区域中的文字,并将所述文字区域的位置信息进行记录传递;
根据所述位置信息,在卷积神经网络中通过预设上下文窗口对所述识别出的文字进行类型信息特征、位置信息特征和行列数信息特征提取;
根据所述类型信息特征、所述位置信息特征和所述行列数信息特征,通过全连接层判断所述文字是否为同一表格,若是,则将所述文字进行表格合并。
8.根据权利要求1所述的方法,其特征在于,按页遍历读取PDF文档的文档对象包括:
采用pdfbox工具按页对PDF文档进行遍历读取,得到所述PDF文档的文档对象。
9.一种证券期货场景下PDF文档的信息抽取系统,其特征在于,所述系统包括对象抽取模块、识别分类模块、第一处理模块、第二处理模块和第三处理模块;
所述对象抽取模块,用于按页遍历读取PDF文档的文档对象;
所述识别分类模块,用于根据所述PDF文档中当前页面的文档对象的起止位置,将文档对象按从上到下、从左到右进行排序,并生成每个文档对象的矩形框位置信息;根据所述起止位置,计算所述排序后每个文档对象与上下左右最近邻文档对象的第一距离信息,计算每个文档对象与页面中心点的第二距离信息,计算每个文档对象与页面中心矩形框的第三距离信息;根据所述PDF文档中当前页面的文档对象的字体形态和字符大小,计算每个文档对象与所述页面中心矩形框的平均字体差异信息;将每个文档对象的矩形框位置信息、第一距离信息、第二距离信息、第三距离信息和平均字体差异信息进行向量化组装,得到每个文档对象的类型特征化信息,并采用支持向量机分类模型对所述文档对象进行识别分类,得到正文对象和非正文对象;
所述第一处理模块,用于若所述正文对象为文本对象,则从所述文本对象中识别标注出章节目录标题,对非章节目录标题的正文段落进行段落识别与拼接;
所述第二处理模块,用于若所述正文对象为表格对象,则识别所述表格对象的数据范围,判断表格对象是否为同一表格,若当前表格对象与上一表格对象在相同的数据范围内,则对齐相同数据范围内的表格对象的列元素,并进行跨页合并;
所述第三处理模块,用于若所述正文对象为图片对象,则对所述图片对象进行预处理,定位所述预处理后图片对象的文字区域,识别并矫正所述文字区域中的图片文字。
CN202210601538.2A 2022-05-30 2022-05-30 一种证券期货场景下pdf文档的信息抽取方法和系统 Active CN114821612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210601538.2A CN114821612B (zh) 2022-05-30 2022-05-30 一种证券期货场景下pdf文档的信息抽取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210601538.2A CN114821612B (zh) 2022-05-30 2022-05-30 一种证券期货场景下pdf文档的信息抽取方法和系统

Publications (2)

Publication Number Publication Date
CN114821612A CN114821612A (zh) 2022-07-29
CN114821612B true CN114821612B (zh) 2023-04-07

Family

ID=82519951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210601538.2A Active CN114821612B (zh) 2022-05-30 2022-05-30 一种证券期货场景下pdf文档的信息抽取方法和系统

Country Status (1)

Country Link
CN (1) CN114821612B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702718A (zh) * 2023-06-09 2023-09-05 广州万彩信息技术有限公司 一种基于pdf的信息处理方法、系统和存储介质
CN117496545B (zh) * 2024-01-02 2024-03-15 物产中大数字科技有限公司 一种面向pdf文档的表格数据融合处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI20176151A1 (en) * 2017-12-22 2019-06-23 Vuolearning Ltd A heuristic method for analyzing the contents of an electronic document
CN110110097A (zh) * 2019-05-13 2019-08-09 江苏省质量技术监督信息中心 一种基于模式识别技术在标准化文献元数据提取实现方法
CN114170605A (zh) * 2021-12-09 2022-03-11 上海妙一生物科技有限公司 一种临床试验方案的信息提取方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置

Also Published As

Publication number Publication date
CN114821612A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和系统
US7836390B2 (en) Strategies for processing annotations
US11977534B2 (en) Automated document processing for detecting, extracting, and analyzing tables and tabular data
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
US8208737B1 (en) Methods and systems for identifying captions in media material
CN109858036B (zh) 一种文书划分方法及装置
CN110516221B (zh) 提取pdf文档中图表数据的方法、设备和存储介质
US20220222284A1 (en) System and method for automated information extraction from scanned documents
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
Malik et al. An efficient segmentation technique for Urdu optical character recognizer (OCR)
Cheng et al. M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis
CN113420116B (zh) 医疗文档的分析方法、装置、设备及介质
CN113807218A (zh) 版面分析方法、装置、计算机设备和存储介质
Yuan et al. An opencv-based framework for table information extraction
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
Kamola et al. Image-based logical document structure recognition
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
Gupta et al. Table detection and metadata extraction in document images
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN115223183A (zh) 一种信息提取方法、装置及电子设备
Kumar et al. Line based robust script identification for indianlanguages
CN113705560A (zh) 基于图像识别的数据提取方法、装置、设备及存储介质
Marinai Reflowing and annotating scientific papers on eBook readers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant