CN116110051A - 一种文件信息处理方法、装置、计算机设备及存储介质 - Google Patents

一种文件信息处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116110051A
CN116110051A CN202310391818.XA CN202310391818A CN116110051A CN 116110051 A CN116110051 A CN 116110051A CN 202310391818 A CN202310391818 A CN 202310391818A CN 116110051 A CN116110051 A CN 116110051A
Authority
CN
China
Prior art keywords
area
region
text
picture
max
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310391818.XA
Other languages
English (en)
Other versions
CN116110051B (zh
Inventor
郑磊
宋炤坤
鲍琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Jiqian Quantum Technology Co ltd
Original Assignee
Hefei Jiqian Quantum Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Jiqian Quantum Technology Co ltd filed Critical Hefei Jiqian Quantum Technology Co ltd
Priority to CN202310391818.XA priority Critical patent/CN116110051B/zh
Publication of CN116110051A publication Critical patent/CN116110051A/zh
Application granted granted Critical
Publication of CN116110051B publication Critical patent/CN116110051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种文件信息处理方法、装置、计算机设备及存储介质,属于计算机技术领域。针对现有技术中存在的识别软件对PDF文件内容中图片及对应图注信息识别准确度低、表格及对应表格标题匹配速度慢等问题,本发明提供了一种文件信息处理方法、装置、计算机设备及存储介质,对图片区域,将图片区域与图注区域进行归一化处理,得到图片区域、图注区域以及图注文字;对表格区域,计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题。它可以实现自动化、准确高效地识别PDF文件中的图片及图注、表格及表格标题,极大地提高PDF文件信息识别的工作效率,进一步提升阅读体验感。

Description

一种文件信息处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种文件信息处理方法、装置、计算机设备及存储介质。
背景技术
PDF(Portable Document Format)又称为“便携式文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF文件以PostScript语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、颜色以及图象。
随着科技的发展,半导体芯片作为现代科技的核心,已经广泛应用于计算机、智能手机、电视、汽车、医疗设备等众多领域。然而,在半导体芯片研发过程中,涉及到的元素和材料种类越来越多,使得研发变得更加复杂和困难,并且这些数据通常以图片和表格的形式出现在PDF文件中,因此需要对PDF文件进行数据挖掘和抽取。在研发半导体芯片时,速度和效率也是非常重要的因素,手动从PDF文件中提取图片和表格是一项非常繁琐和耗时的任务。可见目前对于PDF文件正文中图片及对应图注信息的识别,还没有一套自动化、准确度高、速度快的方法。此外,现有技术中,由于原始PDF文件表格中的格式样式差异化较大,识别表格效果不理想,识别准确率较低。更重要的是,表格标题作为表格数据主体的说明,是表格中不可或缺的一部分,对于数据检索具有重要意义,而现有表格识别软件大多忽略了其标题。由此,需要将PDF文件中的关键信息自动化识别并重组,给阅读者提供精确到文本、表格、图片的内容查找,而不仅仅停留在文件整体的搜索,从而提高文件的阅读效率。
经检索,中国专利申请,申请公布号CN106951400A,申请公布日2017年7月14日,公开了一种PDF文件的信息抽取方法及装置。该发明针对PDF文件,分别将每一页中的信息生成相应的树形结构;分别统计每一页相应的树形结构中每一个节点的信息,从每一页中识别并抽取标题、正文、图表标题和图表结尾;进行汇总,对标题进行等级划分,并根据图表标题和图表结尾对图表进行抽取,分别将正文、图表映射到相应的标题和图表标题中,最终生成PDF文件的结构化数据,但是该方案需要统计树形结构中每一节点的信息,操作步骤繁琐,从而在PDF文件中识别效率不高。
发明内容
1.要解决的技术问题
针对现有技术中存在的对PDF文件中图片及对应图注信息识别准确度低、表格及对应表格标题匹配速度慢等问题,本发明提供了一种文件信息处理方法、装置、计算机设备及存储介质,它可以实现自动化、准确高效地识别PDF文件中的图片及图注、表格及表格标题,极大地提高了PDF文件信息识别的工作效率,进一步提升阅读体验感。
2.技术方案
本发明的目的通过以下技术方案实现。
一种文件信息处理方法,其步骤包括:
输入PDF文件,对PDF文件进行预处理,得到待识别图片;
将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项;
建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域;计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域;将图片区域与图注区域进行归一化处理;
提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域;计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题;
输出识别结果,所述识别结果包含图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。
进一步地,通过排版工具划分待识别图片得到所述信息区域,所述信息区域信息包括区域置信度,设定所述区域置信度值为R,其中,0<R<1。
进一步地,所述标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率的计算公式为:
H=Mx/Min(Ax,Bx
H=My/Min(Ay,By
其中,H表示图片区域与文本区域横坐标重叠率,Mx表示图片区域与文本区域横坐标重叠部分,Ax表示图片区域横坐标重叠部分,Bx表示文本区域横坐标重叠部分,H表示图片区域与文本区域纵坐标重叠率,My表示图片区域与文本区域纵坐标重叠部分,Ay表示图片区域纵坐标重叠部分,By表示文本区域纵坐标重叠部分;
设定标准重叠率值K,若H大于K且H大于K,则得到与图片区域匹配的文本区域。
进一步地,所述将图片区域与图注区域进行归一化处理的步骤为:选择图片区域坐标为(f_x_min,f_y_min,f_x_max,f_y_max),选择图注区域坐标为(w_x_min,w_y_min,w_x_max,w_y_max);计算图片区域与图注区域横坐标与纵坐标的距离进行匹配图片与图注,所述计算公式为:
P=min(abs(w_x_min - f_x_max),abs(w_x_max - f_x_min)) - prefer
P=min(abs(w_y_min - f_y_max),abs(w_y_max - f_y_min)) - prefer
其中,f_x_min表示图片区域横坐标最小值,f_y_min表示图片区域纵坐标最小值,f_x_max表示图片区域横坐标最大值,f_y_max表示图片区域纵坐标最大值,w_x_min表示图注区域横坐标最小值,w_y_min表示图注区域纵坐标最小值,w_x_max表示图注区域横坐标最大值,w_y_max表示图注区域纵坐标最大值,P表示图片区域与图注区域的横坐标距离,P表示图片区域与图注区域的纵坐标距离,prefer表示当前页修正量。
进一步地,所述扩展是指将表格主体区域坐标沿横向坐标轴扩大m倍且沿纵向坐标轴上扩大n倍,得到待识别区域坐标,m≥1,n≥0.15。
进一步地,所述得到符合表格标题特征的文本区域的计算公式为:
M水平=Δx/min(Δx1,Δx2)
M垂直=Δy/min(Δy1,Δy2)
其中,M水平表示表格主体区域与文本区域的水平重叠率,Δx表示表格主体区域与文本区域的水平重叠部分,Δx1表示表格主体区域水平长度,Δx2表示文本区域水平长度,M垂直表示表格主体区域与文本区域的垂直重叠率,Δy表示表格主体区域与文本区域的垂直重叠部分,Δy1表示表格主体区域垂直长度,Δy2表示文本区域垂直长度;
设定重叠率阈值F,若M水平>F且M垂直>F,则得到符合表格标题特征的文本区域。
进一步地,表格主体区域与符合表格标题特征的文本区域的距离的计算公式为:
H水平=min(abs(x1max-x2max),abs(x1max-x2min),abs(x1min-x2max),abs(x1min-x2min))
H垂直=min(abs(y1max-y2min),abs(y1max-y2max),abs(y1min-y2min),abs(y1min-y2max))
其中,H水平表示表格主体区域与符合表格标题特征的文本区域的水平距离,x1max表示表格主体区域横坐标极大值,x1min表示表格主体区域横坐标极小值,x2max表示文本区域横坐标极大值,x2min表示文本区域横坐标极小值,H垂直表示表格区域与符合表格标题特征的文本区域的垂直距离,y1max表示表格主体区域纵坐标极大值,y1min表示表格主体区域纵坐标极小值,y2max表示文本区域纵坐标极大值,y2min表示文本区域纵坐标极小值。
一种文件信息处理装置,包括:
输入模块,输入PDF文件,对PDF文件进行预处理,得到待识别图片;
识别模块,将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项;
处理模块,建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域;计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域,将图片区域与图注区域进行归一化处理;提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域,计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题;
输出模块,输出识别结果,所述识别结果包含标准图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。
一种计算机设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述所述的方法。
3.有益效果
相比于现有技术,本发明的优点在于:
本发明提供的一种文件信息处理方法、装置、计算机设备及存储介质,通过将PDF文件中的关键信息自动化抽取并重组,实现自动化、准确高效地识别PDF文件中的图片及图注,同时,不仅能够快速识别出表格主体内容,还能够准确识别出表格标题,完成表格主体和表格标题的匹配,使表格数据更易于分析和处理,给阅读者提供精确到文本、表格、图片的内容查找,有效提高PDF文件信息识别的工作效率。
附图说明
图1为本发明一种文件信息处理方法流程示意图;
图2为本发明识别图片及对应图注方法流程图;
图3为本发明识别表格及对应标题方法流程图。
具体实施方式
下面结合说明书附图和具体的实施例,对本发明作详细描述。
实施例
如图1所示,为本实施例提供的一种文件信息处理方法。输入PDF文件,对PDF文件进行预处理,得到待识别图片;将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项;建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域,计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域,将图片区域与图注区域进行归一化处理;提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域,计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题;输出识别结果,所述识别结果包含图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。
具体到本实施例中,首先输入PDF文件,对PDF文件进行预处理,得到待识别图片。现有技术中由于自动排版工具仅能够处理图片文件,并且处理结果与图片分辨率有关,而文件以PDF形式存储分辨率不固定,所以需要将PDF文件的每一页进行标准化处理。具体地,本实施例中,将PDF文件的每一页截取为图片形式,并将截取的图片形式压缩至200dpi,从而可以更加清晰地识别图片信息。进一步地,将所述待识别图片使用现有的开源AI排版工具如文本图像转换器(Dit-Layout)排版工具自动识别。具体地,通过目标检测方法对待识别图片进行区域分割,划分出信息区域,再将所述信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项。
如图2所示,提取图片区域以及文本区域。需要说明的是,通过Dit-Layout排版工具同时划分出每一信息区域的区域置信度,进而设定区域置信度值。所述设定区域置信度值为R,其中,0<R<1。通过设定区域置信度值,排除区域置信度小于R的信息区域;若所述信息区域包含图片区域以及文本区域,则排除图片区域中区域置信度值小于R的图片区域以及排除文本区域中区域置信度值小于R的文本区域。需要说明的是,本实施例中,选取的PDF文件的一页中通过区域分割,划分出的信息区域包括表格区域、图片区域以及文本区域。同时,本实施例中,选取区域置信度值R为0.75。由此,通过设定区域置信度值R为0.75,排除区域置信度值小于0.75的信息区域;此外,排除图片区域中区域置信度值小于0.75的图片区域以及排除文本区域中区域置信度值小于0.75的文本区域。通过设定区域置信度值,排除区域置信度小于R的信息区域,若所述信息区域包含图片区域以及文本区域,则排除图片区域中区域置信度值小于R的图片区域以及排除文本区域中区域置信度值小于R的文本区域,由此,所述信息区域中保留区域还包括区域置信度大于R的图片区域以及文本区域。进而,通过设定区域置信值更加快速高效地对保留区域进行图片信息识别。进一步地,对保留区域进行坐标标准化。具体地,建立直角坐标系,设定直角坐标原点,将保留区域放入直角坐标系中,本实施例中,对直角坐标系中保留区域坐标进行取整处理,即排除包含负数坐标区域、排除横坐标最大值小于最小值的坐标区域以及排除纵坐标最大值小于最小值的坐标区域。具体地,排除负数坐标区域;将保留区域中横坐标的最大值与横坐标最小值的差记为Sx,将保留区域中纵坐标的最大值与纵坐标最小值的差记为Sy,设定保留区域内横坐标的最大值与横坐标最小值的标准差为a,设定保留区域内纵坐标的最大值与纵坐标最小值的标准差为b,若保留区域中横坐标的最大值与横坐标最小值的差Sx小于标准差a和/或保留区域中纵坐标的最大值与纵坐标最小值的差Sy小于标准差b,则排除该保留区域,从而得到标准化区域。进一步地,计算标准化区域中图片区域与文本区域的横坐标重叠率以及图片区域与文本区域的纵坐标重叠率,得到与图片区域匹配的文本区域。具体地,对于标准化区域中的每一图片区域,计算其与标准化区域中的文本区域的横坐标重叠率以及纵坐标重叠率。所述标准化区域中图片区域与文本区域横坐标重叠率以及图片区域与文本区域纵坐标重叠率的计算公式为:
H=Mx/Min(Ax,Bx
H=My/Min(Ay,By
其中,H表示图片区域与文本区域横坐标重叠率,Mx表示图片区域与文本区域横坐标重叠部分,Ax表示图片区域横坐标重叠部分,Bx表示文本区域横坐标重叠部分;H表示图片区域与文本区域纵坐标重叠率,My表示图片区域与文本区域纵坐标重叠部分,Ay表示图片区域纵坐标重叠部分,By表示文本区域纵坐标重叠部分。设定标准重叠率值K,若H大于K且H大于K,则得到与图片区域匹配的文本区域。本实施例中,选取标准重叠值K为0.8。进一步地,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域。具体地,通过现有的识别工具如OCR工具,提取文本区域中的文字,根据文字内容筛选出可能为图注的文本区域。本实施例中,根据文字内容筛选出可能为图注的文本区域的方法为:首先,根据不同的文件期刊设定不同的图注标识。例如,一般期刊图注以“fig”或“figure”开头,因此,设定图注标识为“fig”或“figure”。其次,判断文本区域中的文字是否以图注标识开头或者包含图注标识。需要说明的是,排除既不以图注标识开头也不包含图注标识的文本区域。对于以图注标识开头的文本区域认定为是该图片区域的匹配项,对于包含图注标识的文本区域认定为是该图片区域的可能项。进一步地,将图片区域与图注区域进行归一化处理。本实施例中,一个图片匹配且仅匹配一个图注,由此,图片与图注应当满足以下条件:(1)一个图片仅匹配一个图注;(2)一个图注至多被匹配一次;(3)图片图注相对位置符合当页排版规律,进而通过计算图片区域与文本区域横坐标与纵坐标的距离进行匹配图片与图注。所述将图片区域与图注区域进行归一化处理的步骤为:选择图片区域坐标为(f_x_min,f_y_min,f_x_max,f_y_max),选择图注区域坐标为(w_x_min,w_y_min,w_x_max,w_y_max),所述计算公式为:
P=min(abs(w_x_min - f_x_max),abs(w_x_max - f_x_min)) - prefer
P=min(abs(w_y_min - f_y_max),abs(w_y_max - f_y_min)) - prefer
其中,f_x_min表示图片区域横坐标最小值,f_y_min表示图片区域纵坐标最小值,f_x_max表示图片区域横坐标最大值,f_y_max表示图片区域纵坐标最大值,w_x_min表示图注区域横坐标最小值,w_y_min表示图注区域纵坐标最小值,w_x_max表示图注区域横坐标最大值,w_y_max表示图注区域纵坐标最大值,P表示图片区域与图注区域的横坐标距离,P表示图片区域与图注区域的纵坐标距离,prefer表示当前页修正量。本实施例中,当前页修正量prefer初始为0,每存在一个图注在图片下方,则使prefer增加T。相反,每存在一个图注在图片上方,则使prefer减小T,本实施例中,选取T值为10。由此,对于每个图片区域依次根据横坐标距离与纵坐标距离由小到大进行排序,根据排序选择没有被匹配的最近文本区域,则认为是该图片的图注。若匹配项为空则在所述可能项中进一步查找。最终,输出识别结果,所述识别结果包含图片区域、图注区域以及图注文字。
如图3所示,提取表格区域以及文本区域,获取表格主体区域坐标。具体地,通过现有表格转换技术(Table Transformer技术)提取待识别图片中的表格主体区域,进而通过确定表格主体位置能够有效识别表格主体内容,同时,由于表格标题位于表格主体四周,通过确定表格主体位置能够快速匹配到表格标题,进而有效提高文件信息处理效率。进一步地,建立直角坐标系,获取表格主体区域坐标。本实施例中,同样使用表格转换技术获取表格主体区域坐标。进一步地,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标。需要说明的是,所述扩展是指将表格主体区域坐标沿横向坐标轴扩大m倍且沿纵向坐标轴上扩大n倍,得到待识别区域坐标,m≥1,n≥0.15。通过将表格主体区域坐标沿横向坐标轴扩大m倍,得到的待识别区域坐标中包含表格主体,若表格标题在表格主体两侧,则待识别区域坐标中也包含了表格标题。通过将表格主体区域坐标沿纵向坐标轴扩大n倍,若表格标题在表格主体的两端,则待识别区域坐标中也包含了表格标题。本实施例中,优选地,将表格主体区域坐标沿横向坐标轴扩大1倍且沿纵向坐标轴上扩大0.15倍。进一步地,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域。具体地,通过对待识别区域进行版面分析得到不同类型的坐标区域,所述不同类型的区域坐标包括文本区域坐标、表格主体区域坐标以及图片区域坐标中的一项或多项,采用按类型过滤方式,过滤表格主体区域坐标以及图片区域坐标,保留文本区域坐标。本实施例中,通过现有的布局分析技术(Layout Parser技术)对待识别区域坐标进行版面分析。需要说明的是,对待识别区域坐标通过版面分析后,若存在图片区域坐标,则过滤图片区域坐标,若存在表格主体区域坐标,则过滤表格主体区域坐标,进而保留文本区域坐标。进一步地,提取文本区域坐标中的文本区域。本实施例中,通过现有的识别工具如OCR工具,提取文本区域坐标中的文本区域,进而提取文本。
值得说明的是,现有技术中,直接通过版面分析技术对待识别图片进行版面分析,再以表格主体为中心寻找表格标题,也可以完成表格主体与表格标题的匹配。但是,版面分析技术基于深度学习技术实现,会识别待识别图片中的所有区域,包括与表格区域无关的区域,进而会消耗大量CPU/GPU资源,产生额外的资源消耗,浪费识别时间。而本实施例中,获取待识别图片中的表格主体区域,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,再对待识别区域坐标进行版面分析,能够有效减少与表格主体区域无关的区域的识别,避免产生额外的资源消耗,极大地提高文件信息处理效率。
进一步地,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域。具体地,预定义正则表达式,如“^Table[\d+]”、“^Tbl[\d+]”等,再建立正则表达式表,存放可能为表格标题的正则表达式。使用正则表达式表中的正则表达式匹配文本区域中提取出的文本。若正则表达式表中的正则表达式与文本区域中提取出的文本匹配,则该文本区域符合表格标题特征,可能为表格标题,将其保留;若正则表达式表中的正则表达式与文本区域中提取出的文本不匹配,则该文本区域不符合表格标题特征,不可能为表格标题,将其丢弃。由此,通过正则表达式筛选并保留符合表格标题特征的文本区域,过滤不可能为表格标题的文本区域,从而保证过滤后的文本区域与表格标题相关。进一步地,过滤与表格标题关联性不强的文本区域,得到符合表格标题特征的文本区域,所述得到符合表格标题特征的文本区域的计算公式为:
M水平=Δx/min(Δx1,Δx2)
M垂直=Δy/min(Δy1,Δy2)
其中,M水平表示表格主体区域与文本区域的水平重叠率,Δx表示表格主体区域与文本区域的水平重叠部分,Δx1表示表格主体区域水平长度,Δx2表示文本区域水平长度,M垂直表示表格主体区域与文本区域的垂直重叠率,Δy表示表格主体区域与文本区域的垂直重叠部分,Δy1表示表格主体区域垂直长度,Δy2表示文本区域垂直长度。需要说明的是,本实施例中,设定重叠率阈值F,若M水平>F且M垂直>F,则得到符合表格标题特征的文本区域。本实施例中,设定重叠率阈值F为0.5,从而通过设定重叠率阈值F筛选并保留符合表格标题特征的文本区域,进一步过滤不可能为表格标题的文本区域,保证过滤后的文本区域与表格标题相关。进一步地,在符合表格标题特征的文本区域中确定表格标题,自表格主体区域由内而外从其上下左右四个方向上寻找表格标题,计算表格主体区域与符合表格标题特征的文本区域的距离,进而确定表格标题。所述表格主体区域与符合表格标题特征的文本区域的距离的计算公式为:
H水平=min(abs(x1max-x2max),abs(x1max-x2min),abs(x1min-x2max),abs(x1min-x2min))
H垂直=min(abs(y1max-y2min),abs(y1max-y2max),abs(y1min-y2min),abs(y1min-y2max))
其中,H水平表示表格主体区域与符合表格标题特征的文本区域的水平距离,x1max表示表格主体区域横坐标极大值,x1min表示表格主体区域横坐标极小值,x2max表示文本区域横坐标极大值,x2min表示文本区域横坐标极小值,H垂直表示表格区域与符合表格标题特征的文本区域的垂直距离,y1max表示表格主体区域纵坐标极大值,y1min表示表格主体区域纵坐标极小值,y2max表示文本区域纵坐标极大值,y2min表示文本区域纵坐标极小值。进而通过计算表格主体区域与文本区域之间的距离,若表格主体区域与文本区域之间的距离最近,则说明表格主体区域与文本区域之间的关联性最强,即可确定该文本区域为表格标题。需要说明的是,本实施例中,若待识别图片中的表格区域通过上述文件信息处理方法识别后,无法选择到表格标题,则认为该表格区域识别错误,将该表格区域丢弃。进一步地,表格主体与表格标题匹配完成后,使用表格识别工具如PPStructure工具将表格主体转为Excel格式,将表格标题文本、Excel文件地址通过json格式写入文件中,进而完成文件信息处理。
由此,本实施例所述的一种文件信息处理方法,针对现有技术中图片信息识别方法无法很好地匹配PDF文件中图片及对应图注,通过设定区域置信度值,保留区域置信度值大于设定区域置信度值的图片区域以及文本区域,再通过计算图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,进而可以自动、准确地得到与图片区域匹配的文本区域;提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域,从而可以实现图片与图注的一一对应,而不是简单地分割出图片区域与图注区域;最后将图片区域与图注区域进行归一化处理,极大地提高了图片区域与图注区域的查准率。值得说明的是,本实施例所述的一种文件信息处理方法,通过将PDF文件中的关键信息自动化识别并匹配,从而可以拆分PDF文件,给阅读者提供精确到文本、表格、图片的内容查找,而不仅仅是停留在PDF文件整体的搜索,从而可以极大地提高文件的阅读效率。此外,本实施例提供的一种文件信息处理方法,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,能够有效减少与表格主体区域无关的区域的识别,避免产生额外的资源消耗,提高文件信息处理效率;同时,预定义正则表达式,通过正则表达式能够快速得到符合表格标题特征的文本区域,节约文本信息处理时间;最后通过计算表格主体区域与符合表格标题特征的文本区域的距离,能够准确匹配到表格标题,从而在实际应用中更易于表格数据分析和处理,具有较强实用性和适用广泛性。
需要说明的是,本实施例还提供一种文件信息处理装置,包括输入模块、识别模块、处理模块以及输出模块。所述输入模块,输入PDF文件,对PDF文件进行预处理,得到待识别图片。所述识别模块,将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项。所述处理模块,建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域,计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域,将图片区域与图注区域进行归一化处理;提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域,计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题。所述输出模块,输出识别结果,所述识别结果包含标准图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。本实施例提供的一种文件信息处理装置能够实现所述文件信息处理方法的任一种方法,且一种文件信息处理装置的具体工作过程可参考所述文件信息处理方法实施例中的对应过程。本实施例所提供的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,某个模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的连接或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电性、机械或其它的形式的连接。
本实施例还提供一种计算机设备。一种计算机设备,包括存储器、处理器以及储存在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的一种文件信息处理方法。
本实施例还提供一种计算机可读存储介质。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行本实施例中所述的一种文件信息处理方法。其中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用;计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (10)

1.一种文件信息处理方法,其步骤包括:
输入PDF文件,对PDF文件进行预处理,得到待识别图片;
将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项;
建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域;计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域;将图片区域与图注区域进行归一化处理;
提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域;计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题;
输出识别结果,所述识别结果包含图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。
2.根据权利要求1所述的一种文件信息处理方法,其特征在于,通过排版工具划分待识别图片得到所述信息区域,所述信息区域信息包括区域置信度,设定所述区域置信度值为R,其中,0<R<1。
3. 根据权利要求1所述的一种文件信息处理方法,其特征在于,所述标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率的计算公式为:
H=Mx/Min(Ax,Bx
H=My/Min(Ay,By
其中,H表示图片区域与文本区域横坐标重叠率,Mx表示图片区域与文本区域横坐标重叠部分,Ax表示图片区域横坐标重叠部分,Bx表示文本区域横坐标重叠部分,H表示图片区域与文本区域纵坐标重叠率,My表示图片区域与文本区域纵坐标重叠部分,Ay表示图片区域纵坐标重叠部分,By表示文本区域纵坐标重叠部分;
设定标准重叠率值K,若H大于K且H大于K,则得到与图片区域匹配的文本区域。
4. 根据权利要求1所述的一种文件信息处理方法,其特征在于,所述将图片区域与图注区域进行归一化处理的步骤为:选择图片区域坐标为(f_x_min,f_y_min,f_x_max,f_y_max),选择图注区域坐标为(w_x_min,w_y_min,w_x_max,w_y_max);计算图片区域与图注区域横坐标与纵坐标的距离进行匹配图片与图注,计算公式为:
P=min(abs(w_x_min - f_x_max),abs(w_x_max - f_x_min)) - prefer
P=min(abs(w_y_min - f_y_max),abs(w_y_max - f_y_min)) - prefer
其中,f_x_min表示图片区域横坐标最小值,f_y_min表示图片区域纵坐标最小值,f_x_max表示图片区域横坐标最大值,f_y_max表示图片区域纵坐标最大值,w_x_min表示图注区域横坐标最小值,w_y_min表示图注区域纵坐标最小值,w_x_max表示图注区域横坐标最大值,w_y_max表示图注区域纵坐标最大值,P表示图片区域与图注区域的横坐标距离,P表示图片区域与图注区域的纵坐标距离,prefer表示当前页修正量。
5.根据权利要求1所述的一种文件信息处理方法,其特征在于,所述扩展是指将表格主体区域坐标沿横向坐标轴扩大m倍且沿纵向坐标轴上扩大n倍,得到待识别区域坐标,m≥1,n≥0.15。
6. 根据权利要求1所述的一种文件信息处理方法,其特征在于,所述得到符合表格标题特征的文本区域的计算公式为:
M水平=Δx/min(Δx1,Δx2)
M垂直=Δy/min(Δy1,Δy2)
其中,M水平表示表格主体区域与文本区域的水平重叠率,Δx表示表格主体区域与文本区域的水平重叠部分,Δx1表示表格主体区域水平长度,Δx2表示文本区域水平长度,M垂直表示表格主体区域与文本区域的垂直重叠率,Δy表示表格主体区域与文本区域的垂直重叠部分,Δy1表示表格主体区域垂直长度,Δy2表示文本区域垂直长度;
设定重叠率阈值F,若M水平>F且M垂直>F,则得到符合表格标题特征的文本区域。
7. 根据权利要求6所述的一种文件信息处理方法,其特征在于,表格主体区域与符合表格标题特征的文本区域的距离的计算公式为:
H水平=min(abs(x1max-x2max),abs(x1max-x2min),abs(x1min-x2max),abs(x1min-x2min))
H垂直=min(abs(y1max-y2min),abs(y1max-y2max),abs(y1min-y2min),abs(y1min-y2max))
其中,H水平表示表格主体区域与符合表格标题特征的文本区域的水平距离,x1max表示表格主体区域横坐标极大值,x1min表示表格主体区域横坐标极小值,x2max表示文本区域横坐标极大值,x2min表示文本区域横坐标极小值,H垂直表示表格区域与符合表格标题特征的文本区域的垂直距离,y1max表示表格主体区域纵坐标极大值,y1min表示表格主体区域纵坐标极小值,y2max表示文本区域纵坐标极大值,y2min表示文本区域纵坐标极小值。
8.一种文件信息处理装置,其特征在于,包括:
输入模块,输入PDF文件,对PDF文件进行预处理,得到待识别图片;
识别模块,将待识别图片进行区域分割得到信息区域,将信息区域进行分类,所述信息区域包括图片区域、表格区域和文本区域中的一项或多项;
处理模块,建立直角坐标系,提取图片区域以及文本区域,设定区域置信度值,排除区域置信度小于设定区域置信度值的图片区域以及文本区域,对保留区域坐标标准化,得到标准化区域;计算标准化区域中图片区域与文本区域的横坐标重叠率以及纵坐标重叠率,得到与图片区域匹配的文本区域,提取文本区域中的图注文字,筛选出文本区域中为图片区域的图注区域,将图片区域与图注区域进行归一化处理;提取表格区域以及文本区域,获取表格主体区域坐标,将表格主体区域坐标在横向坐标轴和纵向坐标轴上扩展得到待识别区域坐标,通过分析待识别区域坐标得到文本区域坐标,提取文本区域坐标中的文本区域,预定义正则表达式,通过正则表达式得到符合表格标题特征的文本区域,计算表格主体区域与符合表格标题特征的文本区域的距离,确定表格标题;
输出模块,输出识别结果,所述识别结果包含标准图片区域、图注区域、图注文字,以及与表格主体匹配的表格标题。
9.一种计算机设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法。
CN202310391818.XA 2023-04-13 2023-04-13 一种文件信息处理方法、装置、计算机设备及存储介质 Active CN116110051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310391818.XA CN116110051B (zh) 2023-04-13 2023-04-13 一种文件信息处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310391818.XA CN116110051B (zh) 2023-04-13 2023-04-13 一种文件信息处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN116110051A true CN116110051A (zh) 2023-05-12
CN116110051B CN116110051B (zh) 2023-07-14

Family

ID=86256540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310391818.XA Active CN116110051B (zh) 2023-04-13 2023-04-13 一种文件信息处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116110051B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110052062A1 (en) * 2009-08-25 2011-03-03 Patrick Chiu System and method for identifying pictures in documents
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
CN107133566A (zh) * 2017-03-31 2017-09-05 常诚 一种识别pdf文档中图表的方法
JP2018205978A (ja) * 2017-06-01 2018-12-27 株式会社オブジェクト・オブ・ヌル 情報抽出装置及び情報抽出方法
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
US20210158034A1 (en) * 2019-11-27 2021-05-27 Guangxi University Method for table extraction from journal literature based on text state characteristics
CN114359924A (zh) * 2021-11-30 2022-04-15 泰康保险集团股份有限公司 数据处理方法、装置、设备及存储介质
CN115171807A (zh) * 2022-09-07 2022-10-11 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和系统
CN115455935A (zh) * 2022-09-14 2022-12-09 华东师范大学 一种文本信息智能处理系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110052062A1 (en) * 2009-08-25 2011-03-03 Patrick Chiu System and method for identifying pictures in documents
CN104142961A (zh) * 2013-05-10 2014-11-12 北大方正集团有限公司 版式文档中复合图的逻辑处理装置和逻辑处理方法
CN107133566A (zh) * 2017-03-31 2017-09-05 常诚 一种识别pdf文档中图表的方法
JP2018205978A (ja) * 2017-06-01 2018-12-27 株式会社オブジェクト・オブ・ヌル 情報抽出装置及び情報抽出方法
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
US20210158034A1 (en) * 2019-11-27 2021-05-27 Guangxi University Method for table extraction from journal literature based on text state characteristics
CN114359924A (zh) * 2021-11-30 2022-04-15 泰康保险集团股份有限公司 数据处理方法、装置、设备及存储介质
CN115171807A (zh) * 2022-09-07 2022-10-11 合肥机数量子科技有限公司 一种分子编码模型训练方法、分子编码方法和系统
CN115455935A (zh) * 2022-09-14 2022-12-09 华东师范大学 一种文本信息智能处理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
窦方坤;曹皓伟;徐建良;: "基于文本元素的PDF表格区域识别方法研究", 软件导刊, no. 01, pages 119 - 122 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Also Published As

Publication number Publication date
CN116110051B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
RU2357284C2 (ru) Способ обработки цифровых рукописных примечаний для распознавания, привязки и переформатирования цифровых рукописных примечаний и система для его осуществления
US7305612B2 (en) Systems and methods for automatic form segmentation for raster-based passive electronic documents
US7013309B2 (en) Method and apparatus for extracting anchorable information units from complex PDF documents
JP3692764B2 (ja) 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
US5669007A (en) Method and system for analyzing the logical structure of a document
JP3425408B2 (ja) 文書読取装置
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US7643687B2 (en) Analysis hints
US20080195931A1 (en) Parsing of ink annotations
US9430716B2 (en) Image processing method and image processing system
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
CN116110051B (zh) 一种文件信息处理方法、装置、计算机设备及存储介质
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JPH11184894A (ja) 論理要素抽出方法および記録媒体
AU2005230005B2 (en) Analysis alternates in context trees
CN110688842B (zh) 一种文档标题层级的分析方法、装置及服务器
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
CN113283231A (zh) 获取签章位的方法、设置系统、签章系统及存储介质
JP2004227255A (ja) 文書解析装置
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
CN113255369B (zh) 文本相似度分析的方法、装置及存储介质
JP2007241473A (ja) 情報処理装置、情報処理方法、プログラム、記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant