CN113221711A - 一种信息提取方法及装置 - Google Patents

一种信息提取方法及装置 Download PDF

Info

Publication number
CN113221711A
CN113221711A CN202110486539.2A CN202110486539A CN113221711A CN 113221711 A CN113221711 A CN 113221711A CN 202110486539 A CN202110486539 A CN 202110486539A CN 113221711 A CN113221711 A CN 113221711A
Authority
CN
China
Prior art keywords
information
text
layout
picture
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110486539.2A
Other languages
English (en)
Inventor
徐支勇
李长亮
毛璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Technology Co ltd, Beijing Kingsoft Software Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Priority to CN202110486539.2A priority Critical patent/CN113221711A/zh
Publication of CN113221711A publication Critical patent/CN113221711A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请提供一种信息提取方法及装置,其中所述信息提取方法包括:获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;通过文本检测模型获取所述待处理图片中的文本信息;根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。本申请中的信息提取方法对待处理图片的版面进行还原,提高了版面还原时排版的精度,通过版面检测模型和文本识别模型对待处理图片进行检测,减少了人工的参与,节省了大量的人力成本和时间成本。

Description

一种信息提取方法及装置
技术领域
本申请涉及图像处理技术领域,特别涉及一种信息提取方法及装置、计算设备和计算机可读存储介质。
背景技术
随着科学技术的不断发展,对于图像的版面还原的需求也日益高涨。目前版面还原技术中,大多通过检测和识别两个环节对图像进行处理,通过检测环节找到图像中包含的文字区域,在识别环节对图像中文字区域内的文字进行识别,针对识别的结果,进行了简单的位置排序。
通过使用检测和识别两个环节对图像进行处理,针对的是图像中文本类型的数据,所以无法根据识别的结果准确的对图像版面进行还原。
发明内容
有鉴于此,本申请实施例提供了一种信息提取方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种信息提取方法,包括:
获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
通过文本检测模型获取所述待处理图片中的文本信息;
根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
可选地,所述版面检测模型包括局部特征提取层、融合层以及识别层,所述版面检测模型通过如下方法训练得到:
将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;
将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;
将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;
将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件。
可选地,所述训练数据集通过如下方法获得:
对样本图像进行标注,标注出所述样本图像中版面元素的元素类型和区域信息,获得训练数据集。
可选地,所述样本图像通过如下方法获得:
对样本数据进行筛选获得样本图像。
可选地,将所述局部特征输入融合层进行融合之前,还包括:
剔除未达到第一尺寸阈值的局部特征。
可选地,将所述局部特征输入融合层进行融合之前,还包括:
结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
可选地,在所述版面元素类型包括表格的情况下,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值之后,还包括:
将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
可选地,文本检测模型包括文本行检测层和文字识别层;所述文本检测模型的训练方法,包括:
将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;
将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
可选地,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述表格结构信息和所述文本信息还原所述待处理图片中的表格区域块信息;
根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;
根据所述各版面元素的类型以及所述各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
可选地,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述各版面元素的区域信息将所述表格区域块信息、所述文本区域块信息以及所述图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
可选地,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述各版面元素的区域信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
可选地,所述获取待处理图片之前,包括:
将待处理文件转换为所述待处理图片。
根据本申请实施例的第二方面,提供了一种信息提取装置,包括:
第一获取模块,被配置为获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
第二获取模块,被配置为通过文本检测模型获取所述待处理图片中文本信息通过文本检测模型获取所述待处理图片中的文本信息;
还原模块,被配置为根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
可选地,所述第一获取模块包括第一训练子模块,被配置为通过训练得到所述版面检测模型,包括:
将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;
将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;
将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;
将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件。
可选地,所述第一训练子模块,还被配置为对样本图像进行标注,标注出样本图像中版面元素的元素类型和区域信息,获得训练数据集。
可选地,所述第一训练子模块,还被配置为对样本数据进行筛选获得样本图像。
可选地,所述第一训练子模块,还被配置为剔除未达到第一尺寸阈值的局部特征。
可选地,所述第一训练子模块,还被配置为结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
可选地,在所述版面元素类型包括表格的情况下,所述第一训练子模块,还被配置为将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
可选地,所述第二获取模块包括第二训练子模块,被配置为训练所述文本检测模型,包括:将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
可选地,所述还原模块,还被配置为根据所述表格结构信息和所述文本信息还原所述待处理图片中的表格区域块信息;根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;根据所述各版面元素的类型以及所述各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
可选地,所述还原模块,还被配置为根据所述各版面元素的区域信息将所述表格区域块信息、所述文本区域块信息以及所述图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
可选地,所述还原模块,还被配置为根据所述各版面元素的区域信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
可选地,所述信息提取装置,还包括:
转换模块,被配置为将待处理文件转换为所述待处理图片。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
通过文本检测模型获取所述待处理图片中的文本信息;
根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现任意所述信息提取方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述信息提取方法的步骤。
本申请提供的信息提取方法,获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;通过文本检测模型获取所述待处理图片中的文本信息;根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。本申请中的信息提取方法,将待处理图片的文本信息根据各版面元素的版面区域信息添加至空白的文档形成还原文档,实现对待处理图片的版面进行还原,提高了版面还原时排版的精度。将待处理图片的文本信息添加至空白文档形成还原文本文档,方便后续对待处理图片的文字信息进行编辑,同时通过版面检测模型和文本识别模型对待处理图片进行检测,减少了人工的参与,节省了大量的人力成本和时间成本。
附图说明
图1是本申请一实施例提供的一种信息提取方法的流程图;
图2是本申请一实施例提供的一种版面检测模型训练过程示意图;
图3是本申请一实施例提供的一种文本检测模型训练过程示意图;
图4是本申请一实施例提供的一种信息提取过程的示意图;
图5是本申请一实施例提供的一种简历版面还原过程的示意图;
图6是本申请实施例提供的一种信息提取装置的结构示意图;
图7是本申请实施例提供的一种计算设备的结构框图;
图8是本申请实施例提供的一种版面检测模型的训练示意图;
图9是本申请实施例提供的分割层对表格区域进行检测的流程图;
图10是本申请实施例提供的分割层的训练示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
OCR:是指电子设别通过检测图片中模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
YOLO模型:是一种图文检测模型,可以通过标记训练,检测出图片中类别框和文本框位置。
CRNN模型:是一种图文识别模型,可以用于识别较长的文本序列。
CNN模型:卷积神经网络模型,可以用于图像识别。
Unet模型:是一个语义分割网络模型,可以用于进行图像分割。
Darknet:是一种深度学习框架,深度学习框架是一种界面、库或工具,基于它能够实现在无需深入了解底层算法的细节的情况下,能够构建深度学习模型。
版面还原:通过识别版面中表格、文本框、图片位置,生成相应的输出文档,还原出页面版式。
训练数据集:是训练数据的集合,训练数据(Train Data)即数据挖掘过程中用于数据挖掘模型构建的数据,在数据挖掘过程中,除了训练数据还有测试数据(Test Data),用于评估模型的准确率。
聚类分析:将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类,在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
接下来,对本申请提供的信息提取方法的基本构思进行简述。
现有技术中的版面还原方法,大多是通过检测环节和识别环节对图像进行处理。通过检测环节找到图像中所包含的文字区域进行检测,获取文字区域的位置信息,再通过文字区域的位置信息,对该区域的文字进行识别操作,获取图像中的文字信息。根据图像中文字区域的位置,对文字信息进行还原。在此过程中,使用检测和识别两个环节,针对的是文本类型数据,并没有融合针对表格和图片的检测方法对图像中表格和图片区域进行识别,无法根据识别的结果准确的对图像版面进行还原,从而导致版面还原的效果差。
假设用户需要对包括文字、表格、图像等信息的图片进行版面还原,如果通过现有的版面还原方法对包括文字、表格、图像等信息的图片进行还原,只能识别出图片中的文字信息,无法识别图片中的表格与图像区域,在版面还原时无法准确的还原图片版面中包含的内容。并且由于现有的版面还原过程中准确度较低,需要人工的参与,增加了人力成本和时间成本。
为了提高版面还原时排版的准确度和降低人工的参与度,本申请提出了一种信息提取方法,获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;通过文本检测模型获取所述待处理图片中的文本信息;根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。从而保证了版面还原时排版的准确度和减少了版面还原时人工的参与,节省了大量的人力成本和时间成本。
在本申请中,提供了一种信息提取方法,本申请同时涉及一种信息提取装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种信息提取方法的流程图,具体包括以下步骤。
步骤102:获取待处理图片,并通过版面检测模型获取待处理图片中各版面元素的类型以及各版面元素的区域信息。
具体的,待处理图片是指用户需要进行版面还原的图片;版面检测模型是指对待处理图片进行版面检测处理,并获取待处理图片中各版面元素类型和各版面元素的区域信息的模型;版面元素是指待处理图像中的表格区域、文本框区域、图像区域。
实际应用中,对待处理图片进行版面还原时,需要先对待处理图片进行预处理操作,所述预处理操作可以包括从多个检测维度对待处理图片进行检测;在本申请的实施例中,所述从多个检测维度对待处理图片进行检测可以包括:
1)从清晰度这一维度出发对所述待处理图片进行检测;若检测结果符合预设的清晰度标准,表明所述待处理图片通过图片清晰度这一维度的检测,对所述待处理图像进行后续处理;反之,则表明所述待处理图片未通过图像清晰度这一维度的检测,向用户发出图片清晰度不符合预定标准的提示信息。
2)从信息完整性这一维度出发对所述待处理图片进行检测;若检测结果符合预设的标准,表明所述待处理图片中所包括的表格信息、图像信息以及文字信息是完整的,并不存在表格部分缺失、图像部分丢失以及文字内容存在缺失等问题。从而对所述待处理图像进行后续处理;反之,则表明所述待处理图片不完整,表格信息、图像信息或者文字信息存在缺失,向用户发出图片的完整性不符合预定标准的提示信息。
此外,还可以从图片清晰度和信息完整性之外的其他维度出发对所述待处理图像进行检测,本实施例对此不做限定。
通过所述预处理操作获得符合检测标准的待处理图片,之后将待处理图片输入版面检测模型,通过版面检测模型对所述待处理图片进行检测,获取待处理图片中各版面元素的类型以及各版面元素的区域信息,其中区域信息包括各版面元素的位置信息和各版面元素的尺寸信息;即通过版面检测模型获取待处理图片中各版面元素的类型以及各版面元素的区域信息。
例如,用户需要对一个350*350的图片进行版面还原,此时需要对图片进行校正,将其调整为符合检测标准的图片。再将该图片输入版面检测模型对其进行检测,得到该图片中各表格区域、文本框区域、图片区域等版面元素的类型、版面元素的位置信息和版面元素的尺寸信息。
在本申请实施例的一种可选地实施方法中,所述通版面检测模型对所述待处理图片进行版面检测之前,包括,将待处理文件转换为所述待处理图片。
具体地,所述待处理文件是指需要通过版面还原的方式转换为电子文档的文件。在本申请实施例中,所述待处理文件可以是纸质文件,还可以是除纸质文件以外的其他需要进行版面还原的文件,本实施例对此不做限定。
实际应用中,在将所述待处理图片进行版面检测之前,需要将对应的待处理文件转换为待处理图片,通过对待处理图片进行检测,将待处理图片的版面进行还原。
例如,用户想要将纸质个人信息表的版面信息还原成文档,以便于对个人信息表进行编辑。可以使用相机、扫描仪等设备,通过拍照、扫描等方式将需要进行版面还原的纸质个人信息表转换成图片形式。通过对个人信息表的图片进行检测,将用户的个人信息还原成文档格式。
本实施例还可以通过除相机、扫描仪之外的设备将纸质个人信息表转换为图片形式,本实施例对此不做具体限定。
在本申请实施例的一种可选地实施方法中,如附图8所示,所述版面检测模型包括局部特征提取层、融合层以及识别层,所述版面检测模型通过如下方法训练得到:将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件,获得最终的版面检测模型。
实际应用中,需要将所述训练数据集输入到所述版面检测模型对所述版面检测模型进行训练,首先将所述训练数据集输入到所述版面检测模型的所述局部特征提取层,通过所述局部特征层提取出所述训练数据集中样本图像的每个局部的版面元素类型以及对应的位置,获得所述样本图像的局部特征;其次将所述局部特征层获得的局部特征输入所述融合层,对所有样本图像的局部特征进行融合,获得训练数据集中样本图像的融合特征图;最后将所述融合层获得训练数据集中样本图像的融合特征图输入所述识别层进行区域识别,获得所述训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值。
通过将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件,获得最终的版面检测模型。
例如,对当前的版面检测模型进行训练,使得版面检测模型可以识别出图片中的文本区域和图像区域,首先将所述训练数据集输入版面检测模型的局部特征提取层,通过所述局部特征层提取出训练数据集中样本图像的每个局部的信息,获得所述样本图像的局部特征;再将样本图像的局部特征输入所述融合层,对所有样本图像的局部特征进行融合,获得训练数据集中样本图像的融合特征图;最后将样本图像的融合特征图输入识别层进行区域识别,识别出样本图像中各文本区域和图像区域以及对应的预测值,通过将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至所述版面检测模型能够识别出样本图像中的文本区域和图像区域,获得最终的版面检测模型。
在本申请实施例的一种可选地实施方法中,所述输入到所述版面检测模型对所述版面检测模型进行训练的训练数据集通过对样本图像进行标注,标注出样本图像中版面元素的元素类型和区域信息,获得训练数据集。
具体地,所述标注是指对所述样本图像中需要所述版面检测模型学习到的信息进行分类。所述训练数据集是指大量的样本图像以及样本图像对应的标注信息。
实际应用中,需要对大量的样本图像进行标注,区分出样本图像中不同的信息,并将样本图像与标注信息整合成训练数据集,以便于对后期版面检测模型进行训练。
例如,对版面检测模型进行训练,使得版面检测模型能够识别出图像中的文本区域以及图像区域之前,首先需要准备大量的包含文本区域、表格区域以及图像区域的样本图像;其次需要对样本图像中的文本区域、表格区域以及图像区域进行标注,获得标注信息;最后将样本图像与标注信息整合形成训练数据集,以便于对版面检测模型进行训练。
在本申请实施例的一种可选地实施方法中,所述输入到所述版面检测模型中的训练数据集的样本图像,是通过对样本数据进行筛选获得样本图像。
实际应用中,样本图像需要进行筛选,剔除不符合标准的样本图像,将符合标准的样本图像整合为训练数据集。
在本申请实施例的一种可选地实施方法中,所述局部特征提取层获得所述训练数据集中样本图像的局部特征,在将所述样本图像的局部特征输入所述融合层之前还包括剔除未达到第一尺寸阈值的局部特征。
具体的,所述局部特征是指用于表示样本图像中的文本区域、表格区域以及图像区域等局部区域的特征的数据,所述局部特征可以包括样本图像中区域的类型、区域的位置以及区域的尺寸的信息;所述局部特征提取层在获得样本图像的局部特征,存在有冗余的局部特征。
实际应用中,通过所述局部特征层提取出训练数据集中样本图像的每个局部的信息,获得的所述样本图像的局部特征,可能存在尺寸不符合所述版面检测模型进行检测的版面元素,此时通过对所述样本图像的局部特征进行尺寸筛选,将不需要检测的版面元素剔除。
例如,需要训练所述版面检测模型识别出图片中的文本类型区域、表格类型区域和图像类型区域等多个类型的版面元素,以及多个区域在图片中所处的位置和多个区域的尺寸,但是所述版面检测模型在识别的过程中可能会对文字的位置和尺寸进行识别,这并不符合版面检测模型对图片中的版面元素进行检测的初衷,此时增加对于局部特征的筛选,将识别出的尺寸较小的文字剔除,使得所述版面检测模型识别出符合预期标准的局部特征。
在本申请实施例的一种可选地实施方法中,所述局部特征提取层获得所述训练数据集中样本图像的局部特征,在将所述样本图像的局部特征输入所述融合层之前,结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
实际应用中,所述局部特征提取层对所述训练数据集中样本图像的局部特征进行提取时,会结合训练数据集中的标注数据确定需要提取的版面元素的尺寸信息。
例如,训练所述版面检测模型识别出图片中的文本区域和图像区域的过程中,会参考所述训练数据集中的标注数据中的文本区域和图像区域的尺寸信息,根据该尺寸信息对版面检测模型的检测尺寸进行设置,使得版面检测模型的局部提取层在对样本图像中的局部特征进行提取时,能够参考训练数据集中的标注数据,从而快速地确定样本图像中的文本区域和图像区域,避免了版面检测模型在不清楚特征尺寸情况下,检测出样本图像中不必要的特征区域。
在本申请实施例的一种可选地实施方法中,如果在样本图像中版面元素类型包括表格类型的情况下,在获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值之后,还将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
具体的,所述分割层是指用于将图片中表格区域的进行处理,获得所述表格区域的单元格结构和单元格坐标信息的模型。在本申请的实施例中,所述分割层可以为语义分割网络U-net,通过语义分割网络U-net获得图片中表格的单元格结构信息和坐标信息。
实际应用中,在获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值之后,发现所述样本图像中版面元素类型包括表格类型,此时再通过分割层对所述表格元素进行检测,获得包含所述样本图像中表格的各个单元格结构信息和坐标信息的表格结构信息。
例如,所述版面检测模型在识别出图像中的版面元素类型以及版面元素的区域信息时,若检测到图像中存在表格类型的区域信息,则将图像再出输入到分割模型中;所述分割模型可以是语义分割网络U-net,通过语义分割网络U-net对图像中表格的表格线进行检测;根据检测出的表格线获得表格的各个单元格结构信息,根据结构信息对表格的结构进行还原;通过还原后的表格结构得到表格的行、列以及每个单元格的坐标信息。
在本申请实施例的一种可选地实施方法中,如附图9所示,以所述分割层为Unet模型为例,对分割层进行进一步说明,Unet模型对所述表格元素进行检测,获得所述样本图像中表格的各个单元格结构信息和坐标信息的过程包括步骤902至步骤910。
步骤902:通过Unet模型对表格区域的行、列进行分割,获得行列线。
Unet模型对样本图像中表格的行、列进行检测;检测过程中可以利用skimage包获取表格中连通区域的标记和属性,从而初步得到表格中的多条行、列分割线。
步骤904:对连通区域进行检测,剔除不符合标准的连通区域。
分别计算获得多个连通区域的高度差以及宽度差,并判断所述高度差以及宽度差是否达到预设阈值;
若所述连通区域的高度差以及宽度差小于预设阈值,则将该连通区域剔除;
若所述连通区域的高度差以及宽度差超过预设阈值,则根据该连通区域与表格的结构信息进行初步定位。
步骤906:对表格的行列线的属性进行优化。
将表格中的多条行分割线以及多条列分割线分别进行比对,对表格中的行、列分割线的长度、坐标位置等属性信息进行调整,使得所述行、列分割线能够形成封闭的单元格。
步骤908:获取各个单元格的结构信息以及坐标位置信息。
获取由所述行、列分割线形成的各个单元格的结构信息以及坐标位置信息;所述结构信息可以是单元格的大小、是否是合并单元格等信息。
步骤910:利用并查集算法对表格区域进行构建,输出修正后的表格信息。
利用并查集算法实现具有多个单元格的表格区域的构建,从而获得表格的各个单元格结构信息和坐标信息。
在本申请实施例的一种可选地实施方法中,如附图10所示,以所述分割层为Unet模型为例,对分割层进行进一步说明,所述Unet模型进行训练的过程包括步骤1002至步骤1006。
步骤1002:构建训练数据集。
获取包含有表格的多种类型的文件,并将所述多种类型的文件转换为图片格式,获得样本图像;
通过标注工具对样本图像中的行列线轮廓进行分割标注,获得标注信息;
将所述样本图像以及标注信息作为训练数据集。
步骤1004:构建Unet模型。
本实施中利用darknet深度学习框架对Unet模型进行构建,使用交叉熵损失函数作为所述Unet模型的损失函数。
步骤1006:通过训练数据集对模型进行训练。
将所述样本图像以及标注信息作为训练数据输入到Unet模型中进行训练,通过调整模型的参数使模型达到最佳精度并收敛,从而完成模型的训练,并将训练好的模型进行保存。
本申请通过将所述训练数据集输入到所述版面检测模型中对版面检测模型进行训练,使得版面检测模型能够对图像版面中的版面元素进行清晰精准的识别,获得图像版面中各元素的类型以及版面的结构信息,提高了版面还原过程的准确度,为后续对版面元素进行操作做好了充分的准备。
具体的,图2示出上述实施例中版面检测模型的训练过程的示意图,包括步骤202至步骤214。
步骤202:清洗图片数据。
具体地,对样本筛选进行筛选获得符合标准的样本图像,并对样本图像进行数据增强。
步骤204:数据标注:标注出文本框区域、图片区域以及表格区域。
具体地,对获得的样本图像进行标注,标注出样本图像中所包含的版面元素的元素类型和版面元素的区域信息,获得训练数据集。
步骤206:anchor聚类:对标注数据的anchor聚类,得到新anchor。
具体地,anchor可以理解为锚点框,对训练数据集中锚点框进行聚类分析,得到训练数据集中锚点框的尺寸,从而设定版面检测模型中局部特征提取层提取的局部特征的尺寸。
步骤208:改进的yolo模型:去除针对小目标的检测尺度。
具体地,设置局部特征提取层,在局部特征提取层将局部特征输入融合层进行融合之前剔除未达到第一尺寸阈值的局部特征。
步骤210:区域检测:得到文本段落区域信息、图片区域信息以及表格区域信息。
具体地,将训练数据集输入局部特征提取层,通过版面检测模型对样本进行检测,获取样本图像中各版面元素的类型以及各版面元素的区域信息,其中区域信息包括各版面元素的位置信息和各版面元素的尺寸信息。
将局部特征提取层获得的局部特征输入融合层,去除局部特征信息中的冗余的局部特征,并对局部特征进行融合,获得训练数据集中样本图像的融合特征图。
将融合层获得的融合特征图输入识别层进行区域识别,所述识别层根据融合特征图对样本图像中的版面元素进行预测,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;将所述预测值与样本图像的标注信息中包含的标注值进行比较,从而获得本次训练的训练误差;根据所述训练误差对所述版面检测模型进行调整并继续对所述版面检测模型进行训练,当所述训练误差小于预设的阈值时,则表示已完成对于所述版面检测模型的训练,从而停止对所述版面检测模型的训练。
步骤212:利用语义分割网络unet检测表格区域的表格线,得到单元格结构和坐标信息。
具体的,语义分割网络unet可以理解为分割层,将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取所述样本图像中表格的各个单元格结构和坐标信息。
步骤214:得到版面结构的位置信息。
具体地,获得样本图像中各版面元素的类型以及版面各种结构的位置信息。
本申请通过对符合标准的样本图像进行标注,再将标注信息与样本图像作为训练数据集,通过将训练数据集输入到版面检测模型中对版面检测模型进行训练,使得版面检测模型能够准确的对图像版面中的版面元素进行识别,并且通过版面检测模型还能够识别出图像的版面结构信息,使得后续可以根据版面结构信息对图像版面进行还原。
步骤104:通过文本检测模型获取所述待处理图片中的文本信息。
具体的,文本检测模型是指对待处理图片进行文本检测处理,并获取待处理图片中文本类型的版面元素中的文本信息;文本信息是指待处理图片中文本类型的版面元素中的文本和文本属性信息。所述文本属性信息可以包括文本的字体、字号以及字形等信息。
在实际应用中,根据获取各版面元素的类型以及各版面元素的区域信息,对图像中的文本类型版面元素进行检测。通过文本检测模型识别出文本类型版面元素中包含的文本行,根据文本行对文本类型版面图像中进行检测,获取每个文本行的文本以及每个文本的属性信息,即通过文本检测模型获取所述待处理图片中的文本信息。
例如,用户需要对图片中文本区域的文字进行检测,提取出文字和文字的属性信息。首先将图片进行版面检测,获得文本区域信息,文本检测模型根据所述文本区域信息对图片中的文本区域进行检测。获得图片中文本区域所包含的文本行,根据获得的文本行,文本检测模型对待处理图片中文本区域进行检测,获得文本区域的文字和文字的字体、字号等属性信息。
在本申请实施例的一种可选地实施方法中,所述文本检测模型包括文本行检测层和文字识别层;所述文本检测模型通过如下方法训练得到:将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
实际应用中,首先将训练数据集输入到所述文本行检测层,通过文本行检测层对样本图像中的文本包含的文本行进行识别,获得样本图像中的文本包含的文本行信息,将所述文本行检测层的识别出的文本行信息输入文字识别层,通过所述文字识别层对文本行中的文字进行识别,获取每个文本行的文本以及每个文本的属性信息。
例如,需要训练文本检测模型对样本图像中的文字以及文字属性信息进行识别,通过将训练数据集输入文本行检测层,识别出样本图像的文本行信息,再将文本行信息输入文字识别层,对文本行中所包括的文字以及文字属性进行识别。
本申请通过将所述训练数据集输入到所述文本检测模型中对所述文本检测模型进行训练,使得所述文本检测模型能够清晰准确的识别出样本图像中的文字,并且通过所述文本检测模型还能够识别出文字属性信息,提高了版面还原的精准度,并为后续的版面还原过程做好了充分的准备。
具体的,图3示出上述实施例中文本检测模型的训练过程的示意图,包括步骤302至步骤306。
步骤302:OCR文本检测:DB模型检测文本行位置。
具体地,将DB模型作为文本检测模型OCR的文本行检测层。将样本图像输入文本行检测层,根据样本图像中文本类型版面元素的区域信息对文本类型版面元素进行检测,获得样本图像中的文本包含的文本行。
步骤304:OCR文本识别:CRNN模型识别文本和CNN模型识别文本属性。
具体地,将CRNN模型以及CNN模型作为文本检测模型OCR的文字识别层。根据文本行检测层获得的文本行位置信息,CRNN模型对样本图像中文本类型版面元素进行识别,获取样本图像中文本;CNN模型对样本图像中文本类型版面元素进行识别,获取样本图像中每个文本的属性信息。
步骤306:得到含字号大小、加粗信息、文本框坐标以及文本内容的详细文本信息。
具体地,根据文本行检测层和文字识别层对样本图像的处理,获得文本类型版面元素中文本行位置、文本和文本属性信息。
本申请通过文本行检测层对样本图像中的文本进行识别,获得样本图像中包含的文本行信息,再通过文本行检测层获取文本行信息中包含的文字以及文字属性信息,使得所述文本检测模型能够清晰准确的识别出样本图像中的文字以及对应的文字属性信息,提高了版面还原的精准度。
步骤106:根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
具体的,区域信息是指版面元素的位置信息和尺寸信息;文本信息是指待处理图片中文本类型的版面元素中的文本行和文本信息,其中文本信息包括文本和文本的属性信息;还原处理是指将待处理图片按照待处理图片的版面还原成文档。
在实际应用中,根据版面元素的结构信息和文本信息将各版面区域进行还原处理,获得待处理图片的各区域块信息;根据待处理图片的版面元素的位置信息将待处理图片的区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档,即根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
例如,用户在通过版面检测模型获得待处理图片中文本区域、表格区域、图像区域以及所述区域对应的位置信息和尺寸信息、通过文本检测模型获取待处理文件中文本区域的文本信息之后;首先根据表格区域、文本区域的结构将对应的文本信息进行还原,获得表格区域块信息、文本区域块信息;根据待处理图片中图像区域的位置信息和尺寸信息将待处理图片中包含的图像元素进行裁剪,获得图像区域块信息;其次根据待处理图片中的表格区域的位置信息在空白文档中确定出表格区域块信息对应的位置;根据待处理图片中的文本区域的位置信息在空白文档中确定出文本区域块信息对应的位置;根据待处理图片中的图像区域的位置信息在空白文档中确定出图像区域块信息对应的位置;最后将表格区域块信息、文本区域块信息、图像区域块信息添加至在空白文档的对应位置,从而获得所述待处理图片的还原文档。
在本申请实施例的一种可选地实施方法中,根据所述版面检测模型获得的所述各版面元素的位置信息以及所述文本检测模型获得的所述文本信息对所述待处理图片进行还原处理,具体过程为:根据所述表格结构信息和所述文字信息还原所述待处理图片中的表格区域块信息;根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;根据所述各版面元素的类型以及各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
实际应用中,根据所述各版面元素的位置信息以及所述文本信息对所述待处理图片的各版面元素进行还原,首先根据所述表格结构信息以及所述表格结构信息对应的所述文字信息,将待处理图片中的表格区域还原为表格区域块信息,其次根据所述文本行结构信息、所述文本和所述文本属性信息将待处理图片中的文本区域还原为文本区域块信息,最后根据待处理图片中的图像元素对应的位置信息以及尺寸信息,对所述待处理图片中包含的图像元素进行裁剪,获得图像区域块信息。
例如,对一张图像进行版面还原,通过所述版面检测模型获得的所述各版面元素的位置信息,通过所述文本检测模型获得的所述文本信息,再根据所述各版面元素的位置信息和所述文字信息,将图像的表格区域、文本区域、图像区域进行还原。
在本申请实施例的一种可选地实施方法中,根据所述待处理图片的版面元素的位置信息将所述表格区域块信息、文本区域块信息、图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
例如,用户想要对一张图像进行版面还原,通过所述版面检测模型获得的所述各区域的位置信息,再将预先已还原的图像的表格区域、文本区域、图像区域按照区域的位置信息添加到空白文档的对应位置,实现对图像的版面还原。
在本申请实施例的一种可选地实施方法中,根据所述待处理图片的版面元素的位置信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
具体地,所述有序文字信息是指按照特定的排序方法进行排列的待处理图片中的文字信息,在本申请的实施例中,所述特定的排序方法可以是根据文本区域的位置信息,将文本区域按照距离待处理图片顶端的远近进行排序,在还原时,距离待处理图片顶端近的文本,会处于还原文本文档的前段;也可以根据文本区域的位置信息,将文本区域按照距离待处理图片左侧的远近进行排序,在还原时,距离待处理图片左侧近的文本,会处于还原文本文档的前段。此外,还可以通过其他的排序方式对所述文字信息进行排序,本实施例对此不做限定。
例如,想要对一张图像进行中的文本信息进行还原,便于对图像中的文字进行编辑或使用,可以将图像输出所述版面检测模型获得的所述各区域的位置信息,再通过文本检测模型获得图像中的文字信息;根据文字位于图像中的位置,按照距离图像顶端的远近进行排序;将排序后的有序文字添加至空白文档,实现对图像的文字信息的还原,便于对图像中的文字信息进行取用。
本申请根据各版面元素的版面区域信息将待处理图片的文本信息添加至空白的文档形成还原文档,对待处理图片的版面进行还原。大大提高了版面还原时排版的精度。根据各版面元素的位置信息将待处理图片的文本信息添加至空白文档形成还原文本文档,方便后续对待处理图片的信息进行使用;同时通过版面检测模型和文本识别模型对待处理图片进行检测,减少了人工的参与,节省了大量的人力成本和时间成本。
具体的,图4示出上述实施例中版面还原过程的示意图,包括步骤402至步骤408。
步骤402:表格还原:根据单元格信息将文本行文字还原,得到完整表格信息。
具体地,根据版面检测模型获得的表格结构信息和文本检测模型获得的文字信息还原待处理图片中的表格区域块信息。
步骤404:文本段落还原:利用文本区域信息、文本行坐标以及文本行内容还原文本段落。
具体地,根据版面检测模型获得的表格结构信息和文本检测模型获得的文字信息还原待处理图片中的文本区域块信息。
步骤406:图像还原:利用图像区域信息裁剪原始图片,得到图片区域和内容信息。
具体地,根据版面检测模型获得的版面元素信息,将待处理图片中包含的图像类型版面元素进行裁剪,获得图像区域块信息。
步骤408:根据版面区域信息将各区域块信息进行还原,获得还原文档。
具体地,根据待处理图片的版面元素的位置信息将表格区域块信息、文本区域块信息、图像区域块信息添加至在空白文档的对应位置,获得待处理图片的还原文档。
根据待处理图片的版面元素的位置信息,将待处理图片的有序文字信息添加至空白文档形成还原文本文档,所述还原文本文档可以是仅具有文字信息的文档,并不包括表格区域以及图像区域的内容;当仅需复制或提取待处理图片中的文字信息时,可以通过所述还原文本文档获取到待处理图片中的文字信息。
本申请根据各版面元素的版面区域信息将待处理图片的文本信息添加至空白的文档形成还原文档,实现对待处理图片的版面进行还原。大大提高了版面还原时排版的精度。根据各版面元素的位置信息将待处理图片的文本信息添加至空白文档形成还原文本文档,方便后续对待处理图片的文字信息进行使用,节省了大量的人力成本和时间成本。
下述结合附图5,以本申请提供的信息提取方法在简历版面还原场景中的应用为例,对所述信息提取方法进行进一步说明。其中,图5示出了本申请一实施例提供的一种应用于简历版面还原场景中的信息提取方法的处理示意图,具体包括以下步骤。
步骤502:简历数据准备。
具体地,将纸质简历文件转换为简历图片。
步骤504:版面检测。
具体地,将简历图片输入版面检测模型进行检测获得简历图片中各版面元素的类型和各版面元素的区域信息,其中区域信息包括版面元素的位置信息和尺寸信息。
步骤506:文本检测。
具体地,根据简历图片中各版面元素的区域信息,对简历图片中的文本类型版面元素进行检测,识别出简历中文本行的位置和文本信息,其中文本信息包括文本和文本的属性信息。
步骤508:对表格区域信息、文本区域信息以及图像区域信息进行还原。
具体地,根据简历图片中各版面元素的位置信息和文本信息对简历图片各区域进行还原;
根据表格结构信息和文字信息还原简历图片中的表格区域文本信息;
根据文本行结构信息、文本和文本属性信息还原简历中的文本区域信息;
根据简历图片的版面元素信息,将简历图片中包含的图像类型版面元素进行裁剪,获得图像区域信息。
步骤510:还原简历文档:得到基于版面信息还原的文档,方便编辑使用。
具体地,根据简历图片的版面元素的位置信息将表格区域信息、文本区域信息、图像区域信息添加至在空白文档的对应位置,获得简历图片的还原文档。
步骤512:还原简历信息:提供基于版面的有序的txt文档,方便信息抽取。
具体地,根据简历图片的版面元素的位置信息,将简历图片中的有序文字信息添加至空白文档形成还原文本文档。
本申请提供的信息提取方法,获取简历,并通过版面检测模型获取所述简历图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;通过文本检测模型获取所述简历图片中文本信息;根据所述各版面元素的区域信息和所述文本信息对所述简历图片进行还原处理。本申请中的信息提取方法,根据各版面元素的版面区域信息将简历图片的文本信息添加至空白的文档形成还原文档,对简历图片的版面进行还原。大大提高了版面还原时排版的精度。根据各版面元素的位置信息将简历图片的文本信息添加至空白文档形成还原文本文档,方便后续对简历信息进行使用;同时通过版面检测模型和文本识别模型对简历图片进行检测,减少了人工的参与,节省了大量的人力成本和时间成本。
与上述方法实施例相对应,本申请还提供了信息提取装置实施例,图6示出了本申请一个实施例的信息提取装置的结构示意图。如图6所示,该信息提取装置包括:
第一获取模块602,被配置为获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
第二获取模块604,被配置为通过文本检测模型获取所述待处理图片中的文本信息;
还原模块606,被配置为根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
在本实施例的一个或多个实施方式中,所述第一获取模块602包括第一训练子模块,被配置为通过训练得到所述版面检测模型,包括:
将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;
将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;
将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;
将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件。
在本实施例的一个或多个实施方式中,所述第一训练子模块,还被配置为对样本图像进行标注,标注出样本图像中版面元素的元素类型和区域信息,获得训练数据集。
在本实施例的一个或多个实施方式中,所述第一训练子模块,还被配置为对样本数据进行筛选获得样本图像。
在本实施例的一个或多个实施方式中,所述第一训练子模块,还被配置为剔除未达到第一尺寸阈值的局部特征。
在本实施例的一个或多个实施方式中,所述第一训练子模块,还被配置为结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
在本实施例的一个或多个实施方式中,在所述版面元素类型包括表格的情况下,所述第一训练子模块,还被配置为将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
在本实施例的一个或多个实施方式中,所述第二获取模块604包括第二训练子模块,被配置为训练所述文本检测模型,包括:将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
在本实施例的一个或多个实施方式中,所述还原模块606,还被配置为根据所述表格结构信息和所述文本信息还原所述待处理图片中的表格区域块信息;根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;根据所述各版面元素的类型以及各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
在本实施例的一个或多个实施方式中,所述还原模块606,还被配置为根据所述各版面元素的区域信息将所述表格区域块信息、所述文本区域块信息以及所述图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
在本实施例的一个或多个实施方式中,所述还原模块606,还被配置为根据所述各版面元素的区域信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
在本实施例的一个或多个实施方式中,所述信息提取装置,还包括:
转换模块,被配置为将待处理文件转换为所述待处理图片。
本申请提供的信息提取装置通过获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;通过文本检测模型获取所述待处理图片中的文本信息;根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。本申请中根据各版面元素的版面区域信息将待处理图片的文本信息添加至空白的文档形成还原文本文档,对待处理图片的版面进行还原。大大提高了版面还原时排版的精度。根据各版面元素的位置信息将待处理图片的文本信息添加至空白文档形成还原文本文档,方便后续对简历信息进行使用,同时通过版面检测模型和文本识别模型对待处理图片进行检测,减少了人工的参与,节省了大量的人力成本和时间成本。
上述为本实施例的一种信息提取装置的示意性方案。需要说明的是,该信息提取装置的技术方案与上述的信息提取方法的技术方案属于同一构思,信息提取装置的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图7示出了根据本申请一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720可以执行前述实施例提供的信息提取方法中的具体步骤,在本实施例不再赘述。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述信息提取方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的信息提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述信息提取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的信息提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述信息提取方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (26)

1.一种信息提取方法,其特征在于,包括:
获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
通过文本检测模型获取所述待处理图片中的文本信息;
根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
2.根据权利要求1所述的信息提取方法,其特征在于,所述版面检测模型包括局部特征提取层、融合层以及识别层,所述版面检测模型通过如下方法训练得到:
将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;
将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;
将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;
将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件。
3.根据权利要求2所述的信息提取方法,其特征在于,所述训练数据集通过如下方法获得:
对样本图像进行标注,标注出样本图像中版面元素的元素类型和区域信息,获得训练数据集。
4.根据权利要求3所述的信息提取方法,其特征在于,所述样本图像通过如下方法获得:
对样本数据进行筛选获得样本图像。
5.根据权利要求2所述的信息提取方法,其特征在于,将所述局部特征输入融合层进行融合之前,还包括:
剔除未达到第一尺寸阈值的局部特征。
6.根据权利要求2所述的信息提取方法,其特征在于,将所述局部特征输入融合层进行融合之前,还包括:
结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
7.根据权利要求2所述的信息提取方法,其特征在于,在所述版面元素类型包括表格的情况下,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值之后,还包括:
将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
8.根据权利要求7所述的信息提取方法,其特征在于,文本检测模型包括文本行检测层和文字识别层;所述文本检测模型的训练方法,包括:
将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;
将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
9.根据权利要求8所述的信息提取方法,其特征在于,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述表格结构信息和所述文本信息还原所述待处理图片中的表格区域块信息;
根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;
根据所述各版面元素的类型以及所述各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
10.根据权利要求9所述的信息提取方法,其特征在于,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述各版面元素的区域信息将所述表格区域块信息、所述文本区域块信息以及所述图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
11.根据权利要求9所述的信息提取方法,其特征在于,根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理,包括:
根据所述各版面元素的区域信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
12.根据权利要求1所述的信息提取方法,其特征在于,所述获取待处理图片之前,包括:
将待处理文件转换为所述待处理图片。
13.一种信息提取装置,其特征在于,包括:
第一获取模块,被配置为获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
第二获取模块,被配置为通过文本检测模型获取所述待处理图片中的文本信息;
还原模块,被配置为根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
14.根据权利要求13所述的信息提取装置,其特征在于,所述第一获取模块包括第一训练子模块,被配置为通过训练得到所述版面检测模型,包括:
将训练数据集输入局部特征提取层,获得训练数据集中样本图像的局部特征,其中,所述局部特征包括所述样本图像每个局部的版面元素类型以及对应的位置;
将所述局部特征输入融合层进行融合,获得训练数据集中样本图像的融合特征图;
将所述融合特征图输入识别层进行区域识别,获得训练数据集中样本图像中各版面元素类型以及各版面元素的区域信息的预测值;
将所述预测值与所述样本图像的标注值进行比较获得训练误差,并通过所述训练误差对所述版面检测模型进行调整以继续训练版面检测模型,直至达到训练停止条件。
15.根据权利要求14所述的信息提取装置,其特征在于,所述第一训练子模块,还被配置为对样本图像进行标注,标注出样本图像中版面元素的元素类型和区域信息,获得训练数据集。
16.根据权利要求15所述的信息提取装置,其特征在于,所述第一训练子模块,还被配置为对样本数据进行筛选获得样本图像。
17.根据权利要求14所述的信息提取装置,其特征在于,所述第一训练子模块,还被配置为剔除未达到第一尺寸阈值的局部特征。
18.根据权利要求14所述的信息提取装置,其特征在于,所述第一训练子模块,还被配置为结合训练数据集中的标注数据确定局部特征中的版面元素类型对应的区域信息。
19.根据权利要求14所述的信息提取装置,其特征在于,在所述版面元素类型包括表格的情况下,所述第一训练子模块,还被配置为将所述样本图像和所述样本图像中表格类型的版面元素的区域信息输入分割层,获取表格结构信息,其中,所述表格结构信息包括所述样本图像中表格的各个单元格结构信息和坐标信息。
20.根据权利要求19所述的信息提取装置,其特征在于,所述第二获取模块包括第二训练子模块,被配置为训练所述文本检测模型,包括:将训练数据集输入文本行检测层确定出样本图像中的文本包含的文本行结构信息;将所述文本行检测层的识别结果输入至文字识别层获取每个文本行的文本以及文本属性信息。
21.根据权利要求20所述的信息提取装置,其特征在于,所述还原模块,还被配置为根据表格结构信息和所述文本信息还原所述待处理图片中的表格区域块信息;根据所述文本行结构信息、所述文本和所述文本属性信息还原所述待处理图片中的文本区域块信息;根据所述各版面元素的类型以及所述各版面元素的区域信息确定所述待处理图片中包含的图像元素,将所述图像元素进行裁剪获得图像区域块信息。
22.根据权利要求21所述的信息提取装置,其特征在于,所述还原模块,还被配置为根据所述各版面元素的区域信息将所述表格区域块信息、所述文本区域块信息以及所述图像区域块信息添加至在空白文档的对应位置,获得所述待处理图片的还原文档。
23.根据权利要求21所述的信息提取装置,其特征在于,所述还原模块,还被配置为根据所述各版面元素的区域信息,将所述待处理图片的有序文字信息添加至空白文档形成还原文本文档。
24.根据权利要求13所述的信息提取装置,其特征在于,还包括:
转换模块,被配置为将待处理文件转换为所述待处理图片。
25.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待处理图片,并通过版面检测模型获取所述待处理图片中各版面元素的类型以及各版面元素的区域信息,其中所述区域信息包括位置信息和尺寸信息;
通过文本检测模型获取所述待处理图片中的文本信息;
根据所述各版面元素的区域信息和所述文本信息对所述待处理图片进行还原处理。
26.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至12任意一项所述信息提取方法的步骤。
CN202110486539.2A 2021-04-30 2021-04-30 一种信息提取方法及装置 Pending CN113221711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110486539.2A CN113221711A (zh) 2021-04-30 2021-04-30 一种信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110486539.2A CN113221711A (zh) 2021-04-30 2021-04-30 一种信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN113221711A true CN113221711A (zh) 2021-08-06

Family

ID=77090842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110486539.2A Pending CN113221711A (zh) 2021-04-30 2021-04-30 一种信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN113221711A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704214A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 电子卷宗文件类型转换方法、装置及计算机设备
CN114239499A (zh) * 2021-04-30 2022-03-25 北京金山数字娱乐科技有限公司 一种招聘信息管理方法、系统及装置
CN116502625A (zh) * 2023-06-28 2023-07-28 浙江同花顺智能科技有限公司 一种简历解析方法和系统
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN116994270A (zh) * 2023-08-28 2023-11-03 乐麦信息技术(杭州)有限公司 一种简历解析方法、装置、设备及可读存储介质
WO2024041032A1 (zh) * 2022-08-23 2024-02-29 杭州未名信科科技有限公司 基于不可编辑的图文类图像生成可编辑文档的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
CN110110715A (zh) * 2019-04-30 2019-08-09 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN112434568A (zh) * 2020-11-06 2021-03-02 北京完美知识科技有限公司 一种画作识别方法、装置、存储介质及计算设备
CN112580707A (zh) * 2020-12-11 2021-03-30 北京巅峰科技有限公司 图像识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
CN110110715A (zh) * 2019-04-30 2019-08-09 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110705535A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面文字行自动检测的方法
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN112434568A (zh) * 2020-11-06 2021-03-02 北京完美知识科技有限公司 一种画作识别方法、装置、存储介质及计算设备
CN112580707A (zh) * 2020-12-11 2021-03-30 北京巅峰科技有限公司 图像识别方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239499A (zh) * 2021-04-30 2022-03-25 北京金山数字娱乐科技有限公司 一种招聘信息管理方法、系统及装置
CN113704214A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 电子卷宗文件类型转换方法、装置及计算机设备
WO2024041032A1 (zh) * 2022-08-23 2024-02-29 杭州未名信科科技有限公司 基于不可编辑的图文类图像生成可编辑文档的方法及装置
CN116502625A (zh) * 2023-06-28 2023-07-28 浙江同花顺智能科技有限公司 一种简历解析方法和系统
CN116502625B (zh) * 2023-06-28 2023-09-15 浙江同花顺智能科技有限公司 一种简历解析方法和系统
CN116704523A (zh) * 2023-08-07 2023-09-05 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN116704523B (zh) * 2023-08-07 2023-10-20 山东成信彩印有限公司 一种用于出版印刷设备的文字排版图像识别系统
CN116994270A (zh) * 2023-08-28 2023-11-03 乐麦信息技术(杭州)有限公司 一种简历解析方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN113221711A (zh) 一种信息提取方法及装置
CN108898137B (zh) 一种基于深度神经网络的自然图像字符识别方法及系统
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN113111871B (zh) 文本识别模型的训练方法及装置、文本识别方法及装置
Karatzas et al. ICDAR 2011 robust reading competition-challenge 1: reading text in born-digital images (web and email)
CN103824053B (zh) 一种人脸图像的性别标注方法及人脸性别检测方法
CN113780229A (zh) 文本识别方法及装置
CN113537227B (zh) 一种结构化文本识别方法及系统
CN115424282A (zh) 一种非结构化文本表格识别方法和系统
CN112818951A (zh) 一种票证识别的方法
Van Phan et al. A nom historical document recognition system for digital archiving
CN110543810A (zh) 一种完整识别pdf文件页眉页脚的技术
CN111860487B (zh) 基于深度神经网络的碑文标注检测识别系统
Giridhar et al. A novel approach to ocr using image recognition based classification for ancient tamil inscriptions in temples
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN115546813A (zh) 一种文档分析方法、装置、存储介质及设备
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
CN114266308A (zh) 检测模型训练方法及装置、图像检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination