CN113850208A - 一种图片信息结构化方法、装置、设备及介质 - Google Patents

一种图片信息结构化方法、装置、设备及介质 Download PDF

Info

Publication number
CN113850208A
CN113850208A CN202111148607.0A CN202111148607A CN113850208A CN 113850208 A CN113850208 A CN 113850208A CN 202111148607 A CN202111148607 A CN 202111148607A CN 113850208 A CN113850208 A CN 113850208A
Authority
CN
China
Prior art keywords
text
picture
text box
processed
minimum circumscribed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111148607.0A
Other languages
English (en)
Other versions
CN113850208B (zh
Inventor
陈波
徐亮
卢宁
姚一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111148607.0A priority Critical patent/CN113850208B/zh
Publication of CN113850208A publication Critical patent/CN113850208A/zh
Application granted granted Critical
Publication of CN113850208B publication Critical patent/CN113850208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种图片信息结构化方法、装置、设备及介质,通过获取待处理图片;采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息;对文本检测网络获取的各所述文本框按照预设顺序进行排序;根据排序结果合并所有文本框的文字信息,以获取所述待处理图片中的文本内容;采用正则规则从所述文本内容中提取目的标签的信息。本发明对比现有技术,在信息提取过程处理速度更快,对服务器系统资源的需求很低,且不需要GPU资源。

Description

一种图片信息结构化方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种图片信息结构化方法、装置、设备及介质。
背景技术
随着Transformer的兴起,基于LayoutLM来处理真实世界中大量的图像理解任务的方案(如文档图像的信息提取、文档版式分类)被广泛应用。但由于Attention操作中的大量矩阵运算和Softmax操作,单任务处理速度比较慢(大约为100ms),同时需要占用宝贵的GPU资源。
发明内容
本发明的目的在于提供一种图片信息结构化方法、装置、设备及介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
为实现上述目的及其他相关目的,本发明提供一种图片信息结构化方法,包括:
获取待处理图片,所述待处理图片为卡证图片或表格文档图片;
采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息;
选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度;
根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵;
根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序;
根据排序结果合并所有文本框的文字信息,以获取所述待处理图片中的文本内容;
采用正则规则从所述文本内容中提取目的标签的信息。
在本发明的一个实施例中,采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息,包括:
将所述待处理图片输入到所述文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形;
根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各个所述文本框的第一最小外接矩形区域所对应的局部图片;
将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到所述文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息。
在本发明的一个实施例中,将所述待处理图片输入到文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形,包括:
将所述待处理图片输入到渐进式扩展网络、可微二值化网络或像素聚合网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形。
在本发明的一个实施例中,将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息,包括:
将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到卷积循环神经网络中进行文字识别,以获取各个所述文本框对应的文字信息。
在本发明的一个实施例中,根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵,包括:
选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度;
以所述待处理图片的长、宽和所述图片旋转角度为参数,构建图像的仿射变化矩阵。
在本发明的一个实施例中,所述待处理图片的旋转角度小于15°。
在本发明的一个实施例中,根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形,包括:
根据所述图像的仿射变化矩阵对各个所述文本框的第一最小外接矩形的每个顶点做线性变换以获取各个所述文本框的第一最小外接矩形的每个顶点的矫正位置,并根据各个所述文本框的第一最小外接矩形的每个顶点的矫正位置来更新各个所述文本框的第一最小外接矩形,将更新后的各个所述文本框的第一最小外接矩形作为各个所述文本框的第二最小外接矩形。
在本发明的一个实施例中,根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序包括:
根据各个所述文本框的第二最小外接矩形的中心点纵坐标,按照由小到大的顺序对各个所述文本框进行排序;
根据预设规则获取属于同一行的所有所述文本框;
根据所述文本框的第二最小外接矩形的顶点横坐标最小值对属于同一行的所有所述文本框进行水平位置排序;
其中,判断两个所述文本框属于同一行的预设规则为:
(1)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy小于间隔阈值,其中,间隔阈值定义为所有所述文本框的第二最小外接矩形高度的平均值的0.3-0.7倍;
(2)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy与中心点横坐标差值Δx的比值,满足tan-1(Δy/Δx)<15°;
当(1)和(2)同时满足时,则判断两个所述文本框属于同一行。
为实现上述目的及其他相关目的,本发明还提供一种图片信息结构化装置,所述图片信息结构化装置包括:
图片获取模块,用于获取待处理图片,所述待处理图片为卡证图片或表格文档图片;
检测识别模块,用于采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息;
仿射变化矩阵获取模块,用于根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵;
矫正更新模块,用于根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形;
文本排序模块,用于根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序;
文本获取模块,用于根据排序结果合并所有文本框的文字信息,以获取所述待处理图片中的文本内容;
标签提取模块,用于采用正则规则从所述文本内容中提取目的标签的信息。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,其上存储于计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的图片信息结构化方法、装置、设备及介质,在卡证图片信息或表格文档图片信息的提取和信息结构化应用中,通过对文本信息检测和识别结果进行特殊排序,可以得到可读性较高的图片中文本信息的集合,后续可采用非深度学习模型的技术手段获取目的标签的信息。
本发明的图片信息结构化方法、装置、设备及介质,通过对待处理图片检测到的文本框进行特殊排序,可得到对原图片信息还原度较高的文本框序列,便于后续进行文字处理。
本发明的图片信息结构化方法、装置、设备及介质,对比现有的深度学习模型的技术手段,在信息提取过程处理速度很快(ms级),对服务器系统资源的需求很低,且不需要GPU资源。
附图说明
图1示出了本发明的图片信息结构化方法的较佳实施例的流程图。
图2示出了居住证样证图片。
图3示出了本发明的图片信息结构化方法的较佳实施例的步骤S20的子步骤流程图。
图4示出了对图2中的居住证样证图片按照步骤S20文本检测和识别后各文本框的初始序列,合并整合所有文本框的文字信息的结果示意图。
图5示出了本发明的步骤S70获取的居住证样证图片的文本内容的示意图。
图6示出了本发明的图片信息结构化装置的较佳的实施例的功能模块图。
图7示出了本发明的实现图片信息结构化方法的较佳实施例的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-7。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
图1示出了本发明的图片信息结构化方法的较佳实施例的流程图。
所述图片信息结构化方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital SignalProcessor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
下面将结合图1来详细阐述本发明的图片信息结构化方法。
一种图片信息结构化方法,包括:
首先,执行步骤S10,获取待处理图片,所述待处理图片为卡证图片或表格文档图片。
在本申请中,将以卡证图片为例来进行说明,卡证图片具有结构固定、样式单一等特点,以图2中的居住证样证图片为例,信息通常以键值对(key-value pair)的形式展示的(例如“姓名:周XX”)。一般情况下,键值对的排布是以左右或者上下的形式,并且有特殊的类型关系。
需要说明的是,本申请的所述待处理图片是旋转角度小于15°的图片。
接着,执行步骤S20、采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的最小外接矩形(定义为第一最小外接矩形)及对应的文字信息。所述文本框是指包含一个或多个相邻文字组成的文字区域。
图3示出了本发明的图片信息结构化方法的较佳实施例的步骤S20的子步骤流程图。如图3所示,采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的最小外接矩形及对应的文字信息的步骤可以进一步包括:
步骤S21、将所述待处理图片输入到文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形;
步骤S22、根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各个所述文本框的第一最小外接矩形区域所对应的局部图片;
步骤S23、将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息。
在将所述待处理图片输入到文本检测网络中进行文本检测,以获取检测到的各个文本框的第一最小外接矩形的步骤中,也即在步骤S21中,各个所述文本框的第一最小外接矩形包括中心点坐标、宽度、高度、相对于水平方向的旋转角度以及四个顶角的坐标信息等参数数据。
在本发明中,可采用渐进式扩展网络(Progressive Scale Expansion NET,简称PSENET)作为所述文本检测网络来对所述待处理图片进行文本检测,以获取检测到的各个文本框的第一最小外接矩形,其中,渐进式扩展网络是一种由缩放的文本核逐渐扩展为真实文本的算法。当然,也可以采用可微二值化网络(Differentiable Binarization,简称DBNET)或像素聚合网络(Pixel Aggregation Network,PANNET)作为文本检测网络。
在根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各所述文本框的第一最小外接矩形区域所对应的局部图片的步骤中,也即步骤S22中,例如可利用opencv的Mat CutImage函数从所述待处理图片中截取各所述文本框的第一最小外接矩形区域所对应的局部图片,该局部图片包括对应的文本框和最小外接矩形。
在本发明中,所述文字识别网络例如可以是卷积循环神经网络(ConvolutionalRecurrent Neural Network,简称CRNN),CRNN是一种识别文本的模型,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。整个CRNN分为了三个部分,分别是卷积层、循环层和转录层,其中,卷积层用于从输入图像中提取出特征序列;循环层由一个双向LSTM循环神经网络构成,用于预测从卷积层获取的特征序列的标签分布;转录层用于把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。
由于图2中的居住证图片稍有倾斜(倾斜角度小于15°),如果按照步骤S20文本检测和识别后各所述文本框的初始序列,合并整合所有文本框的文字信息的结果如图4所示,文本信息错乱,不能使用简单文本处理的方式进行目标信息的提取。
为了抵消待处理图片小幅度旋转对文本合并结果的影响,本发明提供一种特殊的文本框排序方式对文本检测网络获取的各所述文本框按照正常阅读进行排序,对应步骤S30-S60的步骤。
接着,根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵。具体地,首先,选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度(步骤S30)、接着,以所述待处理图片的长、宽和所述图片旋转角度为参数,构建图像的仿射变化矩阵(步骤S40)。由于图片发生倾斜时,宽高比较大的文本框的第一最小外接矩形产生的影响更大,故在步骤S30中可使用高宽比大于3(第一预设值)的所有文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度,图片旋转角度用于构建文本框的第一最小外接矩形的图像的仿射变换矩阵。需要说明的是,所述第一预设值可以根据实际需要进行自动配置,本发明不限制。
选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度,可以降低图片发生倾斜时,对宽高比较大的文本框的第一最小外接矩形产生的影响更大的问题。第一最小外接矩形的旋转角度定义为水平轴(x轴)逆时针旋转,与碰到的该第一最小外接矩形的第一个边的夹角。
在步骤S40中例如可利用opencv库中的RotationMatrix2D函数,以所述待处理图片的长、宽和所述图片旋转角度为参数构建图像的仿射变换矩阵,图像的仿射变换矩阵M的表达式如下:
Figure BDA0003286177720000091
其中,dx、dy分别是指缩放因子在x,y的分量。
接着,执行步骤S50、根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形。
具体地,可根据所述图像的仿射变化矩阵对各个所述文本框的第一最小外接矩形的每个顶点做线性变换以获取各个所述文本框的第一最小外接矩形的每个顶点的矫正位置,并根据各个所述文本框的第一最小外接矩形的每个顶点的矫正位置来更新各个所述文本框的第一最小外接矩形,将更新后的各个所述文本框的第一最小外接矩形作为各个所述文本框的第二最小外接矩形。
接着,执行步骤S60、根据各个所述文本框的第二最小外接矩形,按照正常阅读顺序(预设顺序)对所有的所述文本框进行排序,其中,正常阅读顺序是指从左到右,从上到下的顺序。
具体地,首先根据各个所述文本框的第二最小外接矩形的中心点纵坐标,按照由小到大的顺序对各个所述文本框进行排序;接着,根据预设规则获取属于同一行的所有所述文本框;最后,根据所述文本框的第二最小外接矩形的顶点横坐标最小值对属于同一行的所有所述文本框进行水平位置排序,其中,所述文本框的第二最小外接矩形的顶点横坐标最小值是指文本框的第二最小外接矩形的四个顶点横坐标中的最小值。在本发明中,纵坐标是指中心点/顶点的坐标的y值,横坐标是指中心点/顶点的坐标的x值。
在本发明中,判断两个所述文本框属于同一行的预设规则为是否同时满足条件(1)和(2):
(1)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy小于间隔阈值,其中,间隔阈值定义为更新后的所有文本框的最小外接矩形高度的平均值的0.3-0.7倍(譬如0.3、0.5或0.7);
(2)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy与中心点横坐标差值Δx的比值,满足tan-1(Δy/Δx)<15°;
当(1)和(2)同时满足时,则判断两个所述文本框属于同一行,若否,则两个所述文本框不属于同一行。为了区分不同行的所述文本框,可为各所述文本框增加行属性。
接着,执行步骤S70、根据排序结果合并所有文本框的文字信息,并在每一行的最后一个所述文本框的文本信息后加换行符,以获取所述待处理图片的文本内容。
在每一行的最后一个所述文本框的文字信息后加换行符是为了区分不同的文本行。最终获取所述待处理图片的文本内容如图5所示,文本顺序复合所述待处理图片中各标签键值对的顺序。
通过本发明的文本框排序方式对文本检测网络获取的各所述文本框进行排序,可以得到可读性较高的待处理图片中的文字信息的集合,后续可在步骤S80中采用非深度学习模型的技术手段,例如正则匹配获取目的标签的信息。通过对图片检测到的文本框进行排序,可得到对所述待处理图片的原图片信息还原度较高的文本框序列,便于后续进行文字处理。
最后,执行步骤S80、采用正则规则从所述文本内容中提取目的标签的信息。
具体地,根据提取要求,设计正则表达式集合,并逐行进行正则匹配。如满足,则输出到结果列表;反之,舍弃。例如,仍以图1的居住证为例,想要获取“姓名”、“身份证号码”两个目的标签对应的信息,则可以设置两个正则表达式序列,也即姓名提取正则表达式和身份证提取正则表达式来逐行进行正则匹配。
对比深度学习模型的技术手段,本方案采用正则规则从所述文本内容中提取目的标签的信息的息提取过程处理速度很快(ms级),对服务器系统资源的需求很低,且不需要GPU资源。
需要说明的是,本发明的卡证图片的图片信息结构化方法也可推广到其他的文档信息抽取的场景,如表格文档,表格文档中的文字通常是网格状排列,并且表头一般出现在第一列或第一行。在进行信息抽取/结构化的过程中也可以参考本申请的开征图片的图片信息结构化方法,充分利用表格文档中文本的位置信息使用非深度学习的方式完成信息提取的过程。
需要说明的是,在本发明中,为了进一步保证数据的安全性,还可以将涉及到的数据及模型部署于区块链,以防止数据被恶意篡改。
需要说明的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
如图6所示,是本发明的图片信息结构化装置的较佳的实施例的功能模块图。所述图片信息结构化装置包括:图片获取模块111,检测识别模块112,仿射变化矩阵获取模块,矫正更新模块115,文本排序模块116,文本获取模块117,标签提取模块118,所述仿射变化矩阵获取模块包括,角度获取模块113及矩阵构建模块114。本发明所称的模块是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。
所述图片获取模块111用于获取待处理图片,所述待处理图片为卡证图片或表格文档图片。
在本申请中,将以卡证图片为例来进行说明,卡证图片具有结构固定、样式单一等特点,以图2中的居住证为例,信息通常以键值对(key-value pair)的形式展示的(例如“姓名:周XX”)。一般情况下,键值对的排布是以左右或者上下的形式,并且有特殊的类型关系。
需要说明的是,本申请的所述待处理图片是旋转角度小于15°的图片。
所述检测识别模块112用于对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的最小外接矩形(定义为第一最小外接矩形)及对应的文字信息。
具体地,所述检测识别模块112在对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的最小外接矩形及对应的文字信息时,首先将所述待处理图片输入到文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形;接着根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各个所述文本框的第一最小外接矩形区域所对应的局部图片;最后将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息。
所述检测识别模块112在将所述待处理图片输入到文本检测网络中进行文本检测,以获取检测到的各个文本框的第一最小外接矩形时,各个所述文本框的第一最小外接矩形包括中心点坐标、宽度、高度、相对于水平方向的旋转角度以及四个顶角的坐标信息等参数数据。
在本发明中,可采用渐进式扩展网络(Progressive Scale Expansion NET,简称PSENET)作为所述文本检测网络来对所述待处理图片进行文本检测,以获取检测到的各个文本框的第一最小外接矩形,其中,渐进式扩展网络是一种由缩放的文本核逐渐扩展为真实文本的算法。当然,也可以采用可微二值化网络(Differentiable Binarization,简称DBNET)或像素聚合网络(Pixel Aggregation Network,PANNET)作为文本检测网络。
所述检测识别模块112在根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各所述文本框的第一最小外接矩形区域所对应的局部图片时,例如可利用opencv的Mat CutImage函数从所述待处理图片中截取各所述文本框的第一最小外接矩形区域所对应的局部图片。
在本发明中,所述文字识别网络例如可以是卷积循环神经网络(ConvolutionalRecurrent Neural Network,简称CRNN),CRNN是一种识别文本的模型,该模型主要用于解决基于图像的序列识别问题,特别是场景文字识别问题。整个CRNN分为了三个部分,分别是卷积层、循环层和转录层,其中,卷积层用于从输入图像中提取出特征序列;循环层由一个双向LSTM循环神经网络构成,用于预测从卷积层获取的特征序列的标签分布;转录层用于把从循环层获取的标签分布通过去重、整合等操作转换成最终的识别结果。
由于图2中的居住证图片稍有倾斜(倾斜角度小于15°),如果按照所述检测识别模块112文本检测和识别后各所述文本框的初始序列,合并整合所有文本框的文字信息的结果如图4所示,文本信息错乱,不能使用简单文本处理的方式进行目标信息的提取。
为了抵消待处理图片小幅度旋转对文本合并结果的影响,本发明提供一种特殊的文本框排序方式对文本检测网络获取的各所述文本框按照正常阅读进行排序,通过仿射变化矩阵获取模块,矫正更新模块115,文本排序模块116来实现。
所述仿射变化矩阵获取模块用于根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵,其包括角度获取模块113及矩阵构建模块114,所述角度获取模块113用于选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度,所述矩阵构建模块114用于以所述待处理图片的长、宽和所述图片旋转角度为参数,构建图像的仿射变化矩阵。
由于图片发生倾斜时,宽高比较大的文本框的第一最小外接矩形产生的影响更大,故所述角度获取模块113可使用高宽比大于3(第一预设值)的所有文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度,图片旋转角度用于构建文本框的第一最小外接矩形的图像的仿射变换矩阵。需要说明的是,所述第一预设值可以根据实际需要进行自动配置,本发明不限制。
选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度,可以降低图片发生倾斜时,对宽高比较大的文本框的第一最小外接矩形产生的影响更大的问题。
所述矩阵构建模块114例如可利用opencv库中的RotationMatrix2D函数,以所述待处理图片的长、宽和所述图片旋转角度为参数构建图像的仿射变换矩阵,图像的仿射变换矩阵M的表达式如下:
Figure BDA0003286177720000131
其中,dx、dy分别是指缩放因子在x,y的分量。
所述矫正更新模块115用于根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形。
具体地,可根据所述图像的仿射变化矩阵对各个所述文本框的第一最小外接矩形的每个顶点做线性变换以获取各个所述文本框的第一最小外接矩形的每个顶点的矫正位置,并根据各个所述文本框的第一最小外接矩形的每个顶点的矫正位置来更新各个所述文本框的第一最小外接矩形,将更新后的各个所述文本框的第一最小外接矩形作为各个所述文本框的第二最小外接矩形。
所述文本排序模块116用于根据各个所述文本框的第二最小外接矩形,按照正常阅读顺序对所有的所述文本框进行排序,其中,正常阅读顺序是指从左到右,从上到下的顺序。
具体地,首先根据各个所述文本框的第二最小外接矩形的中心点纵坐标,按照由小到大的顺序对各个所述文本框进行排序;接着,根据预设规则获取属于同一行的所有所述文本框;最后,根据所述文本框的第二最小外接矩形的顶点横坐标最小值对属于同一行的所有所述文本框进行水平位置排序,其中,所述文本框的第二最小外接矩形的顶点横坐标最小值是指文本框的第二最小外接矩形的四个顶点横坐标中的最小值。在本发明中,纵坐标是指中心点/顶点的坐标的y值,横坐标是指中心点/顶点的坐标的x值。
在本发明中,判断两个所述文本框属于同一行的预设规则为是否同时满足条件(1)和(2):
(1)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy小于间隔阈值,其中,间隔阈值定义为更新后的所有文本框的最小外接矩形高度的平均值的0.3-0.7倍(譬如0.3、0.5或0.7);
(2)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy与中心点横坐标差值Δx的比值,满足tan-1(Δy/Δx)<15°;
当(1)和(2)同时满足时,则判断两个所述文本框属于同一行,若否,则两个所述文本框不属于同一行。为了区分不同行的所述文本框,可为各所述文本框增加行属性。
所述文本获取模块117用于根据排序结果合并所有文本框的文字信息,并在每一行的最后一个所述文本框的文本信息后加换行符,以获取所述待处理图片的文本内容。
在每一行的最后一个所述文本框的文字信息后加换行符是为了区分不同的文本行。最终获取所述待处理图片的文本内容如图5所示,文本顺序复合所述待处理图片中各标签键值对的顺序。
通过本发明的文本框排序方式对文本检测网络获取的各所述文本框进行排序,可以得到可读性较高的待处理图片中的文字信息的集合,后续可在步骤S80中采用非深度学习模型的技术手段,例如正则匹配获取目的标签的信息。通过对图片检测到的文本框进行排序,可得到对所述待处理图片的原图片信息还原度较高的文本框序列,便于后续进行文字处理。
所述标签提取模块118用于采用正则规则从所述文本内容中提取目的标签的信息。
具体地,根据提取要求,设计正则表达式集合,并逐行进行正则匹配。如满足,则输出到结果列表;反之,舍弃。例如,仍以图1的居住证为例,想要获取“姓名”、“身份证号码”两个目的标签对应的信息,则可以设置两个正则表达式序列,也即姓名提取正则表达式和身份证提取正则表达式来逐行进行正则匹配。
对比深度学习模型的技术手段,本方案采用正则规则从所述文本内容中提取目的标签的信息的息提取过程处理速度很快(ms级),对服务器系统资源的需求很低,且不需要GPU资源。
需要说明的是,本发明的卡证图片的图片信息结构化装置也可推广到其他的文档信息抽取的场景,如表格文档,表格文档中的文字通常是网格状排列,并且表头一般出现在第一列或第一行。在进行信息抽取/结构化的过程中也可以参考本申请的开征图片的图片信息结构化方法,充分利用表格文档中文本的位置信息使用非深度学习的方式完成信息提取的过程。
需要说明的是,本实施例的图片信息结构化装置是与上述图片信息结构化方法相对应的装置,图片信息结构化装置中的功能模块或者分别对应图片信息结构化方法中的相应步骤。本实施例的图片信息结构化装置可与图片信息结构化方法相互相配合实施。相应地,本实施例的图片信息结构化装置中提到的相关技术细节也可应用在上述图片信息结构化方法中。
需要说明的是,上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的部分或全部步骤,或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
如图7所示,是本发明实现图片信息结构化方法的较佳实施例的电子设备的结构示意图。
所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如图片信息结构化程序。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于图片信息结构化程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行体检报告校验程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个图片信息结构化方法实施例中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成图片获取模块111,检测识别模块112,角度获取模块113,矩阵构建模块114,矫正更新模块115,文本排序模块116,文本获取模块117及标签提取模块118。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述图片信息结构化方法的部分功能。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图7中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
本发明的图片信息结构化方法、装置、设备及介质,在卡证图片信息或表格文档图片信息的提取和信息结构化应用中,通过对文本信息检测和识别结果进行特殊排序,可以得到可读性较高的图片中文本信息的集合,后续可采用非深度学习模型的技术手段获取目的标签的信息。本发明的图片信息结构化方法、装置、设备及介质,通过对待处理图片检测到的文本框进行特殊排序,可得到对原图片信息还原度较高的文本框序列,便于后续进行文字处理。本发明的图片信息结构化方法、装置、设备及介质,对比深度学习模型的技术手段,在信息提取过程处理速度很快(ms级),对服务器系统资源的需求很低,且不需要GPU资源。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种图片信息结构化方法,其特征在于,包括:
获取待处理图片,所述待处理图片为卡证图片或表格文档图片;
采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息;
根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵;
根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形;
根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序;
根据排序结果合并所有文本框的文字信息,以获取所述待处理图片中的文本内容;
采用正则规则从所述文本内容中提取目的标签的信息。
2.根据权利要求1所述的图片信息结构化方法,其特征在于,采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息,包括:
将所述待处理图片输入到所述文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形;
根据各个所述文本框的第一最小外接矩形,从所述待处理图片中截取各个所述文本框的第一最小外接矩形区域所对应的局部图片;
将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到所述文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息。
3.根据权利要求2所述的图片信息结构化方法,其特征在于,将所述待处理图片输入到所述文本检测网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形,包括:
将所述待处理图片输入到渐进式扩展网络、可微二值化网络或像素聚合网络中进行文本检测,以获取检测到的各个所述文本框的第一最小外接矩形。
4.根据权利要求2所述的图片信息结构化方法,其特征在于,将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到所述文字识别网络中进行文字识别,以获取各个所述文本框对应的文字信息,包括:
将各个所述文本框的第一最小外接矩形区域所对应的局部图片输入到卷积循环神经网络中进行文字识别,以获取各个所述文本框对应的文字信息。
5.根据权利要求1所述的图片信息结构化方法,其特征在于,根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵,包括:
选择宽高比大于第一预设值的所有所述文本框的第一最小外接矩形的旋转角度的中位数作为图片旋转角度;
以所述待处理图片的长、宽和所述图片旋转角度为参数,构建图像的仿射变化矩阵。
6.根据权利要求1所述的图片信息结构化方法,其特征在于,根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形,包括:
根据所述图像的仿射变化矩阵对各个所述文本框的第一最小外接矩形的每个顶点做线性变换以获取各个所述文本框的第一最小外接矩形的每个顶点的矫正位置,并根据各个所述文本框的第一最小外接矩形的每个顶点的矫正位置来更新各个所述文本框的第一最小外接矩形,将更新后的各个所述文本框的第一最小外接矩形作为各个所述文本框的第二最小外接矩形。
7.根据权利要求1所述的图片信息结构化方法,其特征在于,根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序包括:
根据各个所述文本框的第二最小外接矩形的中心点纵坐标,按照由小到大的顺序对各个所述文本框进行排序;
根据预设规则获取属于同一行的所有所述文本框;
根据所述文本框的第二最小外接矩形的顶点横坐标最小值对属于同一行的所有所述文本框进行水平位置排序;
其中,判断两个所述文本框属于同一行的预设规则为:
(1)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy小于间隔阈值,其中,间隔阈值定义为所有所述文本框的第二最小外接矩形高度的平均值的0.3-0.7倍;
(2)相邻两个所述文本框的第二最小外接矩形的中心点纵坐标差值Δy与中心点横坐标差值Δx的比值,满足tan-1(Δy/Δx)<15°;
当(1)和(2)同时满足时,则判断两个所述文本框属于同一行。
8.一种图片信息结构化装置,其特征在于,所述图片信息结构化装置包括:
图片获取模块,用于获取待处理图片,所述待处理图片为卡证图片或表格文档图片;
检测识别模块,用于采用文本识别网络和文本检测网络对所述待处理图片进行文本检测和识别,以获取检测到的各个文本框的第一最小外接矩形及对应的文字信息;
仿射变化矩阵获取模块,用于根据所述待处理图片的长、宽及所述文本框的第一最小外接矩形的旋转角度构建图像的仿射变化矩阵;
矫正更新模块,用于根据所述图像的仿射变化矩阵对各所述文本框的第一最小外接矩形进行矫正更新,以获取各所述文本框的第二最小外接矩形;
文本排序模块,用于根据各个所述文本框的第二最小外接矩形,按照预设顺序对所有的所述文本框进行排序;
文本获取模块,用于根据排序结果合并所有文本框的文字信息,以获取所述待处理图片中的文本内容;
标签提取模块,用于采用正则规则从所述文本内容中提取目的标签的信息。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储于计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202111148607.0A 2021-09-29 2021-09-29 一种图片信息结构化方法、装置、设备及介质 Active CN113850208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111148607.0A CN113850208B (zh) 2021-09-29 2021-09-29 一种图片信息结构化方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111148607.0A CN113850208B (zh) 2021-09-29 2021-09-29 一种图片信息结构化方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113850208A true CN113850208A (zh) 2021-12-28
CN113850208B CN113850208B (zh) 2024-09-27

Family

ID=78977016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111148607.0A Active CN113850208B (zh) 2021-09-29 2021-09-29 一种图片信息结构化方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113850208B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218659A (zh) * 2023-08-30 2023-12-12 建银工程咨询有限责任公司 不动产权证中信息的获取方法、装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN111680690A (zh) * 2020-04-26 2020-09-18 泰康保险集团股份有限公司 一种文字识别方法及装置
CN112507782A (zh) * 2020-10-22 2021-03-16 广东省电信规划设计院有限公司 文本图像的识别方法及装置
CN113158895A (zh) * 2021-04-20 2021-07-23 北京中科江南信息技术股份有限公司 票据识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN111680690A (zh) * 2020-04-26 2020-09-18 泰康保险集团股份有限公司 一种文字识别方法及装置
CN112507782A (zh) * 2020-10-22 2021-03-16 广东省电信规划设计院有限公司 文本图像的识别方法及装置
CN113158895A (zh) * 2021-04-20 2021-07-23 北京中科江南信息技术股份有限公司 票据识别方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117218659A (zh) * 2023-08-30 2023-12-12 建银工程咨询有限责任公司 不动产权证中信息的获取方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN113850208B (zh) 2024-09-27

Similar Documents

Publication Publication Date Title
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
CN110276342B (zh) 车牌辨识方法以及其系统
JP5659563B2 (ja) 識別方法、識別装置およびコンピュータプログラム
US9865063B2 (en) Method and system for image feature extraction
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN108334879B (zh) 一种区域提取方法、系统及终端设备
CN112597940B (zh) 证件图像识别方法、装置及存储介质
CN108182457B (zh) 用于生成信息的方法和装置
KR102421604B1 (ko) 이미지 처리 방법, 장치 및 전자 기기
CN114723636A (zh) 基于多特征融合的模型生成方法、装置、设备及存储介质
CN113887438A (zh) 人脸图像的水印检测方法、装置、设备及介质
CN114758145B (zh) 一种图像脱敏方法、装置、电子设备及存储介质
CN114049568A (zh) 基于图像比对的标的物形变检测方法、装置、设备及介质
CN111177450B (zh) 一种图像检索云识别方法、系统及计算机可读存储介质
CN103955713B (zh) 一种图标识别方法和装置
CN113850208B (zh) 一种图片信息结构化方法、装置、设备及介质
CN112749576B (zh) 图像识别方法和装置、计算设备以及计算机存储介质
EP4075381B1 (en) Image processing method and system
CN116976372A (zh) 基于方形基准码的图片识别方法、装置、设备及介质
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
CN111695441B (zh) 图像文档处理方法、装置及计算机可读存储介质
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
Gupta et al. Image feature detection using an improved implementation of maximally stable extremal regions for augmented reality applications
CN112399236B (zh) 一种视频查重方法、装置及电子设备
CN112669212B (zh) 人脸图像超分辨率重建方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant