CN112115907A - 固定版面证件结构化信息提取方法、装置、设备及介质 - Google Patents

固定版面证件结构化信息提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN112115907A
CN112115907A CN202011029027.5A CN202011029027A CN112115907A CN 112115907 A CN112115907 A CN 112115907A CN 202011029027 A CN202011029027 A CN 202011029027A CN 112115907 A CN112115907 A CN 112115907A
Authority
CN
China
Prior art keywords
image
target certificate
target
model
segmentation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011029027.5A
Other languages
English (en)
Other versions
CN112115907B (zh
Inventor
高大帅
李健
武卫东
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202011029027.5A priority Critical patent/CN112115907B/zh
Priority claimed from CN202011029027.5A external-priority patent/CN112115907B/zh
Publication of CN112115907A publication Critical patent/CN112115907A/zh
Application granted granted Critical
Publication of CN112115907B publication Critical patent/CN112115907B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Input (AREA)

Abstract

本发明实施例提供了固定版面证件结构化信息提取方法、装置、设备及介质。所述方法包括:获取目标证件图像;根据所述目标证件图像的类型选择对应的实例分割模型;通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。使得本发明采用实例分割模型直接定位到待识别的文本行所在位置,然后直接送入预设文字识别模型进行信息识别,不需要对无关文本行进行检测和识别,简化了处理流程,提高了识别准确率和识别速度。

Description

固定版面证件结构化信息提取方法、装置、设备及介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种固定版面证件结构化信息提取方法、装置、设备及介质。
背景技术
目前,在特定场景下需要将身份证、行驶证、驾驶证、营业执照、票据等固定版面中的信息进行结构化信息提取,并上传到电子设备中。而人工录入不仅步骤繁杂,而且时间成本高且错误率高。
发明内容
鉴于上述问题,提出了本发明实施例以便提供固定版面证件结构化信息提取方法、装置、设备及介质。
第一方面,为了解决上述问题,本发明实施例公开了一种固定版面证件结构化信息提取方法,所述方法包括:
获取目标证件图像;
根据所述目标证件图像的类型选择对应的实例分割模型;
通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;
通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
优选的,在所述获取目标证件图像的步骤前,还包括:
根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本,并对所述训练样本中各图像的待识别的文本行进行实例分割标注;
选择与所述实例分割模型匹配的损失函数和优化器,并将所述损失函数和优化器与所述实例分割模型的输出层连接;其中,不同的实例分割模型匹配不同的损失函数和优化器;
通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束。
优选的,在所述通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束的步骤后,还包括:
根据所述实例分割模型的对应的证件类型,获取属于所述证件类型的多个证件的测试样本;
用所述测试样本对已训练的所述实例分割模型进行测试,获取测试通过率;
若所述测试通过率大于预设阈值,则不再对所述实例分割模型进行训练;
若所述测试通过率小于等于所述预设阈值,则用所述训练样本继续对所述实例分割模型进行训练,直到所述实例分割模型的测试通过率大于预设阈值时结束。
优选的,所述目标证件图像的类型是通过以下方式获得的:
从本地获取第一用户输入的与所述目标证件图像对应的类型标识;
根据所述类型标识确定目标证件图像的类型。
优选的,所述目标证件图像的类型是通过以下方式获得的:
获取所述目标证件图像所携带的类型信息;
对所述类型信息进行解析,得到所述目标证件图像的类型。
优选的,所述目标证件图像中包括目标证件的图像区域;在获取目标证件图像之后,所述方法还包括:
将所述目标证件的图像区域变换到所述目标证件图像的预测区域中;
若所述目标证件的图像区域的任一边不与所述预测区域的对应边贴合,则对所述目标证件图像进行校正,以使所述目标证件的图像区域的各边与所述预测区域的对应边贴合;
将校正后的目标证件图像发送到所述实例分割模型中进行待识别的文本行的实例分割。
优选的,所述根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本的步骤,包括:
对所述训练样本中的各图像进行复制,获得多个复制后的图像;
将所述多个复制后的图像进行数据增强,获得多个数据增强后的图像;
将所述多个数据增强后的图像加入到所述训练样本中。
第二方面,为了解决上述问题,本发明实施例还公开了一种固定版面证件结构化信息提取装置,所述装置包括:
图像获取模块,用于获取目标证件图像;
模型选择模块,用于根据所述目标证件图像的类型选择对应的实例分割模型;
实例分割模块,用于通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;
信息获取模块,用于通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
第三方面,为了解决上述问题,本发明实施例还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实现如上述第一方面一种固定版面证件结构化信息提取方法的步骤。
第四方面,为了解决上述问题,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面一种固定版面证件结构化信息提取方法的步骤
本发明实施例包括以下优点:
在本发明实施例中,通过获取目标证件图像;根据所述目标证件图像的类型选择对应的实例分割模型;通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。使得本发明针对不同的证件图像用对应的实例分割模型进行实例分割,让获取的分割实例更加的准确。同时,本发明采用实例分割模型直接定位到待识别的文本行所在位置,然后直接送入预设文字识别模型进行信息识别,不需要对无关文本行进行检测和识别,简化了处理流程,提高了识别准确率和识别速度。
附图说明
图1是本发明的一种固定版面证件结构化信息提取方法的应用步骤流程图。
图2是本发明的一种固定版面证件结构化信息提取方法步骤流程图。
图3是本发明的一种固定版面证件结构化信息提取装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
目前,固定版面证件结构化信息提取方法主要包括两种:通过配置固定模板的方法和基于文字行检测及识别的方法。下面对于这几种方法进行介绍。
一、通过配置固定模板的方法。
该方法需要先配置固定模板,然后将证件归一化到跟固定模板一样大小的图像上,最后利用固定模板找到证件图像中待识别的区域,从而实现结构化信息的提取。例如,常见的银行卡上的账号提取,用户先用手机或其它电子设备启动用于银行卡上账号提取的程序,此时设备显示屏上将出现一个矩形识别框;然后用户需用设备的摄像头聚焦待识别银行卡,通过移动设备使银行卡的四边和矩形识别框的四边完全重合;最后设备将银行卡的图像归一化到固定模板的图像上,该固定模板找到银行卡账号的所在区域,从而提取出银行卡账号。
缺点:该方法需要将证件图像通过用户的聚焦操作归一化到固定模板的图像上,增加了用户的操作难度,让证件的识别十分困难。同时,常用的固定模板配归一化算法往往不够鲁棒,导致该方法识别率较低。
二、基于文字行检测及识别的方法。
该方法利用文字行识别结果找到证件图像上对应的key所在的位置,根据先验信息(一般是利用key,value的相对位置关系)找到相应的value,从而实现结构化信息提取。例如,身份证中结构化信息的提取,先识别出身份证正面所有的信息,然后找到key所在位置如“姓名”的位置,接着根据“姓名”的位置定位出该行文字中value的位置如“某某某”,最后将value进行提取如将“某某某”进行信息提取。
缺点:此方法需要检测识证件图像上的key,接着用key的位置找到对应value的位置并进行信息提取。因此,该方法需要对用户不需要的key进行行检测和识别,使得该方法步骤复杂,识别速度较低。
针对上述问题,本发明实施例提供了一种固定版面证件结构化信息提取方法、装置、设备及介质。其核心思想是:将目标证件图像的待识别的文本(value)看成是实体分割的对象,采用与目标证件图像对应的实例分割模型直接定位到待识别的文本所在位置,然后直接送到预设文字识别模型中进行识别,得到目标证件图像中的结构化信息。因此,本发明不需要对key进行检测和识别,简化了后处理流程,从而提升了识别率及识别速度。以下对于本发明实施例进行详细介绍。
参见图1,示出了本发明的一种固定版面证件结构化信息提取方法的应用步骤流程图,具体可以包括如下步骤:
步骤101,获取目标证件图像。
在本发明实施例中,用户可以通过电子设备获取目标证件的图像。例如,可以通过手机或平板电脑或其它携带摄像头的电子设备对目标证件进行拍照,以获取目标证件图像。或通过选取相册中的图像的方式获取目标证件图像。本发明实施例不对获取目标证件图像的方式加以限制。在本发明实施例中,目标证件可以但不限于包括:身份证、行驶证、驾驶证、营业执照、票据等固定版面的证件。
步骤102,根据所述目标证件图像的类型选择对应的实例分割模型。
在本发明实施例中,针对不同类型的证件都有对应的实例分割模型。每个类型的证件与对应的实例分割模型一一对应。其中,实例分割模型可以包括Mask R-CNN模型、SIS模型、FCIS模型、PAN模型等。在实际应用中优选Mask R-CNN模型,该模型能够给出目标的位置框、类别及目标框内目标的mask。本发明实施例中,可以对针对不同的证件类型用MaskR-CNN模型进行分别训练,得到不同证件类型对应的训练后的Mask R-CNN模型。例如,身份证对应Mask R-CNN模型1,行驶证对应Mask R-CNN模型2,驾驶证对应Mask R-CNN模型3等。
优选的,本发明实施例还可以有多个上述的实例分割模型,其中不同的证件可以对应不同或相同的实例分割模型。例如,身份证对应Mask R-CNN模型1,行驶证对应Mask R-CNN模型2,驾驶证对应SIS模型,营业执照对应FCIS模型1,票据对应FCIS模型2等。
步骤103,通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例。
在本发明实施例中,一般目标证件图像中有多行文本,当待识别的文本含有多行时,每一行可单独作为一个独立待识别的文本。在本发明实施例中,待识别的文本指目标证件图像中具体信息。例如,身份证中至少包括“姓名”、“性别”、“民族”等,本发明实施例中的待识别的文本指的是“姓名”后的具体姓名信息如“刘某某”等,“性别”后的具体性别信息如“男”或“女”,“民族”后的具体民族信息如“汉”或“满”等。又例如,身份证中的“住址”后面有具体的居住信息,可能具体的居住信息太长,需要多行描述,因此本发明实施例中居住信息对应的待识别的文本行就有多行。
在本发明中,将目标证件图像输入到对应的实例分割模型中,该实例分割模型对该目标证件图像上的多个待识别的文本行进行实例分割操作,获得与多个待识别的文本行各自对应的分割实例。
步骤104,通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
在本发明中,预设文字识别模型可以但不限定包括:Keras模型、CSDN模型等。
在本发明实施例中,将多个待识别的文本行各自对应的分割实例输入到预设文字识别模型中,该预设文字识别模型进行文字识别,输出多个待识别的文本行的识别结果,最后将识别结果进行从上到下的组合,得到完整的文本信息。
在本发明实施例中,通过获取目标证件图像;根据所述目标证件图像的类型选择对应的实例分割模型;通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。使得本发明针对不同的证件图像用对应的实例分割模型进行实例分割,让获取的分割实例更加的准确。同时,本发明采用实例分割模型直接定位到待识别的文本行所在位置,然后直接送入预设文字识别模型进行信息识别,不需要对无关文本行进行检测和识别,简化了处理流程,提高了识别准确率和识别速度。
参见图2,示出了本发明的一种固定版面证件结构化信息提取方法步骤流程图,具体可以包括如下步骤:
步骤201,根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本,并对所述训练样本中各图像的待识别的文本行进行实例分割标注。
在本发明实施例中,还需要对训练样本进行预处理,具体为:对所述训练样本中的各图像进行复制,获得多个复制后的图像;将所述多个复制后的图像进行数据增强,获得多个数据增强后的图像;将所述多个数据增强后的图像加入到所述训练样本中。
具体的,可以通过网上爬虫的方式获取各类证件类型的多张图像,例如1000张。复制这些图像并对复制的图像进行数据增强,例如,通过旋转、平移、尺度变换等方式进行数据增强,将数据增强后的图像加入到对应的训练样本中,以用该扩充后的训练样本训练实例分割模型,迫使实例分割模型学习到具有旋转、平移、尺度变换等具有鲁棒性的特征。用人工的方式或其它方式对训练样本中各图像的待识别的文本行进行实例分割标注。其中,当待识别文本含有多行时(如地址行),每一行都作为一个独立的实例进行标注,最后将实例识别结果按照从上到下的关系组合即可得到完整的条目信息。
在本发明实施例中,通过将数据增强后的图像扩充到原有的训练样本中,使得用扩充后的训练样本训练的实例分割模型,能够准确的对大小不一、拍摄角度不同、字体较模糊等特征的目标证件图像进行准确的实例分割,增强了训练后的实例分割模型的鲁棒性。
步骤202,选择与所述实例分割模型匹配的损失函数和优化器,并将所述损失函数和优化器与所述实例分割模型的输出层连接;其中,不同的实例分割模型匹配不同的损失函数和优化器。
在本发明实施例中,需要给每一类证件图像对应的实例分割模型设计合适的损失函数和优化器。将损失函数作为优化器的参数,将优化器添加到对应实例分割模型的输出层后。使得损失函数尽可能的收敛。例如,将损失函数带入到优化器的minimize方法中做参数。
其中,损失函数可以为:平方误差损失函数、绝对误差损失函数、HUber损失函数、二元交叉熵损失函数、Hinge损失函数、多分类交叉熵损失函数、KL散度损失函数等。在设计时根据具体情况而定。
优化器可以为:标准梯度下降法(GD)、批量梯度下降法(BGD)、随机梯度下降法(SGD)、动量优化法、AdaGrad算法、RMSProp算法、AdaDelta算法等。在设计时根据具体情况而定。
在给实例分割模型选择损失函数的标准为:由于目标证件图像中不同的待识别的文本所占像素不同,且长度小的待识别的文本所占像素少,在训练中容易被忽略,为了尽可能的保证分割对象间的像素类别均衡,所以增加所占像素小的待识别的文本的权重,减少所占像素大的待识别的文本的权重,并且要求设计的损失函数能够快速收敛。
在给实例分割模型选择优化器的标准为:优化器能够快速通过调整网络权重将损失函数收敛到一个比较好的稳定值。
步骤203,通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束。
在本发明实施例中,将训练样本输入到添加了损失函数和优化器的对应实例分割模型中不停的训练,直到实例分割模型的损失收敛结束。即,该训练后的实例分割模型能够准确的对目标证件图像进行实例分割。其中,本发明实施例可以选用tensorflow框架进行实例分割模型的训练。
步骤204,根据所述实例分割模型的对应的证件类型,获取属于所述证件类型的多个证件的测试样本。
本发明中,测试样本用于测试训练后的实例分割模型的性能强度。
在本发明实施例中,可以通过网络爬虫的方式获取与实例分割模型对应的多张测试样本,一般测试样本的数量与训练样本的数量比值为1:4。并将测试样本中各图像的待识别的文本标注成KV结构化图像,即对各图像的待识别的文本进行标记,以用于在确定测试通过率时知道标注的部分为待识别的文本。步骤205,用所述测试样本对已训练的所述实例分割模型进行测试,获取测试通过率。
在本发明实施例中,将训练样本中的标注成KV结构化图像一一输入到训练后的实例分割模型中获得图像对应的分割实例,并将分割实例送入预设文字识别模型中识别,通过比较KV结构化图像中标注位置的信息和预设文字识别模型识别出的信息是否相同,以确定该识别结果的正确性。最后,统计待识别文本的识别正确率确定实例分割结果的通过率。例如,若一个待识别文本识别错误,那么代表该待识别文本对应的分割实例也是错误的。
步骤206,若所述测试通过率大于预设阈值,则不再对所述实例分割模型进行训练;若所述测试通过率小于等于所述预设阈值,则用所述训练样本继续对所述实例分割模型进行训练,直到所述实例分割模型的测试通过率大于预设阈值时结束。
在本发明实施例中,预设了一个合格率,即预设阈值。比较测试通过率和该预设阈值的大小关系,以根据该大小关系确定训练后的实例分割模型是否还需要继续训练。并将训练通过的实例分割模型进行存储,以备目标证件图像进行实例分割时使用。
在本发明实施例中,通过测试训练后的实例分割模型,以保证训练后的实例分割模型达到使用要求,防止了训练后的实例分割模型识别率低下。
步骤207,获取目标证件图像,根据所述目标证件图像的类型选择对应的实例分割模型。
在本发明实施例中,可以通过两种方式获取目标证件图像的类型。具体的,方式一:从本地获取第一用户输入的与所述目标证件图像对应的类型标识;根据所述类型标识确定目标证件图像的类型。方式二:获取所述目标证件图像所携带的类型信息;对所述类型信息进行解析,得到所述目标证件图像的类型;根据目标证件图像的类型确定对应的实例分割模型。
在实际应用中,可以在用户的前端设置目标证件图像的类型选项。用户在上传目标证件图像前需要先选择上传目标证件图像的类型。将目标证件的图像数据和目标证件图像的类型数据进行数据打包并发送至后台程序,后台程序解析该目标证件的图像数据获得该目标证件图像的类型,并以通过该目标证件图像的类型匹配对应的实例分割模型。
另一种实施方式,在用户的前端只设置上传目标证件图像的上传按钮,用户通过该上传按钮直接上传目标证件图像到后台,后台通过图像分类模型检测获得该目标证件图像对应的类型标识,并根据该类型标识确定对应目标证件图像的类型。最后,通过该目标证件图像的类型匹配对应的实例分割模型。其中,图像分类模型包括但不限于:svm分类模型、基于深度学习的cnn分类器等。
步骤208,校正目标证件图像。
在本发明实施中,将所述目标证件的图像区域变换到所述目标证件图像的预测区域中;若所述目标证件的图像区域的任一边不与所述预测区域的对应边贴合,则对所述目标证件图像进行校正,以使所述目标证件的图像区域的各边与所述预测区域的对应边贴合;将校正后的目标证件图像发送到所述实例分割模型中进行待识别的文本行的实例分割。
在实际应用中,用户上传的目标证件图像一般包括图像区域和图像区域外围的空白区域,且图像区域有可能歪斜,而歪斜的图像区域可能会导致预设文字识别模型识别不准确。因此,本发明实施例可以在后台设施一个预测区域,以校正目标证件图像。具体如下:
首先将目标证件图像放入目标证件图像的预测区域中;然后,检测该目标证件图像的各边是否和目标证件图像的预测区域的四边重合;接着,若目标证件的图像区域的任一边不与预测区域的对应边贴合,则将目标证件图像进行旋转,以使目标证件的图像区域的各边与预测区域的对应边贴合;最后,将校正后的目标证件图像发送到实例分割模型中进行待识别的文本行的实例分割。
另一个实施例中,校正目标证件图像还可以通过如下方式实现:
将目标证件图像输入到预设文字方向判断模型中,该预设文字方向判断模型判断输入图像中的文字是否为正向显示,若不是正向显示则校正该图像以使该图像中的文字正向显示。一般来说,若图像中的文字的角度在-45°~45°的范围内,则预设文字方向判断模型会认为该图像中的文字正向显示,不进行任何调整;若图像中的文字的角度不在-45°~45°的范围内,则预设文字方向判断模型会认为该图像中的文字未正向显示,并校正该图像以使该图像中的文字的角度在-45°~45°的范围内。最后,将校正后的目标证件图像发送到实例分割模型中进行待识别的文本行的实例分割。
在本发明实施例中,通过对目标证件图像进行校正,使得通过训练后的实例分割模型获取的分割实例是正向显示,从而让预设文字识别模型能够准确识别该正向显示的分割实例。增加了预设文字识别模型的识别准确性。
步骤209,通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例。
在本发明实施例中,一般目标证件图像中有多行文本,当待识别的文本含有多行时,每一行可单独作为一个独立待识别的文本。在本发明实施例中,待识别的文本指目标证件图像中具体信息。例如,身份证中至少包括“姓名”、“性别”、“民族”等,本发明实施例中的待识别的文本指的是“姓名”后的具体姓名信息如“刘某某”等,“性别”后的具体性别信息如“男”或“女”,“民族”后的具体民族信息如“汉”或“满”等。又例如,身份证中的“住址”后面有具体的居住信息,可能具体的居住信息太长,需要多行描述,因此本发明实施例中居住信息对应的待识别的文本行就有多行。
在本发明中,将目标证件图像输入到对应的实例分割模型中,该实例分割模型对该目标证件图像上的多个待识别的文本行进行实例分割操作,获得与多个待识别的文本行各自对应的分割实例。
步骤210,通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
在本发明中,预设文字识别模型可以但不限定包括:Keras模型、CSDN模型等。
在本发明实施例中,将多个待识别的文本行各自对应的分割实例输入到预设文字识别模型中,该预设文字识别模型进行文字识别,输出多个待识别的文本行的识别结果,最后将识别结果进行从上到下的组合,得到完整的文本信息。身份证为例,输出结果“姓名”、“性别”、“民族”、“出生”、“年”、“月”、“日”、“住址”、“公民身份号码”所代表的具体信息,并将这些信息以原有次序从上到下组合,得到完整的文本信息。
以下为本发明实施例的有益效果:
第一,通过将数据增强后的图像扩充到原有的训练样本中,使得用扩充后的训练样本训练的实例分割模型,能够准确的对大小不一、拍摄角度不同、字体较模糊等特征的目标证件图像进行准确的实例分割,增强了训练后的实例分割模型的鲁棒性。
第二,通过给对应的实例分割模型选择匹配的损失函数和优化器,加快了实例分割模型的训练进度,让训练后的实例分割模型更加的准确。
第三,通过测试训练后的实例分割模型,以保证训练后的实例分割模型达到使用要求并具备泛化能力,防止了训练后的实例分割模型识别率低下。
第四,通过对目标证件图像进行校正,使得通过训练后的实例分割模型获取的分割实例是正向显示,从而让预设文字识别模型能够准确识别该正向显示的分割实例。增加了预设文字识别模型的识别准确性。
因此,本发明可以针对不同的证件图像用对应的实例分割模型进行实例分割,让获取的分割实例更加的准确。同时,本发明采用实例分割模型直接定位到待识别的文本行所在位置,然后直接送入预设文字识别模型进行信息识别,不需要对无关文本行进行检测和识别,简化了处理流程,提高了识别准确率和识别速度。
参见图3,示出了本发明的一种固定版面证件结构化信息提取装置实施例的结构框图。具体装置如下:
图像获取模块301,用于获取目标证件图像。
模型选择模块302,用于根据所述目标证件图像的类型选择对应的实例分割模型。
实例分割模块303,用于通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例。
信息获取模块304,用于通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
其中,模型选择模块302还包括如下子模块:
类型标识获取子模块,用于从本地获取第一用户输入的与所述目标证件图像对应的类型标识。
第一类型获取子模块,用于根据所述类型标识确定目标证件图像的类型。
类型信息获取子模块,用于获取所述目标证件图像所携带的类型信息。
第二类型获取子模块,用于对所述类型信息进行解析,得到所述目标证件图像的类型。
优选的,该装置还包括:
训练样本获取模块,用于根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本,并对所述训练样本中各图像的待识别的文本行进行实例分割标注。
其中,所述训练样本获取模块包括:
图像复制子模块,用于对所述训练样本中的各图像进行复制,获得多个复制后的图像;
数据增强子模块,用于将所述多个复制后的图像进行数据增强,获得多个数据增强后的图像;
图像添加子模块,用于将所述多个数据增强后的图像加入到所述训练样本中。
损失函数和优化器选择模块,用于选择与所述实例分割模型匹配的损失函数和优化器,并将所述损失函数和优化器与所述实例分割模型的输出层连接;其中,不同的实例分割模型匹配不同的损失函数和优化器。
训练模块,用于通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束。
测试样本获取模块,用于根据所述实例分割模型的对应的证件类型,获取属于所述证件类型的多个证件的测试样本。
测试通过率获取模块,用于用所述测试样本对已训练的所述实例分割模型进行测试,获取测试通过率。
测试通过率判断模块,用于若所述测试通过率大于预设阈值,则不再对所述实例分割模型进行训练。
所述测试通过率判断模块,还用于若所述测试通过率小于等于所述预设阈值,则用所述训练样本继续对所述实例分割模型进行训练,直到所述实例分割模型的测试通过率大于预设阈值时结束。
图像区域变换模块,用于将所述目标证件的图像区域变换到所述目标证件图像的预测区域中,其中,所述目标证件图像中包括目标证件的图像区域。
图像校正模块,用于若所述目标证件的图像区域的任一边不与所述预测区域的对应边贴合,则对所述目标证件图像进行校正,以使所述目标证件的图像区域的各边与所述预测区域的对应边贴合。
图像发送模块,用于将校正后的目标证件图像发送到所述实例分割模型中进行待识别的文本行的实例分割。
基于同一发明构思,本发明另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的固定版面证件结构化信息提取方法、装置、设备及介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种固定版面证件结构化信息提取方法,其特征在于,所述方法包括:
获取目标证件图像;
根据所述目标证件图像的类型选择对应的实例分割模型;
通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;
通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标证件图像的步骤前,还包括:
根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本,并对所述训练样本中各图像的待识别的文本行进行实例分割标注;
选择与所述实例分割模型匹配的损失函数和优化器,并将所述损失函数和优化器与所述实例分割模型的输出层连接;其中,不同的实例分割模型匹配不同的损失函数和优化器;
通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束。
3.根据权利要求2所述的方法,其特征在于,在所述通过所述训练样本、所述损失函数和所述优化器对所述实例分割模型进行训练,直到所述实例分割模型的损失收敛结束的步骤后,还包括:
根据所述实例分割模型的对应的证件类型,获取属于所述证件类型的多个证件的测试样本;
用所述测试样本对已训练的所述实例分割模型进行测试,获取测试通过率;
若所述测试通过率大于预设阈值,则不再对所述实例分割模型进行训练;
若所述测试通过率小于等于所述预设阈值,则用所述训练样本继续对所述实例分割模型进行训练,直到所述实例分割模型的测试通过率大于预设阈值时结束。
4.根据权利要求1所述的方法,其特征在于,所述目标证件图像的类型是通过以下方式获得的:
从本地获取第一用户输入的与所述目标证件图像对应的类型标识;
根据所述类型标识确定目标证件图像的类型。
5.根据权利要求1所述的方法,其特征在于,所述目标证件图像的类型是通过以下方式获得的:
获取所述目标证件图像所携带的类型信息;
对所述类型信息进行解析,得到所述目标证件图像的类型。
6.根据权利要求1所述的方法,其特征在于,所述目标证件图像中包括目标证件的图像区域;在获取目标证件图像之后,所述方法还包括:
将所述目标证件的图像区域变换到所述目标证件图像的预测区域中;
若所述目标证件的图像区域的任一边不与所述预测区域的对应边贴合,则对所述目标证件图像进行校正,以使所述目标证件的图像区域的各边与所述预测区域的对应边贴合;
将校正后的目标证件图像发送到所述实例分割模型中进行待识别的文本行的实例分割。
7.根据权利要求2所述的方法,其特征在于,所述根据实例分割模型对应的证件类型,获取属于所述证件类型的多个证件的训练样本的步骤,包括:
对所述训练样本中的各图像进行复制,获得多个复制后的图像;
将所述多个复制后的图像进行数据增强,获得多个数据增强后的图像;
将所述多个数据增强后的图像加入到所述训练样本中。
8.一种固定版面证件结构化信息提取装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标证件图像;
模型选择模块,用于根据所述目标证件图像的类型选择对应的实例分割模型;
实例分割模块,用于通过所述实例分割模型对所述目标证件图像中多个待识别的文本行进行实例分割,获取与所述多个待识别的文本行各自对应的分割实例;
信息获取模块,用于通过预设文字识别模型识别所述待识别的文本行的分割实例,获得所述目标证件图像中的结构化信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述的一种固定版面证件结构化信息提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的一种固定版面证件结构化信息提取方法的步骤。
CN202011029027.5A 2020-09-27 固定版面证件结构化信息提取方法、装置、设备及介质 Active CN112115907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011029027.5A CN112115907B (zh) 2020-09-27 固定版面证件结构化信息提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011029027.5A CN112115907B (zh) 2020-09-27 固定版面证件结构化信息提取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112115907A true CN112115907A (zh) 2020-12-22
CN112115907B CN112115907B (zh) 2024-10-22

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989921A (zh) * 2020-12-31 2021-06-18 上海智臻智能网络科技股份有限公司 一种目标图像信息识别方法及其装置
CN113673528A (zh) * 2021-08-06 2021-11-19 Oppo广东移动通信有限公司 文本处理方法、装置、电子设备和可读存储介质
CN114092950A (zh) * 2021-12-08 2022-02-25 云知声智能科技股份有限公司 一种证件信息的处理方法、装置、电子设备及存储介质
CN117373030A (zh) * 2023-06-19 2024-01-09 上海简答数据科技有限公司 一种基于ocr的用户材料识别方法、系统、装置及介质
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002346026A1 (en) * 2001-07-02 2003-01-21 Digimarc Corporation Hiding information out-of-phase in color channels
US20090154778A1 (en) * 2007-12-12 2009-06-18 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US20090152357A1 (en) * 2007-12-12 2009-06-18 3M Innovative Properties Company Document verification using dynamic document identification framework
WO2015196084A1 (en) * 2014-06-20 2015-12-23 Theodore Kuklinski A self-learning system and methods for automatic document recognition, authentication, and information extraction
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002346026A1 (en) * 2001-07-02 2003-01-21 Digimarc Corporation Hiding information out-of-phase in color channels
US20090154778A1 (en) * 2007-12-12 2009-06-18 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US20090152357A1 (en) * 2007-12-12 2009-06-18 3M Innovative Properties Company Document verification using dynamic document identification framework
WO2015196084A1 (en) * 2014-06-20 2015-12-23 Theodore Kuklinski A self-learning system and methods for automatic document recognition, authentication, and information extraction
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN109034159A (zh) * 2018-05-28 2018-12-18 北京捷通华声科技股份有限公司 图像信息提取方法和装置
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘丽媛;刘宏展;郝源;吴一;: "基于Python和OCR的仪表信息识别技术", 电子技术与软件工程, no. 02, 15 January 2020 (2020-01-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989921A (zh) * 2020-12-31 2021-06-18 上海智臻智能网络科技股份有限公司 一种目标图像信息识别方法及其装置
CN113673528A (zh) * 2021-08-06 2021-11-19 Oppo广东移动通信有限公司 文本处理方法、装置、电子设备和可读存储介质
CN113673528B (zh) * 2021-08-06 2024-02-09 Oppo广东移动通信有限公司 文本处理方法、装置、电子设备和可读存储介质
CN114092950A (zh) * 2021-12-08 2022-02-25 云知声智能科技股份有限公司 一种证件信息的处理方法、装置、电子设备及存储介质
CN117373030A (zh) * 2023-06-19 2024-01-09 上海简答数据科技有限公司 一种基于ocr的用户材料识别方法、系统、装置及介质
CN117437506A (zh) * 2023-12-20 2024-01-23 深圳兔展智能科技有限公司 训练样本生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN109670504B (zh) 一种手写答案识别批改方法及装置
US11087125B2 (en) Document authenticity determination
US11790641B2 (en) Answer evaluation method, answer evaluation system, electronic device, and medium
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
CN109583429B (zh) 一种批改试卷中应用题的方法及装置
CN109712043B (zh) 一种答案批改方法及装置
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN110263694A (zh) 一种票据识别方法及装置
CN109299663A (zh) 手写字体识别方法、系统以及终端设备
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN110222678B (zh) 一种题目分析方法、系统、可读存储介质及电子设备
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
CN109947273B (zh) 一种点读定位方法及装置
CN113095187A (zh) 一种基于图像特征匹配对齐的试卷批改方法
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN114445843A (zh) 固定版式的卡证图像文字识别方法和装置
CN112396057B (zh) 一种字符识别方法、装置及电子设备
WO2023024898A1 (zh) 题目辅助方法、题目辅助装置和题目辅助系统
CN110263779A (zh) 文本区域检测方法及装置、文本检测方法、计算机可读介质
CN112115907B (zh) 固定版面证件结构化信息提取方法、装置、设备及介质
CN112115907A (zh) 固定版面证件结构化信息提取方法、装置、设备及介质
CN113362380B (zh) 一种图像特征点检测模型训练方法、装置及其电子设备
CN111914836B (zh) 一种身份证信息提取方法、装置、设备和介质
CN110415424B (zh) 一种防伪鉴定方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant