CN111695441B - 图像文档处理方法、装置及计算机可读存储介质 - Google Patents

图像文档处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111695441B
CN111695441B CN202010434264.3A CN202010434264A CN111695441B CN 111695441 B CN111695441 B CN 111695441B CN 202010434264 A CN202010434264 A CN 202010434264A CN 111695441 B CN111695441 B CN 111695441B
Authority
CN
China
Prior art keywords
image
region
transformation matrix
processed
matching point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010434264.3A
Other languages
English (en)
Other versions
CN111695441A (zh
Inventor
黄文韬
刘鹏
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010434264.3A priority Critical patent/CN111695441B/zh
Priority to PCT/CN2020/098973 priority patent/WO2021151274A1/zh
Publication of CN111695441A publication Critical patent/CN111695441A/zh
Application granted granted Critical
Publication of CN111695441B publication Critical patent/CN111695441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能中的图像处理领域,揭露了一种图像文档处理方法,包括:根据预设分类字段在模板图像中的位置生成第一区域图像,提取SIFT特征点生成第一区域图像的第一特征描述子和待处理图像的第二特征描述子并生成匹配点对,根据匹配点对生成变换矩阵,使用变换矩阵根据所述待处理图像生成第二区域图像,对第二区域图像进行处理生成输出图像,根据模板图像识别出输出图像中所需输出字段位置中的文本内容。本发明还提出一种电子装置以及一种计算机可读存储介质。本发明减少了图像非刚性形变导致全局模板结构化定位的错误以及图像文档结构化识别错误。另外,本发明还涉及区块链技术,本发明还可应用于智慧政务、智慧教育等领域中,从而推动智慧城市的建设。

Description

图像文档处理方法、装置及计算机可读存储介质
技术领域
本发明涉及人工智能中的图像处理领域,尤其涉及一种图像文档处理方法、电子装置及计算机可读存储介质。
背景技术
近年来随着人工智能技术的迅猛发展,特别是深度学习在图像领域的成功应用,使得OCR技术得到了更加广泛的应用,特别在各种证件和图像文档的自动翻译、解析等方面的应用十分的广泛。
现有技术中,常采用两种方法对图像文档进行识别。一种是通过文档识别的结果得到关键字的位置,从而根据位置关系来确定所需分类字段的位置,最后根据各个位置里的识别内容确定最终的输出结果。这种方法的主要问题是当文档存在倾斜或者关键字识别错误时会对输出结果产生很大的影响,甚至导致输出错误。另一种方式是通过建立一个待识别文档的标准模板,然后对输入图像与该标准模板进行匹配和映射,最后根据标准模板的所需输出字段的位置对应的确定目标图像里的位置。然而,当输入图像存在非刚性形变时,难以找到这样的映射关系,导致定位结果出错,从而使得输出结果错误。
发明内容
鉴于以上内容,有必要提供一种图像文档处理方法,旨在非刚性形变导致文档结构化识别错误的问题。
本发明提供的图像文档处理方法,应用于电子装置,包括:
根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
可选的,所述根据预设分类字段在模板图像中的位置生成第一区域图像包括:
根据预设的分类字段确定与该预设分类字段对应的待提取字段,将所述模板图像中包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域,依此方法将所述模板图像划分为两个或两个以上区域,所述划分区域后的模板图像视为第一区域图像。
可选的,所述第一区域图像包括两个或两个以上区域,所述根据过滤后的匹配点对生成所述第一区域图像的变换矩阵包括:
在所述第一区域图像的一个区域中随机选取第二预设数量过滤后的匹配点对,根据第二预设数量过滤后的匹配点对构建变换矩阵模型;
通过所述变换矩阵模型计算所述第一区域图像该区域中所述第一特征描述子中的内点数量,若所述变换矩阵模型计算出的所述内点数量占该区域中所述第一特征描述子总数的比例等于或大于预设阈值,则确定所述变换矩阵模型为所述第一区域图像该区域的变换矩阵;
根据上述步骤获得所述第一区域图像各区域的变换矩阵,根据所述第一区域图像各区域的变换矩阵得到所述第一区域图像的变换矩阵。
可选的,所述第一区域图像的变换矩阵包括所述第一区域图像中各区域对应的变换矩阵;所述根据所述变换矩阵及所述待处理图像生成第二区域图像包括:
将所述待处理图像使用所述第一区域图像中各区域对应的变换矩阵进行计算,得到与所述第一区域图像中各区域对应的图像,即第二区域图像。
可选的,所述第二区域图像包括与所述第一区域图像中各区域对应的图像;所述根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像包括:
将所述第二区域图像中与所述第一区域图像中各区域对应的图像,对应所述第一区域图像中各区域的位置按相同的顺序进行拼接生成输出图像。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的图像文档处理程序,所述图像文档处理程序被所述处理器执行时实现如下步骤:
根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
可选的,所述根据预设分类字段在模板图像中的位置生成第一区域图像包括:
根据预设的分类字段确定与该预设分类字段对应的待提取字段,将所述模板图像中包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域,依此方法将所述模板图像划分为两个或两个以上区域,所述划分区域后的模板图像视为第一区域图像。
可选的,所述第一区域图像包括两个或两个以上区域,所述根据过滤后的匹配点对生成所述第一区域图像的变换矩阵包括:
在所述第一区域图像的一个区域中随机选取第二预设数量过滤后的匹配点对,根据第二预设数量过滤后的匹配点对构建变换矩阵模型;
通过所述变换矩阵模型计算所述第一区域图像该区域中所述第一特征描述子中的内点数量,若所述变换矩阵模型计算出的所述内点数量占该区域中所述第一特征描述子总数的比例等于或大于预设阈值,则确定所述变换矩阵模型为所述第一区域图像该区域的变换矩阵;
根据上述步骤获得所述第一区域图像各区域的变换矩阵,根据所述第一区域图像各区域的变换矩阵得到所述第一区域图像的变换矩阵。
可选的,所述第一区域图像的变换矩阵包括所述第一区域图像中各区域对应的变换矩阵;所述根据所述变换矩阵及所述待处理图像生成第二区域图像包括:
将所述待处理图像使用所述第一区域图像中各区域对应的变换矩阵进行计算,得到与所述第一区域图像中各区域对应的图像,即第二区域图像。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有图像文档处理程序,所述图像文档处理程序可被一个或者多个处理器执行,以实现上述图像文档处理方法的步骤。
相较现有技术,本发明采用SIFT对模板图像和待处理图像进行特征点提取并生成匹配点对,使用预设算法过滤匹配点对,根据过滤后的匹配点对生成变换矩阵,然后采用变换矩阵对待处理图像进行处理得到输出图像,再对输出图像根据模板图像结合位置逻辑的结构化方法得到最终的识别输出,减少了待处理图像的非刚性形变导致全局模板结构化定位的错误,从而减少了图像文档结构化识别错误。
附图说明
图1为本发明电子装置一实施例的示意图;
图2为图1中的图像文档处理程序一实施例的程序模块图;
图3为本发明图像文档处理方法一实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1所示,为本发明电子装置1一实施例的示意图。电子装置1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在本实施例中,电子装置1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有图像文档处理程序10,所述图像文档处理程序10可被所述处理器12执行。图1仅示出了具有组件11-13以及图像文档处理程序10的电子装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件,例如存储本发明一实施例中的图像文档处理程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行图像文档处理程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子装置1与客户端(图中未画出)之间建立通信连接。
可选的,所述电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(OrganicLight-EmittingDiode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在本发明的一实施例中,所述图像文档处理程序10被所述处理器12执行时实现如下步骤。
根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子。
在一实施例中,所述根据预设分类字段在模板图像中的位置生成第一区域图像包括:根据预设的分类字段确定与该预设分类字段对应的待提取字段,将所述模板图像中包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域,依此方法将所述模板图像划分为两个或两个以上区域,所述划分区域后的模板图像视为第一区域图像。
具体地,在模板图像上框选出固定不变的字段作为预设的分类字段(例如姓名、公司、职位等),根据预设的分类字段框选与该预设的分类字段对应的待提取字段(例如“姓名”对应“陈XX”、“公司”对应“XX公司”、“职位”对应“XX经理”等),将包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域。
本实施例中,SIFT特征描述子(x,y,θ)是对特征点附近邻域内高斯图像梯度统计结果的一种表示,它包含了位置,尺度,方向的信息,是一个三维的阵列,通常将它表示成一个矢量。SIFT特征描述子是一种基于尺度空间的,对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子,因此对于局部小区域,即使存在形变也具有良好的表征作用。
将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对。
具体地,通过聚类算法将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的至少4个匹配点对,并使用RANSAC算法过滤所述匹配点对中包括相同的第一、第二特征描述子的匹配点对。举例如下:
第一区域图像中含有多个第一特征描述子A1~An,待处理图像中含有多个第二特征描述子B1~Bn。计算待处理图像和第一区域图像中每两个特征描述子之间的距离(欧式距离),例如,对于第一区域图像中的第一特征描述子A1,分别计算B1~Bn与A1的距离d1~dn,并根据d1~dn数值大小对B1~Bn进行排序,从B1~Bn中选取与A1距离最小的k个第二特征描述子(例如k=2)。之后,对选取的k个第二特征描述子再次进行过滤,筛选出与A1距离比值小于预设距离阈值T(例如T=0.49)的一个第二特征描述子作为A1的匹配点Bt(Bt属于B1~Bn),生成第一区域图像与待处理图像的一个匹配点对(A1,Bt)。依此方法,得到模板图像中其它第一特征描述子A2~An相匹配的第二特征描述子,生成匹配点对。
根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像。
在一实施例中,所述第一区域图像包括两个或两个以上区域,所述根据过滤后的匹配点对生成所述第一区域图像的变换矩阵包括:在所述第一区域图像的一个区域中随机选取第二预设数量(例如4个)过滤后的匹配点对,根据第二预设数量(例如4个)过滤后的匹配点对构建变换矩阵模型;通过所述变换矩阵模型计算所述第一区域图像该区域中所述第一特征描述子中的内点数量,若所述变换矩阵模型计算出的所述内点数量占该区域中所述第一特征描述子总数的比例等于或大于预设阈值,则确定所述变换矩阵模型为所述第一区域图像该区域的变换矩阵;根据上述步骤获得所述第一区域图像各区域的变换矩阵,根据所述第一区域图像各区域的变换矩阵得到所述第一区域图像的变换矩阵。
例如,对所述第一区域图像一个区域内过滤后的匹配点对进行随机采样,选取4个匹配点对建立数据点集,然后构建变换矩阵模型A,建立方程如下:
其中变换矩阵A为:
每个匹配点对可以表示为:
该匹配点对中第一特征描述子为(x,y,1);第二特征描述子为(X,Y,Z)。
由于匹配点对在二维图像上,所以求解时同时需要进行简单的变换:
然后通过4个匹配点对进行变换矩阵的生成:
最后验证并确定变换矩阵:第一特征描述子A1通过生成的变换矩阵A得到对应点A1’,计算A1’与对应的第二特征描述子B1之间的欧式距离,若在距离范围t(例如t=5)内,则称该点为内点(inliers),否则称为外点(outliers)。通过相同的方法确定出A1~An中的所有内点。当内点的数量占变换矩阵A所在区域第一特征描述子总数量比例达到(即等于或大于)设定的阈值T(例如T=0.9)时,确定该变换矩阵A为该区域的变换矩阵。
依据上述步骤确定所述第一区域图像各区域的变换矩阵,所述第一区域图像的变换矩阵包括所述第一区域图像中各区域对应的变换矩阵。
在一实施例中,所述根据所述变换矩阵及所述待处理图像生成第二区域图像包括:将所述待处理图像使用所述第一区域图像中各区域对应的变换矩阵进行计算,得到与所述第一区域图像中各区域对应的图像,即第二区域图像。
具体地,当两张图像存在平移、旋转等变化的情况下,可以使用变换模型表示图像间的变换关系:
Y=M×X
其中X为待处理图像,M为变换矩阵,Y为第二区域图像。
举例说明如下:第一区域图像包括为T1、T2、T3、T4四个区域,第一区域图像中每个区域对应的变换矩阵Mi为M1、M2、M3、M4。根据变换矩阵M1、M2、M3、M4对待处理图像进行计算,得到待处理图像中与所述第一区域图像T1、T2、T3、T4对应的第二区域图像T1’、T2’、T3’、T4’,即第二区域图像Y。
根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
具体地,将所述第二区域图像(例如T1’、T2’、T3’、T4’),对应所述第一区域图像(例如T1、T2、T3、T4)中各区域的位置按相同的顺序进行拼接,生成输出图像。然后对输处图像与模板图像进行匹配和映射,根据模板图像中所需输出字段的位置确定出所述输出图像中所需输出字段的位置,通过OCR识别技术识别出所述输出图像中所需输出字段位置中的文本内容。
由上述实施例可知,本发明提出的电子装置1,采用SIFT对模板图像和待处理图像进行特征点提取并生成匹配点对,使用预设算法过滤匹配点对,根据过滤后的匹配点对生成变换矩阵,然后采用变换矩阵对待处理图像进行处理得到输出图像,再对输出图像根据模板图像结合位置逻辑的结构化方法得到最终的识别输出,减少了待处理图像的非刚性形变导致全局模板结构化定位的错误,从而减少了图像文档结构化识别错误。
在其他实施例中,图像文档处理程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述图像文档处理程序10在电子装置1中的执行过程。
如图2所示,为图1中的图像文档处理程序10一实施例的程序模块图。
在本发明的一个实施例中,图像文档处理程序10包括特征模块110、匹配模块120、获取计算130及输出模块140,示例性地:
所述特征模块110,用于根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
所述匹配模块120,用于将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
所述计算模块130,用于根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
所述输出模块140,用于根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
上述特征模块110、匹配模块120、获取计算130及输出模块140等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
如图3所示,为本发明图像文档处理方法一实施例的流程图,该图像文档处理方法包括步骤S1-S4。
S1、根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子。
在一实施例中,所述根据预设分类字段在模板图像中的位置生成第一区域图像包括:根据预设的分类字段确定与该预设分类字段对应的待提取字段,将所述模板图像中包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域,依此方法将所述模板图像划分为两个或两个以上区域,所述划分区域后的模板图像视为第一区域图像。
具体地,在模板图像上框选出固定不变的字段作为预设的分类字段(例如姓名、公司、职位等),根据预设的分类字段框选与该预设的分类字段对应的待提取字段(例如“姓名”对应“陈XX”、“公司”对应“XX公司”、“职位”对应“XX经理”等),将包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域。
本实施例中,SIFT特征描述子(x,y,θ)是对特征点附近邻域内高斯图像梯度统计结果的一种表示,它包含了位置,尺度,方向的信息,是一个三维的阵列,通常将它表示成一个矢量。SIFT特征描述子是一种基于尺度空间的,对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子,因此对于局部小区域,即使存在形变也具有良好的表征作用。
S2、将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对。
具体地,通过聚类算法将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的至少4个匹配点对,并使用RANSAC算法过滤所述匹配点对中包括相同的第一、第二特征描述子的匹配点对。举例如下:
第一区域图像中含有多个第一特征描述子A1~An,待处理图像中含有多个第二特征描述子B1~Bn。计算待处理图像和第一区域图像中每两个特征描述子之间的距离(欧式距离),例如,对于第一区域图像中的第一特征描述子A1,分别计算B1~Bn与A1的距离d1~dn,并根据d1~dn数值大小对B1~Bn进行排序,从B1~Bn中选取与A1距离最小的k个第二特征描述子(例如k=2)。之后,对选取的k个第二特征描述子再次进行过滤,筛选出与A1距离比值小于预设距离阈值T(例如T=0.49)的一个第二特征描述子作为A1的匹配点Bt(Bt属于B1~Bn),生成第一区域图像与待处理图像的一个匹配点对(A1,Bt)。依此方法,得到模板图像中其它第一特征描述子A2~An相匹配的第二特征描述子,生成匹配点对。
S3、根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像。
在一实施例中,所述第一区域图像包括两个或两个以上区域,所述根据过滤后的匹配点对生成所述第一区域图像的变换矩阵包括:在所述第一区域图像的一个区域中随机选取第二预设数量(例如4个)过滤后的匹配点对,根据第二预设数量(例如4个)过滤后的匹配点对构建变换矩阵模型;通过所述变换矩阵模型计算所述第一区域图像该区域中所述第一特征描述子中的内点数量,若所述变换矩阵模型计算出的所述内点数量占该区域中所述第一特征描述子总数的比例等于或大于预设阈值,则确定所述变换矩阵模型为所述第一区域图像该区域的变换矩阵;根据上述步骤获得所述第一区域图像各区域的变换矩阵,根据所述第一区域图像各区域的变换矩阵得到所述第一区域图像的变换矩阵。
例如,对所述第一区域图像一个区域内过滤后的匹配点对进行随机采样,选取4个匹配点对建立数据点集,然后构建变换矩阵模型A,建立方程如下:
其中变换矩阵A为:
每个匹配点对可以表示为:
该匹配点对中第一特征描述子为(x,y,1);第二特征描述子为(X,Y,Z)。
由于匹配点对在二维图像上,所以求解时同时需要进行简单的变换:
然后通过4个匹配点对进行变换矩阵的生成:
最后验证并确定变换矩阵:第一特征描述子A1通过生成的变换矩阵A得到对应点A1’,计算A1’与对应的第二特征描述子B1之间的欧式距离,若在距离范围t(例如t=5)内,则称该点为内点(inliers),否则称为外点(outliers)。通过相同的方法确定出A1~An中的所有内点。当内点的数量占变换矩阵A所在区域第一特征描述子总数量比例达到(即等于或大于)设定的阈值T(例如T=0.9)时,确定该变换矩阵A为该区域的变换矩阵。
依据上述步骤确定所述第一区域图像各区域的变换矩阵,所述第一区域图像的变换矩阵包括所述第一区域图像中各区域对应的变换矩阵。
在一实施例中,所述根据所述变换矩阵及所述待处理图像生成第二区域图像包括:将所述待处理图像使用所述第一区域图像中各区域对应的变换矩阵进行计算,得到与所述第一区域图像中各区域对应的图像,即第二区域图像。
具体地,当两张图像存在平移、旋转等变化的情况下,可以使用变换模型表示图像间的变换关系:
Y=M×X
其中X为待处理图像,M为变换矩阵,Y为第二区域图像。
举例说明如下:第一区域图像包括为T1、T2、T3、T4四个区域,第一区域图像中每个区域对应的变换矩阵Mi为M1、M2、M3、M4。根据变换矩阵M1、M2、M3、M4对待处理图像进行计算,得到待处理图像中与所述第一区域图像T1、T2、T3、T4对应的第二区域图像T1’、T2’、T3’、T4’,即第二区域图像Y。
S4、根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
具体地,将所述第二区域图像(例如T1’、T2’、T3’、T4’),对应所述第一区域图像(例如T1、T2、T3、T4)中各区域的位置按相同的顺序进行拼接,生成输出图像。然后对输处图像与模板图像进行匹配和映射,根据模板图像中所需输出字段的位置确定出所述输出图像中所需输出字段的位置,通过OCR识别技术识别出所述输出图像中所需输出字段位置中的文本内容。
由上述实施例可知,本发明提出的图像文档处理方法,采用SIFT对模板图像和待处理图像进行特征点提取并生成匹配点对,使用预设算法过滤匹配点对,根据过滤后的匹配点对生成变换矩阵,然后采用变换矩阵对待处理图像进行处理得到输出图像,再对输出图像根据模板图像结合位置逻辑的结构化方法得到最终的识别输出,减少了待处理图像的非刚性形变导致全局模板结构化定位的错误,从而减少了图像文档结构化识别错误。
此外,本发明实施例还提出一种计算机可读存储介质,计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等中的任意一种或者几种的任意组合。计算机可读存储介质中包括图像文档处理程序10,所述图像文档处理程序10被处理器执行时实现如下操作:
A1、根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
A2、将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
A3、根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
A4、根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
在一实施例中,本发明所提供的图像文档处理方法可应用于智慧政务、智慧教育等领域中,从而推动智慧城市的建设。
在另一实施例中,本发明所提供的图像文档处理方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如模版图像、或最终输出的图像中所需输出字段位置中的文本内容等等,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明之计算机可读存储介质的具体实施方式与上述图像文档处理方法以及电子装置的具体实施方式大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种图像文档处理方法,应用于电子装置,其特征在于,所述方法包括:
根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容;
其中,所述根据预设分类字段在模板图像中的位置生成第一区域图像包括:根据预设的分类字段确定与该预设分类字段对应的待提取字段,将所述模板图像中包含单个预设分类字段的文本框和包含与该预设分类字段对应的待提取字段的文本框划分为一个区域,依此方法将所述模板图像划分为两个或两个以上区域,划分区域后的模板图像视为第一区域图像;
所述第一区域图像包括两个或两个以上区域,所述根据过滤后的匹配点对生成所述第一区域图像的变换矩阵包括:在所述第一区域图像的一个区域中随机选取第二预设数量过滤后的匹配点对,根据第二预设数量过滤后的匹配点对构建变换矩阵模型;通过所述变换矩阵模型计算所述第一区域图像该区域中所述第一特征描述子中的内点数量,若所述变换矩阵模型计算出的所述内点数量占该区域中所述第一特征描述子总数的比例等于或大于预设阈值,则确定所述变换矩阵模型为所述第一区域图像该区域的变换矩阵;根据上述步骤获得所述第一区域图像各区域的变换矩阵,根据所述第一区域图像各区域的变换矩阵得到所述第一区域图像的变换矩阵。
2.如权利要求1所述的图像文档处理方法,其特征在于,所述第一区域图像的变换矩阵包括所述第一区域图像中各区域对应的变换矩阵;所述根据所述变换矩阵及所述待处理图像生成第二区域图像包括:
将所述待处理图像使用所述第一区域图像中各区域对应的变换矩阵进行计算,得到与所述第一区域图像中各区域对应的图像,即第二区域图像。
3.如权利要求1所述的图像文档处理方法,其特征在于,所述第二区域图像包括与所述第一区域图像中各区域对应的图像;所述根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像包括:
将所述第二区域图像中与所述第一区域图像中各区域对应的图像,对应所述第一区域图像中各区域的位置按相同的顺序进行拼接生成输出图像。
4.一种电子装置,用于实现如权利要求1至3任一项所述的图像文档处理方法,其特征在于,该电子装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的图像文档处理程序,所述图像文档处理程序被所述处理器执行时实现如下步骤:
根据预设分类字段在模板图像中的位置生成第一区域图像,从所述第一区域图像中提取SIFT特征点生成所述第一区域图像的第一特征描述子,读取待处理图像并从所述待处理图像中提取SIFT特征点生成所述待处理图像的第二特征描述子;
将所述第一特征描述子与所述第二特征描述子进行匹配,生成所述第一区域图像和所述待处理图像之间的第一预设数量的匹配点对,每个匹配点对包括所述第一区域图像中的一个第一特征描述子和所述待处理图像中相匹配的一个第二特征描述子,使用预设算法过滤掉所述匹配点对中包括相同的第一、第二特征描述子的匹配点对;
根据过滤后的匹配点对生成所述第一区域图像的变换矩阵,根据所述变换矩阵及所述待处理图像生成第二区域图像;
根据所述第一区域图像的属性信息对所述第二区域图像进行处理生成输出图像,将所述输出图像与所述模板图像进行匹配和映射,根据所述模板图像所需输出字段的位置定位出所述输出图像中所需输出字段的位置,并识别出所述输出图像中所需输出字段位置中的文本内容。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像文档处理程序,所述图像文档处理程序可被一个或者多个处理器执行,以实现如权利要求1至3任一项所述的图像文档处理方法。
CN202010434264.3A 2020-05-20 2020-05-20 图像文档处理方法、装置及计算机可读存储介质 Active CN111695441B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010434264.3A CN111695441B (zh) 2020-05-20 2020-05-20 图像文档处理方法、装置及计算机可读存储介质
PCT/CN2020/098973 WO2021151274A1 (zh) 2020-05-20 2020-06-29 图像文档处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434264.3A CN111695441B (zh) 2020-05-20 2020-05-20 图像文档处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111695441A CN111695441A (zh) 2020-09-22
CN111695441B true CN111695441B (zh) 2024-05-10

Family

ID=72478062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434264.3A Active CN111695441B (zh) 2020-05-20 2020-05-20 图像文档处理方法、装置及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN111695441B (zh)
WO (1) WO2021151274A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022088909A1 (zh) * 2020-10-26 2022-05-05 华为技术有限公司 图像档案的处理方法、装置、设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354550A (zh) * 2015-11-03 2016-02-24 华东师范大学 一种基于图像局部特征点配准的表单内容提取方法
CN108416732A (zh) * 2018-02-02 2018-08-17 重庆邮电大学 一种基于图像配准与多分辨率融合的全景图像拼接方法
CN110059711A (zh) * 2019-01-28 2019-07-26 阿里巴巴集团控股有限公司 图像的对齐方法、装置及设备
CN110070490A (zh) * 2019-05-05 2019-07-30 京东方科技集团股份有限公司 图像拼接方法和装置
CN110097051A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
CN110738203A (zh) * 2019-09-06 2020-01-31 中国平安财产保险股份有限公司 字段结构化输出方法、装置及计算机可读存储介质
CN111080529A (zh) * 2019-12-23 2020-04-28 大连理工大学 一种加强鲁棒性的无人机航拍图像拼接方法
CN111144210A (zh) * 2019-11-26 2020-05-12 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5125573B2 (ja) * 2008-02-12 2013-01-23 富士通株式会社 領域抽出プログラム、文字認識プログラム、および文字認識装置
CN110147774B (zh) * 2019-05-23 2021-06-15 阳光保险集团股份有限公司 表格式图片版面分析方法和计算机存储介质
CN110210400B (zh) * 2019-06-03 2020-11-17 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354550A (zh) * 2015-11-03 2016-02-24 华东师范大学 一种基于图像局部特征点配准的表单内容提取方法
CN108416732A (zh) * 2018-02-02 2018-08-17 重庆邮电大学 一种基于图像配准与多分辨率融合的全景图像拼接方法
CN110059711A (zh) * 2019-01-28 2019-07-26 阿里巴巴集团控股有限公司 图像的对齐方法、装置及设备
CN110097051A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
CN110070490A (zh) * 2019-05-05 2019-07-30 京东方科技集团股份有限公司 图像拼接方法和装置
CN110738203A (zh) * 2019-09-06 2020-01-31 中国平安财产保险股份有限公司 字段结构化输出方法、装置及计算机可读存储介质
CN111144210A (zh) * 2019-11-26 2020-05-12 泰康保险集团股份有限公司 图像的结构化处理方法及装置、存储介质及电子设备
CN111080529A (zh) * 2019-12-23 2020-04-28 大连理工大学 一种加强鲁棒性的无人机航拍图像拼接方法

Also Published As

Publication number Publication date
CN111695441A (zh) 2020-09-22
WO2021151274A1 (zh) 2021-08-05

Similar Documents

Publication Publication Date Title
WO2019080411A1 (zh) 电子装置、人脸图像聚类搜索方法和计算机可读存储介质
CN111259846B (zh) 文本定位方法和系统以及文本定位模型训练方法和系统
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN111595850A (zh) 切片缺陷检测方法、电子装置及可读存储介质
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN112380978B (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
CN111914775A (zh) 活体检测方法、装置、电子设备及存储介质
CN111373393A (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN111695441B (zh) 图像文档处理方法、装置及计算机可读存储介质
CN110633733A (zh) 图像智能匹配方法、装置及计算机可读存储介质
WO2021179751A1 (zh) 图像处理方法和系统
CN112396060B (zh) 基于身份证分割模型的身份证识别方法及其相关设备
CN112396048A (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN112418206A (zh) 基于位置检测模型的图片分类方法及其相关设备
CN113850260B (zh) 关键信息抽取方法、装置、电子设备及可读存储介质
CN114220103B (zh) 图像识别方法、装置、设备及计算机可读存储介质
CN115661472A (zh) 图像查重方法、装置、计算机设备及存储介质
CN113064984B (zh) 意图识别方法、装置、电子设备及可读存储介质
CN113850208A (zh) 一种图片信息结构化方法、装置、设备及介质
CN111325194B (zh) 一种文字识别方法、装置及设备、存储介质
CN112287763A (zh) 图像处理方法、装置、设备及介质
CN112395450A (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN113761169A (zh) 一种价格识别方法和装置
CN112036501A (zh) 基于卷积神经网络的图片的相似度检测方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant