CN111126125B - 证件中的目标文本提取方法、装置、设备及可读存储介质 - Google Patents

证件中的目标文本提取方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111126125B
CN111126125B CN201910979567.0A CN201910979567A CN111126125B CN 111126125 B CN111126125 B CN 111126125B CN 201910979567 A CN201910979567 A CN 201910979567A CN 111126125 B CN111126125 B CN 111126125B
Authority
CN
China
Prior art keywords
text
image
perspective transformation
anchor point
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910979567.0A
Other languages
English (en)
Other versions
CN111126125A (zh
Inventor
黄文韬
刘鹏
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910979567.0A priority Critical patent/CN111126125B/zh
Priority to PCT/CN2019/118469 priority patent/WO2021072879A1/zh
Publication of CN111126125A publication Critical patent/CN111126125A/zh
Application granted granted Critical
Publication of CN111126125B publication Critical patent/CN111126125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请实施例提供了一种证件中的目标文本提取方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于文本识别技术领域,通过获取同一种证件类型的模板图像和检测图像,模板图像上标注有文字锚点和目标框位置,文字锚点包括第一锚点文本;通过第一预设方式获取模板图像上的锚点位置与检测图像上的锚点位置之间的特征点匹配关系;根据特征点匹配关系,通过变换矩阵进行求解以得到透视变换算子;将检测图像通过透视变换算子进行透视变换以得到透视变换图像;通过透视变换算子获取目标框位置在透视变换图像上的投影位置;通过文本识别模型对投影位置的文本进行文本识别,以得到检测图像的目标文本,能提高文本识别的准确性和效率。

Description

证件中的目标文本提取方法、装置、设备及可读存储介质
技术领域
本申请涉及文本识别技术领域,尤其涉及一种证件中的目标文本提取方法、装置、计算机设备及计算机可读存储介质。
背景技术
近几年来,随着理论基础与硬件性能的不断发展,人工智能技术在理论和实践上都取得了不错的成果。基于神经网络的深度学习技术被应用于了各个领域,比如,用于语音识别、物体识别、物体检测、文本检测及自然语言处理等各个应用场景,都可以见到深度学习技术所带来的巨大影响和推进作用。与此同时,一些传统技术也经常作为深度学习应用中的辅助技术对应用场景进行优化和拓展,文本识别技术在深度学习技术成熟之后取得了长足进步,既可以对图像中的文本位置进行定位,同时也可以对定位到的文本进行识别。
不过对于大多数用于文本识别的深度学习模型来说,其应用中也存在一些不足之处。很多用于文本识别的深度学习模型对标准正面图像的识别效果很好,但是对于一些相对于标准正面图像为处于视角旋转和变换状态的图像适应性较差,不能很好识别。然而,日常生活中取得的图片大多数都不是标准的正面图像,存在不同程度的视角变换,如果要对这些图像实现一个比较好的识别效果,就得通过一些筛选、裁剪和旋转变换等手段才行,传统技术中,对图像进行筛选、裁剪和旋转变换等手段通常都是通过人工进行预处理来完成。尤其是,对于用户来说,有时需要对大批量的图像数据进行文本提取,比如在一堆驾驶证中提取所有者的姓名、生日等信息,这时如果想要进行自动化的批量提取,仅仅通过传统技术中的文本识别,很难实现。因为即使通过人工实现了用户指定识别区域,但是每张图片都会多少存在位置上的差异,并且每张图片上的目标字段的位置都会多少存在不同,单是通过文本识别目前还是很难消除这种位置上的差异带来的影响。而如果通过人工来预先对数据进行处理以消除位置上的差异,一是操作困难,二是消耗过大,导致对图片进行识别的效率较低。
发明内容
本申请实施例提供了一种证件中的目标文本提取方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中通过文本识别模型对证件中的目标文本进行提取时效率较低的问题。
第一方面,本申请实施例提供了一种证件中的目标文本提取方法,所述方法包括:获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
第二方面,本申请实施例还提供了一种证件中的目标文本提取装置,包括:第一获取单元,用于获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;第二获取单元,用于根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;求解单元,用于根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;变换单元,用于将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;投影单元,用于通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;识别单元,用于通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述证件中的目标文本提取方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述证件中的目标文本提取方法。
本申请实施例提供了一种证件中的目标文本提取方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现证件中的目标文本提取时,通过获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,所述文字锚点包括第一锚点文本;根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系;根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;通过所述文本识别模型对所述透视变换图像上投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本,从而通过将传统计算机视觉技术中的透视变换和特征点匹配两项技术与全文识别结合,实现将输入图像转换为模板图像相同视角之后进行对指定区域的文本识别和提取,既避免了对每种证件的不同提取需求完全自定义逻辑所带来的人力和时间消耗,大大减少了成本消耗,另一方面也避免了太过通用的逻辑带来的提取不够精确地问题,能提高文本识别的准确性和效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的证件中的目标文本提取方法的应用场景示意图;
图2为本申请实施例提供的证件中的目标文本提取方法的一个流程示意图;
图3为本申请示实施例提供的证件中的目标文本提取方法的技术特征关系示意图;
图4为本申请实施例提供的证件中的目标文本提取方法中特征点提取和特征点匹配的流程示意图;
图5(a)和图5(b)为本申请实施例提供的透视变换原理示意图;
图6为本申请实施例提供的通过透视变换矫正图像流程示意图;
图7为本申请实施例提供的证件中的目标文本提取方法的另一个实施例的流程示意图;
图8为图7所示实施例提供的证件中的目标文本提取方法中技术特征关系简化的流程示意图;
图9为本申请实施例提供的证件中的目标文本提取方法中透视变换算子的示意图;
图10(a)至图10(i)为本申请实施例提供的证件中的目标文本提取方法中一个实施例的图形变换示意图;
图11(a)至图11(i)为本申请实施例提供的证件中的目标文本提取方法中另一个实施例的图形变换示意图;
图12为本申请实施例提供的证件中的目标文本提取装置的一个示意性框图;
以及
图13为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的证件中的目标文本提取方法的应用场景示意图。所述应用场景包括:
(1)用户。用户通过输入设备或者计算机设备的输入组件在模板图像上标注文字锚点和目标框位置。
(2)终端。终端用于执行证件中的目标文本提取方法的步骤。所述终端可以为智能手机、智能手表、笔记本电脑、平板电脑或者台式电脑等计算机设备。进一步地,用于执行证件中的目标文本提取方法的步骤的计算机设备除了是终端外,也可以是服务器,服务器获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,并执行证件中的目标文本提取方法的步骤,服务器可以为单台服务器或者分布式的服务器集群,也可以为云服务器。
图1中的各个主体工作过程如下:用户在模板图像上标注文字锚点和目标框位置,并将模板图像进行存储或者上传至系统以供终端获取,终端获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系;根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
需要说明的是,图1中仅仅示意出台式电脑作为终端,在实际操作过程中,终端的类型不限于图1中所示,上述证件中的目标文本提取方法的应用场景仅仅用于说明本申请技术方案,并不用于限定本申请技术方案。
图2为本申请实施例提供的证件中的目标文本提取方法的示意性流程图。该证件中的目标文本提取方法应用于图1中的终端中,以完成证件中的目标文本提取方法的全部或者部分功能。
请参阅图2,图2是本申请实施例提供的证件中的目标文本提取方法的流程示意图。如图2所示,该方法包括以下步骤S201-S206:
S201、获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置。
其中,文字锚点是指由用户在模板图像上定义的固定字段,固定字段是指在同类证件的不同样本中不会发生变化的字段,比如身份证上的“姓名”或者“公民身份证号”等固定字段。由于模板图像上的固定字段是由该固定字段的位置和该固定字段的内容限定的,以该固定字段的位置为锚点位置,以该固定字段的内容为锚点文本,所以文字锚点包含锚点位置和锚点文本。更具体地,固定字段在模板图像上的位置,也即固定字段在模板图像上所覆盖的区域称为锚点位置,所述固定字段的内容,也即该固定字段描述的具体含义,比如身份证图像上的“姓名”字段描述的“姓名”或者“公民身份证号”字段描述的“公民身份证号”等,称为文字锚点的锚点文本。
目标框位置是指由用户在模板图像上定义的证件上需要提取的文本内容覆盖的区域所在的位置,比如身份证上的“姓名”字段所处的位置是锚点,姓名的具体赋值,比如“张三”在模板图像上的位置就是目标框位置。目标框的位置是用户根据需要提取的文字覆盖的区域范围来确定的。
模板图像为证件的证件模板图像,检测图像为证件的证件检测图像。
具体地,由于获得的检测图像往往不是和模板图像视角相符的标准正面图像,因此在应用深度学习模型对检测图像进行识别以提取图像的文字内容之前,需要对待识别的检测图像进行图像角度矫正的调整,使图像旋转到合适的角度以提高深度学习模型对检测图像内容的识别效果。为了达到对检测图像的角度矫正的目的,一般先对检测图像进行特征点的提取和匹配,根据特征点之间的匹配关系应用透视变换对图像进行三维空间旋转。在传统技术中,一般会直接对整张图像进行特征点的提取和匹配,但是由于整张图像中有可能存在很多相似特征的特征点,比如方格的顶角及图片的背景底纹等,这样的相似特征点对整张图像特征点的匹配很容易造成干扰,因此,传统技术中对特征点的提取和匹配存在不准确的问题。
如果能够先对证件图像中固定不变的字段所在的局部区域进行提取,再对这些局部区域进行匹配,能够大大减少上述相似特征点对特征点的提取和匹配的干扰,从而对特征点的提取和匹配实现精确处理。由于对于同种类型的证件来说,通常会有很多位置和内容不会发生变化的固定字段,所以本申请实施例通过用户预先在模板图像上框选出固定字段,也即本申请实施例中模板图像上标注的文字锚点,通过文本识别的方式识别出框选区域固定的文字内容或者由用户输入固定字段的内容,然后在输入的检测图像中找出与模板图像上所选的固定文字内容相同的文字区域,再将检测图像上找出的文字区域与模板图像上对应的框选区域进行特征点的提取和匹配,这时候因为只对图像上的部分区域进行匹配,能够有效减少整张图像中错误的相似区域所带来的影响,从而提高模板图像和检测图像中局部区域的提取和匹配的质量和效率,例如,请参阅图3,图3为本申请示实施例提供的证件中的目标文本提取方法的技术特征关系示意图,如图3所示,其中,A、C及F是证件中相同的固定字段,A1、C1及F1分别是证件中相同的固定字段A、C及F的锚点位置,A2、C2及F2是证件中相同的固定字段A、C及F的锚点文本,通过A2、C2及F2得出A1、C1及F1之间的对应关系,针对A1、C1及F1所在的区域进行特征点的提取和匹配,由于只对图像上A1、C1及F1所在的区域进行特征点的提取和匹配,能够有效减少整张图像中错误的相似区域所带来的影响,从而提高模板图像和检测图像中局部区域的提取和匹配的质量和效率。
由于证件具有固定格式的特性,证件中的各个字段的位置一般都是固定的,本申请实施例正是采用证件中的各个字段位置是固定的特性,通过固定字段的内容作为中间媒介,进而获得将检测图像进行旋转的透视变换算子,以后续将图像进行透视变换,因此,首先需要获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上有通过自定义进行标注的文字锚点和目标框位置,其中文字锚点包括第一文字锚点位置和第一锚点文本。
进一步地,本申请实施例中允许用户对证件进行自定义模板图像以对证件图像中的指定目标进行文本识别。对于模板图像上锚点和目标框位置的设置可以由研发人员或者用户进行自定义。其中,锚点文本可以通过人工输入的方式直接获取,比如身份证上的“姓名”、“出生日期”及“发证机关”等固定字段的文本内容可以根据证件上的固定字段内容直接获得,锚点位置和目标框位置的获取方式可以通过Opencv中Event鼠标事件获取鼠标指针的位置等自定义程序得到模板图像上由人工使用鼠标绘制的锚点位置及目标框位置,比如,身份证上的“姓名”及“出生日期”等固定字段的位置可以通过Opencv中Event鼠标事件获取鼠标指针的位置以得到身份证图像上由人工使用鼠标绘制的锚点位置坐标及目标框位置的坐标。所述位置可以通过矩形的左上角和右下角坐标来描述,然后在编程语言中进行定义该锚点及目标框位置。
进一步地,对于用户正在编辑的模板图像,如果系统中有相关记录并有相应储存数据,则可以直接从后台储存中获取模板图像数据。如果没有相关记录,则需要在用户完成标记流程之后将图片与标记的信息一起上传,然后计算机设备获取模板图像,所述模板图像上由用户设置(定义)有锚点位置和目标框位置。
S202、根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置。
其中,文本识别模型,又称为文字识别模型,英文为Textrecognition,是指利用计算机自动识别字符的模型,例如OCR文字识别,英文为Optical Character Recognition。
具体地,根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置,例如,模板图像上的锚点位置为所述第一锚点文本在模板图像上的位置,检测图像上的锚点位置为所述第一锚点文本在检测图像上的位置,可以包括以下两种情形:
1)计算机设备获取属于同一证件类型的模板图像和检测图像后,由于模板图像上标注有第一锚点文本,可以进一步通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本,并基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置,再基于预设的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合,根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系,后续根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的透视变换算子,将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像,通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置。请继续参阅图3,如图3所示,锚点文本A2及C2是相同的字段,根据锚点文本A2及C2之间的相同关系,获得A1锚点位置及C1锚点位置的对应关系,并根据特征点提取算法提取A1锚点位置及C1锚点位置各自的特征点,通过特征点匹配算法得到A1及C1之间的特征点匹配关系,再根据A1及C1的特征点匹配关系,得到将检测图像旋转为标准正面图像的透视变换算子,将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像,通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置,通过文本识别模型对检测图像上投影位置所在的区域进行文本识别,提取到目标文本。
2)在上述情形中,在根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系的过程中,由于特征点匹配过程中有可能存在一定误差,从而导致求出的第一透视变换算子不一定完全标准,所以通过所述第一透视变换算子将检测图像进行变换后的图像(即第一透视变换图像)可能依然与模板图像存在一定的视角偏差,所以在将检测图像通过所述第一透视变换算子进行透视变换后,可以不将目标框位置完全不变地直接映射到变换后的第一透视变换图像上,而是进一步找到一个模板图像与变换后的第一透视变换图像之间的第二透视变换算子,通过再进一步得到的第二透视变换算子将目标框通过透视变换投影到变换后的第二透视变换图像上,也即计算机设备获取属于同一证件类型的模板图像和检测图像后,根据上述过程获得第一特征点匹配关系后,根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子,将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像,将所述第一透视变换图像输入所述文本识别模型,通过所述第一锚点文本获取所述第一透视变换图像上与所述第一锚点位置相对应的第三锚点位置,基于所述特征点提取算法提取所述第三锚点位置包含的第三特征点集合,根据所述第一特征点集合和所述第三特征点集合,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系,后续根据所述第二特征点匹配关系,通过所述变换矩阵进行求解以计算出将所述第一透视变换图像进行透视变换的第二透视变换算子,将所述第一透视变换图像通过所述第二透视变换算子进行透视变换以得到第二透视变换图像,通过所述第二透视变换算子计算出所述目标框位置在所述第二透视变换图像上的投影位置。请继续参阅图3,如图3所示,根据锚点文本A2、C2及F2之间的相同关系,获得A1锚点位置、C1锚点位置及F1锚点位置的对应关系,根据A1及C1的特征点匹配关系,得到将检测图像旋转为标准正面图像的第一透视变换算子,将所述检测图形通过所述第一透视变换算子转换为与所述模板图像视角相符的第一透视变换图像,再由A1及F1的特征点匹配关系得到模板图像与检测图像E之间的透视变换的第二透视变换算子,将目标位置B1通过所述第二透视变换算子投影到检测图像E上,获得检测图像上进行目标文本识别的位置(文本区域)H1,通过文本识别模型对检测图像上H1的区域进行文本识别,提取到目标文本H2。
进一步地,请参阅图4,图4为本申请实施例提供的证件中的目标文本提取方法中特征点提取和特征点匹配的流程示意图。如图4所示,对模板图像和检测图像进行特征点提取和匹配,在透视变换中需要找到变换前图像和变换后图像对应的点,从而来计算用于透视变换的矩阵作为变换算子。而要找到这样的对应关系,在本申请实施例中通过特征点提取算法和特征点匹配算法以使用算法的统一标准进行自动匹配。在本申请实施例中,需要对模板图像和检测图像中相对应的锚点通过特征点提取算法进行特征点的提取,然后再通过特征点匹配算法将特征点进行匹配,从而根据特征点的匹配关系计算出透视变换的算子。
其中,特征点提取算法会对图像的每一个点与其周围点进行比较,按算法包含的标准计算出每个点的特征值,此处的标准是指计算该特征点值的方法,比如,可以采用SIFT算法(尺度不变特征转换,英文为Scale-invariant feature transform,简称为SIFT),或者采用SURF算法(全称是Speeded-Up RobustFeatures),如果这个点在其所在区域内是最大或者最小值,则可以认为这是一个特征点。然后通过对每个特征点赋予一个高维方向参数反映其在不同方向上的梯度信息,作为这个点的特征参数或叫特征向量,也就是从不同角度使用不同参数来描述该特征点。需要说明的是,后续特征点是否匹配,不是特征点在各自图像上位置的匹配,而是匹配的特征点在各自图像中的局部区域上具有相似的性质,或者称为具有相似属性,在图形进行透视变换后可以重合的对应的点。请继续参阅图3,假如图3中A锚点存在特征点Am,F锚点存在特征点Fn,m和n为整数,特征点Am和Fn属于匹配的特征点,不是因为特征点Am和Fn在各自图像中的位置相同,比如均为图形所在矩形的对应顶点,而是Am和Fn采用统一标准计算出的特征值,比如均采用SIFT算法或者采用SURF算法计算出的特征值,经特征向量余弦相似度或者计算两个特征向量的距离计算之后满足匹配关系要求的点。
特征点提取后,通过特征点匹配算法统计特征点之间的匹配关系,例如可以通过两个特征点之间的特征向量余弦相似度或者计算两个特征向量的距离来判断特征点是否匹配,所谓特征点是否匹配就是特征点是否是对应的特征点。在描述相匹配的特征点时,不是指特征点在各自图像中的位置存在位置关系上的对应,而是指特征点在各自图中具有相似或者相同的属性,例如两张图像上相对应的图形中,像素级别的对应位置的点,或者像“一”这个字的两个端点,又比如“Y”这个字符的三个端点等。将特征点进行匹配后,然后再通过匹配关系计算出用于透视变换的透视变换算子。
进一步地,在进行特征点匹配时,匹配的特征点是周围变化情况相似的点,例如可以计算模板图像和检测图像两张图像上点与点之间的特征向量的余弦相似度并按照余弦相似度对点进行排序,假设模板图像上存在特征点A,及与检测图像上的特征点计算相似度之后,得到检测图像上余弦相似度最大的点为A1,余弦相似度第二大的点为A2,若出现A与A1的特征向量的相似度为0.98,A与A2的相似度为0.97,这样比较相近的情形,判断特征点A在该检测图像上没有匹配的特征点,则A不参与后续透视变换算子的计算,若出现A与A1相似度为0.98,A与A2相似度为0.68,判断A与A1为匹配的特征点,从而将A与A1纳入后续透视变换算子的计算,即在这个过程中需要设定一个阈值,如果对于正在判断的特征点,计算其第一相似点和第二相似点的相似度之差,当这个差不小于预设阈值时,判断找到了与该特征点唯一匹配的特征点,将两个点都纳入后续计算,反之如果这个差小于预设阈值,则认为该特征点找不到唯一匹配点,则不纳入后续计算。
S203、根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子。
具体地,根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子,是要找出输入的检测图像和给定的模板图像上对应的点的位置,且找到至少四对匹配的特征点,就可以计算出将检测图像变换为与模板图像视角相符进行旋转所需要的透视变换的变换算子。
进一步地,可以结合全文识别计算透视变换算子,透视变换算子计算过程如下:ax=b,a及b为已知的特征点的坐标,x为算子,其中,x为一个矩阵,包括9个值。
S204、将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像。
具体地,由于很多用于文本识别的深度学习模型对标准正面图像的识别效果很好,如果能对检测图像按照模板图像自动矫正为与模板图像相同视角的同一正面标准图像,用户只需要在模板上标记需要提取文本的区域,就可以将其他图像中的相同区域进行批量提取,而如果能实现将检测图像进行视角的自动变换,可以大大减少人力消耗,也能提高文本识别的准确性。在本申请实施例中,计算机设备根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子,再应用透视变换技术将检测图像通过所述透视变换算子进行透视变换为与模板图像视角相符的标准正面图像。将检测图像通过透视变换算子在三维空间进行平移和旋转,也即将坐标在三维空间进行移动,然后通过拍照获取二维平面上的投影。透视变换的过程可以为通过透视变换算子将三维空间上图像上的一个一个坐标逐个转换为二维平面上的坐标,以获得检测图像的标准正面图像,其中,透视变换是一种将二维图片在三维空间进行旋转后再投影到二维平面形成二维图形的方法,透视变换更直观的叫法可以叫做“空间变换”或者“三维坐标变换。
进一步地,请参阅图5(a)和图5(b),图5(a)和图5(b)为本申请实施例提供的透视变换原理示意图。首先将二维图像中的所有点(x,y)在三维空间中的第三个维度的值看作一个固定值,比如z=1,可以把所有的二维点转换为三维空间的点(x,y,1),然后通过将每个点与一个3x3的变换矩阵相乘得到旋转后的点(X,Y,Z),3x3矩阵可以描述图像在三维空间的刚体变换,也正是本申请实施例中所需的变换方式,而少于3x3的矩阵是无法描述这种关系的。在对图像进行一个在三维空间上的旋转之后,通过对每个点都除以z坐标的值,就可将所有点转换为(X/Z,Y/Z,1)从而将三维图像的点再次投影回z=1的二维平面得到点(x’,y’),其中x’=X/Z,y’=Y/Z。3x3矩阵中的参数单个没有具体的含义,九个参数合起来表示透视变换的算子,3x3的变换矩阵有九个值,但是由于最后只需要变换后的三维图像在二维平面的投影,所以可以将9个值中的任意一个设置为1,所以在求解变换算子的时候就只有8个未知数,于是要求解就需要找到四组特征点作为映射点,四组映射点也即四组匹配关系,四组匹配关系就刚好确定了一个透视变换关系。由于3x3矩阵中包含9个未知数,可以设置其中任意一个未知数为1,还需要获得8个未知数的值作为透视变换的算子,所以至少需要四组特征点对应的四个匹配关系才能获得8个未知数。虽然至少需要四组匹配关系,但一般情况下会有几十上百个特征点,针对提取出的多个特征点求误差函数的极限从而确定误差最小的算子。
通过这样一种变换之后,即可完成图像在三维空间中的旋转和将三维图像投影回二维空间的过程,从而对图像进行不同视角的变换,将一些非标准视角的图像变换为与模板图像相匹配的标准视角图像以在文本识别中提取指定位置的文本。请参阅图6,图6为本申请实施例提供的通过透视变换矫正图像流程示意图。如图6所示,为了实现这种变换,就如图5所示那样,需要一个3x3的变换矩阵与(x,y,1)相乘,而要找到这样一个矩阵,需要找到至少四个被转换的检测图像与模板图像上对应的特征点。
S205、通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置。
具体地,计算机设备根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子,再将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像,就可以通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置,例如,请继续参阅图3,通过透视变换算子获取所述目标框位置B1在所述透视变换图像上的投影位置H1。
S206、通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
其中,文本识别是对文字的识别,文字识别就是一个多分类任务。进行文本识别一般是通过文本识别模型进行,本申请实施例可以通用于不同的文本识别模型,只需要该文本识别模型具备对整张图片进行文本识别和检测文本位置的能力即可,本申请实施例中的文本识别模型,实质上是两个模型的组合模型,一个是先进行检测文本位置的位置检测模型,另一个是后进行文字识别的文字识别模型。
具体地,计算机设备通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置,通过所述文本识别模型对投影到变换后的图像上的目标框所标识出的区域进行框内文本的识别和提取,以得到所述检测图像的目标文本,从而实现通过将传统计算机视觉技术中的透视变换和特征点匹配两项技术与全文识别结合,实现将输入图像转换为与模板图像相同视角之后进行对指定区域的文本识别和提取。例如,请继续参阅图3,在本申请实施例中,是要获取模板图像的锚点位置A1、锚点文本A2及目标框位置B1,现在是要精确提取目标框位置B1在检测图像上对应区域的文本内容,本申请实施例中,由于锚点文本A2、C2及F2是相同的字段,文本识别的过程主要包括:
1)根据锚点文本A2、C2及F2之间的相同关系,获得A1锚点位置、C1锚点位置及F1锚点位置的对应关系;根据A1及C1的特征点匹配关系,得到将检测图像旋转为标准正面图像的算子D;将检测图像旋转为与模板图像符合的标准正面图像E;
2)由A1及F1的特征点匹配关系得到模板图像与检测图像E之间的透视变换的算子G;将目标位置B1透过G投影到检测图像E上,获得检测图像上进行目标文本识别的位置(文本区域)H1;通过文本识别模型对检测图像上H1的区域进行文本识别,提取到目标文本H2。
本申请实施例提供了一种证件中的目标文本提取方法,本申请实施例实现证件中的目标文本提取时,通过获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,所述文字锚点包括第一锚点文本;根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系;根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;通过所述文本识别模型对所述透视变换图像上投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本,从而通过将传统计算机视觉技术中的透视变换和特征点匹配两项技术与全文识别结合,实现将输入图像转换为模板图像相同视角之后进行对指定区域的文本识别和提取,既避免了对每种证件的不同提取需求完全自定义逻辑所带来的人力和时间消耗,大大减少了成本消耗,另一方面也避免了太过通用的逻辑带来的提取不够精确地问题,能提高文本识别的准确性和效率。
请参阅图7,图7为本申请实施例提供的证件中的目标文本提取方法的另一个实施例的流程示意图,包括以下过程:
S701、获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点包括第一锚点文本和第一锚点位置。
具体地,在该实施例中,所述文字锚点还包括第一锚点位置,只需要用户预先设置文字锚点包含的第一锚点文本、第一锚点位置及目标框位置即可,计算机设备获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,例如请参阅图3和图8,图8为图7所示实施例提供的证件中的目标文本提取方法中技术特征关系简化的流程示意图,如图3和图8所示,在本申请实施例中是要获取模板图像的锚点位置A1、锚点文本A2及目标框位置B1,以通过A1和A2实现精确提取目标框位置B1在检测图像上对应区域的文本内容。
在该实施例中,所述根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系的步骤包括:
S702、通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本。
具体地,需要首先通过文本识别模型提取所述检测图像上与模板图像上的所述第一锚点文本一致的第二锚点文本,例如请继续参阅图3和图8,如图3和图8所示,在本申请实施例中是要获取与模板图像的锚点文本A2相同的检测图像上的锚点文本C2,以通过A2和C2得到A1和C1的对应关系。
S703、基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置。
具体地,基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置,请继续参阅图3和图8,获取检测图像,将想要检测的图像输入文本识别模型,要找出与模板图像中定义的锚点文本所在的区域A1对应相匹配的字段区域C1,需要通过所述文本识别模型先在检测图像上找出与A2字段一致的字段C2,通过C2获取C2所在的字段区域C1,也就找出了与锚点位置A1相匹配的字段区域C1,比如,身份证的模板图像与身份证的检测图像中的“姓名”字段所在的区域A1和C1。
S704、基于预设的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合;
S705、根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系。
具体地,根据步骤S202中的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合,根据所述第一特征点集合和所述第二特征点集合,再基于步骤S202中的特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系。例如,请继续参阅图3和图8,基于预设的特征点提取算法提取所述第一锚点位置A1包含的第一特征点集合和所述第二锚点位置C1包含的第二特征点集合,根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系。
在该实施例中,所述根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子的步骤包括:
S706、根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子。
具体地,请继续参阅图3和图8,提取A1和C1的特征点,根据A1和C1的特征点组成的特征点匹配关系计算出透视变换的第一算子D。
所述将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像的步骤包括:
S707、将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像。
具体地,请继续参阅图3和图8,通过所述第一透视变换算子D将检测图像变换为与模板图像视角相符的标准正面图像E,并通过所述第一透视变换算子D获取所述目标框B1位置在所述第一透视变换图像上的投影位置,通过所述文本识别模型对投影到变换后的第一透视图像上的目标框所标识出的区域进行框内文本的识别和提取,以得到所述检测图像的目标文本。
由于根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系的过程中,特征点匹配过程中是有可能存在一定误差的,从而导致求出的第一透视变换算子不一定完全标准,所以变换后的第一透视变换图像可能依然与模板图像存在一定的视角变差,所以进一步地,接下来不是将目标框位置完全不变地直接映射到变换后的第一透视变换图像上,而是找到一个模板图像与变换后的第一透视变换图像之间的第二透视变换算子将目标框通过所述第二透视变换算子通过透视变换投影到变换后的第二透视变换图像上,请继续参阅图3、图7和图8,在该实施例中,所述将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像的步骤之后,还包括:
S708、将所述第一透视变换图像输入所述文本识别模型,通过所述第一锚点文本获取所述第一透视变换图像上与所述第一锚点位置相对应的第三锚点位置;
S709、基于所述特征点提取算法提取所述第三锚点位置包含的第三特征点集合;
S710、根据所述第一特征点集合和所述第三特征点集合,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系;
S711、根据所述第二特征点匹配关系,通过所述变换矩阵进行求解以计算出将所述第一透视变换图像进行透视变换的第二透视变换算子;
S712、将所述第一透视变换图像通过所述第二透视变换算子进行透视变换以得到第二透视变换图像。
具体地,步骤S708至步骤S712与步骤S703至步骤S707类似,请继续参阅图3和图8,将变换后的所述第一透视变换图像对应的标准正面图像E输入文本识别模型,找出与模板图像锚点文本A2所在的区域A1相匹配的文本区域F1,基于所述特征点提取算法提取所述第三锚点位置F1包含的第三特征点集合,根据A1和F1各自对应的特征点集合,将A1和F1进行特征点提取和匹配,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系,通过所述第二特征点匹配关系计算出透视变换的第二透视变换算子G,将所述第一透视变换图像通过所述第二透视变换算子G进行透视变换以得到第二透视变换图像,从而使所述第二透视变换图像与模板图像的视角尽可能一致,并通过所述第二透视变换算子G最终得到所述目标框B1在所述第二透视变换图像上的投影H1。
所述通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置的步骤包括:
S713、通过所述第二透视变换算子计算出所述目标框位置在所述第二透视变换图像上的投影位置;
所述通过所述文本识别模型对所述透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本的步骤包括:
S714、将所述第二透视变换图像输入所述文本识别模型,通过所述文本识别模型对所述第二透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
具体地,通过所述第二透视变换算子G计算出目标框B1在变换后的所述第二透视变换图像上的投影H1,是先通过第一透视变换算子计算出目标框B1在变换后的所述第一透视变换图像上的投影H1',再对投影H1'使用第二透视变换算子进行透视变换以得到目标框B1在所述第二透视变换图像上的投影H1,对所述第二透视变换图像上所标识出的区域H1内的文本通过文本识别模型进行框内文本的识别和提取,以得到所述检测图像的目标文本H2。
在一个实施例中,所述根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子的步骤包括:
利用每四对特征点之间的匹配关系通过所述变换矩阵进行求解以得到一个透视变换算子;
根据所述第一特征点集合和所述第二特征点集合中的所有匹配特征点中每四对特征点之间的组合,重复上述通过每四对特征点获得一个透视变换算子的过程,得到多个透视变换算子,并将所述多个透视变换算子组成集合作为透视变换算子集合;
根据预先构建的透视变换算子的误差函数,通过求极限的方式得到所述误差函数中最小值对应的所述透视变换算子集合中的透视变换算子作为所述第一透视变换算子。
具体地,对于变换算子的计算,首先当矩阵的九个值同乘或者同除以一个数后得到了矩阵,其应用于图像时所产生的变换效果是一样的,所以可以预先设九个值中的其中一个为1,然后再根据匹配关系去解另外八个值。进行上述步骤时,当有且仅有四对匹配关系时,可以求出该矩阵的唯一解;当匹配关系小于四对时,会有无穷解,进而无法得到唯一变换关系;而通常情况下,匹配关系会远远大于四个,这时候是方程组通常是没有解的。在匹配点大于四个的情况下,则需要通过求极限找到一个令变换后总误差最小的解。
求取极限通常是构建关于变换算子的误差函数,根据该误差函数的变化趋势去找到最小值的位置,比如,若要求x^2(x的平方)这个算式有最小值时的x的值,首先构建函数f(x)=x^2这个函数,要找到一个x,让f(x)有最小值,用图像描述的话,可以画出函数图像,然后发现在x=0的位置是图像的最低点。用语言描述的话f(x)得知在x属于(-∞,0]的时候递减,在[0,+∞)递增,所以在0的时候最小。与求x^2(x的平方)这个算式有最小值时的x的值同理,通过求极限找到一个令变换后总误差最小的算子,求极限的时候就是构建一个误差函数f(D),D代表变换算子,是一个未知变量,f(D)代表总误差的计算公式,是一个关于D的函数。要做的就是找到能使f(D)取得最小值的D的值,比如,若f(D6)能使f(D)取得最小值,算子D6就是筛选出的较准确的算子。更进一步地,f(D)的构建过程如下:
对于任一算子D,其总误差用函数描述的过程如下,比如,有两个匹配的特征点A1和A11,A11称为A1的特征点,通过算子D计算出与A1对应的点为A12,A12称为A1的对应点,A1*算子D=A12,计算A11和A12的距离d1,A11和A12的距离d1越小,请参阅图9,图9为本申请实施例提供的证件中的目标文本提取方法中透视变换算子的示意图,如图9所示,表明算子D的误差越小,假如有A1、A2、A3…A100个特征点,也就有100个匹配关系,通过上述方式分别计算出这100个匹配关系各自对应的特征点和对应点之间的距离d1、d2、d3…d100,算子D对应于这100个匹配关系的总误差为:f(D)=d1+d2+d3+…+d100。以此类推,如果有n个匹配关系,其总误差则为:f(D)=d1+d2+d3+…+dn。
依照上述过程,误差函数f(D)可以描述为f(D)=d1+d2+d3+…+dn,根据误差函数f(D)求该误差函数的最小值,最小值对应的算子就是将检测图像作透视变换较准确的算子。需要说明的是,求误差的方法不限于上述示例,也可以采用其他求误差的方法,比如,均方误差、交叉熵或者对数似然误差,在此不再赘述。
更进一步地,在计算总误差的过程中,在d1、d2、d3…dn中,还可以通过方差去掉一些偏差过大的值,通过控制d1、d2、d3…dn的离散程度,过滤掉特征点中差异较大的特征点,以使总误差尽可能地反应通过算子进行变换后的图像与检测图像的差异。
在一个实施例中,所述通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本的步骤之前,还包括:
根据所述证件的证件类型,预先设置提取锚点文本的辅助匹配方式。
其中,辅助匹配方式包括字符间距和/或位置关系。
具体地,针对不同的证件,可以为锚点定义必要的辅助匹配规则,以使后续在待检测样本中对锚点的寻找更准确,从而提高锚点识别和提取的效率。
针对不同证件类型为锚点制定不同的辅助匹配规则,比如身份证的匹配规则和结婚证的匹配规则是不一样的。针对具体的证件类型制定对应的辅助匹配规则,一方面用于更精确地提取锚点,另一方面用于拓展输入图像在寻找锚点时的寻找范围,实现目标提取时的定位目标的范围。其中,对于锚点的辅助匹配规则,在提取锚点时由于文本识别能力的限制,有时需要加一些辅助逻辑来帮助寻找锚点,比如有时指定的锚点的文本内容在图片上字与字之间有时会隔得很开,这时候在输入图像里面就有可能会把该位置的内容识别成多个字段,这时候就不能直接和设置的锚点文本内容对应上。所以对于这种以及类似的情况,需要加一些例如字符间距和/或位置关系等辅助逻辑来进行锚点提取。比如,结婚证上的“持证人”字段中各个字之间存有较大间隔,会容易导致在待检测图像上寻找锚点时,通用文本识别模型将其识别为三个字段,这种情况下就需要定义一定的辅助匹配规则将识别出的三个字段拼接成一个字段以得到我们需要的“持证人”这个锚点。
在一个实施例中,所述预先设置提取锚点文本的辅助匹配方式的步骤包括:
预先设置图形锚点以通过文字锚点和图形锚点结合提取特征点。
具体地,在一些证件中,可以拓展图像信息作为辅助匹配规则,结合图形锚点进行特征点的提取。由于锚点一般是文本信息,能提供的图像信息有限,在做后续特征点匹配时有可能会因为图像信息不足导致能提取出的特征点过少,从而影响后续透视变换的精确度。不过一些证件上其实是存在一些固定的图形的,这些图形能够提供大量特征点信息,但是一般文本识别模型是不能对这些非文本的图像进行检测的。这时候则需要通过对检测到的锚点信息加一些位置关系的辅助拓展,从而定位到这些固定位置的图形,则可以将这些图形也利用起来作为透视变换中特征点提取的锚点。比如,针对结婚证上的“持证人”字段,持证人字段上方有固定的图形,可以通过“持证人”这个固定字段的位置定位出图形位置,将图形拓展为一个图形锚点,从而通过文字锚点和图形锚点的结合提取更多的特征点,再通过更多特征点的匹配,获取尽可能多的更准确的匹配特征点,以进行准确的透视变换。图形锚点可以通过与文字锚点的相对位置关系来确定其位置,而确定位置后其描述和位置锚点一样是描述一个矩形框的一条对角线的两个顶点即可,一般是左上和右下的顶点。确定图形锚点与文字锚点的相对位置关系的方法有多种,比如,可以通过采用尝试的方式来获取相对位置关系,也可以通过在模板图像上先把图形锚点的位置给标记出来,然后计算图形锚点和文字锚点的相对位置关系。
在一个实施例中,所述根据通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取的步骤之后,还包括:
根据第二预设方式,对识别出的所述文本进行过滤以得到所述检测图像的目标文本。
其中,所述第二预设方式是指预先设置的文本过滤逻辑,所述文本过滤逻辑包括文本内容的类型、文本内容所在位置的位置逻辑及文本内容的长度限制。
具体地,由于通用的文本识别模型通常直接对整张图片进行检测和识别,根据文本识别模型的性能和训练方式的不同,对不同证件类型的文本,通过文本识别模型识别出来的文本与证件上的文本内容有可能出现不同程度的误差,例如识别出来的文本包含的字段里混进了非预期的字段,或者是将本来应该识别为一个字段的内容识别成了多个字段,或者由于文本识别模型的位置逻辑原因,把位置靠后但是稍微向上偏了一点的字段识别到了前面,而位置靠前的字段识别到了后面,这时如果直接把识别出的文本内容作为最后的识别结果通常是很粗糙而不准确的。由于针对文本识别模型识别出来的文本结果不能保证百分百精确,针对上述可能出现的情况,所以为了提高提取内容的准确性,可以根据各种证件类型的实际特点为提取的内容指定一些过滤逻辑,也即需要针对不同的证件制定预设过滤规则,以对文本识别模型识别并提取出的文本内容进行进一步的精确过滤,例如制定识别内容的类型(比如纯数字或者数字+英文等)、位置逻辑及长度限制等,以使提取结果尽量接近预期,从而使最终的提取文本更精确。对于提取内容的制定过滤规则以实现对提取内容的过滤,可以很容易的满足客户对不同证件的不同定制化需求,可以弥补由用户仅标记位置所可能产生的不够精确地提取结果,进一步满足客户的需求。
因此,为了更精确地提取目标文本,可以在定义提取字段时加入少量定制逻辑用以辅助,从而提高精确度,所述根据第二预设方式,对识别出的所述文本进行过滤以得到所述检测图像的目标文本的步骤包括以下步骤:
根据预先制定的所述目标文本的辅助提取逻辑,对通过文本识别模型提取得到的所述目标文本的内容进行过滤,以得到符合所述辅助提取逻辑对应规则的目标文本作为最终的证件中的提取文本。
具体地,为不同的内容制定辅助的提取逻辑,也就是对提取的内容制定过滤规则,以针对不同字段内容实现更加准确的提取,根据制定的辅助提取逻辑,对提取得到的文本内容进行进一步的过滤,得到符合所制定的逻辑规则的文本。
进一步地,由于对锚点可以预先定义辅助匹配方式,也即对锚点的识别进行辅助提取逻辑的制定,可以将对锚点定义辅助匹配方式和对所述目标文本的辅助提取逻辑结合起来,对不同证件通过定义锚点和目标框,初步确定用来做透视变换的固定字段锚点和客户最后需要提取的目标信息的位置,结合对锚点和目标信息定制的各自的提取逻辑,从而对锚点和对目标内容的提取更加精细化,可以通过锚点的辅助匹配方式获得尽可能准确的锚点信息,以将检测图像做出尽可能准确的透视变换,并在准确透视变换的基础上,再通过对目标文本的过滤逻辑尽可能提取到精确的目标文本,可以避免仅标记位置所可能产生的不够精确地提取结果,从而实现通过定制模板与辅助逻辑的结合,既避免了对每种证件的不同提取需求完全自定义逻辑所带来的人力和时间成本消耗,另一方面也避免了太过通用的逻辑带来的提取不够精确地问题。
以下将通过两个具体实施例来描述本申请实施例的上述方案:
在一个实施例中,请参阅图10,图10包括图10(a)至图10(i),图10为本申请实施例提供的证件中的目标文本提取方法中一个实施例的图形变换示意图,在该实施例中,具体实现过程包括以下步骤:
1.01)用户选择一张图作为模板图像,并在模板图像上框选出固定不变的字段,下文称为锚点,请参阅图10(a)中实线选框标注的字段为锚点,是通过这些区域进行透视变换算子的计算;
1.02)用户在模板图像上框选出希望提取文本识别结果的区域,下文称为目标框,请参阅图10(a)中虚线选框标注的位置为目标框位置,是要在这些区域提取文本;
1.03)文本识别模型对用户选择的锚点区域进行识别,获得锚点区域的内容信息,请参阅图10(b);
1.04)用户输入用于提取目标文本的检测图像;
1.05)文本识别模型对检测图像进行全文识别,通过全文识别找出与用户所选锚点文本内容匹配的区域,也即找出包含用户所选锚点文字内容的区域,请参阅图10(c);
1.06)对模板图像和检测图像匹配上的锚点区域进行特征点的提取和匹配,从而求出将检测图像变为模板图像视角的第一透视变换算子,请参阅图10(d);
1.07)对检测图像进行透视变换得到透视后的第一透视变换图像,请参阅图10(e);
1.08)因为特征点匹配过程中是有可能存在一定误差的,从而导致求出的透视变换算子不一定完全标准,所以变换后的第一透视变换图像可能依然与模板图像存在一定的视角变差,所以接下来不是将目标框位置完全不变地直接映射到变换后的第一透视变换图像上,而是找到一个模板图像与变换后的第一透视变换图像之间的第二透视变换算子将目标框通过透视变换投影到变换后的第二透视变换图像上,所以首先再在变换后的第一透视变换图像上检测与模板图像锚点文本匹配的区域,请参阅图10(f);
1.09)对变换后的第一透视变换图像和模板图像进行特征点提取和匹配,请参阅图10(g),求得所述第一透视变换图像到模板图像视角的第二透视变换算子;
1.10)将模板图像的上标记的目标框通过第二透视变换算子经过透视变换投影到检测图像对应的第二透视变换图像上,请参阅图10(h),需要说明的是,本申请实施例中,可以看出在检测图像的变换后的第二透视变换图像上,住所的框并没有框住住所部分的全部内容,这是因为用户在模板图像上标框是只标了那个区域,所以投影后也会只有那一小块区域,可以通过对样本的尝试进行调整目标框框住的范围,或者直接设置尽可能大的范围以使目标框框住所有的内容;
1.11)文本识别对目标框的内容进行识别,请参阅图10(i)。
在另一个实施例中,请参阅图11,图11包括图11(a)至图11(i),图11(a)至图11(i)为本申请实施例提供的证件中的目标文本提取方法中另一个实施例的图形变换示意图,具体实现过程包括以下步骤:
2.01)选择一张图作为模板图像,并在此模板图像上指定(设置)固定不变字段的位置和文本内容,下文称为锚点,请参阅图11(a)实线选框框住的部分;
2.02)定制寻找锚点的辅助逻辑,也就是实线框框住部分的辅助逻辑;
2.03)指定想要提取的文本识别结果所包含的区域,下文称为目标框,请参阅图11(a)虚线选框;
2.04)为目标框定制文本提取的过滤逻辑;
2.05)用户输入检测图像;
2.06)文本识别模型对检测图像进行全文识别,找出包含指定锚点文本内容的区域,请参阅图11(b);
2.07)对模板图像和检测图像匹配上的锚点区域进行特征点的提取和匹配请参阅图11(c),从而求出将检测图像变为模板图像视角的第一透视变换算子;
2.08)对检测图像采用所述第一透视变换算子进行透视变换以得到第一透视变换图像,透视变换后的图像如图11(d)所示;
2.09)同样因为特征点匹配过程中是有可能存在一定误差的,从而导致求出的第一透视变换算子不一定完全标准,所以变换后的第一透视变换图像可能依然与模板图像存在一定的视角变差,所以接下来不是将目标框位置完全不变地直接映射到变换后的第一透视变换图像上,而是找到一个模板图像与变换后的第一透视变换图像之间的第二透视变换算子将目标框通过所述第二透视变换算子经过透视变换投影到变换后的第二透视变换图像上,所以首先再在变换后的第一透视变换图像上检测与模板图像锚点文本匹配的区域,请参阅图11(e);
2.10)对变换后的第一透视变换图像和模板图像进行特征点提取和匹配,请参阅图11(f),求得第一透视变换图像到模板图像视角的第二透视变换算子;
2.11)将模板图像的上标记的目标框通过第二透视变换算子经过透视变换投影到变换后的第二透视变换图像上,请参阅图11(g)中的虚线框框住的区域;
2.12)文本识别对目标框的内容进行识别,请参阅图11(h)。
需要说明的是,虽然图11(g)中登记日期所在的目标框没有完全框住“X5X5X5”所有的内容,但由于配置有辅助逻辑,同样认为完整的“X5X5X5”内容是属于目标区域的。
2.13)根据之前制定的过滤规则对识别内容进行过滤,请参阅图11(i)。
需要说明的是,上述各个实施例所述的证件中的目标文本提取方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图12,图12为本申请实施例提供的证件中的目标文本提取装置的示意性框图。对应于上述证件中的目标文本提取方法,本申请实施例还提供一种证件中的目标文本提取装置。如图12所示,该证件中的目标文本提取装置包括用于执行上述证件中的目标文本提取方法的单元,该装置可以被配置于台式机电脑等计算机设备中。具体地,请参阅图12,该证件中的目标文本提取装置1200包括第一获取单元1201、第二获取单元1202、求解单元1203、变换单元1204、投影单元1205及识别单元1206。
其中,第一获取单元1201,用于获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;
第二获取单元1202,用于根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;
求解单元1203,用于根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;
变换单元1204,用于将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;
投影单元1205,用于通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;
识别单元1206,用于通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
在一个实施例中,所述第二获取单元1202包括:
第一提取子单元,用于通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本;
第一得到子单元,用于基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置;
第二提取子单元,用于基于预设的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合;
第一获取子单元,用于根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系;
所述求解单元1203,用于根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子;
所述变换单元1204,用于将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像。
在一个实施例中,所述第二获取单元1202包括还包括:
第二获取子单元,用于将所述第一透视变换图像输入所述文本识别模型,通过所述第一锚点文本获取所述第一透视变换图像上与所述第一锚点位置相对应的第三锚点位置;
第三提取子单元,用于基于所述特征点提取算法提取所述第三锚点位置包含的第三特征点集合;
第三获取子单元,用于根据所述第一特征点集合和所述第三特征点集合,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系;
第一求解子单元,用于根据所述第二特征点匹配关系,通过所述变换矩阵进行求解以计算出将所述第一透视变换图像进行透视变换的第二透视变换算子;
所述变换单元1204,用于将所述第一透视变换图像通过所述第二透视变换算子进行透视变换以得到第二透视变换图像;
所述投影单元1205,用于通过所述第二透视变换算子计算出所述目标框位置在所述第二透视变换图像上的投影位置;
所述识别单元1206,用于将所述第二透视变换图像输入所述文本识别模型,通过所述文本识别模型对所述第二透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
在一个实施例中,所述求解单元1203包括:
第二求解子单元,用于利用每四对特征点之间的匹配关系通过所述变换矩阵进行求解以得到一个透视变换算子;
重复子单元,用于根据所述第一特征点集合和所述第二特征点集合中的所有匹配特征点中每四对特征点之间的组合,重复上述通过每四对特征点获得一个透视变换算子的过程,得到多个透视变换算子,并将所述多个透视变换算子组成集合作为透视变换算子集合;
第二得到子单元,用于根据预先构建的透视变换算子的误差函数,通过求极限的方式得到所述误差函数中最小值对应的所述透视变换算子集合中的透视变换算子作为所述第一透视变换算子。
在一个实施例中,所述第二获取单元1202还包括:
设置子单元,用于根据所述证件的证件类型,预先设置提取锚点文本的辅助匹配方式。
在一个实施例中,所述设置子单元,用于预先设置图形锚点以通过文字锚点和图形锚点结合提取特征点。
在一个实施例中,所述证件中的目标文本提取装置1200还包括:
过滤单元,用于根据第二预设方式,对识别出的所述文本进行过滤以得到所述检测图像的目标文本。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述证件中的目标文本提取装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述证件中的目标文本提取装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将证件中的目标文本提取装置按照需要划分为不同的单元,也可将证件中的目标文本提取装置中各单元采取不同的连接顺序和方式,以完成上述证件中的目标文本提取装置的全部或部分功能。
上述证件中的目标文本提取装置可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。
请参阅图13,图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备1300可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图13,该计算机设备1300包括通过系统总线1301连接的处理器1302、存储器和网络接口1305,其中,存储器可以包括非易失性存储介质1303和内存储器1304。
该非易失性存储介质1303可存储操作系统13031和计算机程序13032。该计算机程序13032被执行时,可使得处理器1302执行一种上述证件中的目标文本提取方法。
该处理器1302用于提供计算和控制能力,以支撑整个计算机设备1300的运行。
该内存储器1304为非易失性存储介质1303中的计算机程序13032的运行提供环境,该计算机程序13032被处理器1302执行时,可使得处理器1302执行一种上述证件中的目标文本提取方法。
该网络接口1305用于与其它设备进行网络通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备1300的限定,具体的计算机设备1300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图13所示实施例一致,在此不再赘述。
其中,所述处理器1302用于运行存储在存储器中的计算机程序13032,以实现如下步骤:获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
在一实施例中,所述处理器1302在实现所述文字锚点还包括第一锚点位置,所述根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系的步骤时,具体实现以下步骤:
通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本;
基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置;
基于预设的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合;
根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系;
所述处理器1302在实现所述根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子的步骤时,具体实现以下步骤:
根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子;
所述处理器1302在实现所述将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像的步骤时,具体实现以下步骤:
将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像。
在一实施例中,所述处理器1302在实现所述将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像的步骤之后,还实现以下步骤:
将所述第一透视变换图像输入所述文本识别模型,通过所述第一锚点文本获取所述第一透视变换图像上与所述第一锚点位置相对应的第三锚点位置;
基于所述特征点提取算法提取所述第三锚点位置包含的第三特征点集合;
根据所述第一特征点集合和所述第三特征点集合,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系;
根据所述第二特征点匹配关系,通过所述变换矩阵进行求解以计算出将所述第一透视变换图像进行透视变换的第二透视变换算子;
将所述第一透视变换图像通过所述第二透视变换算子进行透视变换以得到第二透视变换图像;
所述处理器1302在实现所述通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置的步骤时,具体实现以下步骤:
通过所述第二透视变换算子计算出所述目标框位置在所述第二透视变换图像上的投影位置;
所述处理器1302在实现所述通过所述文本识别模型对所述透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本的步骤时,具体实现以下步骤:
将所述第二透视变换图像输入所述文本识别模型,通过所述文本识别模型对所述第二透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
在一实施例中,所述处理器1302在实现所述根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子的步骤时,具体实现以下步骤:
利用每四对特征点之间的匹配关系通过所述变换矩阵进行求解以得到一个透视变换算子;
根据所述第一特征点集合和所述第二特征点集合中的所有匹配特征点中每四对特征点之间的组合,重复上述通过每四对特征点获得一个透视变换算子的过程,得到多个透视变换算子,并将所述多个透视变换算子组成集合作为透视变换算子集合;
根据预先构建的透视变换算子的误差函数,通过求极限的方式得到所述误差函数中最小值对应的所述透视变换算子集合中的透视变换算子作为所述第一透视变换算子。
在一实施例中,所述处理器1302在实现所述通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本的步骤之前,还实现以下步骤:
根据所述证件的证件类型,预先设置提取锚点文本的辅助匹配方式。
在一实施例中,所述处理器1302在实现所述预先设置提取锚点文本的辅助匹配方式的步骤时,具体实现以下步骤:
预先设置图形锚点以通过文字锚点和图形锚点结合提取特征点。
在一实施例中,所述处理器1302在实现所述通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取的步骤之后,还实现以下步骤:
根据第二预设方式,对识别出的所述文本进行过滤以得到所述检测图像的目标文本。
应当理解,在本申请实施例中,处理器1302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述证件中的目标文本提取方法的实施例的步骤。
因此,本申请实施例还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的证件中的目标文本提取方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种证件中的目标文本提取方法,其特征在于,所述方法包括:
获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;
根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;
根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;
将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;
通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;
通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
2.根据权利要求1所述证件中的目标文本提取方法,其特征在于,所述文字锚点还包括第一锚点位置,所述根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系的步骤包括:
通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本;
基于所述文本识别模型通过所述第二锚点文本得到所述检测图像上与所述第一锚点位置相对应的第二锚点位置;
基于预设的特征点提取算法提取所述第一锚点位置包含的第一特征点集合和所述第二锚点位置包含的第二特征点集合;
根据所述第一特征点集合和所述第二特征点集合,基于特征点匹配算法获取所述第一特征点集合和所述第二特征点集合中的特征点之间的第一特征点匹配关系;
所述根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子的步骤包括:
根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子;
所述将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像的步骤包括:
将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像。
3.根据权利要求2所述证件中的目标文本提取方法,其特征在于,所述将所述检测图像通过所述第一透视变换算子进行透视变换以得到与所述模板图像视角相符的第一透视变换图像的步骤之后,还包括:
将所述第一透视变换图像输入所述文本识别模型,通过所述第一锚点文本获取所述第一透视变换图像上与所述第一锚点位置相对应的第三锚点位置;
基于所述特征点提取算法提取所述第三锚点位置包含的第三特征点集合;
根据所述第一特征点集合和所述第三特征点集合,基于所述特征点匹配算法获取所述第一特征点集合和所述第三特征点集合中的特征点之间的第二特征点匹配关系;
根据所述第二特征点匹配关系,通过所述变换矩阵进行求解以计算出将所述第一透视变换图像进行透视变换的第二透视变换算子;
将所述第一透视变换图像通过所述第二透视变换算子进行透视变换以得到第二透视变换图像;
所述通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置的步骤包括:
通过所述第二透视变换算子计算出所述目标框位置在所述第二透视变换图像上的投影位置;
所述通过所述文本识别模型对所述透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本的步骤包括:
将所述第二透视变换图像输入所述文本识别模型,通过所述文本识别模型对所述第二透视变换图像上的投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
4.根据权利要求2所述证件中的目标文本提取方法,其特征在于,所述根据所述第一特征点匹配关系,通过变换矩阵进行求解以计算出将所述检测图像进行透视变换的第一透视变换算子的步骤包括:
利用每四对特征点之间的匹配关系通过所述变换矩阵进行求解以得到一个透视变换算子;
根据所述第一特征点集合和所述第二特征点集合中的所有匹配特征点中每四对特征点之间的组合,重复上述通过每四对特征点获得一个透视变换算子的过程,得到多个透视变换算子,并将所述多个透视变换算子组成集合作为透视变换算子集合;
根据预先构建的透视变换算子的误差函数,通过求极限的方式得到所述误差函数中最小值对应的所述透视变换算子集合中的透视变换算子作为所述第一透视变换算子。
5.根据权利要求2-4任一项所述证件中的目标文本提取方法,其特征在于,所述通过文本识别模型提取所述检测图像上与所述第一锚点文本一致的第二锚点文本的步骤之前,还包括:
根据所述证件的证件类型,预先设置提取锚点文本的辅助匹配方式。
6.根据权利要求5所述证件中的目标文本提取方法,其特征在于,所述预先设置提取锚点文本的辅助匹配方式的步骤包括:
预先设置图形锚点以通过文字锚点和图形锚点结合提取特征点。
7.根据权利要求1所述证件中的目标文本提取方法,其特征在于,所述通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取的步骤之后,还包括:
根据第二预设方式,对识别出的所述文本进行过滤以得到所述检测图像的目标文本。
8.一种证件中的目标文本提取装置,其特征在于,包括:
第一获取单元,用于获取属于同一种证件类型的模板图像和用于提取目标文本的检测图像,所述模板图像上标注有文字锚点和目标框位置,其中,所述文字锚点为在所述模板图像上标注的固定字段,所述文字锚点包括第一锚点文本,所述第一锚点文本为所述固定字段的内容,所述目标框位置为在所述模板图像上标注的证件上需要提取的所述目标文本所在的位置;
第二获取单元,用于根据所述第一锚点文本并基于文本识别模型,通过第一预设方式获取所述第一锚点文本在所述模板图像上的锚点位置与所述第一锚点文本在所述检测图像上的锚点位置各自包含的特征点之间的特征点匹配关系,其中,锚点位置为所述第一锚点文本在对应图像上的位置;
求解单元,用于根据所述特征点匹配关系,通过变换矩阵进行求解以得到将所述检测图像进行透视变换的透视变换算子;
变换单元,用于将所述检测图像通过所述透视变换算子进行透视变换以得到与所述模板图像视角相符的透视变换图像;
投影单元,用于通过所述透视变换算子获取所述目标框位置在所述透视变换图像上的投影位置;
识别单元,用于通过所述文本识别模型对所述透视变换图像上的所述投影位置的文本进行文本识别,并对识别出的文本进行提取以得到所述检测图像的目标文本。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-7任一项所述证件中的目标文本提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述证件中的目标文本提取方法的步骤。
CN201910979567.0A 2019-10-15 2019-10-15 证件中的目标文本提取方法、装置、设备及可读存储介质 Active CN111126125B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910979567.0A CN111126125B (zh) 2019-10-15 2019-10-15 证件中的目标文本提取方法、装置、设备及可读存储介质
PCT/CN2019/118469 WO2021072879A1 (zh) 2019-10-15 2019-11-14 证件中的目标文本提取方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979567.0A CN111126125B (zh) 2019-10-15 2019-10-15 证件中的目标文本提取方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111126125A CN111126125A (zh) 2020-05-08
CN111126125B true CN111126125B (zh) 2023-08-01

Family

ID=70495348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979567.0A Active CN111126125B (zh) 2019-10-15 2019-10-15 证件中的目标文本提取方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111126125B (zh)
WO (1) WO2021072879A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113762244A (zh) * 2020-06-05 2021-12-07 北京市天元网络技术股份有限公司 文档信息的提取方法及装置
CN111696044B (zh) * 2020-06-16 2022-06-10 清华大学 一种大场景动态视觉观测方法及装置
CN111898381A (zh) * 2020-06-30 2020-11-06 北京来也网络科技有限公司 一种结合rpa与ai的文本信息提取方法、装置、设备及介质
CN111967347A (zh) * 2020-07-28 2020-11-20 北京嘀嘀无限科技发展有限公司 一种数据处理的方法、装置、可读存储介质和电子设备
CN111914840A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 一种文本识别方法、模型训练方法、装置及设备
CN112001331A (zh) * 2020-08-26 2020-11-27 上海高德威智能交通系统有限公司 图像识别方法、装置、设备及存储介质
CN112016561B (zh) * 2020-09-01 2023-08-04 中国银行股份有限公司 一种文本识别方法及相关设备
CN111931771B (zh) * 2020-09-16 2021-01-01 深圳壹账通智能科技有限公司 票据内容识别方法、装置、介质及电子设备
CN111931784B (zh) * 2020-09-17 2021-01-01 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质
CN112132016B (zh) * 2020-09-22 2023-09-15 平安科技(深圳)有限公司 票据信息提取方法、装置及电子设备
CN112613402A (zh) * 2020-12-22 2021-04-06 金蝶软件(中国)有限公司 文本区域检测方法、装置、计算机设备和存储介质
CN112668572B (zh) * 2020-12-24 2023-01-31 成都新希望金融信息有限公司 身份证图像标准化方法、装置、电子设备及存储介质
CN112633279A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 文本识别方法、装置和系统
CN112651378B (zh) * 2021-01-08 2021-10-15 唐旸 紧固件二维图纸的标注信息识别方法、设备及介质
CN113177541B (zh) * 2021-05-17 2023-12-19 上海云扩信息科技有限公司 一种计算机程序提取pdf文档及图片中文字内容的方法
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113657384B (zh) * 2021-09-02 2024-04-05 京东科技控股股份有限公司 证件图像的矫正方法及装置、存储介质及电子设备
CN113920512B (zh) * 2021-12-08 2022-03-15 共道网络科技有限公司 一种图像识别的方法及装置
CN114332865B (zh) * 2022-03-11 2022-06-03 北京锐融天下科技股份有限公司 一种证件ocr识别方法及系统
CN114577756B (zh) * 2022-05-09 2022-07-15 烟台正德电子科技有限公司 一种透光均匀度检测装置及检测方法
CN116740719A (zh) * 2023-05-04 2023-09-12 北京和利时系统集成有限公司 指针型仪表读数方法、装置和存储介质
CN117315033B (zh) * 2023-11-29 2024-03-19 上海仙工智能科技有限公司 一种基于神经网络的识别定位方法及系统、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109977935A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 一种文本识别方法及装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8233714B2 (en) * 2006-08-01 2012-07-31 Abbyy Software Ltd. Method and system for creating flexible structure descriptions
CN107368800B (zh) * 2017-07-13 2020-02-21 上海携程商务有限公司 基于传真识别的订单确认方法、系统、设备及存储介质
CN110321895A (zh) * 2019-04-30 2019-10-11 北京市商汤科技开发有限公司 证件识别方法和装置、电子设备、计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109977935A (zh) * 2019-02-27 2019-07-05 平安科技(深圳)有限公司 一种文本识别方法及装置

Also Published As

Publication number Publication date
CN111126125A (zh) 2020-05-08
WO2021072879A1 (zh) 2021-04-22

Similar Documents

Publication Publication Date Title
CN111126125B (zh) 证件中的目标文本提取方法、装置、设备及可读存储介质
CN108961303B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN111428581A (zh) 人脸遮挡检测方法及系统
US20080219516A1 (en) Image matching apparatus, image matching method, computer program and computer-readable storage medium
CN108475424B (zh) 用于3d面部跟踪的方法、装置和系统
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
US9626552B2 (en) Calculating facial image similarity
CN110400278B (zh) 一种图像颜色和几何畸变的全自动校正方法、装置及设备
CN109255300B (zh) 票据信息提取方法、装置、计算机设备及存储介质
US20150154471A1 (en) Image processing device and method, and computer readable medium
US9542594B2 (en) Information processing apparatus, method for processing information, and program
CN109559344B (zh) 边框检测方法、装置及存储介质
CN114529837A (zh) 建筑物轮廓提取方法、系统、计算机设备及存储介质
CN111695431A (zh) 一种人脸识别方法、装置、终端设备及存储介质
JP2017129990A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
JP2016170677A (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
JP6202938B2 (ja) 画像認識装置および画像認識方法
CN111898408B (zh) 一种快速人脸识别方法及装置
WO2015068417A1 (ja) 画像照合システム、画像照合方法およびプログラム
CN110660091A (zh) 一种图像配准处理方法、装置和拍照批改作业系统
CN111275616B (zh) 低空航拍图像拼接方法和装置
JP2017500662A (ja) 投影ひずみを補正するための方法及びシステム
CN109785367B (zh) 三维模型追踪中外点滤除方法和装置
CN110321778B (zh) 一种人脸图像处理方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant