CN112613506A - 图像中的文本识别方法、装置、计算机设备和存储介质 - Google Patents

图像中的文本识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112613506A
CN112613506A CN202011539938.2A CN202011539938A CN112613506A CN 112613506 A CN112613506 A CN 112613506A CN 202011539938 A CN202011539938 A CN 202011539938A CN 112613506 A CN112613506 A CN 112613506A
Authority
CN
China
Prior art keywords
image
area
region
transformation matrix
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011539938.2A
Other languages
English (en)
Inventor
胡志成
宁可
闵江松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN202011539938.2A priority Critical patent/CN112613506A/zh
Publication of CN112613506A publication Critical patent/CN112613506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像中的文本识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;基于所述第一参照区域和所述第二参照区域计算变换矩阵;从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;对所述第二识别区域中的图像进行文本识别,得到文本信息。采用本方法能够识别出完整的文本信息。

Description

图像中的文本识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种图像中的文本识别方法、装置、计算机设备和存储介质。
背景技术
随着图像识别技术的发展,对于包含文本信息的图像,例如票据的图像、银行回单的图像、证件照片等,需要计算机自动提取出图像中的文本信息。
传统技术中,通过将标准图像与待识别图像进行对齐,获取待识别图像中的待识别区域,从而从待识别区域中提取出文本信息。但是,由于标准图像和待识别图像的对齐难度较大,导致获取的待识别区域不准确,从而造成提取出的文本信息不完整。
发明内容
基于此,有必要针对上述技术问题,提供一种能够保证获取的文本信息的完整性的图像中的文本识别获取方法、装置、计算机设备和存储介质。
一种图像中的文本识别方法,所述方法包括:
获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;
在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;
基于所述第一参照区域和所述第二参照区域计算变换矩阵;
从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;
对所述第二识别区域中的图像进行文本识别,得到文本信息。
在一个实施例中,所述在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域之前,所述方法还包括:
当所述待识别图像为彩色图像时,对所述待识别图像进行灰度化处理;
判断处理后的待识别图像的方向是否与预设正向一致;
若否,则按照所述预设正向对所述处理后的待识别图像进行旋转。
在一个实施例中,所述在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域,包括:
对所述待识别图像进行图像分割,得到至少一个候选区域;
对所述候选区域中图像进行文本识别,得到第一文本,以及对所述第一参照区域中图像进行文本识别,得到第二文本;
计算所述第一文本与所述第二文本的相似度;
根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述计算所述第一文本与所述第二文本的相似度,包括:
依次计算所述第一文本与所述第二文本中每段相同字符的个数与所述第二文本中字符个数之间的比值;
将所述比值中的最大比值确定为所述第一文本与所述第二文本的相似度;
所述根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域包括:
当所述候选区域中的目标候选区域对应的相似度大于相似度阈值时,将所述目标候选区域确定为与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述基于所述第一参照区域和所述第二参照区域计算变换矩阵,包括:
分别从所述第一参照区域和所述第二参照区域中选取像素点;
在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对;
基于所述对齐像素对的坐标计算变换矩阵。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述分别从所述第一参照区域和所述第二参照区域中选取像素点,包括:
从所述第一参照区域中选取至少两个第一角点;以及,从所述第二参照区域中选取与所述第一角点对应的第二角点;
根据所述第一角点的坐标计算得到第一对齐点坐标;以及根据所述第二角点的坐标计算得到第二对齐点坐标;
获取所述第一对齐点坐标对应的所述第一对齐点以及所述第二对齐点坐标对应的所述第二对齐点;
所述在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对,包括:
将所述第一对齐点和所述第二对齐点作为对齐像素对。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述基于所述对齐像素对的坐标计算变换矩阵,包括:
从所述第一对齐点中选取至少三个第一目标对齐点;以及,从所述第二对齐点中选取至少三个第二目标对齐点;
当所述第一对齐点的坐标满足分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算仿射变换矩阵;
当所述第一对齐点的坐标不满足所述分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算得到透视变换矩阵。
在一个实施例中,所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述对齐像素对包括第一参照区域中的第一对齐点;所述从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域,包括:
当所述第一对齐点的坐标满足分布条件时,根据所述仿射变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述对齐像素对还包括所述第二参照区域中的第二对齐点;所述当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域中的像素点映射至所述待识别图像中,并基于映射的结果得到第二识别区域包括:
当所述第一对齐点的坐标不满足分布条件时,通过所述透视变换矩阵对所述第一对齐点进行映射计算,得到映射点;
计算所述映射点与所述第二对齐点之间的距离;
当所述距离满足距离条件时,根据所述透视变换矩阵将所述第一识别区域中映射至所述待识别图像中,并基于映射的结果得到第二识别区域的步骤;
所述方法还包括:当所述距离不满足所述距离条件时,计算所述第一对齐点的分布概率,并根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述变换矩阵还包括区域子矩阵;所述根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域包括:
当所述分布概率大于概率阈值时,通过薄板样条算法将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述分布概率小于或等于所述概率阈值时,将所述第一识别区域分为至少四个子区域;分别通过所述子区域对应的区域子矩阵将所述子区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
一种图像中的文本识别装置,所述装置包括:
获取模块,用于获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;
确定模块,用于在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;
计算模块,用于基于所述第一参照区域和所述第二参照区域计算变换矩阵;
所述确定模块,还用于从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;
文本识别模块,用于对所述第二识别区域中的图像进行文本识别,得到文本信息。
在一个实施例中,所述装置还包括:
灰度化处理模块,用于当所述待识别图像为彩色图像时,对所述待识别图像进行灰度化处理;
判断模块,用于判断处理后的待识别图像的方向是否与预设正向一致;
旋转模块,用于若否,则按照所述预设正向对所述处理后的待识别图像进行旋转。
在一个实施例中,所述确定模块,还用于:
对所述待识别图像进行图像分割,得到至少一个候选区域;
对所述候选区域中图像进行文本识别,得到第一文本,以及对所述第一参照区域中图像进行文本识别,得到第二文本;
计算所述第一文本与所述第二文本的相似度;
根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述确定模块,还用于:依次计算所述第一文本与所述第二文本中每段相同字符的个数与所述第二文本中字符个数之间的比值;
将所述比值中的最大比值确定为所述第一文本与所述第二文本的相似度;
所述根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域包括:
当所述候选区域中的目标候选区域对应的相似度大于相似度阈值时,将所述目标候选区域确定为与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述计算模块,还用于:
分别从所述第一参照区域和所述第二参照区域中选取像素点;
在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对;
基于所述对齐像素对的坐标计算变换矩阵。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述计算模块,还用于:
从所述第一参照区域中选取至少两个第一角点;以及,从所述第二参照区域中选取与所述第一角点对应的第二角点;
根据所述第一角点的坐标计算得到第一对齐点坐标;以及根据所述第二角点的坐标计算得到第二对齐点坐标;
获取所述第一对齐点坐标对应的所述第一对齐点以及所述第二对齐点坐标对应的所述第二对齐点;
所述在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对,包括:
将所述第一对齐点和所述第二对齐点作为对齐像素对。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述计算模块,还用于:
从所述第一对齐点中选取至少三个第一目标对齐点;以及,从所述第二对齐点中选取至少三个第二目标对齐点;
当所述第一对齐点的坐标满足分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算仿射变换矩阵;
当所述第一对齐点的坐标不满足所述分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算得到透视变换矩阵。
在一个实施例中,所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述对齐像素对包括第一参照区域中的第一对齐点;所述确定模块,还用于:
当所述第一对齐点的坐标满足分布条件时,根据所述仿射变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述对齐像素对还包括所述第二参照区域中的第二对齐点;所述确定模块,还用于:
当所述第一对齐点的坐标不满足分布条件时,通过所述透视变换矩阵对所述第一对齐点进行映射计算,得到映射点;
计算所述映射点与所述第二对齐点之间的距离;
当所述距离满足距离条件时,根据所述透视变换矩阵将所述第一识别区域中映射至所述待识别图像中,并基于映射的结果得到第二识别区域的步骤;
所述装置还包括:
所述计算模块,当所述距离不满足所述距离条件时,还用于计算所述第一对齐点的分布概率,并根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述变换矩阵还包括区域子矩阵;所述计算模块,还用于:
当所述分布概率大于概率阈值时,通过薄板样条算法将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述分布概率小于或等于所述概率阈值时,将所述第一识别区域分为至少四个子区域;分别通过所述子区域对应的区域子矩阵将所述子区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述图像中的文本识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述图像中的文本识别方法的步骤。
上述实施例中,服务器首先获取待识别图像以及包含第一参照区域和第一识别区域的模板图像。然后服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域,并基于第一参照区域和第二参照区域计算变换矩阵。最后,服务器从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域,并对第二识别区域中的图像进行文本识别,得到文本信息。由于,服务器是基于第一参照区域和第二参照区域计算得到变换矩阵,并通过变换矩阵得到第二识别区域,所得到的第二识别区域的范围更加准确,不会出现偏差,所以第二识别区域中能够包含完整的文本信息。
附图说明
图1为一个实施例中图像中的文本识别方法的应用环境图;
图2为一个实施例中图像中的文本识别方法的流程示意图;
图3a为一个实施例中待识别图像的示意图;
图3b为一个实施例中模板图像的示意图;
图4为一个实施例中图像预处理的流程示意图;
图5为一个实施例中确定第二参照区域方法的流程示意图;
图6为另一个实施例中确定第二参照区域方法的流程示意图;
图7为一个实施例中计算变换矩阵方法的流程示意图;
图8为一个实施例中获取第二识别区域方法的流程示意图;
图9为另一个实施例中图像中的文本识别方法的流程示意图;
图10为一个实施例中图像中的文本识别装置的结构框图;
图11为另一个实施例中图像中的文本识别装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像中的文本识别方法,可以应用于如图1所示的应用环境中。其中,服务器102通过网络与终端104进行通信,首先从终端104获取待识别图像以及包含第一参照区域和第一识别区域的模板图像。然后,服务器102在待识别图像中,确定与第一参照区域匹配的第二参照区域,并基于第一参照区域和第二参照区域计算变换矩阵。最后,服务器102从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域,并对第二识别区域中的图像进行文本识别,得到文本信息。其中,服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种图像中的文本识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,服务器获取待识别图像以及模板图像;模板图像中包含第一参照区域和第一识别区域。
其中,待识别图像是包含待识别的文本信息的图像。例如,票据的图像、证件的图像、银行回单的图像等。文本信息可以是结构化的数据信息。服务器从待识别图像中提取出文本信息,根据提取出的文本信息生成结构化数据。例如,待识别图像是增值税发票,服务器从增值税发票中提取出名称、纳税人识别号、地址、电话等,然后将提取出的名称、纳税人识别号、地址、电话分别存储在对应的字段,得到结构化数据。如图3a所示,待识别图像可以是对纸质文件进行扫描得到的图像,也可以是通过摄像设备采集的图像。由于在对待识别图像进行拍摄时,拍摄角度可能存在偏移,在对待识别图像进行扫描时,待识别图像也可能存在倾斜、折叠等,所以待识别图像中的票据、证件、银行回单等可能存在弯曲、倾斜等。模板图像是服务器根据与待识别图像格式相同的标准图像生成的,包含第一参照区域和第一识别区域的图像,例如,如图3b所示的模板图像。
第一参照区域是模板图像中包含固定文本信息的区域。第一识别区域是模板图像中包含自定义文本信息的区域。固定文本信息是与模板图像同类型的结构化图像中位置和内容均相同的信息。固定文本信息可以用于作为参照,使模板图像和待识别图像对齐。自定义文本信息是每个结构化图像中自定义的文本信息。例如,如图3b所示的模板图像,包含第一参照区域和第一识别区域。第一参照区域中具有增值税发票的固定文本信息“名称”、“纳税人识别号”。第一识别区域中具有自定义文本信息“300”。
在一个实施例中,服务器从终端获取标准图像,以及终端针对标准图像发送的参照区域选择指令和识别区域选择指令。然后,服务器根据参照区域选择指令和识别区域选择指令对标准图像中的区域进行标注,生成模板图像。
S204,服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域。
其中,匹配是指如果将待识别图像与模板图像对齐,则第一参照区域在模板图像中的位置与第二参照区域在待识别图像中的位置相同。服务器可以通过第一参照区域中的文本信息以及待识别图像中的文本信息,在待识别图像中,确定与第一参照区域匹配的第二参照区域。如果服务器从待识别图像中分割出的部分区域中的文本信息与第一参照区域中的文本信息相同,则可以确定所分割出的部分区域与第一参照区域匹配。
S206,服务器基于第一参照区域和第二参照区域计算变换矩阵。
其中,变换矩阵是能够对模板图像进行映射,以使映射得到的图像与待识别图像对齐的矩阵。变换矩阵确定了映射函数,服务器通过变换矩阵确定的映射函数对模板图像进行映射计算后得到的图像可以与待识别图像对齐。变换矩阵可以是仿射变换矩阵或者透视变换矩阵等。
在一个实施例中,服务器分别从第一参照区域和第二参照区域中提取多个对齐点,然后通过对齐点的坐标计算得到变换矩阵。
S208,服务器从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域。
其中,匹配是指如果将待识别图像与模板图像对齐,则第一识别区域在模板图像中的位置与第二识别区域在待识别图像中的位置相同。服务器通过变换矩阵对第一识别区域中像素的坐标进行计算,通过计算得到的坐标值确定待识别图像中的第二识别区域。例如,模板图像中的第一识别区域如图3b所示,服务器根据变换矩阵在待识别图像中确定的与第一识别区域匹配的第二识别区域如图3a所示。
S210,服务器对第二识别区域中的图像进行文本识别,得到文本信息。
其中,文本识别是计算机自动识别出图像中的字符的技术。服务器可以通过OCR(Optical Character Recognition,光学字符识别)技术识别出第二识别区域中的文本信息。服务器在获取第二识别区域后,可以将第二识别区域中的图像输入OCR网络,通过OCR网络对第二识别区域中的图像进行文本识别,得到文本信息。服务器也可以通过模板匹配法、几何特征抽取法等算法对第二识别区域中的图像进行文本识别。
上述实施例中,服务器首先获取待识别图像以及包含第一参照区域和第一识别区域的模板图像。然后服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域,并基于第一参照区域和第二参照区域计算变换矩阵。最后,服务器从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域,并对第二识别区域中的图像进行文本识别,得到文本信息。由于,服务器是基于第一参照区域和第二参照区域计算得到变换矩阵,并通过变换矩阵得到第二识别区域,所得到的第二识别区域的范围更加准确,不会出现偏差,所以第二识别区域中能够包含完整的文本信息。
在一个实施例中,如图4所示,服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域之前,还包括如下步骤:
S402,当待识别图像为彩色图像时,对待识别图像进行灰度化处理。
S404,判断处理后的待识别图像的方向是否与预设正向一致;若否,则按照预设正向对处理后的待识别图像进行旋转。
其中,灰度化处理是将彩色图像转换为灰度图像的处理过程。服务器把白色与黑色之间的颜色按对数关系分为若干等级,称为灰度。灰度分为256阶,用灰度表示的图像称作灰度图像。
服务器对彩色图像进行灰度化处理,并且将方向与预设正向不一致的待识别图像旋转为方向与预设正向一致的图像。方便服务器对待识别图像进行图像处理。
在一个实施例中,如图5所示,服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域,包括如下步骤:
S502,服务器对待识别图像进行图像分割,得到至少一个候选区域。
S504,服务器对候选区域中图像进行文本识别,得到第一文本,以及对第一参照区域中图像进行文本识别,得到第二文本。
S506,服务器计算第一文本与第二文本的相似度。
S508,服务器根据计算得到的相似度,在候选区域中确定与第一参照区域匹配的第二参照区域。
其中,图像分割是将图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术。服务器通过对待识别图像进行图像分割,将待识别图像中的文字所在区域从待识别图像中分割出来,得到至少一个候选区域。然后,服务器通过文本检测方法得到候选区域的坐标。候选区域是待识别图像中文字所在的区域。
第一文本与第二文本的相似度是第一文本中字符与第二文本中字符的相似程度。第一文本与第二文本中连续相同字符的数量越多,相似度越高。服务器根据计算得到的相似度,选择第一文本与第二文本相似度较高的候选区域,并将所选择的候选区域作为与第一参照区域匹配的第二参照区域。服务器对于每个第一参照区域可能选择了多个匹配的第二参照区域,多个第一参照区域也可能均对应一个匹配的第二参照区域。
在一个实施例中,由于一个第一参照区域可能具有多个匹配的第二参照区域,多个第一参照区域也可能均对应一个匹配的第二参照区域。所以,服务器先确定第一参照区域与第二参照区域一一对应的情况,通过一一对应的第一参照区域和第二参照区域对待识别图像和模板图像进行对齐。然后对于一个第一参照区域与多个第二参照区域匹配的情况以及多个第一参照区域与多个第二参照区域匹配的情况,服务器根据对齐后的待识别图像和模板图像,对第一参照区域选择距离最近的第二参照区域进行匹配。
在一个实施例中,服务器将待识别图像输入文本检测网络,通过文本检测网络获得待识别图像中的文字所在区域的最小外接矩形框。文本检测网络可以是残差卷积神经网络,例如,可以是resnet50残差卷积神经网络。
在一个实施例中,服务器将待识别图像输入文本检测网络,通过文本检测网络预测得到待识别图像中文字的像素坐标,文字所在区域的边界坐标,以及文字所在区域的中心坐标。然后根据得到的坐标确定待识别图像中的文字所在区域的最小外接矩形框。
服务器在待识别图像中确定与第一参照区域匹配的第二参照区域,通过第一参照区域和第二参照区域对模板图像和待识别图像进行精确的对齐,以通过模板图像中的第一识别区域确定待识别图像中的第二识别区域的准确坐标。使第二识别区域既不会覆盖其它区域,又涵盖了全部的待识别文本信息,从而即保证了识别出的文本信息的完整性,又不会识别出多余的文本信息。
在一个实施例中,如图6所示,服务器确定第二参照区域,包括如下步骤:
S602,服务器依次计算第一文本与第二文本中每段相同字符的个数与第二文本中字符个数之间的比值。
S604,服务器将比值中的最大比值确定为第一文本与第二文本的相似度。
S606,当候选区域中的目标候选区域对应的相似度大于相似度阈值时,服务器将目标候选区域确定为与第一参照区域匹配的第二参照区域。
服务器首先确定第一文本与第二文本中的各段相同字符,然后计算每段相同字符的个数与第二文本中字符个数之间的比值。相似度阈值是服务器设置的衡量第一文本与第二文本的相似度高低的阈值。当第一文本与第二文本的相似度大于相似度阈值时,服务器确定第一文本与第二文本的相似度较高。
服务器根据第一文本与第二文本的相似度确定第二参照区域,使第一文本与第二文本的相似度大于相似度阈值的第一参照区域和第二参照区域进行匹配。提高了第一参照区域和第二参照区域匹配的准确性。
在一个实施例中,如图7所示,服务器基于第一参照区域和第二参照区域计算变换矩阵,包括如下步骤:
S702,服务器分别从第一参照区域和第二参照区域中选取像素点。
S704,服务器在选取的像素点中,将分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对。
S706,服务器基于对齐像素对的坐标计算变换矩阵。
其中,服务器可以分别从第一参照区域和第二参照区域的角点、中心点、边界点中选取像素点,也可以分别从第一参照区域和第二参照区域中任意选取像素点,然后将分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;服务器从第一参照区域中选取至少两个第一角点;以及,从第二参照区域中选取与第一角点对应的第二角点;根据第一角点的坐标计算得到第一对齐点坐标;以及根据第二角点的坐标计算得到第二对齐点坐标;获取第一对齐点坐标对应的第一对齐点以及第二对齐点坐标对应的第二对齐点;将第一对齐点和第二对齐点作为对齐像素对。
其中,根据第一角点的坐标计算得到第一对齐点坐标,可以是通过线性函数或者非线性函数对第一角点的坐标进行计算得到第一对齐点坐标。根据第二角点的坐标计算得到第二对齐点坐标,可以是通过线性函数或者非线性函数对第二角点的坐标进行计算得到第二对齐点坐标。
在一个实施例中,服务器首先分别从第一参照区域和第二参照区域的角点中选取像素点。例如,当相互匹配的第一参照区域和第二参照区域的个数大于数量阈值时,服务器分别从第一参照区域和第二参照区域中选取两个角点。例如,左上角点和左下角点,再根据左上角点和左下角点确定中间点。当相互匹配的第一参照区域和第二参照区域的个数小于或等于数量阈值时,服务器另外选取右上角点和右下角点,再根据右上角点和右下角点确定中间点。然后,服务器再从所选出的像素点中分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点。服务器计算任意两个第一对齐点间的距离;在计算得到的距离中,确定最大的目标距离,并将目标距离对应的两个端点确定为两个目标对齐点。然后以这两个目标对齐点确定的线段为斜边构建等腰直角三角形,根据等腰直角三角形再确定至少一个目标对齐点。按照同样的方法,服务器在第二参照区域中至少选取三个目标对齐点。最后,服务器根据从第一参照区域中选取的至少三个目标对齐点以及从第二参照区域中选取的至少三个目标对齐点计算变换矩阵。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;变换矩阵包括仿射变换矩阵以及透视变换矩阵;服务器基于对齐像素对的坐标计算变换矩阵,包括:从第一对齐点中选取至少三个第一目标对齐点;以及,从第二对齐点中选取至少三个第二目标对齐点;当第一对齐点的坐标满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算仿射变换矩阵;当第一对齐点的坐标不满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算得到透视变换矩阵。
其中,第一对齐点的坐标满足分布条件是指第一参照区域中,在x方向相距最远的两个第一对齐点与第一参照区域的横向宽度的比值小于比例阈值,和\或者在y方向相距最远的两个第一对齐点与第一参照区域的纵向高度的比值小于比例阈值。
其中,仿射变换矩阵是确定两个仿射空间映射关系的矩阵,用于进行仿射变换。仿射变换是线性变换和平移变换的叠加。透视变换是利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使透视面绕透视轴旋转某一角度,破坏原有的投影光线束,仍能保持透视面上投影几何图形不变的变换。透视变换矩阵是用于对图像进行透视变换的矩阵。服务器可以用最小二乘法拟合得到透视变换矩阵。
由于待识别的图像形变各异,例如,存在扭曲,这张,拉伸等,并且可能有比较杂乱的背景,以及对齐像素对可能具有多种分布情况,所以服务器根据第一对齐点的坐标满足分布条件采用不同的变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域,使得到的第二识别区域更加准确。
在一个实施例中,如图8所示,对齐像素对还包括第二参照区域中的第二对齐点;服务器得到第二识别区域包括如下步骤:
S802,当第一对齐点的坐标满足分布条件时,根据仿射变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;
S804,当第一对齐点的坐标不满足分布条件时,则服务器通过透视变换矩阵对第一对齐点进行映射计算,得到映射点。
S806,服务器计算映射点与第二对齐点之间的距离。
S808,服务器判断距离是否满足距离条件。当距离满足距离条件时,执行S810的步骤;当距离不满足距离条件时,执行S812的步骤。
S810,服务器根据透视变换矩阵将第一识别区域中映射至待识别图像中,并基于映射的结果得到第二识别区域;
S812,服务器计算第一对齐点的分布概率,并根据分布概率将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
其中,距离条件可以是一定百分比的映射点与第二对齐点之间的距离小于距离阈值。距离条件还可以是一定百分比的映射点与第二对齐点之间的距离与第二对齐点的横坐标或者纵坐标的比值小于比例阈值。例如,百分比可以是90%、80%等。
其中,分布概率是将第一参照区域分为多个子区域,分布有第一对齐点的子区域占所有子区域的比值。如果分布概率较高,说明第一对齐点分布的较为分散,如果分布概率较低,说明第一对齐点分布的较为集中。服务器根据第一对齐点的分布情况采用不同的方法将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
服务器根据映射点与第二对齐点之间的距离是否满足距离条件采用不同的变换矩阵,将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域,使服务器能够基于第一对齐点的分布情况对第一识别区域进行映射,得到的第二识别区域更加准确。
在一个实施例中,变换矩阵还包括区域子矩阵;根据分布概率将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域包括:当分布概率大于概率阈值时,通过薄板样条算法将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;当分布概率小于或等于概率阈值时,将第一识别区域分为至少四个子区域;分别通过子区域对应的区域子矩阵将子区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
其中,服务器可以将第一识别区域等分为至少四个子区域,也可以根据第一对齐点的分布情况,将第一识别区域分为至少四个子区域。服务器针对每个子区域计算得到对应的区域子矩阵。区域子矩阵是分别对第一识别区域的子区域进行映射的矩阵。
由于待识别图像中的各个区域的形变情况可能不同,例如,其中一个区域中的图像存在折叠或者弯曲等。服务器将第一识别区域分为至少四个子区域,针于每个子区域的形变情况计算得到对应的区域子矩阵,然后分别通过各个区域子矩阵将对应的子区域映射至待识别图像中,并基于映射的结果得到第二识别区域。所以,服务器得到的第二识别区域偏差较小,不会覆盖其它区域,从而即保证了识别出的文本信息的完整性,又不会识别出多余的文本信息。
在一个实施例中,如果服务器从第二识别区域中识别出多行文本信息,则服务器将多行文本信息进行合并,合并为单行的文本信息进行记录。
在一个实施例中,如果第二识别区域中存在表格,则服务器对表格进行识别,得到表格中文本信息。
在一个实施例中,服务器在获得模板图像中的第一识别区域时,获取第一识别区域对应的字段名。在识别出第二识别区域中的文本信息时,根据对应的字段名对第二识别区域中的文本信息进行存储。例如,第一识别区域对应的字段名为“金额”,服务器在识别出第二识别区域中的文本信息时,将识别出的文本信息存储在“金额”对应的字段中。
在一个实施例中,如图9所示,服务器对待识别图像中的文本进行识别包括如下步骤:
S902,服务器获取待识别图像以及模板图像;模板图像中包含第一参照区域和第一识别区域。
S904,服务器对待识别图像进行图像预处理。
S906,服务器判断处理后的待识别图像的方向是否与预设正向一致;若否,则按照预设正向对处理后的待识别图像进行旋转。
S908,服务器对待识别图像进行图像分割,得到至少一个候选区域;
S910,服务器对候选区域中图像进行文本识别,得到第一文本,以及对第一参照区域中图像进行文本识别,得到第二文本;
S912,服务器计算第一文本与第二文本的相似度;
S914,服务器根据计算得到的相似度,在候选区域中确定与第一参照区域匹配的第二参照区域。
S916,服务器分别从第一参照区域和第二参照区域中选取像素点,并在选取的像素点中,将分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对;
S918,当第一对齐点的坐标满足分布条件时,服务器根据仿射变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;
S920,当第一对齐点的坐标不满足分布条件时,服务器通过透视变换矩阵对第一对齐点进行映射计算,得到映射点,并计算映射点与第二对齐点之间的距离。
S922,服务器判断距离是否满足距离条件。当距离满足距离条件时,执行S924的步骤;当距离不满足距离条件时,执行S926的步骤。
S924,服务器根据透视变换矩阵将第一识别区域中映射至待识别图像中,并基于映射的结果得到第二识别区域;
S926,服务器计算第一对齐点的分布概率,并判断分布概率是否大于概率阈值。当分布概率大于概率阈值时,执行S928的步骤;当分布概率小于或等于概率阈值时,执行S930的步骤。
S928,服务器通过薄板样条算法将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
S930,服务器将第一识别区域分为至少四个子区域;分别通过子区域对应的区域子矩阵将子区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
S932,服务器判断第二识别区域中是否有表格,如果第二识别区域中有表格,则执行S934的步骤;如果第二识别区域中没有有表格,则执行S936的步骤。
S934,服务器对表格进行识别,得到文本信息。
S936,服务器对第二识别区域中的图像进行文本识别,得到文本信息。
S938,服务器输出文本信息。
上述S902至S938的具体内容可以参考上文所述的具体实现过程。
应该理解的是,虽然图2、3-9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3-9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种图像中的文本识别装置,包括:获取模块1002、确定模块1004、计算模块1006和文本识别模块1008,其中:
获取模块1002,用于获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;
确定模块1004,用于在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;
计算模块1006,用于基于所述第一参照区域和所述第二参照区域计算变换矩阵;
所述确定模块1004,还用于从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;
文本识别模块1008,用于对所述第二识别区域中的图像进行文本识别,得到文本信息。
上述实施例中,服务器首先获取待识别图像以及包含第一参照区域和第一识别区域的模板图像。然后服务器在待识别图像中,确定与第一参照区域匹配的第二参照区域,并基于第一参照区域和第二参照区域计算变换矩阵。最后,服务器从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域,并对第二识别区域中的图像进行文本识别,得到文本信息。由于,服务器是基于第一参照区域和第二参照区域计算得到变换矩阵,并通过变换矩阵得到第二识别区域,所得到的第二识别区域的范围更加准确,不会出现偏差,所以第二识别区域中能够包含完整的文本信息。
在一个实施例中,如图11所示,所述装置还包括:
灰度化处理模块1010,用于当所述待识别图像为彩色图像时,对所述待识别图像进行灰度化处理;
判断模块1012,用于判断处理后的待识别图像的方向是否与预设正向一致;
旋转模块1014,用于若否,则按照所述预设正向对所述处理后的待识别图像进行旋转。
在一个实施例中,所述确定模块1004,还用于:
对所述待识别图像进行图像分割,得到至少一个候选区域;
对所述候选区域中图像进行文本识别,得到第一文本,以及对所述第一参照区域中图像进行文本识别,得到第二文本;
计算所述第一文本与所述第二文本的相似度;
根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述确定模块1004,还用于:依次计算所述第一文本与所述第二文本中每段相同字符的个数与所述第二文本中字符个数之间的比值;
将所述比值中的最大比值确定为所述第一文本与所述第二文本的相似度;
所述根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域包括:
当所述候选区域中的目标候选区域对应的相似度大于相似度阈值时,将所述目标候选区域确定为与所述第一参照区域匹配的第二参照区域。
在一个实施例中,所述计算模块1006,还用于:
分别从所述第一参照区域和所述第二参照区域中选取像素点;
在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对;
基于所述对齐像素对的坐标计算变换矩阵。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述计算模块1006,还用于:
从所述第一参照区域中选取至少两个第一角点;以及,从所述第二参照区域中选取与所述第一角点对应的第二角点;
根据所述第一角点的坐标计算得到第一对齐点坐标;以及根据所述第二角点的坐标计算得到第二对齐点坐标;
获取所述第一对齐点坐标对应的所述第一对齐点以及所述第二对齐点坐标对应的所述第二对齐点;
所述在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对,包括:
将所述第一对齐点和所述第二对齐点作为对齐像素对。
在一个实施例中,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述计算模块1006,还用于:
从所述第一对齐点中选取至少三个第一目标对齐点;以及,从所述第二对齐点中选取至少三个第二目标对齐点;
当所述第一对齐点的坐标满足分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算仿射变换矩阵;
当所述第一对齐点的坐标不满足所述分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算得到透视变换矩阵。
在一个实施例中,所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述对齐像素对包括第一参照区域中的第一对齐点;所述确定模块1004,还用于:
当所述第一对齐点的坐标满足分布条件时,根据所述仿射变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述对齐像素对还包括所述第二参照区域中的第二对齐点;所述确定模块1004,还用于:
当所述第一对齐点的坐标不满足分布条件时,通过所述透视变换矩阵对所述第一对齐点进行映射计算,得到映射点;
计算所述映射点与所述第二对齐点之间的距离;
当所述距离满足距离条件时,根据所述透视变换矩阵将所述第一识别区域中映射至所述待识别图像中,并基于映射的结果得到第二识别区域的步骤;
所述装置还包括:
所述计算模块1006,当所述距离不满足所述距离条件时,还用于计算所述第一对齐点的分布概率,并根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,所述变换矩阵还包括区域子矩阵;所述计算模块1006,还用于:
当所述分布概率大于概率阈值时,通过薄板样条算法将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述分布概率小于或等于所述概率阈值时,将所述第一识别区域分为至少四个子区域;分别通过所述子区域对应的区域子矩阵将所述子区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
关于图像中的文本识别装置的具体限定可以参见上文中对于图像中的文本识别方法的限定,在此不再赘述。上述图像中的文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像中的文本识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像中的文本识别方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别图像以及模板图像;模板图像中包含第一参照区域和第一识别区域;在待识别图像中,确定与第一参照区域匹配的第二参照区域;基于第一参照区域和第二参照区域计算变换矩阵;从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域;对第二识别区域中的图像进行文本识别,得到文本信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当待识别图像为彩色图像时,对待识别图像进行灰度化处理;判断处理后的待识别图像的方向是否与预设正向一致;若否,则按照预设正向对处理后的待识别图像进行旋转。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对待识别图像进行图像分割,得到至少一个候选区域;对候选区域中图像进行文本识别,得到第一文本,以及对第一参照区域中图像进行文本识别,得到第二文本;计算第一文本与第二文本的相似度;根据计算得到的相似度,在候选区域中确定与第一参照区域匹配的第二参照区域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:依次计算第一文本与第二文本中每段相同字符的个数与第二文本中字符个数之间的比值;将比值中的最大比值确定为第一文本与第二文本的相似度;当候选区域中的目标候选区域对应的相似度大于相似度阈值时,将目标候选区域确定为与第一参照区域匹配的第二参照区域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别从第一参照区域和第二参照区域中选取像素点;在选取的像素点中,将分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对;基于对齐像素对的坐标计算变换矩阵。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;处理器执行计算机程序时还实现以下步骤:从第一参照区域中选取至少两个第一角点;以及,从第二参照区域中选取与第一角点对应的第二角点;根据第一角点的坐标计算得到第一对齐点坐标;以及根据第二角点的坐标计算得到第二对齐点坐标;获取第一对齐点坐标对应的第一对齐点以及第二对齐点坐标对应的第二对齐点;将第一对齐点和第二对齐点作为对齐像素对。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;变换矩阵包括仿射变换矩阵以及透视变换矩阵;处理器执行计算机程序时还实现以下步骤:从第一对齐点中选取至少三个第一目标对齐点;以及,从第二对齐点中选取至少三个第二目标对齐点;当第一对齐点的坐标满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算仿射变换矩阵;当第一对齐点的坐标不满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算得到透视变换矩阵。
在一个实施例中,变换矩阵包括仿射变换矩阵以及透视变换矩阵;对齐像素对包括第一参照区域中的第一对齐点;处理器执行计算机程序时还实现以下步骤:当第一对齐点的坐标满足分布条件时,根据仿射变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;当第一对齐点的坐标不满足分布条件时,根据透视变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,对齐像素对还包括第二参照区域中的第二对齐点;处理器执行计算机程序时还实现以下步骤:当第一对齐点的坐标不满足分布条件时,通过透视变换矩阵对第一对齐点进行映射计算,得到映射点;计算映射点与第二对齐点之间的距离;当距离满足距离条件时,根据透视变换矩阵将第一识别区域中映射至待识别图像中,并基于映射的结果得到第二识别区域的步骤;当距离不满足距离条件时,计算第一对齐点的分布概率,并根据分布概率将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,变换矩阵还包括区域子矩阵;处理器执行计算机程序时还实现以下步骤:当分布概率大于概率阈值时,通过薄板样条算法将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;当分布概率小于或等于概率阈值时,将第一识别区域分为至少四个子区域;分别通过子区域对应的区域子矩阵将子区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别图像以及模板图像;模板图像中包含第一参照区域和第一识别区域;在待识别图像中,确定与第一参照区域匹配的第二参照区域;基于第一参照区域和第二参照区域计算变换矩阵;从待识别图像中,根据变换矩阵确定与第一识别区域匹配的第二识别区域;对第二识别区域中的图像进行文本识别,得到文本信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当待识别图像为彩色图像时,对待识别图像进行灰度化处理;判断处理后的待识别图像的方向是否与预设正向一致;若否,则按照预设正向对处理后的待识别图像进行旋转。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对待识别图像进行图像分割,得到至少一个候选区域;对候选区域中图像进行文本识别,得到第一文本,以及对第一参照区域中图像进行文本识别,得到第二文本;计算第一文本与第二文本的相似度;根据计算得到的相似度,在候选区域中确定与第一参照区域匹配的第二参照区域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:依次计算第一文本与第二文本中每段相同字符的个数与第二文本中字符个数之间的比值;将比值中的最大比值确定为第一文本与第二文本的相似度;当候选区域中的目标候选区域对应的相似度大于相似度阈值时,将目标候选区域确定为与第一参照区域匹配的第二参照区域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别从第一参照区域和第二参照区域中选取像素点;在选取的像素点中,将分别属于第一参照区域与第二参照区域中的、且相互对应的像素点组成对齐像素对;基于对齐像素对的坐标计算变换矩阵。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;计算机程序被处理器执行时还实现以下步骤:从第一参照区域中选取至少两个第一角点;以及,从第二参照区域中选取与第一角点对应的第二角点;根据第一角点的坐标计算得到第一对齐点坐标;以及根据第二角点的坐标计算得到第二对齐点坐标;获取第一对齐点坐标对应的第一对齐点以及第二对齐点坐标对应的第二对齐点;将第一对齐点和第二对齐点作为对齐像素对。
在一个实施例中,对齐像素对包括第一参照区域中的第一对齐点以及第二参照区域中的第二对齐点;变换矩阵包括仿射变换矩阵以及透视变换矩阵;计算机程序被处理器执行时还实现以下步骤:从第一对齐点中选取至少三个第一目标对齐点;以及,从第二对齐点中选取至少三个第二目标对齐点;当第一对齐点的坐标满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算仿射变换矩阵;当第一对齐点的坐标不满足分布条件时,根据第一目标对齐点的坐标以及第二目标对齐点的坐标计算得到透视变换矩阵。
在一个实施例中,变换矩阵包括仿射变换矩阵以及透视变换矩阵;对齐像素对包括第一参照区域中的第一对齐点;计算机程序被处理器执行时还实现以下步骤:当第一对齐点的坐标满足分布条件时,根据仿射变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;当第一对齐点的坐标不满足分布条件时,根据透视变换矩阵将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,对齐像素对还包括第二参照区域中的第二对齐点;计算机程序被处理器执行时还实现以下步骤:当第一对齐点的坐标不满足分布条件时,通过透视变换矩阵对第一对齐点进行映射计算,得到映射点;计算映射点与第二对齐点之间的距离;当距离满足距离条件时,根据透视变换矩阵将第一识别区域中映射至待识别图像中,并基于映射的结果得到第二识别区域的步骤;当距离不满足距离条件时,计算第一对齐点的分布概率,并根据分布概率将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
在一个实施例中,变换矩阵还包括区域子矩阵;计算机程序被处理器执行时还实现以下步骤:当分布概率大于概率阈值时,通过薄板样条算法将第一识别区域映射至待识别图像中,并基于映射的结果得到第二识别区域;当分布概率小于或等于概率阈值时,将第一识别区域分为至少四个子区域;分别通过子区域对应的区域子矩阵将子区域映射至待识别图像中,并基于映射的结果得到第二识别区域。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种图像中的文本识别方法,其特征在于,所述方法包括:
获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;
在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;
基于所述第一参照区域和所述第二参照区域计算变换矩阵;
从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;
对所述第二识别区域中的图像进行文本识别,得到文本信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域之前,所述方法还包括:
当所述待识别图像为彩色图像时,对所述待识别图像进行灰度化处理;
判断处理后的待识别图像的方向是否与预设正向一致;
若否,则按照所述预设正向对所述处理后的待识别图像进行旋转。
3.根据权利要求1所述的方法,其特征在于,所述在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域,包括:
对所述待识别图像进行图像分割,得到至少一个候选区域;
对所述候选区域中图像进行文本识别,得到第一文本,以及对所述第一参照区域中图像进行文本识别,得到第二文本;
计算所述第一文本与所述第二文本的相似度;
根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域。
4.根据权利要求3所述的方法,其特征在于,所述计算所述第一文本与所述第二文本的相似度,包括:
依次计算所述第一文本与所述第二文本中每段相同字符的个数与所述第二文本中字符个数之间的比值;
将所述比值中的最大比值确定为所述第一文本与所述第二文本的相似度;
所述根据计算得到的相似度,在所述候选区域中确定与所述第一参照区域匹配的第二参照区域包括:
当所述候选区域中的目标候选区域对应的相似度大于相似度阈值时,将所述目标候选区域确定为与所述第一参照区域匹配的第二参照区域。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一参照区域和所述第二参照区域计算变换矩阵,包括:
分别从所述第一参照区域和所述第二参照区域中选取像素点;
在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对;
基于所述对齐像素对的坐标计算变换矩阵。
6.根据权利要求5所述的方法,其特征在于,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述分别从所述第一参照区域和所述第二参照区域中选取像素点,包括:
从所述第一参照区域中选取至少两个第一角点;以及,从所述第二参照区域中选取与所述第一角点对应的第二角点;
根据所述第一角点的坐标计算得到第一对齐点坐标;以及根据所述第二角点的坐标计算得到第二对齐点坐标;
获取所述第一对齐点坐标对应的所述第一对齐点以及所述第二对齐点坐标对应的所述第二对齐点;
所述在选取的像素点中,将分别属于所述第一参照区域与所述第二参照区域中的、且相互对应的像素点组成对齐像素对,包括:
将所述第一对齐点和所述第二对齐点作为对齐像素对。
7.根据权利要求5所述的方法,所述对齐像素对包括所述第一参照区域中的第一对齐点以及所述第二参照区域中的第二对齐点;所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;其特征在于,所述基于所述对齐像素对的坐标计算变换矩阵,包括:
从所述第一对齐点中选取至少三个第一目标对齐点;以及,从所述第二对齐点中选取至少三个第二目标对齐点;
当所述第一对齐点的坐标满足分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算仿射变换矩阵;
当所述第一对齐点的坐标不满足所述分布条件时,根据所述第一目标对齐点的坐标以及所述第二目标对齐点的坐标计算得到透视变换矩阵。
8.根据权利要求1所述的方法,其特征在于,所述变换矩阵包括仿射变换矩阵以及透视变换矩阵;所述对齐像素对包括第一参照区域中的第一对齐点;所述从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域,包括:
当所述第一对齐点的坐标满足分布条件时,根据所述仿射变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
9.根据权利要求8所述的方法,其特征在于,所述对齐像素对还包括所述第二参照区域中的第二对齐点;所述当所述第一对齐点的坐标不满足分布条件时,根据所述透视变换矩阵将所述第一识别区域中的像素点映射至所述待识别图像中,并基于映射的结果得到第二识别区域包括:
当所述第一对齐点的坐标不满足分布条件时,通过所述透视变换矩阵对所述第一对齐点进行映射计算,得到映射点;
计算所述映射点与所述第二对齐点之间的距离;
当所述距离满足距离条件时,根据所述透视变换矩阵将所述第一识别区域中映射至所述待识别图像中,并基于映射的结果得到第二识别区域的步骤;
所述方法还包括:当所述距离不满足所述距离条件时,计算所述第一对齐点的分布概率,并根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
10.根据权利要求9所述的方法,其特征在于,所述变换矩阵还包括区域子矩阵;所述根据所述分布概率将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域包括:
当所述分布概率大于概率阈值时,通过薄板样条算法将所述第一识别区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域;
当所述分布概率小于或等于所述概率阈值时,将所述第一识别区域分为至少四个子区域;分别通过所述子区域对应的区域子矩阵将所述子区域映射至所述待识别图像中,并基于映射的结果得到第二识别区域。
11.一种图像中的文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像以及模板图像;所述模板图像中包含第一参照区域和第一识别区域;
确定模块,用于在所述待识别图像中,确定与所述第一参照区域匹配的第二参照区域;
计算模块,用于基于所述第一参照区域和所述第二参照区域计算变换矩阵;
所述确定模块,还用于从所述待识别图像中,根据所述变换矩阵确定与所述第一识别区域匹配的第二识别区域;
文本识别模块,用于对所述第二识别区域中的图像进行文本识别,得到文本信息。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202011539938.2A 2020-12-23 2020-12-23 图像中的文本识别方法、装置、计算机设备和存储介质 Pending CN112613506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011539938.2A CN112613506A (zh) 2020-12-23 2020-12-23 图像中的文本识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011539938.2A CN112613506A (zh) 2020-12-23 2020-12-23 图像中的文本识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112613506A true CN112613506A (zh) 2021-04-06

Family

ID=75244734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011539938.2A Pending CN112613506A (zh) 2020-12-23 2020-12-23 图像中的文本识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112613506A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113408521A (zh) * 2021-07-16 2021-09-17 北京南昊科技股份有限公司 答题图片识别方法、批阅装置及存储介质
CN113591910A (zh) * 2021-06-24 2021-11-02 贵州国致科技有限公司 一种数码管显示仪表识别方法
CN113962199A (zh) * 2021-12-20 2022-01-21 腾讯科技(深圳)有限公司 文本识别方法、装置、设备、存储介质及程序产品
CN114419640A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN115205861A (zh) * 2022-08-17 2022-10-18 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065581A (ja) * 2004-08-26 2006-03-09 Matsushita Electric Works Ltd 文字・図形の認識方法および検査方法
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN110059711A (zh) * 2019-01-28 2019-07-26 阿里巴巴集团控股有限公司 图像的对齐方法、装置及设备
CN110569850A (zh) * 2019-08-20 2019-12-13 北京旷视科技有限公司 字符识别模板匹配方法、装置和文本识别设备
CN111353492A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种标准化文档的图像识别和信息提取方法及装置
CN111612009A (zh) * 2020-05-21 2020-09-01 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
CN111783770A (zh) * 2020-01-16 2020-10-16 北京沃东天骏信息技术有限公司 图像的矫正方法、装置和计算机可读存储介质
CN112001331A (zh) * 2020-08-26 2020-11-27 上海高德威智能交通系统有限公司 图像识别方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006065581A (ja) * 2004-08-26 2006-03-09 Matsushita Electric Works Ltd 文字・図形の認識方法および検査方法
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN110059711A (zh) * 2019-01-28 2019-07-26 阿里巴巴集团控股有限公司 图像的对齐方法、装置及设备
CN110569850A (zh) * 2019-08-20 2019-12-13 北京旷视科技有限公司 字符识别模板匹配方法、装置和文本识别设备
CN111783770A (zh) * 2020-01-16 2020-10-16 北京沃东天骏信息技术有限公司 图像的矫正方法、装置和计算机可读存储介质
CN111353492A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种标准化文档的图像识别和信息提取方法及装置
CN111612009A (zh) * 2020-05-21 2020-09-01 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
CN112001331A (zh) * 2020-08-26 2020-11-27 上海高德威智能交通系统有限公司 图像识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾迪;朱宁丹;杨宁华;吴思;李玉秀;赵明远;: "图像匹配方法研究综述", 中国图象图形学报, no. 05, 16 May 2019 (2019-05-16), pages 17 - 39 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269126A (zh) * 2021-06-10 2021-08-17 上海云扩信息科技有限公司 一种基于坐标转换的关键信息提取方法
CN113591910A (zh) * 2021-06-24 2021-11-02 贵州国致科技有限公司 一种数码管显示仪表识别方法
CN113408521A (zh) * 2021-07-16 2021-09-17 北京南昊科技股份有限公司 答题图片识别方法、批阅装置及存储介质
CN113408521B (zh) * 2021-07-16 2023-09-05 北京南昊科技股份有限公司 答题图片识别方法、批阅装置及存储介质
CN113962199A (zh) * 2021-12-20 2022-01-21 腾讯科技(深圳)有限公司 文本识别方法、装置、设备、存储介质及程序产品
CN114419640A (zh) * 2022-02-25 2022-04-29 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN114419640B (zh) * 2022-02-25 2023-08-11 北京百度网讯科技有限公司 文本处理方法、装置、电子设备及存储介质
CN115205861A (zh) * 2022-08-17 2022-10-18 北京睿企信息科技有限公司 一种获取异常文字识别区域的方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112613506A (zh) 图像中的文本识别方法、装置、计算机设备和存储介质
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN110569850B (zh) 字符识别模板匹配方法、装置和文本识别设备
CN110163193B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
CN111783770B (zh) 图像的矫正方法、装置和计算机可读存储介质
CN109740606B (zh) 一种图像识别方法及装置
WO2021012382A1 (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
RU2621601C1 (ru) Устранение искривлений изображения документа
CN113343740B (zh) 表格检测方法、装置、设备和存储介质
US11144752B1 (en) Physical document verification in uncontrolled environments
CN112926564B (zh) 图片分析方法、系统、计算机设备和计算机可读存储介质
CN112580499A (zh) 文本识别方法、装置、设备及存储介质
JP2012043433A (ja) 画像処理方法及び装置
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
CN112396047B (zh) 训练样本生成方法、装置、计算机设备和存储介质
CN113221897B (zh) 图像矫正方法、图像文本识别方法、身份验证方法及装置
CN112232336A (zh) 一种证件识别方法、装置、设备及存储介质
CN112036232A (zh) 一种图像表格结构识别方法、系统、终端以及存储介质
CN113313092B (zh) 手写签名识别方法、理赔自动化处理方法、装置和设备
CN114511865A (zh) 一种结构化信息的生成方法、装置和计算机可读存储介质
CN117274972B (zh) 基于深度学习和传统算法的证件版面分析方法
CN113496115B (zh) 文件内容比对方法和装置
Shukla et al. An approach for skew detection using hough transform
CN112287763A (zh) 图像处理方法、装置、设备及介质
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination