CN111414914A - 图像识别方法、装置、计算机设备和存储介质 - Google Patents
图像识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111414914A CN111414914A CN202010108052.6A CN202010108052A CN111414914A CN 111414914 A CN111414914 A CN 111414914A CN 202010108052 A CN202010108052 A CN 202010108052A CN 111414914 A CN111414914 A CN 111414914A
- Authority
- CN
- China
- Prior art keywords
- image
- identification
- target
- feature
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本申请涉及一种图像识别方法、装置、计算机设备和存储介质。所述方法包括:将识别图像与预先构建的参考图像进行匹配,得到所述识别图像与所述参考图像之间的映射关系;所述映射关系用于指示所述识别图像中的识别对象和所述参考图像中的参考对象之间的对应关系;根据所述参考图像中的参考对象和所述映射关系对所述识别图像进行检测,得到所述识别图像中的目标识别区域;根据预先设置的光学字符识别模型对所述目标识别区域进行文字识别,得到所述目标识别区域中的目标字段;根据所述目标字段和所述映射关系,确定所述识别图像中的目标文字信息。通过本发明实施例,缩短了开发时间,降低了开发难度。
Description
技术领域
本申请涉及图像识别技术领域,特别是涉及一种图像识别方法、装置、计算机设备和存储介质。
背景技术
随着大数据的快速发展,很多应用场景都需要预先收集大量信息。例如,在收集个人信息时,可以对多个证件照进行信息识别,得到每个证件照中的个人信息,然后再将提取出的个人信息汇总到一起。
在实际应用中,通常采用深度学习模型从照片中识别出相关信息。但是,深度学习模型的训练需要大量的标注数据,而大量的并且经过人工标注的数据往往难以实现;尤其是涉及到个人隐私的证件,深度学习模型的训练就更加难以实现了。
因此,如何从照片中识别出相关信息成为了亟待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够降低图像识别难度的图像识别方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种图像识别方法,该方法包括:
将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系;
根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;
根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;
根据目标字段和映射关系,确定识别图像中的目标文字信息。
在其中一个实施例中,上述将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系,包括:
对识别图像进行特征提取,得到识别图像的第一特征描述子;
将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;
在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
在其中一个实施例中,上述将第一特征描述子与第二特征描述子进行匹配,得到匹配特征对,包括:
针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;
若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;
其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
在其中一个实施例中,上述根据匹配特征对的特征点坐标确定映射关系,包括:
根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;
根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
在其中一个实施例中,在上述根据预先设置的光学字符识别模型对目标识别区域进行文字识别之前,该方法还包括:
根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
在其中一个实施例中,上述根据匹配特征对确定识别对象与参考对象匹配成功,包括:
若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
在其中一个实施例中,上述根据目标字段和映射关系,确定识别图像中的目标文字信息,包括:
根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;
将目标字段与目标格式信息对应,得到目标文字信息。
在其中一个实施例中,该方法还包括:
对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;
对中间图像中的可变字段进行遮挡处理,得到参考图像。
第二方面,本发明实施例提供了一种图像识别装置,该装置包括:
图像匹配模块,用于将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系;
目标识别区域检测模块,用于根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;
文字识别模块,用于根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;
目标文字信息确定模块,用于根据目标字段和映射关系确定识别图像中的目标文字信息。
在其中一个实施例中,上述图像匹配模块,包括:
特征提取子模块,用于对识别图像进行特征提取,得到识别图像的第一特征描述子;
匹配特征对获得子模块,用于将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;
映射关系确定子模块,用于在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
在其中一个实施例中,匹配特征对获得子模块,具体用于针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
在其中一个实施例中,上述映射关系确定子模块,具体用于根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
在其中一个实施例中,该装置还包括:
矫正模块,用于根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
在其中一个实施例中,映射关系确定子模块,具体用于若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
在其中一个实施例中,目标文字信息确定模块,具体用于根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;将目标字段与目标格式信息对应,得到目标文字信息。
在其中一个实施例中,该装置还包括:
中间图像获得模块,用于对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;
参考图像获得模块,用于对中间图像中的可变字段进行遮挡处理,得到参考图像。
第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法中的步骤。
上述图像识别方法、装置、计算机设备和存储介质,将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;根据目标字段和映射关系,确定识别图像中的目标文字信息。通过本发明实施例,在从图像中识别出目标文字信息的过程中,只需预先构建包含参考对象的参考图像即可,无需进行深度学习模型的训练,因而大大地缩短了开发时间;无需获得大量人工标注的训练样本,因而大大地降低了图像识别难度。
附图说明
图1为一个实施例中图像识别方法的应用环境图;
图2为一个实施例中图像识别方法的流程示意图;
图3为一个实施例中得到识别图像与参考图像之间的映射关系步骤的流程示意图;
图4为另一个实施例中图像识别方法的流程示意图;
图5为一个实施例中图像识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像识别方法,可以应用于如图1所示的应用环境中。该应用环境包括终端101。其中,终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
在一个实施例中,如图2所示,提供了一种图像识别方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤201,将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系。
本实施例中,预先构建参考图像,该参考图像只包含参考对象,且参考对象具有固定特征。例如,参考图像中只包含证件、票据等参考对象,证件中的姓名、证件编号以及票据中的票据名称等均为固定特征。
终端先获取识别图像,具体地,终端可以接收用户从多个图像中选取的识别图像,也可以接收用户输入的识别图像。其中,识别图像中包含识别对象。在获取到识别图像后,终端将识别图像与参考图像进行匹配,确定识别图像中的识别对象与参考图像中的参考对象是否匹配。如果识别对象与参考对象匹配,则根据识别对象和参考对象之间的对应关系确定映射关系;如果识别对象与参考对象不匹配,则退出图像识别。
例如,参考图像中的参考对象为身份证,如果识别图像中的识别对象也是身份证,则可以得到识别对象与参考对象匹配,进而得到识别图像与参考图像之间的映射关系。如果识别图像中的识别对象是驾照,则可以得到识别对象与参考对象不匹配,此时,退出图像识别。
步骤202,根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域。
本实施例中,在得到映射关系后,根据映射关系将参考图像中的参考对象的边框映射到识别图像中,得到识别图像中识别对象的检测框,检测框中的区域则为目标识别区域。本发明实施例对检测框的形状不作详细限定,可以根据实际情况进行设置
可以理解地,在确定目标识别区域的过程中,可以从识别图像中将识别对象以外的背景图像滤除掉,避免背景图像为后续的文字识别产生干扰,为后续的光学字符识别模型提供高质量的输入。
步骤203,根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段。
本实施例中,预先在终端中设置光学字符识别模型。其中,光学字符识别(OpticalCharacter Recognition,OCR)是指电子设备检查打印字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在确定识别图像中的目标识别区域之后,采用光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段。例如,对目标识别区域进行文字识别后,得到目标字段“姓名、XX、性别、男、民族、汉”等等。
步骤204,根据目标字段和映射关系,确定识别图像中的目标文字信息。
本实施例中,预先在参考图像中对文字格式、图标形式等进行标注,在得到识别图像与参考图像之间的映射关系后,可以将参考图像中的标注映射到识别图像中,得到识别图像中的标注,即得到目标识别区域中的文字格式、图标形式等。在从目标识别区域中识别出目标字段后,可以根据目标识别区域中的文字格式和图标形式,确定目标字段所对应的目标文字信息。
例如,在参考图像中对姓名进行标注,根据映射关系将参考图像中的标注映射到识别图像中,可以得到映射后的位置对应姓名,再根据目标识别区域中识别出的XX,可以确定目标文字信息为姓名是XX。
上述图像识别方法中,将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;根据目标字段和映射关系,确定识别图像中的目标文字信息。通过本发明实施例,在从图像中识别出目标文字信息的过程中,只需预先构建包含参考对象的参考图像即可,无需进行深度学习模型的训练,因而大大地缩短了开发时间;无需获得大量人工标注的训练样本,因而大大地降低了图像识别难度。
在另一个实施例中,如图3所示,本实施例涉及的是将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系步骤的一种可选的过程。在上述图2所示实施例的基础上,上述步骤201具体可以包括以下步骤:
步骤301,对识别图像进行特征提取,得到识别图像的第一特征描述子。
本实施例中,采用ORB(Oriented FAST and Rotated BRIEF)算法对识别图像进行特征提取,得到识别图像的第一特征描述子。其中,ORB算法采用FAST角点检测特征点,并采用BRIEF对检测出的特征点进行描述。ORB算法的运行时间远优于SIFT与SURF,并且具有尺度与旋转不变性,对噪声及透视仿射具有不变性等优点。特征描述子表达了一个特征点与其他特征点的区别,由于特征描述子描述出特征点的独特性,因此可以避免特征匹配错误,从而可以提高匹配准确率。
步骤302,将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对。
本实施例中,同样采用ORB算法预先对参考图像进行特征提取,得到参考图像的第二特征描述子。在得到识别图像的第一特征描述子之后,将第一特征描述子与第二特征描述子进行匹配,得到匹配特征对。
在其中一个实施例中,将第一特征描述子与第二特征描述子进行匹配,得到匹配特征对,具体可以包括:针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
例如,针对第一特征描述子A,采用FLANN(Fast Library for ApproximateNearest Neighbors,快速最近邻搜索包)算法确定第一特征描述子A与每个第二特征描述子的匹配距离,进而根据匹配距离查找出与第一特征描述子A对应的最近邻的第二特征描述子B1和次近邻的第二特征描述子B2。其中,第一特征描述子A与最近邻的第二特征描述子B1之间的第一匹配距离为M1,第一特征描述子A与次近邻的第二特征描述子B2之间的第二匹配距离为M2。如果第一匹配距离M1等于或者大于第二匹配距离M2的1.5倍,则确定最近邻的第二特征描述子B1与第一特征描述子A为匹配特征对;如果第一匹配距离M1小于第二匹配距离M2的1.5倍,则确定第一特征描述子A没有匹配的第二特征描述子。本发明实施例对预设倍数不作详细限定,可以根据实际情况进行设置。
步骤303,在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
本实施例中,先根据匹配特征对确定识别对象与参考对象是否匹配,具体地,若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。例如,预设数量为100,如果匹配特征对的数量为150,大于预设数量,则确定识别对象与参考对象匹配。若匹配特征对的数量不大于预设数量,则确定识别对象与参考对象匹配失败,退出图像识别。本发明实施例对预设数量不作详细限定,可以根据实际情况进行设置。
在一个实施例中,根据匹配特征对的数量还可以确定识别图像和参考图像的相似度。
在确定识别对象与参考对象匹配成功后,根据匹配特征对的特征点坐标确定映射关系,具体地,根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
例如,确定第一特征描述子A对应的第一特征点坐标为(x1,y1),确定与第一特征描述子匹配的第二特征描述子B1对应的第二特征点坐标为(u1,v1)。然后,建立第一特征点坐标(x1,y1)和第二特征点坐标(u1,v1)之间的对应关系。以此类推,得到多个第一特征点坐标和第二特征点坐标的对应关系,进而得到转移矩阵,将该转移矩阵作为识别图像和参考图像之间的映射关系。该转移矩阵可以是3×3矩阵,本发明实施例对此不作详细限定,可以根据实际情况进行设置。
上述将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系步骤中,对识别图像进行特征提取,得到识别图像的第一特征描述子;将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。通过本发明实施例,利用参考对象和识别对象具有固定特征的特点,根据特征描述子对识别图像和参考图像进行匹配,得到映射关系,为后续根据映射关系从识别对象中检测出目标识别区域,以及根据映射关系将目标字段与目标格式信息进行对应提供了依据。
在另一个实施例中,如图4所示,本实施例涉及的是图像识别方法的一种可选的过程。在上述实施例的基础上,具体可以包括以下步骤:
步骤401,对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;对中间图像中的可变字段进行遮挡处理,得到参考图像。
本实施例中,在构建参考图像时,先获取到原始图像,如果原始图像中参考对象不是正视角,则对原始图像进行视角矫正,得到中间图像,使得中间图像中参考对象为正视角。
在得到中间图像后,对中间图像中的可变字段进行遮挡处理。例如,对身份证中的具体姓名、民族、身份证编号等进行遮挡处理。本发明实施例对具体遮挡方式不作详细限定,可以根据实际情况进行设置。
步骤402,对识别图像进行特征提取,得到识别图像的第一特征描述子;将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对。
在其中一个实施例中,将第一特征描述子与第二特征描述子进行匹配,得到匹配特征对,包括:针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
步骤403,若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
步骤404,在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;将根据第一特征点坐标和第二特征点坐标确定的转移矩阵作为映射关系。
在其中一个实施例中,构建多个参考图像,每个参考图像中的参考对象不同;将识别图像与每个参考图像进行匹配,确定与识别图像匹配的参考图像;根据识别图像和与识别图像匹配的参考图像确定映射关系。
例如,构建参考图像C1、C2和C3,其中,参考图像C1中的参考对象为身份证,参考图像C2中的参考对象为驾照,参考图像C3中的参考对象为护照。将识别图像与参考图像C1、C2和C3进行匹配,识别图像中的识别对象为驾照,则可以确定识别图像与参考图像C2匹配,根据识别图像和参考图像C2确定映射关系。
步骤405,根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域。
步骤406,根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
本实施例中,在得到识别图像的目标识别区域之后,目标识别区域中的识别对象可能不是正视角,或者目标识别区域不是规则矩形。此时,可以对目标识别区域进行矫正处理,将目标识别区域中的识别图像矫正为正视角,或者将目标识别区域矫正为规则矩形。具体地,根据转移矩阵对目标识别区域中的各特征点坐标进行逆映射,即采用转移矩阵的逆矩阵对目标识别区域中的各特征点坐标进行转换,得到新的特征点坐标,根据新的特征点坐标得到目标识别区域中矫正后的图像。
可以理解地,对目标识别区域中的图像进行矫正处理,可以提高光学字符识别模型的识别准确率。
步骤407,根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段。
本实施例中,在对目标识别区域进行矫正处理后,对目标识别区域中矫正后的图像进行文字识别,得到目标字段。
步骤408,根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;将目标字段与目标格式信息对应,得到目标文字信息。
本实施例中,预先对参考图像进行标注,得到参考格式信息。例如,对身份证上的图标、不变字段、表格框线、表格角点等进行标注,得到参考格式信息。
在得到映射关系后,根据映射关系将参考格式信息映射到目标识别区域,则得到目标识别区域的目标格式信息。此时,将目标格式信息与光学字符识别模型识别出的目标字段进行对应,即可得到目标文字信息。例如,得到身份证中位置O为姓名,位置P为民族。
上述图像识别方法中,构建参考图像;将从识别图像中提取出的第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功;之后,根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;将根据第一特征点坐标和第二特征点坐标确定的转移矩阵作为映射关系;根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理;根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;将目标字段与目标格式信息对应,得到目标文字信息。通过本发明实施例,只需构建参考图像而无需训练深度学习模型,不仅缩短了开发时间,而且降低了图像识别难度。进一步地,根据映射关系确定目标识别区域,可以滤除背景图像,为光学字符识别模型提供高质量的输入;并且,对目标识别区域中的图像进行矫正处理,可以提高光学字符识别模型的识别准确率。
应该理解的是,虽然图2-图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种图像识别装置,包括:
图像匹配模块501,用于将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系;
目标识别区域检测模块502,用于根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;
文字识别模块503,用于根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;
目标文字信息确定模块504,用于根据目标字段和映射关系确定识别图像中的目标文字信息。
在其中一个实施例中,上述图像匹配模块,包括:
特征提取子模块,用于对识别图像进行特征提取,得到识别图像的第一特征描述子;
匹配特征对获得子模块,用于将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;
映射关系确定子模块,用于在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
在其中一个实施例中,匹配特征对获得子模块,具体用于针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
在其中一个实施例中,上述映射关系确定子模块,具体用于根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
在其中一个实施例中,该装置还包括:
矫正模块,用于根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
在其中一个实施例中,映射关系确定子模块,具体用于若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
在其中一个实施例中,目标文字信息确定模块,具体用于根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;将目标字段与目标格式信息对应,得到目标文字信息。
在其中一个实施例中,该装置还包括:
中间图像获得模块,用于对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;
参考图像获得模块,用于对中间图像中的可变字段进行遮挡处理,得到参考图像。
关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定,在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系;
根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;
根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;
根据目标字段和映射关系,确定识别图像中的目标文字信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对识别图像进行特征提取,得到识别图像的第一特征描述子;
将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;
在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;
若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;
其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;
根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;
将目标字段与目标格式信息对应,得到目标文字信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;
对中间图像中的可变字段进行遮挡处理,得到参考图像。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将识别图像与预先构建的参考图像进行匹配,得到识别图像与参考图像之间的映射关系;映射关系用于指示识别图像中的识别对象和参考图像中的参考对象之间的对应关系;
根据参考图像中的参考对象和映射关系对识别图像进行检测,得到识别图像中的目标识别区域;
根据预先设置的光学字符识别模型对目标识别区域进行文字识别,得到目标识别区域中的目标字段;
根据目标字段和映射关系,确定识别图像中的目标文字信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对识别图像进行特征提取,得到识别图像的第一特征描述子;
将第一特征描述子与参考图像的第二特征描述子进行匹配,得到匹配特征对;
在根据匹配特征对确定识别对象与参考对象匹配成功时,根据匹配特征对的特征点坐标确定映射关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
针对各第一特征描述子,从多个第二特征描述子中查找出与第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;
若最近邻的第二特征描述子与次近邻的第二特征描述子符合预设条件,则确定第一特征描述子与最近邻的第二特征描述子为匹配特征对;
其中,预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;第一匹配距离为最近邻的第二特征描述子与第一特征描述子之间的匹配距离,第二匹配距离为次近邻的第二特征描述子与第一特征描述子之间的匹配距离。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据匹配特征对确定第一特征描述子对应的第一特征点坐标和第二特征描述子对应的第二特征点坐标;
根据第一特征点坐标和第二特征点坐标确定转移矩阵作为映射关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据转移矩阵对目标识别区域中各特征点坐标进行矫正处理。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
若匹配特征对的数量大于预设数量,则确定识别对象与参考对象匹配成功。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据映射关系将参考图像中预先标注的参考格式信息映射为目标识别区域的目标格式信息;
将目标字段与目标格式信息对应,得到目标文字信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对包含参考对象的原始图像进行视角矫正,得到参考对象为正视角的中间图像;
对中间图像中的可变字段进行遮挡处理,得到参考图像。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种图像识别方法,其特征在于,所述方法包括:
将识别图像与预先构建的参考图像进行匹配,得到所述识别图像与所述参考图像之间的映射关系;所述映射关系用于指示所述识别图像中的识别对象和所述参考图像中的参考对象之间的对应关系;
根据所述参考图像中的参考对象和所述映射关系对所述识别图像进行检测,得到所述识别图像中的目标识别区域;
根据预先设置的光学字符识别模型对所述目标识别区域进行文字识别,得到所述目标识别区域中的目标字段;
根据所述目标字段和所述映射关系,确定所述识别图像中的目标文字信息。
2.根据权利要求1所述的方法,其特征在于,所述将识别图像与预先构建的参考图像进行匹配,得到所述识别图像与所述参考图像之间的映射关系,包括:
对所述识别图像进行特征提取,得到所述识别图像的第一特征描述子;
将所述第一特征描述子与所述参考图像的第二特征描述子进行匹配,得到匹配特征对;
在根据所述匹配特征对确定所述识别对象与所述参考对象匹配成功时,根据所述匹配特征对的特征点坐标确定所述映射关系。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征描述子与所述第二特征描述子进行匹配,得到匹配特征对,包括:
针对各所述第一特征描述子,从多个所述第二特征描述子中查找出与所述第一特征描述子对应的最近邻的第二特征描述子和次近邻的第二特征描述子;
若所述最近邻的第二特征描述子与所述次近邻的第二特征描述子符合预设条件,则确定所述第一特征描述子与所述最近邻的第二特征描述子为所述匹配特征对;
其中,所述预设条件包括第一匹配距离大于或等于第二匹配距离的预设倍数;所述第一匹配距离为所述最近邻的第二特征描述子与所述第一特征描述子之间的匹配距离,所述第二匹配距离为所述次近邻的第二特征描述子与所述第一特征描述子之间的匹配距离。
4.根据权利要求2所述的方法,其特征在于,所述根据所述匹配特征对的特征点坐标确定所述映射关系,包括:
根据所述匹配特征对确定所述第一特征描述子对应的第一特征点坐标和所述第二特征描述子对应的第二特征点坐标;
根据所述第一特征点坐标和所述第二特征点坐标确定转移矩阵作为所述映射关系。
5.根据权利要求4所述的方法,其特征在于,在所述根据预先设置的光学字符识别模型对所述目标识别区域进行文字识别之前,所述方法还包括:
根据所述转移矩阵对所述目标识别区域中各特征点坐标进行矫正处理。
6.根据权利要求2所述的方法,其特征在于,所述根据所述匹配特征对确定所述识别对象与所述参考对象匹配成功,包括:
若所述匹配特征对的数量大于预设数量,则确定所述识别对象与所述参考对象匹配成功。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标字段和所述映射关系,确定所述识别图像中的目标文字信息,包括:
根据所述映射关系将所述参考图像中预先标注的参考格式信息映射为所述目标识别区域的目标格式信息;
将所述目标字段与所述目标格式信息对应,得到所述目标文字信息。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
对包含所述参考对象的原始图像进行视角矫正,得到所述参考对象为正视角的中间图像;
对所述中间图像中的可变字段进行遮挡处理,得到所述参考图像。
9.一种图像识别装置,其特征在于,所述装置包括:
图像匹配模块,用于将识别图像与预先构建的参考图像进行匹配,得到所述识别图像与所述参考图像之间的映射关系;所述映射关系用于指示所述识别图像中的识别对象和所述参考图像中的参考对象之间的对应关系;
目标识别区域检测模块,用于根据所述参考图像中的参考对象和所述映射关系对所述识别图像进行检测,得到所述识别图像中的目标识别区域;
文字识别模块,用于根据预先设置的光学字符识别模型对所述目标识别区域进行文字识别,得到所述目标识别区域中的目标字段;
目标文字信息确定模块,用于根据所述目标字段和所述映射关系确定所述识别图像中的目标文字信息。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108052.6A CN111414914A (zh) | 2020-02-21 | 2020-02-21 | 图像识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108052.6A CN111414914A (zh) | 2020-02-21 | 2020-02-21 | 图像识别方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111414914A true CN111414914A (zh) | 2020-07-14 |
Family
ID=71490913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010108052.6A Pending CN111414914A (zh) | 2020-02-21 | 2020-02-21 | 图像识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414914A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949736A (zh) * | 2021-03-15 | 2021-06-11 | 浙江中控技术股份有限公司 | 一种特征匹配方法及相关设备 |
CN113516599A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 图像校正方法、装置和服务器 |
CN113673321A (zh) * | 2021-07-12 | 2021-11-19 | 浙江大华技术股份有限公司 | 目标重识别方法、目标重识别装置及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN110738119A (zh) * | 2019-09-16 | 2020-01-31 | 深圳市国信合成科技有限公司 | 一种票据识别方法、装置、设备及可读介质 |
-
2020
- 2020-02-21 CN CN202010108052.6A patent/CN111414914A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569850A (zh) * | 2019-08-20 | 2019-12-13 | 北京旷视科技有限公司 | 字符识别模板匹配方法、装置和文本识别设备 |
CN110738119A (zh) * | 2019-09-16 | 2020-01-31 | 深圳市国信合成科技有限公司 | 一种票据识别方法、装置、设备及可读介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949736A (zh) * | 2021-03-15 | 2021-06-11 | 浙江中控技术股份有限公司 | 一种特征匹配方法及相关设备 |
CN112949736B (zh) * | 2021-03-15 | 2023-07-21 | 浙江中控技术股份有限公司 | 一种特征匹配方法及相关设备 |
CN113516599A (zh) * | 2021-05-19 | 2021-10-19 | 中国工商银行股份有限公司 | 图像校正方法、装置和服务器 |
CN113673321A (zh) * | 2021-07-12 | 2021-11-19 | 浙江大华技术股份有限公司 | 目标重识别方法、目标重识别装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569850B (zh) | 字符识别模板匹配方法、装置和文本识别设备 | |
US10303968B2 (en) | Method and apparatus for image recognition | |
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US11055524B2 (en) | Data extraction pipeline | |
JP6244892B2 (ja) | 文書内の文字の局所的な拡大縮小、回転および表示位置に対して不変である光学的文字認識のためのワード検出 | |
CN111414914A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN110852311A (zh) | 一种三维人手关键点定位方法及装置 | |
JP2016048444A (ja) | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
CN111079571A (zh) | 证卡信息识别及其边缘检测模型训练方法、装置 | |
CN112183296B (zh) | 模拟票据图像生成、票据图像识别方法和装置 | |
CN113111880B (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN112308046A (zh) | 图像的文本区域定位方法、装置、服务器及可读存储介质 | |
CN112001389A (zh) | 一种多场景视频中文本信息识别方法、装置及电子设备 | |
CN110245570B (zh) | 扫描文本分段方法、装置、计算机设备和存储介质 | |
CN112418206B (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
CN110796145A (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
US9514451B2 (en) | Method, apparatus and system for information identification | |
JP2008282094A (ja) | 文字認識処理装置 | |
CN110909733A (zh) | 基于ocr图片识别的模版定位方法、装置和计算机设备 | |
CN113610090B (zh) | 印章图像识别分类方法、装置、计算机设备和存储介质 | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
CN112070092A (zh) | 一种验证码参数的获取方法及装置 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |