CN112396057A - 一种字符识别方法、装置及电子设备 - Google Patents
一种字符识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112396057A CN112396057A CN201910745334.4A CN201910745334A CN112396057A CN 112396057 A CN112396057 A CN 112396057A CN 201910745334 A CN201910745334 A CN 201910745334A CN 112396057 A CN112396057 A CN 112396057A
- Authority
- CN
- China
- Prior art keywords
- recognized
- image
- certificate
- anchor point
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明实施例提供了一种字符识别方法、装置及电子设备。该方法包括:获取待识别图像,其中,待识别图像包括待识别证件的图像数据;将待识别图像输入到预设的识别模型中,得到待识别证件中的每个锚点在待识别图像中的第一位置信息;其中,识别模型是基于训练样本和训练样本的标签信息训练得到的;基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。与现有技术相比,应用本发明实施例提供的方案,可以简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
Description
技术领域
本发明涉及智能分析技术领域,特别是涉及一种字符识别方法、装置及电子设备。
背景技术
当前,在日常工作和生活中,用户经常会使用到各种具有固定格式的证件,例如,营业执照、身份证、发票等。在很多情况中,需要对这些证件中的相关字符进行识别,来获取与用户相关的各类信息。例如,通过扫描用户的身份证,获取用户的姓名、身份证号码等。
相关技术中,识别证件中的字符的方法是:获取包括待识别证件的图像数据的待识别图像,对待识别证件中的各个字符进行定位,根据各个字符的定位结果以及预先设定的证件模板中各个待识别字符区域的位置信息,对待识别证件中的各个字符进行区域划分,定位待识别证件中的各个待识别字符区域,并根据定位结果,对待识别图像进行分割。进而,对分割得到的各个待识别字符区域进行字符识别,得到待识别证件的字符识别结果。
然而,在相关技术中,由于需要对待识别证件中的所有字符以及多个字符构成的各个待识别字符区域均进行定位,并对各个待识别字符区域进行分割后才能对各个待识别字符区域进行字符识别,因此,相关技术中,对识别证件中的字符进行识别的过程较为复杂,识别效率较低。
发明内容
本发明实施例的目的在于提供一种字符识别方法、装置、电子设备及计算机可读存储介质,以实现简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。具体技术方案如下:
第一方面,本发明实施例提供了一种字符识别方法,所述方法包括:
获取待识别图像,其中,所述待识别图像包括待识别证件的图像数据;
将所述待识别图像输入到预设的识别模型中,得到所述待识别证件中的每个锚点在所述待识别图像中的第一位置信息;其中,所述识别模型是基于训练样本和训练样本的标签信息训练得到的,所述训练样本为:包括样本证件的图像数据的图像;所述标签信息为:所述样本证件中的锚点在所述训练样本中的位置信息;每个锚点与对应的待识别字符区域在所述样本证件中具有固定的位置关系;
基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到所述待识别图像的识别结果。
可选的,一种具体实现方式中,所述识别模型的训练方式,包括:
获取包括样本证件的图像数据的图像,作为训练样本,并获取所述样本证件中的各个锚点在所述训练样本中的位置信息,作为所述训练样本的标签信息;
基于所述训练样本以及所述训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
可选的,一种具体实现方式中,所述基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
针对每一锚点,确定该锚点在所述待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;其中,所述标准模板的图像区域与所述标准模板所包括的证件图像的区域大小相同;
基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
可选的,一种具体实现方式中,所述基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
利用所述对应关系,调整所述待识别证件的图像区域中各个像素点在所述待识别图像中的位置,得到所述待识别图像的校正图像;其中,所述校正图像为:所述校正图像的图像区域与所述校正图像所包括的待识别证件图像的区域大小相同;
根据所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域在所述校正图像中的第二位置信息。
可选的,一种具体实现方式中,所述基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
根据所述固定的位置关系,确定每个锚点对应的待识别字符区域在所述标准模板中的第三位置信息;
按照所述对应关系,对所述第三位置信息进行坐标转换,得到所述待识别证件中的每个锚点对应的待识别字符区域在所述待识别图像中的第二位置信息。
可选的,一种具体实现方式中,所述方法还包括:
输出关于所述待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
第二方面,本发明实施例提供了一种字符识别装置,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像包括待识别证件的图像数据;
第一位置信息获取模块,用于将所述待识别图像输入到预设的识别模型中,得到所述待识别证件中的每个锚点在所述待识别图像中的第一位置信息;其中,所述识别模型是基于训练样本和训练样本的标签信息训练得到的,所述训练样本为:包括样本证件的图像数据的图像;所述标签信息为:所述样本证件中的锚点在所述训练样本中的位置信息;每个锚点与对应的待识别字符区域在所述样本证件中具有固定的位置关系;
第二位置信息获取模块,用于基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
字符识别模块,用于对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到所述待识别图像的识别结果。
可选的,一种具体实现方式中,所述装置还包括:模型训练模块,用于训练所述识别模型;所述模型训练模块包括:
样本获取子模块,用于获取包括样本证件的图像数据的图像,作为训练样本,并获取所述样本证件中的各个锚点在所述训练样本中的位置信息,作为所述训练样本的标签信息;
模型训练子模块,用于基于所述训练样本以及所述训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
可选的,一种具体实现方式中,所述第二位置信息获取模块包括:
关系确定子模块,用于针对每一锚点,确定该锚点在所述待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;其中,所述标准模板的图像区域与所述标准模板所包括的证件图像的区域大小相同;
位置获取子模块,用于基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
可选的,一种具体实现方式中,所述位置获取子模块具体用于:
利用所述对应关系,调整所述待识别证件的图像区域中各个像素点在所述待识别图像中的位置,得到所述待识别图像的校正图像;其中,所述校正图像为:所述校正图像的图像区域与所述校正图像所包括的待识别证件图像的区域大小相同;根据所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域在所述校正图像中的第二位置信息。
可选的,一种具体实现方式中,所述位置获取子模块具体用于:
根据所述固定的位置关系,确定每个锚点对应的待识别字符区域在所述标准模板中的第三位置信息;按照所述对应关系,对所述第三位置信息进行坐标转换,得到所述待识别证件中的每个锚点对应的待识别字符区域在所述待识别图像中的第二位置信息。
可选的,一种具体实现方式中,所述装置还包括:
结果输出模块,用于输出关于所述待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面提供的一种字符识别方法中任一所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面提供的一种字符识别方法中任一所述的方法步骤。
以上可见,应用本发明实施例提供的方案,在获取到包括待识别证件的图像数据的待识别图像后,便可以利用预设的识别模型,得到待识别证件中的每个锚点的在待识别图像中的第一位置信息。这样,由于在具有固定格式的证件中,每个锚点与对应的待识别字符区域之间具有固定的位置关系,因此,便可以基于所得到的第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置细腻,从而,对所确定的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。显然,在本发明实施例提供的方案中,只需要利用预设模型确定待识别证件中各个锚点的位置信息,便可以直接确定各个待识别字符区域,从而简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种字符识别方法的流程示意图;
图2为本发明实施例提供的一种待识别图像的示意图;
图3为本发明实施例提供的另一种字符识别方法的流程示意图;
图4为本发明实施例提供的一种识别模型的训练方式的流程示意图;
图5为图1中步骤S103的一种具体实现方式的流程示意图;
图6为本发明实施例提供的一种标准模板的示意图;
图7为图5中步骤S502的一种具体实现方式的流程示意图;
图8为本发明实施例提供的得到待识别图像的校正图像的一个具体实施例的示意图;
图9为图5中步骤S502的另一种具体实现方式的流程示意图;
图10为本发明实施例提供的一种待识别装置的结构示意图;
图11为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在识别证件中的字符时,由于需要对待识别证件中的所有字符以及多个字符构成的各个待识别字符区域均进行定位,并对各个待识别字符区域进行分割后才能对各个待识别字符区域进行字符识别,因此,相关技术中,对识别证件中的字符进行识别的过程较为复杂,识别效率较低。为了解决上述技术问题,本发明实施例提供了一种字符识别方法。
下面,首先对本发明实施例提供的一种字符识别方法进行介绍。
图1为本发明实施例提供的一种字符识别方法的流程示意图。其中,该方法可以应用于任一需要进行字符识别的电子设备,例如,手机、笔记本电脑、台式电脑等。对此,本发明实施例不做具体限定,以下简称电子设备。
如图1所示,本发明实施例提供的一种字符识别方法可以包括如下步骤:
S101:获取待识别图像,
其中,待识别图像包括待识别证件的图像数据;
在需要对待识别证件中的字符进行识别时,电子设备可以首先获取待识别图像,其中,由于是对待识别证件中的字符进行识别,因此,所获取的待识别图像中包括待识别证件的图像数据。
例如,假设待识别证件为某个用户的身份证,则电子设备所获得的包括该身份证的图像数据的待识别图像可以如图2所示。其中,图2仅是本发明实施例提供的一种待识别图像的示意图,不具有任何限定意义。
具体的,电子设备在获取待识别图像时,可以采用数字摄像机、扫描仪或者其他感光设备对待识别证件进行拍摄,从而得到待识别图像;也可以获取与电子设备通信连接的其他电子设备发送的待识别图像。这都是合理的。
S102:将待识别图像输入到预设的识别模型中,得到待识别证件中的每个锚点在待识别图像中的第一位置信息;
其中,识别模型是基于训练样本和训练样本的标签信息训练得到的,训练样本为:包括样本证件的图像数据的图像;标签信息为:样本证件中的锚点在训练样本中的位置信息;每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系;
在获取到待识别图像后,电子设备便可以将该待识别图像输入到预设的识别模型中,从而得到该识别模型输出的识别结果,该识别结果为该待识别图像所包括的待识别证件中的各个锚点在待识别图像中的第一位置信息。
其中,在本具体实现方式中,所谓锚点是待识别证件中的特征点,用于表征待识别证件中所需识别字符所在待识别字符区域在待识别证件中的位置。通常,可以将锚点设定为待识别证件中,位于一待识别字符区域中所包括的各个字符的首字符之前的字符。
例如,假设样本证件为身份证,则如图2所示,其中,则可以将待识别证件中的字符“姓”、“族”、“地”和“码”设定为锚点,则锚点“姓”、“族”、“地”和“码”对应的待识别字符区域中字符是身份证中姓名、民族、地址和公民身份号码的具体内容的字符。
需要说明的是,也可以将锚点设定为待识别证件中的其他能够表征待识别证件中所需识别字符所在待识别字符区域在待识别证件中的位置的特征点。这都是合理的。
其中,电子设备可以预先构建初始模型,并获取训练样本和训练样本的标签信息,然后,将训练样本和训练样本的标签信息输入到该初始模型中进行训练,进而,得到训练完成的识别模型。在训练过程中,初始模型可以学习训练样本中包括的样本证件中各个锚点的特征,输出样本证件中的各个锚点在训练样本中的位置信息,经过对大量训练样本的学习,初始模型逐步建立样本证件中各个锚点的特征与各个锚点在训练样本中的位置信息的对应关系,进而得到训练完成的识别模型。
进而,训练完成的识别模型也就可以用于对待识别图像所包括的待识别证件中的各个锚点进行检测,输出待识别证件中的每个锚点在待识别图像中的第一位置信息。
其中,上述样本证件是与上述待识别证件类型相同的证件。例如,待识别证件为身份证,则样本证件即为身份证;待识别正证件为营业执照,则样本证件即为营业执照。
为了行文清晰,后续将会对上述识别模型的具体训练方式进行举例说明。
S103:基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
在得到待识别证件中的每个锚点在待识别图像中的第一位置信息后,由于每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系,因此,针对待识别证件中的每个锚点,电子设备便可以基于该锚点在待识别图像中的第一位置信息以及该锚点与对应的待识别字符区域在样本证件中具有的固定位置关系,确定该锚点对应的待识别字符区域的第二位置信息。
S104:对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。
在确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息后,电子设备便可以根据所确定的第二位置信息,确定该锚点对应的待识别字符区域。这样,电子设备便可以对该锚点对应的待识别字符区域中的字符进行识别,从而得到待识别图像的识别结果。
其中,电子设备可以通过多种方式执行上述步骤S104,对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。
可选的,一个具体实施例中,针对所确定的每一第二位置信息对应的待识别字符区域,电子设备可以对该区域进行字符分割,从而得到该区域所包括的每一字符对应的字符识别框,其中,每一字符识别框中包括该区域所包括的一个字符。进而,将所得到的每一字符识别框输入到预设的用于识别字符的神经网络模型中,得到该字符识别框的识别结果,即获得该字符识别框中的字符。
具体的,在上述神经网络模型中,首先,使用CNN(Convolutional NeuralNetwork,卷积神经网络)对各个字符识别框进行特征提取。进而,使用RNN(RecurrentNeural Network,循环神经网络)针对每个字符识别框,根据该字符识别框所包括的字符在待识别区域中的上下文,基于在CNN中提取到的包括该上下文的字符识别框的特征,对提取到的该字符识别框的特征进行上下文相关的特征隐层建模。然后,针对该区域所包括的每个字符识别框对应的特征所构成的特征序列,使用分类器和序列解码器,完成对该特征序列与字符串结果的转换,从而得到该区域中该所包括的字符的识别结果。
此外,为了能够更准确地确定待识别证件中的每个锚点对应的待识别字符区域,提高对待识别证件的字符识别的准确率。可选的,一种具体实现方式中,可以利用神经网络对待识别图像中每个锚点对应的待识别字符区域进行定位。
其中,一种实施例中,获取多个包括样本证件的图像数据的图像作为训练样本,并在每个训练样本中对所包括的样本证件中每个锚点对应的待识别文字区域进行标注。例如,用矩形框将每个锚点对应的待识别文字区域框选出来等。便可以利用标记后的训练样本对预设的神经网络模型进行训练,从而使得该神经网络模型对每个训练样本中标注出的每个锚点对应的待识别文字区域进行学习。通过对大量标注后的训练样本的学习,该神经网络模型便可以逐步建立训练样本和所包括样本证件中每个锚点对应的待识别文字区域在该训练样本的位置的对应关系,从而,得到训练完成的神经网络模型。其中,该神经网络模型可以是CNN,也可以是RNN,这都是合理的。
这样,在执行完上述步骤S103,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息后,便可以在待识别图像中标注出所确定的第二位置信息,进而将标注后的待识别图像输入到上述训练完成的神经网络模型中,利用该训练完成的神经网络模型中所建立的对应关系,对上述步骤S103中所确定的第二位置信息进行校正,从而得到最终的待识别字符区域。
可选的,一种具体实现方式中,如图3所示,本发明实施例提供的一种字符识别方法中,还可以包括如下步骤S105:
S105:输出关于待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
在上述步骤S104中,电子设备可以获得待识别证件中每个锚点对应的待识别字符区域中的字符识别结果,因此,电子设备可以获取待识别证件中每个锚点的锚点内容与字符识别结果的对应关系。进而,针对每个锚点,电子设备可以得到一个结果条目,该条目中包括该锚点的锚点内容和该锚点对应的待识别字符区域中的字符识别结果。进一步的,电子设备便可以输出该结果条目。
基于此,在执行完上述步骤S104,得到待识别证件中每个锚点对应的字符识别结果后,电子设备便可以输出关于待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
例如,假设待识别证件为某个用户的身份证,锚点为“名”字和“码”,则电子设备所输出的结果条目为:“姓名-XXX”和“公民身份号码-YYY”。
以上可见,应用本发明实施例提供的方案,在获取到包括待识别证件的图像数据的待识别图像后,便可以利用预设的识别模型,得到待识别证件中的每个锚点的在待识别图像中的第一位置信息。这样,由于在具有固定格式的证件中,每个锚点与对应的待识别字符区域之间具有固定的位置关系,因此,便可以基于所得到的第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置细腻,从而,对所确定的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。显然,在本发明实施例提供的方案中,只需要利用预设模型确定待识别证件中各个锚点的位置信息,便可以直接确定各个待识别字符区域,从而简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
下面,对本发明实施例提供的一种识别模型的训练方式进行举例说明。
可选的,一种具体实现方式中,如图4所示,上述识别模型的训练方式可以包括如下步骤:
S401:获取包括样本证件的图像数据的图像,作为训练样本,并获取样本证件中的各个锚点在训练样本中的位置信息,作为训练样本的标签信息;
S402:基于训练样本以及训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
电子设备在训练上述识别模型时,可以预先构建初始模型,其中,该初始模型可以为各类神经网络模型,例如,CNN模型,RNN模型等,当然,该初始模型也可以为其他模型,对此,本发明实施例不做具体限定。
进而,电子设备便可以获取包括样本证件的图像数据的图像,并将所获取的图像作为训练样本。其中,不同的训练样本中可以包括同一样本证件,也可以包括不同的样本证件。当不同的训练样本中包括同一样本证件时,不同训练样本中所包括的样本证件的图像大小、形状等可以不同。而不同的训练样本中包括不同的样本证件时,不同训练样本中所包括的样本证件的图像大小、形状等可以不同,也可以相同。这都是合理的。
其中,上述样本证件是与上述待识别证件类型相同的证件。例如,待识别证件为身份证,则样本证件即为身份证;待识别正证件为营业执照,则样本证件即为营业执照。
进一步的,在确定样本证件类型后,可以根据该类型的样本证件所具有的固定格式,选择该样本证件中具有代表性的点作为锚点,其中,锚点可以是一个字符也可以是一个图案,这都是合理的。同时,针对每个锚点,确定该锚点对应的待识别字符区域。由于样本证件具有固定格式,因此,每个锚点与对应的待识别字符区域之间具有固定的位置关系。
例如,假设样本证件为身份证,则如图2所示,其中,字符“姓”、“族”、“地”和“码”为锚点,身份证中姓名、民族、地址和公民身份号码的具体内容所在的区域分别为锚点“姓”、“族”、“地”和“码”对应的待识别字符区域。
这样,获取训练样本后,针对每个训练样本,电子设备便可以获取样本证件中的各个锚点在训练样本中的位置信息,并将该位置信息作为该训练样本的标签信息。
其中,电子设备可以通过多种方式获取训练样本的标签信息。例如,电子设备可以通过文字检测识别,在训练样本中获取各个锚点,进而,确定各个锚点在训练样本中的位置信息;又例如,电子设备可以获取人工标注的各个锚点在训练样本中的位置信息。这都是合理的。
此外,电子设备所获取的训练样本的数量可以根据实际应用中对字符识别的准确率的需求进行确定。其中,当对字符识别的准确率的需求较高时,可以获取较多的训练样本。
在获取训练样本和训练样本的标签信息后,电子设备便可以基于训练样本以及训练样本的标签信息,对预设的初始模型进行训练,并在满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
具体的,在训练过程中,初始模型可以学习训练样本中包括的样本证件中各个锚点的特征,输出样本证件中的各个锚点在训练样本中的位置信息,经过对大量训练样本的学习,初始模型逐步建立样本证件中各个锚点的特征与各个锚点在训练样本中的位置信息的对应关系,进而得到训练完成的识别模型。
其中,在每次迭代学习后,电子设备可以通过对比所学习到的各个锚点在训练样本中的位置信息与该训练样本的标签信息,确定预设的损失函数的取值。其中,损失函数的取值越大,说明所学习到的各个锚点在训练样本中的位置信息与该训练样本的标签信息之间的误差越大。进而,经过多次迭代,当损失函数的取值小于预设阈值时,说明所学习到的各个锚点在训练样本中的位置信息与该训练样本的标签信息之间的误差已经降低到实际应用的允许范围内。这样,便可以停止模型训练,得到训练完成的识别模型。其中,上述预设阈值可以根据实际应用中对字符识别的准确率的需求进行确定,预设阈值越低,则说明实际应用中对字符识别的准确率的需求越高。
此外,也可以是在迭代次数达到预设次数时,停止模型训练,得到训练完成的识别模型。其中,上述预设次数可以根据实际应用中对字符识别的准确率的需求进行确定,预设次数越大,则说明实际应用中对字符识别的准确率的需求越高。
其中,在图1所示的本发明实施例提供的一种字符识别方法中,电子设备在执行上述步骤S102时所采用的识别模型可以是电子设备训练得到的,也可以是与电子设备通讯连接的其他电子设备训练得到,发送给电子设备的。这都是合理的。
下面,对电子设备执行上述步骤S103,基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的方式进行举例说明。
可选的,一种具体实现方式中,如图5所示,电子设备执行上述步骤S103的方式可以包括如下步骤:
S501:针对每一锚点,确定该锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;
其中,标准模板的图像区域与标准模板所包括的证件图像的区域大小相同;
S502:基于对应关系和固定的位置关系,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
在对待识别图像中的待识别证件进行字符识别时,电子设备可以预先构建该待识别证件的标准模板。其中,标准模板所包括的证件图像区域与标准模板的图像区域大小相同。且该标准模板所包括的证件与待识别证件的类型相同。进一步的,由于待识别证件与标准模板所包括的证件为同一类型的证件,因此,针对待识别证件中的每一锚点,可以在标准模板中找到与该锚点相对应的锚点。
例如,假设待识别证件为身份证,则待识别证件的标准模板如图6所示。假设待识别证件中的字符“姓”、“族”、“地”和“码”为锚点,则可以在图6所示的标准模板中找到同样的字符“姓”、“族”、“地”和“码”。其中,待识别证件中的字符“姓”、“族”、“地”和“码”分别与标准模板中的字符“姓”、“族”、“地”和“码”一一对应。
进一步的,电子设备还可以获得每一锚点在标准模板中的位置信息。其中,电子设备可以通过多种方式获取获得每一锚点在标准模板中的位置信息。例如,电子设备可以通过文字检测识别,在标准模板中获取各个锚点,进而,确定各个锚点在标准模板中的位置信息;又例如,电子设备可以获取人工标注的各个锚点在标准模板中的位置信息。这都是合理的。
基于此,在得到待识别证件中的每个锚点在待识别图像中的第一位置信息后,针对每一锚点,电子设备便可以获得确定每个锚点在待识别图像中的第一位置信息以及该锚点在标准模板中的位置信息,进而,电子设备便可以确定该锚点的第一位置信息与在标准模板中的位置信息之间的对应关系。
具体的,电子设备可以预先在待识别图像中和标注模板中构建二维坐标系,则每个锚点在待识别图像中的第一位置信息以及该锚点在标准模板中的位置信息便可以分别通过二维坐标(X1,Y1)和(X2,Y2)表示。这样,计算得到的二维坐标(X1,Y1)和(X2,Y2)之间的对应关系为P。
进一步的,由于待识别证件具有固定格式,因此,在标准模板中每个锚点与对应的待识别字符区域具有固定的位置关系。这样,电子设备根据该固定的位置关系,电子设备可以确定每个锚点在标准模板中对应的待识别字符区域的位置信息。显然,针对每个锚点,该锚点的第一位置信息与在标准模板中的位置信息之间的对应关系,即为该锚点对应的待识别字符区域在待识别图像中的位置信息与在标准模板中的位置信息之间的对应关系。
进而,针对每一锚点,在确定该锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系后,电子设备便可以执行上述步骤S502,基于对应关系和固定的位置关系,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
其中,电子设备可以通过多种方式执行上述步骤S502,对此,本发明实施例不做具体限定。
可选的,一种具体实现方式中,如图7所示,电子设备执行上述步骤S502的方式可以包括如下步骤:
S701:利用对应关系,调整待识别证件的图像区域中各个像素点在待识别图像中的位置,得到待识别图像的校正图像;
其中,校正图像为:校正图像的图像区域与校正图像所包括的待识别证件图像的区域大小相同;
S702:根据固定的位置关系,确定待识别证件中的每个锚点对应的待识别字符区域在校正图像中的第二位置信息。
针对每一锚点,在确定该锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系后,电子设备便可以利用该对应关系,调整待识别证件的图像区域中各个像素点在待识别图像中的位置,得到待识别图像的校正图像。即电子设备利用所确定的对应关系,调整待识别图像中所包括的待识别证件的图像的位置和大小,从而使得待识别图像中待识别证件的图像区域与待识别图像的图像区域大小相同。
具体的,按照每个锚点在标准模板中的位置信息,调整每个锚点在待识别图像中的位置,使每个锚点在待识别图像中的位置信息与在标准模板中的位置信息相同。进而,根据所确定的每个锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系,在标准模板中确定与待识别证件的图像区域中的每个像素点对应的像素点。这样,针对上述每个像素点,便可以根据该像素点在标准模板中的位置信息,调整待识别证件的图像区域中与该像素点对应的像素点的位置,使调整后的该像素点在待识别图像中的位置信息与该像素点在标准模板中的位置信息相同。这样,在对待识别证件的图像区域中的每个像素点进行位置调整后,便可以得到待识别区域的校正图像。
其中,由于校正图像是利用每一锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系,调整待识别证件的图像区域中各个像素点在待识别图像中的位置得到的,因此,所得到的校正图像的图像区域与标准模板的图像区域大小相同,且每一锚点在校正图像中的位置信息与该锚点在标准模板中的位置信息是相同的。显然,每一锚点对应的待识别字符区域在校正图像中的位置信息与该待识别字符区域在标准模板中的位置信息也相同。
例如,假设待识别证件为身份证,待识别证件中的字符“姓”、“族”、“地”和“码”为锚点,如图8所示,左图为待识别图像,右图为待识别图像的校正图像。
基于此,在得到待识别图像的校正图像后,电子设备便可以将每个锚点在标准模板中的位置信息作为每个锚点在校正图像中的位置信息。进而,由于每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系,因此,根据标准模板的图像区域大小与样本证件的大小关系,电子设备可以确定每个锚点与对应的待识别字符区域在标准模板中的固定位置关系。进而,电子设备便可以确定每个锚点对应的待识别字符区域在标准模板中的位置信息,即确定待识别证件中的每个锚点对应的待识别字符区域在校正图像中的第二位置信息。
具体的,电子设备可以预先在标注模板和样本证件中构建二维坐标系,则每个锚点在标准模板中的位置信息便可以通过二维坐标(X2,Y2),每个锚点与对应的待识别字符区域在样本证件中的固定位置关系为(X’,Y’)=A(X,Y),其中,(X,Y)为每个锚点在样本证件中的二维坐标,(X’,Y’)为每个锚点对应的待识别字符区域在样本证件中的二维坐标,A为转换坐标。
进而,由于标准模板的图像区域大小与样本证件的大小关系为:S1=B*S2,其中,S1为标注模板的图像区域大小,S2为样本证件的大小,B为正数。则每个锚点与对应的待识别字符区域在标准模板中的固定位置关系为:(X’2,Y’2)=B*A(X2,Y2),其中,(X’2,Y’2)为每个锚点对应的待识别字符区域在标准模板中的二维坐标。基于此,(X’2,Y’2)为每个锚点对应的待识别字符区域在待识别图像的校正图像中的二维坐标。
其中,电子设备可以在构建标准模板时,就根据标准模板的图像区域大小与样本证件的大小关系,确定每个锚点与对应的待识别字符区域在标准模板中的固定位置关系;也可以在执行上述步骤S702时,根据标准模板的图像区域大小与样本证件的大小关系,确定每个锚点与对应的待识别字符区域在标准模板中的固定位置关系。这都是合理的。
可选的,一个具体实施例中,在构建标准模板时,电子设备可以在标准模板中标注各个锚点以及各个锚点对应的待识别字符区域。这样,在得到待识别图像的校正图像后,由于每一锚点在校正图像中的位置信息与该锚点在标准模板中的位置信息是相同的,且每一锚点对应的待识别字符区域在校正图像中的位置信息与该待识别字符区域在标准模板中的位置信息也相同,因此,电子设备可以直接在标准模板中确定每一锚点对应的待识别字符区域的位置信息,显然,所确定的位置信息即为每一锚点对应的待识别字符区域在校正图像中的第二位置信息。
可选的,另一种具体实现方式中,如图9所示,电子设备执行上述步骤S502的方式可以包括如下步骤:
S901:根据固定的位置关系,确定每个锚点对应的待识别字符区域在标准模板中的第三位置信息;
S902:按照对应关系,对第三位置信息进行坐标转换,得到待识别证件中的每个锚点对应的待识别字符区域在待识别图像中的第二位置信息。
由于每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系,因此,根据标准模板的图像区域大小与样本证件的大小关系,电子设备可以确定每个锚点与对应的待识别字符区域在标准模板中的固定位置关系,进而,电子设备便可以利用所确定的每个锚点与对应的待识别字符区域在标准模板中的固定位置关系,确定每个锚点对应的待识别字符区域在标准模板中的第三位置信息。
具体的,电子设备可以预先在标注模板和样本证件中构建二维坐标系,则每个锚点在标准模板中的位置信息便可以通过二维坐标(X2,Y2),每个锚点与对应的待识别字符区域在样本证件中的固定位置关系为(X’,Y’)=A(X,Y),其中,(X,Y)为每个锚点在样本证件中的二维坐标,(X’,Y’)为每个锚点对应的待识别字符区域在样本证件中的二维坐标,A为转换坐标。
进而,由于标准模板的图像区域大小与样本证件的大小关系为:S1=B*S2,其中,S1为标注模板的图像区域大小,S2为样本证件的大小,B为正数。则每个锚点与对应的待识别字符区域在标准模板中的固定位置关系为:(X’2,Y’2)=B*A(X2,Y2),其中,(X’2,Y’2)为每个锚点对应的待识别字符区域在标准模板中的二维坐标。即(X’2,Y’2)为每个锚点对应的待识别字符区域在标准模板中的第三位置信息。
由于每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系,因此,在上述步骤S501中所确定的每个锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系,即为每个锚点对应的待识别字符区域在待识别图像中的位置信息与在标准模板中的位置信息之间的对应关系。这样,当所确定的上述对应关系为:(X1,Y1)=P*(X2,Y2)时,其中,(X1,Y1)为每个锚点在待识别图像中的第一位置信息,(X2,Y2)为锚点在标准模板中的位置信息,则可以确定每个锚点对应的待识别字符区域在待识别区域中的第二位置信息为:(X’1,Y’1)=P*(X’2,Y’2)。
相对于上述本发明实施例提供的一种字符识别方法,本发明实施例还提供了一种字符识别装置。
图10为本发明实施例提供的一种字符识别装置的结构示意图。如图10所示,该装置可以包括如下模块:
图像获取模块1010,用于获取待识别图像,其中,待识别图像包括待识别证件的图像数据;
第一位置信息获取模块1020,用于将待识别图像输入到预设的识别模型中,得到待识别证件中的每个锚点在待识别图像中的第一位置信息;其中,识别模型是基于训练样本和训练样本的标签信息训练得到的,训练样本为:包括样本证件的图像数据的图像;标签信息为:样本证件中的锚点在训练样本中的位置信息;每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系;
第二位置信息获取模块1030,用于基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
字符识别模块1040,用于对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。
以上可见,应用本发明实施例提供的方案,在获取到包括待识别证件的图像数据的待识别图像后,便可以利用预设的识别模型,得到待识别证件中的每个锚点的在待识别图像中的第一位置信息。这样,由于在具有固定格式的证件中,每个锚点与对应的待识别字符区域之间具有固定的位置关系,因此,便可以基于所得到的第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置细腻,从而,对所确定的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。显然,在本发明实施例提供的方案中,只需要利用预设模型确定待识别证件中各个锚点的位置信息,便可以直接确定各个待识别字符区域,从而简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
可选的,一种具体实现方式中,上述字符识别装置还可以包括:模型训练模块,用于训练识别模型;其中,该模型训练模块可以包括:
样本获取子模块,用于获取包括样本证件的图像数据的图像,作为训练样本,并获取样本证件中的各个锚点在训练样本中的位置信息,作为训练样本的标签信息;
模型训练子模块,用于基于训练样本以及训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
可选的,一种具体实现方式中,上述第二位置信息获取模块1030可以包括:
关系确定子模块,用于针对每一锚点,确定该锚点在待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;其中,标准模板的图像区域与标准模板所包括的证件图像的区域大小相同;
位置获取子模块,用于基于对应关系和固定的位置关系,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
可选的,一种具体实现方式中,上述位置获取子模块可以具体用于:
利用对应关系,调整待识别证件的图像区域中各个像素点在待识别图像中的位置,得到待识别图像的校正图像;其中,校正图像为:校正图像的图像区域与校正图像所包括的待识别证件图像的区域大小相同;根据固定的位置关系,确定待识别证件中的每个锚点对应的待识别字符区域在校正图像中的第二位置信息。
可选的,一种具体实现方式中,上述位置获取子模块还可以具体用于:
根据固定的位置关系,确定每个锚点对应的待识别字符区域在标准模板中的第三位置信息;按照对应关系,对第三位置信息进行坐标转换,得到待识别证件中的每个锚点对应的待识别字符区域在待识别图像中的第二位置信息。
可选的,一种具体实现方式中,上述字符识别装置还可以包括:
结果输出模块,用于输出关于待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
相应于上述本发明实施例提供的一种字符识别方法,本发明实施例还提供了一种电子设备,如图11所示,包括处理器1101、通信接口1102、存储器1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信,
存储器1103,用于存放计算机程序;
处理器1101,用于执行存储器1103上所存放的程序时,实现上述本发明实施例提供的一种字符识别方法。
具体的,上述字符识别方法,包括:
获取待识别图像,其中,待识别图像包括待识别证件的图像数据;
将待识别图像输入到预设的识别模型中,得到待识别证件中的每个锚点在待识别图像中的第一位置信息;其中,识别模型是基于训练样本和训练样本的标签信息训练得到的,训练样本为:包括样本证件的图像数据的图像;标签信息为:样本证件中的锚点在训练样本中的位置信息;每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系;
基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。
需要说明的是,上述处理器1101执行存储器1103上存放的程序而实现的一种字符识别方法的其他实现方式,与前述方法实施例部分提供的一种字符识别方法实施例相同,这里不再赘述。
以上可见,应用本发明实施例提供的方案,在获取到包括待识别证件的图像数据的待识别图像后,便可以利用预设的识别模型,得到待识别证件中的每个锚点的在待识别图像中的第一位置信息。这样,由于在具有固定格式的证件中,每个锚点与对应的待识别字符区域之间具有固定的位置关系,因此,便可以基于所得到的第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置细腻,从而,对所确定的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。显然,在本发明实施例提供的方案中,只需要利用预设模型确定待识别证件中各个锚点的位置信息,便可以直接确定各个待识别字符区域,从而简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
相应于上述本发明实施例提供的一种字符识别方法,本发明实施例还提供了一种计算机可读存储介质,该计算机程序被处理器执行时实现上述本发明实施例提供的一种字符识别方法。
具体的,上述字符识别方法,包括:
获取待识别图像,其中,待识别图像包括待识别证件的图像数据;
将待识别图像输入到预设的识别模型中,得到待识别证件中的每个锚点在待识别图像中的第一位置信息;其中,识别模型是基于训练样本和训练样本的标签信息训练得到的,训练样本为:包括样本证件的图像数据的图像;标签信息为:样本证件中的锚点在训练样本中的位置信息;每个锚点与对应的待识别字符区域在样本证件中具有固定的位置关系;
基于第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。
需要说明的是,上述计算机程序被处理器执行时而实现的一种字符识别方法的其他实现方式,与前述方法实施例部分提供的一种字符识别方法实施例相同,这里不再赘述。
以上可见,应用本发明实施例提供的方案,在获取到包括待识别证件的图像数据的待识别图像后,便可以利用预设的识别模型,得到待识别证件中的每个锚点的在待识别图像中的第一位置信息。这样,由于在具有固定格式的证件中,每个锚点与对应的待识别字符区域之间具有固定的位置关系,因此,便可以基于所得到的第一位置信息,确定待识别证件中的每个锚点对应的待识别字符区域的第二位置细腻,从而,对所确定的待识别字符区域中的字符进行识别,得到待识别图像的识别结果。显然,在本发明实施例提供的方案中,只需要利用预设模型确定待识别证件中各个锚点的位置信息,便可以直接确定各个待识别字符区域,从而简化对具有固定格式的证件中的字符进行识别的过程,提高识别效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种字符识别方法,其特征在于,所述方法包括:
获取待识别图像,其中,所述待识别图像包括待识别证件的图像数据;
将所述待识别图像输入到预设的识别模型中,得到所述待识别证件中的每个锚点在所述待识别图像中的第一位置信息;其中,所述识别模型是基于训练样本和训练样本的标签信息训练得到的,所述训练样本为:包括样本证件的图像数据的图像;所述标签信息为:所述样本证件中的锚点在所述训练样本中的位置信息;每个锚点与对应的待识别字符区域在所述样本证件中具有固定的位置关系;
基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到所述待识别图像的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述识别模型的训练方式,包括:
获取包括样本证件的图像数据的图像,作为训练样本,并获取所述样本证件中的各个锚点在所述训练样本中的位置信息,作为所述训练样本的标签信息;
基于所述训练样本以及所述训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
针对每一锚点,确定该锚点在所述待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;其中,所述标准模板的图像区域与所述标准模板所包括的证件图像的区域大小相同;
基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
利用所述对应关系,调整所述待识别证件的图像区域中各个像素点在所述待识别图像中的位置,得到所述待识别图像的校正图像;其中,所述校正图像为:所述校正图像的图像区域与所述校正图像所包括的待识别证件图像的区域大小相同;
根据所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域在所述校正图像中的第二位置信息。
5.根据权利要求3所述的方法,其特征在于,所述基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息的步骤,包括:
根据所述固定的位置关系,确定每个锚点对应的待识别字符区域在所述标准模板中的第三位置信息;
按照所述对应关系,对所述第三位置信息进行坐标转换,得到所述待识别证件中的每个锚点对应的待识别字符区域在所述待识别图像中的第二位置信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
输出关于所述待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
7.一种字符识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待识别图像,其中,所述待识别图像包括待识别证件的图像数据;
第一位置信息获取模块,用于将所述待识别图像输入到预设的识别模型中,得到所述待识别证件中的每个锚点在所述待识别图像中的第一位置信息;其中,所述识别模型是基于训练样本和训练样本的标签信息训练得到的,所述训练样本为:包括样本证件的图像数据的图像;所述标签信息为:所述样本证件中的锚点在所述训练样本中的位置信息;每个锚点与对应的待识别字符区域在所述样本证件中具有固定的位置关系;
第二位置信息获取模块,用于基于所述第一位置信息,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息;
字符识别模块,用于对所确定的第二位置信息对应的待识别字符区域中的字符进行识别,得到所述待识别图像的识别结果。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:模型训练模块,用于训练所述识别模型;所述模型训练模块包括:
样本获取子模块,用于获取包括样本证件的图像数据的图像,作为训练样本,并获取所述样本证件中的各个锚点在所述训练样本中的位置信息,作为所述训练样本的标签信息;
模型训练子模块,用于基于所述训练样本以及所述训练样本的标签信息,对预设的初始模型进行训练,当满足预设的模型收敛条件时,停止训练,得到训练完成的识别模型。
9.根据权利要求7或8所述的装置,其特征在于,所述第二位置信息获取模块包括:
关系确定子模块,用于针对每一锚点,确定该锚点在所述待识别图像中的第一位置信息与在标准模板中的位置信息之间的对应关系;其中,所述标准模板的图像区域与所述标准模板所包括的证件图像的区域大小相同;
位置获取子模块,用于基于所述对应关系和所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域的第二位置信息。
10.根据权利要求9所述的装置,其特征在于,所述位置获取子模块具体用于:
利用所述对应关系,调整所述待识别证件的图像区域中各个像素点在所述待识别图像中的位置,得到所述待识别图像的校正图像;其中,所述校正图像为:所述校正图像的图像区域与所述校正图像所包括的待识别证件图像的区域大小相同;根据所述固定的位置关系,确定所述待识别证件中的每个锚点对应的待识别字符区域在所述校正图像中的第二位置信息。
11.根据权利要求9所述的装置,其特征在于,所述位置获取子模块具体用于:
根据所述固定的位置关系,确定每个锚点对应的待识别字符区域在所述标准模板中的第三位置信息;按照所述对应关系,对所述第三位置信息进行坐标转换,得到所述待识别证件中的每个锚点对应的待识别字符区域在所述待识别图像中的第二位置信息。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
结果输出模块,用于输出关于所述待识别证件中每个锚点的锚点内容和所对应待识别字符区域的字符识别结果的结果条目。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910745334.4A CN112396057A (zh) | 2019-08-13 | 2019-08-13 | 一种字符识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910745334.4A CN112396057A (zh) | 2019-08-13 | 2019-08-13 | 一种字符识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112396057A true CN112396057A (zh) | 2021-02-23 |
Family
ID=74601232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910745334.4A Pending CN112396057A (zh) | 2019-08-13 | 2019-08-13 | 一种字符识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112396057A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215225A (zh) * | 2020-10-22 | 2021-01-12 | 北京通付盾人工智能技术有限公司 | 一种基于计算机视觉技术的kyc证件核验方法 |
CN114299509A (zh) * | 2021-12-29 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 一种获取信息的方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032842A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Performing optical character recognition using spatial information of regions within a structured document |
CN108875722A (zh) * | 2017-12-27 | 2018-11-23 | 北京旷视科技有限公司 | 字符识别与识别模型训练方法、装置和系统及存储介质 |
CN109086756A (zh) * | 2018-06-15 | 2018-12-25 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
-
2019
- 2019-08-13 CN CN201910745334.4A patent/CN112396057A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180032842A1 (en) * | 2016-07-26 | 2018-02-01 | Intuit Inc. | Performing optical character recognition using spatial information of regions within a structured document |
CN108875722A (zh) * | 2017-12-27 | 2018-11-23 | 北京旷视科技有限公司 | 字符识别与识别模型训练方法、装置和系统及存储介质 |
CN109086756A (zh) * | 2018-06-15 | 2018-12-25 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
CN110059694A (zh) * | 2019-04-19 | 2019-07-26 | 山东大学 | 电力行业复杂场景下的文字数据的智能识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215225A (zh) * | 2020-10-22 | 2021-01-12 | 北京通付盾人工智能技术有限公司 | 一种基于计算机视觉技术的kyc证件核验方法 |
CN112215225B (zh) * | 2020-10-22 | 2024-03-15 | 北京通付盾人工智能技术有限公司 | 一种基于计算机视觉技术的kyc证件核验方法 |
CN114299509A (zh) * | 2021-12-29 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 一种获取信息的方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6831480B2 (ja) | テキスト検出分析方法、装置及びデバイス | |
CN109726643B (zh) | 图像中表格信息的识别方法、装置、电子设备及存储介质 | |
CN109993160B (zh) | 一种图像矫正及文本与位置识别方法及系统 | |
CN109815932B (zh) | 一种试卷批改方法、装置、电子设备及存储介质 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
CN112651289B (zh) | 一种增值税普通发票智能识别与校验系统及其方法 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
CN111353501A (zh) | 一种基于深度学习的书本点读方法及系统 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN113343740A (zh) | 表格检测方法、装置、设备和存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN111222368A (zh) | 一种识别文档段落的方法、装置及电子设备 | |
CN111414905B (zh) | 一种文本检测方法、文本检测装置、电子设备及存储介质 | |
CN112115907A (zh) | 固定版面证件结构化信息提取方法、装置、设备及介质 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
CN114937278A (zh) | 基于行文本框分词算法的文本内容提取识别方法 | |
CN114694161A (zh) | 一种特定版式证件的文本识别方法、设备及存储介质 | |
CN112597940B (zh) | 证件图像识别方法、装置及存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN113221897B (zh) | 图像矫正方法、图像文本识别方法、身份验证方法及装置 | |
CN113012075A (zh) | 一种图像矫正方法、装置、计算机设备及存储介质 | |
CN112418206A (zh) | 基于位置检测模型的图片分类方法及其相关设备 | |
KR101498546B1 (ko) | 문서 디지털 복원 시스템 및 방법 | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN114299509A (zh) | 一种获取信息的方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |