CN109829453B

CN109829453B - 一种卡证中文字的识别方法、装置以及计算设备

Info

Publication number: CN109829453B
Application number: CN201811637083.XA
Authority: CN
Inventors: 黄萧; 刘荣; 徐丞申; 喻杰; 李林
Original assignee: Tianjin Chezhijia Data Information Technology Co ltd
Current assignee: Tianjin Chezhijia Data Information Technology Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-10-12
Anticipated expiration: 2038-12-29
Also published as: CN109829453A

Abstract

本发明公开了一种卡证中文字的识别方法、装置以及计算设备。识别方法包括：获取卡证图像，所述卡证图像中包括至少一个类别的文字序列；利用第一目标检测模型，从所述卡证图像中获取各类别的文字序列图像，得到至少一个第一文字序列图像；对每个第一文字序列图像进行分块二值化处理，得到对应的第二文字序列图像；利用第二目标检测模型，从第二文字序列图像中获取单字图像；对于从第二文字序列图像获取的每个单字图像，识别该单字图像中的文字信息。

Description

一种卡证中文字的识别方法、装置以及计算设备

技术领域

本发明涉及图像处理技术领域，尤其是一种卡证中文字的识别方法、装置以及计算设备。

背景技术

随着互联网技术的发展，不论是在汽车金融、二手车交易等业务中，还是在以网上支付为主导的电子商务平台上，都涉及大量银行卡或证件文字信息录入工作。而卡证信息的自动读取，能够代替大量繁琐的人工录入，可以有效提高信息录入效率，节省管理成本。同时，高精度的卡证中文字信息识别，能够将用户信息准确的读取到计算机系统中，提高互联网业务的服务质量，为客户带来良好的用户体验，因此有着重要的研究意义。

卡证中结构化信息的提取一般包括文字区域检测和文字识别两个步骤，先通过文字区域检测提取卡证中各种信息类别(例如行驶证中的号牌号码、车辆类型、所有人等)对应的文字区域，再对提取的各文字区域进行文字识别。

在现有的卡证中文字信息识别方案中，证件的文字区域检测主要包括：先采用基于边缘、纹理的方法提取出所有文字区域，再通过版面分析的方法确定各个信息类别所分别对应的文字区域。确定出各个信息类别分别对应的文字区域后，采用垂直投影法将一行文字进行单字分割，再将分割好的单字进行识别，识别一般采用基于模版匹配或神经网络的方法。

卡证图像一般是通过扫描或者拍照得到，所得到的卡证图像清晰度、规整度未必能够满足识别要求，例如在拍照情形下，由于拍照角度、光照不均匀、拍照模糊、字符遮挡等复杂背景的影响，会使对卡证图像中文字信息的识别精度大大降低。

发明内容

为此，本发明提供了一种卡证中文字的识别方法及装置，以力图解决或至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供一种卡证中文字的识别方法，在计算设备中执行，包括如下步骤：获取卡证图像，所述卡证图像中包括至少一个类别的文字序列；利用第一目标检测模型，从所述卡证图像中获取各类别的文字序列图像，得到至少一个第一文字序列图像；对每个第一文字序列图像进行分块二值化处理，得到对应的第二文字序列图像；利用第二目标检测模型，从第二文字序列图像中获取单字图像；以及对于从第二文字序列图像获取的每个单字图像，识别该单字图像中的文字信息。

可选地，根据本发明的卡证中文字的识别方法中，进行分块二值化处理的步骤包括：将第一文字序列图像划分为多个图像分块，并计算各图像分块的二值化阈值；以及对于每个图像分块，根据对应的二值化阈值对该图像分块进行二值化处理。

可选地，根据本发明的卡证中文字的识别方法中，将第一文字序列图像划分为多个图像分块的步骤包括：获取第一文字序列图像的宽度(w)和高度(h)以及根据所述宽度(w)和高度(h)，将第一文字序列图像的宽度方向分为

份，高度方向分为2份，得到

个图像分块。

可选地，根据本发明的卡证中文字的识别方法中，识别该单字图像中的文字信息的步骤包括：根据所述单字图像在所述第二文字序列图像中的位置，从所述第一文字序列图像的相同位置处获取原始单字图像；对所述原始单字图像进行二值化处理，得到二值化单字图像；以及利用文字识别模型，将所述二值化单字图像识别为单字符。

可选地，根据本发明的卡证中文字的识别方法中，文字识别模型采用深度卷积神经网络ResNets。

可选地，根据本发明的卡证中文字的识别方法中，识别该单字图像中的文字信息的步骤还包括：将所述第二文字序列图像中包括的所有单字图像对应的多个单字符，组合为结构化信息。

可选地，根据本发明的卡证中文字的识别方法，所述文字序列的类别包括如下至少之一：号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代号、发动机号码、日期。

可选地，根据本发明的卡证中文字的识别方法中，获取卡证图像的步骤包括：利用第三目标检测模型，从原始卡证图像中提取所述卡证图像。

可选地，根据本发明的卡证中文字的识别方法中，第一、二、三目标检测模型采用深度卷积神经网络Faster R-CNN。

根据本发明的另一个方面，提供一种计算设备，包括：一个或多个处理器；存储器；和一个或多个程序，其中，一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括执行上述卡证中文字的识别方法的指令。

根据本发明的又一个方面，还提供了一种存储有一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，当该程序指令被计算设备执行时，使得计算设备执行上述卡证中文字的识别方法。

根据本发明的卡证中文字的识别方案，利用三个目标检测模型对卡证图像进行多次切割，在图像清晰度、规整度不高时，仍然可以对图像中的文字信息进行高精度的识别。

根据一种可选的实现方案，通过对图像进行分块二值化处理并获取单字图像后，从原始图像中获取该单字图像对应的原始单字图像，再对原始单字图像进行二值化处理后进行文字识别，能够进一步提高文字识别的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的卡证中文字的识别方法200的流程图；

图3示出了通过Faster R-CNN从原始的行驶证图像提取行驶证证件图像的示例图；

图4示出了行驶证证件图像包括的各类别文字序列图像的示例图；以及

图5示出了通过Faster R-CNN从文字序列图像获取单字图像的示例图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行卡证中文字的识别方法200，该方法200能够识别卡证(例如行驶证)图像中的文字信息，并能够将识别出的文字信息组合为结构化信息，程序数据124中包含了用于执行方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本实施例中，可以通过接口设备获取待识别的行驶证图像。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。

图2示出了根据本发明一个实施例的卡证中文字的识别方法200的流程图。参照图2，方法200始于步骤S210。在步骤S210中，获取原始卡证图像。

在一种实现方式中，计算设备100被配置为服务器，由服务器接收原始的卡证图像。原始卡证图像可以是用户以任意设备(如，手机、平板等移动终端，照相机，扫描仪等)在任意环境下拍摄的卡证图像。

在另一种实现方式中，计算设备100被配置为个人计算机，通过个人计算机上的图像输入设备(如摄像头)或其他外设设备(如打印机、扫描仪等)获取原始卡证图像。

所获取的原始卡证原始图像可以是身份证证件图像、银行卡图像、行驶证证件图像，但不限于此。根据本发明的一种实现方式，所获取的原始卡证图像是行驶证图像，随后的步骤将以此为例。

随后在步骤S220中，利用目标检测模型从原始行驶证图像中提取摆正的行驶证图像。

目标检测(Object Detection)是从图片中检测出所关注的特定的物体目标，同时获得这一目标的类别信息和位置信息(常用矩形检测框的坐标表示)，目前常用的目标检测模型是深度学习模型。

通过拍照或其他方式得到的卡证图像，例如行驶证图像，一方面在行驶证区域以外往往存在杂物等干扰背景，另一方面行驶证图像不一定是摆正的状态，例如顺时针旋转90度、180度、270度等状态。为便于后续的文字识别，需要利用目标检测模型从原始行驶证图像中获取摆正的、且去除干扰背景的行驶证图像。当然，如果通过步骤S210获取到的原始行驶证图像本身就是摆正的、无干扰背景的行驶证图像，则步骤S220可以省略，直接计入步骤S230。

这里的目标检测模型可以是任何公知的目标检测模型，本发明对此不作限制。根据本发明的一个实施例，目标检测模型可以是深度卷积神经网络Faster R-CNN。图3示出了通过Faster R-CNN从原始的行驶证图像提取摆正的行驶证图像的示例图，在图3所示的原始行驶证图像中，所关注的行驶证区域(图中的矩形框3)的外围具有复杂的背景，且该行驶证区域是逆时针旋转90度的。通过将该原始行驶证图像输入到目标检测模型，例如FasterR-CNN，会输出摆正后的行驶证图像(即矩形框3所包围的区域顺时针旋转90度所对应的图像)。关于Faster R-CNN的具体信息可见“Faster R-CNN:Towards real-time objectdetection with region proposal networks”，此处不再赘述。

本步骤采用的目标检测模型Faster R-CNN的训练方法如下：获取多张摆正的行驶证图像，例如2000张，对每张行驶证图像分别顺时针旋转90度、180度、270度，合计8000张图片作为训练集。采用Faster R-CNN训练时，将训练集中的图片分为4类，并进行相应标注，分别为：摆正的行驶证区域框(0类)、顺时针旋转90度的行驶证区域框(1类)、顺时针旋转180度的行驶证区域框(2类)、顺时针旋转270度的行驶证区域框(3类)。在实施目标检测模型Faster R-CNN中提取图片特征的基础网络使用MobileNet，最大建议区域的数量(propasals)设为50，可以有效的提高计算的精度和速度。将训练集中的图片输入到FasterR-CNN，由Faster R-CNN输出所检测到的区域框坐标和类别，根据输出的区域框坐标和类别与标注数据的差异，对Faster R-CNN的参数进行调整，最终得到训练好的Faster R-CNN模型。

随后在步骤S230中，利用第一目标检测模型，从行驶证图像中获取各类别的文字序列图像，得到一个或多个第一文字序列图像。

卡证中通常包括多种信息类别的文字序列，以行驶证为例，如图4所示，行驶证图像中的文字信息的类别包括：号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代号、发动机号码、日期。其中，由于住址文字信息较长，可能有两行文字，通过将住址的第二行文字作为一个新的文字类型，可以有效提高识别地址文字及其他类别文字的准确度。另外，行驶证图像中包括注册日期和发证日期，可以视为一个类别，并通过横轴坐标位置进行区分。利用另外一个目标检测模型(称之为第一目标检测模型)，可以从行驶证图像中提取这些文字序列图像。

同样，第一目标检测模型也可以是任何公知的目标检测模型，本发明对此不作限制。根据本发明的一个实施例，第一目标检测模型可以是深度卷积神经网络Faster R-CNN。在对第一目标检测模型Faster R-CNN进行训练时，将S220步骤中所获得的行驶证图像共2000张作为训练集，将行驶证图像中的各类别文字序列所对应的目标矩形框标注为10类，分别为：号牌号码(0类)、车辆类型(1类)、所有人(2类)、住址(3类)、使用性质(4类)、品牌型号(5类)、车辆识别代号(6类)、发动机号码(7类)、日期(8类)、住址的第二行文字(9类)。其中，行驶证图片中日期(8类)一般有两个：注册日期和发证日期，可以通过横轴的坐标位置区分。此外，住址可能只有一行文字，此时第二行文字(9类)为空。

为了兼顾生产环境下的精度和运算速度，提取图片特征的基础网络使用MobileNet，最大建议区域的数量(propasals)设为150。Faster R-CNN的Anchor比例参数为[0.08,0.1,0.2,0.3,0.5]。这样可以适应不同高宽比范围的目标矩形框，适应不同文字序列不同的高宽比，有利于文字序列更快速、准确地被识别。

将训练集中的图片输入到Faster R-CNN，由Faster R-CNN输出所检测到的区域框坐标和类别，根据输出的区域框坐标和类别与标注数据的差异，对Faster R-CNN的参数进行调整，最终得到训练好的Faster R-CNN模型，即第一目标检测模型。

行驶证图像上号牌号码、住址、车辆识别代号、日期等区域的文字具有显著的与其他类别不同的特征，比如字符长度、中英文混合规律等。因此，利用Faster R-CNN直接对相应类别的区域进行端到端的检测和分类，避免了走版面分析的方式，有效减少因为排版的差异而造成的定位信息区域不准确，并提高了相应类别区域提取的精确度。

随后在步骤S240中，对每个第一文字序列图像进行分块二值化处理，得到对应的第二文字序列图像。

图像二值化(Image Binarization)是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。图像的二值化使图像中数据量大为减少，从而能凸显出目标的轮廓。

在对文字序列图像进行文字识别时，现有技术通常是对文字序列图像进行整体二值化处理，即对整个图像设置一个二值化阈值，根据该二值化阈值，将图像中的每个像素点的灰度值设置为0或255。为了提高文字识别的精度，本发明实施例采用对文字序列图像进行分块二值化处理。

具体地，分块二值化处理的步骤为：获取第一文字序列图像的宽度(w)和高度(h)；根据其宽度(w)和高度(h)，将第一文字序列图像的宽度方向分为

份，高度方向分为2份，得到

个图像分块；计算各图像分块的二值化阈值；对于每个图像分块，根据对应的二值化阈值对该图像分块进行二值化处理。

二值化阈值可以采用各种算法确定，例如平均值法(将图像分块中所有像素点的灰度值取平均值，作为该图像分块对应的二值化阈值)，迭代法、最大类间误差法(Otsu)、最大熵法等，本发明实施例对具体的算法不做限制。另外，对于彩色图像，可以先将彩色图像转换为灰度图像后，再进行分块二值化处理。

通过分块二值化的方式，可以突出原文字序列图像的文字特征，排除如不规则光照、图标遮挡、背景纹理等干扰，从而提高目标识别的准确度，进一步提高证件中文字识别的精确度。

随后在步骤S250中，利用第二目标检测模型，从每个第二文字序列图像获取得到一个或多个单字图像。具体而言，将第二文字序列图像输入到第二目标检测模型，由第二目标检测模型对分块二值化后的第二文字序列图像进行识别，可以得到汉字、数字、字母和标点符号的单字图像。

根据本发明的一个实施例，第二目标检测模型也可以是深度卷积神经网络FasterR-CNN。图5示出通过Faster R-CNN从文字序列图像获取单字图像的示例图。在对Faster R-CNN模型进行训练时，将分块二值化后的文字序列图像共8000张作为训练集。训练时，对图片中的单字图像标注为2类，分别为：汉字(0类)、数字字母及符号(1类)，并根据宽高比

是否大于6分别采用两个Faster R-CNN模型进行训练。通过这样的方式，可以将不同宽高比的汉字和非汉字分别识别，提高卡证图像文字识别的准确率。为了兼顾生产环境下的精度和运算速度，在提取图片特征的基础网络使用MobileNet。对于宽高比大于6的模型，设置最大建议区域的数量(propasals)为250，Anchor尺寸为[8,16,32,64,128]，Anchor比例参数为[1,2,4,6]。对于宽高比小于6的模型，设置最大建议区域的数量(propasals)为150，Anchor尺寸为[64,128,256,512]，Anchor比例参数为[1,2,4,6]，通过优选参数的方法，进一步提高单字图像识别过程中计算的准确率和速度。将训练集中的图片输入到FasterR-CNN，由Faster R-CNN输出所检测到的区域框坐标和类别，根据输出的区域框坐标和类别与标注数据的差异，对Faster R-CNN的参数进行调整，最终得到训练好的Faster R-CNN模型，即第二目标检测模型。

随后在步骤S260中，通过文字识别模型对每个单字图像进行识别得到单字符，并按顺序拼接成字符串。文字识别模型能识别图像中的文字信息，生成图像中信息的字符，将识别得到的字符按照识别文字的顺序，逐个拼接成字符串。

具体地，通过文字识别模型对单字图像进行识别得到单字符的步骤包括：获取得到单字图像后，根据单字图像在第二文字序列图像中的位置，从第一文字序列图像的相同位置处获取原始单字图像，并对原始单字图像进行二值化处理，得到二值化单字图像；利用文字识别模型，对二值化单字图像识别得到单字符。

在本发明实施例中，通过第二目标检测模型获取单字图像时，所利用的是分块二值化处理后的文字序列图像(第二文字序列图像)，然后，进行文字识别时，并不是直接利用第二目标检测模型输出的单字图像，而是根据其输出的单字图像去第一文字序列中获取该单字图像对应的原始单字图像(一般为彩色图像)，并对原始单字图像再次进行二值化处理，这样能够进一步提高文字识别的准确性。

其中，文字识别模型可以是ResNet深度卷积神经网络。在对汉字类ResNet网络进行训练时，将7000个汉字生成二值化单字图像，作为训练的样本，基于此训练一个基础模型，再在S250步骤得到的单字图像上进行迁移训练。在对非汉字类ResNet网络的训练时，对40个数字英文通过程序生成二值化单字图像，基于此训练一个基础模型，再在S250步骤得到的单字图像上进行迁移训练。通过训练基础模型再迁移训练的方式，进一步减少训练样本量，能够在少量样本下提高识别精确度。

随后在步骤S270中，对各类别的字符串进行后处理，输出结构化信息。

根据本发明的实施例，所获取的字符串通过步骤S260中的各种方式获得，根据字符串的类别采用不同的后处理方法，对需要通过词库进行后处理的，步骤S260中神经网络对单字图像输出5个概率最大的字符，通过邻近字符是否在词库内决定选取哪个字符作为最终输出结果。具体步骤为：将字符串分为汉字字符串和非汉字字符串。具体地，对汉字的后处理包括：根据相应的中文词库，如车牌、型号、地址等，对步骤S260得到的字符串序列按顺序遍历，将邻近可选字符的排列组合而成的词与词库中的词进行匹配，若有匹配项，则将该匹配的词作为返回结果，若无匹配项，则保留最大概率的单字符作为输出结果。进一步举例说明，如果通过单字图像识别文字信息时，对于地址文字序列图像所得到的单字图像，识别到最大概率的单字符为“坡”。将临近可选字符“宁”排列组合，发现该字符与词库中的“宁波”有匹配项，则将该匹配的词作为返回结果，即返回“宁波”。若邻近可选字符为“立”，词库中没有匹配词，则返回“坡”到字符串中。对非汉字的后处理包括：利用特定类别的规则(例如日期为yyyy-mm-dd的格式)进行后处理，对不满足该规则的字符进行修改。这样，可以进一步提高识别文字的精确度。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种卡证中文字的识别方法，在计算设备中执行，并包括如下步骤：

获取卡证图像，所述卡证图像中包括至少一个类别的文字序列；

利用第一目标检测模型，从所述卡证图像中获取各类别的文字序列图像，得到至少一个第一文字序列图像；

对每个第一文字序列图像进行分块二值化处理，得到对应的第二文字序列图像；

利用第二目标检测模型，从第二文字序列图像中获取单字图像；以及

对于从第二文字序列图像获取的每个单字图像，识别该单字图像中的文字信息；

其中，所述识别该单字图像中的文字信息包括步骤：

根据所述单字图像在所述第二文字序列图像中的位置，从所述第一文字序列图像的相同位置处获取原始单字图像；

对所述原始单字图像进行二值化处理，得到二值化单字图像；

利用文字识别模型，将所述二值化单字图像识别为单字符；

所述将第一文字序列图像划分为多个图像分块的步骤包括：

获取第一文字序列图像的宽度w和高度h；

根据所述宽度w和高度h，将第一文字序列图像的宽度方向分为

份，高度方向分为2份，得到

个图像分块。

2.如权利要求1所述的方法，其中，所述进行分块二值化处理的步骤包括：

将第一文字序列图像划分为多个图像分块，并计算各图像分块的二值化阈值；

对于每个图像分块，根据对应的二值化阈值对该图像分块进行二值化处理。

3.如权利要求1所述的方法，其中，所述文字识别模型采用深度卷积神经网络ResNet。

4.如权利要求1所述的方法，还包括：.

将所述第二文字序列图像中包括的所有单字图像对应的多个单字符，组合为结构化信息。

5.如权利要求1所述的方法，其中，所述卡证为行驶证，所述文字序列的类别包括如下至少之一：号牌号码、车辆类型、所有人、住址、使用性质、品牌型号、车辆识别代号、发动机号码、日期。

6.如权利要求1所述的方法，其中，所述获取卡证图像的步骤包括：

利用第三目标检测模型，从原始卡证图像中提取所述卡证图像。

7.如权利要求6所述的方法，其中，所述第一、二、三目标检测模型采用深度卷积神经网络Faster R-CNN。

8.一种计算设备，包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述方法中的任一方法的指令。

9.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法。