CN112052845A

CN112052845A - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN112052845A
Application number: CN202011099009.4A
Authority: CN
Inventors: 田帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2020-12-08

Abstract

本申请公开了一种图像识别方法、装置、设备及存储介质，涉及计算机技术领域。该方法包括：识别待检测图像中的车辆信息，获取第一子图；通过预训练的车牌检测模型从所述第一子图中提取第二子图，并对所述第二子图进行校正；通过预训练的字符识别模型识别校正后的所述第二子图，获取相应的字符数据。本申请通过机器学习得到的检测模型从待检测图像中识别得到的第一子图中提取包含字符的第二子图，并对该第二子图进行校正后输入字符识别模型进行识别，能够校正倾斜视角下的第二子图，减少输入图像的噪声信息，有效提高了字符识别模型的识别能力，从而解决由于输入字符识别模型的图像其噪声信息多而导致的识别率不高的问题。

Description

图像识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种图像识别方法、装置、设备及存储介质。

背景技术

现有车牌识别方法多采用单阶段和两阶段模型，例如停车场车牌识别直接对输入图像进行字符识别提取字符信息，然后进行正则匹配，一帧图像中仅识别一张车牌，无法应用于复杂道路场景下的车牌识别。两阶段模型先提取车辆子图，然后对子图进行字符识别，该方法可以同时提取多辆车的车牌信息，但车身上的数字可能被误识别为牌照信息。为此，采用三阶段流程提高车牌识别的准确率。

然而，当应用于复杂的道路场景时，由于复杂道路场景下，车辆信息往往都是侧面视角，因此车牌在图像中以不规则的四边形存在，而目前的识别模型给出的车牌子图仍然是矩形框，这使得输入字符识别模型的图像具有大量噪声信息，因此导致识别率不高。

发明内容

本申请实施例提供了一种图像识别方法、设备及存储介质，可以解决现有技术中输入字符识别模型的图像噪声信息多，导致识别率不高的问题。所述技术方案如下：

一个方面，提供了一种图像识别方法，所述方法包括：

识别待检测图像中的物体信息，获取第一子图；

通过预训练的检测模型从所述第一子图中提取第二子图，并对所述第二子图进行校正，所述第二子图中包含字符；

通过预训练的OCR识别模型识别校正后的所述第二子图，获取相应的字符数据。

在一个可能的实现方式中，所述对所述第二子图进行校正，包括：

对所述第二子图进行扭曲还原处理。

在一个可能的实现方式中，所述通过预训练的车牌检测模型从所述第一子图中提取第二子图，并对所述第二子图进行扭曲还原处理，包括：

将所述第一子图输入所述车牌检测模型，根据所述车牌检测模型对所述第一子图进行仿射变换得到所述第一子图包含的四点坐标，且通过概率判断得到所述四点坐标形成的四边形为目标物体时，提取得到四边形的第二子图；

对四边形的所述第二子图进行透视变换，映射得到标准矩形的所述第二子图。

在又一个可能的实现方式中，所述目标物体包括：车牌、车辆车架号、身份证、街景门牌。

在另一个可能的实现方式中，所述通过预训练的字符识别模型识别还原后的所述第二子图，获取车牌数据，包括：

将校正后的所述第二子图输入所述字符识别模型，得到所述第二子图对应字符的文本信息；

根据所述字符的文本信息，获得字符识别结果和置信度。

在又一个可能的实现方式中，所述方法还包括：

获取连续帧的多个待检测图像的字符识别结果，并按照相应置信度对多个字符识别结果进行加权投票聚合，得到目标识别结果。

在又一个可能的实现方式中，训练所述检测模型的方式，包括：

对第一样本图像进行坐标标注，得到四边形目标物体的四点坐标标签，其中，所述第一样本图像中包含所述目标物体；

将所述第一样本图像和所述四点坐标标签作为训练数据，对预设初始模型进行训练，输出预测到的所述第一样本图像包含的四点坐标，直至所述检测模型的第一损失函数和第二损失函数收敛，得到所述检测模型；

其中，所述第一损失函数表征训练过程中所述检测模型输出的所述第一样本图像包含的四点坐标与实际标签之间的差异，所述第二损失函数表征对训练过程中所述检测模型输出的四点坐标形成的四边形是否为目标物体的概率判断。

在又一个可能的实现方式中，训练所述字符识别模型的方式，包括：

采用预设规则生成第二样本图像，其中，预设规则包括：目标物体的背景颜色、字符的数量、种类以及字符的排列规则，所述第二样本图像为所述目标物体的图像；

采用卷积神经网络CNN和CTC损失函数对所述第二样本图像进行序列对齐与样本训练，得到所述字符识别模型。

另一方面，提供了一种图像识别装置，所述装置包括：

第一识别模块，用于识别待检测图像中的物体信息，获取第一子图；

处理模块，用于通过预训练的检测模型从所述第一子图中提取第二子图，并对所述第二子图进行校正，所述第二子图中包含字符；

第二识别模块，用于通过预训练的字符识别模型识别校正后的所述第二子图，获取相应的字符数据。

在一个可能的实现方式中，所述处理模块，具体用于对所述第二子图进行扭曲还原处理。

在一个可能的实现方式中，所述处理模块，具体用于：

将所述第一子图输入所述检测模型，根据所述检测模型对所述第一子图进行仿射变换得到所述第一子图包含的四点坐标，且通过概率判断得到所述四点坐标形成的四边形为目标物体时，提取得到四边形的第二子图；

在另一个可能的实现方式中，所述第二识别模块，具体用于：

根据所述字符的文本信息，获得字符识别结果和置信度。

在又一个可能的实现方式中，所述装置还包括：

获取模块，用于获取连续帧的多个待检测图像的字符识别结果，并按照相应置信度对多个字符识别结果进行加权投票聚合，得到目标识别结果。

在又一个可能的实现方式中，所述处理模块还用于训练所述检测模型，具体用于：

在又一个可能的实现方式中，所述处理模块还用于训练所述字符识别模型，具体用于：

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的图像识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的图像识别方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上所述的图像识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

采用三阶段流程进行图像识别时，通过机器学习得到的检测模型从待检测图像中识别得到的第一子图中提取包含字符的第二子图，并对该第二子图进行校正后输入字符识别模型进行识别，能够校正倾斜视角下的第二子图，减少输入图像的噪声信息，有效提高了字符识别模型的识别能力，从而解决由于输入字符识别模型的图像其噪声信息多而导致的识别率不高的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的一种图像识别方法的示意图；

图2示出了本申请一个示例性实施例提供的一种图像识别方法的示意性流程图；

图3示出了本申请实施例提供的一种图像识别方法中采用的物体检测模型YOLOv3的结构示意图；

图4示出了本申请实施例中提供的倾斜角度车辆图片示例；

图5示出了本申请实施例提供的一种图像识别方法中采用的检测模型的结构示意图；

图6示出了利用本申请实施例提供的一种图像识别方法从图4所示的车辆图片示例中提取出的车牌子图；

图7示出了本申请实施例提供的一种图像识别方法中采用的字符识别模型的结构示意图；

图8示出了利用本申请实施例提供的一种图像识别方法对图6所示的一个车牌子图进行CTC解码的过程图；

图9本申请另一个示例性实施例提供一种图像识别方法的示意性流程图；

图10示出了一个示例性实施例提供的一种图像识别装置的结构示意图；

图11示出了本申请一个示例性实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面详细描述本申请的实施例，该实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了更好的理解及说明本申请实施例的方案，下面对本申请实施例中所涉及到的一些技术用语进行简单说明：

光学字符识别(Optical Character Recognition、OCR)，是通过图像处理和模式识别技术对光学的字符进行识别，即对图像中的字符进行识别，从图像信息转为文本信息。光学字符识别技术是通过检测暗、亮的模式确定字符形状，然后用字符识别方法将字符形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

OCR识别的过程如下：

1、图像输入：采集所要识别的图像，可以是名片、身份证、护照、行驶证、驾驶证、公文、文档等等都可以，然后将所采集的图像输入到识别模型中。

2、图像预处理：对输入的图像进行二值化(将图像上的像素点灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果)、去噪、倾斜度矫正等处理。

3、版面分析：将所要识别的文档分段、分行处理。

4、字符切割：对字符进行定位和切割，先定位出字符串的边界，然后分别对字符串进行单个切割，得到单个分割出来的多个字符。

5、字符特征提取：提取单个分割出来的字符的特征向量。

6、字符识别：将当前字符对应的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符。

7、版面恢复：将识别结果按照原来的版面排版，输出Word或pdf格式的文档。

8、后处理校正：根据特定的语言上下文的关系，对识别结果进行较正算法处理。

连接时序分类(Connectionist Temporal Classification、CTC)，一种时序分类算法。该算法是为了解决时序分类任务中，输入数据与给定标签必须要在时间上一一对齐，才能采取交叉熵按帧训练进行分类的问题。CTC算法不需要标签在时间上一一对齐就可以进行训练，但是为了方便训练模型需要一个将输入输出对齐的映射关系，即：需要知道对齐方式。因此，CTC算法对输入数据的任一时刻做出的预测不是很关心，而关心的是整体上输出是否与标签一致，从而减少了标签预划定的冗杂工作。即：对于一个给定的输入序列X，CTC给出所有可能的Y的输出分布。根据这个分布，可以输出最可能的结果或者给出某个输出的概率。

CTC算法引入了一个新的占位符来输出对齐的结果。这个占位符称为空白占位符，这个空白占位符的符号在对齐结果中输出，但在最后的去重操作中会将其删除得到最终的输出。利用这个占位符，可以得到输入与输出对齐的映射关系。且如果在标定文本中有重复的字符，对齐过程中会在两个重复的字符中间插入空白占位符。

CTC算法的输入输出的对齐方式具有以下属性：

1、输入与输出的对齐方式是单调的，即当输入下一个输入片段时输出会保持不变或者也会移动到下一个字符，而不会移动到上一个字符；

2、输入与输出是多对一的关系，一个或多个输入只能对齐到一个输出；

3、输出的长度小于等于输入。

车辆子图：视频帧中截取的只包含车辆图片的子图。

车牌子图：车辆图片中截取的只包含车牌的子图。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

将现有的三阶段流程模型应用于复杂的道路场景进行图像识别，例如：车牌图像的识别时，仍然存储识别率不高的问题，这是由于复杂道路场景下，车辆信息往往都是侧面视角，因此车牌在图像中以不规则的四边形存在，而目前的物体识别模型给出的车牌子图仍然是矩形框，这就使得字符识别模型的输入具有大量噪声信息，因此导致识别率不高。

因此，为了解决上述技术问题，可以将本申请实施例提供的一种图像识别方法应用于车牌识别过程中，由于采用三阶段的深度学习模型进行多角度车牌识别，可同时识别道路上多辆车的车牌信息。且由于本发明中提出的模型通过自学习的仿射变换参数，可以校正侧面视角下的车牌子图，减少输入图像的噪声信息，有效提高车牌OCR模型的识别能力，从而解决了输入车牌OCR模型的图像噪声信息多，导致识别率不高的问题。

本申请实施例提供的方案涉及人工智能的机器学习技术，下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

首先结合图1，对本申请提出的一种图像识别方法的整体流程进行简要的描述。如图1所示的图像识别方法，包括：

1、输入图像，该图像为待检测图像。

2、对输入的图像进行预处理。

需要说明的是，数据预处理包括对输入的待检测图像进行大小调整、灰度化和归一化等处理。由于光照、拍摄位置、拍摄距离等原因，导致车牌图像的大小不一、曝光强度不同等也会存在不同，所以需要对待待检测图像进行预处理，预处理通常包括调整大小、灰度化、归一化等。灰度化和归一化可以使用常用的算法和公式，目的是加快卷积神经网络的处理速度和收敛性。

3、利用预训练的YOLOv3模型进行物体检测，例如：进行车辆检测，即基于训练好的权重加载模型识别待检测图像中的车辆信息，获取第一子图，即为车辆子图。

4、通过利用标注的数据训练后的检测模型进行车牌检测和校正，得到矩形的第二子图，即为车牌子图。

5、通过利用标注的数据和增强数据样本训练后的识别模型进行字符识别，得到车牌数据，包括车牌识别结果和置信度。

6、将识别结果进行存储，以便为下游任务提供相应的服务。

本申请提供的一个实施例可以利用历史道路视频数据，训练多角度车牌识别模型(包括上述检测模型和字符识别模型)。该模型通过自学习的仿射变换参数解决复杂场景下的多角度车牌识别问题，其将扭曲的车牌子图还原为正常矩形状，从而减少子图中的噪声信息。另外，该模型采用三阶段处理流程和数据增强技术提高复杂场景下的车牌识别准确率和兼容多种类型的车牌识别。

上述多角度车牌识别模型所需的训练样本集为

其中，N为训练样本集的样本量，X为模型的输入图像，

为图像对应的标注。其中，

为矩形框的左上角坐标以及宽高，该矩形框包括图像中的第一辆车；

为第一辆车牌的四边形坐标(此处采用四边形而不是矩形的目的是为了提取更加准确的牌照图像，从而提高识别的准确率)，若第一辆车的车牌不可见，则该字段为空；

为第一辆车牌的字符，若第一辆车的车牌不可见，则该字段为空。

下面结合附图2-9对本申请实施例提供的一种图像识别方法进行详细的描述。图2是本申请一个示例性实施例提供的一种图像识别方法100的示意性流程图。如图2所示，该方法100包括：

101、识别待检测图像中的物体信息，获取第一子图。

具体的，在该实施例中，可以通过预训练的YOLOv3模型识别检测图像中的车辆信息，获取第一子图。YOLOv3模型的结构如图3所示，由Darknet-53和3个尺度的输出组成。其中，

DBL:如图3左下角所示，就是Darknetconv2d_BN_Leaky，是YOLOv3的基本组件，由卷积层+BN+Leakyrelu共同构成，其中，BN和leaky relu是和卷积层不可分离的部分。

resn：如图3右下角所示，就是res_block_body，是YOLOv3的大组件，n代表数字，有res1，res2,…,res8等等，表示残差res_block里含有多少个残差单元res_unit。而res_block的具体结构，从图3的右下角可以直观地看到，其基本组件也是DBL。

concat：张量拼接。将中间层和后面的某一层的采样进行拼接。拼接的操作和残差层add的操作不一样，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

整个YOLOv3的网络结构包含252层，包括add层23层(主要用于res_block的构成，每个res_unit需要一个add层，一共有1+2+8+8+4＝23层)。除此之外，BN层和LeakyReLU层数量完全一样，均为72层(每一层BN后面都会接一层LeakyReLU)。卷积层一共有75层，其中，有72层后面都会接BN+LeakyReLU的组合，从而构成基本组件DBL。上采样和concat均有2个，还有5个res_block。

YOLOv3输出了3个不同尺度的特征图，如图3所示的y1，y2，y3。采用多尺度来对不同尺寸的目标进行检测，越精细的网格单元可以检测出越精细的物体。y1，y2和y3的深度都是255，边长的规律是13:26:52。

YOLOv3用上采样的方法来实现这种多尺度的特征图，图3中concat连接的两个张量具有同样的尺度(两处拼接分别是26x26尺度拼接和52x52尺度拼接，通过(2,2)上采样来保证concat拼接的张量尺度相同。

获取第一子图的具体过程以获取车辆子图为例进行说明：

将输入图像送入车辆检测算法，获得图像中车辆的位置信息。由于实时性检测需求，本申请中采用单阶段的物体检测模型YOLOv3作为检测算法的模型框架，利用训练好的权重加载模型，输出类别标签为“car”、“bus”和“truck”的物体框坐标，再利用物体框坐标对输入的待检测图像进行裁剪获得该图像中车辆的子图，记为Xⁱ _car，其中，下标car表示为输入图像裁剪后的车辆图像，上标i表示输入图像X中的第i辆车。

102、通过预训练的检测模型从所述第一子图中提取第二子图，并对所述第二子图进行校正，其中，第二子图中包含字符。

对所述第二子图进行校正，可以通过对第二子图进行扭曲还原处理来实现。

具体的，在该实施例中，可以将所述第一子图输入所述检测模型，根据所述检测模型对所述第一子图进行仿射变换得到所述第一子图包含的四点坐标，且通过概率判断得到所述四点坐标形成的四边形为目标物体时，提取得到四边形的第二子图；对四边形的所述第二子图进行透视变换，映射得到标准矩形的所述第二子图。

例如：以车牌为目标物体为例，则第一子图为车辆子图，第二子图为车牌子图。将车辆子图输入检测模型，根据检测模型对车辆子图进行仿射变换得到车辆子图包含的四点坐标，且通过概率判断得到四点坐标形成的四边形为车牌时，提取得到四边形的车牌子图；对四边形的车牌子图进行透视变换，映射得到标准矩形的车牌子图。

需要说明的是，在该实施例中，由于采用深度卷积神经网络学习了一种仿射变换，使得单位矩形框映射为四边形，从而训练得到检测模型。其中，仿射变换是一种二维坐标到另一二维坐标的线性变换。仿射变换保持了二维图形的“平直性”(直线经仿射变换后依然为直线)和“平行性”(直线之间的相对位置关系保持不变，平行线经仿射变换后依然为平行线，且直线上点的位置顺序不会发生变化)。非共线的三对对应点确定一个唯一的仿射变换。

透视变换的本质是将图像投影到一个新的视平面，用于校正图像。给定透视变换对应的四对像素点坐标，即可求得透视变换矩阵；反之，给定透视变换矩阵，即可对图像或像素点坐标完成透视变换。

因此，将车辆子图输入检测模型后，检测模型会对车辆子图进行仿射变换得到车辆子图包含的四个点的坐标。而仿射变换可以理解为透视变换的特殊形式，所以，在训练检测模型的过程中公式(1)中右侧的二维矩阵即可作为给定的透视变换矩阵。因此，在提取得到四边形的车牌子图后可以对其进行透视变换得到标准矩形的车牌子图。

应理解，本领域技术人员，基于上述内容和下文中对训练检测模型的具体过程的描述，可以获知本申请实施例中采用的仿射变换和透视变换算法的具体实现过程，为了描述的简洁，在此不再赘述。

训练所述检测模型的方式，包括：

也就是说，在该实施例中，以车牌为目标物体为例，对第一样本图像中包含的四边形车牌的四个点进行坐标标注，得到四点坐标标签。

由生活常识可知，车牌形状为矩形，但于拍摄视角和车辆行驶路线的原因，车牌在输入图像中并不是矩形，而是四边形，例如图4所示的倾斜角度车辆图片示例。而常规物体检测算法YOLO或Faster RCNN提取的是标准的矩形框，当倾斜角度较大时，该类算法检测出的车牌子图将包含噪声和部分车身冗余信息，在进行后续的字符识别时会导致识别率低。为了解决该问题，本申请采用深度卷积神经网络学习一种仿射变换，将单位矩形框映射为四边形，其数学表示如公式(1)所示，模型最后输出的特征图谱为(M，N，8)，即：宽度为M，高度为N，卷积通道数为8。检测模型的结构如图5所示。

其中，q为单位矩形的四个点的坐标向量，B_m,n为仿射变换后四边形四个点的坐标，前6个通道中的值为v_i,(i＝1,…,6)为可学习参数，m,n为特征图谱中的位置。由输入标签Y可知，y_license为预先标记的车牌坐标，S_scale为网络中的池化尺度，因此，最小化下式(2)就可以学习这种仿射变换

式(2)最小化的情况可以是该损失函数的值小于预设值或者学习次数达到预设次数。

同时，最后2个通道中的值v₁,v₂用于概率判断特征图谱中的点m,n位置是否为车牌，该部分损失的数学表示如下式(3)：

上述两部分损失共同构成检测算法的损失函数。当模型训练完成后，通过预测值v_i,(i＝1,…,8)对输入的车辆子图进行仿射变换和概率判断即可提取车牌区域，得到车牌子图。其中，预测值v_i,(i＝1,…,6)对输入的车辆子图进行仿射变换得到车辆子图包含的四点坐标，且通过预测值v_i,(i＝7、8)对四点坐标形成的四边形是否为车牌进行概率判断得到四点坐标形成的四边形为车牌时，提取得到四边形的车牌子图。

检测模型可以提取倾斜视角下车牌的四点坐标，但是倾斜的文字不利于后续的字符识别，因此在获得车牌的四点坐标后，还要将该车牌四边形进行透视变换映射为标准矩形，提取后的车牌子图如图6所示。

如图5所示的检测模型包括：3个卷积核不同的卷积池化层、2个卷积核不同的卷积残差层，以及采用最大池化方式的池化层，最后采用2个二维卷积分布输出一个二分类结果和一个回归结果。其中，回归结果表征车辆子图包含的四点坐标，二分类结果表征四点坐标形成的四边形为车牌的置信度。每个卷积池化层的结构和卷积残差层的结构分别如图5左下角所示。

103、通过预训练的字符识别模型识别校正后的所述第二子图，获取相应的字符数据。

具体的，训练所述字符识别模型的方式，包括：

在该实施例中，例如：当目标物体为车牌时，第二子图为车牌子图，通过预训练的字符识别模型识别校正后的车牌子图，获取相应的字符数据为车牌数据。而预设规则包括：车牌的背景颜色为蓝色，车牌包含的字符为1个汉字、2个字母和4个数字，且排列规则为“汉字-字母-数字-字母”，则生成的样本车牌图像为车牌信息为蓝底“汉字-字母-数字-字母”的所有车牌图像。

由于手工标注车牌的文本信息将需要大量的人力投入，因此本申请通过采用“背景+字符+规则”的方式进行数据增强以扩大训练集样本，字符OCR识别模型的泛化能力。字符识别模型采用CNN结构，配合CTC损失函数进行序列对齐与样本训练。本申请实施例中的字符识别模型可以为OCR识别模型，其结构如图7所示。

如图7所示的OCR识别模型包括：3个卷积核不同的卷积池化层、2个卷积核不同的卷积层，最后将二分类结果输入CTC损失函数最终得到识别结果。其中，二分类结果表征车牌识别结果的置信度，回归结果表征车牌识别结果。每个卷积池化层的结构如图7左下角所示，每个卷积层的结构如图7右下角所示。

应理解，在本申请实施例中，目标物体还可以包括：车辆车架号、身份证、街景门牌等。

也就是说，本申请实施例中提供的图像识别方法除了可以进行车牌识别，还可以进行车辆车架号识别，身份证文字识别，街景文字识别等等，为了提高字符识别的准确率均需要先识别包含字符的子图，然后还原为正常形状，最后进行OCR识别。以身份证文字识别为例，对身份证拍照时侧向拍，实际成像构成的子图就不会是矩形，如果直接采用矩形模型识别就会带来噪声信息，因此需要先对非矩形的子图进行校正得到标准矩形的子图，再采用矩形模型识别就可以减少噪声信息。

在一个实施例中，如图9所示，103可以包括：

1031、将校正后的所述第二子图输入所述字符识别模型，得到所述第二子图对应字符的文本信息。

1032、根据所述字符的文本信息，获得字符识别结果和置信度。

具体的，可以采用CTC算法解码所述车牌的文本信息，获得车牌识别结果和置信度。

例如，解码过程如图8所示，将校正后的车牌子图输入OCR识别模型，得到该车牌子图对应车牌的文本信息为“皖AA-JJ9-11-2-J”，采用CTC算法解码该文本信息，获得车牌识别结果为“皖AJ912J”，以及该识别结果的置信度。

则所述方法100还包括：

104、获取连续帧的多个待检测图像的字符识别结果，并按照相应置信度对多个字符识别结果进行加权投票聚合，得到目标识别结果。

具体是，在该实施例中，例如字符识别结果为车牌识别结果，则当得到车辆识别结果之后，可以针对某一目标车辆进行追踪，例如：获取1小时内的连续帧图像中目标车辆的车牌识别结果，将这些车牌识别结果按照相应的置信度进行加权投票聚合，得到最终的识别结果，然后将这个最终的识别结果进行存储，以便服务下游任务，如：事件溯源，车辆追踪，流量统计等。

也就是说，在某1小时内的连续帧图像中包含多辆车，可以选择其中一辆作为目标车辆，针对所选择的目标车辆进行跟踪。具体是，获取该目标车辆的所有车牌识别结果和对应的置信度，假如，在某1小时内的连续帧图像中该目标车辆出现了100次，由于每个车牌识别结果都有对应的置信度，即：表征该车牌识别结果可信程度的值，那么可以得到100个车牌识别结果和对应的100个置信度。则可以对该100个车牌识别结果按照对应的100个置信度进行加权投票聚合，将加权投票后值最大的聚合结果作为最终的识别结果并进行存储。

因此，本申请提出的识别模型主要应用于智能灯杆项目，其目的是对实时的道路视频流数据进行车牌识别，后续可用于事件溯源，车辆追踪，流量统计等服务。

综上，本申请所提出的图像识别方法包括3个阶段，应用于车牌识别时，首先对图像进行车辆检测提取车辆子图，然后对车辆子图进行车牌检测与还原扭曲处理得到车牌子图，最后对车牌子图进行字符识别获取车牌信息。检测模型采用YOLOv3模型进行物体检测，检测与还原模型以及字符识别模型通过历史已标注少量数据和数据增强技术进行建模与训练。因此，应用本申请所提出的图像识别方法进行车牌识别时具有以下特点：

1、采用端到端训练，无需任何手工进行特征工程；

2、应用于复杂的道路场景下，通过引入自学习的仿射变换，可进行多角度车牌识别；

3、采用三阶段模型，可同时识别单张图像在的多辆车和一辆车两张车牌(大陆和港澳)的场景；

4、将车牌子图转换为灰度图像，同时进行数据增强，使得模型在极端环境下(下雨，夜晚)仍然具有较高的识别能力，并兼容新能源车牌。

本申请通过自学习的仿射变换参数，自适应还原侧向视角的车牌子图，从而提高车牌识别准确率，侧向视角车牌子图的还原效果如图6所示。测试数据集由公开数据集CCPD中rotate场景构成，共9650个样本，所有数据均是侧向视角。对比模型为：开源HyperLPR中文车牌识别框架和本申请提出的多角度车牌识别模型的对照模型(采用矩形框提取车牌子图，且无扭曲还原)，上述模型的实验结果如表1所示：

表1实验结果准确率

从表1中发现本申请所提出的多角度车牌识别模型在准确率上均优于现有技术方案，由此也印证了本申请所提出方法的有效性。

基于相同的发明构思，本申请实施例还提供了一种图像识别装置，该装置的结构示意图如图10所示，车牌装置200包括：第一识别模块201、处理模块202和第二识别模块203。

第一识别模块201，用于识别待检测图像中的物体信息，获取第一子图。

处理模块202，用于通过预训练的检测模型从所述第一子图中提取第二子图，并对所述第二子图进行校正，所述第二子图中包含字符。

第二识别模块204，用于通过预训练的OCR识别模型识别校正后的所述第二子图，获取相应的字符数据。

具体的，在该实施例中，处理模块202，具体用于：对所述第二子图进行扭曲还原处理。

更具体的，用于将所述第一子图输入所述检测模型，根据所述检测模型对所述第一子图进行仿射变换得到所述第一子图包含的四点坐标，且通过概率判断得到所述四点坐标形成的四边形为目标物体时，提取得到四边形的第二子图；

其中，所述处理模块202还用于训练所述检测模型，包括：

第二识别模块203，具体用于：

根据所述字符的文本信息，获得字符识别结果和置信度。

具体的，可以采用CTC解码所述车牌的文本信息，获得车牌识别结果和置信度。

其中，所述处理模块还用于训练所述OCR识别模型，包括：

所述目标物体包括：车牌、车辆车架号、身份证、街景门牌等。例如，当目标物体为车牌时，所述预设规则包括：车牌的背景颜色、字符的数量、种类以及字符的排列规则。

在另一个实施例中，如图10所示，装置200还可以包括：获取模块204。则，在该实施例中，

获取模块204，用于获取连续帧的多个待检测图像的字符识别结果，并按照相应置信度对多个字符识别结果进行加权投票聚合，得到目标识别结果。

本申请实施例提供的车牌识别装置中未详述的内容，可参照上述实施例中提供的车牌识别方法，本申请实施例提供的图像识别装置能够达到的有益效果与上述实施例中提供的图像识别方法相同，在此不再赘述。

应用本申请实施例，至少具有如下有益效果：

基于相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备的结构示意图如图11所示，该电子设备300包括至少一个处理器301、存储器302和总线303，至少一个处理器301均与存储器302电连接；存储器302被配置用于存储有至少一个计算机可执行指令，处理器301被配置用于执行该至少一个计算机可执行指令，从而执行如本申请实施例一中任意一个实施例或任意一种可选实施方式提供的任意一种图像识别方法的步骤。

进一步，处理器301可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其它具有逻辑处理能力的器件，如MCU(Microcontroller Unit，微控制单元)、CPU(Central Process Unit，中央处理器)。

基于相同的发明构思，本申请实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述方法实施例提供的图像识别方法。

本申请实施例提供的计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(RandomAccess Memory，随即存储器)、EPROM(Erasable Programmable Read-OnlyMemory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

识别待检测图像中的物体信息，获取第一子图；

通过预训练的字符识别模型识别校正后的所述第二子图，获取相应的字符数据。

2.根据权利要求1的方法，其特征在于，所述对所述第二子图进行校正，包括：

对所述第二子图进行扭曲还原处理。

3.根据权利要求2的方法，其特征在于，所述通过预训练的检测模型从所述第一子图中提取第二子图，并对所述第二子图进行扭曲还原处理，包括：

4.根据权利要求3的方法，其特征在于，所述目标物体包括：车牌、车辆车架号、身份证、街景门牌。

5.根据权利要求1至4中任一项的方法，其特征在于，所述通过预训练的字符识别模型识别校正后的所述第二子图，获取相应的字符数据，包括：

根据所述字符的文本信息，获得字符识别结果和置信度。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求3或4所述的方法，其特征在于，训练所述检测模型的方式，包括：

8.根据权利要求3或4所述的方法，其特征在于，训练所述字符识别模型的方式，包括：

9.一种图像识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述处理模块，具体用于对所述第二子图进行扭曲还原处理。

11.根据权利要求10所述的装置，其特征在于，所述处理模块，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述第二识别模块，具体用于：

根据所述字符的文本信息，获得字符识别结果和置信度。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的图像识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的图像识别方法。