CN113011408A

CN113011408A - 多帧图片序列的字符识别、车辆识别码识别方法及系统

Info

Publication number: CN113011408A
Application number: CN202110172603.XA
Authority: CN
Inventors: 张寅则; 孙征
Original assignee: Bank Of China Ltd Suzhou Branch
Current assignee: Bank Of China Ltd Suzhou Branch
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-22

Abstract

本发明实施例公开了一种多帧图片序列的字符识别、车辆识别码识别方法及系统，该方法包括：S1提取多帧图片中的每一幅图片的图片特征；S2：基于步骤S1提取的每一幅图片的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度；S3：以步骤S2确定的每一幅图片的清晰度分布为相应图片特征对应区域的权重，将步骤S1提取的多帧图片中的每一幅图片的图片特征进行加权求和，得到融合后的图片特征；S4：基于步骤S3得到的融合后的图片特征，利用字符识别算法确定图片内的字符内容。

Description

多帧图片序列的字符识别、车辆识别码识别方法及系统

技术领域

本发明涉及车辆管理领域，尤其涉及一种多帧图片序列的字符识别、车辆识别码识别方法及系统。

背景技术

车牌识别是一种常用的车辆识别技术，然而对于没有安装车牌的车辆，无法通过车牌号码对其进行识别。类似于人的身份证号，每一辆车都有唯一的17VIN码(车辆识别码)，一般位于车辆驾驶舱前挡风玻璃处。因此，对于没有安装车牌的车辆可以通过识别其前挡风玻璃处的VIN对其进行车辆信息确认。

按自动化程度，VIN识别可以分为手持相机拍照VIN识别和基于多帧视频序列的VIN识别。手持相机拍照VIN识别技术比较简单，一般流程为：

1待识别车辆停车；

2通过人工手持相机对准VIN区域进行拍照(相机画面中设定辅助框圈定VIN区域)；

3把拍摄的清晰VIN区域照片输入到OCR识别算法中识别出17位VIN。

基于多帧视频序列的VIN识别技术比较复杂，一般流程为：

1待识别车辆不停车从拍摄VIN的相机下经过；

2从相机获取多帧图片，通过VIN检测算法检测出多帧图片中的所有VIN区域图片(经测算一辆车以10km/h经过拍照速率为30f/s的相机最多能拍到4张包含VIN区域的图片)；

3把VIN检测算法检测到的多张VIN区域图片输入到OCR识别算法中识别出多个VIN；

4从多个识别出的VIN中根据VIN命名规则选出一个VIN输出。

对比以上两种技术，手持相机拍照VIN识别的优点是通过人工拍照可以确保拍摄到清晰VIN区域图片，利用清晰的VIN图片做识别可以提高识别准确率。基于多帧视频序列的VIN识别优点是不需要待识别车辆停车，同时省去了人工拍照，可以大大提高识别效率。但是，基于多帧视频序列的VIN识别技术面临的最大挑战是VIN区域比较小，车辆在运动中，容易造成VIN区域模糊。如下图1(a)所示。拍摄的三张VIN图片，由于运动、角度、光线的影响清晰度区别很大。

如果使用检测到的图1(a)中第三行VIN图片做VIN识别，势必会识别失败。对于类似于图1(a)最后一行整张VIN图片模糊的情况，最直接的解决方案是在送入VIN识别算法前，对VIN图片做清晰度判断。只对清晰的图片做VIN识别。但这种方案解决不了下面的问题，现实中很多VIN图片不是整体模糊而是局部字符模糊。如图1(b)所示。对于这种情况，VIN图片清晰度判断程序会错误地把局部不清晰的VIN图片丢弃掉或者判断为清晰图片。车辆不停车抓拍到的VIN图片的总数偏少(由车速决定，车速越快抓拍的包含VIN区域图片越少)，丢弃掉局部模糊VIN图片后用于识别的图片更少了，这种丢弃操作会造成识别准确率降低。另外，使用局部模糊的VIN图片用于识别会得到错误的VIN。

发明内容

本发明实施例提供了一种多帧图片序列的字符识别、车辆识别码识别方法及系统，能够提升识别的准确率和执行效率。

为实现上述目的，本发明一方面提供一种多帧图片序列的字符识别方法，包括：

S1：提取多帧图片中的每一幅图片的图片特征；

S2：基于步骤S1提取的每一幅图片的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度；

S3：以步骤S2确定的每一幅图片的清晰度分布为相应图片特征对应区域的权重，将步骤S1提取的多帧图片中的每一幅图片的图片特征进行加权求和，得到融合后的图片特征；

S4：基于步骤S3得到的融合后的图片特征，利用字符识别算法确定图片内的字符内容。

在一个优选的实施例中，所述步骤S1具体包括：通过卷积神经网络算法提取分别提取多帧图片中的每一幅图片的图片特征。

在一个优选的实施例中，所述步骤S2具体包括：以步骤S1提取的每一幅图片的图片特征为输入，借助清晰度预测模块，计算每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布。

在一个优选的实施例中，计算每一幅图片的每个区域的清晰度包括：计算每一幅图片沿字符排列方向划分的多段的每一段的清晰度。

在一个优选的实施例中，所述清晰度预测模块包括卷积神经网络模块。

在一个优选的实施例中，计算每一幅图片沿字符排列方向划分的多段的每一段的清晰度组成每一幅图片的清晰度向量。

在一个优选的实施例中，所述步骤S4具体包括：借助循环卷积神经网络算法，基于步骤S3得到的融合后的图片特征，确定图片内的字符内容。

在一个优选的实施例中，还包括，在步骤S1之前，通过字符检测算法，从原始视频帧中检测包含字符区域的连续多帧图片，并从所述连续多帧图片中分别提取字符区域，形成步骤S1中所述的多帧图片。

本发明另一方面还提供一种多帧图片序列的字符识别系统，包括：

特征提取模块，用于提取多帧图片中的每一幅图片的图片特征；

清晰度确定模块，用于基于特征提取模块提取的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布；

自适应融合模块，用于以清晰度确定模块确定的每一幅图片的清晰度分布为相应图片对应区域的权重，将特征提取模块提取的多帧图片中的每一幅图片的图片特征进行加权求和，得到融合后的图片特征；

字符识别模块，用于基于自适应融合模块得到的融合后的图片特征，利用字符识别算法确定图片内的字符内容。

本发明另一方面还提供一种多帧图片序列的车辆识别码VIN码识别方法，包括：

S1：提取多帧图片中的每一幅图片的图片特征；

S2：基于步骤S1提取的每一幅图片的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布；

S4：基于步骤S3得到的融合后的图片特征，利用字符识别算法确定图片内的VIN码。

本发明另一方面还提供一种多帧图片序列的车辆识别码VIN码识别系统，包括：

通过本发明实施例，基于多帧图片中的清晰度分布，提高高清晰度片段在整个图片特征中的影响，使融合特征判别性提高的同时又避免了模糊片段的干扰，最后把融合的特征输入到字符识别模块中做字符识别，提升了识别的正确性。此过程输入多帧图片输出单个识别结果，省去了针对多个识别结果的筛选过程，提高了算法的效率。由于字符识别模块只接受融合特征作为输入，因此大大减少了计算量，从而加快算法推理速度。

附图说明

图1(a)是连续抓拍的VIN图片示意图；

图1(b)是VIN码布局模糊的示意图；

图2是本发明实施例提供的一种多帧图片序列的字符识别方法的流程示意图；

图3是连续抓拍的车辆视频帧的图片序列图；

图4是本发明实施例中的多帧特征自适应融合CRNN算法总体框架图；

图5是清晰度标注示例图片；

图6是图片特征提取的算法模块示意图；

图7是清晰度预测模块结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图2示出了本发明实施例提供的一种多帧图片序列的字符识别方法的流程示意图，包括如下步骤：

步骤S1：提取多帧图片中的每一幅图片的图片特征。

在本实施例中，多帧图片中待识别的字符内容的真实值是相同的。例如在车辆管理场地的道闸处设置的摄像头捕捉的视频中，往往连续多帧图像能够捕获到车身上的VIN码。为了提升识别效果，可以在步骤S1之前，通过字符检测算法，从原始视频帧中检测包含字符区域的连续多帧图片，从连续多帧图片中分别提取字符区域，形成步骤S1所需的多帧图片。这样处理可以使得步骤S1中处理的多帧图片的主要内容为字符。

步骤S1提取图片特征可以借助卷积神经网络(CNN)算法提取分别提取多帧图片中的每一幅图片的图片特征。

步骤S2：基于步骤S1提取的每一幅图片的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度。

为了对多幅图片的图片特征进行加权融合，需要通过步骤S2计算每一幅图片的每个区域的清晰度，作为后续加权求和的权重。在本发明实施例中，该权重是通过图片中每个区域的清晰度进行反映。清晰度越高的区域，该区域的图片特征在加权求和时权重越高，所以清晰度越高的图片特征对后续字符识别的结果影响越大。

步骤S2可以步骤S1提取的每一幅图片的图片特征为输入，借助清晰度预测模块，计算每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布。

清晰度预测模块可以是由卷积神经网络模块构成。

这里的每一幅图片的每个区域的划分可以是：沿图片中字符排列方向将图片划分为多段。以每段为基本单元，通过倾斜度预测模块预测每段的清晰度。

步骤S3：以步骤S2确定的每一幅图片的清晰度分布为相应图片特征对应区域的权重，将步骤S1提取的多帧图片中的每一幅图片的图片特征进行加权求和，得到融合后的图片特征。

步骤S3的过程实现了多幅图片的自适应融合，融合过程基于每幅图片的清晰度分布，与现有技术简单粗暴地以整幅图片是否清晰而直接过滤掉整幅图片不同，本方案尽可能使用每幅图片，且对每幅图片基于不同区域的清晰度分别进行融合，清晰度越高的区域，融合过程中该图片该区域占据更大的权重。

步骤S4：基于步骤S3得到的融合后的图片特征，利用字符识别算法确定图片内的字符内容。

步骤S4可以借助循环卷积神经网络(RNN)算法，基于步骤S3得到的融合后的图片特征，确定图片内的字符内容。RNN算法被证明用于字符内容识别具有较好的效果。RNN算法具体可以采用长短期记忆网络(LSTM，Long Short-Term Memory)，以解决长期依赖问题。

为了实现训练，在实际的系统架构中还可以在RNN算法模块后增加一个损失函数计算模块，具体可以是CTC(Connectionist Temporal Classification)模块。

当步骤S1采用CNN算法，步骤S4采用RNN算法，且增加CTC模块时，整个方案流程种类属于一种改进的CRNN方案，相对于标准的CRNN，本该进的CRNN方案在步骤S2和步骤S3中，将多幅图片的图片特征基于图片的清晰度分布进行了自适应融合，使得在不浪费图片的前提下，让清晰度更高的区域对最终字符识别结果的影响更大，提高了字符识别的正确率。

本发明实施例还提供一种多帧图片序列的字符识别系统，包括：

本发明实施例的方案一种典型应用场景是对运动车辆的车身上的VIN码识别，当然也可以用于运动车辆的车牌号的识别。

为此，本发明实施例还提供一种多帧图片序列的车辆识别码VIN码识别方法，其特征在于，包括：

S1’：提取多帧图片中的每一幅图片的图片特征；

S2’：基于步骤S1’提取的每一幅图片的图片特征，确定每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布；

S3’：以步骤S2’确定的每一幅图片的清晰度分布为相应图片特征对应区域的权重，将步骤S1’提取的多帧图片中的每一幅图片的图片特征进行加权求和，得到融合后的图片特征；

S4’：基于步骤S3’得到的融合后的图片特征，利用字符识别算法确定图片内的VIN码。

本发明实施例还提供一种多帧图片序列的车辆识别码VIN码识别系统，包括：

该实施例每个步骤及模块的具体实现与上文描述的一种多帧图片序列的字符识别方法的响应步骤基本相同，只不过识别的具体字符内容为VIN码。而多帧图片是车辆移动过程中从视频中提取的连续多张包含该车辆车身上同一VIN码的图片。

以下以一个具体的算法实现本发明实施例的一个具体实现。

首先要从相机中获取视频帧，并通过VIN检测算法，检测出所有VIN图片。VIN检测过程不属于本专利讨论内容。视频帧如下图3所示。实线方框内是VIN,首先需要通过VIN检测算法把VIN图片检测并切割出来后才能用于本实施例VIN识别算法。

该VIN识别算法步骤包括：

本专利详细算法流程如下：

1)VIN识别训练数据标注

2)把多帧VIN图片输入到CNN模块中提取特征

3)VIN图片清晰度预测

4)多帧特征自适应融合

5)融合后特征输入到RNN模块中得到序列特征

6)计算CTC损失

7)模型训练

多帧特征自适应融合CRNN算法总体框架图，如图4所示。

算法模型训练过程如下：

训练多帧特征自适应融合CRNN模型的数据分为两部分，一部分是VIN图片和对应的真值，这部分数据跟训练标准CRNN模型用的到数据一样。另一部分是VIN图片对应的清晰度真值，标注清晰度时，VIN图片按宽度方向分30个区域，每一个区域的清晰度分为4档：

清晰：3；

稍微清晰：2；

模糊但可以认清：1；

模糊无法认清：0。

图5为清晰度标注示例图片。

图片特征提取的具体过程如下：

多帧VIN图片首先输入到CNN模块中提取特征。VIN图片的大小为32x240x3，经过CNN模块后提取的特征形状为1x30x512，具体操作见图6所示。由图6可以看出，CNN模块主要由5个卷积－批正则化－relu激活层组成。

清晰度预测的过程具体如下：

清晰度预测模块的输入是CNN模块输出的VIN特征，VIN特征的形状为1x30x512,经过清晰度预测模块中的卷积和softmax处理后输出形状大小为1x30x1的清晰度权重向量。权重向量中的值共四类：0,1,2,3。0表示模糊认不清，1表示模糊能认清，2表示稍微清晰，3表示清晰。算法训练时，清晰度预测模块输出的清晰度权重与清晰度真值计算交叉熵损失，优化清晰度预测模块中的卷积层参数。清晰度预测模块结构图如图7所示。

多帧特征自适应融合过程具体如下：

多帧特征自适应融合模块见图4，清晰度预测模块输出的清晰度权值与对应的VIN特征相乘后，再把所有VIN特征对应相加，得到融合VIN特征。自适应融合的目的是，在融合过程中，给予清晰度高VIN图片片段大的权重，同时降低模糊VIN图片片段的权重。

融合后特征输入到RNN模块中得到序列特征与标准CRNN算法中RNN模块类似，采用了LSTM提取序列特征，根据VIN命名规则可知，VIN只包含‘ABCDEFGHJKLMNPRSTUVWXYZ0123456789’33个字符，因此LSTM输出类别设置为34。

计算CTC损失的过程同标准CRNN算法类似。

本实施例提出了一种多帧特征自适应融合CRNN用于车辆VIN识别。针对现有基于多帧车辆VIN识别方案中遇到的VIN图片整体模糊或局部模糊及多帧结果筛选困难等问题，使用VIN图片特征预测不同VIN片段的清晰度，以清晰度作为权重融合多帧特征，这种自适应的融合方式提高了高清晰度片段在整个VIN特征中的影响，使融合特征判别性提高的同时又避免了模糊片段的干扰，最后把融合的特征输入到RNN中做VIN识别。此过程输入多帧VIN图片输出单个VIN结果，省去了针对多个VIN结果的筛选过程，提高了算法的效率。由于RNN模块只接受融合特征作为输入，因此大大减少了计算量，从而加快算法推理速度。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多帧图片序列的字符识别方法，包括：

S1：提取多帧图片中的每一幅图片的图片特征；

2.如权利要求1所述的方法，其特征在于，所述步骤S1具体包括：通过卷积神经网络算法提取分别提取多帧图片中的每一幅图片的图片特征。

3.如权利要求1所述的方法，其特征在于，所述步骤S2具体包括：以步骤S1提取的每一幅图片的图片特征为输入，借助清晰度预测模块，计算每一幅图片的每个区域的清晰度，得到每一幅图片的清晰度分布。

4.如权利要求3所述的方法，其特征在于，计算每一幅图片的每个区域的清晰度包括：计算每一幅图片沿字符排列方向划分的多段的每一段的清晰度。

5.如权利要求3所述的方法，其特征在于，所述清晰度预测模块包括卷积神经网络模块。

6.如权利要求4所述的方法，其特征在于，计算每一幅图片沿字符排列方向划分的多段的每一段的清晰度组成每一幅图片的清晰度向量。

7.如权利要求1所述的方法，其特征在于，所述步骤S4具体包括：借助循环卷积神经网络算法，基于步骤S3得到的融合后的图片特征，确定图片内的字符内容。

8.如权利要求1所述的方法，其特征在于，还包括，在步骤S1之前，通过字符检测算法，从原始视频帧中检测包含字符区域的连续多帧图片，并从所述连续多帧图片中分别提取字符区域，形成步骤S1中所述的多帧图片。

9.一种多帧图片序列的字符识别系统，其特征在于，包括：

10.一种多帧图片序列的车辆识别码VIN码识别方法，其特征在于，包括：

S1：提取多帧图片中的每一幅图片的图片特征；

11.一种多帧图片序列的车辆识别码VIN码识别系统，其特征在于，包括：