CN112215221A

CN112215221A - 一种车架号自动识别方法

Info

Publication number: CN112215221A
Application number: CN202011003576.5A
Authority: CN
Inventors: 李丽; 魏晨; 郭榕刚; 郑兴丽; 曹子阳; 徐昊
Original assignee: Guojiao Space Information Technology Beijing Co ltd
Current assignee: Guojiao Space Information Technology Beijing Co ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2021-01-12

Abstract

本公开的实施例提供了一种车架号自动识别方法、系统、设备和计算机可读存储介质。所述方法包括获取目标图像，所述目标图像包括通用身份码字符串；将所述目标图像输入至预先训练的图像特征提取模型，得到所述目标图像的图像特征向量；将所述图像特征向量输入至预先训练的字符识别模型，得到初步不定长字符串；对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果。以此方式，可以在复杂多变的真实拍摄场景中实现车架号高效自动识别。

Description

一种车架号自动识别方法

技术领域

本公开的实施例一般涉及图像自动化识别领域，并且更具体地，涉及一种车架号自动识别方法、系统、设备和计算机可读存储介质。

背景技术

车架号是机动车辆唯一的身份识别码，车架号由17位数字和大写字母组合而成。目前，在车辆库存统计、车辆年检、车辆拆解时，都必须要核查与录入机动车的车架号，常规的手段是采取人工抄写车辆上的车架号，主要步骤包括：1)采集包含车架号的光学图像；2)人工对图像中的车架号进行识别；3)将上述人工识别出的车架号转录到统计系统内。

上述所述步骤2中的人工识别方式不仅工作效率及其低下，而且存在较大的人工误判情况，而且在步骤3中的转录操作极易产生误录问题。

近几年有基于深度学习的自动化车架号识别技术被提出，现有的方法主要是利用卷积神经网络对包含车架号的图像进行卷积识别，从而识别出图像中的17位车架号字符。现有的基于深度学习的自动化车架号识别技术虽然已经有相对较高的正确率，但这些方法大多数只能在实验环境下展现良好的性能，由于真实的拍摄场景如图3所示往往具有光照不均匀、斑点噪声、玻璃反光、背景种类繁杂、色调差异、拍摄倾斜、字符模糊等问题，现有的自动化车架号识别技术应用依然十分困难，车架号识别准确率会大大下降，并且大多数方法只对单种类型的车架号有效，无法适应多种类型的车架号。

发明内容

本公开旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，在本公开的第一方面，提供了一种车架号自动识别方法。该方法包括：

获取目标图像，所述目标图像包括通用身份码字符串；

将所述目标图像输入至预先训练的图像特征提取模型，得到所述目标图像的图像特征向量；

将所述图像特征向量输入至预先训练的字符识别模型，得到初步不定长字符串；

对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果。

进一步地，

所述图像特征提取模型为卷积神经网络，包括卷积层、池化层和批归一化层。

进一步地，

所述字符识别模型为两层双向LSTM深度双向长短时记忆网络，包括W/4个字符识别单元，每个字符识别单元都由预测向量生成子单元、预测概率向量生成子单元、最大预测概率计算子单元以及字符类型识别子单元构成；

其中，所述W为图像宽度。

进一步地，所述图像特征提取模型与所述字符识别模型通过如下步骤训练得到：

生成训练样本集合，其中，训练样本包括车架号图像及对应车架号；

将所述训练样本集合中的车架号图像的集合作为输入，将与所述目标图像对应的车架号作为期望输出，采用Adam方法，以CTC损失函数对所述图像特征提取模型及所述字符识别模型进行训练。

进一步地，生成训练样本包括：

获取不同光照条件、不同玻璃类型和/或不同背景种类的玻璃背景图片；

对所述背景图片进行裁剪，得到预设宽度的车架号背景；

在空白背景中随机生成17位虚拟车架号字符，并对所述车架号字符随机扭转预设角度；

将扭转角度后的车架号字符添加到所述车架号背景中，生成第一图像；

在所述第一图像中随机添加图像噪点，生成第二图像；

在所述第二图像中随机添加图像模糊，生成第三图像；

对所述第三图像进行随机左右剪裁与随机上下剪裁，得到所述车架号图像。

进一步地，所述对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果包括：

对所述初步不定长字符串进行处理，去除所述初步不定长字符串中的空格字符和连续重复字符，得到所述目标图像的通用身份码字符串识别结果。

进一步地，所述通用身份码字符串包括26个大写英文字母和/或从0至9的10个自然整数。

在本公开的第二方面，提出了一种车架号自动识别系统，包括：

图像输入模块，用于获取目标图像，所述目标图像包括通用身份码字符串；

图像特征提取模块，用于将所述目标图像输入至预先训练的图像特征提取模型，得到所述目标图像的图像特征向量；

字符识别模块，用于将所述图像特征向量输入至预先训练的字符识别模型，得到初步不定长字符串；

身份码输出模块，用于对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果。

在本公开的第三方面，提出了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如根据本公开的上述方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的上述方法。

本申请实施例提供的一种车架号自动识别方法，通过获取目标图像，所述目标图像包括通用身份码字符串：将所述目标图像输入至预先训练的图像特征提取模型，得到所述目标图像的图像特征向量；将所述图像特征向量输入至预先训练的字符识别模型，得到初步不定长字符串；对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果。实现了在复杂多变的真实拍摄场景中实现车架号高效自动识别。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的一种车架号自动识别方法的一个实施例的流程图；

图3是本申请的一个实施例的真实拍摄场景示意图；

图4是本申请的一个实施例的合成车架号示意图；

图5是用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出了可以应用本申请的一种车架号自动识别方法或一种车架号自动识别系统的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

当终端101、102、103为硬件时，其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备，如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理，并可以将处理结果反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。特别地，在目标数据不需要从远程获取的情况下，上述系统架构可以不包括网络，而只包括终端设备或服务器。

如图2所示，是本申请实施例一种车架号自动识别方法的流程图。从图2中可以看出，本实施例的车架号自动识别方法，包括以下步骤：

S210，获取目标图像。

在本实施例中，用于一种车架号自动识别方法的执行主体(例如图1所示的服务器)可以通过有线方式或者无线连接的方式获取所述目标图像。

可选地，所述目标图像为包含有整个通用身份码字符串的图像。

所述身份码字符串通常为17位。

可选地，所述身份码字符串包括26个大写英文字母和/或从0至9的10个自然整数。

进一步地，上述执行主体可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的目标图像，也可以是预先存储于本地的目标图像。

可选地，通过图像输入模块获取所述目标图像。

S220，将所述目标图像输入至预先训练的图像特征提取模型，得到所述目标图像的图像特征向量。

其中，所述图像特征提取模型为卷积神经网络，包括卷积层、池化层和批归一化层。

可选地，所述图像特征提取模型和步骤S230中所述字符识别模型可通过训练模块训练得到。

具体地，生成训练样本集合，其中，训练样本包括车架号图像及对应车架号；

可选地，所述训练模块可同时处理图像个数为128个。

可选地，所述训练样本可通过如下步骤生成：

a，获取数张不同光照条件、不同玻璃类型、不同背景种类的玻璃背景图片，并对所述背景图片进行剪裁，得到预设宽度的车架号背景；

可选地，为了训练结果的精准性所述数张通常为大于100张；

可选地，上述背景图片可从网络上下载获取。

b，在空白背景中随机生成17位虚拟车架号字符，并对所述车架号字符随机扭转预设角度；

其中，所述预设角度是根据需求预先进行设定的。例如，10°。

c，将扭转角度后的车架号字符添加到所述车架号背景中，生成第一图像(初步图像)。即，将步骤b中将扭转角度后的车架号字符添到步骤a中剪裁后的背景中；

d，在所述第一图像中随机添加图像噪点，生成第二图像；

e，在所述第二图像中随机添加图像模糊，生成第三图像；

f，对所述第三图像进行随机左右剪裁与随机上下剪裁，得到所述车架号图像。

可选地，自动化重复上述步骤(a-f)，得到数张随机组合的合成车架号图片如图4所示。即，生成所述训练样本集合。

可选地，在图像特征提取模块中，将所述目标图像作为输入，输入至所述图像特征提取模型，将与所述目标图像对应的图像特征向量作为期望输出，得到所述图像特征向量。

可选地，所述目标图像的大小为(32，W，3)；

所述图像特征向量的大小为(1，W/4，512)。

其中，所述W为该图像(所述目标图像)的宽度，可以任意选取。

S230，将所述图像特征向量输入至预先训练的字符识别模型，得到初步不定长字符串。

可选地，所述字符识别模型的训练流程可参考步骤S220中训练模块的具体训练流程，在此不再赘述。

其中，所述字符识别模型为两层双向LSTM深度双向长短时记忆网络，包括W/4个字符识别单元，每个字符识别单元都由预测向量生成子单元、预测概率向量生成子单元、最大预测概率计算子单元以及字符类型识别子单元构成。

可选地，因为所述W的取值是任意的，所以上述W/4的取值可能为非整数，例如1.2。因此，当W/4取值为非整数时，进行向上取整，以保证方案的完整性。例如，W/4取值为1.2时，向上取整为2。即，W/4取值为2。

可选地，所述两层双向LSTM深度双向长短时记忆网络，单层的前向和反向隐藏单元数目分别为256个，所述LSTM网络的最大时间长度为W/4。

可选地，所述字符识别单元，用于识别出该位置(与所述字符识别单元对应的字符位置)的字符的种类是大写英文字母、数字、或是空白字符。

可选地，在字符识别模块中，将步骤S220中得到的图像特征向量作为输入，输入至所述字符识别模型，将与所述图像特征向量对应的字符作为期望输出，得到所述初步不定长字符串。

具体地，所述预测向量生成子单元的输入为所述图像特征提取模块提取出的维度为(1，W/4，512)的特征向量，该子单元根据所述LSTM网络，生成维度为(W/4，512)的预测向量。

所述预测概率向量生成子单元的输入为所述预测向量，该子单元根据线性矩阵相乘和softmax方法，生成维度为(W/4，37)的预测概率向量。

所述最大预测概率计算子单元的输入为所述预测概率向量，该子单元生成最大预测概率向量；

所述字符类型识别子单元的输入为所述最大预测概率向量，该子单元根据大写英文字母与数字的字信息，查询到所述最大预测概率向量对应的字符，获得初步的身份码字符识别串。即，获得所述初步不定长字符串。

需要说明的是，通常所述字符识别单元的个数与所述LSTM网络的最大时间长度相同。

S240，对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果。

可选地，在身份码输出模块中，将在步骤S230中得到的所述初步不定长字符串进行处理，去除所述初步不定长字符串中的空格字符与连续重复字符，得到所述目标图像的通用身份码字符串识别结果。

本实施例的车架号自动识别方法，能够在复杂多变的真实拍摄场景中实现车架号自动高效识别。例如，对光照不均匀、斑点噪声、玻璃反光、背景种类繁杂、色调差异、拍摄倾斜、字符模糊等各种真实拍摄场景下的车架号图片识别。解决了传统的人工识别方式识别效率低下且容易出现漏检、错检的问题。同时也解决了当前自动化车架号识别技术无法适应真实复杂拍摄场景的问题。

本申请实施例还提出了一种车架号自动识别系统，包括：

图像输入模块，用于获取目标图像，所述目标图像包括通用身份码字符串：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统的具体工作过程，可以参考前述一种车架号自动识别方法实施例中的对应过程，在此不再赘述。

本申请实施例还提出了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的一种车架号自动识别方法。

此外，本申请实施例还提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的一种车架号自动识别方法。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。如图所示，设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM503中，还可以存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元501执行上文所描述的各个方法和处理。例如，在一些实施例中，方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，CPU 501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种车架号自动识别方法，其特征在于，包括：

获取目标图像，所述目标图像包括通用身份码字符串；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

其中，所述W为图像宽度。

4.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型与所述字符识别模型通过如下步骤训练得到：

5.根据权利要求4所述的方法，其特征在于，生成训练样本包括：

对所述背景图片进行裁剪，得到预设宽度的车架号背景；

在所述第一图像中随机添加图像噪点，生成第二图像；

在所述第二图像中随机添加图像模糊，生成第三图像；

6.根据权利要求5所述的方法，其特征在于，所述对所述初步不定长字符串进行处理，得到所述目标图像的通用身份码字符串识别结果包括：

7.根据权利要求6所述的方法，其特征在于，所述通用身份码字符串包括26个大写英文字母和/或从0至9的10个自然整数。

8.一种车架号自动识别系统，其特征在于，包括

9.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。