CN111144309A

CN111144309A - 一种集装箱箱门图像自动识别方法

Info

Publication number: CN111144309A
Application number: CN201911372778.4A
Authority: CN
Inventors: 谷砚绚
Original assignee: Suzhou Haibutler Logistics Technology Co Ltd
Current assignee: Suzhou Haibutler Logistics Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12
Anticipated expiration: 2039-12-27
Also published as: CN111144309B

Abstract

本发明提供一种集装箱箱门图像自动识别方法，所述方法具体包括如下步骤：S1、输入图像；S2、使用改良的VGG16神经网络预测可能存在文字的区域，给出区域预测；S3、对可能存在文字的区域使用带有注意力机制的ResNet、BiLSTM神经网络进行文字识别，得到文字框和对应文字；S4、按照箱门特定的信息排列规律，通过算法找出箱门上的箱号、箱型、箱皮重等文字；S5、识别结果输出。本发明将箱号识别的准确率提高到了97％，箱型准确率达到98％，在很大程度上可以对抗图像的阴影、歪斜和部分遮挡问题。

Description

一种集装箱箱门图像自动识别方法

技术领域

本发明属于图像识别领域，具体涉及一种集装箱箱门图像自动识别方法。

背景技术

OCR(Optical Character Recognition)的概念诞生于1929年，由德国的科学家Tausheck首先提出，并且申请了专利。OCR技术的发展可以分为三个阶段：

第一阶段：第一代OCR产品出现于60年代初期，NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号，并且必须是指定的字体。

第二阶段：第二代OCR产品是基于手写体字符的识别，前期只限于手写体数字的识别，从时间上来看，是60年代中期到70年代初期。IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品－IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的，两年后NEC公司也推出了同样的系统。到1974年，信函的分拣率达到92％～93％，并且广泛地应用在现实生活中，发挥着较好的作用。

第三阶段：第三代OCR产品主要解决的技术问题就是对于质量较差的文档及大字符集的识别，例如汉字的识别。最先投入汉字识别研究的日本东芝公司，于1983年发布了其识别印刷体日文汉字的OCR系统－OCR-V595，其识别速度为每秒70～100个汉字，最高识别率达到99.5％。

集装箱箱号识别在港口集装箱的场堆管理和集装箱运输领域有着十分重要的作用。基于图像处理的集装箱自动识别系统通过图像采集设备采集图像，运用图像处理技术对采集的图像进行处理，自动提取出集装箱箱号以进行分割识别。根据校验规则判断出识别是否正确，系统可通过人工干预修正识别结果，使得系统的可靠性得到了保证。系统不需要在集装箱上安装其它装置，使得基于图像处理的箱号识别系统逐渐受到人们的重视。

但是，OCR图像识别在箱门识别领域准确度不够高，专业化程度不深。由于箱门图像的质量比较低，歪斜、阴影、遮挡等问题导致误识别率很高，导致在行业应用方面有很大障碍，难以商品化。

因此，如何提供一种识别准确度高、能够对抗恶劣识别环境的集装箱箱号识别方法是本领域中亟需解决的技术问题。

发明内容

本发明的目的在于提供一种识别准确度高、能够对抗恶劣识别环境的集装箱箱号识别方法，以解决现有技术中的问题。所述技术方案具体如下：

一种集装箱箱门图像自动识别方法，所述方法具体包括如下步骤：

S1、输入图像；

S2、使用改良的VGG16神经网络预测可能存在文字的区域，给出区域预测；

S3、对可能存在文字的区域使用带有注意力机制的ResNet、BiLSTM神经网络进行文字识别，得到文字框和对应文字；

S4、按照箱门特定的信息排列规律，通过算法找出箱门上的箱号、箱型、箱皮重等文字；

S5、识别结果输出。

优选的，步骤S2具体为：在VGG16的网络中加入类似UNet的跳级特征传递，让解码器在推断文字区域时可以将低层次的图像特征也纳入考虑；

加入注意力机制，在输出文字区域的同时输出推断当前文字区域时主要参考的像素区域，依据此输出绘制热点图，可以在调优和排查问题时查看判断文字区域时算法主要参考的像素区域，方便问题排查和理解模型状态；

将得到的单个文字区域列表在非极值抑制去重和通过自适应阈值化聚类后，辅以适当的参数即可获得合理的文字选区列表。

优选的，步骤S3具体为：使用BiLSTM的短期记忆能力和注意力机制可以让网络在进行OCR识别时除了依照当前文字的图像特征进行推断之外将上下文的文字内容也纳入考虑，使用上下文辅助文字识别的过程，从而使得识别出的文字序列更加有效可靠，并且可以在一定程度上对抗图像上的噪点、坏点、涂抹等噪音；

ResNet的残差跳跃连接结构让深层网络可以获得浅层网络的特征，防止训练过程中网络的退化，保证深度神经网络在扩大层数的情况下依然可以在训练中快速收敛，配合海量的训练数据可以捕获更高层级的图像特征，从而提高准确率。

优选的，步骤S4具体为：在获取了文字区域及相应的文字内容之后，系统查找箱号箱型箱皮重三部分目标信息区域然后输出；

利用各印刷信息在箱门上特定的排布规律和几何形状特性，系统可以根据三部分目标信息区域的相对位置关系和几何特性对识别过程进行校错和提供辅助信息；

根据图像的透视变形情况和相对于透视原点的距离对各目标区域的横纵坐标进行修正，以便获得更为准确的区域相对位置；这些特殊逻辑都可以有效地提高箱门信息的获取准确率，即便在识别过程中有一定的错误，在后续处理中也能进行相当程度的补救。

一种集装箱箱门图像自动识别系统，所述系统包括上传模块、图像识别模块、识别完成模块、提醒模块和通信模块；其中，

所述上传模块，用于实现图片的上传或接收；

所述图像识别模块，利用上述集装箱箱门图像自动识别方法对上传模块获得的图片进行识别；

所述识别完成模块，用于接收识别完成的图片、展示识别完成的条目并能实现对识别结果的编辑；

所述提醒模块，用于图片识别完成之后对用户进行提醒；

所述通信模块，用于系统内部之间以及系统与系统外之间的通信。

优选的，所述条目包括完成时间、箱号、箱型、箱皮重。

优选的，图片识别完成之后的识别信息跳转至识别完成模块；用户可以对识别完成的条目进行单条或者批量化的复制或删除；用户双击识别结果即可在窗口侧边显示原始图片的预览，用户可以核对识别结果并对错误的识别结果进行编辑，键盘敲击回车即可保存。

一种集装箱箱门图像自动识别装置，所述装置包括：

至少一个处理器；以及

存储器，所述存储器上存储有可执行指令，所述可执行指令由所述至少一个处理器执行，导致所述装置实现如下方法：

用户通过拖动或者点击的方式将图片上传至装置；

利用上述集装箱箱门图像自动识别方法对用户上传的图片进行识别，得到识别完成的条目，并在识别完成之后进行提醒；

用户点击识别完成的条目查看上传的原始图片，以与识别完成后的条目进行对比，并能够对识别错误的条目进行编辑。

一种计算机可读储存介质，包括可执行指令，所述指令被至少一个处理器执行时，实现如下方法：

用户通过拖动或者点击的方式将图片上传至储存介质；

本发明所获得的有益技术效果：本发明将箱号识别的准确率提高到了97％，箱型准确率达到98％，在很大程度上可以对抗图像的阴影、歪斜和部分遮挡问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，从而可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下以本申请的较佳实施例并配合附图详细说明如后。

根据下文结合附图对本申请具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述及其他目的、优点和特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明集装箱箱号识别方法的主要流程图；

图2为本发明集装箱箱号识别系统的使用状态之一；

图3为本发明集装箱箱号识别系统的使用状态之二。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本申请的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本申请的范围和精神。另外，为了清除和简洁，实施例中省略了对已知功能和构造的描述。

应该理解，说明书通篇中提到的“一个实施例”或“本实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“一个实施例”或“本实施例”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以应对于方法、函数、规程、子例程、子程序等等。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

实施例一

参见图1，一种集装箱箱门图像自动识别方法，所述方法具体包括如下步骤：

S1、输入图像；

S5、识别结果输出。

其中，

所述步骤S2具体为：使用在VGG16神经网络基础上改良的神经网络抽取图像的特征图推断文字区域。在VGG16的网络中加入类似UNet的跳级特征传递，让解码器在推断文字区域时可以将低层次的图像特征也纳入考虑。加入注意力机制，在输出文字区域的同时输出推断当前文字区域时主要参考的像素区域，依据此输出绘制热点图，可以在调优和排查问题时查看判断文字区域时算法主要参考的像素区域，方便问题排查和理解模型状态。将得到的单个文字区域列表在非极值抑制去重和通过自适应阈值化聚类后，辅以适当的参数即可获得合理的文字选区列表。

所述步骤S3具体为：之后将图片中的文字区域传入ResNet和BiLSTM为骨架的神经网络中进行OCR识别。使用BiLSTM的短期记忆能力和注意力机制可以让网络在进行OCR识别时除了依照当前文字的图像特征进行推断之外将上下文的文字内容也纳入考虑，使用上下文辅助文字识别的过程，从而使得识别出的文字序列更加有效可靠，并且可以在一定程度上对抗图像上的噪点、坏点、涂抹等噪音。ResNet的残差跳跃连接结构让深层网络可以获得浅层网络的特征，防止训练过程中网络的退化，保证深度神经网络在扩大层数的情况下依然可以在训练中快速收敛，配合海量的训练数据可以捕获更高层级的图像特征，从而提高准确率。

所述步骤S4具体为：在获取了文字区域及相应的文字内容之后，系统查找箱号箱型箱皮重三部分目标信息区域然后输出。利用各印刷信息在箱门上特定的排布规律和几何形状特性，系统可以根据三部分目标信息区域的相对位置关系和几何特性对识别过程进行校错和提供辅助信息；另一方面，系统还会根据图像的透视变形情况和相对于透视原点的距离对各目标区域的横纵坐标进行修正，以便获得更为准确的区域相对位置。这些特殊逻辑都可以有效地提高箱门信息的获取准确率，即便在识别过程中有一定的错误，在后续处理中也能进行相当程度的补救。

实施例二

在实施例一的基础上，本实施例进一步提出一种基于上述集装箱箱门图像自动识别方法的集装箱箱门图像自动识别系统。

所述系统包括：上传模块、图像识别模块、识别完成模块、提醒模块和通信模块。

所述上传模块，用于实现图片的上传或接收；

所述图像识别模块，用于对上传模块获得的图片进行识别；

优选的，所述图像识别模块能够对上传的多个待识别的图片进行排队，分别进行识别。

具体的，图片识别完成之后的识别信息跳转至识别完成模块；用户可以对识别完成的条目进行单独或者批量化的处理(复制或删除、批量复制或批量删除)；用户双击识别结果即可在窗口侧边显示原始图片的预览，用户可以核对识别结果并对错误的识别结果进行编辑，键盘敲击回车即可保存。

所述提醒模块，用于图片识别完成之后对用户进行提醒。

所述提醒包括但不限于气泡提醒、蜂鸣提醒、窗口提醒或呼吸灯提醒。

实施例三

在实施例一到二的基础上，本实施例进一步提出一种集装箱箱门图像自动识别装置，所述装置包括：

至少一个处理器；以及

用户通过拖动或者点击的方式将图片上传至装置；

对用户上传的图片进行识别，得到识别完成的条目，并在识别完成之后进行提醒；

优选的，所述条目包括完成时间、箱号、箱型、箱皮重。

优选的，所述编辑包括单条编辑或批量化编辑。

本发明还公开了一种计算机可读储存介质，包括可执行指令，所述指令被至少一个处理器执行时，实现如下方法：

用户通过拖动或者点击的方式将图片上传至储存介质；

对于装置以及存储介质的实施例而言，由于其与系统实施例基本相似，所以描述的比较简单，相关之处参见系统实施例的部分说明即可。

对所有公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种集装箱箱门图像自动识别方法，其特征在于，所述方法具体包括如下步骤：

S1、输入图像；

S5、识别结果输出。

2.根据权利要求1所述的一种集装箱箱门图像自动识别方法，其特征在于，步骤S2具体为：在VGG16的网络中加入类似UNet的跳级特征传递，让解码器在推断文字区域时可以将低层次的图像特征也纳入考虑；

3.根据权利要求1所述的一种集装箱箱门图像自动识别方法，其特征在于，步骤S3具体为：使用BiLSTM的短期记忆能力和注意力机制可以让网络在进行OCR识别时除了依照当前文字的图像特征进行推断之外将上下文的文字内容也纳入考虑，使用上下文辅助文字识别的过程，从而使得识别出的文字序列更加有效可靠，并且可以在一定程度上对抗图像上的噪点、坏点、涂抹等噪音；

4.根据权利要求1所述的一种集装箱箱门图像自动识别方法，其特征在于，步骤S4具体为：在获取了文字区域及相应的文字内容之后，系统查找箱号箱型箱皮重三部分目标信息区域然后输出；

5.一种集装箱箱门图像自动识别系统，其特征在于，所述系统包括上传模块、图像识别模块、识别完成模块、提醒模块和通信模块；其中，

所述上传模块，用于实现图片的上传或接收；

所述图像识别模块，利用权利要求1-4任一项所述的集装箱箱门图像自动识别方法对上传模块获得的图片进行识别；

所述提醒模块，用于图片识别完成之后对用户进行提醒；

6.根据权利要求5所述的一种集装箱箱门图像自动识别系统，其特征在于，所述条目包括完成时间、箱号、箱型、箱皮重。

7.根据权利要求5所述的一种集装箱箱门图像自动识别系统，其特征在于，图片识别完成之后的识别信息跳转至识别完成模块；用户可以对识别完成的条目进行单条或者批量化的复制或删除；用户双击识别结果即可在窗口侧边显示原始图片的预览，用户可以核对识别结果并对错误的识别结果进行编辑，键盘敲击回车即可保存。

8.一种集装箱箱门图像自动识别装置，其特征在于，所述装置包括：

至少一个处理器；以及

用户通过拖动或者点击的方式将图片上传至装置；

利用权利要求1-4任一项所述的集装箱箱门图像自动识别方法对用户上传的图片进行识别，得到识别完成的条目，并在识别完成之后进行提醒；

9.一种计算机可读储存介质，包括可执行指令，其特征在于，所述指令被至少一个处理器执行时，实现如下方法：

用户通过拖动或者点击的方式将图片上传至储存介质；