CN113971811A

CN113971811A - 一种基于机器视觉和深度学习的集装箱特征智能识别方法

Info

Publication number: CN113971811A
Application number: CN202111353112.1A
Authority: CN
Inventors: 孟朝辉
Original assignee: Cathay Nebula Science & Technology Co ltd
Current assignee: Cathay Nebula Science & Technology Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-01-25
Anticipated expiration: 2041-11-16
Also published as: CN113971811B

Abstract

本发明公开了一种基于机器视觉和深度学习的集装箱特征智能识别方法，根据指定的识别任务类型对采集的带有车号、箱号、铅封、危标、箱门方向、残损标签的图像数据进行识别检测，并生成与所采集图像对应的识别结果，并对生成的识别结果进行复核。本发明将结合机器学习、深度学习的图像检测识别算法应用于集装箱码头作业中，取代人工抄录、校验的方式，从码头起重机设备获取作业任务，在作业过程中采集、识别集装箱、内集卡车的待检信息，并在2s内将识别结果同任务号等关键任务信息发送到码头的终端维护系统中，实现了覆盖集装箱码头自动化其中最关键的一环，端到端的解决了在作业过程中采集到准确箱号、车号、铅封危标等关键信息的难题。

Description

一种基于机器视觉和深度学习的集装箱特征智能识别方法

技术领域

本发明涉及海运物流技术领域，尤其是涉及一种针对全自动化集装箱码头中的集装箱箱号、集卡车车顶号、箱门方向、铅封、危标等集装箱标识的自动检测、识别、复核的自动化方法。

背景技术

基于机器视觉和深度学习的集装箱智能识别系统从属人工智能、机器视觉、深度学习以及OCR字符识别领域，基于深度学习算法检测箱号、集卡车车顶号、箱门方向、铅封危标等集装箱标志型待检内容，实现传统码头从人工到全自动化流程的关键转变。集装箱智能识别系统在自动化集装箱港口的堆场管理和运输物流领域起到了举足轻重的作用，传统集装箱码头的起重机设备控制器与码头终端运营系统独立运行，在作业过程中使用人工抄录的方式记录集装箱箱号等信息，极大程度上可能造成信息不匹配、遗漏等，并增加了人力成本与流转时间。集装箱智能识别系统作为设备控制器与码头终端运行系统中间的“桥梁”，通过网络协议截流起重机设备控制器的信号，解析后判断任务开始、结束节点，以及集装箱位置等信息，通过图像采集设备与系统对内集卡、集装箱等待检测识别实体进行关键信息检测、匹配并通过复核机制对任务进行二次校验。最后将识别结果结合任务信息(设备号、任务号、时间戳)通过网络协议发送到码头终端运营系统。提升识别率的同时，提高了码头作业效率并间接提升码头集装箱吞吐量，减少人工成本。

现有技术大部分分为两类：其中一种是基于理论层面的集装箱箱门图像自动识别方法，人工输入需要识别的照片，再通过区域检测算法得出可能存在文字的区域，之后使用字符识别算法对箱号、ISO码进行光学字符识别。该方法虽然提供了一个相对完善得集装箱箱门待检信息的光学字符识别方案，但是该技术需要大量的人工参与并且仅限于对已有照片的检测，而且检测目标也仅限于集装箱箱门上的箱号、ISO码，并不能满足自动化集装箱码头的自动化作业流程。

另一种则是完全技术层面利用卷积神经网络、聚类等深度学习手段对集装箱箱号进行单一的光学字符识别。该方法也是先通过字符检测算法检测到文字区域，再通过字符合并等方式过滤获得集装箱箱号的方案。也有的方法是利用灰度图像结合笔划检测来识别字符的。

此外，有的集装箱识别系统则是通过激光和RFID映射的方案实现对集装箱箱号的匹配识别，理论上的识别效果更好，但是系统面对不存在于数据库中的集装箱映射存在很大的弊端，没有自主学习的能力。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于机器视觉和深度学习的集装箱特征智能识别方法，旨在提出一种识别准确度高、响应快，作用于自动化集装箱码头的基于机器视觉和深度学习的集装箱智能识别方法，是一种对集装箱箱号、箱门、残损、危标、铅封等关键待检信息的采集、识别、复核等全流程覆盖的解决方案。

本发明解决其技术问题所采用的技术方案是：一种基于机器视觉和深度学习的集装箱特征智能识别方法，包括如下步骤：

步骤一、获取集装箱前后门、双侧面及顶面的RGB图像，并赋予采集到的图像指定的识别任务类型标签；

步骤二、根据指定的识别任务类型对步骤一采集的带有车号、箱号、铅封、危标、箱门方向、残损标签的图像数据进行识别检测，并生成与所采集图像对应的识别结果；

步骤三、对步骤二生成的识别结果进行复核。

与现有技术相比，本发明的积极效果是：本发明结合机器学习、深度学习的图像检测、识别算法应用于集装箱码头传统作业当中，取代人工抄录、校验的方式，从码头起重机设备获取作业任务，在作业过程中采集、识别集装箱、内集卡车的待检信息，并在2s内将识别结果同任务号等关键任务信息发送到码头的终端维护系统中，实现了覆盖集装箱码头自动化其中最关键的一环，端到端的解决了在作业过程中采集到准确箱号、车号、铅封危标等关键信息的难题。具体优点如下：

1.使用基于人工智能和深度学习的方法对自动化集装箱码头的待检信息进行字符、目标检测，能够准确的输出字符识别结果和目标检测识别结果，而且由于卷积神经网络的优异的泛化能力，算法也在不断的自我学习提升识别率。

2.使用DBNet场景文本检测算法结合CRNN字符识别算法可以更高效率的对场景内的集装箱箱号、内集卡车号进行区域检测和字符识别，大多数情况下的一次任务耗时不超过2.5s，能够实现实时的对图像识别输出，保证自动化港口作业的流畅。

3.有效减少了人工校验、记录的成本，减少了集装箱流转时间，加快港口作业效率，间接提升吞吐量。

具体实施方式

一种基于机器视觉和深度学习的集装箱特征智能识别方法，包括如下步骤：

S1、获取集装箱五个面(前后门，双侧面及顶面)的RGB图像，根据预设的采集方案针对图像进行必要的旋转、感兴趣区域的裁剪、灰度处理等；

为了实现上述目的，提供了一种集装箱采集系统，包括：图像采集终端，图像采集系统；基于码头起重机设备的控制器(PLC)的控制指令检测集装箱位置，配合预设的图像采集终端跳转以及抓拍任务对集装箱的五个面进行精准的抓拍以得到集装箱的图像数据用于后续的识别工作；

图像采集系统运行在服务器计算机上，与图像采集终端通过光纤/交换机进行连接。图像采集系统同时与码头设备控制器(PLC)或者外部条件系统(CPS)通过光纤/交换机进行连接。

图像采集系统通过指定的通讯协议(TCP/IP)截流码头起重机设备控制器(PLC)发送过来的信号解析出当前各项指标的具体值，其中包括了码头起重机设备的大车位置、起升编码器值、小车编码器值、吊具类型、吊具开闭锁信号等必要的判断任务开始、结束以及作业任务类型的数据来判断当前起重机设备的作业类型(装卸船、堆场换箱等)和作业车道(内集卡作业车道、堆场等)从而判断控制图像采集终端的抓拍或跳转。

图像采集终端依据码头起重机设备控制器(PLC)提供的信号，对集卡车车顶号、车牌号，集装箱前后门、侧面、顶面、进行精准的抓拍，并赋予采集到的图像指定的识别任务类型标签用于后续的识别作业。

S2、对S1步骤中已经进行过预处理的集装箱图像中的箱号、ISO码、箱门、残损、危标、铅封等待检信息进行识别；

为了实现上述目的，提供了一种集装箱识别系统；基于机器视觉和深度学习的集装箱识别系统，与图像采集系统通过网络传输协议连接并获取起重机作业任务信息和待识别的图像数据。根据识别任务的标签不同调用不同的识别模型对不同采集终端拍摄到的图像进行精准需求的识别检测，并根据传入的图像生成对应的识别结果；

集装箱识别系统通过ZMQ获得图像采集系统采集到的图像数据以及任务类型标签，根据不同的任务类型调用车号模型、箱号模型、箱门模型等专用的深度学习模型对指定区域进行识别检测。

DBNet与CRNN用于文本检测和字符识别，上述S1步骤中采集到的带有车号、箱号标签的数据会分别调用这两个模型对图像数据内容进行识别并产生识别结果。

采用基于分割的方法DBNet算法对场景文字进行检测，首先通过特征金字塔结构的backbone，通过上采样的方式将特征金字塔的输出变换为同一尺寸，并级联(cascade)特征产生F；然后通过特征图F预测概率图(P)和阈值图(T)；最后概率图P(probability map)和阈值图T(threshold map)生成近似的二值图B(binary map)。DBNet使用了区别于传统二值化的方法，提出了可微分的二值化操作，将二值化操作融合于分割网络中，建立了概率图P和阈值图T与二值化图之间的关系，使得二值化的计算可微，从而满足梯度反向传播的条件，公式如下：

式中的

代表近似二元映射；T代表从网络中学习到的自适应阈值映射；k表示放大因子，通常情况下设置为50；一个标准的基于某backbone的FPN结构；FPN结构之后连接两个head分别输出概率图P和阈值图T，同时图片大小从1/4(H，W)上采样回原图大小；最后两个图通过DB运算得到最后的二值图B。DBNet的损失loss可以根据三个map的loss以一定比例相加获得：

LOSS＝L_s+α×L_b+β×L_t

其中L_s是probabilitymap的损失值，L_b是binarymap的损失值，α和β通常情况下取值范围从1.0到10.0。

首先将图片输入到网络中，经过特征提取和上采样融合并concat操作之后得到特征图(featuremap)，然后通过特征图预测出概率图(probabilitymap)，结合概率图和特征图预测出阈值图(thresholdmap)，然后通过概率图和阈值图计算出近似二值图，推断过程文本框可以通过近似二值图或者概率图来获取。

采用CRNN(Convolutional Recurrent Neural Network)卷积神经网络算法作用于DBNet提取到的字符识别区域进行字符识别，CRNN网络结构通常情况下有：CNN层，RNN层以及翻译层。作为主要的算法，本发明中使用的CRNN使用了两个卷积层跟随两个池化层，卷积层用于对输入的图像提取特征，得到特征图。双箱RNN对特征序列进行预测，对序列中的每个特征向量进行学习。两个全连接层中间包含两个GRU(Gate Recurrent Unit)层，最后通过concatenate层进行多个卷积特征融合。然后将网络的输出结果做Softmax后为字符输出。

CRNN网络在训练的时候假设训练集的数据x＝{I_i，l_i}_i，I_i表示训练集，l_i表示标签为真的序列，训练的目标就是最小化标注错误的数据(groundtruth)条件概率的负对数的可能性：

式中，y_i是由I_i中的递归层和卷积层生成的序列，p表示标注错误数据的概率，该目标函数直接从图像及其基本真值标签序列计算成本值(costvalue)。因此，可以在成对的图像和序列上对网络进行端到端(end-to-end)的训练，从而消除了在训练图像中手动标记所有单个组件的过程。

GRU的输入输出结构与普通的RNN是一样的，当有一个当前输入x^t，和上一个节点传递下来的隐状态(hiddenstate)h^t-1，这个隐状态包含了之前节点的相关信息。结合x^t和h^t-1，GRU就会获得当前隐藏节点的输出y^t和传递给下一个节点的隐状态h^t。通过上一个传输下来的状态h^t-1和当前节点的输入X^t来获取两个门控的状态，其中r控制重置门控(resetgate)，z为控制更新的门控(updategate)。

其中σ表示sigmoid函数，通过这个函数可以将数据变换为0-1范围内的数值，从而用来充当门控信号。w^r和w^z分别表示r门控和z门控的拼接函数，用于将当前输入的x^t和前一个节点传递下来的隐状态h^t-1拼接在一起，通过sigmoid函数映射到0-1范围内触发门控效果。

得到门控信号之后，首先使用重置门控来“重置”之后的数据h^t-1′＝h^t-1⊙r，再将h^t-1′与输入x^t进行拼接，w表示拼接函数，再通过tanh激活函数来将数据缩放到-1～1的范围内，即得到h‘：

更新记忆阶段同时进行了遗忘记忆两个步骤，使用先前得到的更新门控z。

h^t＝(1-z)⊙h^t-1+z⊙h‘

(1-z)⊙h^t-1：表示对原本隐藏状态的选择性遗忘。z⊙h‘表示对包含当前节点信息的h‘进行选择性“记忆”。综上所述，上个公式的操作就是忘记传递下来的h^t-1中的某些维度信息，并加入当前节点的某些维度信息。GRU与LSTM相比，GRU内部少了一个“门控”，参数比LSTM更少，但是却能达到与LSTM相当的功能。考虑到硬件的计算能力和时间成本，所以选择更轻量级的GRU作为中间层用于解决反向传播中的梯度问题。

采用YOLOv4(You only look once)算法对S1步骤中带有铅封、危标、箱门方向、残损标签的图像数据进行目标检测并产生识别结果。YOLOv4算法是在原有的YOLO目标检测架构的基础上，采用了近些年CNN领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化，对输入数据进行上采样，使得特征自下而上地得到增强，底层空间信息更易传播到顶部。

YOLOv4检测算法相当于backbone+neck+head的组合，其中backbone为图像特征提取部分，图像中的浅层特征例如边缘提取，颜色等相对类似，使用VGG、ResNet等网络即可；neck为特征增强模块，对于backbone提取到的浅层特征进行加工，使得模型学习到目标特征；head用来输出想要的结果，根据输出结果的不同，对于输出的处理方式不同。此外，目标检测的损失函数一般由分类损失函数(classification loss)和回归损失函数(boundingbox regressionloss)两部分构成，YOLOv4使用的损失函数CIOU+DIOU_nms也在此前的基础上增加了对长宽比的考虑，速度精度都有提升。

其中

上述公式中的w^gt、h^gt分别表示真实框的宽和高，w^p、h^p分别表示预测框的宽和高，

表示真实框之间的距离，

表示预测框之间的距离，C表示最小外接矩形。

DIOU_nms的公式通常情况下定义如下：

式中的B_i表示考虑IoU和两个box到中心点的距离从而被移除的box，S_i表示分类指数，ε为NMS阈值。

S3、将S2步骤中以传入图像作为索引的识别结果根据设定的阈值和校验规则、置信度等条件进行结果复核，此外，复核后的结果如果依然不满足系统设定的阈值则会进入异常处理阶段，在可视化用户交互界面中弹出人工干预窗口进行人工校验。

为了实现上述目的，提供了一种复核系统；用于接收识别系统生成的识别结果，根据预设的相同类型任务设备的识别结果和置信度并且结合箱号复核校验规则对识别系统生成的识别结果进行校验，筛选过滤置信度相对较高的结果作为最终的识别结果并根据定制的通讯规则传输到指定终端，形成任务闭环。

针对不同的识别任务类型，校验复核规则略有不同，箱号的校验规则有特定的公式作为判断条件；内集卡车顶号的校验规则根据项目的实施地点不同略有不同，但具体不超过两种方式：1.比对置信度；2.与数据库表进行比配，并比对置信度；铅封、危标、箱门等目标检测的校验规则依赖置信度进行校验。

箱号的校验规则：集装箱箱号由4位公司代码和7位数字组成(例如CBHU3202732),其中第七位数字为校验码。首先将公司代码转换为数字，去掉11及其倍数，连加除以11，其余数为校验位。A＝10；B＝12；C＝13；D＝14；D＝15；F＝16；G＝17，以此类推。例如：箱号为CBHU3202732的集装箱它的第1位代码为C，

代码值＝(代码对应值×2)^(1-1)＝13×1＝13

类推第2位代码为B，

代码值＝(代码对应值×2)^(2-1)＝12×2＝24

以此类推得到箱号前10位代码的代码值，将前10位的代码值乘积累加后对11取模箱号为CBHU3202732的集装箱前10位箱号的代码累加值＝4061，取11的模后为2，就是这个箱号第11位的识别码的数值。以此类推，就能得到校验码。

内集卡车顶号的校验规则有两种：一种是单纯根据置信度的高低进行判断，置信度高的结果作为最终的识别结果；另一种是首先根据置信度筛选识别结果，再根据全部内集卡车顶号表单进行比对最终得出识别结果。

铅封、危标、箱门方向等目标检测相关的功能则完全根据置信度进行校验，置信度高的结果最为最终的识别结果。

对于自动校验后的结果依然不满足系统预设的阈值的情况，系统通过部署在终端的可视化用户交互界面弹出人工干预窗口进行人工校验，对于箱号、车号的人工校验可以直接在用户交互界面上方的箱号栏、车号栏中进行操作，在人工参与校验的同时，用户交互界面提供对应任务采集到的照片可供用户和调试人员查看不能正确识别的原因，对于集装箱残损的人工干预校验则提供集装箱整体照片用于辅助。

校验后的结果以带有时间戳的任务号作为索引，匹配并按照要求的格式通过指定的通讯方式发送到码头的终端运维系统中。索引的组成为设备号+时间戳的格式：taskno＝CraneNo+timestamp，例如：RMG5202010151201010101。使用可配置的索引不仅可以明确各个设备发出的信息，而且可以根据索引检索到相关任务日志，方便后期维护与现场调参。

本发明提供一种用于多终端同时接收消息的可视化用户交互界面，界面类似CCTV监控软件，根据预设配置的IP地址可以实时显示由前端图像采集设备采集到的照片，并且可以随意调整图片的显示位置。该可视化用户交互界面最多可显示4个集装箱箱号的识别结果(双吊具情况)，通常情况下显示2个集装箱箱号的识别结果和ISO码(单吊具，双20尺集装箱)。根据配置还可以在上端菜单栏显示其他检测目标的识别结果，例如铅封、危标、箱门等。此外，该可视化用户界面提供内置的识别率统计接口，可以通过调用数据库中的数据对先前6个月内的作业数据进行识别率统计，统计规则按照上述校验判定条件为准。

本发明的硬件包括：图像采集终端、机器学习图像处理服务器、千兆级网口交换机以及光纤、电源等辅助设备。

所述图像采集终端，用于在码头起重机设备在作业过程中抓拍集装箱、内集卡车等待检设备的图像数据。所述图像采集终端通常情况下安装在码头起重机设备上，根据业务类型的不同，安装位置不同，例如：安装在坎梁上的图像采集终端用于采集集装箱侧面图像，用于箱号识别和辅助验残功能；安装在门腿上的图像采集终端用于采集集装箱前后门图像，用于箱门识别，铅封、危标识别等功能；安装在小车上的图像采集终端用于采集集卡车车顶号，用于车顶号识别功能。

所述机器学习图像处理服务器通常情况下安装在码头起重机设备的电器房中。所述机器学习图像处理服务器包含一块或多块满足CUDA、CUDNN加速的图像显卡用于模型加速，包含16GB或以上的内存条用于图像处理计算，包含一块512GB以上的固态硬盘用于存储码头起重机设备在作业中采集到的图像数据。

所述千兆级网口交换机通常情况下与所述机器学习图像处理服务器安装在同一个机柜中，通过光纤连接图像采集终端，码头起重机控制器(PLC)和上述机器学习图像处理服务器，用于数据交换。

所述光纤、电源等辅助设备用于给服务器、交换机等设备供电和通讯。

Claims

1.一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：包括如下步骤：

步骤三、对步骤二生成的识别结果进行复核。

2.根据权利要求1所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：对带有车号、箱号标签的图像数据进行识别检测的方法为：先采用DBNet算法提取出图像数据的字符识别区域，再采用CRNN算法对字符识别区域进行字符识别。

3.根据权利要求2所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：采用DBNet算法提取字符识别区域的流程包括：

第一步、对图像数据经过特征提取和上采样融合并操作得到特征图；

第二步、通过特征图预测出概率图；

第三步、结合概率图和特征图预测出阈值图；

第四步、通过概率图和阈值图计算出近似二值图。

4.根据权利要求3所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：按如下公式计算DBNet算法的损失：

LOSS＝L_s+α×L_b+β×L_t

其中，L_s是概率图的损失值，L_b是二值图的损失值，L_t是阈值图的损失值，α和β的取值范围为1.0到10.0。

5.根据权利要求2所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：CRNN算法的网络结构包括：使用两个卷积层跟随两个池化层，卷积层用于对输入的图像提取特征，得到特征图；双箱RNN对特征序列进行预测，对序列中的每个特征向量进行学习；两个全连接层中间包含两个GRU层，最后通过concatenate层进行多个卷积特征融合；然后将网络的输出结果做Softmax后为字符输出。

6.根据权利要求5所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：CRNN算法的目标函数为：

式中，x＝{I_i，l_i}_i，I_i表示训练集，l_i表示标签为真的序列，y_i是由I_i中的递归层和卷积层生成的序列。

7.根据权利要求6所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：GRU的输入输出结构为：当有一个当前输入x^t，和上一个节点传递下来的隐状态h^t-1，GRU获得当前隐藏节点的输出y^t和传递给下一个节点的隐状态h^t；通过上一个传输下来的状态h^t-1和当前节点的输入x^t来获取两个门控的状态，控制重置门控r和控制更新的门控z；在得到门控信号之后，首先使用控制重置门控r来重置之后的数据h^t-1′＝h^t-1⊙r，再将h^t-1′与输入x^t进行拼接，再通过tanh激活函数来将数据缩放到-1～1的范围内，最终得到

在更新记忆阶段同时进行了遗忘记忆两个步骤，使用控制更新的门控z得到：

h^t＝(1-z)⊙h^t-1+z⊙h‘

其中，(1-z)⊙h^t-1：表示对原本隐藏状态的选择性遗忘，z⊙h‘表示对包含当前节点信息的h‘进行选择性记忆。

8.根据权利要求1所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：采用YOLOv4算法对带有铅封、危标、箱门方向、残损标签的图像数据进行识别检测，其损失函数为：

(1)

其中，

(2)DIOU_nms的公式为：

9.根据权利要求1所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：步骤三所述对识别结果进行复核的方法为：根据设定的阈值和校验规则、置信度对识别结果进行复核，若复核后的结果不满足设定的阈值则进入异常处理阶段，在可视化用户交互界面中弹出人工干预窗口进行人工校验。

10.根据权利要求9所述的一种基于机器视觉和深度学习的集装箱特征智能识别方法，其特征在于：复核后的结果以带有时间戳的任务号作为索引，匹配并按照要求的格式通过指定的通讯方式发送到码头的终端运维系统中，索引的组成为设备号+时间戳的格式。