CN117809310B - 基于机器学习的港口集装箱号识别方法及系统 - Google Patents
基于机器学习的港口集装箱号识别方法及系统 Download PDFInfo
- Publication number
- CN117809310B CN117809310B CN202410238257.4A CN202410238257A CN117809310B CN 117809310 B CN117809310 B CN 117809310B CN 202410238257 A CN202410238257 A CN 202410238257A CN 117809310 B CN117809310 B CN 117809310B
- Authority
- CN
- China
- Prior art keywords
- image
- small
- original image
- scale
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000010801 machine learning Methods 0.000 title claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 16
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000001795 light effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于机器学习的港口集装箱号识别方法及系统,涉及图像识别技术领域,包括获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型得到增强图像;根据增强图像,通过预设的超分辨率重构模型对增强图像进行深度可分离卷积,对深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;基于小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整边界框的尺寸,生成多个初始聚类中心,重复调整边界框的尺寸直至新生成的聚类中心不再发生变化,对边界框中的集装箱的箱号进行识别。
Description
技术领域
本发明涉及图像识别技术,尤其涉及一种基于机器学习的港口集装箱号识别方法及系统。
背景技术
目前,集装箱号识别通常依赖于光学字符识别(OCR)技术,但是在复杂的港口环境中,由于光照条件不佳、集装箱表面磨损、污损或者画面中遮挡等问题,识别准确率受到很大影响。手动输入集装箱号耗时且容易出错,而现有自动识别系统在处理大规模、实时的集装箱图像时,效率可能不足以满足工业需求。由于港口环境的多变性,例如天气条件、时间(白天或夜晚)、季节等因素,集装箱图像的质量受到影响,导致识别精度下降。
发明内容
本发明提供一种基于机器学习的港口集装箱号识别方法及系统,至少能够解决现有技术中部分问题。
本发明的第一方面,
提供一种基于机器学习的港口集装箱号识别方法,包括:
获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
优选的,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像包括:
以所述原始图像为基础,通过上采样操作,基于像素增减因子,放大所述原始图像,得到上采样特征图;以所述原始图像为基础,通过下采样操作,基于像素增减因子,缩小所述原始图像,得到下采样特征图;
确定所述原始图像中各个像素点的图像深度,以及拍摄所述原始图像时大气光值的衰减量,对所述原始图像进行密集编码确定密集编码图;
基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像。
优选的,基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像包括:
;
其中,J[(x,y)]表示所述增强图像的像素点,I(x,y)表示所述原始图像的像素点,A(x,y)表示所述上、下采样特征图的集合的像素点,T(x,y)表示所述密集编码图的像素点,其中,(x,y)表示像素点在所述原始图像中的位置。
优选的,所述超分辨率重构模型包括基于残差网络构建的生成器、基于卷积神经网络构建的判别器和特征提取器,所述方法还包括对所述超分辨率重构模型进行训练:
采用若干组低分辨率图像和与所述低分辨率图像对应的原始高分辨率图像作为训练数据,对所述训练数据进行预处理操作;
使用所述低分辨率图像作为输入,训练所述生成器生成感知高分辨率图像,计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失,其中,所述生成器包括多个残差块,每个所述残差块中有卷积层、批归一化层和ReLU激活函数,在每个所述残差块中加入注意力机制,所述注意力机制包括通道注意力机制和空间注意力机制,用于聚焦图像的小目标部分;
交替使用所述感知高分辨率图像和所述原始高分辨率图像训练判别器;
同时训练生成器和判别器,确定所述判别器对应的对抗损失,根据训练过程中的感知损失和对抗损失调整生成器参数和判别器参数;
通过多次迭代和调整以使所述感知损失最小或者所述对抗损失最小。
优选的,计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失包括:
;
其中,L perceptual 表示感知损失,W j 、H j 分别表示第j个特征映射的宽度和高度,φ j 表示第j个卷积层的特征提取函数,P HR 表示原始感知高分辨率图像,P LR 表示低分辨率图像,G (P LR )表示生成感知高分辨率图像,G()表示生成器,(x,y)表示像素点在所述原始图像中的位置。
优选的,基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别包括:
基于所述小尺度图像集合,通过设置不同的空洞率进行空洞卷积操作,得到多个维度的特征,结合自适应空间特征融合,按照与不同维度对应的特征比例融合小尺度图像中多个维度的特征;
提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心;
对所述小尺度图像集合的任意的数据点集进行区域划分,所述区域划分为按各个数据点到初始聚类中心的最短欧式距离就近划分,生成多个区域,计算每个区域内所有数据点的累加均值,重新生成聚类中心,直到新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
本发明的第二方面,
提供一种基于机器学习的港口集装箱号识别系统,包括:
第一单元,用于获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
第二单元,用于根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
第三单元,用于基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
本发明的第三方面,
提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本申请可以计算生成器对应的感知损失并优化生成器以最小化这种损失,从而确保生成的图像在感知质量上更接近真实的高分辨率图像,这有助于生成器捕捉到图像的细节和质感,而不仅仅是像素级别的准确性。在生成器的残差块中加入通道注意力机制和空间注意力机制,有助于模型聚焦于图像的重要区域,尤其是小目标部分,这样的注意力机制可以提高模型对局部细节的敏感性和辨别能力。同时训练生成器和判别器,并根据对抗损失调整它们的参数,可以在生成图像的真实性和感知质量之间找到一个平衡。对抗训练有助于提高生成图像的质量,使其更难以被判别器区分出来。
附图说明
图1为本发明实施例基于机器学习的港口集装箱号识别方法的流程示意图;
图2为本发明实施例基于机器学习的港口集装箱号识别系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例基于机器学习的港口集装箱号识别方法的流程示意图,如图1所示,所述方法包括:
S101. 获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
示例性地,由于港口位置的特殊性,在多数情况下,特别是夜晚时间段,港口容易起雾,在起雾的情况下,所拍摄的港口集装箱容易遮挡目标位置的集装箱号,为此有必要对原始图像进行图像增强,便于后续对集装箱进行箱号识别。
本申请中,采样编码模型集成了采样模块和编码模块,其中,采样模块包括上、下特征采样,编码模块包括密集编码,这个模块可以是一个经过训练的卷积神经网络(CNN)。
具体地,使用一个深度学习框架(如TensorFlow或PyTorch)来建立一个卷积神经网络(CNN)模型,这个模型将专门用于处理集装箱图像,提取关键特征。模型结构可以包括多个卷积层,池化层,以及全连接层,每一层都旨在提取和学习图像的不同特征。其中,可以对原始图像进行垂直分割,将其分为上半部分和下半部分。对这两个部分分别应用卷积和池化操作,提取各自的特征,这可以通过在CNN模型中设计两个并行的分支来实现,每个分支处理图像的一部分。
示例性地,可以使用一种如密集连接卷积网络(DenseNet)的结构来对原始图像进行密集编码,这种结构通过在每层之间增加直接连接来提高信息流,从而更有效地提取图像中的细节特征。将上、下采样特征图和密集编码图融合起来,形成一个综合的特征表示,应用图像增强技术,如自适应直方图均衡化,以提高图像质量,使得集装箱号码更加清晰可辨。
在一种可选的实施方式中,
基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像包括:
以所述原始图像为基础,通过上采样操作,基于像素增减因子,放大所述原始图像,得到上采样特征图;以所述原始图像为基础,通过下采样操作,基于像素增减因子,缩小所述原始图像,得到下采样特征图;
确定所述原始图像中各个像素点的图像深度,以及拍摄所述原始图像时大气光值的衰减量,对所述原始图像进行密集编码确定密集编码图;
基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像。
示例性地,可以上采样操作是放大原始图像以提取更多细节信息,使用像素增减因子放大图像中的每个像素,从而获得上采样特征图。下采样操作则是缩小图像以提取全局特征,通过减少像素数量,产生一个更小但包含整体图像特征的下采样特征图。
需要说明的是,在上采样(放大)过程中,像素增减因子大于1,这意味着每个原始像素被扩展为更多的像素,从而增加图像的尺寸和分辨率。在下采样(缩小)过程中,像素增减因子小于1,这将减少图像的像素数量,导致图像尺寸和分辨率的减小。
上采样中的作用:通过增加图像的分辨率,可以揭示更多的细节和纹理信息,这对于提高图像的质量或准备进行更精细的图像分析非常有用。例如,在集装箱号识别中,上采样可以帮助揭示模糊或小号码上的细节。
下采样中的作用:减少图像的分辨率有助于减小文件大小和处理时间,这在需要快速处理大量图像或只关注图像的全局特征时非常有用。例如,下采样可以帮助快速识别图像中的主要对象,如集装箱的整体位置。
首先确定原始图像中每个像素点的图像深度,这涉及到分析图像中的空间信息,如物体的大小、形状和相对位置,考虑大气光值的衰减量,即分析环境光对图像的影响,特别是在雾、烟或其他视觉干扰的条件下,使用这些信息进行密集编码,生成一个反映原始图像在不同环境条件下的细节和特征的密集编码图。结合上、下采样特征图和密集编码图,对原始图像进行增强处理。通过这种组合,滤除图像中的雾气遮挡和其他视觉干扰,增强图像的清晰度和可读性。
通过生成密集编码图可以提高在不理想环境中的稳定性,通过考虑图像深度和环境光影响,密集编码能够增强图像在多种环境条件(如雾、灰尘、低光照)下的质量和清晰度。对图像深度和环境光的分析有助于更准确地识别和处理图像中的对象,这对于集装箱号码的识别尤为关键。通过结合上述方法,图像增强可以显著改善图像的清晰度和对比度,使得原本模糊或不明显的特征(如集装箱号码)变得更易于识别。该方法能够适应各种复杂的环境条件,即使在不理想的视觉条件下也能保持较高的识别准确率。
在一种可选的实施方式中,
基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像包括:
;
其中,J[(x,y)]表示所述增强图像的像素点,I(x,y)表示所述原始图像的像素点,A(x,y)表示所述上、下采样特征图的集合的像素点,T(x,y)表示所述密集编码图的像素点,其中,(x,y)表示像素点在所述原始图像中的位置。
示例性地,上述公式描述的是一种用于图像增强的计算模型,它适用于在包含雾气或类似干扰的图像中恢复清晰图像。其中,A(x,y)(1-T(x,y))通过表示由于散射作用被“捕获”的光线部分,T(x,y)用来逆转这种散射的影响,通过这个模型可以减少图像中雾霾效应;当T(x,y)较小,也即表示雾气较浓时,将J[(x,y)]增大,可以用于增强图像中被雾气遮挡部分的对比度,使得这些区域细节更加清晰。通过A(x,y)与T(x,y)结合使用,可以在去雾的同时保留图像的细节。
S102. 根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
示例性地,可以对增强图像进行标准化处理,确保输入模型的数据在适当的数值范围内;采用深度可分离卷积对增强图像进行特征提取。深度可分离卷积是一种高效的卷积操作,它将传统的卷积分解为两个独立的层:深度卷积(对输入的每个通道独立应用卷积)和点卷积(通过1x1卷积组合深度卷积的输出)。深度卷积专注于提取局部特征,而点卷积用于构建特征之间的关联。
本申请的超分辨率重构模型包含一个生成对抗网络(GAN,GenerativeAdversarial Network)架构,GAN由两部分组成:生成器和判别器。生成器负责产生高质量的图像,而判别器的任务是区分生成的图像和真实的高分辨率图像。通过预设的缩放因子对深度卷积图进行缩放操作,这一步是为了将深度卷积图调整到适合输入到GAN的尺寸。缩放操作可以使用双线性插值、双三次插值或其他高级图像重采样方法。输入缩放后的深度卷积图到GAN的生成器中,生成器将尝试产生高分辨率图像,而判别器则尝试辨别图像是生成的还是真实的。通过训练过程,生成器和判别器将持续提升性能,直至生成器能产生足够真实的高分辨率图像。GAN的生成器输出的高分辨率图像将形成小尺度图像集合,这个集合包含了各种通过深度卷积和上述缩放操作生成的图像,它们具有比原始输入更高的分辨率和质量。
在一种可选的实施方式中,
所述超分辨率重构模型包括基于残差网络构建的生成器、基于卷积神经网络构建的判别器和特征提取器,所述方法还包括对所述超分辨率重构模型进行训练:
采用若干组低分辨率图像和与所述低分辨率图像对应的原始高分辨率图像作为训练数据,对所述训练数据进行预处理操作;
使用所述低分辨率图像作为输入,训练所述生成器生成感知高分辨率图像,计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失,其中,所述生成器包括多个残差块,每个所述残差块中有卷积层、批归一化层和ReLU激活函数,在每个所述残差块中加入注意力机制,所述注意力机制包括通道注意力机制和空间注意力机制,用于聚焦图像的小目标部分;
交替使用所述感知高分辨率图像和所述原始高分辨率图像训练判别器;
同时训练生成器和判别器,确定所述判别器对应的对抗损失,根据训练过程中的感知损失和对抗损失调整生成器参数和判别器参数;
通过多次迭代和调整以使所述感知损失最小或者所述对抗损失最小。
示例性地,收集若干组低分辨率(LR)图像和对应的高分辨率(HR)图像作为训练数据集。对训练数据执行预处理操作,如缩放、裁剪、归一化等,以符合模型输入的要求。本申请的生成器是基于残差网络构建的,这个生成器包含多个残差块,每个块由卷积层、批归一化层和ReLU激活函数构成。在每个残差块中加入注意力机制,包括通道注意力机制和空间注意力机制,以便模型能够聚焦于图像中的小目标和重要部分。基于卷积神经网络的判别器,其任务是区分生成的感知HR图像和真实的HR图像。特征提取器通常是一个预训练的卷积神经网络,它用于计算感知损失,帮助生成器产生视觉上更加逼真的图像。
使用LR图像作为输入,训练生成器生成感知HR图像,计算生成器产生的感知HR图像和真实HR图像之间的感知损失,优化生成器参数以最小化感知损失。
在一种可选的实施方式中,
计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失包括:
;
其中,L perceptual 表示感知损失,W j 、H j 分别表示第j个特征映射的宽度和高度,φ j 表示第j个卷积层的特征提取函数,P HR 表示原始感知高分辨率图像,P LR 表示低分辨率图像,G (P LR )表示生成感知高分辨率图像,G()表示生成器。
上述公式是在特征映射的所有空间位置上进行求和,其结果是对于特定的特征层,生成的感知HR图像和真实HR图像在特征层上的欧几里得距离求平均值后,再对多个平均值进行求和,通过最小化这个距离,生成器可以学习生成在特征级别更接近于真实HR图像的感知HR图像。
交替使用生成的感知HR图像和真实HR图像训练判别器,判别器的目标是能够准确区分两者。同时训练生成器和判别器,在此过程中确定判别器对应的对抗损失,调整生成器和判别器的参数,以最小化感知损失和对抗损失。通过多次迭代,不断调整生成器和判别器的参数,监控感知损失和对抗损失,直到模型收敛,即感知损失最小化或对抗损失最小化。
本申请的技术方案可以计算生成器对应的感知损失并优化生成器以最小化这种损失,从而确保生成的图像在感知质量上更接近真实的高分辨率图像,这有助于生成器捕捉到图像的细节和质感,而不仅仅是像素级别的准确性。在生成器的残差块中加入通道注意力机制和空间注意力机制,有助于模型聚焦于图像的重要区域,尤其是小目标部分,这样的注意力机制可以提高模型对局部细节的敏感性和辨别能力。同时训练生成器和判别器,并根据对抗损失调整它们的参数,可以在生成图像的真实性和感知质量之间找到一个平衡。对抗训练有助于提高生成图像的质量,使其更难以被判别器区分出来。
S103. 基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
示例性地,从小尺度图像集合中提取多个维度的特征,这可能包括颜色、纹理、形状等。使用一定的融合策略,如加权平均、最大值融合、或特征拼接等,来结合这些特征。不同的比例可以被实验确定,以找到最优的融合效果。应用目标检测算法(例如单次多框检测器)来确定小尺度图像中潜在目标的位置,并提取其边界框。对检测到的目标使用非最大抑制等技术来去除重叠的边界框,保留最佳的候选框。
使用聚类算法来分析边界框的尺寸,并生成初始聚类中心。根据聚类结果,调整边界框的尺寸以更好地反映实际目标的大小和形状,重复调整过程,直到新生成的聚类中心稳定下来,即不再发生显著变化。对于每个调整后的边界框,可以使用光学字符识别(OCR)技术来识别集装箱的箱号。
在一种可选的实施方式中,
基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别包括:
基于所述小尺度图像集合,通过设置不同的空洞率进行空洞卷积操作,得到多个维度的特征,结合自适应空间特征融合,按照与不同维度对应的特征比例融合所述小尺度图像中多个维度的特征;
提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心;
对所述小尺度图像集合的任意的数据点集进行区域划分,所述区域划分为按各个数据点到初始聚类中心的最短欧式距离就近划分,生成多个区域,计算每个区域内所有数据点的累加均值,重新生成聚类中心,直到新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
示例性地,使用空洞卷积(Dilated Convolution)来提取小尺度图像集合中的特征,空洞卷积可以扩大感受野,允许网络在不丢失分辨率的情况下聚合更广阔的上下文信息。通过设置不同的空洞率(dilation rate),提取不同尺度的上下文信息,获取多尺度的特征表示。利用一个自适应融合模块(比如自适应权重融合、特征金字塔融合等)来整合不同空洞率下提取的特征,按照预定的比例或策略融合特征。
使用目标检测算法(如SSD, YOLO, Faster R-CNN等)在小尺度图像集合中定位潜在目标,并生成初始边界框;使用聚类算法(如K-Means)来确定边界框的初始聚类中心,根据聚类中心,对边界框进行尺寸调整,以更精确地覆盖每个潜在目标,通过计算每个区域内所有数据点的累加均值来更新聚类中心,迭代进行区域划分和聚类中心更新,直到聚类中心稳定。在边界框确定后,对每个边界框内的图像进行集装箱编号识别,可以采用OCR(Optical Character Recognition)技术进行图像中的文字识别,或者训练一个专门的深度学习模型来进行字符的识别和提取。
本申请的技术方案通过使用空洞卷积操作,该方法能够在不同的尺度上提取图像特征,从而捕捉到不同大小和细节的目标特征,自适应空间特征融合进一步提高了对于集装箱箱号识别所需的特征的综合表示能力。多维度特征的融合使得模型能够更好地区分集装箱号码和背景噪声,从而提高了箱号识别的准确性。
通过聚类算法调整边界框尺寸,能够准确定位集装箱,这对于后续的箱号识别是非常关键的。初始聚类中心的生成和不断迭代调整,有助于更精确地捕捉集装箱的实际边界。区域划分的策略和聚类中心的迭代更新使得算法能够快速收敛,减少了识别过程中的计算量,从而提升了处理速度。
图2为本发明实施例系统的结构示意图,如图2所示,所述系统包括:
第一单元,用于获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
第二单元,用于根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
第三单元,用于基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
本发明实施例的第三方面,
提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明实施例的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于机器学习的港口集装箱号识别方法,其特征在于,包括:
获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
2.根据权利要求1所述的方法,其特征在于,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像包括:
以所述原始图像为基础,通过上采样操作,基于像素增减因子,放大所述原始图像,得到上采样特征图;以所述原始图像为基础,通过下采样操作,基于像素增减因子,缩小所述原始图像,得到下采样特征图;
确定所述原始图像中各个像素点的图像深度,以及拍摄所述原始图像时大气光值的衰减量,对所述原始图像进行密集编码确定密集编码图;
基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像。
3.根据权利要求2所述的方法,其特征在于,基于所述上、下采样特征图以及所述密集编码图滤除所述原始图像中潜在目标位置的雾气遮挡,得到所述增强图像包括:
;
其中,J[(x,y)]表示所述增强图像的像素点,I(x,y)表示所述原始图像的像素点,A(x, y)表示所述上、下采样特征图的集合的像素点,T(x,y)表示所述密集编码图的像素点,其中,(x,y)表示像素点在所述原始图像中的位置。
4.根据权利要求1所述的方法,其特征在于,所述超分辨率重构模型包括基于残差网络构建的生成器、基于卷积神经网络构建的判别器和特征提取器,所述方法还包括对所述超分辨率重构模型进行训练:
采用若干组低分辨率图像和与所述低分辨率图像对应的原始高分辨率图像作为训练数据,对所述训练数据进行预处理操作;
使用所述低分辨率图像作为输入,训练所述生成器生成感知高分辨率图像,计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失,其中,所述生成器包括多个残差块,每个所述残差块中有卷积层、批归一化层和ReLU激活函数,在每个所述残差块中加入注意力机制,所述注意力机制包括通道注意力机制和空间注意力机制,用于聚焦图像的小目标部分;
交替使用所述感知高分辨率图像和所述原始高分辨率图像训练判别器;
同时训练生成器和判别器,确定所述判别器对应的对抗损失,根据训练过程中的感知损失和对抗损失调整生成器参数和判别器参数;
通过多次迭代和调整以使所述感知损失最小或者所述对抗损失最小。
5.根据权利要求4所述的方法,其特征在于,计算所述生成器对应的感知损失,并优化所述生成器最小化感知损失包括:
;
其中,L perceptual 表示感知损失,W j 、H j 分别表示第j个特征映射的宽度和高度,φ j 表示第j个卷积层的特征提取函数,P HR 表示原始感知高分辨率图像,P LR 表示低分辨率图像,G(P LR )表示生成感知高分辨率图像,G()表示生成器,(x,y)表示像素点在所述原始图像中的位置。
6.根据权利要求1所述的方法,其特征在于,基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别包括:
基于所述小尺度图像集合,通过设置不同的空洞率进行空洞卷积操作,得到多个维度的特征,结合自适应空间特征融合,按照与不同维度对应的特征比例融合小尺度图像中多个维度的特征;
提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心;
对所述小尺度图像集合的任意的数据点集进行区域划分,所述区域划分为按各个数据点到初始聚类中心的最短欧式距离就近划分,生成多个区域,计算每个区域内所有数据点的累加均值,重新生成聚类中心,直到新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
7.一种基于机器学习的港口集装箱号识别系统,用于实现前述权利要求1至6中任一项所述的方法,其特征在于,包括:
第一单元,用于获取目标区域的港口集装箱的原始图像,基于预设的采样编码模型分别对所述原始图像进行上、下特征采样得到上、下采样特征图以及对所述原始图像进行密集编码得到密集编码图,基于所述上、下采样特征图以及所述密集编码图对所述原始图像进行图像增强,得到增强图像;
第二单元,用于根据所述增强图像,通过预设的超分辨率重构模型对所述增强图像进行深度可分离卷积,确定所述增强图像对应的深度卷积图,并根据预设的缩放因子对所述深度卷积图进行缩放操作,并将进行缩放操作后的深度卷积图输入到所述超分辨率重构模型的生成对抗模块中,确定小尺度图像集合;
第三单元,用于基于所述小尺度图像集合,按照不同比例融合小尺度图像中多个维度的特征,并提取所述小尺度图像集合中多个潜在目标的边界框,通过聚类算法调整所述边界框的尺寸,生成多个初始聚类中心,重复调整所述边界框的尺寸直至新生成的聚类中心不再发生变化,对所述边界框中的集装箱的箱号进行识别。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至6中任意一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238257.4A CN117809310B (zh) | 2024-03-03 | 2024-03-03 | 基于机器学习的港口集装箱号识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410238257.4A CN117809310B (zh) | 2024-03-03 | 2024-03-03 | 基于机器学习的港口集装箱号识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809310A CN117809310A (zh) | 2024-04-02 |
CN117809310B true CN117809310B (zh) | 2024-04-30 |
Family
ID=90432382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410238257.4A Active CN117809310B (zh) | 2024-03-03 | 2024-03-03 | 基于机器学习的港口集装箱号识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809310B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583425A (zh) * | 2018-12-21 | 2019-04-05 | 西安电子科技大学 | 一种基于深度学习的遥感图像船只集成识别方法 |
AU2020101011A4 (en) * | 2019-06-26 | 2020-07-23 | Zhejiang University | Method for identifying concrete cracks based on yolov3 deep learning model |
CN113240641A (zh) * | 2021-05-13 | 2021-08-10 | 大连海事大学 | 一种基于深度学习的集装箱破损实时检测方法 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
CN116309913A (zh) * | 2023-03-16 | 2023-06-23 | 沈阳工业大学 | 一种基于生成对抗网络asg-gan文本描述生成图像方法 |
CN117253154A (zh) * | 2023-11-01 | 2023-12-19 | 华南农业大学 | 一种基于深度学习的集装箱弱小序列号目标检测识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4367628A1 (en) * | 2021-11-12 | 2024-05-15 | Samsung Electronics Co., Ltd. | Image processing method and related device |
-
2024
- 2024-03-03 CN CN202410238257.4A patent/CN117809310B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583425A (zh) * | 2018-12-21 | 2019-04-05 | 西安电子科技大学 | 一种基于深度学习的遥感图像船只集成识别方法 |
AU2020101011A4 (en) * | 2019-06-26 | 2020-07-23 | Zhejiang University | Method for identifying concrete cracks based on yolov3 deep learning model |
CN113240641A (zh) * | 2021-05-13 | 2021-08-10 | 大连海事大学 | 一种基于深度学习的集装箱破损实时检测方法 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
CN116309913A (zh) * | 2023-03-16 | 2023-06-23 | 沈阳工业大学 | 一种基于生成对抗网络asg-gan文本描述生成图像方法 |
CN117253154A (zh) * | 2023-11-01 | 2023-12-19 | 华南农业大学 | 一种基于深度学习的集装箱弱小序列号目标检测识别方法 |
Non-Patent Citations (4)
Title |
---|
基于双重优化的卷积神经网络图像识别算法;刘万军;梁雪剑;曲海成;;模式识别与人工智能;20160915(09);90-98 * |
基于改进Faster R-CNN的集装箱箱号定位算法;崔循;景文博;于洪洋;董猛;;长春理工大学学报(自然科学版);20200215(01);49-54 * |
基于计算机视觉的集装箱箱号识别;黄深广;港口装卸;20180131;1-4 * |
多尺度生成对抗网络的图像超分辨率算法;刘遵雄;蒋中慧;任行乐;;科学技术与工程;20200508(13);198-204 * |
Also Published As
Publication number | Publication date |
---|---|
CN117809310A (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232349B (zh) | 模型训练方法、图像分割方法及装置 | |
CN112819772B (zh) | 一种高精度快速图形检测识别方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN109886200B (zh) | 一种基于生成式对抗网络的无人驾驶车道线检测方法 | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN111091503A (zh) | 基于深度学习的图像去失焦模糊方法 | |
CN113807334B (zh) | 一种基于残差网络的多尺度特征融合的人群密度估计方法 | |
CN113657528B (zh) | 图像特征点提取方法、装置、计算机终端及存储介质 | |
CN116030396B (zh) | 一种用于视频结构化提取的精确分割方法 | |
CN111833369A (zh) | 一种矾花图像处理方法、系统、介质及电子设备 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN112686248A (zh) | 证件增减类别检测方法、装置、可读存储介质和终端 | |
CN115880495A (zh) | 复杂环境下的舰船图像目标检测方法与系统 | |
CN116934762B (zh) | 锂电池极片表面缺陷的检测系统及方法 | |
CN117475357B (zh) | 基于深度学习的监控视频图像遮挡检测方法及系统 | |
CN115187621A (zh) | 融合注意力机制的U-Net医学影像轮廓自动提取网络 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
CN117496518A (zh) | 基于文本检测和表格检测的电子卷宗图像智能矫正方法 | |
CN117593683A (zh) | 一种针对2d数字人的视频生成算法及系统 | |
CN116469085B (zh) | 一种风险驾驶行为的监控方法及系统 | |
CN117078553A (zh) | 一种基于多尺度深度学习的图像去雾方法 | |
CN117809310B (zh) | 基于机器学习的港口集装箱号识别方法及系统 | |
CN116363064A (zh) | 融合目标检测模型和图像分割模型的缺陷识别方法及装置 | |
CN115953312A (zh) | 一种基于单幅图像的联合去雾检测方法、装置及存储介质 | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |