CN114638348A - 网络模型调整方法、装置、感知设备和存储介质 - Google Patents
网络模型调整方法、装置、感知设备和存储介质 Download PDFInfo
- Publication number
- CN114638348A CN114638348A CN202210548858.6A CN202210548858A CN114638348A CN 114638348 A CN114638348 A CN 114638348A CN 202210548858 A CN202210548858 A CN 202210548858A CN 114638348 A CN114638348 A CN 114638348A
- Authority
- CN
- China
- Prior art keywords
- image
- network model
- yuv
- training
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 84
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000005070 sampling Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 14
- 238000013528 artificial neural network Methods 0.000 abstract description 13
- 230000008447 perception Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012795 verification Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000004804 winding Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种网络模型调整方法、装置、感知设备和存储介质,其中,该网络模型调整方法包括:获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。通过本申请,解决了通过神经网络对图像进行检测的速度较低的技术问题,降低了计算设备的计算成本,提高了图像检测的效率。
Description
技术领域
本申请涉及计算机视觉领域,特别是涉及网络模型调整方法、装置、感知设备和存储介质。
背景技术
计算机视觉作为人工智能的重要领域,在安防监控、自动驾驶、虚拟现实等领域具有重要意义。随着深度学习在计算机视觉领域的广泛应用,计算机视觉技术的要求也在不断提高。
现有技术中,为了更好的提取图像特征,在神经网络模型的训练和验证过程中一般采用BGR格式的图像。但是,由于摄像系统无法直接获取BGR格式的图像,当需要实时检测时,往往需要通过数字信号处理芯片将初始的YUV格式的图像转换成BGR格式的图像,此过程需要占用大量的计算资源。并且,BGR格式图像的数据量较大,在神经网络中的迭代较慢。因此,现有技术中通过神经网络对图像进行检测的速度较低。
针对相关技术中存在的通过神经网络对图像进行检测的速度较低的技术问题,目前还没有提出有效的解决方案。
发明内容
在本实施例中提供了一种网络模型调整方法、装置、感知设备和存储介质,以解决相关技术中通过神经网络对图像进行检测的速度较低的问题。
第一个方面,在本实施例中提供了一种网络模型调整方法,包括:
获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;
获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;
基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。
在其中的一些实施例中,所述预训练网络模型为卷积神经网络模型,所述基于所述像素对应关系调整所述预训练网络模型的参数包括:
获取所述预训练网络模型的第一卷积层;
基于所述像素对应关系调整所述第一卷积层的参数。
在其中的一些实施例中,所述第一卷积层的参数包括第一通道数量,所述基于所述像素对应关系调整所述第一卷积层的参数包括:
基于YUV格式图像的格式,调整所述第一卷积层的第一通道数量。
在其中的一些实施例中,所述第一卷积层的参数还包括第一权重以及第一偏移量,所述基于所述像素对应关系调整所述第一卷积层的参数包括:
基于YUV格式图像与三原色格式图像的像素对应关系,对所述第一权重以及第一偏移量进行调整。
在其中的一些实施例中,所述得到目标网络模型之后还包括:
获取待检测YUV图像;
将所述待检测YUV图像输入至所述目标网络模型,基于所述目标网络模型对所述待检测YUV图像进行检测,得到检测结果。
在其中的一些实施例中,所述获取待检测YUV图像之前还包括:
获取初始YUV图像;
基于所述目标网络模型的预设输入格式对所述初始YUV图像进行调整,得到所述待检测YUV图像。
在其中的一些实施例中,所述YUV格式图像的Y通道、U通道以及V通道的像素点采样格式包括4:4:4采样、4:2:2采样以及4:2:0采样中的至少一种。
第二个方面,在本实施例中提供了一种网络模型调整装置,包括:
第一获取模块,用于获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;
第二获取模块,用于获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;
调整模块,用于基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。
第三个方面,在本实施例中提供了一种感知设备,包括存储器和处理器,所述处理器执行所述计算机程序时实现上述第一个方面所述的网络模型调整方法。
第四个方面,在本实施例中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的网络模型调整方法。
与相关技术相比,在本实施例中提供了一种网络模型调整方法、装置、感知设备和存储介质,所述方法包括:获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。通过YUV格式图像与三原色格式图像的像素对应关系,对预训练网络模型的参数进行调整,以使调整后的目标网络模型能够直接以YUV格式图像作为输入数据,从而减少了将YUV格式图像转化为三原色格式图像的过程,并且YUV格式图像的数据量低于三原色格式图像,目标网络模型的迭代速度更快,进而解决了通过神经网络对图像进行检测的速度较低的技术问题,降低了计算设备的计算成本,提高了图像检测的效率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明一实施例的网络模型调整方法的终端的硬件结构框图;
图2是现有技术中的图像检测方法的流程示意图;
图3是本发明一实施例的网络模型调整方法的流程示意图;
图4是本发明一实施例的YUV格式图像的通道示意图;
图5是本发明一实施例的第一卷积层的示意图;
图6是本发明一实施例的网络模型调整装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的网络模型调整方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器104和用于存储数据的存储器106,其中,处理器104可以包括但不限于中央处理器CPU、微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括输入输出设备102。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
具体的,输入输出设备102可以与处理器104进行交互,用于将数据、指令以及标志信息等传输至处理器104,以及将从处理器104获取的处理结果以各种形式展现出来。在其中一个具体实施例中,输入输出设备102可以包括但不限于车载输入设备以及车载输出设备,车载输入设备用于获取各类实时信号,例如车载雷达、车载摄像头等,车载输出设备用于输出处理结果,例如车辆仪表盘、车载音响等。处理器104通过运行存储在存储器106内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。在其中一个具体实施例中,处理器104可以包括但不限于车载CPU模块,用于对车辆各传感器的信号进行处理并输出控制信号。存储器106可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。存储器106可用于存储计算机程序,例如,各类应用和功能的程序以及模块,如在本实施例中的网络模型调整方法对应的计算机程序。在其中一个具体实施例中,存储器106可以包括但不限于车载存储器模块,用于用户数据、存储车载CPU模块的运行程序以及传感器获取的信号等。
请参阅图2,图2是现有技术中的图像检测方法的流程示意图。
在现有技术中,神经网络作为车载视觉感知的主流算法,广泛应用于目标检测、车辆道路检测、道路边缘检测、深度估计等领域。其中,图像检测方法的具体流程为:S202,摄像头采集RAW数据;S204,基于图像信号处理器对RAW数据进行处理,得到YUV图像;S206,基于数字信号处理器对YUV图像进行处理,得到BGR图像;S208,基于神经网络模型对BGR图像进行检测,得到检测结果。
具体的,通过摄像头等视觉传感器获取初始数据,其中初始数据为RAW格式数据;通过图像信号处理器对RAW数据进行处理,得到YUV格式的图像;通过数字信号处理器对YUV图像进行处理,得到BGR格式的图像;最后将BGR格式图像数据输入神经网络模型,通过神经网络模型对BGR数据的各个通道进行分析,推理得到检测结果。
进一步,通过神经网络模型对BGR格式的图像进行检测包括两个阶段:训练阶段以及验证阶段。首先,在训练阶段,获取初始的神经网络模型,通过训练集中的图像对初始的神经网络模型进行训练,得到经过预训练的神经网络模型;其次,在验证阶段,基于经过预训练的神经网络模型对验证集中的图像进行检测,得到检测结果。
请参阅图3,图3是本发明一实施例的网络模型调整方法的流程示意图。
在一个实施例中,网络模型调整方法包括:
S302:获取预训练网络模型,预训练网络模型的训练数据为三原色格式的训练图像。
示例性地,获取经过预训练的网络模型,并对预训练网络模型的参数进行调整。其中,该预训练网络模型的训练数据是三原色格式的训练图像。
具体的,三原色格式是指三个颜色通道叠加形成的图像格式,例如以R通道、G通道以及B通道三个颜色通道叠加形成的RGB格式。其中R、G、B分别代表红色、绿色、蓝色三种颜色的分量,最终在图像中呈现的像素点的显示效果即为R、G、B三种分量的叠加效果。可以理解的,本实施例中的三原色格式,并不限制不同颜色通道的顺序。例如,以R通道、G通道以及B通道三个颜色通道叠加形成的可以是RGB格式,也可以是BGR格式。
具体的,获取预训练网络模型之前还包括:获取三原色格式的训练图像,其中该训练图像中还包括检测目标的位置信息以及标签信息;获取初始网络模型,例如VGG16、ResNet50等网络模型;将三原色格式的训练图像输入至初始网络模型,并通过训练图像中的位置信息以及标签信息对初始网络模型中的参数进行训练,得到经过预训练的网络模型。
S304:获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,预设图像的尺寸与检测图像相同。
示例性地,确定预设图像的YUV格式图像与三原色格式图像的像素对应关系。其中,预设图像是指与验证阶段输入的检测图像的像素尺寸相同的图像。可以理解的,由于预设图像的像素尺寸与检测图像相同,因此其在YUV格式与三原色格式下的像素对应关系也与检测图像相同。具体的,预设图像可以是检测图像,也可以是像素尺寸相同的其他图像。
具体的,YUV格式是指图像的显示模式为YUV模式,其中,Y代表像素点的亮度,U、V代表像素点的色度,用于描述像素点的色彩和饱和度。对同一张图像而言,既可以用三原色格式去描述每个像素点,也可以用YUV格式去描述每个像素点。因此,YUV格式图像与三原色格式图像的像素对应关系是指:预设图像的任一像素点在YUV格式下的Y、U、V三个分量,与在三原色格式下的三个颜色通道分量的数值对应关系。
S306:基于像素对应关系调整预训练网络模型的参数,得到目标网络模型。
示例性地,获取YUV格式图像与三原色格式图像的像素对应关系后,根据该像素对应关系对预训练网络模型的参数进行调整。可以理解的,由于预训练网络模型的输入图像的格式为三原色格式,无法直接将YUV格式的图像输入至预训练网络模型,因此需要通过以上像素对应关系对预训练网络模型的网络参数进行调整,得到目标网络模型。
具体的,现有技术中主流的车载神经网络模型为了更好的提取图像特征,一般在训练阶段和验证阶段都是以BGR格式的图像作为输入。而由于BGR格式的图像无法直接获取,需要先通过图像信号处理器将摄像头获取的RAW数据转化为YUV格式的图像,再通过数字信号处理器将YUV格式的图像转化为BGR格式的图像。在上述将YUV格式转化为BGR格式的过程中,数字信号处理器的计算压力较大,其算力消耗与图像的数量以及每帧图像的像素点数量成正比。随着用户对自动驾驶要求的不断提高,车载视觉感知的要求也不断提高。现阶段,实现高阶自动驾驶需要采用多个车载摄像头,从而导致采集图像的数量众多,数字信号处理器的计算压力成倍增长。若在图像检测的过程中,可以直接通过YUV格式的图像进行检测,无需经过数字信号处理器对YUV格式的图像进行转化,则图像检测的效率会得到大幅提高。
具体的,三原色格式图像的每个颜色通道的通道分辨率为全图分辨率,而YUV格式图像中仅Y通道为全图分辨率,U通道、V通道的通道分辨率可以为非全图分辨率,即YUV格式图像中无需对图像中的每个像素点的U、V通道进行采样。因此,YUV格式图像的数据量要低于三原色格式图像的数据量。在神经网络迭代的过程中,若输入图像为YUV格式的图像,则神经网络的计算量会显著降低,迭代效率明显提高。
具体的,现有技术中还在训练阶段和验证阶段均以YUV格式图像作为输入,从而避免通过数字信号处理器将YUV格式图像转化为BGR格式图像,并在神经网络迭代的过程中降低计算量。但是,由于YUV格式图像的U通道、V通道不是全图采样,导致图像的信息表述不够丰富,从而严重影像了检测精度。因此,需要在训练阶段使用BGR格式图像作为输入,以保证网络参数调整的准确性,并在验证阶段对预训练网络模型进行转换,以用于输入YUV格式的图像,从而不影响检测精度的前提下提高检测速度。
本实施例获取预训练网络模型,预训练网络模型的训练数据为三原色格式的训练图像;获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,预设图像的尺寸与检测图像相同;基于像素对应关系调整预训练网络模型的参数,得到目标网络模型。通过YUV格式图像与三原色格式图像的像素对应关系,对预训练网络模型的参数进行调整,以使调整后的目标网络模型能够直接以YUV格式图像作为输入数据,从而减少了将YUV格式图像转化为三原色格式图像的过程,并且YUV格式图像的数据量低于三原色格式图像,目标网络模型的迭代速度更快,解决了通过神经网络对图像进行检测的速度较低的技术问题,降低了计算设备的计算成本,提高了图像检测的效率。并且,本实施例只需要对网络参数进行调整,无需改变常规的网络模型训练流程,也不需要开发新的网络模型训练框架,节省了开发资源。
在另一个实施例中,预训练网络模型为卷积神经网络模型,基于像素对应关系调整预训练网络模型的参数包括:
步骤1:获取预训练网络模型的第一卷积层;
步骤2:基于像素对应关系调整第一卷积层的参数。
示例性地,预训练网络模型为卷积神经网络模型。其中,卷积神经网络是指包含卷积运算且具有深度结构的前馈神经网络。基于卷积运算的特性,优选的以卷积神经网络作为本实施例中的网络模型。
示例性地,在对卷积神经网络模型完成预训练后,获取经过预训练的卷积神经网络模型的第一卷积层,并通过YUV格式图像与三原色格式图像的像素转换关系对第一卷积层的参数进行调整。
具体的,由于卷积神经网络模型的输入图像直接输入到第一卷积层,为使经过预训练的卷积神经网络模型能够输入YUV格式图像,因此需要第一卷积层的参数进行调整,以使第一卷积层与YUV格式图像相匹配。同时,调整后的第一卷积层对YUV格式图像进行运算得到的输出数据,与调整前的第一卷积层对三原色格式图像进行运算得到的输出数据相同,因此无需调整第一卷积层以外的其他卷积层。
具体的,第一卷积层的参数包括但不限于:卷积核的通道数量、卷积核权重、卷积核偏移量、卷积步长等。
本实施例中选取卷积神经网络模型作为网络模型,基于卷积运算的机制,卷积神经网络能够更好的进行局部感知和参数共享,从而更好的提取图像特征,进而提高了图像检测的精度。同时,本实施例中通过获取YUV格式图像与三原色格式图像的对应关系,调整卷积神经网络模型的第一卷积层参数,无需对整个网络结构进行调整,从而降低了网络模型调整的复杂程度,提高了网络模型调整的效率。
在另一个实施例中,第一卷积层的参数包括第一通道数量,基于像素对应关系调整第一卷积层的参数包括:
基于YUV格式图像的格式,调整第一卷积层的第一通道数量。
示例性地,第一卷积层的参数包括第一通道数量,即第一卷积层中卷积核的数量。可以理解的,由于YUV格式图像的通道与三原色格式图像的通道不同,并且YUV格式图像的通道可能经过重新组织和排列,因此需要根据YUV格式图像的通道格式,调整第一卷积层的第一通道数量。
请参阅图4,图4是本发明一实施例的YUV格式图像的通道示意图。其中,Y00表示Y通道第0行第0列的像素,U00表示Y通道第0行第0列的像素,V00表示Y通道第0行第0列的像素。
具体的,YUV格式图像为6*6像素规格,其中Y通道的分辨率为全图分辨率,U、V通道的分辨率为非全图分辨率,每四个像素点分别采集一个U分量以及V分量。由于Y通道和U、V通道的分辨率并不相同,因此需要对YUV格式进行重新组织和排列,以保证YUV格式图像每个通道的分辨率相同,从而降低神经网络计算过程中的复杂程度。
具体的,基于图4中的调整方法,将Y通道中相邻的四个像素点分别配置到不同的通道,并重新排列为四个通道,并分离出U、V通道,从而得到6个分辨率相同的通道,并输入至预训练网络模型。
可以理解的,本实施例中YUV格式图像并不限于上述通道格式,上述6个通道的格式可以任意切换,只需要对第一卷积层做出相应调整即可。因此,对上述YUV格式图像以及第一卷积层进行通道顺序调整的方案,均在本实施例所描述的保护范围内。
具体的,为保证预训练网络模型的第一卷积层与YUV格式图像相匹配,需要对第一卷积层的通道数量进行调整,以保证输入的YUV格式图像的6个通道均存在对应的卷积核。由于第一卷积层的输入为6通道YUV格式图像,因此优选的将第一卷积层划分为6个通道。
本实施例基于YUV格式图像的格式,对第一卷积层的第一通道数量进行调整,以保证YUV格式图像的每个通道均存在对应的卷积核,从而保证了卷积神经网络模型运算的准确性。
在另一个实施例中,第一卷积层的参数还包括第一权重以及第一偏移量,基于像素对应关系调整第一卷积层的参数包括:
基于YUV格式图像与三原色格式图像的像素对应关系,对第一权重以及第一偏移量进行调整。
示例性地,获取YUV格式图像与三原色格式图像的像素对应关系后,根据像素对应关系调整预训练网络模型的第一卷积层的第一权重以及第一偏移量。可以理解的,第一权重中的每个权重值均与相应的像素点相对应,而偏移量与每次进行卷积运算时的所覆盖的像素点相对应,因此需要通过像素对应关系对第一卷积层的第一权重以及第一偏移量进行调整。
具体的,以BGR格式为例,经训练网络模型的第一卷积层为三通道,以分别与输入的BGR格式图像的B通道、G通道以及R通道相对应。基于YUV格式图像确定目标网络模型的第一卷积层的通道为六通道,进一步基于YUV格式图像与BGR格式图像的像素对应关系,确定目标网络模型的第一卷积层中所有的权重。
请参阅图5,图5是本发明一实施例的第一卷积层的示意图。
具体的,以下以每个通道的第一个权重为例进行描述,通道内的其余权重的计算方法均可以类推。
具体的,首先获取YUV格式图像与BGR格式图像的像素对应关系:
其中,B、G、R分别表示BGR格式图像中像素点对应的通道分量,Y、U、V分别表示YUV格式图像中像素点对应的通道分量,“≫8”表示二进制中的下移八位,即相当于除以256。
其次,根据以上像素对应关系,确定目标网络模型的第一卷积层的第一权重:
其中,Y00 W 表示Y通道第0行第0列像素的权重,其他通道类推;B00 W 表示B通道第0行第0列像素的权重,其他通道类推。
最后,根据以上权重,计算第一卷积层的第一偏移量:
其中,Bias00 YUV 表示目标网络模型的第一卷积层的第一权重。
可以理解的,以上YUV格式图像与BGR格式图像的像素对应关系,以及对参数进行调整的计算方法仅仅作为示例,本实施例并不限于上述转换关系。其余可以实现参数调整的像素对应关系,均在本发明所描述的内容的保护范围内。
具体的,获取上述第一通道数量、第一权重以及第一偏移量后,通过上述参数对预训练网络模型的第一卷积层进行调整,得到目标网络模型。
本实施例通过YUV格式图像与三原色格式图像的像素对应关系,对第一卷积层的第一权重以及第一偏移量进行调整。由于像素对应关系固定,因此第一通道数量、第一权重以及第一偏移量只需进行一次调整。在后续检测过程中只需保证待检测YUV图像与上述YUV格式图像的格式一致即可,从而提高了目标网络模型的检测效率。
在另一个实施例中,得到目标网络模型之后还包括:
步骤1:获取待检测YUV图像;
步骤2:将待检测YUV图像输入至目标网络模型,基于目标网络模型对待检测YUV图像进行检测,得到检测结果。
示例性地,获取通过摄像头采集的待检测YUV图像,并将待检测YUV图像输入至目标网络模型;目标网络模型对待检测YUV图像进行特征提取和分类,得到最终的检测结果。
本实施例通过调整后的目标网络模型对待检测YUV图像进行特征提取和分类,相比于现有技术中通过三原色格式图像进行训练和验证的技术方案,减少了图像转换的进程,以及网络模型输入的数据量,进而提高了检测效率。
在另一个实施例中,获取待检测YUV图像之前还包括:
步骤1:获取初始YUV图像;
步骤2:基于目标网络模型的预设输入格式对初始YUV图像进行调整,得到待检测YUV图像。
示例性地,获取初始的YUV图像,根据目标网络模型的预设输入格式调整初始YUV图像,得到待检测YUV图像。进一步将待检测YUV图像输入到目标网络模型,通过目标网络模型对待检测YUV图像进行检测,得到检测结果。
可以理解的,由于目标网络模型是基于YUV格式图像进行调整的,因此需要在检测过程中对初始YUV图像进行调节,以使其格式与YUV格式图像一致。
具体的,对初始YUV图像的通道进行组织和排列,以使其通道格式与YUV格式图像一致,得到待检测YUV图像并输入至目标网络模型。
本实施例对初始YUV图像的通道格式进行调整,以使其与目标网络模型的预设输入格式相一致,从而保证目标网络模型迭代的准确性,进而提高了图像检测的精度。
在另一个实施例中,YUV格式图像的Y通道、U通道以及V通道的像素点采样格式包括4:4:4采样、4:2:2采样以及4:2:0采样中的至少一种。
示例性地,YUV格式将像素的亮度和色度分开表示,其中Y通道表示亮度,用于描述图像的灰度状况;U通道和V通道表示色度,用于描述图像的颜色以及饱和度。由于YUV格式将亮度和色度分开表示,即便没有U通道和V通道依然可以显示完整图像,只不过显示效果为黑白效果,因此广泛应用于模拟视频领域。
具体的,YUV格式中Y通道、U通道以及V通道的像素点采样格式包括4:4:4采样、4:2:2采样以及4:2:0采样。其中,像素点采样格式即Y通道、U通道以及V通道的像素点的数量比值。例如,4:2:2采样中,每个像素点均具有一个Y通道分量,但是每两个像素点共用一个U通道分量以及V通道分量。
可以理解的,本发明中的YUV格式并不限于某一种采样格式,不同的采样格式导致YUV格式图像的通道格式也各不相同。基于以上采样格式以及通道格式调整经训练网络模型的参数的方案,均在本发明所描述的内容范围内。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中还提供了一种网络模型调整装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本实施例的网络模型调整装置的结构框图,如图6所示,该装置包括:
第一获取模块10,用于获取预训练网络模型,预训练网络模型的训练数据为三原色格式的训练图像;
第二获取模块20,用于获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,预设图像的尺寸与检测图像相同;
调整模块30,用于基于像素对应关系调整预训练网络模型的参数,得到目标网络模型;
调整模块30,还用于获取预训练网络模型的第一卷积层;
基于像素对应关系调整第一卷积层的参数;
调整模块30,还用于基于YUV格式图像的格式,调整第一卷积层的第一通道数量;
调整模块30,还用于基于YUV格式图像与三原色格式图像的像素对应关系,对第一权重以及第一偏移量进行调整;
网络模型调整模块,还包括检测模块;
检测模块,用于获取待检测YUV图像;
将待检测YUV图像输入至目标网络模型,基于目标网络模型对待检测YUV图像进行检测,得到检测结果;
网络模型调整模块,还包括图像调整模块;
图像调整模块,用于获取初始YUV图像;
基于目标网络模型的预设输入格式对初始YUV图像进行调整,得到待检测YUV图像。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在本实施例中还提供了一种感知设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述感知设备还可以包括输入设备,其中,该输入设备和上述处理器连接。在其中一个具体实施例中,感知设备包括车载雷达、车载摄像头等传感器,用于获取车辆实时信号并将该实时信号传输至处理器。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取预训练网络模型,预训练网络模型的训练数据为三原色格式的训练图像;
S2,获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,预设图像的尺寸与检测图像相同;
S3,基于像素对应关系调整预训练网络模型的参数,得到目标网络模型。
需要说明的是,在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,在本实施例中不再赘述。
此外,结合上述实施例中提供的网络模型调整方法,在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种网络模型调整方法。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种网络模型调整方法,其特征在于,包括:
获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;
获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;
基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。
2.根据权利要求1所述的网络模型调整方法,其特征在于,所述预训练网络模型为卷积神经网络模型,所述基于所述像素对应关系调整所述预训练网络模型的参数包括:
获取所述预训练网络模型的第一卷积层;
基于所述像素对应关系调整所述第一卷积层的参数。
3.根据权利要求2所述的网络模型调整方法,其特征在于,所述第一卷积层的参数包括第一通道数量,所述基于所述像素对应关系调整所述第一卷积层的参数包括:
基于YUV格式图像的格式,调整所述第一卷积层的第一通道数量。
4.根据权利要求2所述的网络模型调整方法,其特征在于,所述第一卷积层的参数还包括第一权重以及第一偏移量,所述基于所述像素对应关系调整所述第一卷积层的参数包括:
基于YUV格式图像与三原色格式图像的像素对应关系,对所述第一权重以及第一偏移量进行调整。
5.根据权利要求1所述的网络模型调整方法,其特征在于,所述得到目标网络模型之后还包括:
获取待检测YUV图像;
将所述待检测YUV图像输入至所述目标网络模型,基于所述目标网络模型对所述待检测YUV图像进行检测,得到检测结果。
6.根据权利要求5所述的网络模型调整方法,其特征在于,所述获取待检测YUV图像之前还包括:
获取初始YUV图像;
基于所述目标网络模型的预设输入格式对所述初始YUV图像进行调整,得到所述待检测YUV图像。
7.根据权利要求1所述的网络模型调整方法,其特征在于,所述YUV格式图像的Y通道、U通道以及V通道的像素点采样格式包括4:4:4采样、4:2:2采样以及4:2:0采样中的至少一种。
8.一种网络模型调整装置,其特征在于,包括:
第一获取模块,用于获取预训练网络模型,所述预训练网络模型的训练数据为三原色格式的训练图像;
第二获取模块,用于获取预设图像的YUV格式图像与三原色格式图像的像素对应关系,所述预设图像的尺寸与检测图像相同;
调整模块,用于基于所述像素对应关系调整所述预训练网络模型的参数,得到目标网络模型。
9.一种感知设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的网络模型调整方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的网络模型调整方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210548858.6A CN114638348A (zh) | 2022-05-20 | 2022-05-20 | 网络模型调整方法、装置、感知设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210548858.6A CN114638348A (zh) | 2022-05-20 | 2022-05-20 | 网络模型调整方法、装置、感知设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114638348A true CN114638348A (zh) | 2022-06-17 |
Family
ID=81953122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210548858.6A Pending CN114638348A (zh) | 2022-05-20 | 2022-05-20 | 网络模型调整方法、装置、感知设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114638348A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140105493A1 (en) * | 2012-10-12 | 2014-04-17 | Mediatek Inc. | Image compression method and apparatus for encoding pixel data of frame into interleaved bit-stream, and related image decompression method and apparatus |
CN105847775A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种yuv到hsv颜色空间的转换方法和系统 |
CN110245747A (zh) * | 2019-06-21 | 2019-09-17 | 华中师范大学 | 基于全卷积神经网络的图像处理方法及装置 |
CN112653905A (zh) * | 2019-10-12 | 2021-04-13 | 腾讯数码(天津)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112766277A (zh) * | 2021-02-07 | 2021-05-07 | 普联技术有限公司 | 卷积神经网络模型的通道调整方法、装置和设备 |
CN113112428A (zh) * | 2021-04-16 | 2021-07-13 | 维沃移动通信有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-05-20 CN CN202210548858.6A patent/CN114638348A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140105493A1 (en) * | 2012-10-12 | 2014-04-17 | Mediatek Inc. | Image compression method and apparatus for encoding pixel data of frame into interleaved bit-stream, and related image decompression method and apparatus |
CN105847775A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种yuv到hsv颜色空间的转换方法和系统 |
CN110245747A (zh) * | 2019-06-21 | 2019-09-17 | 华中师范大学 | 基于全卷积神经网络的图像处理方法及装置 |
CN112653905A (zh) * | 2019-10-12 | 2021-04-13 | 腾讯数码(天津)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112766277A (zh) * | 2021-02-07 | 2021-05-07 | 普联技术有限公司 | 卷积神经网络模型的通道调整方法、装置和设备 |
CN113112428A (zh) * | 2021-04-16 | 2021-07-13 | 维沃移动通信有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
陈佳林: "《智能硬件与机器视觉 基于树莓派、Python和OpenCV》", 30 November 2020 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113284054B (zh) | 图像增强方法以及图像增强装置 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN109472270A (zh) | 图像风格转换方法、装置及设备 | |
CN104883504A (zh) | 开启智能终端上高动态范围hdr功能的方法及装置 | |
WO2022073282A1 (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
CN116188808B (zh) | 图像特征提取方法和系统、存储介质及电子设备 | |
WO2019090580A1 (en) | System and method for image dynamic range adjusting | |
CN116777964B (zh) | 基于纹理显著性赋权的遥感影像融合方法及系统 | |
CN112788329A (zh) | 视频静帧检测方法、装置、电视及存储介质 | |
CN116309116A (zh) | 一种基于raw图像的低弱光图像增强方法与装置 | |
CN112288031A (zh) | 交通信号灯检测方法、装置、电子设备和存储介质 | |
CN114187515A (zh) | 图像分割方法和图像分割装置 | |
CN115115526A (zh) | 图像处理方法及装置、存储介质和图形计算处理器 | |
CN113052923A (zh) | 色调映射方法、装置、电子设备和存储介质 | |
JP5615344B2 (ja) | 色特徴を抽出するための方法および装置 | |
CN114638348A (zh) | 网络模型调整方法、装置、感知设备和存储介质 | |
CN113728355A (zh) | 一种图像处理方法和装置 | |
CN112805745A (zh) | 一种混合图层处理方法及装置 | |
CN115619666A (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN111754412A (zh) | 构建数据对的方法、装置及终端设备 | |
US20220405972A1 (en) | An imaging sensor, an image processing device and an image processing method | |
CN113537233B (zh) | 融合可见光和近红外信息的典型目标材质属性提取方法及装置 | |
US7623179B2 (en) | Storage medium and method to control auto exposure by the same | |
CN111325209B (zh) | 一种车牌识别方法和系统 | |
CN105979151A (zh) | 一种图像处理方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220617 |
|
RJ01 | Rejection of invention patent application after publication |