CN115294224B - 用于驾驶模拟器的图像数据快速载入方法 - Google Patents

用于驾驶模拟器的图像数据快速载入方法 Download PDF

Info

Publication number
CN115294224B
CN115294224B CN202211206904.0A CN202211206904A CN115294224B CN 115294224 B CN115294224 B CN 115294224B CN 202211206904 A CN202211206904 A CN 202211206904A CN 115294224 B CN115294224 B CN 115294224B
Authority
CN
China
Prior art keywords
image
gradient
scene
data
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211206904.0A
Other languages
English (en)
Other versions
CN115294224A (zh
Inventor
纪华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong City Tongzhou District Huakai Machinery Co ltd
Original Assignee
Nantong City Tongzhou District Huakai Machinery Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong City Tongzhou District Huakai Machinery Co ltd filed Critical Nantong City Tongzhou District Huakai Machinery Co ltd
Priority to CN202211206904.0A priority Critical patent/CN115294224B/zh
Publication of CN115294224A publication Critical patent/CN115294224A/zh
Application granted granted Critical
Publication of CN115294224B publication Critical patent/CN115294224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及数据压缩领域,具体涉及用于驾驶模拟器的图像数据快速载入方法。该方法获取驾驶场景图像得到数据集,利用驾驶操作决策与场景图像信息的关系来构建目标神经网络、设计综合损失函数,利用数据集完成目标网络的训练得到关注度图像,根据关注度图像和梯度图像划分图像块得到压缩图像块集合,对每个压缩图像块进行压缩处理得到压缩后图像,从而实现利用驾驶操作决策对各信息的关注度情况进行压缩控制,降低驾驶场景图像信息压缩导致的驾驶体验感降低的情况,提高驾驶场景图像的加载速度。

Description

用于驾驶模拟器的图像数据快速载入方法
技术领域
本发明涉及数据压缩领域,具体涉及用于驾驶模拟器的图像数据快速载入方法。
背景技术
随着科技的发展,AI的用途越发广泛,驾驶模拟器作为一种常见的AI应用之一主要存在的问题是,驾驶模拟过程中场景图像数据较大,导致场景图像载入速度滞后于驾驶操作速度,进而出现卡顿现象,这种现象非常影响操作者模拟驾驶的体验感,为了保障驾驶模拟器中场景图像数据的快速载入,需适当的对场景图像数据进行压缩处理,减少场景图像数据量。
由于在驾驶模拟过程中,场景图像中各信息对驾驶模拟的影响不同,有些信息会影响驾驶操作决策,在驾驶模拟中,操作者更关注这些信息,因而这些信息对驾驶模拟操作者较为重要,这些信息压缩损失较大时,影响操作者驾驶模拟体验感,例如驾驶过程中的信号灯,路面边线。而有些信息对驾驶操作决策较小,在驾驶模拟中操作者对这些信息的关注度较小,这些信息压缩损失较大时,对操作者驾驶模拟的体验感影响不大,例如道路两侧的草,木等信息。因而需考虑各信息对驾驶操作决策的影响情况,将那种对驾驶操作决策重要的信息更多的保留,而那种对驾驶操作决策不太重要的信息可以增大其压缩的损失程度。
发明内容
为了解决上述技术问题,本发明的目的在于提供用于驾驶模拟器的图像数据快速载入方法,所采用的技术方案具体如下:
用于驾驶模拟器的图像数据快速载入方法,所述方法包括:
构建数据集,所述数据集中包含大量历史驾驶模拟过程中的场景图像,每个场景图像的标签数据为历史驾驶模拟过程中的驾驶数据;
构建目标神经网络并进行初始化,将数据集中的每两个相邻帧的场景图像依次输入到构建的目标神经网络中得到两个第一遮罩图、两个第一单通道特征图、一个第一关系遮罩图和两个输出数据;
根据两个第一单通道特征图、一个第一关系遮罩图和两个输出数据构建出综合损失函数;
利用数据集并根据综合损失函数对目标神经网络进行训练得到训练完成的目标神经网络;
将每两个相邻帧的场景图像依次输入到训练完成的目标神经网络中分别重新得到两个第一遮罩图和一个第一关系遮罩图,根据重新得到的每个场景图像的第一遮罩图、第一关系遮罩图和两个场景图像的两个标签数据得到每个场景图像的关注度图;
获取场景图像每个像素的梯度向量,将场景图像所有像素点梯度向量构成的图像作为场景梯度图,将场景梯度图像拆分成行方向梯度图像和列方向梯度图像,将行、列方向梯度图像分别与关注度图对应像素相乘得到行、列方向加权梯度图;
根据行、列方向加权梯度图对每个场景图像进行图像块划分得到每张场景图像的压缩图像块集合,利用每张图像的压缩图像块集合完成每张图像压缩处理。
优选的,所述根据两个第一单通道特征图、一个第一关系遮罩图和两个输出数据构建出综合损失函数的方法,包括:
每个输出数据和每个场景图像的标签数据构建出每个场景图像的交叉熵损失函数;
根据两个第一单通道特征图与第一关系遮罩图构建出第一损失函数;
将两个场景图像的交叉熵损失函数加和得到两个场景图像的综合交叉熵损失函数,将两个场景图像的综合交叉熵损失函数与第一损失函数加和得到综合损失函数。
优选的,所述根据两个第一单通道特征图与第一关系遮罩图构建出第一损失函数的方法,包括:
将两个第一通道特征图对应像素相减得到差值特征图,将差值特征图与第一关系遮罩图对应像素相乘得到遮罩差值特征图;
将遮罩差值特征图进行池化处理得到描述向量;
将两个相邻帧的场景图像的标签数据相减得到标签差值,所述标签差值视为一个向量,根据标签差值和描述向量构建第一损失函数公式为:
Figure 537681DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
表示描述向量,
Figure 278235DEST_PATH_IMAGE004
表示标签差值,
Figure 100002_DEST_PATH_IMAGE005
表示描述向量与标签差值相关 系数,
Figure 516625DEST_PATH_IMAGE006
表示第一损失函数。
优选的,所述根据重新得到的每个场景图像的第一遮罩图、第一关系遮罩图和两个场景图像的两个标签数据得到每个场景图像的关注度图的方法,包括:
将第一遮罩图和第一关系遮罩图进行上采样得到第二遮罩图和第二关系遮罩图,将两个标签数据相减得到标签差值数据,进而得到标签差值数据的模长,将第二关系遮罩图各像素分别乘以标签差值数据的模长得到第三关系遮罩图,将第三关系遮罩图与第二遮罩图对应像素相加得到关注度图。
优选的,所述根据行、列方向加权梯度图对每个场景图像进行图像块划分得到每张场景图像的压缩图像块集合的方法,包括:
将行方向加权梯度图的每行像素值累加得到每行的行梯度,将列方向加权梯度图的每列像素累加得到每列的列梯度;
根据所有行的行梯度累加和得到图像块划分行阈值,从行方向加权梯度图的第一行出发,向行数增加方向的下一行移动,将所通过的每行的行梯度累加得到第一行梯度和,每进行一次累加就将第一行梯度和图像块划分行阈值进行一次比较,当第一行梯度大于图像块划分行阈值时停止移动,第一行至最后移动位置对应的行数划分为第一图像块,将最后移动位置对应的行数至最后一行划分为第二图像块;
获取与每个图像块对应像素区域的列方向加权梯度图像块,根据列方向加权梯度图像块所有列的列梯度累加和得到图像块划分列阈值,从列方向加权梯度图像块第一列出发,向列增加方向的下一列移动,将所通过的每列的列梯度累加得到第一列梯度和,每进行一次累加就将第一列梯度和图像块划分列阈值进行一次比较,当第一列梯度大于图像块划分列阈值时停止移动,将列方向加权梯度图像块的第一列至最后移动位置对应的列数划分为第三图像块,将最后移动位置对应的列数至最后一列划分为第四图像块;
将划分得到的所有图像块构成的集合称为图像块集合,计算图像块集合中每个图像块的损失值,将每个图像块损失值与预设的压缩损失精度阈值比较,当每个图像块损失值均小于预设压缩精度阈值时,停止图像块划分;当有些图像块大于预设的压缩损失精度阈值时,继续对所述图像块进行划分直至每个图像块均小于预设的压缩损失精度阈值,获取每个图像块均满足预设的压缩损失阈值时划分得到的所有图像块,所述图像块构成的集合为压缩图像块集合。
优选的,所述利用每个场景图像的压缩图像块集合完成每个图像压缩处理的方法,包括:
获取与每个压缩图像块对应像素区域的场景图像压缩图像块,获取每个场景图像压缩图像块的像素值均值作为每个场景图像压缩图像块的压缩数据,所有场景图像压缩图像块的压缩数据构成整个场景图像的压缩数据。
本发明具有如下有益效果:本发明实施例根据场景信息对驾驶决策的关联情况构建网络、设计损失函数,进而得到关注度图,结合关注度图来控制压缩图像块的设定划分规则,从而实现将场景图像数据中对驾驶决策影响较小的数据有效压缩,同时还能将场景图像中对驾驶决策影响较大数据有效保留,进而保障降低了场景图像的数据量,提高场景图像的加载速度,同时还不影响操作者模拟中的驾驶体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的种用于驾驶模拟器的图像数据快速载入方法流程图。
图2为本发明一个实施例所提供的目标神经网络结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的用于驾驶模拟器的图像数据快速载入方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的用于驾驶模拟器的图像数据快速载入方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的用于驾驶模拟器的图像数据快速载入方法流程图,该方法包括:
步骤S001:获取数据集。
获取在历史驾驶模拟中,场景图像数据以及与每帧场景图像对应的模拟者的操作数据,
每个场景图像对应的模拟者的操作数据主要包含方向操作数据、刹车操作数据、 油门操作数据;方向操作数据是操作者旋转方向盘的角度,向右旋转为正方向,向左旋转为 负方向,例如向左旋转30度,记为
Figure DEST_PATH_IMAGE007
。刹车操作数据是将刹车操作分成10个等级,其中刹车操 作压力越大等级越大,例如第2刹车等级,记为2;油门操作数据是将油门操作分为10个等 级,其中油门操作压力越大等级越大,例如第5个油门等级,记为5;三个操作数据构成一个 三维的操作数据。
将每帧场景图像对应的模拟者操作数据作为每帧场景图像的标注标签。
步骤S002:构建目标神经网络。
为了获取第一遮罩图和第一单通道特征图构建以下网络结构。
获取一个带有标签的模拟驾驶场景图像
Figure 772157DEST_PATH_IMAGE008
,其标签为与其场景图像对应的操作数 据;本发明以图像
Figure 458091DEST_PATH_IMAGE008
的大小为1024*1024为例来叙述。
该图像输入到如图2所示的网络中,该图像通过图中卷积层1处理获得特征图
Figure DEST_PATH_IMAGE009
, 所述卷积层级均存在卷积操作、池化操作、激活函数等,卷积层均采用VGG-Net网络结构, VGG-Net网络是常用的神经网络,本发明不再对该网络进行详细叙述。本发明以特征图F1大 小为512*512*80为例来说明。
该特征图F1输入到下一个卷积层,特征图F1通过图中卷积层2处理获得特征图F2,本发明以特征图F2大小为32*32*40为例来说明。
该特征图F2与第一遮罩图
Figure 318731DEST_PATH_IMAGE010
相乘得到遮罩特征图,遮罩特征图输入到全连接层, 遮罩特征图通过全连接层和激活处理获得输出结果Y,输出结果Y为与标签数据同纬度的向 量。利用遮罩图
Figure 300593DEST_PATH_IMAGE010
可以获取网络分析出的当前驾驶操作对场景图像中各信息的关注度情 况,遮罩图
Figure 810466DEST_PATH_IMAGE010
的像素值越大说明操作者越关注相关信息,遮罩图
Figure 801555DEST_PATH_IMAGE010
的像素值越小说明操作 者越不关注相关信息。
需要说明的是第一遮罩图
Figure 251122DEST_PATH_IMAGE010
尺寸与特征图
Figure DEST_PATH_IMAGE011
各通道图像尺寸相同,初始第一遮 罩图通过随机初始化得到。
同时特征图
Figure 840104DEST_PATH_IMAGE011
,将特征图
Figure 70229DEST_PATH_IMAGE011
进行纵向卷积操作得到第一单通道特征图
Figure 865009DEST_PATH_IMAGE012
。所述纵 向卷积操作是指利用卷积核对特征图
Figure 795181DEST_PATH_IMAGE011
各通道图像对应位置的像素进行卷积处理,例如 利用卷积核对特征图
Figure 384426DEST_PATH_IMAGE011
中第一通道第i个像素的像素值、第二通道第i像素的像素值…第N 通道第i个像素的像素值进行卷积处理得到第i个像素的卷积后像素值,所有卷积后像素值 构成的图像为第一单通道特征图。此处的第一单通道特征图是为了后续分析各场景图像信 息和操作变化的关系,根据各场景图像信息与操作变化关系来确定关系遮罩图。
步骤S003:设计损失函数。
为了获取关系遮罩图和第一遮罩图设计损失函数。
图像
Figure DEST_PATH_IMAGE013
、图像
Figure 305108DEST_PATH_IMAGE014
依次输入到网络中得到输出数据
Figure DEST_PATH_IMAGE015
Figure 808640DEST_PATH_IMAGE016
,图像
Figure 295116DEST_PATH_IMAGE013
的标签与输出
Figure 320841DEST_PATH_IMAGE015
计算出交叉熵损失值
Figure DEST_PATH_IMAGE017
,图像的
Figure 636809DEST_PATH_IMAGE014
的标签与输出
Figure 773392DEST_PATH_IMAGE016
计算出交叉熵损失值
Figure 612910DEST_PATH_IMAGE018
,需要说明的 是图像
Figure 809536DEST_PATH_IMAGE013
与图像
Figure 235969DEST_PATH_IMAGE014
为相邻帧的图像。
图像
Figure 910664DEST_PATH_IMAGE013
、图像
Figure 681654DEST_PATH_IMAGE014
依次输入到网络中得到第一单通道特征图
Figure DEST_PATH_IMAGE019
和第一单通道特征 图
Figure 986864DEST_PATH_IMAGE020
由于图像
Figure 900594DEST_PATH_IMAGE014
引入了图像
Figure 611936DEST_PATH_IMAGE013
中没有的新信息,这些新信息中的部分信息导致驾驶 员改变驾驶操作,因而通过新信息中对驾驶操作改变影响来确定各信息的关注度。由于对 驾驶员改变驾驶操作有影响的新信息应该与驾驶操作改变值相关,因而基于此来构建第一 损失函数。
第一单通道特征图
Figure 193090DEST_PATH_IMAGE019
与第一单通道特征图
Figure 465939DEST_PATH_IMAGE020
相减得到差值图像,差值图像主要 反映了引入的新场景信息,第一关系遮罩图
Figure DEST_PATH_IMAGE021
与差值图像相乘得到遮罩差值图像,通过第 一关系遮罩图像对差值图像遮罩处理得到新场景信息中有用的场景信息,将遮罩差值图像 池化处理得到描述向量
Figure 243796DEST_PATH_IMAGE003
,需要说明的是第一关系遮罩图像
Figure 260293DEST_PATH_IMAGE021
尺寸与第一单通道特征图
Figure 695954DEST_PATH_IMAGE019
的尺寸相同,初始第一关系遮罩图是通过随机初始化得到。
将图像X1的标签数据
Figure 638240DEST_PATH_IMAGE022
与图像
Figure 792141DEST_PATH_IMAGE014
的标签数据
Figure DEST_PATH_IMAGE023
相减得到标签差值数据
Figure 284433DEST_PATH_IMAGE004
,标签 差值数据反应了驾驶司机操作改变情况,由于司机是基于驾驶中引入的部分场景信息来做 出驾驶操作改变,因而驾驶操作的改变情况应该与由于的有用的部分场景信息相关,因而 基于此来构建出第一损失函数:
Figure 76065DEST_PATH_IMAGE002
式中
Figure 956296DEST_PATH_IMAGE005
表示描述向量
Figure 128651DEST_PATH_IMAGE003
与标签差值向量
Figure 486952DEST_PATH_IMAGE004
的相关系数。该值越大说明遮图 遮罩出的有用信息较为准确。
综合损失函数为:
Figure DEST_PATH_IMAGE025
使综合损失函数值尽可能小,通过梯度下降法进行网络更新,损失值逐渐减少直至收敛,完成目标神经网络的训练,通过损失函数能够看出每输入两次进行一次网络更新。
步骤S004:根据第一关系遮罩图、第一遮罩图得到关注度图。
第一遮罩图反映了每次驾驶操作对场景图像中信息的关注度情况,第一关系遮罩图反映了场景图像中各信息与驾驶操作改变的相关情况,因而利用下面结合第一遮罩图和第一关系遮罩图得到关注度图。
将相邻帧的图像
Figure 333423DEST_PATH_IMAGE013
、图像
Figure 853397DEST_PATH_IMAGE014
输入到训练完成的目标网络中重新获得第一遮罩图
Figure 716311DEST_PATH_IMAGE010
、第一遮罩图
Figure 51870DEST_PATH_IMAGE026
以及第一关系遮罩图
Figure 316630DEST_PATH_IMAGE021
,将第一遮罩图
Figure 538664DEST_PATH_IMAGE010
、第一遮罩图
Figure 387409DEST_PATH_IMAGE026
和第一关系遮 罩图进行上采样得到的第二遮罩图
Figure DEST_PATH_IMAGE027
、第二遮罩图
Figure 759615DEST_PATH_IMAGE028
和第二关系遮罩图,第二遮罩图
Figure 878881DEST_PATH_IMAGE027
、 第二遮罩图
Figure 558300DEST_PATH_IMAGE028
和第二关系遮罩图的尺寸与图像X的尺寸相同。
获取图像
Figure 395806DEST_PATH_IMAGE013
的标签数据
Figure 899600DEST_PATH_IMAGE022
与图像
Figure 873372DEST_PATH_IMAGE014
的标签数据
Figure 670164DEST_PATH_IMAGE023
,计算标签数据
Figure 994966DEST_PATH_IMAGE022
与标签数据
Figure 36872DEST_PATH_IMAGE023
的标签差值数据,计算标签差值数据的模长
Figure DEST_PATH_IMAGE029
。模长越大说明,驾驶操作改变量越大,因 而越关注影响操作的信息,第二遮罩图反映了的驾驶者对图像中信息的相关性情况,因而 将第二关系遮罩图各像素分别乘以模长L得到第三关系遮罩图,第三关系遮罩图反映了操 作者对图像中各信息的关注度情况。
将第三关系遮罩图与第二遮罩图
Figure 241981DEST_PATH_IMAGE010
对应像素相加得到图像
Figure 976719DEST_PATH_IMAGE013
的关注度图
Figure 523238DEST_PATH_IMAGE030
。图 像
Figure 132949DEST_PATH_IMAGE030
反映了在驾驶决策中对图像中各信息关注度情况。将第三关系遮罩图与第二遮罩图
Figure 815734DEST_PATH_IMAGE026
对应像素相加得到图像
Figure 721373DEST_PATH_IMAGE014
的关注度图
Figure DEST_PATH_IMAGE031
.同理得到各图像的关注度图。
步骤S005:结合关注度图像划分图像块,根据图像块对图像进行压缩处理。
为了提高场景图像载入的速度,防止出现场景图像载入滞后显现,需对场景图像进行压缩。但是由于驾驶操作者更关注那种对驾驶操作决策有影响的信息,因而需根据驾驶操作决策得到的关注度图来进行压缩处理,将对关注度较大的信息尽可能小的损失,对于关注度较小的信息可以增大其压缩损失。
获取每个像素点的梯度向量,所述梯度向量为一个二维向量
Figure 194336DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
表示该像 素点总梯度在行方向的投影值,
Figure 312465DEST_PATH_IMAGE034
表示该像素点总梯度在列方向的投影值。所有像素行方 向投影值构成的图像称为行方向梯度图像,所有像素列方向投影值构成的图像称为列方向 梯度图像。通过行、列梯度图像反应场景图像的纹理信息情况,下面分析结合驾驶关注度的 情况下,行、列梯度损失情况来进行图像块划分。
将各图像的关注度图各像素与行、列方向梯度图像对应像素相乘得到行、列方向加权梯度图像,通过行、列方向梯度图像反应场景图像的纹理信息情况,行、列方向加权梯度图像各像素反应该处信息损失时的影响情况,下面利用行、列方向加权梯度图来进行图像块划分。
将行方向加权梯度图像每行像素值累加得到每行的行梯度值,将列方向加权梯度图像每列像素值累加得到每列的列梯度值。
将所有行的行梯度值累加得到总行梯度值,将总行梯度值除以2得到图像块行分 割阈值,从行梯度图像第一行出发,向行增加方向移动,计算所通过行的行梯度累加值,每 累加一次利用图像块行分割阈值进行一次判定,当累加值大于图像块行分割阈值时,停止 移动。当累加值小于图像块行分割阈值时,继续进行移动累加,直至满足停止移动条件。例 如先将第一行和第二行的行梯度加和得到两行加和,将两行加和值与图像块行分割阈值比 较,当两行加和值大于图像块行分割阈值时停止迭代,将第一行第二行划分成第一图像块, 将第三行至第N行划分至第二图像块,
Figure DEST_PATH_IMAGE035
表示图像中行总数。当两行加和值小于图像块行分 割阈值时,将两行加和与第三行梯度值累加得到三行加和,将三行加和与图像块行分割阈 值比较,当三行加和大于图像块行分割阈值时,停止迭代,将第一至第三行划分至第一图像 块,将第四至第N行划分至第二图像块.当三行加和小于图像块行分割阈值时,继续累加,直 至迭代结束,完成图像块划分。至此基于行梯度信息完成图像行的2分。通过该方式能够将 图像划分成加权行梯度累加值相近的两个图像块。
获取与每个图像块对应的列梯度图像块。将列梯度图像块所有列的列梯度值累加得到总列梯度值,将总列梯度值除以2得到图像块列分割阈值,从列梯度图像块第一列出发,向列增加方向移动,计算所通过列的列梯度累加值,每累加一次利用图像块列分割阈值进行一次判定,当累加值大于图像块列分割阈值时,停止移动。当累加值小于图像块列分割阈值时,继续进行移动累加,直至满足停止移动条件。至此将图像划分成4个图像块。通过该方式能够将图像划分成行、列加权梯度累加值相近的图像块。
计算每个图像块的总梯度损失,由于基于每个图像块作为存储方式,图像块内的 梯度信息将会丢失,因而每个图像块的梯度损失为整个图像块内部的梯度值累加和,将每 个图像块内部的各像素的梯度值累加得到该图像块的梯度损失值。将每个图像块的梯度损 失值与精度阈值
Figure 817133DEST_PATH_IMAGE036
比较,当图像块的梯度损失值小于精度阈值时,说明该图像块达到划分要 求,当图像块的损失值大于精度阈值时,说明图像块还未达到划分要求需进一步划分,进一 步划分方法参照上述图像块划分方法。
需要说明的是每完成一次图像块划分,需将每个图像块的损失值与精度阈值比较,当满足精度要求时即可停止对该图像块继续划分,当未满足精度要求时继续进一步划分。同时当图像块内只包含一个像素时,及时没有达到精度阈值要求也要终止划分。
获取与每个压缩图像块对应的场景图像压缩图像块,获取每个场景图像压缩图像块的像素值均值作为每个场景图像压缩图像块的压缩数据,所有场景图像压缩图像块的压缩数据构成整个场景图像的压缩数据。
通过对场景图像压缩就会结余大量数据空间。因而进行场景图像数据载入时,载入数据小于原图像数据,场景图像载入速度有效提高。
通过该图像块划分方式会将图像划分成若干个行、列梯度累加值相近的图像块,行、列梯度累加值反应了各图像块的带驾驶关注的综合信息情况,当图像块内的信息关注度高时,划分的图像块较小,此时以该图像块作为信息压缩单元是时,图像块的纹理信息丢失较少,当图像块的信息关注度较低时,划分的图像块较大,此时以图像块为信息压缩单元时,图像块的纹理信息丢失较多。
综上所述,本发明实施例通过分析各场景信息对驾驶操作决策的关系来构建神经网络、设计损失函数,从而得到驾驶操作决策时对各场景信息的关注度情况。结合场景信息关注度和梯度纹理丢失情况来控制图像块划分规则,将每个图像块作为压缩单元进行压缩处理。从而实现根据各场景信息对模拟驾驶操作决策的影响情况来进行压缩控制,降低信息压缩对驾驶操作体验感的影响,提高驾驶模拟场景图像的加载速度,避免场景图像加载滞后情况的发生。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.用于驾驶模拟器的图像数据快速载入方法,其特征在于,所述方法包括:
构建数据集,所述数据集中包含大量历史驾驶模拟过程中的场景图像,每个场景图像的标签数据为历史驾驶模拟过程中的驾驶数据;
构建目标神经网络并进行初始化,将数据集中的每两个相邻帧的场景图像依次输入到构建的目标神经网络中得到两个第一遮罩图、两个第一单通道特征图、一个第一关系遮罩图和两个输出数据;
根据两个第一单通道特征图、一个第一关系遮罩图和两个输出数据构建出综合损失函数;
利用数据集并根据综合损失函数对目标神经网络进行训练得到训练完成的目标神经网络;
将每两个相邻帧的场景图像依次输入到训练完成的目标神经网络中分别重新得到两个第一遮罩图和一个第一关系遮罩图,根据重新得到的每个场景图像的第一遮罩图、第一关系遮罩图和两个场景图像的两个标签数据得到每个场景图像的关注度图;
获取场景图像每个像素的梯度向量,将场景图像所有像素点梯度向量构成的图像作为场景梯度图,将场景梯度图像拆分成行方向梯度图像和列方向梯度图像,将行、列方向梯度图像分别与关注度图对应像素相乘得到行、列方向加权梯度图;
根据行、列方向加权梯度图对每个场景图像进行图像块划分得到每张场景图像的压缩图像块集合,利用每张图像的压缩图像块集合完成每张图像压缩处理;
其中,根据两个第一单通道特征图、一个第一关系遮罩图和两个输出数据构建出综合损失函数的方法为:每个输出数据和每个场景图像的标签数据构建出每个场景图像的交叉熵损失函数;根据两个第一单通道特征图与第一关系遮罩图构建出第一损失函数;将两个场景图像的交叉熵损失函数加和得到两个场景图像的综合交叉熵损失函数,将两个场景图像的综合交叉熵损失函数与第一损失函数加和得到综合损失函数;
其中,根据两个第一单通道特征图与第一关系遮罩图构建出第一损失函数的方法为:将两个第一通道特征图对应像素相减得到差值特征图,将差值特征图与第一关系遮罩图对应像素相乘得到遮罩差值特征图;将遮罩差值特征图进行池化处理得到描述向量;将两个相邻帧的场景图像的标签数据相减得到标签差值,所述标签差值视为一个向量,根据标签差值和描述向量构建第一损失函数公式为:
Figure 390347DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
表示描述向量,
Figure 825264DEST_PATH_IMAGE004
表示标签差值,
Figure DEST_PATH_IMAGE005
表示描述向量与标签差值相关系数,
Figure 480367DEST_PATH_IMAGE006
表示第一损失函数。
2.根据权利要求1所述的用于驾驶模拟器的图像数据快速载入方法,其特征在于,所述根据重新得到的每个场景图像的第一遮罩图、第一关系遮罩图和两个场景图像的两个标签数据得到每个场景图像的关注度图的方法,包括:
将第一遮罩图和第一关系遮罩图进行上采样得到第二遮罩图和第二关系遮罩图,将两个标签数据相减得到标签差值数据,进而得到标签差值数据的模长,将第二关系遮罩图各像素分别乘以标签差值数据的模长得到第三关系遮罩图,将第三关系遮罩图与第二遮罩图对应像素相加得到关注度图。
3.根据权利要求1所述的用于驾驶模拟器的图像数据快速载入方法,其特征在于,所述根据行、列方向加权梯度图对每个场景图像进行图像块划分得到每张场景图像的压缩图像块集合的方法,包括:
将行方向加权梯度图的每行像素值累加得到每行的行梯度,将列方向加权梯度图的每列像素累加得到每列的列梯度;
根据所有行的行梯度累加和得到图像块划分行阈值,从行方向加权梯度图的第一行出发,向行数增加方向的下一行移动,将所通过的每行的行梯度累加得到第一行梯度和,每进行一次累加就将第一行梯度和图像块划分行阈值进行一次比较,当第一行梯度大于图像块划分行阈值时停止移动,第一行至最后移动位置对应的行数划分为第一图像块,将最后移动位置对应的行数至最后一行划分为第二图像块;
获取与每个图像块对应像素区域的列方向加权梯度图像块,根据列方向加权梯度图像块所有列的列梯度累加和得到图像块划分列阈值,从列方向加权梯度图像块第一列出发,向列增加方向的下一列移动,将所通过的每列的列梯度累加得到第一列梯度和,每进行一次累加就将第一列梯度和图像块划分列阈值进行一次比较,当第一列梯度大于图像块划分列阈值时停止移动,将列方向加权梯度图像块的第一列至最后移动位置对应的列数划分为第三图像块,将最后移动位置对应的列数至最后一列划分为第四图像块;
将划分得到的所有图像块构成的集合称为图像块集合,计算图像块集合中每个图像块的损失值,将每个图像块损失值与预设的压缩损失精度阈值比较,当每个图像块损失值均小于预设压缩精度阈值时,停止图像块划分;当有些图像块大于预设的压缩损失精度阈值时,继续对所述图像块进行划分直至每个图像块均小于预设的压缩损失精度阈值,获取每个图像块均满足预设的压缩损失阈值时划分得到的所有图像块,所述图像块构成的集合为压缩图像块集合。
4.根据权利要求1所述的用于驾驶模拟器的图像数据快速载入方法,其特征在于,所述利用每个场景图像的压缩图像块集合完成每个图像压缩处理的方法,包括:
获取与每个压缩图像块对应像素区域的场景图像压缩图像块,获取每个场景图像压缩图像块的像素值均值作为每个场景图像压缩图像块的压缩数据,所有场景图像压缩图像块的压缩数据构成整个场景图像的压缩数据。
CN202211206904.0A 2022-09-30 2022-09-30 用于驾驶模拟器的图像数据快速载入方法 Active CN115294224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211206904.0A CN115294224B (zh) 2022-09-30 2022-09-30 用于驾驶模拟器的图像数据快速载入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211206904.0A CN115294224B (zh) 2022-09-30 2022-09-30 用于驾驶模拟器的图像数据快速载入方法

Publications (2)

Publication Number Publication Date
CN115294224A CN115294224A (zh) 2022-11-04
CN115294224B true CN115294224B (zh) 2022-12-16

Family

ID=83833959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211206904.0A Active CN115294224B (zh) 2022-09-30 2022-09-30 用于驾驶模拟器的图像数据快速载入方法

Country Status (1)

Country Link
CN (1) CN115294224B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219976A (zh) * 2021-11-04 2022-03-22 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备、存储介质及计算机产品
CN115211115A (zh) * 2020-03-03 2022-10-18 高通股份有限公司 使用基于循环的机器学习系统的视频压缩

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242449B2 (en) * 2017-01-04 2019-03-26 Cisco Technology, Inc. Automated generation of pre-labeled training data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115211115A (zh) * 2020-03-03 2022-10-18 高通股份有限公司 使用基于循环的机器学习系统的视频压缩
CN114219976A (zh) * 2021-11-04 2022-03-22 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备、存储介质及计算机产品

Also Published As

Publication number Publication date
CN115294224A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN111667051B (zh) 适用边缘设备的神经网络加速器及神经网络加速计算方法
US20220012593A1 (en) Neural network accelerator and neural network acceleration method based on structured pruning and low-bit quantization
CN107316066B (zh) 基于多通路卷积神经网络的图像分类方法及系统
US20200210843A1 (en) Training and application method of a multi-layer neural network model, apparatus and storage medium
CN107832839A (zh) 执行卷积神经网络中的运算的方法和装置
CN110659664B (zh) 一种基于ssd的高精度识别小物体的方法
CN115063445B (zh) 基于多尺度层次化特征表示的目标跟踪方法与系统
CN112862689B (zh) 一种图像超分辨率重建方法及系统
CN112001225B (zh) 一种在线多目标跟踪方法、系统及应用
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113592026A (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法
CN107967516A (zh) 一种基于迹范数约束的神经网络的加速与压缩方法
CN113469072B (zh) 基于GSoP和孪生融合网络的遥感图像变化检测方法及系统
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN109146065B (zh) 二维数据的卷积运算方法及装置
CN112001294A (zh) 一种基于yolact++的车身表面损伤检测及掩膜生成方法和存储设备
CN111709984B (zh) 位姿深度预测方法、视觉里程计方法、装置、设备及介质
CN112541972B (zh) 一种视点图像处理方法及相关设备
CN115661767A (zh) 一种基于卷积神经网络的图像前方车辆目标识别方法
CN115294224B (zh) 用于驾驶模拟器的图像数据快速载入方法
CN111368882B (zh) 一种基于简化独立成分分析和局部相似性的立体匹配方法
CN117011655A (zh) 基于自适应区域选择特征融合方法、目标跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant