CN114331848A

CN114331848A - 视频图像拼接方法、装置及设备

Info

Publication number: CN114331848A
Application number: CN202111677340.4A
Authority: CN
Inventors: 戎思佳
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本申请涉及一种视频图像拼接方法、装置及设备。该视频图像拼接方法包括：根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例；根据所述画面比例和第二预设模型获得所述ROI在所述原始视频图像帧上的显示位置信息；根据所述画面比例以及所述显示位置信息，从所述原始视频图像帧裁剪得到目标ROI；将各个裁剪得到的所述目标ROI拼接成目标视频图像。本申请提供的方案，能够提升视频图像的拼接效果。

Description

视频图像拼接方法、装置及设备

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种视频图像拼接方法、装置及设备。

背景技术

随着自动驾驶技术的不断发展，车辆部署了越来越多不同功能的传感器，例如在车辆前后左右部署摄像头和/或各类型雷达等传感器。其中，雷达主要用于测量车辆与障碍物的距离，而摄像头则是用于采集车辆周边的场景图像。在远程驾驶中，车辆可以将传感器采集的视频图像发送给远程座舱，远程座舱可以将视频图像进行拼接处理。

相关技术中，在对图像进行拼接时，采用了传统的纯视觉图像拼接算法，通过异步更新拼接模型的方式来解决视频图像拼接方法中的实时性较低的问题。但是，相关技术的视频图像拼接处理方法，无法解决视差下的景深问题，拼接效果较差。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种视频图像拼接方法、装置及设备，能够提升视频图像的拼接效果。

本申请第一方面提供一种视频图像拼接方法，包括：

根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例；

根据所述画面比例和第二预设模型获得所述ROI在所述原始视频图像帧上的显示位置信息；

根据所述画面比例以及所述显示位置信息，从所述原始视频图像帧裁剪得到目标ROI；

将各个裁剪得到的所述目标ROI拼接成目标视频图像。

在一实施方式中，所述根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例，包括：将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例；

所述根据所述画面比例和第二预设模型获得所述ROI在所述原始视频图像帧上的显示位置信息，包括：将所述画面比例输入拟合模型，输出所述ROI在所述原始视频图像帧上的显示位置信息。

在一实施方式中，所述浅层神经网络模型采用以下方式训练得到：

采用训练集对所述浅层神经网络模型进行训练，得到所述预先训练的浅层神经网络模型，其中所述训练集包括标注画面比例和训练用雷达测距数据，所述标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例。

在一实施方式中，所述训练集按以下方式获得：

从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据；

根据画面连续原则，从所述训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI；

根据所述标注训练用ROI与训练用视频图像帧进行对比，得到所述标注画面比例；

将所述训练用雷达测距数据与所述标注画面比例保存作为训练集。

在一实施方式中，所述拟合模型采用以下方式得到：

将所述标注训练用ROI在所述训练用视频图像帧上的标注显示位置和所述标注画面比例进行拟合处理，得到所述拟合模型。

在一实施方式中，所述将所述标注训练用ROI在所述训练用视频图像帧上的标注显示位置和所述标注画面比例进行拟合，得到所述拟合模型，包括：

将各个所述标注画面比例作为已知量输入以目标显示位置为未知量的目标拟合方程，迭代求解所述目标显示位置，其中所述目标拟合方程包括多项式拟合系数；

当所述目标显示位置与所述标注训练用ROI在所述训练用视频图像帧上的标注显示位置之间的偏差小于预设阈值时，确定对应的多项式拟合系数取值为目标拟合系数取值，以所述目标拟合系数取值确定的目标拟合方程作为拟合模型。

本申请第二方面提供一种视频图像拼接装置，包括：

第一输出模块，用于根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例；

第二输出模块，用于根据所述画面比例和第二预设模型获得所述ROI在所述原始视频图像帧上的显示位置信息；

目标区域模块，用于根据所述第一输出模块得到的画面比例以及所述第二输出模块得到的显示位置信息，从所述原始视频图像帧裁剪得到目标ROI；

拼接模块，用于将目标区域模块中各个裁剪得到的所述目标ROI拼接成目标视频图像。

在一实施方式中，所述第一输出模块将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例；

所述第二输出模块将所述画面比例输入拟合模型，输出所述ROI在所述原始视频图像帧上的显示位置信息。

在一实施方式中，所述装置还包括：

模型训练模块，用于采用训练集对所述浅层神经网络模型进行训练，得到所述预先训练的浅层神经网络模型，其中所述训练集包括标注画面比例和训练用雷达测距数据，所述标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例。

本申请第三方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：

本申请是采用车载雷达测距数据作为数据输入量，车载雷达测距数据的数据量本身较小，输入预设模型的计算量也比较小，另外车载雷达测距数据也可以反映出视频图像的景深不同，因此根据感兴趣区域ROI与原始视频图像帧的画面比例以及ROI在所述原始视频图像帧上的显示位置信息所得到的目标ROI可以使得后续拼接的画面更连续，使得根据目标ROI拼接成的目标视频图像的画面显示效果更好，从而提升了视频图像的拼接效果。

进一步的，本申请是将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例，及将所述画面比例输入拟合模型，输出所述ROI在所述原始视频图像帧上的显示位置信息。由于浅层神经网络模型的层数本身较少，相对于深度神经网络而言，浅层神经网络模型的运算过程要简单很多，因此，计算速度较快；而拟合模型属于传统的数学模型，在输出ROI在原始视频图像帧上的显示位置信息时也可迅速完成。因此，本申请的技术方案能够满足视频拼接对实时性高的要求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的视频图像拼接方法的流程示意图；

图2是本申请实施例示出的视频图像拼接方法的另一流程示意图；

图3是本申请实施例示出的视频图像拼接方法的另一流程示意图；

图4是本申请实施例示出的视频图像拼接方法中对模型进行训练的流程示意图；

图5是本申请实施例示出的视频图像拼接方法中对模型进行应用的流程示意图；

图6是本申请实施例示出的视频图像拼接装置的结构示意图；

图7是本申请实施例示出的视频图像拼接装置的另一结构示意图；

图8是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术的视频图像拼接处理方法，无法解决视差下的景深问题，拼接效果较差。针对上述问题，本申请实施例提供一种视频图像拼接方法，能够提升视频图像的拼接效果。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请实施例示出的视频图像拼接方法的流程示意图。

参见图1，该方法包括：

S101、根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例。

该步骤中，可以将车载雷达测距数据输入预先训练的浅层神经网络模型，输出ROI(Region Of Interest，感兴趣区域)与原始视频图像帧的画面比例。

其中，浅层神经网络模型采用以下方式训练得到：采用训练集对浅层神经网络模型进行训练，得到预先训练的浅层神经网络模型，其中训练集包括标注画面比例和训练用雷达测距数据，标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例。

其中，训练集可以按以下方式获得：从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据；根据画面连续原则，从训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI；根据标注训练用ROI与训练用视频图像帧进行对比，得到标注画面比例；将训练用雷达测距数据与标注画面比例保存作为训练集。

S102、根据画面比例和第二预设模型获得ROI在原始视频图像帧上的显示位置信息。

该步骤中，可以将画面比例输入拟合模型，输出ROI在原始视频图像帧上的显示位置信息。

其中，拟合模型采用以下方式得到：将标注训练用ROI在训练用视频图像帧上的标注显示位置和标注画面比例进行拟合处理，得到拟合模型。

例如，可以将各个标注画面比例作为已知量输入以目标显示位置为未知量的目标拟合方程，迭代求解目标显示位置，其中目标拟合方程包括多项式拟合系数；当目标显示位置与标注训练用ROI在训练用视频图像帧上的标注显示位置之间的偏差小于预设阈值时，确定对应的多项式拟合系数取值为目标拟合系数取值，以目标拟合系数取值确定的目标拟合方程作为拟合模型。

S103、根据画面比例以及显示位置信息，从原始视频图像帧裁剪得到目标ROI。

由于原始视频图像帧的画面尺寸已知或者固定，当ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息确定后，则可以很方便地从原始视频图像帧裁剪得到目标ROR也即最终的ROI。

S104、将各个裁剪得到的目标ROI拼接成目标视频图像。

得到目标ROR也即最终的ROI后，在后续需要进行视频图像拼接时，利用目标ROI进行拼接，可以使得拼接的视频图像的画面更连续，拼接效果更好。

从该实施例可以看出，本申请是采用车载雷达测距数据作为数据输入量，车载雷达测距数据的数据量本身较小，输入预设模型的计算量也比较小，另外车载雷达测距数据也可以反映出视频图像的景深不同，因此根据感兴趣区域ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息所得到的目标ROI可以使得后续拼接的画面更连续，使得根据目标ROI拼接成的目标视频图像的画面显示效果更好，从而提升了视频图像的拼接效果。

图2是本申请实施例示出的视频图像拼接方法的另一流程示意图。

参见图2，该方法包括：

S201、将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例。

其中，原始视频图像帧为车载摄像头采集的车辆行驶环境视频图像帧。

在本申请实施例中，车载雷达可以是超声波雷达或毫米波雷达等，其可以部署在车辆四周，而数量可以根据实际需求部署，例如可以部署12个超声波雷达。车载雷达测距数据主要包含车载雷达实时测得的目标或者障碍物与车辆之间的距离信息，该距离信息可以对应于车载摄像头在与车载雷达采集测距数据相同时刻拍摄的车辆行驶环境视频图像帧的图像景深。因此，车载雷达测距数据也可以反映出视频图像的景深不同。

感兴趣区域(Region Of Interest，ROI)即在分析、处理图像时，图像上被重点关注的区域，该区域可能是目标或者障碍物在图像上的位置。在机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，被称为感兴趣区域。ROI的典型形状可以为矩形或其他形状。在ROI为矩形时，ROI与原始视频图像帧的画面比例包括ROI的长度与原始视频图像帧的画面长度之比以及ROI的宽度与原始视频图像帧的画面宽度之比。

浅层神经网络模型可以是仅包含输入层、一个隐藏层和输出层的基础神经网络模型，各层均采用sigmoid(S型函数)作为激活函数。sigmoid函数用于隐层神经元输出，取值范围为(0，1)，它可以将一个实数映射到(0，1)的区间，可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。由于浅层神经网络模型的层数本身较少，相对于深度神经网络而言，浅层神经网络模型的运算过程要简单很多，因此，计算速度较快，可以更好满足高实时性要求。

本申请可以采用训练集对浅层神经网络模型进行训练，得到预先训练的浅层神经网络模型。其中，训练集包括标注画面比例和训练用雷达测距数据，其中，标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例，标注显示位置为标注训练用ROI在训练用视频图像帧上的标注显示位置。其中，训练集可以按以下方式获得：从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据；根据画面连续原则，从训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI；根据标注训练用ROI与训练用视频图像帧进行对比，得到标注画面比例；将训练用雷达测距数据与标注画面比例保存作为训练集。

S202、将ROI与原始视频图像帧的画面比例输入拟合模型，输出ROI在原始视频图像帧上的显示位置信息。

在本申请实施例中，拟合模型的作用在于当输入ROI与原始视频图像帧的画面比例时，可以输出ROI在原始视频图像帧上的显示位置信息。

与浅层神经网络模型在应用之前预先训练类似，此处的拟合模型也可以是经过拟合处理得到的数学模型。本申请可以将标注训练用ROI在训练用视频图像帧上的标注显示位置和标注画面比例进行拟合处理，得到拟合模型。

例如，将各个标注画面比例作为已知量输入以目标显示位置为未知量的目标拟合方程，迭代求解目标显示位置，其中目标拟合方程包括多项式拟合系数；当目标显示位置与标注训练用ROI在训练用视频图像帧上的标注显示位置之间的偏差小于预设阈值时，确定对应的多项式拟合系数取值为目标拟合系数取值，以所述目标拟合系数取值确定的目标拟合方程作为拟合模型。

S203、根据ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息，从原始视频图像帧裁剪得到目标ROI。

S204、将各个裁剪得到的目标ROI拼接成目标视频图像帧。

上述过程所得到的目标ROI，可能是来自同一摄像头或者不同摄像头(例如，前方的摄像头和左侧的摄像头或右侧的摄像头)的原始视频图像帧，在拼接这些目标ROI时，可以是以其中一个摄像头，例如车前正方的摄像头采集的原始视频图像帧或者以质量较好的视频图像帧的目标ROI为基准。

其中，将各个裁剪得到的目标ROI拼接成目标视频图像帧可以利用已有的拼接处理方式实现，例如根据视频图像帧对应的位姿或拍摄时间等参考因素等进行拼接，本申请在此不加以限定。

从该实施例可以看出，本申请是将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例，及将画面比例输入拟合模型，输出ROI在原始视频图像帧上的显示位置信息。由于浅层神经网络模型的层数本身较少，相对于深度神经网络而言，浅层神经网络模型的运算过程要简单很多，因此，计算速度较快；而拟合模型属于传统的数学模型，在输出ROI在原始视频图像帧上的显示位置信息时也可迅速完成。因此，本申请的技术方案能够满足视频拼接对实时性高的要求。

图3是本申请实施例示出的视频图像拼接方法的另一流程示意图。图3相对于图1和图2更详细描述了本申请方案。

参见图3，该方法包括：

S301、采集车载雷达测距数据和摄像头的视频图像帧并进行预处理。

本申请中，可以当行驶车辆周边有物体进入超声波雷达有效范围内时，每隔设定时间例如5s记录当前所有摄像头的视频图像帧数据和车载雷达测距数据，并保存。

需要说明的是，为了方便训练浅层神经网络模型处理并进一步降低计算量，在本申请实施例中，可以对车载雷达测距数据进行预处理。该预处理例如包括进行数据清洗(例如，清除脏点数据即明显不符合要求的测距数据)和数据的归一化(normalization)等；归一化后的车载雷达测距数据对研究人员而言更加直观、方便。

S302、对浅层神经网络模型进行预先进行训练，得到训练后的浅层神经网络模型，对拟合模型进行拟合处理，得到处理后的拟合模型。

该步骤的处理过程可以参见图4所示，图4是本申请实施例示出的视频图像拼接方法中对模型进行训练的流程示意图。

本申请可以采用训练集对浅层神经网络模型进行训练，得到预先训练的浅层神经网络模型。训练集可以按以下方式获得：从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据；根据画面连续原则，从训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI；根据标注训练用ROI与训练用视频图像帧进行对比，得到标注画面比例；将训练用雷达测距数据与标注画面比例保存作为训练集。

具体的，以下通过步骤S1至步骤S4说明获取训练集的过程。

步骤S1：从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据。

从采集的雷达测距数据中，可以选取第一设定数量数据作为训练用雷达测距数据，选择第二设定数量数据作为测试用雷达测距数据，选择第三设定数量数据作为验证用雷达测距数据。例如，从采集的雷达测距数据中，随机选择的50％作为训练用雷达测距数据，其他的用作对训练之后的浅层神经网络模型进行测试或验证。其中，选取的训练用雷达测距数据例如可以是车辆前向6个超声波雷达的雷达测距数据。

雷达测距数据实时测得目标或者障碍物与车辆之间的距离信息，该距离信息可以对应于车载摄像头在与该车载雷达采集测距数据相同时刻拍摄的车辆行驶环境视频图像帧的图像景深。

步骤S2：根据画面连续原则，从训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI。

具体地，可以在训练用视频图像帧中选择区域进行拉伸或收缩，当发现与上一帧训练用视频图像帧画面连续时停止操作，则此时得到的区域为标注训练用ROI，此时标注训练用ROI的画面长度为标注长度，画面宽度为标注宽度。例如，若判断两者的像素没有明显跳变，则可以确定画面连续。

步骤S3：根据标注训练用ROI与训练用视频图像帧进行对比，得到标注画面比例。

该步骤将标注训练用ROI与训练用视频图像帧进行对比，就可以得到标注画面比例。在标注训练用ROI为矩形时，标注画面比例包括ROI的标注长度与原始视频图像帧的画面长度之比以及ROI的标注宽度与原始视频图像帧的画面宽度之比。

步骤S4：将训练用雷达测距数据与标注画面比例保存作为训练集。

将训练用雷达测距数据与标注画面比例保存作为训练集，后续将训练用雷达测距数据以及与其对应的标注画面比例输入训练浅层神经网络模型，完成对浅层神经网络模型的训练。

其中，对拟合模型进行拟合处理，得到处理后的拟合模型的实现方式可以包括：

将各个标注画面比例作为已知量输入以目标显示位置为未知量的目标拟合方程，迭代求解目标显示位置，其中目标拟合方程包括多项式拟合系数；

当目标显示位置与标注训练用ROI在训练用视频图像帧上的标注显示位置之间的偏差小于预设阈值时，确定对应的多项式拟合系数取值为目标拟合系数取值，以所述目标拟合系数取值确定的目标拟合方程作为拟合模型。预设阈值例如可以为0.05但不局限于此。

上述实施例中，标注显示位置为拟合过程中的真实值，目标显示位置为拟合过程中的预测值，偏差可以是目标显示位置与标注显示位置之间的均方误差(Mean SquareError，MSE)或者均方根误差(Root Mean Square Error，RMSE)，目标拟合方程可以是线性方程，亦可以是非线性方程。此外需要说明的是，当目标显示位置与标注显示位置之间的偏差小于该预设阈值时，即可认为此时目标显示位置与标注显示位置之间的偏差最小。

例如，假设标注画面比例也即比例数据(k)和标注显示位置也即位置数据(x，y)线性相关，目标拟合方程可以举例如下但不局限于此：

x＝a+bk+ck^2+dk^3+ek^4+fk^5+gk^6

y＝h+ik+jk^2+lk^3+mk^4+nk^5+pk^6

其中，第一个多项式方程中的a、b、c、d、e、f、g和第二个多项式方程中的h、i、j、l、m、n、p为多项式拟合系数。

所谓拟合，就是将平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种拟合方法。拟合的曲线一般可以用函数表示，根据这个函数的不同有不同的拟合名字。常用的拟合方法例如包括最小二乘曲线拟合法等，在MATLAB(一种数学软件)工具中也可以用polyfit函数来拟合多项式。polyfit函数是基于最小二乘法。上述多项式方程中，每个公式只要有七组及以上非线性数据即可有解，也即利用MATLAB中的polyfit函数进行拟合处理，就可以得到位置数据(x，y)与真实值(标注显示位置)最接近时所对应的多项式拟合系数的取值，则可以将此时对应的多项式拟合系数取值作为目标拟合系数取值，以该目标拟合系数取值所确定的目标拟合方程作为拟合模型。

需说明的是，在MATLAB中采用polyfit函数来拟合多项式的具体过程可以按已有技术实现，本申请在此不加以限定。另外，上述方程多项式以七项式为例说明但不局限于此。

S303、将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例。

浅层神经网络模型可以是仅包含输入层、一个隐藏层和输出层的基础神经网络模型，各层均采用sigmoid(S型函数)作为激活函数。由于浅层神经网络模型的层数本身较少，相对于深度神经网络而言，浅层神经网络模型的运算过程要简单很多，因此，计算速度较快，可以更好满足高实时性要求。

该步骤可以将车载雷达测距数据输入预先训练的浅层神经网络模型进行运算处理，输出感兴趣区域ROI与原始视频图像帧的画面比例。该步骤的描述可以参见步骤S201中的描述，此处不再赘述。

S304、将ROI与原始视频图像帧的画面比例输入拟合模型，输出ROI在原始视频图像帧上的显示位置信息。

该步骤中，将ROI与原始视频图像帧的画面比例输入拟合模型进行拟合运算，可以输出ROI在原始视频图像帧上的显示位置信息。

S305、根据ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息，从原始视频图像帧裁剪得到目标ROI。

其中，上述步骤S303至S305的过程可以同时参见图5所示，图5是本申请实施例示出的视频图像拼接方法中对模型进行应用的流程示意图。

S306、将各个裁剪得到的目标ROI拼接成目标视频图像帧。

从该实施例可以看出，本申请采用车载雷达测距数据作为数据输入量，车载雷达测距数据的数据量本身较小，输入预设模型的计算量也比较小，车载雷达测距数据也可以反映出视频图像的景深不同；另外，本申请也采用浅层神经网络模型的运算，由于浅层神经网络模型的层数本身较少，相对于深度神经网络而言，浅层神经网络模型的运算过程要简单很多，运算速度快。因此，本申请的技术方案能够满足视频拼接对实时性高的要求，也能使得根据目标ROI拼接成的目标视频图像的画面显示效果更好，从而提升了视频图像的拼接效果。

与前述应用功能实现方法实施例相对应，本申请还提供了一种视频图像拼接装置、电子设备及相应的实施例。

图6是本申请实施例示出的视频图像拼接装置的结构示意图。

参见图6，本申请提供的一种视频图像拼接装置60，包括：第一输出模块601、第二输出模块602、目标区域模块603、拼接模块604。

第一输出模块601，用于根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例。其中，第一预设模型可以是浅层神经网络模型，其中，浅层神经网络模型采用以下方式训练得到：采用训练集对浅层神经网络模型进行训练，得到预先训练的浅层神经网络模型，其中训练集包括标注画面比例和训练用雷达测距数据，标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例。

第二输出模块602，用于根据画面比例和第二预设模型获得ROI在原始视频图像帧上的显示位置信息。其中，第二预设模型可以是拟合模型。拟合模型可以采用以下方式得到：将标注训练用ROI在训练用视频图像帧上的标注显示位置和标注画面比例进行拟合，得到拟合模型。

目标区域模块603，用于根据第一输出模块601得到的画面比例以及第二输出模块602得到的显示位置信息，从原始视频图像帧裁剪得到目标ROI。由于原始视频图像帧的画面尺寸已知或者固定，当ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息确定后，则目标区域模块603可以很方便地从原始视频图像帧裁剪得到目标ROR也即最终的ROI。

拼接模块604，用于将目标区域模块603中各个裁剪得到的目标ROI拼接成目标视频图像。利用目标ROI进行拼接，可以使得拼接的视频图像的画面更连续，拼接效果更好。

从该实施例可以看出，本申请提供的视频图像拼接装置，采用车载雷达测距数据作为数据输入量，车载雷达测距数据的数据量本身较小，输入预设模型的计算量也比较小，另外车载雷达测距数据也可以反映出视频图像的景深不同，因此根据感兴趣区域ROI与原始视频图像帧的画面比例以及ROI在原始视频图像帧上的显示位置信息所得到的目标ROI可以使得后续拼接的画面更连续，使得根据目标ROI拼接成的目标视频图像的画面显示效果更好，从而提升了视频图像的拼接效果。

图7是本申请实施例示出的视频图像拼接装置的另一结构示意图。

参见图7，本申请提供的一种视频图像拼接装置60，包括：第一输出模块601、第二输出模块602、目标区域模块603、拼接模块604、模型训练模块605、数据收集模块606。

第一输出模块601、第二输出模块602、目标区域模块603、拼接模块604的功能可以参见图6中的描述。

进一步的，第一输出模块601可以将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例。

第二输出模块602可以将画面比例输入拟合模型，输出ROI在原始视频图像帧上的显示位置信息。

模型训练模块605，用于采用训练集对浅层神经网络模型进行训练，得到预先训练的浅层神经网络模型，其中训练集包括标注画面比例和训练用雷达测距数据，标注画面比例为标注训练用ROI与训练用视频图像帧的画面比例。其中，训练集可以按以下方式获得：从采集的雷达测距数据中选取设定数量数据作为训练用雷达测距数据；根据画面连续原则，从训练用视频图像帧中标注出与上一帧训练用视频图像帧画面连续的ROI，得到标注训练用ROI；根据标注训练用ROI与训练用视频图像帧进行对比，得到标注画面比例；将训练用雷达测距数据与标注画面比例保存作为训练集。

模型训练模块605还可以将标注训练用ROI在训练用视频图像帧上的标注显示位置和标注画面比例进行拟合处理，得到拟合模型。例如，将各个标注画面比例作为已知量输入以目标显示位置为未知量的目标拟合方程，迭代求解目标显示位置，其中目标拟合方程包括多项式拟合系数；当目标显示位置与标注训练用ROI在训练用视频图像帧上的标注显示位置之间的偏差小于预设阈值时，确定对应的多项式拟合系数取值为目标拟合系数取值，以目标拟合系数取值确定的目标拟合方程作为拟合模型。

数据收集模块606，用于采集车载雷达测距数据和摄像头的视频图像帧并进行预处理。本申请中，可以当行驶车辆周边有物体进入超声波雷达有效范围内时，每隔设定时间例如5s记录当前所有摄像头的视频图像帧数据和车载雷达测距数据，并保存。为了方便训练浅层神经网络模型处理并进一步降低计算量，数据收集模块606还可以对车载雷达测距数据进行预处理。该预处理例如包括进行数据清洗(例如，清除脏点数据即明显不符合要求的测距数据)和数据的归一化(normalization)等；归一化后的车载雷达测距数据对研究人员而言更加直观、方便。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图8是本申请实施例示出的电子设备的结构示意图。

参见图8，电子设备800包括存储器810和处理器820。

处理器820可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器810可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820处理时，可以使处理器820执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质)，其上存储有可执行代码(或计算机程序或计算机指令代码)，当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种视频图像拼接方法，其特征在于，包括：

将各个裁剪得到的所述目标ROI拼接成目标视频图像。

2.根据权利要求1所述的方法，其特征在于：

所述根据车载雷达测距数据和第一预设模型获得感兴趣区域ROI与原始视频图像帧的画面比例，包括：将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例；

3.根据权利要求2所述的方法，其特征在于，所述浅层神经网络模型采用以下方式训练得到：

4.根据权利要求3所述的方法，其特征在于，所述训练集按以下方式获得：

5.根据权利要求2所述的方法，其特征在于，所述拟合模型采用以下方式得到：

6.根据权利要求5所述的方法，其特征在于，所述将所述标注训练用ROI在所述训练用视频图像帧上的标注显示位置和所述标注画面比例进行拟合处理，得到所述拟合模型，包括：

7.一种视频图像拼接装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于：

所述第一输出模块将车载雷达测距数据输入预先训练的浅层神经网络模型，输出感兴趣区域ROI与原始视频图像帧的画面比例；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任意一项所述的方法。

11.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任意一项所述的方法。