CN112836684B

CN112836684B - 基于辅助驾驶的目标尺度变化率计算方法、装置及设备

Info

Publication number: CN112836684B
Application number: CN202110255424.2A
Authority: CN
Inventors: 夏斯军; 刘晓东
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2023-03-10
Anticipated expiration: 2041-03-09
Also published as: CN112836684A

Abstract

本发明实施例提供了一种基于辅助驾驶的目标尺度变化率计算方法、装置及设备，方法包括：对三类特征点进行运算，得到预测模型的输入数据，利用预测模型对该输入数据进行处理，得到目标尺度变化率；预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，这样，训练得到的预测模型能够预测辅助驾驶场景中目标的瞬时尺度变化率，而不再是计算当前帧视频图像中的目标相对于上一帧视频图像中同一目标的尺寸变化率，提高了目标尺度变化率的准确度。

Description

基于辅助驾驶的目标尺度变化率计算方法、装置及设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于辅助驾驶的目标尺度变化率计算方法、装置及设备。

背景技术

目标尺度变化率，是指当前帧视频图像中的目标的尺寸变化率。目标尺度变化率可以应用于多种场景中，例如，在辅助驾驶场景中，可以根据目标尺度变化率计算目标的速度，再例如，在监控场景中，可以根据通过目标尺度变化率确定目标与监控设备的距离。

计算目标尺度变化率的方案一般包括：在第t-1帧图像中检测目标A，得到目标A的检测框，计算该检测框的尺寸，记为S1，再在第t帧图像中检测目标A，得到目标A的检测框，计算该检测框的尺寸，记为S2，计算S2/S1，该比值即为目标A的尺度变化率。

这种方案得到的目标尺度变化率，是当前帧视频图像中的目标相对于上一帧视频图像中同一目标的尺寸变化率，而不是目标的瞬时变化率。这种方案得到的目标尺度变化率准确度较低。

发明内容

本发明实施例的目的在于提供一种基于辅助驾驶的目标尺度变化率计算方法、装置及设备，以提高目标尺度变化率的准确度。

为达到上述目的，本发明实施例提供了一种基于辅助驾驶的目标尺度变化率计算方法，包括：

识别目标在当前帧图像中的特征点，作为第一特征点，所述当前帧图像为辅助驾驶场景中采集的图像；

通过对所述目标进行跟踪，在当前帧图像之后的图像中识别与所述第一特征点相匹配的特征点，作为第二特征点；

通过对所述目标进行反向跟踪，在当前帧图像中识别与所述第二特征点相匹配的特征点，作为第三特征点；

对所述第一特征点、所述第二特征点以及所述第三特征点进行运算，得到预测模型的输入数据；所述预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，所述样本数据的数据类型与所述输入数据的数据类型一致；

将所述输入数据输入至所述预测模型，得到所述预测模型输出的所述当前帧图像中的所述目标的瞬时尺度变化率。

可选的，所述方法还包括：

分别计算每两个第一特征点之间的距离，作为第一距离；

分别计算每两个第二特征点之间的距离，作为第二距离；

针对每两个第一特征点，确定与该两个第一特征点相匹配的两个第二特征点，计算所述相匹配的两个第二特征点之间的第二距离与该两个第一特征点之间的第一距离的比值；

所述对所述第一特征点、所述第二特征点以及所述第三特征点进行运算，得到预测模型的输入数据，包括：

将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、以及所述比值，转换为预测模型的输入数据。

可选的，所述方法还包括：

判断所述第二特征点与所述第三特征点之间的匹配程度是否大于第一预设阈值，如果大于，将第一标志位置为第一预设值，如果不大于，将所述第一标志位置为第二预设值；

所述将所述第一特征点与所述第三特征点之间的误差、以及所述第一特征点与所述第二特征点之间的匹配程度，转换为预测模型的输入数据，包括：

将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、以及所述第一标志位，转换为预测模型的输入数据。

可选的，所述方法还包括：

确定当前帧图像与当前帧图像之后的图像之间的间隔帧数；

所述将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、以及所述第一标志位，转换为预测模型的输入数据，包括：

将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、所述第一标志位、以及所述间隔帧数，转换为预测模型的输入数据。

可选的，所述将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、所述第一标志位、以及所述间隔帧数，转换为预测模型的输入数据，包括：

针对每两个第一特征点，将该两个第一特征点与其分别对应的第三特征点之间的误差求和，得到该两个第一特征点对应的误差之和；将该两个第一特征点与其分别匹配的第二特征点之间的匹配程度求和，得到该两个第一特征点对应的匹配程度之和；将该两个第一特征点分别对应的第一标志位进行逻辑与运算，得到该两个第一特征点对应的第二标志位；

将所述相匹配的两个第二特征点之间的第二距离与该两个第一特征点之间的第一距离的比值、该两个第一特征点对应的误差之和、两个第一特征点对应的匹配程度之和、该两个第一特征点对应的第二标志位、以及所述间隔帧数进行拼接，得到预测模型的输入数据。

可选的，所述通过对所述目标进行跟踪，在当前帧图像之后的图像中识别与所述第一特征点相匹配的特征点，作为第二特征点之后，还包括：

判断所述第一特征点与所述第二特征点之间的匹配程度是否大于第二预设阈值，如果大于，将所述第二特征点确定为有效第二特征点；

所述通过对所述目标进行反向跟踪，在当前帧图像中识别与所述第二特征点相匹配的特征点，作为第三特征点，包括：

通过对所述目标进行反向跟踪，在当前帧图像中识别与所述有效第二特征点相匹配的特征点，作为第三特征点。

为达到上述目的，本发明实施例还提供了一种基于辅助驾驶的目标尺度变化率计算装置，包括：

识别模块，用于识别目标在当前帧图像中的特征点，作为第一特征点，所述当前帧图像为辅助驾驶场景中采集的图像；

跟踪模块，用于通过对所述目标进行跟踪，在当前帧图像之后的图像中识别与所述第一特征点相匹配的特征点，作为第二特征点；

反向跟踪模块，用于通过对所述目标进行反向跟踪，在当前帧图像中识别与所述第二特征点相匹配的特征点，作为第三特征点；

运算模块，用于对所述第一特征点、所述第二特征点以及所述第三特征点进行运算，得到预测模型的输入数据；所述预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，所述样本数据的数据类型与所述输入数据的数据类型一致；

获得模块，用于将所述输入数据输入至所述预测模型，得到所述预测模型输出的所述当前帧图像中的所述目标的瞬时尺度变化率。

可选的，所述装置还包括：

第一计算模块，用于分别计算每两个第一特征点之间的距离，作为第一距离；

第二计算模块，用于分别计算每两个第二特征点之间的距离，作为第二距离；

第三计算模块，用于针对每两个第一特征点，确定与该两个第一特征点相匹配的两个第二特征点，计算所述相匹配的两个第二特征点之间的第二距离与该两个第一特征点之间的第一距离的比值；

所述运算模块，具体用于：

可选的，所述装置还包括：

第一判断模块，用于判断所述第二特征点与所述第三特征点之间的匹配程度是否大于第一预设阈值，如果大于，将第一标志位置为第一预设值，如果不大于，将所述第一标志位置为第二预设值；

所述运算模块，具体用于：

可选的，所述装置还包括：

确定模块，用于确定当前帧图像与当前帧图像之后的图像之间的间隔帧数；

所述运算模块，具体用于：

可选的，所述运算模块，具体用于：

可选的，所述装置还包括：

第二判断模块，用于判断所述第一特征点与所述第二特征点之间的匹配程度是否大于第二预设阈值，如果大于，将所述第二特征点确定为有效第二特征点；

所述反向跟踪模块，具体用于：通过对所述目标进行反向跟踪，在当前帧图像中识别与所述有效第二特征点相匹配的特征点，作为第三特征点。

为达到上述目的，本发明实施例还提供了一种电子设备，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任意一种基于辅助驾驶的目标尺度变化率计算方法。

应用本发明所示实施例，对三类特征点进行运算，得到预测模型的输入数据，利用预测模型对该输入数据进行处理，得到目标尺度变化率；第一方面，预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，这样，训练得到的预测模型能够预测辅助驾驶场景中目标的瞬时尺度变化率，而不再是计算当前帧视频图像中的目标相对于上一帧视频图像中同一目标的尺寸变化率，提高了目标尺度变化率的准确度；第二方面，三类特征点分别为：某帧图像中的第一特征点、当前帧图像之后的图像中与第一特征点相匹配的第二特征点、当前帧图像中与第二特征点相匹配的第三特征点，这三类特征点能够准确表达目标尺度变化率，对三类特征点进行运算后输入预测模型，得到辅助驾驶场景中准确的目标尺度变化率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于辅助驾驶的目标尺度变化率计算方法的第一种流程示意图；

图2为本发明实施例提供的一种正向跟踪及反向跟踪示意图；

图3为本发明实施例提供的基于辅助驾驶的目标尺度变化率计算方法的第二种流程示意图；

图4为本发明实施例提供的一种基于辅助驾驶的目标尺度变化率计算装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了达到上述目的，本发明实施例提供了一种基于辅助驾驶的目标尺度变化率计算方法、装置及设备，该方法及装置可以应用于各种电子设备，具体不做限定。下面首先对该基于辅助驾驶的目标尺度变化率计算方法进行详细介绍。以下方法实施例中的各个步骤按照合乎逻辑的顺序执行即可，步骤标号或者对各步骤进行介绍的先后顺序，并不对各步骤的执行顺序构成限定。

图1为本发明实施例提供的基于辅助驾驶的目标尺度变化率计算方法的第一种流程示意图，包括：

S101：识别目标在当前帧图像中的特征点，作为第一特征点，当前帧图像为辅助驾驶场景中采集的图像。

举例来说，目标可以为车辆、人员等等，具体不做限定。可以利用图像识别算法，识别当前帧图像中的目标的特征点，例如，如果目标为人员，可以利用人脸识别算法，识别当前帧图像中的人脸特征点，再例如，如果目标为车辆，可以利用车牌识别算法，识别当前帧图像中的车牌特征点，具体的图像识别算法不做限定。或者，也可以在一段视频的第一帧或者前若干帧图像中指定目标，然后利用目标跟踪算法，在后续每帧图像中识别目标的特征点。

辅助驾驶场景中，需要对当前帧图像进行实时处理，计算当前帧图像中的目标尺度变化率。一种情况下，可以将每一当前帧图像作为当前帧图像进行处理。为了方便描述，以下内容中，以第t-1帧图像作为当前帧图像进行举例说明，t为正整数，具体数值不做限定。

S102：通过对目标进行跟踪，在当前帧图像之后的图像中识别与第一特征点相匹配的特征点，作为第二特征点。

延续上述例子，假设当前帧图像为第t-1帧图像，当前帧图像之后的图像可以为第t帧图像，或者为第t+1帧图像，或者为第t+s帧图像，以下内容中以第t+s帧图像作为“当前帧图像之后的图像”进行举例说明，s为正整数，具体数值不做限定。

为了区分描述，将目标在第t-1帧图像中的特征点称为第一特征点，将目标在第t+s帧图像中的特征点称为第二特征点。举例来说，可以利用目标跟踪算法对目标进行跟踪，如Lucas-Kanade光流法(简称LK光流法)、mean-shift(均值漂移)算法等等，具体算法不做限定。

下面以LK光流法为例进行说明：

可以先对图像进行灰度化处理，得到灰度图像。对灰度图像进行金字塔下采样，如按照2倍、4倍、8倍、16倍的倍率进行下采样，可以采用双线性插值方法进行下采样，这样得到的下采样图像准确度较高。通过检测模型得到目标在图像中的检测框，例如可以通过匈牙利算法关联获取目标的队列信息，该队列信息中包括目标在各帧图像中的检测框信息。

根据该检测框信息，提取第t-1帧图像中的第一特征点记为pointA，通过LK光流法进行图像块匹配以及牛顿迭代法寻优，获取第t帧图像中与pointA相匹配的pointB的位置信息、以及pointA与pointB的匹配程度，该匹配程度可以表示为ncc(normalized crosscorrelation，归一化互相关)参数。可以利用如下算式1计算pointA与pointB之间的ncc参数：

其中，S表示第t-1帧图像中的图像块，g表示第t帧图像中的图像块，图像块的大小为m*n，(x_b，y_b)表示第t-1帧图像中的图像块中的第一特征点，(x_a，y_a)表示第t帧图像中的图像块中的第二特征点，

表示第t-1帧图像中各图像块的像素均值，

表示第t帧图像中各图像块的像素均值。

图像块的大小不做限定，一种情况下，可以以特征点为中心，选取13*13大小的区域作为一个图像块。

若上述ncc参数满足相应的条件，则表示pointA与pointB匹配成功。例如，若上述ncc参数大于预设阈值，则表示pointA与pointB匹配成功。

S103：通过对目标进行反向跟踪，在当前帧图像中识别与所述第二特征点相匹配的特征点，作为第三特征点。

反向跟踪可以理解为跟踪的逆过程。举例来说，可以利用同一种跟踪算法，从第t-1帧对目标进行跟踪至第t帧，这一过程称为跟踪，而从第t帧对目标进行跟踪至第t-1帧，这一过程称为反向跟踪。

具体跟踪算法上述内容已经介绍过，这里不再赘述。延续上述例子，将t-1帧图像中的第三特征点记为pointC，利用上述算式1计算pointB与pointC之间的ncc参数，若该ncc参数大于预设阈值，则表示pointB与pointC匹配成功。

一种实施方式中，S102之后可以直接执行S103。

或者，另一种实施方式中，S102之后，可以判断所述第一特征点与所述第二特征点之间的匹配程度是否大于第二预设阈值，如果大于，将所述第二特征点确定为有效第二特征点；本实施方式中，S103包括：通过对所述目标进行反向跟踪，在当前帧图像中识别与所述有效第二特征点相匹配的特征点，作为第三特征点。

若第一特征点与第二特征点之间的匹配程度不大于第二预设阈值，则表示对该第一特征点跟踪失败，跟踪得到的第二特征点偏差较大，不再识别与该第二特征点相匹配的特征点，这样节省了计算资源，提高了跟踪准确度。

举例来说，可以设定第一特征点对应的标记为state2，如果第一特征点与相应的第二特征点之间的匹配程度大于第二预设阈值，则将state2置为1，否则置为0。仅在state2为1的情况下，识别与该第二特征点相匹配的特征点，作为第三特征点。

S104：对第一特征点、第二特征点以及第三特征点进行运算，得到预测模型的输入数据。

预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，所述样本数据的数据类型与所述输入数据的数据类型一致。后续内容中对该数据类型进行详细介绍。

神经网络与预测模型的结构相同，训练过程只是对神经网络中的网络参数进行调整。举例来说，可以采用CNN(Convolutional Neural Networks，卷积神经网络)，一种情况下，该神经网络的结构可以如下表1所示：

表1

Layer(层)	Filters(过滤器)	Size/Stride(尺寸/步长)	Output(输出)
				Input(输入)			240×136×5
Conv1(卷积层1)	64	3×3/1	240×136×64
				Conv2(卷积层2)	128	5×5/2	120×68×128
FC(全连接层)			1×64
				FC(全连接层)			1×1

如上述表1所示，神经网络与预测模型中可以包括Input(输入)层、Conv(卷积)层、FC(Fully connected，全连接)层，Conv1中可以包含64个Filters(过滤器)，Conv1的尺寸/步长可以为3×3/1，Conv2中可以包含128个Filters(过滤器)，Conv2的尺寸/步长可以为5×5/2，Input(输入)层的输出数据的维度为240×136×5，Conv1层的输出数据的维度为240×136×64，Conv2层的输出数据的维度为120×68×128，第一个FC层的输出数据的维度为1×64，第二个FC层的输出数据的维度为1×1。

上述神经网络的结构仅为举例说明，并不对神经网络的实际结构构成限定。

样本数据对应的瞬时尺度变化率可以理解为样本数据中的目标的瞬时尺度变化率的真值，样本数据对应的瞬时尺度变化率的获得方式有多种：

一种情况下，可以获取一段样本视频，计算该样本视频中每两个相邻帧之间的目标尺度变化率，例如，计算第一帧图像中目标的检测框的尺寸，记为S1，计算第二帧图像中目标的检测框的尺寸，记为S2，计算第三帧图像中目标的检测框的尺寸，记为S3……以此类推，以时间为横轴、以尺寸为纵轴构建坐标系，在该坐标系中根据S1、S2……绘制尺寸曲线，该曲线的斜率即为相应时刻的瞬时变化率。

另一种情况下，辅助驾驶场景中，假设本方案的执行主体为车载设备，假设样本数据为车载设备采集的视频数据，则可以利用如下算式，计算样本数据对应的瞬时尺度变化率：

瞬时尺度变化率＝v*t/d+1；其中，v表示该车载设备相对于目标的相对瞬时速度，v的单位为m/s，d表示该车载设备相对于目标的瞬时距离，d的单位为m，t表示间隔时间，t的单位为s。

下面对输入数据的数据类型进行介绍：

一种实施方式中，可以分别计算每两个第一特征点之间的距离，作为第一距离；分别计算每两个第二特征点之间的距离，作为第二距离；针对每两个第一特征点，确定与该两个第一特征点相匹配的两个第二特征点，计算所述相匹配的两个第二特征点之间的第二距离与该两个第一特征点之间的第一距离的比值；这种实施方式中，S104可以包括：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、以及所述比值，转换为预测模型的输入数据。

举例来说，第一特征点的数量可以为16*16，可以均匀取点也可取角点，如果角点不足16*16，可以插值填充，第一特征点的具体数量不做限定。分别计算每两个第一特征点之间的距离，该距离可以为欧氏距离，或者也可以为马氏距离，具体的距离类型不做限定。将每两个第一特征点之间的距离记为distanceA，取16*16＝256个第一特征点，两两计算总共得到256*255/2＝32640个distanceA。

分别计算每两个第二特征点之间的距离，记为distanceB，distanceB与distanceA类型一致。类似的，每个第一特征点均存在与其相匹配的第二特征点，第二特征点的数量也为16*16＝256，两两计算总共得到256*255/2＝32640个distanceB。确定相匹配的distanceA和distanceB。举例来说，假设第一特征点A1与第二特征点B1相匹配，第一特征点A2与第二特征点B2相匹配，则第一特征点A1与第一特征点A2之间的distanceA，与第二特征点B1与第二特征点B2之间的distanceB相匹配。一种情况下，可以按照相同的顺序，计算每两个第一特征点之间的距离distanceA、以及计算每两个第二特征点之间的距离distanceB，这样，可以按照该顺序直接确定出相匹配的distanceA和distanceB。

针对每对相匹配的distanceA和distanceB，计算distanceB/distanceA，记为scale，scale的维度为32640*1。

参考图2所示，假设第t-1帧中的第一特征点A，确定第t帧中的第二特征点B为A的后向轨迹，确定第t-1帧中的第三特征点C为B的前向轨迹，计算A与C之间的误差error，该误差error大于等于0。上述例子中，取16*16＝256个第一特征点，error的维度为256*1。

匹配程度可以表示为ncc参数，上述内容中已经介绍过，可以利用上述算式1计算第一特征点与第二特征点之间的ncc参数。上述例子中，取16*16＝256个第一特征点，ncc参数的维度为256*1。

将上述scale、error和ncc参数进行拼接，scale的维度为32640*1，error的维度为256*1，ncc参数的维度为256*1，scale是基于任意两个第一特征点(或者说任意两个第二特征点)之间的距离计算得到的，可以确定任意两个第一特征点对应的ncc参数，记为scale_ncc，确定任意两个第一特征点对应的error，记为scale_error，scale_ncc和scale_error的维度与scale的维度相同，均为32640*1。上述每个scale对应两个第一特征点(scale＝distanceB/distanceA，distanceA为两个第一特征点之间的距离)，每个scale_ncc对应两个第一特征点的ncc参数，一种情况下，可以将该两个第一特征点的ncc参数求和，将得到的和作为scale_ncc，每个scale_error对应两个第一特征点的error，一种情况下，可以将该两个第一特征点的error参数求和，将得到的和作为scale_error。这样，输入数据包括拼接后的scale、scale_ncc和scale_error，延续上述例子，输入数据的维度可以为32640*3。

另一种实施方式中，还可以判断所述第二特征点与所述第三特征点之间的匹配程度是否大于第一预设阈值，如果大于，将第一标志位置为第一预设值，如果不大于，将所述第一标志位置为第二预设值。这种实施方式中，S104可以包括：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、以及所述第一标志位，转换为预测模型的输入数据。

参考上述内容，将t-1帧图像中的第三特征点记为pointC，利用上述算式1计算pointB与pointC之间的ncc参数，本实施方式中，若该ncc参数大于第一预设阈值，则将第一标志位state1置为第一预设值，第一预设值可以为1，若该ncc参数不大于第一预设阈值，则将第一标志位state1置为第二预设值，第二预设值可以为0。

延续上述例子，每个第一特征点均存在与其相匹配的第二特征点，第二特征点的数量也为16*16＝256，第一标志位state1的维度为256*1，scale是基于任意两个第二特征点之间的距离计算得到的，可以确定任意两个第二特征点对应的state1，记为scale_state1，scale_state1与scale的维度相同。上述每个scale对应两个第二特征点(scale＝distanceB/distanceA，distanceB为两个第二特征点之间的距离)，每个scale_state1也对应两个第二特征点的state1，一种情况下，可以将该两个第二特征点的state1进行逻辑与运算，将运算结果作为scale_state1。这样，输入数据包括拼接后的scale、scale_ncc、scale_error、scale_state1，延续上述例子，输入数据的维度可以为32640*4。

再一种实施方式中，还可以确定当前帧图像与当前帧图像之后的图像之间的间隔帧数；这种实施方式中，S104可以包括：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、所述第一标志位、以及所述间隔帧数，转换为预测模型的输入数据。

如上所述，假设当前帧图像为第t-1帧图像，当前帧图像之后的图像可以为第t帧图像，或者为第t+1帧图像，或者为第t+s帧图像，s为正整数，具体数值不做限定。如果当前帧图像为第t-1帧图像，当前帧图像之后的图像为第t帧图像，则间隔帧数为1，如果当前帧图像为第t-1帧图像，当前帧图像之后的图像为第t+s帧图像，则间隔帧数为s+1。

在上述例子的基础上，输入数据包括拼接后的scale、scale_ncc、scale_error、scale_state1和间隔帧数，输入数据的维度为32640*5。

一种实施方式中，可以针对每两个第一特征点，将该两个第一特征点与其分别对应的第三特征点之间的误差求和，得到该两个第一特征点对应的误差之和；将该两个第一特征点与其分别匹配的第二特征点之间的匹配程度求和，得到该两个第一特征点对应的匹配程度之和；将该两个第一特征点分别对应的第一标志位进行逻辑与运算，得到该两个第一特征点对应的第二标志位；

以两个第一特征点A1和A2为例来说，假设第一特征点A1与第二特征点B1相匹配，第二特征点B1与第三特征点C1相匹配，第一特征点A2与第二特征点B2相匹配，第二特征点B2与第三特征点C2相匹配。

将第一特征点A1与第三特征点C1之间的误差记为error1，将第一特征点A2与第三特征点C2之间的误差记为error2，对error1及error2求和，将得到的和记为error-sum。

将第一特征点A1与第二特征点B1的匹配程度记为ncc1，将第一特征点A2与第二特征点B2的匹配程度记为ncc2，对ncc1及ncc2求和，将得到的和记为ncc-sum。

将第一特征点A1对应的第一标志位记为state1，其中，若第二特征点B1与第三特征点C1的匹配程度大于第一预设阈值，则第一特征点A1对应的state1为1，反之为0；将第一特征点A2对应的第一标志位记为state1，其中，若第二特征点B2与第三特征点C2的匹配程度大于第一预设阈值，则第一特征点A2对应的state1为1，反之为0。对第一特征点A1对应的state1及第一特征点A2对应的state1进行逻辑与运算，得到第一特征点A1及A2对应的第二标志位，记为state-&。

将第一特征点A1与第一特征点A2之间的第一距离记为d1，将第二特征点B1与第二特征点B2之间的第一距离记为d2，计算d2/d1。

将d2/d1、error-sum、ncc-sum、state-&和第一特征点所在图像与第二特征点所在图像的间隔帧数进行拼接，得到五个维度的数据。延续上述例子，取16*16＝256个第一特征点，每两个第一特征点之间均进行上述操作，总共得到(256*255/2)*5＝32640*5个维度的数据。

上述多种实施方式介绍了多种输入数据的数据类型，样本数据的数据类型与输入数据的数据类型一致，得到输入数据与得到样本数据的过程类似，不再赘述。

S105：将输入数据输入至预测模型，得到预测模型输出的当前帧图像中的目标的瞬时尺度变化率。

一种情况下，可以通过reshape函数，将该32640*5个维度的数据转化为240*136*5维度的数据，将该240*136*5维度的数据输入至预测模型。

根据上述内容可知，基于样本数据以及样本数据对应的瞬时尺度变化率训练得到预测模型，该预测模型可以预测当前帧图像中的目标的瞬时尺度变化率。该瞬时尺度变化率可以理解为实时的尺度变化率，而不再是当前帧视频图像中的目标相对于上一帧视频图像中同一目标的尺寸变化率。在一些对实时性要求较高的场景中，例如辅助驾驶场景中，利用本发明实施例能够实时预测瞬时尺度变化率，准确度高，提高了行车安全。并且，本发明实施例中，并不是将图像直接输入预测模型，而是将三类特征点运算后的数据输入预测模型，减少了预测模型的数据处理量，缩短了预测模型的处理耗时，进一步提高了方案的实时性。

下面参考图3介绍一种具体的实施方式：

S301：获取图像采集设备在辅助驾驶场景中采集的每一帧图像。

S302：识别目标在当前帧图像中的特征点，作为第一特征点。

例如，可以通过匈牙利算法关联获取目标的队列信息，该队列信息中包括目标在各帧图像中的位置信息，该位置信息可以为检测框信息，举例来说，第一特征点的数量可以为16*16，可以从检测框内选取16*16个第一特征点，可以均匀取点也可取角点，如果角点不足16*16，可以插值填充。

S303：对当前帧图像进行灰度化处理，得到灰度图像，对灰度图像进行金字塔下采样，得到当前帧图像的灰度图金字塔。

例如按照2倍、4倍、8倍、16倍的倍率进行下采样，可以采用双线性插值方法进行下采样，这样得到的下采样图像准确度较高。目前图像采集设备采集的图像像素较高(720P及以上)，金字塔的图层可选为5层。

S304：将当前帧图像的灰度图金字塔及第一特征点传入光流算法，利用光流算法在当前帧图像之后的图像中识别与第一特征点相匹配的特征点，作为第二特征点。

举例来说，提取第t-1帧图像中的第一特征点记为pointA，通过LK光流法进行图像块匹配以及牛顿迭代法寻优，获取第t帧图像中与pointA相匹配的pointB的位置信息、以及pointA与pointB的匹配程度，该匹配程度可以表示为ncc参数。可以利用如下算式1计算pointA与pointB之间的ncc参数：

表示第t-1帧图像中各图像块的像素均值，

表示第t帧图像中各图像块的像素均值。

S305：将当前帧图像之后的图像的灰度图金字塔及第二特征点传入光流算法，利用光流算法在当前帧图像中识别与第二特征点相匹配的特征点，作为第三特征点。

S304可以理解为正向跟踪的过程，S305可以理解为反向跟踪的过程，参考图2所示，假设第t-1帧中的第一特征点A，确定第t帧中的第二特征点B为A的后向轨迹，确定第t-1帧中的第三特征点C为B的前向轨迹。

S306：确定当前帧图像与当前帧图像之后的图像之间的间隔帧数。

S307：针对每两个第一特征点，执行如下步骤：

S3071：计算第一特征点A1与第一特征点A2之间的第一距离，记为d1，计算第二特征点B1与第二特征点B2之间的第二距离，记为d2，计算d2/d1，记为scale。

S3072：计算第一特征点A1与第三特征点C1之间的误差，记为error1，计算第一特征点A2与第三特征点C2之间的误差，记为error2，对error1及error2求和，将得到的和记为error-sum。

S3073：计算第一特征点A1与第二特征点B1的匹配程度，记为ncc1，计算第一特征点A2与第二特征点B2的匹配程度，记为ncc2，对ncc1及ncc2求和，将得到的和记为ncc-sum。

S3074：确定第一特征点A1对应的第一标志位，记为state1，确定第一特征点A2对应的第一标志位，记为state1，对第一特征点A1对应的state1及第一特征点A2对应的state1进行逻辑与运算，得到第一特征点A1及A2对应的第二标志位，记为state-&。

其中，若第二特征点B1与第三特征点C1的匹配程度大于第一预设阈值，则第一特征点A1对应的state1为1，反之为0；若第二特征点B2与第三特征点C2的匹配程度大于第一预设阈值，则第一特征点A2对应的state1为1，反之为0。

S3075：针对每两个第一特征点，确定该两个第一特征点对应的error-sum，记为scale_error-sum，确定该两个第一特征点对应的ncc-sum，记为scale_ncc-sum，确定该两个第一特征点对应的state-&，记为scale_state-&；将每两个第一特征点对应的scale、scale_error-sum、scale_ncc-sum、scale_state-&和间隔帧数进行拼接，得到输入数据。

上述例子中，取16*16＝256个第一特征点，计算每两个第一特征点的距离，总共得到256*255/2＝32640个距离，因此，scale的个数也为32640。输入数据包括拼接后的scale、scale_ncc-sum、scale_error-sum、scale_state-&和间隔帧数，输入数据的维度为32640*5。

S308：将输入数据输入至预测模型，得到预测模型输出的当前帧图像中的目标的瞬时尺度变化率。

神经网络与预测模型的结构相同，训练过程只是对神经网络中的网络参数进行调整。举例来说，可以采用CNN，一种情况下，该神经网络的结构可以如上述表1所示，神经网络与预测模型中可以包括Input(输入)层、Conv(卷积)层、FC(Fully connected，全连接)层，Conv1中可以包含64个Filters(过滤器)，Conv1的尺寸/步长可以为3×3/1，Conv2中可以包含128个Filters(过滤器)，Conv2的尺寸/步长可以为5×5/2，Input(输入)层的输出数据的维度为240×136×5，Conv1层的输出数据的维度为240×136×64，Conv2层的输出数据的维度为120×68×128，第一个FC层的输出数据的维度为1×64，第二个FC层的输出数据的维度为1×1。

另一种情况下，以辅助驾驶场景为例来说，假设本方案的执行主体为车载设备，假设样本数据为车载设备采集的视频数据，则可以利用如下算式，计算样本数据对应的瞬时尺度变化率：

应用本发明图3所示实施例，对三类特征点进行运算，得到预测模型的输入数据，利用预测模型对该输入数据进行处理，得到目标尺度变化率；第一方面，预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，这样，训练得到的预测模型能够预测辅助驾驶场景中目标的瞬时尺度变化率，而不再是计算当前帧视频图像中的目标相对于上一帧视频图像中同一目标的尺寸变化率，提高了目标尺度变化率的准确度。在一些对实时性要求较高的场景中，例如辅助驾驶场景中，利用本发明实施例能够实时预测瞬时尺度变化率，准确度高，提高了行车安全。

第二方面，三类特征点分别为：某帧图像中的第一特征点、当前帧图像之后的图像中与第一特征点相匹配的第二特征点、当前帧图像中与第二特征点相匹配的第三特征点，这三类特征点能够准确表达目标尺度变化率，对三类特征点进行运算后输入预测模型，得到辅助驾驶场景中准确的目标尺度变化率。

第三方面，本发明实施例中，并不是将图像直接输入预测模型，而是将三类特征点运算后的数据输入预测模型，减少了预测模型的数据处理量，缩短了预测模型的处理耗时，进一步提高了方案的实时性。

与上述方法实施例相对应，本发明实施例提供一种基于辅助驾驶的目标尺度变化率计算装置，如图4所示，包括：

识别模块401，用于识别目标在当前帧图像中的特征点，作为第一特征点，所述当前帧图像为辅助驾驶场景中采集的图像；

跟踪模块402，用于通过对所述目标进行跟踪，在当前帧图像之后的图像中识别与所述第一特征点相匹配的特征点，作为第二特征点；

反向跟踪模块403，用于通过对所述目标进行反向跟踪，在当前帧图像中识别与所述第二特征点相匹配的特征点，作为第三特征点；

运算模块404，用于对所述第一特征点、所述第二特征点以及所述第三特征点进行运算，得到预测模型的输入数据；所述预测模型为基于样本数据以及样本数据对应的瞬时尺度变化率，对预设结构的神经网络训练得到的，所述样本数据的数据类型与所述输入数据的数据类型一致；

获得模块405，用于将所述输入数据输入至所述预测模型，得到所述预测模型输出的所述当前帧图像中的所述目标的瞬时尺度变化率。

一种实施方式中，所述装置还包括：第一计算模块、第二计算模块和第三计算模块(图中未示出)，其中，

运算模块404具体用于：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、以及所述比值，转换为预测模型的输入数据。

一种实施方式中，所述装置还包括：

第一判断模块(图中未示出)，用于判断所述第二特征点与所述第三特征点之间的匹配程度是否大于第一预设阈值，如果大于，将第一标志位置为第一预设值，如果不大于，将所述第一标志位置为第二预设值；

运算模块404具体用于：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、以及所述第一标志位，转换为预测模型的输入数据。

一种实施方式中，所述装置还包括：

确定模块(图中未示出)，用于确定当前帧图像与当前帧图像之后的图像之间的间隔帧数；

运算模块404具体用于：将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、所述第一标志位、以及所述间隔帧数，转换为预测模型的输入数据。

一种实施方式中，运算模块404具体用于：

一种实施方式中，所述装置还包括：

第二判断模块(图中未示出)，用于判断所述第一特征点与所述第二特征点之间的匹配程度是否大于第二预设阈值，如果大于，将所述第二特征点确定为有效第二特征点；

反向跟踪模块403具体用于：通过对所述目标进行反向跟踪，在当前帧图像中识别与所述有效第二特征点相匹配的特征点，作为第三特征点。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501和存储器502，

存储器502，用于存放计算机程序；

处理器501，用于执行存储器502上所存放的程序时，实现上述任意一种基于辅助驾驶的目标尺度变化率计算方法。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种基于辅助驾驶的目标尺度变化率计算方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种基于辅助驾驶的目标尺度变化率计算方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于辅助驾驶的目标尺度变化率计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别计算每两个第一特征点之间的距离，作为第一距离；

分别计算每两个第二特征点之间的距离，作为第二距离；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定当前帧图像与当前帧图像之后的图像之间的间隔帧数；

5.根据权利要求4所述的方法，其特征在于，所述将所述第一特征点与所述第三特征点之间的误差、所述第一特征点与所述第二特征点之间的匹配程度、所述比值、所述第一标志位、以及所述间隔帧数，转换为预测模型的输入数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过对所述目标进行跟踪，在当前帧图像之后的图像中识别与所述第一特征点相匹配的特征点，作为第二特征点之后，还包括：

7.一种基于辅助驾驶的目标尺度变化率计算装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述运算模块，具体用于：

9.一种电子设备，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。