CN115187917B

CN115187917B - 基于视频片段检索的无人车历史场景检测方法

Info

Publication number: CN115187917B
Application number: CN202211110912.5A
Authority: CN
Inventors: 聂秀山; 潘嘉男; 谭智方; 袭肖明
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-11-25
Anticipated expiration: 2042-09-13
Also published as: CN115187917A

Abstract

一种基于视频片段检索的无人车历史场景检测方法，属于计算机视觉技术领域，基于人眼搜索的思想将视频片段检索的方式分成两个步骤，先大致判断出最为相似的候选片段，再将候选片段添加偏移后从中分成两个部分，将左半部分中的帧作为开始帧，右半部分中的帧作为结束帧再次进行交互微调，从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题，也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。

Description

基于视频片段检索的无人车历史场景检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于视频片段检索的无人车历史场景检测方法。

背景技术

计算机视觉被运用到无人车中做目标检测、自动驾驶等功能，随着无人车技术的创新，越来越多的无人车被用于日常生活中。而在无人车使用过程中，若车辆管理员想了解到过去的某段时间内车辆是否经过了原先设定的目的地，或者是想要了解到某一场景的具体情况，一种简单的办法是由工作人员翻阅历史视频，但是这种方式会耗费很多的精力和时间。而现有的视频片段检索技术中通常是使用传统的框架进行划分候选片段然后进行评分选出最高的片段，或者是使用定位感知的方法直接对视频进行开始和结束帧的定位，缺少可解释性，所以这样的模式还不能够快速、精确的判断与检测。

发明内容

本发明为了克服以上技术的不足，提供了一种能够根据工作人员以自然语言描述的场景，基于人眼搜索思想的，从无人车历史视频中快速精确的定位到场景所在视频片段的基于视频片段检索的无人车历史场景检测方法。

本发明克服其技术问题所采用的技术方案是：

一种基于视频片段检索的无人车历史场景检测方法，包括如下步骤：

(a)使用视频编码器将无人车历史场景视频转换为特征序列

，其中

为第

个时间步的视频特征，

为划分的视频时间步总数；

(b)对具有

个单词的查询文本进行提取特征操作，得到特征序列

，其中

为第

个单词的特征向量；

(c)将特征序列

输入到双向长短期记忆神经网络中，输出得到词级特征序列

及句子级特征向量

，其中

为第

个单词的特征向量；

(d)使用注意力机制用视频特征给词级特征序列进行加权操作，得到加权后的词级文本特征序列

；

(e)通过词级文本特征序列

和视频特征

计算得到包含词级文本特征的视频特征

，所有的包含词级文本特征的视频特征

构成视频特征序列

；

(f)将视频特征序列

进行自注意力操作，得到各视频之间相互关联区分后的视频特征序列

，将视频特征序列

转换成一张二维视频候选片段特征图

，其中

为二维视频候选片段特征图中横坐标为

，纵坐标为

的候选片段的特征；

(g)计算句子级特征向量

与二维视频候选片段特征图

的相似度值

，根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图

加权得到新的特征图

，

为新的特征图中横坐标为

，纵坐标为

的候选片段的特征；

(h)计算新的特征图

中每个候选片段的相似度得分，选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段

，其中

为第

帧的特征，

为右上角的片段所相应时间段的原始视频的总帧数，将原始视频片段

的每一帧与文本特征进行交互后从中间帧划分成左右两个片段

和

，其中

为划分的左侧片段的第

帧的特征，

为划分的左侧片段的总帧数，

为划分的右侧片段的第

帧的特征，

为划分的右侧片段的总帧数；

(i)在左侧片段

中得到左侧关键帧序列

，在右侧片段

中得到右侧关键帧序列

，其中

为左侧关键帧序列第

个关键帧，

为左侧关键帧序列中关键帧的总个数，

为右侧关键帧序列第

个关键帧，

为右侧关键帧序列中关键帧的总个数，计算左侧关键帧序列

中的关键帧与右侧关键帧序列

中的关键帧的得分

，选取得分

最高值对应的关键帧

作为开始时间戳

，对应的关键帧

作为结束时间戳

，开始时间戳

表示检测到的无人车历史场景片段的开始时间，结束时间戳

表示检测到的无人车历史场景片段的结束时间。

优选的，步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器，步骤(b)中使用Glove模型对具有

个单词的查询文本进行提取特征操作。

进一步的，步骤(c)包括如下步骤：

(c-1)特征序列

输入到双向长短期记忆神经网络中，分别得到双向长短期记忆神经网络第

个时间步从左向右方向的隐藏层特征

及第

个时间步从右向左方向的隐藏层特征

；

(c-2)通过公式

计算得到第

个单词的特征向量，式中

为拼接操作；

(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量

。

进一步的，步骤(d)包括如下步骤：

(d-1)通过公式

计算得到加权后的词级文本特征序列

，式中

为softmax函数，

与

均为可学习的参数，

为转置，

为第

个单词的特征向量

的长度。

进一步的，步骤(e)包括如下步骤：

(e-1)通过公式

将词级文本特征序列

与视频特征

进行点积操作得到包含词级文本特征的视频特征

，式中

为点积操作函数。

进一步的，步骤(f)包括如下步骤：

(f-1)将视频特征序列

利用注意力机制中的点积模型计算得到分数值

，其中，

为第

个时间步的视频特征

的长度，通过公式

计算得到各视频之间相互关联区分后的视频特征序列

；

(f-2)将视频特征序列

的第

个片段到第

个片段进行平均池化得到候选片段的特征

，

，

，其中

为二维视频候选片段特征图

的横坐标为

，纵坐标为

的候选片段的特征。

进一步的，步骤(g)包括如下步骤：

(g-1)将二维视频候选片段特征图

中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列

，通过公式

计算得到句子级特征向量

与二维视频候选片段特征图

的相似度值

，式中

为第

个时间步的视频特征

的长度，

与

均为可学习的参数；

(g-2)通过公式

计算得到一维特征序列

，一维特征序列

中的特征按从左到右且从上到下依次排列形成二维特征图

。

进一步的，步骤(h)包括如下步骤：

(h-1)通过公式

计算新的特征图

中横坐标为

，纵坐标为

的候选片段的相似度得分

，式中

为Sigmoid激活函数，

为Relu激活函数，

、

、

、

均为可学习的参数，将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列

，

为所有的相似度得分的总个数；

(h-2)选取在新的二维特征图

中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段

；

(h-3)通过公式

计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征

，式中

为第

个单词的权重，

，式中

为exp函数，

，

与

均为可学习的参数，

为非线性激活函数；

(h-4)通过公式

将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段

与文本特征

进行点积操作得到视频特征序列

，式中

为点积操作函数，将视频特征序列

从中间帧划分成左右两个片段

和

。

进一步的，步骤(i)包括如下步骤：

(i-1)通过公式

计算得到左侧片段中第

帧和第

帧之间的相似度

，式中

为超参数，

为左侧片段

的第

帧特征维度为

的值，

为片段特征的总维度，

为左侧片段

的第

帧特征维度为

的值，

为归一化函数；

(i-2)将左侧片段

中第一帧作为

帧，将第二帧作为

帧；

(i-3)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-4)，如果

，则执行步骤(i-5)；

(i-4)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)；

(i-5)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)；

(i-6)对左侧片段

从左向右进行遍历后，得到左侧关键帧序列

；

(i-7)通过公式

计算得到右侧片段中第

帧和第

帧之间的相似度

，

为右侧片段

的第

帧特征维度为

的值，

为右侧片段

的第

帧特征维度为

的值，

为归一化函数；

(i-8)将右侧片段

中第一帧作为才帧，将第二帧作为

帧；

(i-9)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-10)，如果

，则执行步骤(i-11)；

(i-10)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-9)；

(i-11)将

帧后面的相邻的帧作为新的

帧后重复执行步骤i-9)；

(i-12)对右侧片段

从左向右进行遍历后，得到右侧关键帧序列

；

(i-13)通过公式

计算得到关键帧

与关键帧

的得分

，式中

和

均为超参数，

，

为左侧关键帧序列

中第

个关键帧特征维度为

的值，

为右侧关键帧序列

中第

个关键帧特征维度为

的值，

，

为转置，

与

均为可训练的参数，

，

与

均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分，使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳

和结束时间戳

，

和

分别表示检测到的无人车历史场景片段的开始时间和结束时间。

进一步的，还包括在步骤(i)之后执行如下步骤：

(j-1)通过公式

计算得到位置损失

，式中

为真实值开始时间戳，

为真实值结束时间戳，真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集；

(j-2)通过公式

计算得到得分损失

，式中

为二进制标签，当交并比IoU大于0.5时，

，当交并比IoU小于等于0.5时，

，

为交并比IoU分数；

(j-3)利用随机梯度下降算法对位置损失

和得分损失

进行优化，优化后重复执行步骤(a)至步骤(i)大于等于K次，K取值为1000。

本发明的有益效果是：基于人眼搜索的思想将视频片段检索的方式分成两个步骤，先大致判断出最为相似的候选片段，再将候选片段添加偏移后从中分成两个部分，将左半部分中的帧作为开始帧，右半部分中的帧作为结束帧再次进行交互微调，从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题，也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

(a)使用视频编码器将无人车历史场景视频转换为特征序列

，其中

为第

个时间步的视频特征，

为划分的视频时间步总数。

(b)对具有

个单词的查询文本进行提取特征操作，得到特征序列

，其中

为第

个单词的特征向量。

(c)将特征序列

输入到双向长短期记忆神经网络中，输出得到词级特征序列

及句子级特征向量

，其中

为第

个单词的特征向量。

。

(e)通过词级文本特征序列

和视频特征

计算得到包含词级文本特征的视频特征

，所有的包含词级文本特征的视频特征

构成视频特征序列

。

(f)将视频特征序列

，将视频特征序列

转换成一张二维视频候选片段特征图

，其中

为二维视频候选片段特征图中横坐标为

，纵坐标为

的候选片段的特征。

(g)计算句子级特征向量

与二维视频候选片段特征图

的相似度值

加权得到新的特征图

，

为新的特征图中横坐标为

，纵坐标为

的候选片段的特征。

(h)计算新的特征图

，其中

为第

帧的特征，

和

，其中

为划分的左侧片段的第

帧的特征，

为划分的左侧片段的总帧数，

为划分的右侧片段的第

帧的特征，

为划分的右侧片段的总帧数。

(i)在左侧片段

中得到左侧关键帧序列

，在右侧片段

中得到右侧关键帧序列

，其中

为左侧关键帧序列第

个关键帧，

为左侧关键帧序列中关键帧的总个数，

为右侧关键帧序列第

个关键帧，

为右侧关键帧序列中关键帧的总个数，计算左侧关键帧序列

中的关键帧与右侧关键帧序列

中的关键帧的得分

，选取得分

最高值对应的关键帧

作为开始时间戳

，对应的关键帧

作为结束时间戳

，开始时间戳

表示检测到的无人车历史场景片段的开始时间，结束时间戳

表示检测到的无人车历史场景片段的结束时间。

基于视频片段检索的无人车历史场景检测方法的实现基于计算机视觉技术，考虑了人眼定位视频的思想，先将视频划分为视频片段后转换到二维特征图中计算相似度，初步定位到最为相似的候选片段，然后根据经过左右偏移后的视频片段从中划分为左右两部分，将左半部分中的帧作为开始帧，右半部分中的帧作为结束帧，令每一对选取的帧进行交互得出相似度最高的一对帧作为模型定位的开始和结束帧。避免了人工检测方法存在的耗时费力的问题。同时相比于传统方法的模式较为单一的框架，既减少了检索定位所花费的时间，又最大程度的使定位的片段足够的精确。该方法的模型结构直观简洁，可解释性较强，容易部署实现，在无人车历史场景检测中可以快速、准确的完成检测工作。

具体的，步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器，步骤(b)中使用Glove模型对具有

个单词的查询文本进行提取特征操作。

具体的，步骤(c)包括如下步骤：

(c-1)特征序列

输入到双向长短期记忆神经网络（BiLSTM）中，分别得到双向长短期记忆神经网络第

个时间步从左向右方向的隐藏层特征

及第

个时间步从右向左方向的隐藏层特征

。

(c-2)通过公式

计算得到第

个单词的特征向量，式中

为拼接操作。

。

具体的，步骤(d)包括如下步骤：

(d-1)通过公式

计算得到加权后的词级文本特征序列

，式中

为softmax函数，

与

均为可学习的参数，

为转置，

为第

个单词的特征向量

的长度；

具体的，步骤(e)包括如下步骤：

(e-1)通过公式

将词级文本特征序列

与视频特征

进行点积操作得到包含词级文本特征的视频特征

，式中

为点积操作函数。

具体的，步骤(f)包括如下步骤：

(f-1)将视频特征序列

利用注意力机制中的点积模型计算得到分数值

，其中，

为第

个时间步的视频特征

的长度，通过公式

计算得到各视频之间相互关联区分后的视频特征序列

。

(f-2)将视频特征序列

的第

个片段到第

个片段进行平均池化得到候选片段的特征

，

，

，其中

为二维视频候选片段特征图

的横坐标为

，纵坐标为

的候选片段的特征。

具体的，步骤(g)包括如下步骤：

(g-1)将二维视频候选片段特征图

，通过公式

计算得到句子级特征向量

与二维视频候选片段特征图

的相似度值

，式中

为第

个时间步的视频特征

的长度，

与

均为可学习的参数。

(g-2)通过公式

计算得到一维特征序列

，一维特征序列

中的特征按从左到右且从上到下依次排列形成二维特征图

。

具体的，步骤(h)包括如下步骤：

(h-1)通过公式

计算新的特征图

中横坐标为

，纵坐标为

的候选片段的相似度得分

，式中

为Sigmoid激活函数，

为Relu激活函数，

、

、

、

，

为所有的相似度得分的总个数。

(h-2)选取在新的二维特征图

。

(h-3)通过公式

，式中

为第

个单词的权重，

，式中

为exp函数，

，

与

均为可学习的参数，

为非线性激活函数。

(h-4) 通过公式

与文本特征

进行点积操作得到视频特征序列

，式中

为点积操作函数，将视频特征序列

从中间帧划分成左右两个片段

和

。

具体的，步骤(i)包括如下步骤：

(i-1)通过公式

计算得到左侧片段中第

帧和第

帧之间的相似度

，式中

为超参数，

为左侧片段

的第

帧特征维度为

的值，

为片段特征的总维度，

为左侧片段

的第

帧特征维度为

的值，

为归一化函数。

(i-2)将左侧片段

中第一帧作为

帧，将第二帧作为

帧。

(i-3)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-4)，如果

，则执行步骤(i-5)。

(i-4)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)。

(i-5)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)。

(i-6)对左侧片段

从左向右进行遍历后，得到左侧关键帧序列

。

(i-7)通过公式

计算得到右侧片段中第

帧和第

帧之间的相似度

，

为右侧片段

的第

帧特征维度为

的值，

为右侧片段

的第

帧特征维度为

的值，

为归一化函数。

(i-8)将右侧片段

中第一帧作为才帧，将第二帧作为

帧。

(i-9)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-10)，如果

，则执行步骤(i-11)；

(i-10)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-9)。

(i-11)将

帧后面的相邻的帧作为新的

帧后重复执行步骤i-9)。

相似度

和

取值范围在0-1之间，越靠近1表明两个帧的相似度越高。通过这个公式，可以从特征向量的方向与数值两个层面进行不同特征之间的相似度比较，优化了传统比较方式中层面较为单一的问题，使得计算出的相似度更为精准、可靠。

对右侧片段

从左向右进行遍历后，得到右侧关键帧序列

。

选取关键帧的操作可以在保留最终预测结果的准确性的基础上减少片段中帧的数量过大导致带来的计算量大的问题，为模型的预测节省了时间，提高了效率。

(i-13)通过公式

计算得到关键帧

与关键帧

的得分

，式中

和

均为超参数，

，

为左侧关键帧序列

中第

个关键帧特征维度为

的值，

为右侧关键帧序列

中第

个关键帧特征维度为

的值，

，

为转置，

与

均为可训练的参数，

，

与

和结束时间戳

，

和

优选的，还包括在步骤(i)之后执行如下步骤：

(j-1) 通过公式

计算得到位置损失

，式中

为真实值开始时间戳，

为真实值结束时间戳，真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集。

(j-2)通过公式

计算得到得分损失

，式中

为二进制标签，当交并比IoU大于0.5时，

，当交并比IoU小于等于0.5时，

，

为交并比IoU分数。

(j-3)利用随机梯度下降算法对位置损失

和得分损失

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频片段检索的无人车历史场景检测方法，其特征在于，包括如下步骤：

(a)使用视频编码器将无人车历史场景视频转换为特征序列

，其中

为第

个时间步的视频特征，

为划分的视频时间步总数；

(b)对具有

个单词的查询文本进行提取特征操作，得到特征序列

，其中

为第

个单词的特征向量；

(c)将特征序列

输入到双向长短期记忆神经网络中，输出得到词级特征序列

及句子级特征向量

，其中

为第

个单词的特征向量；

，步骤(d)包括如下步骤：

(d-1)通过公式

计算得到加权后的词级文本特征序列

，式中

为softmax函数，

与

均为可学习的参数，

为转置，

为第

个单词的特征向量

的长度；

(e)通过词级文本特征序列

和视频特征

计算得到包含词级文本特征的视频特征

，所有的包含词级文本特征的视频特征

构成视频特征序列

；

(f)将视频特征序列

，将视频特征序列

转换成一张二维视频候选片段特征图

，其中

为二维视频候选片段特征图中横坐标为

，纵坐标为

的候选片段的特征；

(g)计算句子级特征向量

与二维视频候选片段特征图

的相似度值

加权得到新的特征图

，

为新的特征图中横坐标为

，纵坐标为

的候选片段的特征；

(h)计算新的特征图

，其中

为第

帧的特征，

和

，其中

为划分的左侧片段的第

帧的特征，

为划分的左侧片段的总帧数，

为划分的右侧片段的第

帧的特征，

为划分的右侧片段的总帧数；

(i)在左侧片段

中得到左侧关键帧序列

，在右侧片段

中得到右侧关键帧序列

，其中

为左侧关键帧序列第

个关键帧，

为左侧关键帧序列中关键帧的总个数，

为右侧关键帧序列第

个关键帧，

为右侧关键帧序列中关键帧的总个数，计算左侧关键帧序列

中的关键帧与右侧关键帧序列

中的关键帧的得分

，选取得分

最高值对应的关键帧

作为开始时间戳

，对应的关键帧

作为结束时间戳

，开始时间戳

表示检测到的无人车历史场景片段的开始时间，结束时间戳

表示检测到的无人车历史场景片段的结束时间。

2.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于：步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器，步骤(b)中使用Glove模型对具有

个单词的查询文本进行提取特征操作。

3.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(c)包括如下步骤：

(c-1)特征序列

个时间步从左向右方向的隐藏层特征

及第

个时间步从右向左方向的隐藏层特征

；

(c-2)通过公式

计算得到第

个单词的特征向量，式中

为拼接操作；

。

4.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(e)包括如下步骤：

(e-1)通过公式

将词级文本特征序列

与视频特征

进行点积操作得到包含词级文本特征的视频特征

，式中

为点积操作函数。

5.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(f)包括如下步骤：

(f-1)将视频特征序列

利用注意力机制中的点积模型计算得到分数值

，其中，

为第

个时间步的视频特征

的长度，通过公式

计算得到各视频之间相互关联区分后的视频特征序列

；

(f-2)将视频特征序列

的第

个片段到第

个片段进行平均池化得到候选片段的特征

，

，

，其中

为二维视频候选片段特征图

的横坐标为

，纵坐标为

的候选片段的特征。

6.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(g)包括如下步骤：

(g-1)将二维视频候选片段特征图

，通过公式

计算得到句子级特征向量

与二维视频候选片段特征图

的相似度值

，式中

为第

个时间步的视频特征

的长度，

与

均为可学习的参数；

(g-2)通过公式

计算得到一维特征序列

，一维特征序列

中的特征按从左到右且从上到下依次排列形成二维特征图

。

7.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(h)包括如下步骤：

(h-1)通过公式

计算新的特征图

中横坐标为

，纵坐标为

的候选片段的相似度得分

，式中

为Sigmoid激活函数，

为Relu激活函数，

、

、

、

，

为所有的相似度得分的总个数；

(h-2)选取在新的二维特征图

；

(h-3)通过公式

，式中

为第

个单词的权重，

，式中

为exp函数，

，

与

均为可学习的参数，

为非线性激活函数；

(h-4)通过公式

与文本特征

进行点积操作得到视频特征序列

，式中

为点积操作函数，将视频特征序列

从中间帧划分成左右两个片段

和

。

8.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，步骤(i)包括如下步骤：

(i-1)通过公式

计算得到左侧片段中第

帧和第

帧之间的相似度

，式中

为超参数，

为左侧片段

的第

帧特征维度为

的值，

为片段特征的总维度，

为左侧片段

的第

帧特征维度为

的值，

为归一化函数；

(i-2)将左侧片段

中第一帧作为

帧，将第二帧作为

帧；

(i-3)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-4)，如果

，则执行步骤(i-5)；

(i-4)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)；

(i-5)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-2)；

(i-6)对左侧片段

从左向右进行遍历后，得到左侧关键帧序列

；

(i-7)通过公式

计算得到右侧片段中第

帧和第

帧之间的相似度

，

为右侧片段

的第

帧特征维度为

的值，

为右侧片段

的第

帧特征维度为

的值，

为归一化函数；

(i-8)将右侧片段

中第一帧作为才帧，将第二帧作为

帧；

(i-9)判断相似度

是否小于0.8，如果相似度

则选取

帧为关键帧，并执行步骤(i-10)，如果

，则执行步骤(i-11)；

(i-10)将

帧后面的相邻的帧作为新的

帧后重复执行步骤(i-9)；

(i-11)将

帧后面的相邻的帧作为新的

帧后重复执行步骤i-9)；

(i-12)对右侧片段

从左向右进行遍历后，得到右侧关键帧序列

；

(i-13)通过公式

计算得到关键帧

与关键帧

的得分

，式中

和

均为超参数，

，

为左侧关键帧序列

中第

个关键帧特征维度为

的值，

为右侧关键帧序列

中第

个关键帧特征维度为

的值，

，

为转置，

与

均为可训练的参数，

，

与

均为可训练的参数。

9.根据权利要求7所述的基于视频片段检索的无人车历史场景检测方法，其特征在于，还包括在步骤(i)之后执行如下步骤：

(j-1)通过公式

计算得到位置损失

，式中

为真实值开始时间戳，

(j-2)通过公式

计算得到得分损失

，式中

为二进制标签，当交并比IoU大于0.5时，

，当交并比IoU小于等于0.5时，

，

为交并比IoU分数；

(j-3)利用随机梯度下降算法对位置损失

和得分损失