CN115187917A - 基于视频片段检索的无人车历史场景检测方法 - Google Patents

基于视频片段检索的无人车历史场景检测方法 Download PDF

Info

Publication number
CN115187917A
CN115187917A CN202211110912.5A CN202211110912A CN115187917A CN 115187917 A CN115187917 A CN 115187917A CN 202211110912 A CN202211110912 A CN 202211110912A CN 115187917 A CN115187917 A CN 115187917A
Authority
CN
China
Prior art keywords
frame
video
sequence
feature
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211110912.5A
Other languages
English (en)
Other versions
CN115187917B (zh
Inventor
聂秀山
潘嘉男
谭智方
袭肖明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202211110912.5A priority Critical patent/CN115187917B/zh
Publication of CN115187917A publication Critical patent/CN115187917A/zh
Application granted granted Critical
Publication of CN115187917B publication Critical patent/CN115187917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于视频片段检索的无人车历史场景检测方法,属于计算机视觉技术领域,基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。

Description

基于视频片段检索的无人车历史场景检测方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于视频片段检索的无人车历史场景检测方法。
背景技术
计算机视觉被运用到无人车中做目标检测、自动驾驶等功能,随着无人车技术的创新,越来越多的无人车被用于日常生活中。而在无人车使用过程中,若车辆管理员想了解到过去的某段时间内车辆是否经过了原先设定的目的地,或者是想要了解到某一场景的具体情况,一种简单的办法是由工作人员翻阅历史视频,但是这种方式会耗费很多的精力和时间。而现有的视频片段检索技术中通常是使用传统的框架进行划分候选片段然后进行评分选出最高的片段,或者是使用定位感知的方法直接对视频进行开始和结束帧的定位,缺少可解释性,所以这样的模式还不能够快速、精确的判断与检测。
发明内容
本发明为了克服以上技术的不足,提供了一种能够根据工作人员以自然语言描述的场景,基于人眼搜索思想的,从无人车历史视频中快速精确的定位到场景所在视频片段的基于视频片段检索的无人车历史场景检测方法。
本发明克服其技术问题所采用的技术方案是:
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure 963076DEST_PATH_IMAGE001
,其中
Figure 695409DEST_PATH_IMAGE002
为第
Figure 809995DEST_PATH_IMAGE003
个时间步的视频特征,
Figure 325290DEST_PATH_IMAGE004
为划分的视频时间步总数;
(b)对具有
Figure 343187DEST_PATH_IMAGE005
个单词的查询文本进行提取特征操作,得到特征序列
Figure 184104DEST_PATH_IMAGE006
,其中
Figure 254828DEST_PATH_IMAGE007
为第
Figure 104973DEST_PATH_IMAGE008
个单词的特征向量;
(c)将特征序列
Figure 944753DEST_PATH_IMAGE009
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure 425413DEST_PATH_IMAGE010
及句子级特征向量
Figure 514591DEST_PATH_IMAGE011
,其中
Figure 106110DEST_PATH_IMAGE012
为第
Figure 597134DEST_PATH_IMAGE013
个单词的特征向量;
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure 514274DEST_PATH_IMAGE014
(e)通过词级文本特征序列
Figure 825170DEST_PATH_IMAGE014
和视频特征
Figure 220379DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure 332954DEST_PATH_IMAGE015
,所有的包含词级文本特征的视频特征
Figure 155416DEST_PATH_IMAGE015
构成视频特征序列
Figure 219187DEST_PATH_IMAGE016
(f)将视频特征序列
Figure 418087DEST_PATH_IMAGE016
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure 618125DEST_PATH_IMAGE017
,将视频特征序列
Figure 611488DEST_PATH_IMAGE017
转换成一张二维视频候选片段特征图
Figure 162556DEST_PATH_IMAGE018
,其中
Figure 899567DEST_PATH_IMAGE019
为二维视频候选片段特征图中横坐标为
Figure 954111DEST_PATH_IMAGE020
,纵坐标为
Figure 383955DEST_PATH_IMAGE021
的候选片段的特征;
(g)计算句子级特征向量
Figure 625581DEST_PATH_IMAGE022
与二维视频候选片段特征图
Figure 697442DEST_PATH_IMAGE023
的相似度值
Figure 340913DEST_PATH_IMAGE024
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 207238DEST_PATH_IMAGE023
加权得到新的特征图
Figure 936159DEST_PATH_IMAGE025
Figure 313176DEST_PATH_IMAGE026
为新的特征图中横坐标为
Figure 811154DEST_PATH_IMAGE020
,纵坐标为
Figure 113959DEST_PATH_IMAGE021
的候选片段的特征;
(h)计算新的特征图
Figure 64598DEST_PATH_IMAGE027
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 743841DEST_PATH_IMAGE028
,其中
Figure 96325DEST_PATH_IMAGE029
为第
Figure 835611DEST_PATH_IMAGE030
帧的特征,
Figure 273545DEST_PATH_IMAGE031
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure 694162DEST_PATH_IMAGE032
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure 697890DEST_PATH_IMAGE033
Figure 811340DEST_PATH_IMAGE034
,其中
Figure 533308DEST_PATH_IMAGE035
为划分的左侧片段的第
Figure 757616DEST_PATH_IMAGE020
帧的特征,
Figure 851736DEST_PATH_IMAGE036
为划分的左侧片段的总帧数,
Figure 136087DEST_PATH_IMAGE037
为划分的右侧片段的第
Figure 345352DEST_PATH_IMAGE021
帧的特征,
Figure 373350DEST_PATH_IMAGE038
为划分的右侧片段的总帧数;
(i)在左侧片段
Figure 86091DEST_PATH_IMAGE039
中得到左侧关键帧序列
Figure 275764DEST_PATH_IMAGE040
,在右侧片段
Figure 972325DEST_PATH_IMAGE041
中得到右侧关键帧序列
Figure 538435DEST_PATH_IMAGE042
,其中
Figure 636841DEST_PATH_IMAGE043
为左侧关键帧序列第
Figure 997416DEST_PATH_IMAGE020
个关键帧,
Figure 915693DEST_PATH_IMAGE044
为左侧关键帧序列中关键帧的总个数,
Figure 285495DEST_PATH_IMAGE045
为右侧关键帧序列第
Figure 474293DEST_PATH_IMAGE021
个关键帧,
Figure 271347DEST_PATH_IMAGE046
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure 411342DEST_PATH_IMAGE047
中的关键帧与右侧关键帧序列
Figure 584834DEST_PATH_IMAGE048
中的关键帧的得分
Figure 595515DEST_PATH_IMAGE049
,选取得分
Figure 360209DEST_PATH_IMAGE049
最高值对应的关键帧
Figure 456341DEST_PATH_IMAGE050
作为开始时间戳
Figure 699104DEST_PATH_IMAGE051
,对应的关键帧
Figure 564291DEST_PATH_IMAGE052
作为结束时间戳
Figure 499886DEST_PATH_IMAGE053
,开始时间戳
Figure 83314DEST_PATH_IMAGE051
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 864189DEST_PATH_IMAGE053
表示检测到的无人车历史场景片段的结束时间。
优选的,步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure 849462DEST_PATH_IMAGE054
个单词的查询文本进行提取特征操作。
进一步的,步骤(c)包括如下步骤:
(c-1)特征序列
Figure 457423DEST_PATH_IMAGE055
输入到双向长短期记忆神经网络中,分别得到双向长短期记忆神经网络第
Figure 528148DEST_PATH_IMAGE056
个时间步从左向右方向的隐藏层特征
Figure 378292DEST_PATH_IMAGE057
及第
Figure 218072DEST_PATH_IMAGE056
个时间步从右向左方向的隐藏层特征
Figure 698732DEST_PATH_IMAGE058
(c-2)通过公式
Figure 522331DEST_PATH_IMAGE059
计算得到第
Figure 379429DEST_PATH_IMAGE056
个单词的特征向量,式中
Figure 870453DEST_PATH_IMAGE060
为拼接操作;
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure 522014DEST_PATH_IMAGE061
进一步的,步骤(d)包括如下步骤:
(d-1)通过公式
Figure 98489DEST_PATH_IMAGE062
计算得到加权后的词级文本特征序列
Figure 493698DEST_PATH_IMAGE063
,式中
Figure 839229DEST_PATH_IMAGE064
为softmax函数,
Figure 927271DEST_PATH_IMAGE065
Figure 725462DEST_PATH_IMAGE066
均为可学习的参数,
Figure 924363DEST_PATH_IMAGE067
为转置,
Figure 625865DEST_PATH_IMAGE068
为第
Figure 884808DEST_PATH_IMAGE056
个单词的特征向量
Figure 170296DEST_PATH_IMAGE069
的长度。
进一步的,步骤(e)包括如下步骤:
(e-1)通过公式
Figure 907307DEST_PATH_IMAGE070
将词级文本特征序列
Figure 430693DEST_PATH_IMAGE071
与视频特征
Figure 657275DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure 633321DEST_PATH_IMAGE072
,式中
Figure 970761DEST_PATH_IMAGE073
为点积操作函数。
进一步的,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure 614232DEST_PATH_IMAGE074
利用注意力机制中的点积模型计算得到分数值
Figure 480557DEST_PATH_IMAGE075
,其中,
Figure 209479DEST_PATH_IMAGE076
为第
Figure 85031DEST_PATH_IMAGE077
个时间步的视频特征
Figure 583008DEST_PATH_IMAGE002
的长度,通过公式
Figure 133418DEST_PATH_IMAGE078
计算得到各视频之间相互关联区分后的视频特征序列
Figure 146373DEST_PATH_IMAGE079
(f-2)将视频特征序列
Figure 560037DEST_PATH_IMAGE080
的第
Figure 912521DEST_PATH_IMAGE020
个片段到第
Figure 651807DEST_PATH_IMAGE081
个片段进行平均池化得到候选片段的特征
Figure 89742DEST_PATH_IMAGE082
Figure 307096DEST_PATH_IMAGE083
Figure 779666DEST_PATH_IMAGE084
,其中
Figure 158695DEST_PATH_IMAGE085
为二维视频候选片段特征图
Figure 83925DEST_PATH_IMAGE086
的横坐标为
Figure 308233DEST_PATH_IMAGE020
,纵坐标为
Figure 933512DEST_PATH_IMAGE081
的候选片段的特征。
进一步的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 217863DEST_PATH_IMAGE086
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure 161548DEST_PATH_IMAGE087
,通过公式
Figure 923968DEST_PATH_IMAGE088
计算得到句子级特征向量
Figure 902288DEST_PATH_IMAGE089
与二维视频候选片段特征图
Figure 357540DEST_PATH_IMAGE086
的相似度值
Figure 788521DEST_PATH_IMAGE090
,式中
Figure 354632DEST_PATH_IMAGE091
为第
Figure 187459DEST_PATH_IMAGE092
个时间步的视频特征
Figure 813612DEST_PATH_IMAGE002
的长度,
Figure 731890DEST_PATH_IMAGE093
Figure 836112DEST_PATH_IMAGE094
均为可学习的参数;
(g-2)通过公式
Figure 290489DEST_PATH_IMAGE095
计算得到一维特征序列
Figure 87544DEST_PATH_IMAGE096
,一维特征序列
Figure 493117DEST_PATH_IMAGE096
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure 666610DEST_PATH_IMAGE097
进一步的,步骤(h)包括如下步骤:
(h-1)通过公式
Figure 208450DEST_PATH_IMAGE098
计算新的特征图
Figure 176406DEST_PATH_IMAGE097
中横坐标为
Figure 69275DEST_PATH_IMAGE020
,纵坐标为
Figure 780879DEST_PATH_IMAGE081
的候选片段的相似度得分
Figure 911646DEST_PATH_IMAGE099
,式中
Figure 847241DEST_PATH_IMAGE100
为Sigmoid激活函数,
Figure 430669DEST_PATH_IMAGE101
为Relu激活函数,
Figure 680385DEST_PATH_IMAGE102
Figure 196817DEST_PATH_IMAGE103
Figure 506576DEST_PATH_IMAGE104
Figure 875502DEST_PATH_IMAGE105
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure 787964DEST_PATH_IMAGE106
Figure 627744DEST_PATH_IMAGE107
为所有的相似度得分的总个数;
(h-2)选取在新的二维特征图
Figure 905141DEST_PATH_IMAGE097
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 728741DEST_PATH_IMAGE108
(h-3)通过公式
Figure 680779DEST_PATH_IMAGE109
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure 375065DEST_PATH_IMAGE110
,式中
Figure 557785DEST_PATH_IMAGE111
为第
Figure 603101DEST_PATH_IMAGE112
个单词的权重,
Figure 795048DEST_PATH_IMAGE113
,式中
Figure 874999DEST_PATH_IMAGE114
为exp函数,
Figure 759779DEST_PATH_IMAGE115
Figure 26812DEST_PATH_IMAGE116
Figure 491292DEST_PATH_IMAGE117
均为可学习的参数,
Figure 160170DEST_PATH_IMAGE118
为非线性激活函数;
(h-4)通过公式
Figure 717316DEST_PATH_IMAGE119
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 206066DEST_PATH_IMAGE120
与文本特征
Figure 739815DEST_PATH_IMAGE121
进行点积操作得到视频特征序列
Figure 263201DEST_PATH_IMAGE122
,式中
Figure 427466DEST_PATH_IMAGE123
为点积操作函数,将视频特征序列
Figure 465829DEST_PATH_IMAGE122
从中间帧划分成左右两个片段
Figure 6532DEST_PATH_IMAGE124
Figure 181161DEST_PATH_IMAGE125
进一步的,步骤(i)包括如下步骤:
(i-1)通过公式
Figure 781907DEST_PATH_IMAGE126
计算得到左侧片段中第
Figure 776408DEST_PATH_IMAGE127
帧和第
Figure 120801DEST_PATH_IMAGE128
帧之间的相似度
Figure 415516DEST_PATH_IMAGE129
,式中
Figure 921584DEST_PATH_IMAGE130
为超参数,
Figure 170425DEST_PATH_IMAGE131
为左侧片段
Figure 52930DEST_PATH_IMAGE132
的第
Figure 202152DEST_PATH_IMAGE127
帧特征维度为
Figure 879121DEST_PATH_IMAGE133
的值,
Figure 848214DEST_PATH_IMAGE134
为片段特征的总维度,
Figure 534410DEST_PATH_IMAGE135
为左侧片段
Figure 538138DEST_PATH_IMAGE136
的第
Figure 651588DEST_PATH_IMAGE128
帧特征维度为
Figure 373556DEST_PATH_IMAGE137
的值,
Figure 597864DEST_PATH_IMAGE138
为归一化函数;
(i-2)将左侧片段
Figure 456099DEST_PATH_IMAGE139
中第一帧作为
Figure 740450DEST_PATH_IMAGE127
帧,将第二帧作为
Figure 185600DEST_PATH_IMAGE128
帧;
(i-3)判断相似度
Figure 213598DEST_PATH_IMAGE129
是否小于0.8,如果相似度
Figure 395181DEST_PATH_IMAGE140
则选取
Figure 381592DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-4),如果
Figure 281415DEST_PATH_IMAGE141
,则执行步骤(i-5);
(i-4)将
Figure 644263DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 680352DEST_PATH_IMAGE127
帧后重复执行步骤(i-2);
(i-5)将
Figure 837664DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 959204DEST_PATH_IMAGE128
帧后重复执行步骤(i-2);
(i-6)对左侧片段
Figure 125743DEST_PATH_IMAGE139
从左向右进行遍历后,得到左侧关键帧序列
Figure 281918DEST_PATH_IMAGE142
(i-7)通过公式
Figure 610131DEST_PATH_IMAGE143
计算得到右侧片段中第
Figure 218967DEST_PATH_IMAGE127
帧和第
Figure 413363DEST_PATH_IMAGE128
帧之间的相似度
Figure 424045DEST_PATH_IMAGE144
Figure 188738DEST_PATH_IMAGE145
为右侧片段
Figure 284870DEST_PATH_IMAGE146
的第
Figure 996475DEST_PATH_IMAGE127
帧特征维度为
Figure 658400DEST_PATH_IMAGE137
的值,
Figure 797257DEST_PATH_IMAGE147
为右侧片段
Figure 911844DEST_PATH_IMAGE146
的第
Figure 427139DEST_PATH_IMAGE128
帧特征维度为
Figure 943571DEST_PATH_IMAGE133
的值,
Figure 253329DEST_PATH_IMAGE148
为归一化函数;
(i-8)将右侧片段
Figure 855212DEST_PATH_IMAGE149
中第一帧作为才帧,将第二帧作为
Figure 439777DEST_PATH_IMAGE128
帧;
(i-9)判断相似度
Figure 108918DEST_PATH_IMAGE144
是否小于0.8,如果相似度
Figure 589578DEST_PATH_IMAGE150
则选取
Figure 944336DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-10),如果
Figure 332592DEST_PATH_IMAGE151
,则执行步骤(i-11);
(i-10)将
Figure 823616DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 304538DEST_PATH_IMAGE127
帧后重复执行步骤(i-9);
(i-11)将
Figure 208909DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 604119DEST_PATH_IMAGE128
帧后重复执行步骤i-9);
(i-12)对右侧片段
Figure 215228DEST_PATH_IMAGE146
从左向右进行遍历后,得到右侧关键帧序列
Figure 37691DEST_PATH_IMAGE152
(i-13)通过公式
Figure 321036DEST_PATH_IMAGE154
计算得到关键帧
Figure 818139DEST_PATH_IMAGE155
与关键帧
Figure 487017DEST_PATH_IMAGE156
的得分
Figure 277119DEST_PATH_IMAGE157
,式中
Figure 31448DEST_PATH_IMAGE158
Figure 565198DEST_PATH_IMAGE159
均为超参数,
Figure 885321DEST_PATH_IMAGE160
Figure 49586DEST_PATH_IMAGE161
为左侧关键帧序列
Figure 822370DEST_PATH_IMAGE162
中第
Figure 363072DEST_PATH_IMAGE163
个关键帧特征维度为
Figure 537702DEST_PATH_IMAGE133
的值,
Figure 138447DEST_PATH_IMAGE164
为右侧关键帧序列
Figure 132948DEST_PATH_IMAGE165
中第
Figure 775544DEST_PATH_IMAGE166
个关键帧特征维度为
Figure 7943DEST_PATH_IMAGE133
的值,
Figure 310748DEST_PATH_IMAGE167
Figure 261386DEST_PATH_IMAGE168
为转置,
Figure 940629DEST_PATH_IMAGE169
Figure 293113DEST_PATH_IMAGE170
均为可训练的参数,
Figure 32399DEST_PATH_IMAGE171
Figure 470334DEST_PATH_IMAGE172
Figure 687689DEST_PATH_IMAGE173
均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳
Figure 894679DEST_PATH_IMAGE174
和结束时间戳
Figure 804866DEST_PATH_IMAGE175
Figure 730097DEST_PATH_IMAGE174
Figure 987028DEST_PATH_IMAGE175
分别表示检测到的无人车历史场景片段的开始时间和结束时间。
进一步的,还包括在步骤(i)之后执行如下步骤:
(j-1)通过公式
Figure 314104DEST_PATH_IMAGE176
计算得到位置损失
Figure 129614DEST_PATH_IMAGE177
,式中
Figure 542140DEST_PATH_IMAGE178
为真实值开始时间戳,
Figure 101298DEST_PATH_IMAGE179
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集;
(j-2)通过公式
Figure 282880DEST_PATH_IMAGE180
计算得到得分损失
Figure 534870DEST_PATH_IMAGE181
,式中
Figure 169114DEST_PATH_IMAGE182
为二进制标签,当交并比IoU大于0.5时,
Figure 531962DEST_PATH_IMAGE183
,当交并比IoU小于等于0.5时,
Figure 833630DEST_PATH_IMAGE184
Figure 990942DEST_PATH_IMAGE185
为交并比IoU分数;
(j-3)利用随机梯度下降算法对位置损失
Figure 112482DEST_PATH_IMAGE177
和得分损失
Figure 780486DEST_PATH_IMAGE186
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
本发明的有益效果是:基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure 936661DEST_PATH_IMAGE001
,其中
Figure 264874DEST_PATH_IMAGE002
为第
Figure 873710DEST_PATH_IMAGE003
个时间步的视频特征,
Figure 578361DEST_PATH_IMAGE004
为划分的视频时间步总数。
(b)对具有
Figure 589042DEST_PATH_IMAGE005
个单词的查询文本进行提取特征操作,得到特征序列
Figure 88156DEST_PATH_IMAGE187
,其中
Figure 184288DEST_PATH_IMAGE007
为第
Figure 692630DEST_PATH_IMAGE008
个单词的特征向量。
(c)将特征序列
Figure 557818DEST_PATH_IMAGE009
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure 227834DEST_PATH_IMAGE010
及句子级特征向量
Figure 811262DEST_PATH_IMAGE011
,其中
Figure 636478DEST_PATH_IMAGE012
为第
Figure 356172DEST_PATH_IMAGE013
个单词的特征向量。
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure 462669DEST_PATH_IMAGE014
(e)通过词级文本特征序列
Figure 533393DEST_PATH_IMAGE014
和视频特征
Figure 586799DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure 957738DEST_PATH_IMAGE015
,所有的包含词级文本特征的视频特征
Figure 235135DEST_PATH_IMAGE015
构成视频特征序列
Figure 793156DEST_PATH_IMAGE016
(f)将视频特征序列
Figure 915833DEST_PATH_IMAGE016
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure 610119DEST_PATH_IMAGE017
,将视频特征序列
Figure 323997DEST_PATH_IMAGE017
转换成一张二维视频候选片段特征图
Figure 103734DEST_PATH_IMAGE018
,其中
Figure 30102DEST_PATH_IMAGE019
为二维视频候选片段特征图中横坐标为
Figure 844474DEST_PATH_IMAGE020
,纵坐标为
Figure 965139DEST_PATH_IMAGE021
的候选片段的特征。
(g)计算句子级特征向量
Figure 232173DEST_PATH_IMAGE022
与二维视频候选片段特征图
Figure 431073DEST_PATH_IMAGE023
的相似度值
Figure 631110DEST_PATH_IMAGE024
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 624474DEST_PATH_IMAGE023
加权得到新的特征图
Figure 175541DEST_PATH_IMAGE188
Figure 912553DEST_PATH_IMAGE026
为新的特征图中横坐标为
Figure 232675DEST_PATH_IMAGE020
,纵坐标为
Figure 662520DEST_PATH_IMAGE021
的候选片段的特征。
(h)计算新的特征图
Figure 435304DEST_PATH_IMAGE027
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 710427DEST_PATH_IMAGE028
,其中
Figure 353898DEST_PATH_IMAGE029
为第
Figure 485802DEST_PATH_IMAGE030
帧的特征,
Figure 214724DEST_PATH_IMAGE031
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure 326162DEST_PATH_IMAGE032
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure 824139DEST_PATH_IMAGE189
Figure 392524DEST_PATH_IMAGE034
,其中
Figure 343162DEST_PATH_IMAGE190
为划分的左侧片段的第
Figure 756826DEST_PATH_IMAGE020
帧的特征,
Figure 109310DEST_PATH_IMAGE036
为划分的左侧片段的总帧数,
Figure 848596DEST_PATH_IMAGE037
为划分的右侧片段的第
Figure 286530DEST_PATH_IMAGE021
帧的特征,
Figure 503885DEST_PATH_IMAGE038
为划分的右侧片段的总帧数。
(i)在左侧片段
Figure 976455DEST_PATH_IMAGE039
中得到左侧关键帧序列
Figure 621063DEST_PATH_IMAGE040
,在右侧片段
Figure 546293DEST_PATH_IMAGE041
中得到右侧关键帧序列
Figure 68804DEST_PATH_IMAGE042
,其中
Figure 130301DEST_PATH_IMAGE043
为左侧关键帧序列第
Figure 945810DEST_PATH_IMAGE020
个关键帧,
Figure 358337DEST_PATH_IMAGE044
为左侧关键帧序列中关键帧的总个数,
Figure 183073DEST_PATH_IMAGE045
为右侧关键帧序列第
Figure 364656DEST_PATH_IMAGE021
个关键帧,
Figure 554329DEST_PATH_IMAGE046
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure 985310DEST_PATH_IMAGE047
中的关键帧与右侧关键帧序列
Figure 551421DEST_PATH_IMAGE048
中的关键帧的得分
Figure 649827DEST_PATH_IMAGE049
,选取得分
Figure 10401DEST_PATH_IMAGE049
最高值对应的关键帧
Figure 928678DEST_PATH_IMAGE050
作为开始时间戳
Figure 298480DEST_PATH_IMAGE051
,对应的关键帧
Figure 487278DEST_PATH_IMAGE052
作为结束时间戳
Figure 284333DEST_PATH_IMAGE053
,开始时间戳
Figure 689906DEST_PATH_IMAGE051
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 863399DEST_PATH_IMAGE053
表示检测到的无人车历史场景片段的结束时间。
基于视频片段检索的无人车历史场景检测方法的实现基于计算机视觉技术,考虑了人眼定位视频的思想,先将视频划分为视频片段后转换到二维特征图中计算相似度,初步定位到最为相似的候选片段,然后根据经过左右偏移后的视频片段从中划分为左右两部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧,令每一对选取的帧进行交互得出相似度最高的一对帧作为模型定位的开始和结束帧。避免了人工检测方法存在的耗时费力的问题。同时相比于传统方法的模式较为单一的框架,既减少了检索定位所花费的时间,又最大程度的使定位的片段足够的精确。该方法的模型结构直观简洁,可解释性较强,容易部署实现,在无人车历史场景检测中可以快速、准确的完成检测工作。
具体的,步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure 405238DEST_PATH_IMAGE054
个单词的查询文本进行提取特征操作。
具体的,步骤(c)包括如下步骤:
(c-1)特征序列
Figure 373194DEST_PATH_IMAGE055
输入到双向长短期记忆神经网络(BiLSTM)中,分别得到双向长短期记忆神经网络第
Figure 266064DEST_PATH_IMAGE056
个时间步从左向右方向的隐藏层特征
Figure 977668DEST_PATH_IMAGE057
及第
Figure 374014DEST_PATH_IMAGE056
个时间步从右向左方向的隐藏层特征
Figure 512872DEST_PATH_IMAGE191
(c-2)通过公式
Figure 893037DEST_PATH_IMAGE059
计算得到第
Figure 142753DEST_PATH_IMAGE056
个单词的特征向量,式中
Figure 128027DEST_PATH_IMAGE060
为拼接操作。
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure 968944DEST_PATH_IMAGE061
具体的,步骤(d)包括如下步骤:
(d-1)通过公式
Figure 39668DEST_PATH_IMAGE062
计算得到加权后的词级文本特征序列
Figure 391277DEST_PATH_IMAGE192
,式中
Figure 231057DEST_PATH_IMAGE064
为softmax函数,
Figure 242875DEST_PATH_IMAGE065
Figure 535317DEST_PATH_IMAGE066
均为可学习的参数,
Figure 189152DEST_PATH_IMAGE067
为转置,
Figure 883438DEST_PATH_IMAGE068
为第
Figure 331737DEST_PATH_IMAGE056
个单词的特征向量
Figure 377054DEST_PATH_IMAGE069
的长度;
具体的,步骤(e)包括如下步骤:
(e-1)通过公式
Figure 303421DEST_PATH_IMAGE070
将词级文本特征序列
Figure 852214DEST_PATH_IMAGE071
与视频特征
Figure 736994DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure 4027DEST_PATH_IMAGE193
,式中
Figure 235550DEST_PATH_IMAGE073
为点积操作函数。
具体的,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure 638850DEST_PATH_IMAGE074
利用注意力机制中的点积模型计算得到分数值
Figure 897793DEST_PATH_IMAGE075
,其中,
Figure 448860DEST_PATH_IMAGE076
为第
Figure 185872DEST_PATH_IMAGE077
个时间步的视频特征
Figure 240416DEST_PATH_IMAGE002
的长度,通过公式
Figure 670260DEST_PATH_IMAGE078
计算得到各视频之间相互关联区分后的视频特征序列
Figure 443044DEST_PATH_IMAGE079
(f-2)将视频特征序列
Figure 983747DEST_PATH_IMAGE079
的第
Figure 423955DEST_PATH_IMAGE020
个片段到第
Figure 759122DEST_PATH_IMAGE194
个片段进行平均池化得到候选片段的特征
Figure 19202DEST_PATH_IMAGE082
Figure 98016DEST_PATH_IMAGE195
Figure 894196DEST_PATH_IMAGE084
,其中
Figure 400264DEST_PATH_IMAGE085
为二维视频候选片段特征图
Figure 616481DEST_PATH_IMAGE086
的横坐标为
Figure 30145DEST_PATH_IMAGE020
,纵坐标为
Figure 382629DEST_PATH_IMAGE194
的候选片段的特征。
具体的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 121915DEST_PATH_IMAGE086
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure 559850DEST_PATH_IMAGE087
,通过公式
Figure 511625DEST_PATH_IMAGE196
计算得到句子级特征向量
Figure 984195DEST_PATH_IMAGE089
与二维视频候选片段特征图
Figure 628803DEST_PATH_IMAGE086
的相似度值
Figure 554033DEST_PATH_IMAGE090
,式中
Figure 309500DEST_PATH_IMAGE091
为第
Figure 636576DEST_PATH_IMAGE092
个时间步的视频特征
Figure 207410DEST_PATH_IMAGE002
的长度,
Figure 619937DEST_PATH_IMAGE093
Figure 179095DEST_PATH_IMAGE094
均为可学习的参数。
(g-2)通过公式
Figure 360677DEST_PATH_IMAGE197
计算得到一维特征序列
Figure 347088DEST_PATH_IMAGE096
,一维特征序列
Figure 246911DEST_PATH_IMAGE096
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure 813021DEST_PATH_IMAGE097
具体的,步骤(h)包括如下步骤:
(h-1)通过公式
Figure 645848DEST_PATH_IMAGE098
计算新的特征图
Figure 272001DEST_PATH_IMAGE097
中横坐标为
Figure 190279DEST_PATH_IMAGE020
,纵坐标为
Figure 294501DEST_PATH_IMAGE081
的候选片段的相似度得分
Figure 247414DEST_PATH_IMAGE099
,式中
Figure 44468DEST_PATH_IMAGE100
为Sigmoid激活函数,
Figure 184463DEST_PATH_IMAGE198
为Relu激活函数,
Figure 357955DEST_PATH_IMAGE199
Figure 666839DEST_PATH_IMAGE103
Figure 634795DEST_PATH_IMAGE104
Figure 262085DEST_PATH_IMAGE105
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure 708110DEST_PATH_IMAGE200
Figure 635615DEST_PATH_IMAGE107
为所有的相似度得分的总个数。
(h-2)选取在新的二维特征图
Figure 774472DEST_PATH_IMAGE097
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 154638DEST_PATH_IMAGE201
(h-3)通过公式
Figure 404354DEST_PATH_IMAGE202
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure 389627DEST_PATH_IMAGE110
,式中
Figure 230544DEST_PATH_IMAGE111
为第
Figure 301268DEST_PATH_IMAGE112
个单词的权重,
Figure 151413DEST_PATH_IMAGE203
,式中
Figure 991193DEST_PATH_IMAGE114
为exp函数,
Figure 504476DEST_PATH_IMAGE115
Figure 796917DEST_PATH_IMAGE116
Figure 450752DEST_PATH_IMAGE117
均为可学习的参数,
Figure 145039DEST_PATH_IMAGE118
为非线性激活函数。
(h-4) 通过公式
Figure 327758DEST_PATH_IMAGE119
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 373075DEST_PATH_IMAGE120
与文本特征
Figure 565022DEST_PATH_IMAGE121
进行点积操作得到视频特征序列
Figure 113815DEST_PATH_IMAGE122
,式中
Figure 998594DEST_PATH_IMAGE204
为点积操作函数,将视频特征序列
Figure 265627DEST_PATH_IMAGE122
从中间帧划分成左右两个片段
Figure 730107DEST_PATH_IMAGE124
Figure 398986DEST_PATH_IMAGE125
具体的,步骤(i)包括如下步骤:
(i-1)通过公式
Figure 956131DEST_PATH_IMAGE126
计算得到左侧片段中第
Figure 444881DEST_PATH_IMAGE127
帧和第
Figure 978631DEST_PATH_IMAGE128
帧之间的相似度
Figure 502016DEST_PATH_IMAGE129
,式中
Figure 666281DEST_PATH_IMAGE130
为超参数,
Figure 704644DEST_PATH_IMAGE131
为左侧片段
Figure 245347DEST_PATH_IMAGE132
的第
Figure 154397DEST_PATH_IMAGE127
帧特征维度为
Figure 755143DEST_PATH_IMAGE133
的值,
Figure 15223DEST_PATH_IMAGE134
为片段特征的总维度,
Figure 359617DEST_PATH_IMAGE135
为左侧片段
Figure 388752DEST_PATH_IMAGE136
的第
Figure 989760DEST_PATH_IMAGE128
帧特征维度为
Figure 737136DEST_PATH_IMAGE137
的值,
Figure 619642DEST_PATH_IMAGE138
为归一化函数。
(i-2)将左侧片段
Figure 768863DEST_PATH_IMAGE205
中第一帧作为
Figure 445832DEST_PATH_IMAGE127
帧,将第二帧作为
Figure 414925DEST_PATH_IMAGE128
帧。
(i-3)判断相似度
Figure 101122DEST_PATH_IMAGE206
是否小于0.8,如果相似度
Figure 308112DEST_PATH_IMAGE207
则选取
Figure 218299DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-4),如果
Figure 143530DEST_PATH_IMAGE208
,则执行步骤(i-5)。
(i-4)将
Figure 898996DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 226072DEST_PATH_IMAGE127
帧后重复执行步骤(i-2)。
(i-5)将
Figure 808626DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 955573DEST_PATH_IMAGE128
帧后重复执行步骤(i-2)。
(i-6)对左侧片段
Figure 514731DEST_PATH_IMAGE205
从左向右进行遍历后,得到左侧关键帧序列
Figure 696313DEST_PATH_IMAGE209
(i-7)通过公式
Figure 948303DEST_PATH_IMAGE210
计算得到右侧片段中第
Figure 848126DEST_PATH_IMAGE127
帧和第
Figure 210974DEST_PATH_IMAGE128
帧之间的相似度
Figure 247063DEST_PATH_IMAGE144
Figure 404375DEST_PATH_IMAGE145
为右侧片段
Figure 525915DEST_PATH_IMAGE146
的第
Figure 692454DEST_PATH_IMAGE127
帧特征维度为
Figure 848629DEST_PATH_IMAGE137
的值,
Figure 678307DEST_PATH_IMAGE147
为右侧片段
Figure 287143DEST_PATH_IMAGE146
的第
Figure 991794DEST_PATH_IMAGE128
帧特征维度为
Figure 2475DEST_PATH_IMAGE133
的值,
Figure 970431DEST_PATH_IMAGE148
为归一化函数。
(i-8)将右侧片段
Figure 597721DEST_PATH_IMAGE146
中第一帧作为才帧,将第二帧作为
Figure 309325DEST_PATH_IMAGE128
帧。
(i-9)判断相似度
Figure 236830DEST_PATH_IMAGE144
是否小于0.8,如果相似度
Figure 375687DEST_PATH_IMAGE150
则选取
Figure 490274DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-10),如果
Figure 5569DEST_PATH_IMAGE151
,则执行步骤(i-11);
(i-10)将
Figure 522001DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 831760DEST_PATH_IMAGE127
帧后重复执行步骤(i-9)。
(i-11)将
Figure 935107DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 988514DEST_PATH_IMAGE128
帧后重复执行步骤i-9)。
相似度
Figure 359452DEST_PATH_IMAGE211
Figure 840112DEST_PATH_IMAGE212
取值范围在0-1之间,越靠近1表明两个帧的相似度越高。通过这个公式,可以从特征向量的方向与数值两个层面进行不同特征之间的相似度比较,优化了传统比较方式中层面较为单一的问题,使得计算出的相似度更为精准、可靠。
对右侧片段
Figure 398132DEST_PATH_IMAGE146
从左向右进行遍历后,得到右侧关键帧序列
Figure 786388DEST_PATH_IMAGE152
选取关键帧的操作可以在保留最终预测结果的准确性的基础上减少片段中帧的数量过大导致带来的计算量大的问题,为模型的预测节省了时间,提高了效率。
(i-13)通过公式
Figure 746254DEST_PATH_IMAGE214
计算得到关键帧
Figure 928974DEST_PATH_IMAGE155
与关键帧
Figure 708711DEST_PATH_IMAGE156
的得分
Figure 900658DEST_PATH_IMAGE157
,式中
Figure 715030DEST_PATH_IMAGE158
Figure 68651DEST_PATH_IMAGE159
均为超参数,
Figure 335684DEST_PATH_IMAGE160
Figure 844506DEST_PATH_IMAGE161
为左侧关键帧序列
Figure 513385DEST_PATH_IMAGE162
中第
Figure 303486DEST_PATH_IMAGE163
个关键帧特征维度为
Figure 57815DEST_PATH_IMAGE133
的值,
Figure 591565DEST_PATH_IMAGE164
为右侧关键帧序列
Figure 114950DEST_PATH_IMAGE165
中第
Figure 75953DEST_PATH_IMAGE166
个关键帧特征维度为
Figure 317578DEST_PATH_IMAGE133
的值,
Figure 858281DEST_PATH_IMAGE215
Figure 767331DEST_PATH_IMAGE168
为转置,
Figure 368077DEST_PATH_IMAGE169
Figure 628157DEST_PATH_IMAGE170
均为可训练的参数,
Figure 972551DEST_PATH_IMAGE171
Figure 736107DEST_PATH_IMAGE172
Figure 507754DEST_PATH_IMAGE173
均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳
Figure 756595DEST_PATH_IMAGE051
和结束时间戳
Figure 639101DEST_PATH_IMAGE053
Figure 522743DEST_PATH_IMAGE051
Figure 465291DEST_PATH_IMAGE053
分别表示检测到的无人车历史场景片段的开始时间和结束时间。
优选的,还包括在步骤(i)之后执行如下步骤:
(j-1) 通过公式
Figure 699963DEST_PATH_IMAGE216
计算得到位置损失
Figure 386160DEST_PATH_IMAGE177
,式中
Figure 593150DEST_PATH_IMAGE178
为真实值开始时间戳,
Figure 503337DEST_PATH_IMAGE217
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集。
(j-2)通过公式
Figure 428568DEST_PATH_IMAGE180
计算得到得分损失
Figure 184034DEST_PATH_IMAGE181
,式中
Figure 511110DEST_PATH_IMAGE182
为二进制标签,当交并比IoU大于0.5时,
Figure 326620DEST_PATH_IMAGE183
,当交并比IoU小于等于0.5时,
Figure 739147DEST_PATH_IMAGE184
Figure 799769DEST_PATH_IMAGE185
为交并比IoU分数。
(j-3)利用随机梯度下降算法对位置损失
Figure 981351DEST_PATH_IMAGE177
和得分损失
Figure 233341DEST_PATH_IMAGE181
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于视频片段检索的无人车历史场景检测方法,其特征在于,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure 455609DEST_PATH_IMAGE001
,其中
Figure 372749DEST_PATH_IMAGE002
为第
Figure 355748DEST_PATH_IMAGE003
个时间步的视频特征,
Figure 750958DEST_PATH_IMAGE004
为划分的视频时间步总数;
(b)对具有
Figure 535636DEST_PATH_IMAGE005
个单词的查询文本进行提取特征操作,得到特征序列
Figure 358099DEST_PATH_IMAGE006
,其中
Figure 828394DEST_PATH_IMAGE007
为第
Figure 27295DEST_PATH_IMAGE008
个单词的特征向量;
(c)将特征序列
Figure 165015DEST_PATH_IMAGE009
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure 158379DEST_PATH_IMAGE010
及句子级特征向量
Figure 115970DEST_PATH_IMAGE011
,其中
Figure 321824DEST_PATH_IMAGE012
为第
Figure 845209DEST_PATH_IMAGE013
个单词的特征向量;
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure 275053DEST_PATH_IMAGE014
(e)通过词级文本特征序列
Figure 719941DEST_PATH_IMAGE014
和视频特征
Figure 995065DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure 340333DEST_PATH_IMAGE015
,所有的包含词级文本特征的视频特征
Figure 675500DEST_PATH_IMAGE015
构成视频特征序列
Figure 873263DEST_PATH_IMAGE016
(f)将视频特征序列
Figure 952077DEST_PATH_IMAGE017
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure 653317DEST_PATH_IMAGE018
,将视频特征序列
Figure 424964DEST_PATH_IMAGE018
转换成一张二维视频候选片段特征图
Figure 844444DEST_PATH_IMAGE019
,其中
Figure 726949DEST_PATH_IMAGE020
为二维视频候选片段特征图中横坐标为
Figure 282695DEST_PATH_IMAGE021
,纵坐标为
Figure 225244DEST_PATH_IMAGE022
的候选片段的特征;
(g)计算句子级特征向量
Figure 132020DEST_PATH_IMAGE023
与二维视频候选片段特征图
Figure 552637DEST_PATH_IMAGE024
的相似度值
Figure 228469DEST_PATH_IMAGE025
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 341918DEST_PATH_IMAGE024
加权得到新的特征图
Figure 971876DEST_PATH_IMAGE026
Figure 196184DEST_PATH_IMAGE027
为新的特征图中横坐标为
Figure 726523DEST_PATH_IMAGE021
,纵坐标为
Figure 10873DEST_PATH_IMAGE022
的候选片段的特征;
(h)计算新的特征图
Figure 626663DEST_PATH_IMAGE028
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 654661DEST_PATH_IMAGE029
,其中
Figure 305086DEST_PATH_IMAGE030
为第
Figure 494758DEST_PATH_IMAGE031
帧的特征,
Figure 597844DEST_PATH_IMAGE032
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure 163954DEST_PATH_IMAGE033
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure 934464DEST_PATH_IMAGE034
Figure 295038DEST_PATH_IMAGE035
,其中
Figure 383955DEST_PATH_IMAGE036
为划分的左侧片段的第
Figure 753756DEST_PATH_IMAGE021
帧的特征,
Figure 113193DEST_PATH_IMAGE037
为划分的左侧片段的总帧数,
Figure 910248DEST_PATH_IMAGE038
为划分的右侧片段的第
Figure 722346DEST_PATH_IMAGE022
帧的特征,
Figure 895839DEST_PATH_IMAGE039
为划分的右侧片段的总帧数;
(i)在左侧片段
Figure 109782DEST_PATH_IMAGE040
中得到左侧关键帧序列
Figure 77738DEST_PATH_IMAGE041
,在右侧片段
Figure 642712DEST_PATH_IMAGE042
中得到右侧关键帧序列
Figure 354316DEST_PATH_IMAGE043
,其中
Figure 422766DEST_PATH_IMAGE044
为左侧关键帧序列第
Figure 561623DEST_PATH_IMAGE021
个关键帧,
Figure 103639DEST_PATH_IMAGE045
为左侧关键帧序列中关键帧的总个数,
Figure 353355DEST_PATH_IMAGE046
为右侧关键帧序列第
Figure 541891DEST_PATH_IMAGE022
个关键帧,
Figure 851649DEST_PATH_IMAGE047
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure 391215DEST_PATH_IMAGE048
中的关键帧与右侧关键帧序列
Figure 444622DEST_PATH_IMAGE049
中的关键帧的得分
Figure 487664DEST_PATH_IMAGE050
,选取得分
Figure 968324DEST_PATH_IMAGE050
最高值对应的关键帧
Figure 729607DEST_PATH_IMAGE051
作为开始时间戳
Figure 586704DEST_PATH_IMAGE052
,对应的关键帧
Figure 484253DEST_PATH_IMAGE053
作为结束时间戳
Figure 135814DEST_PATH_IMAGE054
,开始时间戳
Figure 882928DEST_PATH_IMAGE052
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 278137DEST_PATH_IMAGE054
表示检测到的无人车历史场景片段的结束时间。
2.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于:步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure 295772DEST_PATH_IMAGE055
个单词的查询文本进行提取特征操作。
3.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(c)包括如下步骤:
(c-1)特征序列
Figure 383814DEST_PATH_IMAGE056
输入到双向长短期记忆神经网络中,分别得到双向长短期记忆神经网络第
Figure 854109DEST_PATH_IMAGE057
个时间步从左向右方向的隐藏层特征
Figure 53010DEST_PATH_IMAGE058
及第
Figure 925151DEST_PATH_IMAGE057
个时间步从右向左方向的隐藏层特征
Figure 184094DEST_PATH_IMAGE059
(c-2)通过公式
Figure 141685DEST_PATH_IMAGE060
计算得到第
Figure 878697DEST_PATH_IMAGE057
个单词的特征向量,式中
Figure 870924DEST_PATH_IMAGE061
为拼接操作;
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure 300768DEST_PATH_IMAGE062
4.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(d)包括如下步骤:
(d-1)通过公式
Figure 276815DEST_PATH_IMAGE063
计算得到加权后的词级文本特征序列
Figure 20780DEST_PATH_IMAGE064
,式中
Figure 368978DEST_PATH_IMAGE065
为softmax函数,
Figure 704144DEST_PATH_IMAGE066
Figure 901907DEST_PATH_IMAGE067
均为可学习的参数,
Figure 980722DEST_PATH_IMAGE068
为转置,
Figure 681961DEST_PATH_IMAGE069
为第
Figure 188029DEST_PATH_IMAGE057
个单词的特征向量
Figure 873088DEST_PATH_IMAGE070
的长度。
5.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(e)包括如下步骤:
(e-1)通过公式
Figure 755594DEST_PATH_IMAGE071
将词级文本特征序列
Figure 311340DEST_PATH_IMAGE072
与视频特征
Figure 253888DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure 160664DEST_PATH_IMAGE073
,式中
Figure 581281DEST_PATH_IMAGE074
为点积操作函数。
6.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure 755649DEST_PATH_IMAGE075
利用注意力机制中的点积模型计算得到分数值
Figure 603519DEST_PATH_IMAGE076
,其中,
Figure 528750DEST_PATH_IMAGE077
为第
Figure 221899DEST_PATH_IMAGE078
个时间步的视频特征
Figure 548975DEST_PATH_IMAGE002
的长度,通过公式
Figure 36588DEST_PATH_IMAGE079
计算得到各视频之间相互关联区分后的视频特征序列
Figure 449115DEST_PATH_IMAGE080
(f-2)将视频特征序列
Figure 414797DEST_PATH_IMAGE080
的第
Figure 596380DEST_PATH_IMAGE021
个片段到第
Figure 520473DEST_PATH_IMAGE081
个片段进行平均池化得到候选片段的特征
Figure 420296DEST_PATH_IMAGE082
Figure 189669DEST_PATH_IMAGE083
Figure 225758DEST_PATH_IMAGE084
,其中
Figure 822218DEST_PATH_IMAGE085
为二维视频候选片段特征图
Figure 209337DEST_PATH_IMAGE086
的横坐标为
Figure 516822DEST_PATH_IMAGE021
,纵坐标为
Figure 672996DEST_PATH_IMAGE081
的候选片段的特征。
7.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 938893DEST_PATH_IMAGE086
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure 547729DEST_PATH_IMAGE087
,通过公式
Figure 924483DEST_PATH_IMAGE088
计算得到句子级特征向量
Figure 935165DEST_PATH_IMAGE089
与二维视频候选片段特征图
Figure 371962DEST_PATH_IMAGE086
的相似度值
Figure 468094DEST_PATH_IMAGE090
,式中
Figure 117381DEST_PATH_IMAGE091
为第
Figure 248148DEST_PATH_IMAGE092
个时间步的视频特征
Figure 88803DEST_PATH_IMAGE002
的长度,
Figure 672231DEST_PATH_IMAGE093
Figure 390789DEST_PATH_IMAGE094
均为可学习的参数;
(g-2)通过公式
Figure 376062DEST_PATH_IMAGE095
计算得到一维特征序列
Figure 889083DEST_PATH_IMAGE096
,一维特征序列
Figure 959807DEST_PATH_IMAGE096
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure 482055DEST_PATH_IMAGE097
8.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(h)包括如下步骤:
(h-1)通过公式
Figure 321835DEST_PATH_IMAGE098
计算新的特征图
Figure 5758DEST_PATH_IMAGE097
中横坐标为
Figure 298199DEST_PATH_IMAGE021
,纵坐标为
Figure 155296DEST_PATH_IMAGE081
的候选片段的相似度得分
Figure 318424DEST_PATH_IMAGE099
,式中
Figure 969986DEST_PATH_IMAGE100
为Sigmoid激活函数,
Figure 218564DEST_PATH_IMAGE101
为Relu激活函数,
Figure 613774DEST_PATH_IMAGE102
Figure 867294DEST_PATH_IMAGE103
Figure 955335DEST_PATH_IMAGE104
Figure 691210DEST_PATH_IMAGE105
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure 827794DEST_PATH_IMAGE106
Figure 168776DEST_PATH_IMAGE107
为所有的相似度得分的总个数;
(h-2)选取在新的二维特征图
Figure 896561DEST_PATH_IMAGE097
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 385311DEST_PATH_IMAGE108
(h-3)通过公式
Figure 89700DEST_PATH_IMAGE109
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure 613085DEST_PATH_IMAGE110
,式中
Figure 246191DEST_PATH_IMAGE111
为第
Figure 487817DEST_PATH_IMAGE112
个单词的权重,
Figure 231782DEST_PATH_IMAGE113
,式中
Figure 609674DEST_PATH_IMAGE114
为exp函数,
Figure 413682DEST_PATH_IMAGE115
Figure 877024DEST_PATH_IMAGE116
Figure 690259DEST_PATH_IMAGE117
均为可学习的参数,
Figure 188237DEST_PATH_IMAGE118
为非线性激活函数;
(h-4)通过公式
Figure 897567DEST_PATH_IMAGE119
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 113784DEST_PATH_IMAGE120
与文本特征
Figure 978315DEST_PATH_IMAGE121
进行点积操作得到视频特征序列
Figure 330799DEST_PATH_IMAGE122
,式中
Figure 211030DEST_PATH_IMAGE123
为点积操作函数,将视频特征序列
Figure 648965DEST_PATH_IMAGE122
从中间帧划分成左右两个片段
Figure 804003DEST_PATH_IMAGE124
Figure 10993DEST_PATH_IMAGE125
9.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(i)包括如下步骤:
(i-1)通过公式
Figure 327705DEST_PATH_IMAGE126
计算得到左侧片段中第
Figure 252935DEST_PATH_IMAGE127
帧和第
Figure 946085DEST_PATH_IMAGE128
帧之间的相似度
Figure 273161DEST_PATH_IMAGE129
,式中
Figure 760774DEST_PATH_IMAGE130
为超参数,
Figure 907722DEST_PATH_IMAGE131
为左侧片段
Figure 935721DEST_PATH_IMAGE132
的第
Figure 819101DEST_PATH_IMAGE127
帧特征维度为
Figure 274353DEST_PATH_IMAGE133
的值,
Figure 643017DEST_PATH_IMAGE134
为片段特征的总维度,
Figure 209128DEST_PATH_IMAGE135
为左侧片段
Figure 917321DEST_PATH_IMAGE136
的第
Figure 543474DEST_PATH_IMAGE128
帧特征维度为
Figure 868276DEST_PATH_IMAGE137
的值,
Figure 238078DEST_PATH_IMAGE138
为归一化函数;
(i-2)将左侧片段
Figure 863094DEST_PATH_IMAGE139
中第一帧作为
Figure 660149DEST_PATH_IMAGE127
帧,将第二帧作为
Figure 472247DEST_PATH_IMAGE128
帧;
(i-3)判断相似度
Figure 380160DEST_PATH_IMAGE129
是否小于0.8,如果相似度
Figure 95569DEST_PATH_IMAGE140
则选取
Figure 63525DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-4),如果
Figure 628498DEST_PATH_IMAGE141
,则执行步骤(i-5);
(i-4)将
Figure 12206DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 142973DEST_PATH_IMAGE127
帧后重复执行步骤(i-2);
(i-5)将
Figure 485093DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 802942DEST_PATH_IMAGE128
帧后重复执行步骤(i-2);
(i-6)对左侧片段
Figure 787078DEST_PATH_IMAGE139
从左向右进行遍历后,得到左侧关键帧序列
Figure 474149DEST_PATH_IMAGE142
(i-7)通过公式
Figure 252750DEST_PATH_IMAGE143
计算得到右侧片段中第
Figure 261157DEST_PATH_IMAGE127
帧和第
Figure 517826DEST_PATH_IMAGE128
帧之间的相似度
Figure 29710DEST_PATH_IMAGE144
Figure 683938DEST_PATH_IMAGE145
为右侧片段
Figure 241959DEST_PATH_IMAGE146
的第
Figure 302319DEST_PATH_IMAGE127
帧特征维度为
Figure 262184DEST_PATH_IMAGE137
的值,
Figure 117008DEST_PATH_IMAGE147
为右侧片段
Figure 896745DEST_PATH_IMAGE146
的第
Figure 760796DEST_PATH_IMAGE128
帧特征维度为
Figure 575168DEST_PATH_IMAGE133
的值,
Figure 600893DEST_PATH_IMAGE148
为归一化函数;
(i-8)将右侧片段
Figure 867926DEST_PATH_IMAGE149
中第一帧作为才帧,将第二帧作为
Figure 768624DEST_PATH_IMAGE128
帧;
(i-9)判断相似度
Figure 437503DEST_PATH_IMAGE144
是否小于0.8,如果相似度
Figure 899708DEST_PATH_IMAGE150
则选取
Figure 654037DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-10),如果
Figure 859891DEST_PATH_IMAGE151
,则执行步骤(i-11);
(i-10)将
Figure 383276DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 16383DEST_PATH_IMAGE127
帧后重复执行步骤(i-9);
(i-11)将
Figure 258008DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 1973DEST_PATH_IMAGE128
帧后重复执行步骤i-9);
(i-12)对右侧片段
Figure 379865DEST_PATH_IMAGE146
从左向右进行遍历后,得到右侧关键帧序列
Figure 449452DEST_PATH_IMAGE152
(i-13)通过公式
Figure 912794DEST_PATH_IMAGE154
计算得到关键帧
Figure 460450DEST_PATH_IMAGE155
与关键帧
Figure 692849DEST_PATH_IMAGE156
的得分
Figure 169223DEST_PATH_IMAGE157
,式中
Figure 119861DEST_PATH_IMAGE158
Figure 471208DEST_PATH_IMAGE159
均为超参数,
Figure 823692DEST_PATH_IMAGE160
Figure 969503DEST_PATH_IMAGE161
为左侧关键帧序列
Figure 407437DEST_PATH_IMAGE162
中第
Figure 562475DEST_PATH_IMAGE163
个关键帧特征维度为
Figure 769465DEST_PATH_IMAGE133
的值,
Figure 86177DEST_PATH_IMAGE164
为右侧关键帧序列
Figure 11408DEST_PATH_IMAGE165
中第
Figure 704557DEST_PATH_IMAGE166
个关键帧特征维度为
Figure 31634DEST_PATH_IMAGE133
的值,
Figure 752203DEST_PATH_IMAGE167
Figure 164729DEST_PATH_IMAGE168
为转置,
Figure 661570DEST_PATH_IMAGE169
Figure 843152DEST_PATH_IMAGE170
均为可训练的参数,
Figure 501667DEST_PATH_IMAGE171
Figure 135911DEST_PATH_IMAGE172
Figure 905283DEST_PATH_IMAGE173
均为可训练的参数。
10.根据权利要求8所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,还包括在步骤(i)之后执行如下步骤:
(j-1)通过公式
Figure 206952DEST_PATH_IMAGE174
计算得到位置损失
Figure 301947DEST_PATH_IMAGE175
,式中
Figure 423487DEST_PATH_IMAGE176
为真实值开始时间戳,
Figure 996550DEST_PATH_IMAGE177
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集;
(j-2)通过公式
Figure 152725DEST_PATH_IMAGE178
计算得到得分损失
Figure 949780DEST_PATH_IMAGE179
,式中
Figure 517203DEST_PATH_IMAGE180
为二进制标签,当交并比IoU大于0.5时,
Figure 628379DEST_PATH_IMAGE181
,当交并比IoU小于等于0.5时,
Figure 639060DEST_PATH_IMAGE182
Figure 607016DEST_PATH_IMAGE183
为交并比IoU分数;
(j-3)利用随机梯度下降算法对位置损失
Figure 171990DEST_PATH_IMAGE175
和得分损失
Figure 86856DEST_PATH_IMAGE179
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
CN202211110912.5A 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法 Active CN115187917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211110912.5A CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211110912.5A CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Publications (2)

Publication Number Publication Date
CN115187917A true CN115187917A (zh) 2022-10-14
CN115187917B CN115187917B (zh) 2022-11-25

Family

ID=83524593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211110912.5A Active CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Country Status (1)

Country Link
CN (1) CN115187917B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080271098A1 (en) * 2007-04-30 2008-10-30 Yahoo! Inc. System and method for video conversations
US20090087085A1 (en) * 2007-09-27 2009-04-02 John Eric Eaton Tracker component for behavioral recognition system
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN110121118A (zh) * 2019-06-17 2019-08-13 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN112347993A (zh) * 2020-11-30 2021-02-09 吉林大学 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法
CN112348102A (zh) * 2020-11-16 2021-02-09 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN114297432A (zh) * 2021-08-05 2022-04-08 腾讯科技(深圳)有限公司 一种视频检索方法、装置、设备及计算机可读存储介质
CN114595360A (zh) * 2022-01-20 2022-06-07 浙江阿蚂科技有限公司 一种基于时序特征的同源视频检索方法及系统
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114758285A (zh) * 2022-06-14 2022-07-15 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法
CN114970726A (zh) * 2022-05-31 2022-08-30 重庆长安汽车股份有限公司 一种多传感器自动驾驶算法的评估及可视化方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080271098A1 (en) * 2007-04-30 2008-10-30 Yahoo! Inc. System and method for video conversations
US20090087085A1 (en) * 2007-09-27 2009-04-02 John Eric Eaton Tracker component for behavioral recognition system
CN108228915A (zh) * 2018-03-29 2018-06-29 华南理工大学 一种基于深度学习的视频检索方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN110121118A (zh) * 2019-06-17 2019-08-13 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN112348102A (zh) * 2020-11-16 2021-02-09 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112347993A (zh) * 2020-11-30 2021-02-09 吉林大学 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法
CN112685597A (zh) * 2021-03-12 2021-04-20 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN114297432A (zh) * 2021-08-05 2022-04-08 腾讯科技(深圳)有限公司 一种视频检索方法、装置、设备及计算机可读存储介质
CN114595360A (zh) * 2022-01-20 2022-06-07 浙江阿蚂科技有限公司 一种基于时序特征的同源视频检索方法及系统
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114970726A (zh) * 2022-05-31 2022-08-30 重庆长安汽车股份有限公司 一种多传感器自动驾驶算法的评估及可视化方法及系统
CN114758285A (zh) * 2022-06-14 2022-07-15 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MENGMENG KANG 等: "Video Clip Retrieval Based on Incidence Matrix and Dynamic-step Sliding-window", 《20IO INTERNATIONAL CONFERENCE ON COMPUTER APPLICATION AND SYSTEM MODELING》 *
张风超 等: "基于宏块类型信息的快速视频分段算法", 《红外与激光工程》 *
裴鹏鹏 等: "一种面向视觉ADAS的场景库构建方法", 《汽车科技》 *

Also Published As

Publication number Publication date
CN115187917B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN109492529A (zh) 一种多尺度特征提取及全局特征融合的人脸表情识别方法
CN110347873A (zh) 视频分类方法、装置、电子设备及存储介质
CN112328767A (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN106055576A (zh) 一种大规模数据背景下的快速有效的图像检索方法
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN111401426B (zh) 基于伪标签学习的小样本高光谱图像分类方法
CN116580440B (zh) 基于视觉transformer的轻量级唇语识别方法
CN115222998B (zh) 一种图像分类方法
CN110689044A (zh) 一种结合目标间关系的目标检测方法及系统
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN116129174A (zh) 基于特征细化自监督学习的广义零样本图像分类方法
US20220156647A1 (en) Analysis device, analysis method, and analysis program
CN105975982B (zh) 一种前方车辆检测方法
CN115187917B (zh) 基于视频片段检索的无人车历史场景检测方法
CN116485792B (zh) 组织病理学亚型预测方法及成像方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法
CN114297237A (zh) 基于类别融合的三维点云数据检索方法、装置及计算机设备
Siddiqui et al. Efficient ConvNet Optimization through Width Modification Guided with Gaussian Processes
Nguyen et al. Improve object detection performance with efficient task-alignment module
CN114937289B (zh) 一种基于异构伪标签学习的跨域行人检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant