CN115187917B - 基于视频片段检索的无人车历史场景检测方法 - Google Patents

基于视频片段检索的无人车历史场景检测方法 Download PDF

Info

Publication number
CN115187917B
CN115187917B CN202211110912.5A CN202211110912A CN115187917B CN 115187917 B CN115187917 B CN 115187917B CN 202211110912 A CN202211110912 A CN 202211110912A CN 115187917 B CN115187917 B CN 115187917B
Authority
CN
China
Prior art keywords
frame
video
feature
sequence
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211110912.5A
Other languages
English (en)
Other versions
CN115187917A (zh
Inventor
聂秀山
潘嘉男
谭智方
袭肖明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202211110912.5A priority Critical patent/CN115187917B/zh
Publication of CN115187917A publication Critical patent/CN115187917A/zh
Application granted granted Critical
Publication of CN115187917B publication Critical patent/CN115187917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Abstract

一种基于视频片段检索的无人车历史场景检测方法,属于计算机视觉技术领域,基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。

Description

基于视频片段检索的无人车历史场景检测方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于视频片段检索的无人车历史场景检测方法。
背景技术
计算机视觉被运用到无人车中做目标检测、自动驾驶等功能,随着无人车技术的创新,越来越多的无人车被用于日常生活中。而在无人车使用过程中,若车辆管理员想了解到过去的某段时间内车辆是否经过了原先设定的目的地,或者是想要了解到某一场景的具体情况,一种简单的办法是由工作人员翻阅历史视频,但是这种方式会耗费很多的精力和时间。而现有的视频片段检索技术中通常是使用传统的框架进行划分候选片段然后进行评分选出最高的片段,或者是使用定位感知的方法直接对视频进行开始和结束帧的定位,缺少可解释性,所以这样的模式还不能够快速、精确的判断与检测。
发明内容
本发明为了克服以上技术的不足,提供了一种能够根据工作人员以自然语言描述的场景,基于人眼搜索思想的,从无人车历史视频中快速精确的定位到场景所在视频片段的基于视频片段检索的无人车历史场景检测方法。
本发明克服其技术问题所采用的技术方案是:
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure 963076DEST_PATH_IMAGE001
,其中
Figure 695409DEST_PATH_IMAGE002
为第
Figure 809995DEST_PATH_IMAGE003
个时间步的视频特征,
Figure 325290DEST_PATH_IMAGE004
为划分的视频时间步总数;
(b)对具有
Figure 343187DEST_PATH_IMAGE005
个单词的查询文本进行提取特征操作,得到特征序列
Figure 184104DEST_PATH_IMAGE006
,其中
Figure 254828DEST_PATH_IMAGE007
为第
Figure 104973DEST_PATH_IMAGE008
个单词的特征向量;
(c)将特征序列
Figure 944753DEST_PATH_IMAGE009
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure 425413DEST_PATH_IMAGE010
及句子级特征向量
Figure 514591DEST_PATH_IMAGE011
,其中
Figure 106110DEST_PATH_IMAGE012
为第
Figure 597134DEST_PATH_IMAGE013
个单词的特征向量;
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure 514274DEST_PATH_IMAGE014
(e)通过词级文本特征序列
Figure 825170DEST_PATH_IMAGE014
和视频特征
Figure 220379DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure 332954DEST_PATH_IMAGE015
,所有的包含词级文本特征的视频特征
Figure 155416DEST_PATH_IMAGE015
构成视频特征序列
Figure 219187DEST_PATH_IMAGE016
(f)将视频特征序列
Figure 418087DEST_PATH_IMAGE016
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure 618125DEST_PATH_IMAGE017
,将视频特征序列
Figure 611488DEST_PATH_IMAGE017
转换成一张二维视频候选片段特征图
Figure 162556DEST_PATH_IMAGE018
,其中
Figure 899567DEST_PATH_IMAGE019
为二维视频候选片段特征图中横坐标为
Figure 954111DEST_PATH_IMAGE020
,纵坐标为
Figure 383955DEST_PATH_IMAGE021
的候选片段的特征;
(g)计算句子级特征向量
Figure 625581DEST_PATH_IMAGE022
与二维视频候选片段特征图
Figure 697442DEST_PATH_IMAGE023
的相似度值
Figure 340913DEST_PATH_IMAGE024
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 207238DEST_PATH_IMAGE023
加权得到新的特征图
Figure 936159DEST_PATH_IMAGE025
Figure 313176DEST_PATH_IMAGE026
为新的特征图中横坐标为
Figure 811154DEST_PATH_IMAGE020
,纵坐标为
Figure 113959DEST_PATH_IMAGE021
的候选片段的特征;
(h)计算新的特征图
Figure 64598DEST_PATH_IMAGE027
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 743841DEST_PATH_IMAGE028
,其中
Figure 96325DEST_PATH_IMAGE029
为第
Figure 835611DEST_PATH_IMAGE030
帧的特征,
Figure 273545DEST_PATH_IMAGE031
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure 694162DEST_PATH_IMAGE032
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure 697890DEST_PATH_IMAGE033
Figure 811340DEST_PATH_IMAGE034
,其中
Figure 533308DEST_PATH_IMAGE035
为划分的左侧片段的第
Figure 757616DEST_PATH_IMAGE020
帧的特征,
Figure 851736DEST_PATH_IMAGE036
为划分的左侧片段的总帧数,
Figure 136087DEST_PATH_IMAGE037
为划分的右侧片段的第
Figure 345352DEST_PATH_IMAGE021
帧的特征,
Figure 373350DEST_PATH_IMAGE038
为划分的右侧片段的总帧数;
(i)在左侧片段
Figure 86091DEST_PATH_IMAGE039
中得到左侧关键帧序列
Figure 275764DEST_PATH_IMAGE040
,在右侧片段
Figure 972325DEST_PATH_IMAGE041
中得到右侧关键帧序列
Figure 538435DEST_PATH_IMAGE042
,其中
Figure 636841DEST_PATH_IMAGE043
为左侧关键帧序列第
Figure 997416DEST_PATH_IMAGE020
个关键帧,
Figure 915693DEST_PATH_IMAGE044
为左侧关键帧序列中关键帧的总个数,
Figure 285495DEST_PATH_IMAGE045
为右侧关键帧序列第
Figure 474293DEST_PATH_IMAGE021
个关键帧,
Figure 271347DEST_PATH_IMAGE046
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure 411342DEST_PATH_IMAGE047
中的关键帧与右侧关键帧序列
Figure 584834DEST_PATH_IMAGE048
中的关键帧的得分
Figure 595515DEST_PATH_IMAGE049
,选取得分
Figure 360209DEST_PATH_IMAGE049
最高值对应的关键帧
Figure 456341DEST_PATH_IMAGE050
作为开始时间戳
Figure 699104DEST_PATH_IMAGE051
,对应的关键帧
Figure 564291DEST_PATH_IMAGE052
作为结束时间戳
Figure 499886DEST_PATH_IMAGE053
,开始时间戳
Figure 83314DEST_PATH_IMAGE051
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 864189DEST_PATH_IMAGE053
表示检测到的无人车历史场景片段的结束时间。
优选的,步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure 849462DEST_PATH_IMAGE054
个单词的查询文本进行提取特征操作。
进一步的,步骤(c)包括如下步骤:
(c-1)特征序列
Figure 457423DEST_PATH_IMAGE055
输入到双向长短期记忆神经网络中,分别得到双向长短期记忆神经网络第
Figure 528148DEST_PATH_IMAGE056
个时间步从左向右方向的隐藏层特征
Figure 378292DEST_PATH_IMAGE057
及第
Figure 218072DEST_PATH_IMAGE056
个时间步从右向左方向的隐藏层特征
Figure 698732DEST_PATH_IMAGE058
(c-2)通过公式
Figure 522331DEST_PATH_IMAGE059
计算得到第
Figure 379429DEST_PATH_IMAGE056
个单词的特征向量,式中
Figure 870453DEST_PATH_IMAGE060
为拼接操作;
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure 522014DEST_PATH_IMAGE061
进一步的,步骤(d)包括如下步骤:
(d-1)通过公式
Figure 98489DEST_PATH_IMAGE062
计算得到加权后的词级文本特征序列
Figure 493698DEST_PATH_IMAGE063
,式中
Figure 839229DEST_PATH_IMAGE064
为softmax函数,
Figure 927271DEST_PATH_IMAGE065
Figure 725462DEST_PATH_IMAGE066
均为可学习的参数,
Figure 924363DEST_PATH_IMAGE067
为转置,
Figure 625865DEST_PATH_IMAGE068
为第
Figure 884808DEST_PATH_IMAGE056
个单词的特征向量
Figure 170296DEST_PATH_IMAGE069
的长度。
进一步的,步骤(e)包括如下步骤:
(e-1)通过公式
Figure 907307DEST_PATH_IMAGE070
将词级文本特征序列
Figure 430693DEST_PATH_IMAGE071
与视频特征
Figure 657275DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure 633321DEST_PATH_IMAGE072
,式中
Figure 970761DEST_PATH_IMAGE073
为点积操作函数。
进一步的,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure 614232DEST_PATH_IMAGE074
利用注意力机制中的点积模型计算得到分数值
Figure 480557DEST_PATH_IMAGE075
,其中,
Figure 209479DEST_PATH_IMAGE076
为第
Figure 85031DEST_PATH_IMAGE077
个时间步的视频特征
Figure 583008DEST_PATH_IMAGE002
的长度,通过公式
Figure 133418DEST_PATH_IMAGE078
计算得到各视频之间相互关联区分后的视频特征序列
Figure 146373DEST_PATH_IMAGE079
(f-2)将视频特征序列
Figure 560037DEST_PATH_IMAGE080
的第
Figure 912521DEST_PATH_IMAGE020
个片段到第
Figure 651807DEST_PATH_IMAGE081
个片段进行平均池化得到候选片段的特征
Figure 89742DEST_PATH_IMAGE082
Figure 307096DEST_PATH_IMAGE083
Figure 779666DEST_PATH_IMAGE084
,其中
Figure 158695DEST_PATH_IMAGE085
为二维视频候选片段特征图
Figure 83925DEST_PATH_IMAGE086
的横坐标为
Figure 308233DEST_PATH_IMAGE020
,纵坐标为
Figure 933512DEST_PATH_IMAGE081
的候选片段的特征。
进一步的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 217863DEST_PATH_IMAGE086
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure 161548DEST_PATH_IMAGE087
,通过公式
Figure 923968DEST_PATH_IMAGE088
计算得到句子级特征向量
Figure 902288DEST_PATH_IMAGE089
与二维视频候选片段特征图
Figure 357540DEST_PATH_IMAGE086
的相似度值
Figure 788521DEST_PATH_IMAGE090
,式中
Figure 354632DEST_PATH_IMAGE091
为第
Figure 187459DEST_PATH_IMAGE092
个时间步的视频特征
Figure 813612DEST_PATH_IMAGE002
的长度,
Figure 731890DEST_PATH_IMAGE093
Figure 836112DEST_PATH_IMAGE094
均为可学习的参数;
(g-2)通过公式
Figure 290489DEST_PATH_IMAGE095
计算得到一维特征序列
Figure 87544DEST_PATH_IMAGE096
,一维特征序列
Figure 493117DEST_PATH_IMAGE096
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure 666610DEST_PATH_IMAGE097
进一步的,步骤(h)包括如下步骤:
(h-1)通过公式
Figure 208450DEST_PATH_IMAGE098
计算新的特征图
Figure 176406DEST_PATH_IMAGE097
中横坐标为
Figure 69275DEST_PATH_IMAGE020
,纵坐标为
Figure 780879DEST_PATH_IMAGE081
的候选片段的相似度得分
Figure 911646DEST_PATH_IMAGE099
,式中
Figure 847241DEST_PATH_IMAGE100
为Sigmoid激活函数,
Figure 430669DEST_PATH_IMAGE101
为Relu激活函数,
Figure 680385DEST_PATH_IMAGE102
Figure 196817DEST_PATH_IMAGE103
Figure 506576DEST_PATH_IMAGE104
Figure 875502DEST_PATH_IMAGE105
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure 787964DEST_PATH_IMAGE106
Figure 627744DEST_PATH_IMAGE107
为所有的相似度得分的总个数;
(h-2)选取在新的二维特征图
Figure 905141DEST_PATH_IMAGE097
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 728741DEST_PATH_IMAGE108
(h-3)通过公式
Figure 680779DEST_PATH_IMAGE109
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure 375065DEST_PATH_IMAGE110
,式中
Figure 557785DEST_PATH_IMAGE111
为第
Figure 603101DEST_PATH_IMAGE112
个单词的权重,
Figure 795048DEST_PATH_IMAGE113
,式中
Figure 874999DEST_PATH_IMAGE114
为exp函数,
Figure 759779DEST_PATH_IMAGE115
Figure 26812DEST_PATH_IMAGE116
Figure 491292DEST_PATH_IMAGE117
均为可学习的参数,
Figure 160170DEST_PATH_IMAGE118
为非线性激活函数;
(h-4)通过公式
Figure 717316DEST_PATH_IMAGE119
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 206066DEST_PATH_IMAGE120
与文本特征
Figure 739815DEST_PATH_IMAGE121
进行点积操作得到视频特征序列
Figure 263201DEST_PATH_IMAGE122
,式中
Figure 427466DEST_PATH_IMAGE123
为点积操作函数,将视频特征序列
Figure 465829DEST_PATH_IMAGE122
从中间帧划分成左右两个片段
Figure 6532DEST_PATH_IMAGE124
Figure 181161DEST_PATH_IMAGE125
进一步的,步骤(i)包括如下步骤:
(i-1)通过公式
Figure 781907DEST_PATH_IMAGE126
计算得到左侧片段中第
Figure 776408DEST_PATH_IMAGE127
帧和第
Figure 120801DEST_PATH_IMAGE128
帧之间的相似度
Figure 415516DEST_PATH_IMAGE129
,式中
Figure 921584DEST_PATH_IMAGE130
为超参数,
Figure 170425DEST_PATH_IMAGE131
为左侧片段
Figure 52930DEST_PATH_IMAGE132
的第
Figure 202152DEST_PATH_IMAGE127
帧特征维度为
Figure 879121DEST_PATH_IMAGE133
的值,
Figure 848214DEST_PATH_IMAGE134
为片段特征的总维度,
Figure 534410DEST_PATH_IMAGE135
为左侧片段
Figure 538138DEST_PATH_IMAGE136
的第
Figure 651588DEST_PATH_IMAGE128
帧特征维度为
Figure 373556DEST_PATH_IMAGE137
的值,
Figure 597864DEST_PATH_IMAGE138
为归一化函数;
(i-2)将左侧片段
Figure 456099DEST_PATH_IMAGE139
中第一帧作为
Figure 740450DEST_PATH_IMAGE127
帧,将第二帧作为
Figure 185600DEST_PATH_IMAGE128
帧;
(i-3)判断相似度
Figure 213598DEST_PATH_IMAGE129
是否小于0.8,如果相似度
Figure 395181DEST_PATH_IMAGE140
则选取
Figure 381592DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-4),如果
Figure 281415DEST_PATH_IMAGE141
,则执行步骤(i-5);
(i-4)将
Figure 644263DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 680352DEST_PATH_IMAGE127
帧后重复执行步骤(i-2);
(i-5)将
Figure 837664DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 959204DEST_PATH_IMAGE128
帧后重复执行步骤(i-2);
(i-6)对左侧片段
Figure 125743DEST_PATH_IMAGE139
从左向右进行遍历后,得到左侧关键帧序列
Figure 281918DEST_PATH_IMAGE142
(i-7)通过公式
Figure 610131DEST_PATH_IMAGE143
计算得到右侧片段中第
Figure 218967DEST_PATH_IMAGE127
帧和第
Figure 413363DEST_PATH_IMAGE128
帧之间的相似度
Figure 424045DEST_PATH_IMAGE144
Figure 188738DEST_PATH_IMAGE145
为右侧片段
Figure 284870DEST_PATH_IMAGE146
的第
Figure 996475DEST_PATH_IMAGE127
帧特征维度为
Figure 658400DEST_PATH_IMAGE137
的值,
Figure 797257DEST_PATH_IMAGE147
为右侧片段
Figure 911844DEST_PATH_IMAGE146
的第
Figure 427139DEST_PATH_IMAGE128
帧特征维度为
Figure 943571DEST_PATH_IMAGE133
的值,
Figure 253329DEST_PATH_IMAGE148
为归一化函数;
(i-8)将右侧片段
Figure 855212DEST_PATH_IMAGE149
中第一帧作为才帧,将第二帧作为
Figure 439777DEST_PATH_IMAGE128
帧;
(i-9)判断相似度
Figure 108918DEST_PATH_IMAGE144
是否小于0.8,如果相似度
Figure 589578DEST_PATH_IMAGE150
则选取
Figure 944336DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-10),如果
Figure 332592DEST_PATH_IMAGE151
,则执行步骤(i-11);
(i-10)将
Figure 823616DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 304538DEST_PATH_IMAGE127
帧后重复执行步骤(i-9);
(i-11)将
Figure 208909DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 604119DEST_PATH_IMAGE128
帧后重复执行步骤i-9);
(i-12)对右侧片段
Figure 215228DEST_PATH_IMAGE146
从左向右进行遍历后,得到右侧关键帧序列
Figure 37691DEST_PATH_IMAGE152
(i-13)通过公式
Figure 321036DEST_PATH_IMAGE154
计算得到关键帧
Figure 818139DEST_PATH_IMAGE155
与关键帧
Figure 487017DEST_PATH_IMAGE156
的得分
Figure 277119DEST_PATH_IMAGE157
,式中
Figure 31448DEST_PATH_IMAGE158
Figure 565198DEST_PATH_IMAGE159
均为超参数,
Figure 885321DEST_PATH_IMAGE160
Figure 49586DEST_PATH_IMAGE161
为左侧关键帧序列
Figure 822370DEST_PATH_IMAGE162
中第
Figure 363072DEST_PATH_IMAGE163
个关键帧特征维度为
Figure 537702DEST_PATH_IMAGE133
的值,
Figure 138447DEST_PATH_IMAGE164
为右侧关键帧序列
Figure 132948DEST_PATH_IMAGE165
中第
Figure 775544DEST_PATH_IMAGE166
个关键帧特征维度为
Figure 7943DEST_PATH_IMAGE133
的值,
Figure 310748DEST_PATH_IMAGE167
Figure 261386DEST_PATH_IMAGE168
为转置,
Figure 940629DEST_PATH_IMAGE169
Figure 293113DEST_PATH_IMAGE170
均为可训练的参数,
Figure 32399DEST_PATH_IMAGE171
Figure 470334DEST_PATH_IMAGE172
Figure 687689DEST_PATH_IMAGE173
均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳
Figure 894679DEST_PATH_IMAGE174
和结束时间戳
Figure 804866DEST_PATH_IMAGE175
Figure 730097DEST_PATH_IMAGE174
Figure 987028DEST_PATH_IMAGE175
分别表示检测到的无人车历史场景片段的开始时间和结束时间。
进一步的,还包括在步骤(i)之后执行如下步骤:
(j-1)通过公式
Figure 314104DEST_PATH_IMAGE176
计算得到位置损失
Figure 129614DEST_PATH_IMAGE177
,式中
Figure 542140DEST_PATH_IMAGE178
为真实值开始时间戳,
Figure 101298DEST_PATH_IMAGE179
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集;
(j-2)通过公式
Figure 282880DEST_PATH_IMAGE180
计算得到得分损失
Figure 534870DEST_PATH_IMAGE181
,式中
Figure 169114DEST_PATH_IMAGE182
为二进制标签,当交并比IoU大于0.5时,
Figure 531962DEST_PATH_IMAGE183
,当交并比IoU小于等于0.5时,
Figure 833630DEST_PATH_IMAGE184
Figure 990942DEST_PATH_IMAGE185
为交并比IoU分数;
(j-3)利用随机梯度下降算法对位置损失
Figure 112482DEST_PATH_IMAGE177
和得分损失
Figure 780486DEST_PATH_IMAGE186
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
本发明的有益效果是:基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure 936661DEST_PATH_IMAGE001
,其中
Figure 264874DEST_PATH_IMAGE002
为第
Figure 873710DEST_PATH_IMAGE003
个时间步的视频特征,
Figure 578361DEST_PATH_IMAGE004
为划分的视频时间步总数。
(b)对具有
Figure 589042DEST_PATH_IMAGE005
个单词的查询文本进行提取特征操作,得到特征序列
Figure 88156DEST_PATH_IMAGE187
,其中
Figure 184288DEST_PATH_IMAGE007
为第
Figure 692630DEST_PATH_IMAGE008
个单词的特征向量。
(c)将特征序列
Figure 557818DEST_PATH_IMAGE009
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure 227834DEST_PATH_IMAGE010
及句子级特征向量
Figure 811262DEST_PATH_IMAGE011
,其中
Figure 636478DEST_PATH_IMAGE012
为第
Figure 356172DEST_PATH_IMAGE013
个单词的特征向量。
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure 462669DEST_PATH_IMAGE014
(e)通过词级文本特征序列
Figure 533393DEST_PATH_IMAGE014
和视频特征
Figure 586799DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure 957738DEST_PATH_IMAGE015
,所有的包含词级文本特征的视频特征
Figure 235135DEST_PATH_IMAGE015
构成视频特征序列
Figure 793156DEST_PATH_IMAGE016
(f)将视频特征序列
Figure 915833DEST_PATH_IMAGE016
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure 610119DEST_PATH_IMAGE017
,将视频特征序列
Figure 323997DEST_PATH_IMAGE017
转换成一张二维视频候选片段特征图
Figure 103734DEST_PATH_IMAGE018
,其中
Figure 30102DEST_PATH_IMAGE019
为二维视频候选片段特征图中横坐标为
Figure 844474DEST_PATH_IMAGE020
,纵坐标为
Figure 965139DEST_PATH_IMAGE021
的候选片段的特征。
(g)计算句子级特征向量
Figure 232173DEST_PATH_IMAGE022
与二维视频候选片段特征图
Figure 431073DEST_PATH_IMAGE023
的相似度值
Figure 631110DEST_PATH_IMAGE024
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 624474DEST_PATH_IMAGE023
加权得到新的特征图
Figure 175541DEST_PATH_IMAGE188
Figure 912553DEST_PATH_IMAGE026
为新的特征图中横坐标为
Figure 232675DEST_PATH_IMAGE020
,纵坐标为
Figure 662520DEST_PATH_IMAGE021
的候选片段的特征。
(h)计算新的特征图
Figure 435304DEST_PATH_IMAGE027
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 710427DEST_PATH_IMAGE028
,其中
Figure 353898DEST_PATH_IMAGE029
为第
Figure 485802DEST_PATH_IMAGE030
帧的特征,
Figure 214724DEST_PATH_IMAGE031
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure 326162DEST_PATH_IMAGE032
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure 824139DEST_PATH_IMAGE189
Figure 392524DEST_PATH_IMAGE034
,其中
Figure 343162DEST_PATH_IMAGE190
为划分的左侧片段的第
Figure 756826DEST_PATH_IMAGE020
帧的特征,
Figure 109310DEST_PATH_IMAGE036
为划分的左侧片段的总帧数,
Figure 848596DEST_PATH_IMAGE037
为划分的右侧片段的第
Figure 286530DEST_PATH_IMAGE021
帧的特征,
Figure 503885DEST_PATH_IMAGE038
为划分的右侧片段的总帧数。
(i)在左侧片段
Figure 976455DEST_PATH_IMAGE039
中得到左侧关键帧序列
Figure 621063DEST_PATH_IMAGE040
,在右侧片段
Figure 546293DEST_PATH_IMAGE041
中得到右侧关键帧序列
Figure 68804DEST_PATH_IMAGE042
,其中
Figure 130301DEST_PATH_IMAGE043
为左侧关键帧序列第
Figure 945810DEST_PATH_IMAGE020
个关键帧,
Figure 358337DEST_PATH_IMAGE044
为左侧关键帧序列中关键帧的总个数,
Figure 183073DEST_PATH_IMAGE045
为右侧关键帧序列第
Figure 364656DEST_PATH_IMAGE021
个关键帧,
Figure 554329DEST_PATH_IMAGE046
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure 985310DEST_PATH_IMAGE047
中的关键帧与右侧关键帧序列
Figure 551421DEST_PATH_IMAGE048
中的关键帧的得分
Figure 649827DEST_PATH_IMAGE049
,选取得分
Figure 10401DEST_PATH_IMAGE049
最高值对应的关键帧
Figure 928678DEST_PATH_IMAGE050
作为开始时间戳
Figure 298480DEST_PATH_IMAGE051
,对应的关键帧
Figure 487278DEST_PATH_IMAGE052
作为结束时间戳
Figure 284333DEST_PATH_IMAGE053
,开始时间戳
Figure 689906DEST_PATH_IMAGE051
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 863399DEST_PATH_IMAGE053
表示检测到的无人车历史场景片段的结束时间。
基于视频片段检索的无人车历史场景检测方法的实现基于计算机视觉技术,考虑了人眼定位视频的思想,先将视频划分为视频片段后转换到二维特征图中计算相似度,初步定位到最为相似的候选片段,然后根据经过左右偏移后的视频片段从中划分为左右两部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧,令每一对选取的帧进行交互得出相似度最高的一对帧作为模型定位的开始和结束帧。避免了人工检测方法存在的耗时费力的问题。同时相比于传统方法的模式较为单一的框架,既减少了检索定位所花费的时间,又最大程度的使定位的片段足够的精确。该方法的模型结构直观简洁,可解释性较强,容易部署实现,在无人车历史场景检测中可以快速、准确的完成检测工作。
具体的,步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure 405238DEST_PATH_IMAGE054
个单词的查询文本进行提取特征操作。
具体的,步骤(c)包括如下步骤:
(c-1)特征序列
Figure 373194DEST_PATH_IMAGE055
输入到双向长短期记忆神经网络(BiLSTM)中,分别得到双向长短期记忆神经网络第
Figure 266064DEST_PATH_IMAGE056
个时间步从左向右方向的隐藏层特征
Figure 977668DEST_PATH_IMAGE057
及第
Figure 374014DEST_PATH_IMAGE056
个时间步从右向左方向的隐藏层特征
Figure 512872DEST_PATH_IMAGE191
(c-2)通过公式
Figure 893037DEST_PATH_IMAGE059
计算得到第
Figure 142753DEST_PATH_IMAGE056
个单词的特征向量,式中
Figure 128027DEST_PATH_IMAGE060
为拼接操作。
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure 968944DEST_PATH_IMAGE061
具体的,步骤(d)包括如下步骤:
(d-1)通过公式
Figure 39668DEST_PATH_IMAGE062
计算得到加权后的词级文本特征序列
Figure 391277DEST_PATH_IMAGE192
,式中
Figure 231057DEST_PATH_IMAGE064
为softmax函数,
Figure 242875DEST_PATH_IMAGE065
Figure 535317DEST_PATH_IMAGE066
均为可学习的参数,
Figure 189152DEST_PATH_IMAGE067
为转置,
Figure 883438DEST_PATH_IMAGE068
为第
Figure 331737DEST_PATH_IMAGE056
个单词的特征向量
Figure 377054DEST_PATH_IMAGE069
的长度;
具体的,步骤(e)包括如下步骤:
(e-1)通过公式
Figure 303421DEST_PATH_IMAGE070
将词级文本特征序列
Figure 852214DEST_PATH_IMAGE071
与视频特征
Figure 736994DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure 4027DEST_PATH_IMAGE193
,式中
Figure 235550DEST_PATH_IMAGE073
为点积操作函数。
具体的,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure 638850DEST_PATH_IMAGE074
利用注意力机制中的点积模型计算得到分数值
Figure 897793DEST_PATH_IMAGE075
,其中,
Figure 448860DEST_PATH_IMAGE076
为第
Figure 185872DEST_PATH_IMAGE077
个时间步的视频特征
Figure 240416DEST_PATH_IMAGE002
的长度,通过公式
Figure 670260DEST_PATH_IMAGE078
计算得到各视频之间相互关联区分后的视频特征序列
Figure 443044DEST_PATH_IMAGE079
(f-2)将视频特征序列
Figure 983747DEST_PATH_IMAGE079
的第
Figure 423955DEST_PATH_IMAGE020
个片段到第
Figure 759122DEST_PATH_IMAGE194
个片段进行平均池化得到候选片段的特征
Figure 19202DEST_PATH_IMAGE082
Figure 98016DEST_PATH_IMAGE195
Figure 894196DEST_PATH_IMAGE084
,其中
Figure 400264DEST_PATH_IMAGE085
为二维视频候选片段特征图
Figure 616481DEST_PATH_IMAGE086
的横坐标为
Figure 30145DEST_PATH_IMAGE020
,纵坐标为
Figure 382629DEST_PATH_IMAGE194
的候选片段的特征。
具体的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 121915DEST_PATH_IMAGE086
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure 559850DEST_PATH_IMAGE087
,通过公式
Figure 511625DEST_PATH_IMAGE196
计算得到句子级特征向量
Figure 984195DEST_PATH_IMAGE089
与二维视频候选片段特征图
Figure 628803DEST_PATH_IMAGE086
的相似度值
Figure 554033DEST_PATH_IMAGE090
,式中
Figure 309500DEST_PATH_IMAGE091
为第
Figure 636576DEST_PATH_IMAGE092
个时间步的视频特征
Figure 207410DEST_PATH_IMAGE002
的长度,
Figure 619937DEST_PATH_IMAGE093
Figure 179095DEST_PATH_IMAGE094
均为可学习的参数。
(g-2)通过公式
Figure 360677DEST_PATH_IMAGE197
计算得到一维特征序列
Figure 347088DEST_PATH_IMAGE096
,一维特征序列
Figure 246911DEST_PATH_IMAGE096
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure 813021DEST_PATH_IMAGE097
具体的,步骤(h)包括如下步骤:
(h-1)通过公式
Figure 645848DEST_PATH_IMAGE098
计算新的特征图
Figure 272001DEST_PATH_IMAGE097
中横坐标为
Figure 190279DEST_PATH_IMAGE020
,纵坐标为
Figure 294501DEST_PATH_IMAGE081
的候选片段的相似度得分
Figure 247414DEST_PATH_IMAGE099
,式中
Figure 44468DEST_PATH_IMAGE100
为Sigmoid激活函数,
Figure 184463DEST_PATH_IMAGE198
为Relu激活函数,
Figure 357955DEST_PATH_IMAGE199
Figure 666839DEST_PATH_IMAGE103
Figure 634795DEST_PATH_IMAGE104
Figure 262085DEST_PATH_IMAGE105
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure 708110DEST_PATH_IMAGE200
Figure 635615DEST_PATH_IMAGE107
为所有的相似度得分的总个数。
(h-2)选取在新的二维特征图
Figure 774472DEST_PATH_IMAGE097
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 154638DEST_PATH_IMAGE201
(h-3)通过公式
Figure 404354DEST_PATH_IMAGE202
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure 389627DEST_PATH_IMAGE110
,式中
Figure 230544DEST_PATH_IMAGE111
为第
Figure 301268DEST_PATH_IMAGE112
个单词的权重,
Figure 151413DEST_PATH_IMAGE203
,式中
Figure 991193DEST_PATH_IMAGE114
为exp函数,
Figure 504476DEST_PATH_IMAGE115
Figure 796917DEST_PATH_IMAGE116
Figure 450752DEST_PATH_IMAGE117
均为可学习的参数,
Figure 145039DEST_PATH_IMAGE118
为非线性激活函数。
(h-4) 通过公式
Figure 327758DEST_PATH_IMAGE119
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure 373075DEST_PATH_IMAGE120
与文本特征
Figure 565022DEST_PATH_IMAGE121
进行点积操作得到视频特征序列
Figure 113815DEST_PATH_IMAGE122
,式中
Figure 998594DEST_PATH_IMAGE204
为点积操作函数,将视频特征序列
Figure 265627DEST_PATH_IMAGE122
从中间帧划分成左右两个片段
Figure 730107DEST_PATH_IMAGE124
Figure 398986DEST_PATH_IMAGE125
具体的,步骤(i)包括如下步骤:
(i-1)通过公式
Figure 956131DEST_PATH_IMAGE126
计算得到左侧片段中第
Figure 444881DEST_PATH_IMAGE127
帧和第
Figure 978631DEST_PATH_IMAGE128
帧之间的相似度
Figure 502016DEST_PATH_IMAGE129
,式中
Figure 666281DEST_PATH_IMAGE130
为超参数,
Figure 704644DEST_PATH_IMAGE131
为左侧片段
Figure 245347DEST_PATH_IMAGE132
的第
Figure 154397DEST_PATH_IMAGE127
帧特征维度为
Figure 755143DEST_PATH_IMAGE133
的值,
Figure 15223DEST_PATH_IMAGE134
为片段特征的总维度,
Figure 359617DEST_PATH_IMAGE135
为左侧片段
Figure 388752DEST_PATH_IMAGE136
的第
Figure 989760DEST_PATH_IMAGE128
帧特征维度为
Figure 737136DEST_PATH_IMAGE137
的值,
Figure 619642DEST_PATH_IMAGE138
为归一化函数。
(i-2)将左侧片段
Figure 768863DEST_PATH_IMAGE205
中第一帧作为
Figure 445832DEST_PATH_IMAGE127
帧,将第二帧作为
Figure 414925DEST_PATH_IMAGE128
帧。
(i-3)判断相似度
Figure 101122DEST_PATH_IMAGE206
是否小于0.8,如果相似度
Figure 308112DEST_PATH_IMAGE207
则选取
Figure 218299DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-4),如果
Figure 143530DEST_PATH_IMAGE208
,则执行步骤(i-5)。
(i-4)将
Figure 898996DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 226072DEST_PATH_IMAGE127
帧后重复执行步骤(i-2)。
(i-5)将
Figure 808626DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 955573DEST_PATH_IMAGE128
帧后重复执行步骤(i-2)。
(i-6)对左侧片段
Figure 514731DEST_PATH_IMAGE205
从左向右进行遍历后,得到左侧关键帧序列
Figure 696313DEST_PATH_IMAGE209
(i-7)通过公式
Figure 948303DEST_PATH_IMAGE210
计算得到右侧片段中第
Figure 848126DEST_PATH_IMAGE127
帧和第
Figure 210974DEST_PATH_IMAGE128
帧之间的相似度
Figure 247063DEST_PATH_IMAGE144
Figure 404375DEST_PATH_IMAGE145
为右侧片段
Figure 525915DEST_PATH_IMAGE146
的第
Figure 692454DEST_PATH_IMAGE127
帧特征维度为
Figure 848629DEST_PATH_IMAGE137
的值,
Figure 678307DEST_PATH_IMAGE147
为右侧片段
Figure 287143DEST_PATH_IMAGE146
的第
Figure 991794DEST_PATH_IMAGE128
帧特征维度为
Figure 2475DEST_PATH_IMAGE133
的值,
Figure 970431DEST_PATH_IMAGE148
为归一化函数。
(i-8)将右侧片段
Figure 597721DEST_PATH_IMAGE146
中第一帧作为才帧,将第二帧作为
Figure 309325DEST_PATH_IMAGE128
帧。
(i-9)判断相似度
Figure 236830DEST_PATH_IMAGE144
是否小于0.8,如果相似度
Figure 375687DEST_PATH_IMAGE150
则选取
Figure 490274DEST_PATH_IMAGE127
帧为关键帧,并执行步骤(i-10),如果
Figure 5569DEST_PATH_IMAGE151
,则执行步骤(i-11);
(i-10)将
Figure 522001DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 831760DEST_PATH_IMAGE127
帧后重复执行步骤(i-9)。
(i-11)将
Figure 935107DEST_PATH_IMAGE128
帧后面的相邻的帧作为新的
Figure 988514DEST_PATH_IMAGE128
帧后重复执行步骤i-9)。
相似度
Figure 359452DEST_PATH_IMAGE211
Figure 840112DEST_PATH_IMAGE212
取值范围在0-1之间,越靠近1表明两个帧的相似度越高。通过这个公式,可以从特征向量的方向与数值两个层面进行不同特征之间的相似度比较,优化了传统比较方式中层面较为单一的问题,使得计算出的相似度更为精准、可靠。
对右侧片段
Figure 398132DEST_PATH_IMAGE146
从左向右进行遍历后,得到右侧关键帧序列
Figure 786388DEST_PATH_IMAGE152
选取关键帧的操作可以在保留最终预测结果的准确性的基础上减少片段中帧的数量过大导致带来的计算量大的问题,为模型的预测节省了时间,提高了效率。
(i-13)通过公式
Figure 746254DEST_PATH_IMAGE214
计算得到关键帧
Figure 928974DEST_PATH_IMAGE155
与关键帧
Figure 708711DEST_PATH_IMAGE156
的得分
Figure 900658DEST_PATH_IMAGE157
,式中
Figure 715030DEST_PATH_IMAGE158
Figure 68651DEST_PATH_IMAGE159
均为超参数,
Figure 335684DEST_PATH_IMAGE160
Figure 844506DEST_PATH_IMAGE161
为左侧关键帧序列
Figure 513385DEST_PATH_IMAGE162
中第
Figure 303486DEST_PATH_IMAGE163
个关键帧特征维度为
Figure 57815DEST_PATH_IMAGE133
的值,
Figure 591565DEST_PATH_IMAGE164
为右侧关键帧序列
Figure 114950DEST_PATH_IMAGE165
中第
Figure 75953DEST_PATH_IMAGE166
个关键帧特征维度为
Figure 317578DEST_PATH_IMAGE133
的值,
Figure 858281DEST_PATH_IMAGE215
Figure 767331DEST_PATH_IMAGE168
为转置,
Figure 368077DEST_PATH_IMAGE169
Figure 628157DEST_PATH_IMAGE170
均为可训练的参数,
Figure 972551DEST_PATH_IMAGE171
Figure 736107DEST_PATH_IMAGE172
Figure 507754DEST_PATH_IMAGE173
均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳
Figure 756595DEST_PATH_IMAGE051
和结束时间戳
Figure 639101DEST_PATH_IMAGE053
Figure 522743DEST_PATH_IMAGE051
Figure 465291DEST_PATH_IMAGE053
分别表示检测到的无人车历史场景片段的开始时间和结束时间。
优选的,还包括在步骤(i)之后执行如下步骤:
(j-1) 通过公式
Figure 699963DEST_PATH_IMAGE216
计算得到位置损失
Figure 386160DEST_PATH_IMAGE177
,式中
Figure 593150DEST_PATH_IMAGE178
为真实值开始时间戳,
Figure 503337DEST_PATH_IMAGE217
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集。
(j-2)通过公式
Figure 428568DEST_PATH_IMAGE180
计算得到得分损失
Figure 184034DEST_PATH_IMAGE181
,式中
Figure 511110DEST_PATH_IMAGE182
为二进制标签,当交并比IoU大于0.5时,
Figure 326620DEST_PATH_IMAGE183
,当交并比IoU小于等于0.5时,
Figure 739147DEST_PATH_IMAGE184
Figure 799769DEST_PATH_IMAGE185
为交并比IoU分数。
(j-3)利用随机梯度下降算法对位置损失
Figure 981351DEST_PATH_IMAGE177
和得分损失
Figure 233341DEST_PATH_IMAGE181
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于视频片段检索的无人车历史场景检测方法,其特征在于,包括如下步骤:
(a)使用视频编码器将无人车历史场景视频转换为特征序列
Figure DEST_PATH_IMAGE001
,其中
Figure DEST_PATH_IMAGE002
为第
Figure DEST_PATH_IMAGE003
个时间步的视频特征,
Figure DEST_PATH_IMAGE005
为划分的视频时间步总数;
(b)对具有
Figure DEST_PATH_IMAGE007
个单词的查询文本进行提取特征操作,得到特征序列
Figure DEST_PATH_IMAGE008
,其中
Figure DEST_PATH_IMAGE009
为第
Figure DEST_PATH_IMAGE010
个单词的特征向量;
(c)将特征序列
Figure DEST_PATH_IMAGE011
输入到双向长短期记忆神经网络中,输出得到词级特征序列
Figure DEST_PATH_IMAGE012
及句子级特征向量
Figure DEST_PATH_IMAGE013
,其中
Figure DEST_PATH_IMAGE014
为第
Figure DEST_PATH_IMAGE015
个单词的特征向量;
(d)使用注意力机制用视频特征给词级特征序列进行加权操作,得到加权后的词级文本特征序列
Figure DEST_PATH_IMAGE016
,步骤(d)包括如下步骤:
(d-1)通过公式
Figure DEST_PATH_IMAGE017
计算得到加权后的词级文本特征序列
Figure DEST_PATH_IMAGE018
,式中
Figure DEST_PATH_IMAGE019
为softmax函数,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
均为可学习的参数,
Figure DEST_PATH_IMAGE022
为转置,
Figure DEST_PATH_IMAGE023
为第
Figure DEST_PATH_IMAGE024
个单词的特征向量
Figure DEST_PATH_IMAGE025
的长度;
(e)通过词级文本特征序列
Figure 738857DEST_PATH_IMAGE016
和视频特征
Figure 124839DEST_PATH_IMAGE002
计算得到包含词级文本特征的视频特征
Figure DEST_PATH_IMAGE026
,所有的包含词级文本特征的视频特征
Figure 560369DEST_PATH_IMAGE026
构成视频特征序列
Figure DEST_PATH_IMAGE027
(f)将视频特征序列
Figure DEST_PATH_IMAGE028
进行自注意力操作,得到各视频之间相互关联区分后的视频特征序列
Figure DEST_PATH_IMAGE029
,将视频特征序列
Figure 876950DEST_PATH_IMAGE029
转换成一张二维视频候选片段特征图
Figure DEST_PATH_IMAGE030
,其中
Figure DEST_PATH_IMAGE031
为二维视频候选片段特征图中横坐标为
Figure DEST_PATH_IMAGE032
,纵坐标为
Figure DEST_PATH_IMAGE033
的候选片段的特征;
(g)计算句子级特征向量
Figure DEST_PATH_IMAGE034
与二维视频候选片段特征图
Figure DEST_PATH_IMAGE035
的相似度值
Figure DEST_PATH_IMAGE036
,根据不同的相似度值利用句子级特征向量给二维视频候选片段特征图
Figure 330802DEST_PATH_IMAGE035
加权得到新的特征图
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
为新的特征图中横坐标为
Figure 752600DEST_PATH_IMAGE032
,纵坐标为
Figure 613108DEST_PATH_IMAGE033
的候选片段的特征;
(h)计算新的特征图
Figure DEST_PATH_IMAGE039
中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure DEST_PATH_IMAGE040
,其中
Figure DEST_PATH_IMAGE041
为第
Figure DEST_PATH_IMAGE042
帧的特征,
Figure DEST_PATH_IMAGE043
为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段
Figure DEST_PATH_IMAGE044
的每一帧与文本特征进行交互后从中间帧划分成左右两个片段
Figure DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
,其中
Figure DEST_PATH_IMAGE047
为划分的左侧片段的第
Figure 451489DEST_PATH_IMAGE032
帧的特征,
Figure DEST_PATH_IMAGE048
为划分的左侧片段的总帧数,
Figure DEST_PATH_IMAGE049
为划分的右侧片段的第
Figure 104056DEST_PATH_IMAGE033
帧的特征,
Figure DEST_PATH_IMAGE050
为划分的右侧片段的总帧数;
(i)在左侧片段
Figure DEST_PATH_IMAGE051
中得到左侧关键帧序列
Figure DEST_PATH_IMAGE052
,在右侧片段
Figure DEST_PATH_IMAGE053
中得到右侧关键帧序列
Figure DEST_PATH_IMAGE054
,其中
Figure DEST_PATH_IMAGE055
为左侧关键帧序列第
Figure 973503DEST_PATH_IMAGE032
个关键帧,
Figure DEST_PATH_IMAGE056
为左侧关键帧序列中关键帧的总个数,
Figure DEST_PATH_IMAGE057
为右侧关键帧序列第
Figure 852466DEST_PATH_IMAGE033
个关键帧,
Figure DEST_PATH_IMAGE058
为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列
Figure DEST_PATH_IMAGE059
中的关键帧与右侧关键帧序列
Figure DEST_PATH_IMAGE060
中的关键帧的得分
Figure DEST_PATH_IMAGE061
,选取得分
Figure 104325DEST_PATH_IMAGE061
最高值对应的关键帧
Figure DEST_PATH_IMAGE062
作为开始时间戳
Figure DEST_PATH_IMAGE063
,对应的关键帧
Figure DEST_PATH_IMAGE064
作为结束时间戳
Figure DEST_PATH_IMAGE065
,开始时间戳
Figure 283503DEST_PATH_IMAGE063
表示检测到的无人车历史场景片段的开始时间,结束时间戳
Figure 41243DEST_PATH_IMAGE065
表示检测到的无人车历史场景片段的结束时间。
2.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于:步骤(a)中的视频编码器为C3D视频编码器或I3D视频编码器,步骤(b)中使用Glove模型对具有
Figure DEST_PATH_IMAGE066
个单词的查询文本进行提取特征操作。
3.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(c)包括如下步骤:
(c-1)特征序列
Figure DEST_PATH_IMAGE067
输入到双向长短期记忆神经网络中,分别得到双向长短期记忆神经网络第
Figure 141923DEST_PATH_IMAGE024
个时间步从左向右方向的隐藏层特征
Figure DEST_PATH_IMAGE068
及第
Figure 72839DEST_PATH_IMAGE024
个时间步从右向左方向的隐藏层特征
Figure DEST_PATH_IMAGE069
(c-2)通过公式
Figure DEST_PATH_IMAGE070
计算得到第
Figure 315644DEST_PATH_IMAGE024
个单词的特征向量,式中
Figure DEST_PATH_IMAGE071
为拼接操作;
(c-3)将双向长短期记忆神经网络从左向右的最后一个隐藏层特征和从右向左的最后一个隐藏层特征拼接起来得到句子级特征向量
Figure DEST_PATH_IMAGE072
4.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(e)包括如下步骤:
(e-1)通过公式
Figure DEST_PATH_IMAGE073
将词级文本特征序列
Figure DEST_PATH_IMAGE074
与视频特征
Figure 165658DEST_PATH_IMAGE002
进行点积操作得到包含词级文本特征的视频特征
Figure DEST_PATH_IMAGE075
,式中
Figure DEST_PATH_IMAGE076
为点积操作函数。
5.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(f)包括如下步骤:
(f-1)将视频特征序列
Figure DEST_PATH_IMAGE077
利用注意力机制中的点积模型计算得到分数值
Figure DEST_PATH_IMAGE078
,其中,
Figure DEST_PATH_IMAGE079
为第
Figure DEST_PATH_IMAGE080
个时间步的视频特征
Figure 940584DEST_PATH_IMAGE002
的长度,通过公式
Figure DEST_PATH_IMAGE081
计算得到各视频之间相互关联区分后的视频特征序列
Figure DEST_PATH_IMAGE082
(f-2)将视频特征序列
Figure 737508DEST_PATH_IMAGE082
的第
Figure 438748DEST_PATH_IMAGE032
个片段到第
Figure DEST_PATH_IMAGE083
个片段进行平均池化得到候选片段的特征
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
Figure DEST_PATH_IMAGE086
,其中
Figure DEST_PATH_IMAGE087
为二维视频候选片段特征图
Figure DEST_PATH_IMAGE088
的横坐标为
Figure 578437DEST_PATH_IMAGE032
,纵坐标为
Figure 122551DEST_PATH_IMAGE083
的候选片段的特征。
6.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图
Figure 332952DEST_PATH_IMAGE088
中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列
Figure DEST_PATH_IMAGE089
,通过公式
Figure DEST_PATH_IMAGE090
计算得到句子级特征向量
Figure DEST_PATH_IMAGE091
与二维视频候选片段特征图
Figure 872387DEST_PATH_IMAGE088
的相似度值
Figure DEST_PATH_IMAGE092
,式中
Figure DEST_PATH_IMAGE093
为第
Figure DEST_PATH_IMAGE094
个时间步的视频特征
Figure 1886DEST_PATH_IMAGE002
的长度,
Figure DEST_PATH_IMAGE095
Figure DEST_PATH_IMAGE096
均为可学习的参数;
(g-2)通过公式
Figure DEST_PATH_IMAGE097
计算得到一维特征序列
Figure DEST_PATH_IMAGE098
,一维特征序列
Figure 830033DEST_PATH_IMAGE098
中的特征按从左到右且从上到下依次排列形成二维特征图
Figure DEST_PATH_IMAGE099
7.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(h)包括如下步骤:
(h-1)通过公式
Figure DEST_PATH_IMAGE100
计算新的特征图
Figure 974619DEST_PATH_IMAGE099
中横坐标为
Figure 775084DEST_PATH_IMAGE032
,纵坐标为
Figure 91796DEST_PATH_IMAGE083
的候选片段的相似度得分
Figure DEST_PATH_IMAGE101
,式中
Figure DEST_PATH_IMAGE102
为Sigmoid激活函数,
Figure DEST_PATH_IMAGE103
为Relu激活函数,
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE105
Figure DEST_PATH_IMAGE106
Figure DEST_PATH_IMAGE107
均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
为所有的相似度得分的总个数;
(h-2)选取在新的二维特征图
Figure 312300DEST_PATH_IMAGE099
中得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure DEST_PATH_IMAGE110
(h-3)通过公式
Figure DEST_PATH_IMAGE111
计算得到粗粒度句子级特征与细粒度词级特征相结合的文本特征
Figure DEST_PATH_IMAGE112
,式中
Figure DEST_PATH_IMAGE113
为第
Figure DEST_PATH_IMAGE114
个单词的权重,
Figure DEST_PATH_IMAGE115
,式中
Figure DEST_PATH_IMAGE116
为exp函数,
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE119
均为可学习的参数,
Figure DEST_PATH_IMAGE120
为非线性激活函数;
(h-4)通过公式
Figure DEST_PATH_IMAGE121
将得分最高的候选片段的右上角的片段所相应时间段的原始视频片段
Figure DEST_PATH_IMAGE122
与文本特征
Figure DEST_PATH_IMAGE123
进行点积操作得到视频特征序列
Figure DEST_PATH_IMAGE124
,式中
Figure DEST_PATH_IMAGE125
为点积操作函数,将视频特征序列
Figure 364305DEST_PATH_IMAGE124
从中间帧划分成左右两个片段
Figure DEST_PATH_IMAGE126
Figure DEST_PATH_IMAGE127
8.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(i)包括如下步骤:
(i-1)通过公式
Figure DEST_PATH_IMAGE128
计算得到左侧片段中第
Figure DEST_PATH_IMAGE129
帧和第
Figure DEST_PATH_IMAGE130
帧之间的相似度
Figure DEST_PATH_IMAGE131
,式中
Figure DEST_PATH_IMAGE132
为超参数,
Figure DEST_PATH_IMAGE133
为左侧片段
Figure DEST_PATH_IMAGE134
的第
Figure 330862DEST_PATH_IMAGE129
帧特征维度为
Figure DEST_PATH_IMAGE135
的值,
Figure DEST_PATH_IMAGE136
为片段特征的总维度,
Figure DEST_PATH_IMAGE137
为左侧片段
Figure DEST_PATH_IMAGE138
的第
Figure 870340DEST_PATH_IMAGE130
帧特征维度为
Figure DEST_PATH_IMAGE139
的值,
Figure DEST_PATH_IMAGE140
为归一化函数;
(i-2)将左侧片段
Figure DEST_PATH_IMAGE141
中第一帧作为
Figure 469817DEST_PATH_IMAGE129
帧,将第二帧作为
Figure 825712DEST_PATH_IMAGE130
帧;
(i-3)判断相似度
Figure 335191DEST_PATH_IMAGE131
是否小于0.8,如果相似度
Figure DEST_PATH_IMAGE142
则选取
Figure 56023DEST_PATH_IMAGE129
帧为关键帧,并执行步骤(i-4),如果
Figure DEST_PATH_IMAGE143
,则执行步骤(i-5);
(i-4)将
Figure 752583DEST_PATH_IMAGE130
帧后面的相邻的帧作为新的
Figure 381011DEST_PATH_IMAGE129
帧后重复执行步骤(i-2);
(i-5)将
Figure 10575DEST_PATH_IMAGE130
帧后面的相邻的帧作为新的
Figure 699045DEST_PATH_IMAGE130
帧后重复执行步骤(i-2);
(i-6)对左侧片段
Figure 555006DEST_PATH_IMAGE141
从左向右进行遍历后,得到左侧关键帧序列
Figure DEST_PATH_IMAGE144
(i-7)通过公式
Figure DEST_PATH_IMAGE145
计算得到右侧片段中第
Figure 377337DEST_PATH_IMAGE129
帧和第
Figure 324390DEST_PATH_IMAGE130
帧之间的相似度
Figure DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE147
为右侧片段
Figure DEST_PATH_IMAGE148
的第
Figure 42817DEST_PATH_IMAGE129
帧特征维度为
Figure 979549DEST_PATH_IMAGE139
的值,
Figure DEST_PATH_IMAGE149
为右侧片段
Figure 543254DEST_PATH_IMAGE148
的第
Figure 881831DEST_PATH_IMAGE130
帧特征维度为
Figure 53050DEST_PATH_IMAGE135
的值,
Figure DEST_PATH_IMAGE150
为归一化函数;
(i-8)将右侧片段
Figure DEST_PATH_IMAGE151
中第一帧作为才帧,将第二帧作为
Figure 601712DEST_PATH_IMAGE130
帧;
(i-9)判断相似度
Figure 641212DEST_PATH_IMAGE146
是否小于0.8,如果相似度
Figure DEST_PATH_IMAGE152
则选取
Figure 37558DEST_PATH_IMAGE129
帧为关键帧,并执行步骤(i-10),如果
Figure DEST_PATH_IMAGE153
,则执行步骤(i-11);
(i-10)将
Figure 566628DEST_PATH_IMAGE130
帧后面的相邻的帧作为新的
Figure 743532DEST_PATH_IMAGE129
帧后重复执行步骤(i-9);
(i-11)将
Figure 61424DEST_PATH_IMAGE130
帧后面的相邻的帧作为新的
Figure 249960DEST_PATH_IMAGE130
帧后重复执行步骤i-9);
(i-12)对右侧片段
Figure 887614DEST_PATH_IMAGE148
从左向右进行遍历后,得到右侧关键帧序列
Figure DEST_PATH_IMAGE154
(i-13)通过公式
Figure DEST_PATH_IMAGE156
计算得到关键帧
Figure DEST_PATH_IMAGE157
与关键帧
Figure DEST_PATH_IMAGE158
的得分
Figure DEST_PATH_IMAGE159
,式中
Figure DEST_PATH_IMAGE160
Figure DEST_PATH_IMAGE161
均为超参数,
Figure DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE163
为左侧关键帧序列
Figure DEST_PATH_IMAGE164
中第
Figure DEST_PATH_IMAGE165
个关键帧特征维度为
Figure 519191DEST_PATH_IMAGE135
的值,
Figure DEST_PATH_IMAGE166
为右侧关键帧序列
Figure DEST_PATH_IMAGE167
中第
Figure DEST_PATH_IMAGE168
个关键帧特征维度为
Figure 493969DEST_PATH_IMAGE135
的值,
Figure DEST_PATH_IMAGE169
Figure DEST_PATH_IMAGE170
为转置,
Figure DEST_PATH_IMAGE171
Figure DEST_PATH_IMAGE172
均为可训练的参数,
Figure DEST_PATH_IMAGE173
Figure DEST_PATH_IMAGE174
Figure DEST_PATH_IMAGE175
均为可训练的参数。
9.根据权利要求7所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,还包括在步骤(i)之后执行如下步骤:
(j-1)通过公式
Figure DEST_PATH_IMAGE176
计算得到位置损失
Figure DEST_PATH_IMAGE177
,式中
Figure DEST_PATH_IMAGE178
为真实值开始时间戳,
Figure DEST_PATH_IMAGE179
为真实值结束时间戳,真实值标签来自训练DiDeMo数据集或TACoS数据集或Charades-STA数据集;
(j-2)通过公式
Figure DEST_PATH_IMAGE180
计算得到得分损失
Figure DEST_PATH_IMAGE181
,式中
Figure DEST_PATH_IMAGE182
为二进制标签,当交并比IoU大于0.5时,
Figure DEST_PATH_IMAGE183
,当交并比IoU小于等于0.5时,
Figure DEST_PATH_IMAGE184
Figure DEST_PATH_IMAGE185
为交并比IoU分数;
(j-3)利用随机梯度下降算法对位置损失
Figure 817239DEST_PATH_IMAGE177
和得分损失
Figure 766740DEST_PATH_IMAGE181
进行优化,优化后重复执行步骤(a)至步骤(i)大于等于K次,K取值为1000。
CN202211110912.5A 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法 Active CN115187917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211110912.5A CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211110912.5A CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Publications (2)

Publication Number Publication Date
CN115187917A CN115187917A (zh) 2022-10-14
CN115187917B true CN115187917B (zh) 2022-11-25

Family

ID=83524593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211110912.5A Active CN115187917B (zh) 2022-09-13 2022-09-13 基于视频片段检索的无人车历史场景检测方法

Country Status (1)

Country Link
CN (1) CN115187917B (zh)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9743120B2 (en) * 2007-04-30 2017-08-22 Yahoo Holdings, Inc. System and method for video conversations
US8300924B2 (en) * 2007-09-27 2012-10-30 Behavioral Recognition Systems, Inc. Tracker component for behavioral recognition system
CN108228915B (zh) * 2018-03-29 2021-10-26 华南理工大学 一种基于深度学习的视频检索方法
CN108764026B (zh) * 2018-04-12 2021-07-30 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN110175266B (zh) * 2019-05-28 2020-10-30 复旦大学 一种用于多段视频跨模态检索的方法
CN110121118B (zh) * 2019-06-17 2021-08-06 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN112348102B (zh) * 2020-11-16 2024-03-19 浙江大学 一种基于查询的自底向上视频定位方法和系统
CN112347993B (zh) * 2020-11-30 2023-03-17 吉林大学 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法
CN112685597B (zh) * 2021-03-12 2021-07-13 杭州一知智能科技有限公司 一种基于擦除机制的弱监督视频片段检索方法和系统
CN114297432A (zh) * 2021-08-05 2022-04-08 腾讯科技(深圳)有限公司 一种视频检索方法、装置、设备及计算机可读存储介质
CN114595360A (zh) * 2022-01-20 2022-06-07 浙江阿蚂科技有限公司 一种基于时序特征的同源视频检索方法及系统
CN114612748A (zh) * 2022-03-24 2022-06-10 北京工业大学 一种基于特征解耦的跨模态视频片段检索方法
CN114970726A (zh) * 2022-05-31 2022-08-30 重庆长安汽车股份有限公司 一种多传感器自动驾驶算法的评估及可视化方法及系统
CN114758285B (zh) * 2022-06-14 2022-10-14 山东省人工智能研究院 基于锚自由和长时注意力感知的视频交互动作检测方法

Also Published As

Publication number Publication date
CN115187917A (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
WO2021143396A1 (zh) 利用文本分类模型进行分类预测的方法及装置
CN110688502B (zh) 一种基于深度哈希和量化的图像检索方法及存储介质
CN110782015A (zh) 神经网络的网络结构优化器的训练方法、装置及存储介质
CN110347873A (zh) 视频分类方法、装置、电子设备及存储介质
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN114329036A (zh) 一种基于注意力机制的跨模态特征融合系统
CN112257758A (zh) 细粒度图像识别方法、卷积神经网络及其训练方法
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN110991500A (zh) 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN116580440A (zh) 基于视觉transformer的轻量级唇语识别方法
CN114998601A (zh) 基于Transformer的在线更新目标跟踪方法及系统
CN115187917B (zh) 基于视频片段检索的无人车历史场景检测方法
CN116485792B (zh) 组织病理学亚型预测方法及成像方法
CN114373092A (zh) 一种基于拼图排列学习的渐进式训练细粒度视觉分类方法
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN110135363B (zh) 基于判别词典嵌入行人图像检索方法、系统、设备及介质
CN115222998B (zh) 一种图像分类方法
CN116108217B (zh) 一种基于深度哈希编码和多任务预测的逃费车辆相似图片检索方法
CN116740763A (zh) 一种基于双注意力感知融合网络的跨模态行人重识别方法
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN116258938A (zh) 基于自主进化损失的图像检索与识别方法
CN115080699A (zh) 基于模态特异自适应缩放与注意力网络的跨模态检索方法
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant