CN115187917A - 基于视频片段检索的无人车历史场景检测方法 - Google Patents
基于视频片段检索的无人车历史场景检测方法 Download PDFInfo
- Publication number
- CN115187917A CN115187917A CN202211110912.5A CN202211110912A CN115187917A CN 115187917 A CN115187917 A CN 115187917A CN 202211110912 A CN202211110912 A CN 202211110912A CN 115187917 A CN115187917 A CN 115187917A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- sequence
- feature
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于视频片段检索的无人车历史场景检测方法,属于计算机视觉技术领域,基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于视频片段检索的无人车历史场景检测方法。
背景技术
计算机视觉被运用到无人车中做目标检测、自动驾驶等功能,随着无人车技术的创新,越来越多的无人车被用于日常生活中。而在无人车使用过程中,若车辆管理员想了解到过去的某段时间内车辆是否经过了原先设定的目的地,或者是想要了解到某一场景的具体情况,一种简单的办法是由工作人员翻阅历史视频,但是这种方式会耗费很多的精力和时间。而现有的视频片段检索技术中通常是使用传统的框架进行划分候选片段然后进行评分选出最高的片段,或者是使用定位感知的方法直接对视频进行开始和结束帧的定位,缺少可解释性,所以这样的模式还不能够快速、精确的判断与检测。
发明内容
本发明为了克服以上技术的不足,提供了一种能够根据工作人员以自然语言描述的场景,基于人眼搜索思想的,从无人车历史视频中快速精确的定位到场景所在视频片段的基于视频片段检索的无人车历史场景检测方法。
本发明克服其技术问题所采用的技术方案是:
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(h)计算新的特征图中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段,其中为第帧的特征,为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段的每一帧与文本特征进行交互后从中间帧划分成左右两个片段和,其中为划分的左侧片段的第帧的特征,为划分的左侧片段的总帧数,为划分的右侧片段的第帧的特征,为划分的右侧片段的总帧数;
(i)在左侧片段中得到左侧关键帧序列,在右侧片段中得到右侧关键帧序列,其中为左侧关键帧序列第个关键帧,为左侧关键帧序列中关键帧的总个数,为右侧关键帧序列第个关键帧,为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列中的关键帧与右侧关键帧序列中的关键帧的得分,选取得分最高值对应的关键帧作为开始时间戳,对应的关键帧作为结束时间戳,开始时间戳表示检测到的无人车历史场景片段的开始时间,结束时间戳表示检测到的无人车历史场景片段的结束时间。
进一步的,步骤(c)包括如下步骤:
进一步的,步骤(d)包括如下步骤:
进一步的,步骤(e)包括如下步骤:
进一步的,步骤(f)包括如下步骤:
进一步的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列,通过公式计算得到句子级特征向量与二维视频候选片段特征图的相似度值,式中为第个时间步的视频特征的长度,与均为可学习的参数;
进一步的,步骤(h)包括如下步骤:
(h-1)通过公式计算新的特征图中横坐标为,纵坐标为的候选片段的相似度得分,式中为Sigmoid激活函数,为Relu激活函数,、、、均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列,为所有的相似度得分的总个数;
进一步的,步骤(i)包括如下步骤:
(i-13)通过公式
计算得到关键帧与关键帧的得分,式中和 均为超参数,,为左侧关键帧序列中第个关键帧特征维度为的值,为右侧关键帧序列中第个关键帧特征维度为的值,,为转置,与均为可训练的参数,,与均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳和结束时间戳,和分别表示检测到的无人车历史场景片段的开始时间和结束时间。
进一步的,还包括在步骤(i)之后执行如下步骤:
本发明的有益效果是:基于人眼搜索的思想将视频片段检索的方式分成两个步骤,先大致判断出最为相似的候选片段,再将候选片段添加偏移后从中分成两个部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧再次进行交互微调,从而检索到用户所需的历史场景。避免了人工检测方法的耗时繁琐的问题,也优化了传统方法中单一框架的效率低下、精度不高、可解释性差的问题。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于视频片段检索的无人车历史场景检测方法,包括如下步骤:
(h)计算新的特征图中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段,其中为第帧的特征,为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段的每一帧与文本特征进行交互后从中间帧划分成左右两个片段和,其中为划分的左侧片段的第帧的特征,为划分的左侧片段的总帧数,为划分的右侧片段的第帧的特征,为划分的右侧片段的总帧数。
(i)在左侧片段中得到左侧关键帧序列,在右侧片段中得到右侧关键帧序列,其中为左侧关键帧序列第个关键帧,为左侧关键帧序列中关键帧的总个数,为右侧关键帧序列第个关键帧,为右侧关键帧序列中关键帧的总个数,计算左侧关键帧序列中的关键帧与右侧关键帧序列中的关键帧的得分,选取得分最高值对应的关键帧作为开始时间戳,对应的关键帧作为结束时间戳,开始时间戳表示检测到的无人车历史场景片段的开始时间,结束时间戳表示检测到的无人车历史场景片段的结束时间。
基于视频片段检索的无人车历史场景检测方法的实现基于计算机视觉技术,考虑了人眼定位视频的思想,先将视频划分为视频片段后转换到二维特征图中计算相似度,初步定位到最为相似的候选片段,然后根据经过左右偏移后的视频片段从中划分为左右两部分,将左半部分中的帧作为开始帧,右半部分中的帧作为结束帧,令每一对选取的帧进行交互得出相似度最高的一对帧作为模型定位的开始和结束帧。避免了人工检测方法存在的耗时费力的问题。同时相比于传统方法的模式较为单一的框架,既减少了检索定位所花费的时间,又最大程度的使定位的片段足够的精确。该方法的模型结构直观简洁,可解释性较强,容易部署实现,在无人车历史场景检测中可以快速、准确的完成检测工作。
具体的,步骤(c)包括如下步骤:
具体的,步骤(d)包括如下步骤:
具体的,步骤(e)包括如下步骤:
具体的,步骤(f)包括如下步骤:
具体的,步骤(g)包括如下步骤:
(g-1)将二维视频候选片段特征图中的各个候选片段的特征按从左到右且从上到下的顺序依次排列形成一维的特征序列,通过公式计算得到句子级特征向量与二维视频候选片段特征图的相似度值,式中为第个时间步的视频特征的长度,与均为可学习的参数。
具体的,步骤(h)包括如下步骤:
(h-1)通过公式计算新的特征图中横坐标为,纵坐标为的候选片段的相似度得分,式中为Sigmoid激活函数,为Relu激活函数,、、、均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列,为所有的相似度得分的总个数。
具体的,步骤(i)包括如下步骤:
相似度和取值范围在0-1之间,越靠近1表明两个帧的相似度越高。通过这个公式,可以从特征向量的方向与数值两个层面进行不同特征之间的相似度比较,优化了传统比较方式中层面较为单一的问题,使得计算出的相似度更为精准、可靠。
选取关键帧的操作可以在保留最终预测结果的准确性的基础上减少片段中帧的数量过大导致带来的计算量大的问题,为模型的预测节省了时间,提高了效率。
(i-13)通过公式
计算得到关键帧与关键帧的得分,式中和 均为超参数,,为左侧关键帧序列中第个关键帧特征维度为的值,为右侧关键帧序列中第个关键帧特征维度为的值,,为转置,与均为可训练的参数,,与均为可训练的参数。该公式考虑了视频帧与视频帧之间、视频帧与文本之间的相似度得分,使得计算得出的评分更加准确。最后选出得分最高的一对帧所对应的时间作为模型预测出的开始时间戳和结束时间戳,和分别表示检测到的无人车历史场景片段的开始时间和结束时间。
优选的,还包括在步骤(i)之后执行如下步骤:
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于视频片段检索的无人车历史场景检测方法,其特征在于,包括如下步骤:
(h)计算新的特征图中每个候选片段的相似度得分,选取相似度得分最高的候选片段的右上角的片段所相应时间段的原始视频片段,其中为第 帧的特征,为右上角的片段所相应时间段的原始视频的总帧数,将原始视频片段的每一帧与文本特征进行交互后从中间帧划分成左右两个片段和,其中为划分的左侧片段的第帧的特征,为划分的左侧片段的总帧数,为划分的右侧片段的第帧的特征,为划分的右侧片段的总帧数;
8.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(h)包括如下步骤:
(h-1)通过公式计算新的特征图中横坐标为,纵坐标为的候选片段的相似度得分,式中为Sigmoid激活函数,为Relu激活函数,、、、均为可学习的参数,将所有相似度得分从左到右且从上到下的顺序依次排列形成一维的得分序列,为所有的相似度得分的总个数;
9.根据权利要求1所述的基于视频片段检索的无人车历史场景检测方法,其特征在于,步骤(i)包括如下步骤:
(i-13)通过公式
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110912.5A CN115187917B (zh) | 2022-09-13 | 2022-09-13 | 基于视频片段检索的无人车历史场景检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211110912.5A CN115187917B (zh) | 2022-09-13 | 2022-09-13 | 基于视频片段检索的无人车历史场景检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115187917A true CN115187917A (zh) | 2022-10-14 |
CN115187917B CN115187917B (zh) | 2022-11-25 |
Family
ID=83524593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211110912.5A Active CN115187917B (zh) | 2022-09-13 | 2022-09-13 | 基于视频片段检索的无人车历史场景检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187917B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080271098A1 (en) * | 2007-04-30 | 2008-10-30 | Yahoo! Inc. | System and method for video conversations |
US20090087085A1 (en) * | 2007-09-27 | 2009-04-02 | John Eric Eaton | Tracker component for behavioral recognition system |
CN108228915A (zh) * | 2018-03-29 | 2018-06-29 | 华南理工大学 | 一种基于深度学习的视频检索方法 |
CN108764026A (zh) * | 2018-04-12 | 2018-11-06 | 杭州电子科技大学 | 一种基于时序检测单元预筛选的视频行为检测方法 |
CN110121118A (zh) * | 2019-06-17 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 视频片段定位方法、装置、计算机设备及存储介质 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN112347993A (zh) * | 2020-11-30 | 2021-02-09 | 吉林大学 | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 |
CN112348102A (zh) * | 2020-11-16 | 2021-02-09 | 浙江大学 | 一种基于查询的自底向上视频定位方法和系统 |
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN114297432A (zh) * | 2021-08-05 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 一种视频检索方法、装置、设备及计算机可读存储介质 |
CN114595360A (zh) * | 2022-01-20 | 2022-06-07 | 浙江阿蚂科技有限公司 | 一种基于时序特征的同源视频检索方法及系统 |
CN114612748A (zh) * | 2022-03-24 | 2022-06-10 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
CN114758285A (zh) * | 2022-06-14 | 2022-07-15 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
CN114970726A (zh) * | 2022-05-31 | 2022-08-30 | 重庆长安汽车股份有限公司 | 一种多传感器自动驾驶算法的评估及可视化方法及系统 |
-
2022
- 2022-09-13 CN CN202211110912.5A patent/CN115187917B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080271098A1 (en) * | 2007-04-30 | 2008-10-30 | Yahoo! Inc. | System and method for video conversations |
US20090087085A1 (en) * | 2007-09-27 | 2009-04-02 | John Eric Eaton | Tracker component for behavioral recognition system |
CN108228915A (zh) * | 2018-03-29 | 2018-06-29 | 华南理工大学 | 一种基于深度学习的视频检索方法 |
CN108764026A (zh) * | 2018-04-12 | 2018-11-06 | 杭州电子科技大学 | 一种基于时序检测单元预筛选的视频行为检测方法 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN110121118A (zh) * | 2019-06-17 | 2019-08-13 | 腾讯科技(深圳)有限公司 | 视频片段定位方法、装置、计算机设备及存储介质 |
CN112348102A (zh) * | 2020-11-16 | 2021-02-09 | 浙江大学 | 一种基于查询的自底向上视频定位方法和系统 |
CN112347993A (zh) * | 2020-11-30 | 2021-02-09 | 吉林大学 | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 |
CN112685597A (zh) * | 2021-03-12 | 2021-04-20 | 杭州一知智能科技有限公司 | 一种基于擦除机制的弱监督视频片段检索方法和系统 |
CN114297432A (zh) * | 2021-08-05 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 一种视频检索方法、装置、设备及计算机可读存储介质 |
CN114595360A (zh) * | 2022-01-20 | 2022-06-07 | 浙江阿蚂科技有限公司 | 一种基于时序特征的同源视频检索方法及系统 |
CN114612748A (zh) * | 2022-03-24 | 2022-06-10 | 北京工业大学 | 一种基于特征解耦的跨模态视频片段检索方法 |
CN114970726A (zh) * | 2022-05-31 | 2022-08-30 | 重庆长安汽车股份有限公司 | 一种多传感器自动驾驶算法的评估及可视化方法及系统 |
CN114758285A (zh) * | 2022-06-14 | 2022-07-15 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
Non-Patent Citations (3)
Title |
---|
MENGMENG KANG 等: "Video Clip Retrieval Based on Incidence Matrix and Dynamic-step Sliding-window", 《20IO INTERNATIONAL CONFERENCE ON COMPUTER APPLICATION AND SYSTEM MODELING》 * |
张风超 等: "基于宏块类型信息的快速视频分段算法", 《红外与激光工程》 * |
裴鹏鹏 等: "一种面向视觉ADAS的场景库构建方法", 《汽车科技》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115187917B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN110688502B (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN110782015A (zh) | 神经网络的网络结构优化器的训练方法、装置及存储介质 | |
CN109492529A (zh) | 一种多尺度特征提取及全局特征融合的人脸表情识别方法 | |
CN110347873A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN111401426B (zh) | 基于伪标签学习的小样本高光谱图像分类方法 | |
CN111950393B (zh) | 一种基于边界搜索智能体的时序动作片段分割方法 | |
CN114998601B (zh) | 基于Transformer的在线更新目标跟踪方法及系统 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN116580440B (zh) | 基于视觉transformer的轻量级唇语识别方法 | |
CN114241191A (zh) | 一种基于跨模态自注意力的无候选框指代表达理解方法 | |
CN116129174A (zh) | 基于特征细化自监督学习的广义零样本图像分类方法 | |
CN116258938A (zh) | 基于自主进化损失的图像检索与识别方法 | |
CN105975982B (zh) | 一种前方车辆检测方法 | |
CN115187917B (zh) | 基于视频片段检索的无人车历史场景检测方法 | |
CN114297237A (zh) | 基于类别融合的三维点云数据检索方法、装置及计算机设备 | |
US11568264B2 (en) | Using shape information and loss functions for predictive modelling | |
CN116485792B (zh) | 组织病理学亚型预测方法及成像方法 | |
US20240037918A1 (en) | Multi-view fine-grained identification method, apparatus, electronic device and medium | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN115100476B (zh) | 一种基于结构建模局部提议网络的细粒度分类方法 | |
CN114783507B (zh) | 基于二级结构特征编码的药物-蛋白亲和力预测方法及装置 | |
CN116310925A (zh) | 一种建筑材料的视频计数方法、装置、设备及存储介质 | |
CN110851633B (zh) | 一种实现同时定位和哈希的细粒度图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |