CN113407780A

CN113407780A - 一种目标检索方法、装置及存储介质

Info

Publication number: CN113407780A
Application number: CN202110552511.4A
Authority: CN
Inventors: 蔡晓东; 周美欣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-17
Anticipated expiration: 2041-05-20
Also published as: CN113407780B

Abstract

本发明提供一种目标检索方法、装置及存储介质，方法包括：从监控设备中获取原始视频数据，并对原始视频数据进行分割处理，得到多个原始视频段；分别对各个原始视频段进行融合特征分析，得到与各个原始视频段对应的融合特征向量；导入待检索目标视频数据，并对待检索目标视频数据进行分割处理，得到多个待检索目标视频段；分别对各个待检索目标视频段进行融合特征分析，得到与待检索目标视频段对应的待检索融合特征向量。本发明充分融合了待检索目标的外形和脸部特征，使得检索准确率大大地提高，节约了人力，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

Description

一种目标检索方法、装置及存储介质

技术领域

本发明主要涉及视频处理技术领域，具体涉及一种目标检索方法、装置及存储介质。

背景技术

近年来，由于通讯和互联网行业相关技术的快速发展以及视频拍摄设备的移动化和轻量化，视频信息的积累、传播和更新速度出现了爆发性増长。因而，对这些非结构化信息的快速提取、管理以及利用变得非常困难，人们急需一种高效的视频检索系统来完成视频内容的自动提取和归档。搜索引擎在现代互联网中有着不可替代的作用。根据权威的Alexa网站的统计，当前全球互联网流量排名前10的网站均提供搜索引擎功能。在搜索引擎技术里，最为常用的方式是使用文字来注释视频内容，然后做基于数据库系统的视频检索。然而，这种方法在面对大量的视频信息时，不仅速度慢、成本高，还容易出现内容上的错误和疏漏，因为通过文本来描述图像或者视频存在着难以弥补的意图鸿沟，例如，在自然场景下对跨摄像头的特定行人目标进行跟踪和检索就非常困难，目前只能通过人工的查找和记录，存在速度慢以及检索准确率低的问题。所以如何快速准确的在视频中检索目标，以及如何更好满足产业界需求等问题还急需解决。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种目标检索方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种目标检索方法，包括如下步骤：

从监控设备中获取原始视频数据，并对所述原始视频数据进行分割处理，得到多个原始视频段；

分别对各个所述原始视频段进行融合特征分析，得到与各个所述原始视频段对应的融合特征向量；

导入待检索目标视频数据，并对所述待检索目标视频数据进行分割处理，得到多个待检索目标视频段；

分别对各个所述待检索目标视频段进行融合特征分析，得到与所述待检索目标视频段对应的待检索融合特征向量；

根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度分析，得到与各个所述待检索目标视频段对应的分析结果，并将各个所述分析结果作为与各个所述待检索目标视频段对应的检索结果。

本发明解决上述技术问题的另一技术方案如下：一种目标检索装置，包括：

原始数据分割模块，用于从监控设备中获取原始视频数据，并对所述原始视频数据进行分割处理，得到多个原始视频段；

原始视频段处理模块，用于分别对各个所述原始视频段进行融合特征分析，得到与各个所述原始视频段对应的融合特征向量；

待检索数据分割模块，用于导入待检索目标视频数据，并对所述待检索目标视频数据进行分割处理，得到多个待检索目标视频段；

待检索视频段处理模块，用于分别对各个所述待检索目标视频段进行融合特征分析，得到与所述待检索目标视频段对应的待检索融合特征向量；

检索结果获得模块，用于根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度分析，得到与各个所述待检索目标视频段对应的分析结果，并将各个所述分析结果作为与各个所述待检索目标视频段对应的检索结果。

本发明解决上述技术问题的另一技术方案如下：一种目标检索装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的目标检索方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的目标检索方法。

本发明的有益效果是：通过对原始视频数据的分割处理得到多个原始视频段，分别对各个原始视频段的融合特征分析得到多个融合特征向量，对待检索目标视频数据的分割处理得到多个待检索目标视频段，分别对各个待检索目标视频段的融合特征分析得到多个待检索融合特征向量，根据各个待检索融合特征向量分别对各个融合特征向量的相似度分析得到与各个待检索目标视频段对应的检索结果，充分融合了待检索目标的外形和脸部特征，使得检索准确率大大地提高，节约了人力，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

附图说明

图1为本发明实施例提供的目标检索方法的流程示意图；

图2为本发明实施例提供的目标检索装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的目标检索方法的流程示意图。

如图1所示，一种目标检索方法，包括如下步骤：

应理解地，所述监控设备为某城市特定路口的实际监控设备，该监控设备必须安装在该路口中间位置处，并且所述监控设备距离地面应该为3米高，所述监控设备照射角与地面成45°角。

应理解地，将所述原始视频数据作为输入，经过算法对所述原始视频数据进行分割处理输出k个所述原始视频段{Ck}；将所述待检索目标视频数据作为输入，经过算法对所述待检索目标视频数据进行分割处理输出k个所述待检索目标视频段{Ck}。

上述实施例中，通过对原始视频数据的分割处理得到多个原始视频段，分别对各个原始视频段的融合特征分析得到多个融合特征向量，对待检索目标视频数据的分割处理得到多个待检索目标视频段，分别对各个待检索目标视频段的融合特征分析得到多个待检索融合特征向量，根据各个待检索融合特征向量分别对各个融合特征向量的相似度分析得到与各个待检索目标视频段对应的检索结果，充分融合了待检索目标的外形和脸部特征，使得检索准确率大大地提高，节约了人力，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，每个所述原始视频段均包括属于同一行人ID的多个帧图片；所述分别对各个所述原始视频段进行融合特征分析，得到与各个所述原始视频段对应的融合特征向量的过程包括：

以属于同一行人ID的多个帧图片为帧图片单元组，通过预设二维卷积神经网络分别对各个帧图片单元组中的多个帧图片进行特征提取，得到各组属于同一行人ID的多个帧图片特征；

以属于同一行人ID的多个帧图片特征为特征单元组，利用时间建模算法分别对各个特征单元组中的多个所述帧图片特征进行特征聚合处理，得到各组属于同一行人ID的特征向量；

利用SSD目标检测框架算法分别对各个所述特征向量进行局部特征提取，得到与各个所述特征向量对应的局部特征向量；

分别对各个所述特征向量以及与各个所述特征向量对应的所述局部特征向量进行融合特征向量的计算，得到与各个所述原始视频段对应的融合特征向量。

应理解地，每个所述原始视频段包含T个帧(即所述帧图片)。即一段长视频被裁剪成连续的不重叠的k个所述原始视频段{Ck}，每个所述原始视频段包含T帧(即所述帧图片)，并且每小段视频(即所述原始视频段)里只有一个行人(即属于同一行人ID)。

具体地，将一系列的图像层次特征(即T个所述帧图片)聚合成一个视频片段层次的特征(即所述特征向量)，该提取的特征(即所述特征向量)包含时间信息和行人信息。其包括三个部分：图像级特征提取器，时间建模方法(即所述时间建模算法)来聚合时间特征和损失函数。处理步骤如下：

1、使用图像层次的特征提取器提取每一帧图片的特征向量(即所述帧图片特征)。

2、把提取的特征(即所述帧图片特征)通过时间建模方法(即所述时间建模算法)，将图像层次的特征聚合为视频序列的特征(即所述特征向量)。

应理解地，所述特征提取器是使用网络2D CNN(卷积神经网络)，即采用标准的Resnet50模型作为图像层次的特征提取器。输入是一系列的图片帧，经过特征提取器，输出一系列的图像层次特征{f_ci ^t，}(即多个所述帧图片特征),t∈[1,n]，是一个n×D的矩阵，其中n是视频序列的长度，D是输出的图像层次特征向量的维度。

应理解地，ssd全称Single Shot MultiBox Detector，目标检测框架，相比FasterRCNN有明显的速度优势，相比YOLO又有明显的mAP优势，从YOLO中继承了将检测转化为回归的思路，一次完成目标定位与分类基于Faster RCNN中的锚点，提出了相似的Prior box；加入基于特征金字塔的检测方式，即在不同感受野的特征图上预测目标。

具体地，所述时间建模方法采用的是时间注意力池化，时间注意力池化充分利用所有图像层次特征的问题，在图像层次特征上应用了一个注意力加权平均。即行人质量高的帧高权重，行人质量低的图片低权重，加权求和。公式如下：

f_ci代表序列特征(即所述特征向量)，该特征包含了时间信息和行人信息，f_ci ^t代表帧的特征，给定的片段Ci的注意力为a_ci ^t,t∈[1,T)，

Resnet50中最后的卷积层输出的张量尺寸为[2048,w,h]，w，h取决于输入的图片尺寸。注意力生成网络将一系列图像层次特征[T,2048,w,h]作为输入，输出T注意力分数。

上述的注意力分数/权重应用一个空间卷积层(卷积核的宽度为w，高度为h，输入的通道数为2048，输出的通道数为dt),记为[w,h,2048,dt]。在上述卷积层的输出后面有一个时间卷积层，输入的通道数为dt，输出的通道数为1，卷积核的步长为3，记为[3,3,dt,1]。最后的输出为一个标量Sct,t∈[1,T]是帧t对于片段C的重要性分数。

一旦获得了时间注意力分数Sct，可以通过Softmax函数计算最终的注意力分数a_c ^t，

Softmax函数：

应理解地，将得到的特征f_ci(即所述特征向量)做进一步的局部特征提取，对于行人最具区别性的局部特征是脸部，所以本专利的局部特征提取是针对脸部特征，然后再针对脸部提取特征，并用g_i代表局部特征(即所述局部特征向量)，该局部特征(即所述局部特征向量)是包含人脸和时间特征的信息。

上述实施例中，分别对各个原始视频段的融合特征分析得到与各个原始视频段对应的融合特征向量，为后续的处理提供基础数据，充分融合了待检索目标的外形和脸部特征，使得检索准确率大大地提高，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，所述分别对各个所述特征向量以及与各个所述特征向量对应的所述局部特征向量进行融合特征向量的计算，得到与各个所述原始视频段对应的融合特征向量的过程包括：

通过第一式分别对各个所述特征向量以及与各个所述特征向量对应的所述局部特征向量进行融合特征向量的计算，得到与各个所述原始视频段对应的融合特征向量，所述第一式为：

其中，T(fc_i,g_i)为第i个融合特征向量，fc_i为特征向量，g_i为局部特征向量，cov(f_ci，g_i)为特征向量fc_i与局部特征向量g_i的协方差，D(f_ci)为特征向量fc_i的方差，D(g_i)为局部特征向量g_i的方差，T的取值为[-1,1]。

应理解地，利用matlab语言编写算法分别将序列特征f_ci(即所述特征向量)和局部g_i(即所述局部特征向量)进行线性相关计算，得到一个充分融合这两个特征的融合特征T_i(x)(即所述融合特征向量),从而使特征更加有判别性，该模块融合的特征(即所述融合特征向量)用于后期的检索。

上述实施例中，通过第一式分别对各个特征向量以及与各个特征向量对应的局部特征向量的融合特征向量计算，得到与各个原始视频段对应的融合特征向量，使得特征更加具有判别性，为后期的检索提供了依据，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，所述根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度分析，得到与各个所述待检索目标视频段对应的分析结果的过程包括：

根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度计算，得到与各个所述待检索融合特征向量对应的多个相似度；

分别对与各个所述待检索融合特征向量对应的多个相似度进行最大值筛选，得到与各个所述待检索融合特征向量对应的最大相似度，并将与各个所述待检索融合特征向量对应的所述最大相似度属于的行人ID作为与所述待检索目标视频段对应的分析结果。

应理解地，利用余弦相似度遍历计算融合特征T_i(即所述融合特征向量)和检索的融合特征S(X)(即所述待检索融合特征向量)相似度，最高特征相似度对应的类(即所述行人ID)即为检索图片所匹配的类(即所述行人ID)。

上述实施例中，根据各个待检索融合特征向量分别对各个融合特征向量的相似度分析得到与各个待检索目标视频段对应的分析结果，能够让检索的准确率大大提高，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，所述根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度计算，得到与各个所述待检索融合特征向量对应的多个相似度的过程包括：

根据第二式和各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度计算，得到与各个所述待检索融合特征向量对应的多个相似度，所述第二式为：

其中，cosθ为相似度，T_i(x)为第i个融合特征向量，S(x)为待检索融合特征向量。

上述实施例中，根据第二式和各个待检索融合特征向量分别对各个融合特征向量的相似度计算得到与各个待检索融合特征向量对应的多个相似度，能够让检索的准确率大大提高，实现了快速且准确的在视频中检索目标，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，所述待检索目标视频数据包括多个与所述待检索目标视频段对应的原始行人ID；当得到检索结果时，还包括对所述检索结果进行准确率预测的步骤，其过程包括：

利用top1算法对多个所述原始行人ID与多个所述检索结果进行准确率的预测，得到检索准确率。

应理解地，利用top-1来计算图的匹配准确度。

具体地，Top-1(即所述top1算法)就是预测的标签取最后概率向量里面最大的那一个作为预测结果，你的预测结果中概率最大的那个类必须是正确类别才算预测正确。比如如果要预测一张图片时，(如imagenet有一千个分类)，会给这1000个类别按概率进行从大到小排序，top1准确率是指排名第一的类别与这张图片类别相符合的准确率。

上述实施例中，利用top1算法对多个原始行人ID与多个检索结果的准确率预测得到检索准确率，实现了对检索结果的验证，更好地满足了产业界的需求。

可选地，作为本发明的一个实施例，还包括分别对各个所述特征向量、各个所述局部特征向量和各个所述融合特征向量进行存储，所述分别对各个所述特征向量、各个所述局部特征向量和各个所述融合特征向量进行存储的过程包括：

建立多个与所述行人ID对应的数据库，并根据所述行人ID分别将各个所述特征向量、各个所述局部特征向量和各个所述融合特征向量存储至与所述行人ID对应的数据库中。

应理解地，所述数据库需要经过特殊处理，因为融合特征值(即所述融合特征向量)是使用matlab语言进行处理，而是f_ci(即所述特征向量)和g_i(即所述局部特征向量)均是以json格式存在的特征值文件。而在matlab里面使用json需要下载一个jsonlab库，下载这个数据库的目的是把特征文件顺利作为输入通过算法融合在一起。

可选地，作为本发明的一个实施例，所述对所述待检索目标视频数据进行融合特征分析，得到待检索融合特征向量的步骤如下：

获取待检索目标(即所述待检索目标视频数据)，然后进行数据采集和视频处理，然后把视频处理为k个视频段{Ck}，每个视频段包含T帧，每段视频只有一个行人；

将一系列的图像层次特征聚合成一个视频片段层次的特征vi；

将得到的特征vi做进一步的局部(时间和脸部)特征提取，并将提取的特征记为c_i；

将提取的局部特征c_i和特征vi进行融合，融合后的特征为S(x)(即所述待检索融合特征向量)。

图2为本发明实施例提供的目标检索装置的模块框图。

可选地，作为本发明的另一个实施例，如图2所示，一种目标检索装置，包括：

可选地，作为本发明的一个实施例，每个所述原始视频段均包括属于同一行人ID的多个帧图片；所述原始视频段处理模块具体用于：

可选地，本发明的另一个实施例提供一种目标检索装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的目标检索方法。该装置可为计算机等装置。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的目标检索方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的目标检索方法，其特征在于，每个所述原始视频段均包括属于同一行人ID的多个帧图片；所述分别对各个所述原始视频段进行融合特征分析，得到与各个所述原始视频段对应的融合特征向量的过程包括：

3.根据权利要求2所述的目标检索方法，其特征在于，所述分别对各个所述特征向量以及与各个所述特征向量对应的所述局部特征向量进行融合特征向量的计算，得到与各个所述原始视频段对应的融合特征向量的过程包括：

4.根据权利要求2所述的目标检索方法，其特征在于，所述根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度分析，得到与各个所述待检索目标视频段对应的分析结果的过程包括：

5.根据权利要求4所述的目标检索方法，其特征在于，所述根据各个所述待检索融合特征向量分别对各个所述融合特征向量进行相似度计算，得到与各个所述待检索融合特征向量对应的多个相似度的过程包括：

6.根据权利要求1所述的目标检索方法，其特征在于，所述待检索目标视频数据包括多个与所述待检索目标视频段对应的原始行人ID；当得到检索结果时，还包括对所述检索结果进行准确率预测的步骤，其过程包括：

7.一种目标检索装置，其特征在于，包括：

8.根据权利要求7所述的目标检索装置，其特征在于，每个所述原始视频段均包括属于同一行人ID的多个帧图片；所述原始视频段处理模块具体用于：

9.一种目标检索装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至6任一项所述的目标检索方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至6任一项所述的目标检索方法。