CN117612215B

CN117612215B - 基于视频检索的身份识别方法、装置、介质

Info

Publication number: CN117612215B
Application number: CN202410091990.8A
Authority: CN
Inventors: 张文昊; 纪翀; 高明; 罗圣美; 陈丹伟
Original assignee: Nanjing Zhongfu Information Technology Co Ltd
Current assignee: Nanjing Zhongfu Information Technology Co Ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-04-26
Anticipated expiration: 2044-01-23
Also published as: CN117612215A

Abstract

本申请的实施例提供了一种基于视频检索的身份识别方法、装置、介质。该基于视频检索的身份识别方法包括：基于输入视频中的视觉特征匹配对应的不同的镜头；根据镜头获取多个子视频，并提取对应的特征向量；基于特征向量与预设特征向量计算相似度；根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；基于人物视频进行身份识别，并确定人物视频中的人物身份，其中，对输入视频先进行镜头分配，并根据镜头获取多个子视频，以便于以镜头为单位在每个镜头内进行特征提取，因此，基于镜头分割而进行特征向量的提取，通过特征向量能更有效地利用人物视频中的信息，从而提高了基于视频检索的身份识别方法的识别效果。

Description

基于视频检索的身份识别方法、装置、介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种基于视频检索的身份识别方法、装置、介质。

背景技术

随着科技的发展，身份识别技术和设备应用于人们生活中，并且在获取的视频中进行特征识别，以便于确定视频中人物的特征，在现有技术中，获取视频，并针对单一视频中进行逐一识别，可是，在视频较长的时候，由于较长的视频涉及多个特征，增加了身份识别方法的计算量和参数量，并且影响基于视频检索的身份识别方法的识别效果。

发明内容

本申请的实施例提供了一种基于视频检索的身份识别方法、装置、介质，进而至少在一定程度上对输入视频先进行镜头分配，并根据镜头获取多个子视频，以便于以镜头为单位在每个镜头内进行特征提取，因此，基于镜头分割而进行特征向量的提取，通过特征向量能更有效地利用人物视频中的信息，从而提高了基于视频检索的身份识别方法的识别效果。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种基于视频检索的身份识别方法，应用于身份识别设备；

所述基于视频检索的身份识别方法包括：

基于输入视频中的视觉特征匹配对应的不同的镜头；

根据镜头获取多个子视频，并提取对应的特征向量；

基于特征向量与预设特征向量计算相似度；

根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；

基于人物视频进行身份识别，并确定人物视频中的人物身份。

可选的，所述基于输入视频中的视觉特征匹配对应的不同的镜头，包括：

获取输入视频；

针对输入视频进行特征识别，并确定视觉特征；

使用AutoShot模型进行镜头分割，并将视觉特征匹配对应的不同的镜头。

可选的，所述根据镜头获取多个子视频，并提取对应的特征向量，包括：

在每个镜头内等间隔地获取n个视频帧，并形成多个子视频；

基于多个子视频中通过三维卷积神经网络模型分别提取维度为m的向量；

基于维度为m的向量及对应的镜头构建出维度为n×m的特征向量。

可选的，所述根据镜头获取多个子视频，并提取对应的特征向量，还包括：

基于哈希算法实现视频的向量化处理。

可选的，所述基于特征向量与预设特征向量计算相似度，包括：

获取视频库中视频的特征向量和待检索视频的特征向量；

基于视频库中视频的特征向量和待检索视频的特征向量进行相似度计算，其中，基于余弦相似度进行相似度计算。

可选的，余弦相似度的公式为：

，

公式中，为特征向量X和Y的点积，/>为特征向量X的L2范数，即对特征向量元素的平方和开平方，/>为特征向量Y的L2范数。

可选的，所述根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频，包括：

获取相似度，并根据相似度的大小对视频库中的视频排序；

对已排序的视频进行人物特征的确认，以获得视频库中与待检索的视频相关的人物视频。

可选的，所述基于人物视频进行身份识别，并确定人物视频中的人物身份，包括：

获取人物视频；

基于人物视频划分对应的人物区域；

根据人物区域进行身份识别，并确定人物视频中的人物身份。

根据本申请实施例的一个方面，提供了一种基于视频检索的身份识别装置，包括：

匹配模块，用于基于输入视频中的视觉特征匹配对应的不同的镜头；

特征提取模块，用于根据镜头获取多个子视频，并提取对应的特征向量；

相似度计算模块，用于基于特征向量与预设特征向量计算相似度；

视频搜索模块，用于根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；

识别模块，用于基于人物视频进行身份识别，并确定人物视频中的人物身份。

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的基于视频检索的身份识别方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的基于视频检索的身份识别方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中提供的基于视频检索的身份识别方法。

在本申请的一些实施例所提供的技术方案中，基于输入视频中的视觉特征匹配对应的不同的镜头；根据镜头获取多个子视频，并提取对应的特征向量；基于特征向量与预设特征向量计算相似度；根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；基于人物视频进行身份识别，并确定人物视频中的人物身份，其中，对输入视频先进行镜头分配，并根据镜头获取多个子视频，以便于以镜头为单位在每个镜头内进行特征提取，因此，基于镜头分割而进行特征向量的提取，通过特征向量能更有效地利用人物视频中的信息，从而提高了基于视频检索的身份识别方法的识别效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了根据本申请的一个实施例的基于视频检索的身份识别方法的流程示意图；

图2示出了图1中S120的流程示意图；

图3示出了图1中S130的流程示意图；

图4示出了图1中S140的流程示意图；

图5示出了图1中S150的流程示意图；

图6示出了根据本申请的一个实施例的基于视频检索的身份识别方法的实际示意图；

图7示出了根据本申请的一个实施例的基于视频检索的身份识别装置的框图；

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合成或部分合成，因此实际执行的顺序有可能根据实际情况改变。

图1示出了根据本申请的一个实施例的基于视频检索的身份识别方法的流程示意图。该方法可以应用于身份识别设备，身份识别设备内置有摄像头，并通过摄像头对外部环境进行拍摄，以便于形成视频。

请参考图1至图8，该基于视频检索的身份识别方法至少包括步骤S110至步骤S150，详细介绍如下：

步骤S110、基于输入视频中的视觉特征匹配对应的不同的镜头；

步骤S120、根据镜头获取多个子视频，并提取对应的特征向量；

步骤S130、基于特征向量与预设特征向量计算相似度；

步骤S140、根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；

步骤S150、基于人物视频进行身份识别，并确定人物视频中的人物身份。

在本申请的实施例中，在步骤S110中，基于输入视频中的视觉特征匹配对应的不同的镜头。

在本申请的实施例中，获取输入视频；针对输入视频进行特征识别，并确定视觉特征；使用AutoShot模型进行镜头分割，并将视觉特征匹配对应的不同的镜头。

其中，针对输入视频进一步进行分析，输入视频可以由摄像头进行拍摄，也可以由其他主机通过通信网路输入，由于输入视频的播放时间较长，并且作为较大的文件，此时，针对输入视频进行特征识别，并对输入视频的特征进行单独划分，以便于确定视觉特征，从而进一步结合视觉特征和镜头对输入视频进行分割，以便于形成匹配各镜头的多个视频，其中，使用AutoShot模型进行镜头分割，并将视觉特征匹配对应的不同的镜头，因此，通过分析输入视频中的视觉特征，将输入视频的不同部分的内容分割并划分至，使用AutoShot模型按镜头分割，在每个镜头内等间隔地获取n个视频帧。

另外，获取计算设备，根据中央处理器（Central Processing Unit，CPU）、图形处理器（Graphics Processing Unit，GPU）的使用情况，并自适应选择可用的计算资源来进行视频检索。在GPU不可用的情况下，系统运行在CPU上。检测出GPU后，系统根据GPU上各个显卡的显存剩余情况，自适应地选择显存剩余较多的GPU显卡来运行。

在步骤S120中，根据镜头获取多个子视频，并提取对应的特征向量。

在本申请的实施例中，根据镜头获取多个子视频，并且将输入视频分割呈多个小视频，并且多个小视频分别对应不同的镜头，以便于实现输入视频的分割，以及后续小视频的单独处理，提高了基于视频检索的身份识别方法的识别效率。

参考图2，步骤S121、在每个镜头内等间隔地获取n个视频帧，并形成多个子视频；

步骤S122、基于多个子视频中通过三维卷积神经网络（3D Convolutional NeuralNetworks）模型分别提取维度为m的向量；

步骤S123、基于维度为m的向量及对应的镜头构建出维度为n×m的特征向量。

其中，在每个镜头内等间隔地获取n个视频帧，并且针对视频帧对应匹配镜头，以便于实现输入视频的分割，以及后续小视频的单独处理，提高了基于视频检索的身份识别方法的识别效率。

此时，基于多个子视频中通过三维卷积神经网络（3D Convolutional NeuralNetworks）模型分别提取维度为m的向量；基于维度为m的向量及对应的镜头构建出维度为n×m的特征向量，其中，基于哈希算法实现视频的向量化处理，从而基于维度为m的向量及对应的镜头构建出维度为n×m的特征向量。因此，为了提升特征提取的有效性（特征的数量与特征提取的效率等）和准确性，可以引入哈希算法相似度哈希（Similarity Hash，SimHash）的思想来实现视频的向量化处理。

参考图3，在步骤S130中，基于特征向量与预设特征向量计算相似度。

在本申请的实施例中，获取特征向量与预设特征向量，并且基于特征向量与预设特征向量之间的对比确定相似度，以便于基于相似度的大小对视频进行排序，从而实现视频的优先级处理。

步骤S131、获取视频库中视频的特征向量和待检索视频的特征向量。

步骤S132、基于视频库中视频的特征向量和待检索视频的特征向量进行相似度计算，其中，基于余弦相似度进行相似度计算。

在本申请的实施例中，获取视频库中视频的特征向量和待检索视频的特征向量，并且视频库中视频的特征向量和待检索视频的特征向量之间进行对比，以便于基于视频库中视频的特征向量和待检索视频的特征向量进行相似度计算，其中，基于余弦相似度（Cosine Similarity）进行相似度计算。

其中，余弦相似度的公式为：

，

参考图4，在步骤S140中，根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频。

步骤S141、获取相似度，并根据相似度的大小对视频库中的视频排序。

步骤S142、对已排序的视频进行人物特征的确认，以获得视频库中与待检索的视频相关的人物视频；

在本申请的实施例中，获取相似度，并根据相似度的大小对视频库中的视频排序，以便于对视频进行排序，从而实现了视频的优先级，进而实现了视频的优先处理顺序，保证了最关联的视频优先处理。

其中，获取相似度，并根据相似度的大小对视频库中的视频排序。对已排序的视频进行人物特征的确认，以获得视频库中与待检索的视频相关的人物视频，以便于根据人物视频进一步处理。

参考图5，在步骤S150中，基于人物视频进行身份识别，并确定人物视频中的人物身份。

步骤S151、获取人物视频。

步骤S152、基于人物视频划分对应的人物区域；

步骤S153、根据人物区域进行身份识别，并确定人物视频中的人物身份；

在本申请的实施例中，获取人物视频，以便于对人物视频进行区域划分，从而基于人物视频划分对应的人物区域，并且根据人物区域进行身份识别，并确定人物视频中的人物身份；可选的，确定人物区域中的人物外轮廓，并且针对人物外轮廓与轮廓库进行对比，以便于确定轮廓库中的目标轮廓，进而获取目标轮廓的信息，以便于确定人物视频中的人物身份。

具体工作过程：

步骤1、基于AutoShot模型的镜头分割：通过分析输入视频中的视觉特征，将输入视频的不同部分的内容分割并划分至，使用AutoShot模型按镜头分割，在每个镜头内等间隔地获取n个视频帧。

步骤2、基于三维卷积神经网络模型的特征提取：从每个镜头的n个视频帧中通过三维卷积神经网络模型分别提取维度为m的向量，从而让视频的每个镜头均能构建出维度为n×m的特征向量。

为了提升特征提取的有效性（特征的数量与特征提取的效率等）和准确性，可以引入哈希算法──相似度哈希（Similarity Hash，SimHash）的思想来实现视频的向量化处理。

步骤3、系统对上一步获得的特征向量──视频库中视频的特征向量X和待检索视频的特征向量Y──计算相似度similarity(X, Y)。计算两个特征向量之间的相似度可以采用余弦相似度（Cosine Similarity），即用两个特征向量之间夹角的余弦值作为衡量两者差异大小的度量。余弦相似度的公式为：

公式中，为特征向量X和Y的点积（dot product），/>为特征向量X的L2范数（模长），即对特征向量元素的平方和开平方，/>为特征向量Y的L2范数。

步骤4、系统通过分析和比对特征向量之间的相似度，按与待检索视频的相似度大小来为视频库中的视频排序，从而获得视频库中与待检索的视频相关的人物视频。

步骤5、系统针对从视频库中检索出的视频，通过人脸识别等身份识别技术，确定和甄别出视频中人物的身份，从而实现基于视频检索的身份识别。

步骤6、结束。

参考图6，首先，包含大量人物视频的视频库输入深度学习模型，进行模型镜头分割、特征提取等操作，从而构建特征向量库。之后，计算特征向量库中向量与待检索的人物视频提取的向量间的相似度，按相似度对视频库中的视频排序，从视频库中检索出与待检索视频相关的人物视频。最后，确定检索出的视频中人物的身份，实现基于视频检索的身份识别。

相比于现有基于视频的识别技术，本发明对视频库中的视频先进行镜头分割等预处理操作以有效地应对包含多镜头的长视频，再以镜头为单位在每个镜头内进行特征提取。本发明基于镜头分割而提取出的三维时空特征能更有效地利用三维空间中人物的身份信息。因此，本发明在三维身份识别领域的识别效果更佳，适用于复杂场景,在身份认证、公共安全防范等场景中均可使用。

相比于现有适用于单一设备的识别系统，本发明提供的系统适用于不同的设备，在中央处理器（Central Processing Unit，CPU）、图形处理器（Graphics ProcessingUnit，GPU）上均可运行。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的基于视频检索的身份识别方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的基于视频检索的身份识别方法的实施例。

图7示出了根据本申请的一个实施例的基于视频检索的身份识别装置的框图。

参照图7所示，根据本申请的一个实施例的基于视频检索的身份识别装置，包括：

匹配模块210，用于基于输入视频中的视觉特征匹配对应的不同的镜头；

特征提取模块220，用于根据镜头获取多个子视频，并提取对应的特征向量；

相似度计算模块230，用于基于特征向量与预设特征向量计算相似度；

视频搜索模块240，用于根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频；

识别模块250，用于基于人物视频进行身份识别，并确定人物视频中的人物身份。

在本申请的一个实施例中，还提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述实施例所述的基于视频检索的身份识别方法。

在一示例中，图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图8示出的电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统包括中央处理单元（Central Processing Unit，CPU）301（即如前所述的处理器），其可以根据存储在只读存储器（Read-Only Memory，ROM）302中的程序或者从储存部分308加载到随机访问存储器（Random Access Memory，RAM）303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。应该理解的，RAM303和ROM302即如前所述的存储装置。在RAM 303中，还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出（Input /Output，I/O）接口305也连接至总线304。以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分307；包括硬盘等的储存部分308；以及包括诸如局域网（Local Area Network，LAN）卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入储存部分308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元（CPU）301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于视频检索的身份识别方法，其特征在于，应用于身份识别设备；

所述基于视频检索的身份识别方法包括：

基于输入视频中的视觉特征匹配对应的不同的镜头；获取输入视频；针对输入视频进行特征识别，并确定视觉特征；使用AutoShot模型进行镜头分割，并将视觉特征匹配对应的不同的镜头；

根据镜头获取多个子视频，并提取对应的特征向量；

基于特征向量与预设特征向量计算相似度；获取视频库中视频的特征向量和待检索视频的特征向量；基于视频库中视频的特征向量和待检索视频的特征向量进行相似度计算，其中，基于余弦相似度进行相似度计算；余弦相似度的公式为：

cosine_similarity(X,Y)＝<X,Y>/(||X||*||Y||)

公式中，<X,Y>为特征向量X和Y的点积，||X||为特征向量X的L2范数，即对特征向量元素的平方和开平方，||Y||为特征向量Y的L2范数；

2.根据权利要求1所述的方法，其特征在于，所述根据镜头获取多个子视频，并提取对应的特征向量，包括：

在每个镜头内等间隔地获取n个视频帧，并形成多个子视频；

3.根据权利要求1所述的方法，其特征在于，所述根据镜头获取多个子视频，并提取对应的特征向量，还包括：

基于哈希算法实现视频的向量化处理。

4.根据权利要求1所述的方法，其特征在于，所述根据相似度的大小对视频库中的视频排序，并获得视频库中与待检索的视频相关的人物视频，包括：

获取相似度，并根据相似度的大小对视频库中的视频排序；

5.根据权利要求4所述的方法，其特征在于，所述基于人物视频进行身份识别，并确定人物视频中的人物身份，包括：

获取人物视频；

基于人物视频划分对应的人物区域；

6.一种基于视频检索的身份识别装置，其特征在于，包括：

匹配模块，用于基于输入视频中的视觉特征匹配对应的不同的镜头；获取输入视频；针对输入视频进行特征识别，并确定视觉特征；使用AutoShot模型进行镜头分割，并将视觉特征匹配对应的不同的镜头；

相似度计算模块，用于基于特征向量与预设特征向量计算相似度；获取视频库中视频的特征向量和待检索视频的特征向量；基于视频库中视频的特征向量和待检索视频的特征向量进行相似度计算，其中，基于余弦相似度进行相似度计算；余弦相似度的公式为：

cosine_similarity(X,Y)＝<X,Y>/(||X||*||Y||)

7.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于视频检索的身份识别方法。