CN110287875B

CN110287875B - 视频目标的检测方法、装置、电子设备和存储介质

Info

Publication number: CN110287875B
Application number: CN201910555757.XA
Authority: CN
Inventors: 揭泽群; 李宁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-10-21
Anticipated expiration: 2039-06-25
Also published as: CN110287875A

Abstract

本发明提供一种视频目标的检测方法、装置、电子设备和存储介质，利用带实例门的卷积长短记忆网络模型计算当前图像帧的初始图像特征和历史图像帧的图像特征，得到当前图像帧的图像特征，根据当前图像帧的图像特征确定出当前图像帧的目标区域。实例门携带有用于指示历史图像帧的目标区域的，历史图像帧的指示信息，并且历史图像帧的指示信息用于在前述计算过程中调整历史图像帧的图像特征，从而在当前图像帧的图像特征中强调历史图像帧的携带的目标物体的特征。这样计算得到的当前图像帧的图像特征，在当前图像帧中目标物体被遮挡或者存在运动模糊的情况下，也能表现出完整的目标物体的特征，使根据当前图像帧的图像特征进行的检测更加准确。

Description

视频目标的检测方法、装置、电子设备和存储介质

技术领域

本发明涉及多媒体技术领域，特别涉及一种视频目标的检测方法、装置、电子设备和存储介质。

背景技术

检测视频目标，是指从待检测视频中识别出特定类别的物体(即目标物体)，并对识别出的目标物体进行追寻。

目前，一种常用的视频目标的检测方法，主要是利用卷积长短记忆网络模型对待检测视频的图像帧处理得到对应的图像特征，然后分析图像帧的图像特征，从而确定出图像帧中目标物体的所在区域。通过确定出待检测视频的每个图像帧中目标物体的所在区域，完成对视频目标的检测。

现有的卷积长短记忆网络模型，主要是通过处理当前图像帧的初始图像特征，以及当前图像帧的前一个图像帧的图像特征，得到当前图像帧的图像特征。在当前图像帧中的目标物体的所在区域存在遮挡或模糊时，现有的长短期记忆网络输出的当前图像帧的图像特征质量较差，无法经过分析准确的反映出目标物体在当前图像帧的所在区域。

发明内容

基于上述现有技术的不足，本发明提出一种视频目标的检测方法、装置、电子设备和存储介质，以提高对视频目标的检测的准确性。

本发明第一方面公开一种视频目标的检测方法，包括：

获取待检测视频的当前图像帧的初始图像特征、以及历史图像帧的图像特征；其中，所述当前图像帧是所述待检测视频中任意一个未检测的图像帧，所述历史图像帧是所述当前图像帧的前一个图像帧；

利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征；其中，所述卷积长短记忆网络模型包括实例门，所述实例门携带有所述历史图像帧的指示信息，且在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征的过程中，用于利用所述历史图像帧的指示信息调整所述历史图像帧的图像特征；所述历史图像帧的指示信息用于指示目标物体在所述历史图像帧的所在区域；

根据所述当前图像帧的图像特征，确定出所述目标物体在所述当前图像帧中的所在区域。

可选的，所述利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征，包括：

利用所述卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的映射特征，得到所述当前图像帧的图像特征；

其中，所述历史图像帧的映射特征，由所述历史图像帧的图像特征根据所述历史图像帧的运动信息向所述当前图像帧映射得到；

在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的映射特征的过程中，所述历史图像帧的指示信息用于调整所述历史图像帧的映射特征。

可选的，所述卷积长短记忆网络模型还包括实例门权重；其中，所述实例门权重用于修正所述实例门携带的所述历史图像帧的指示信息，得到修正后的所述历史图像帧的指示信息；

所述利用所述历史图像帧的指示信息调整所述历史图像帧的图像特征，包括：

利用所述修正后的所述历史图像帧的指示信息调整所述历史图像帧的图像特征。

可选的，所述获取待检测视频的当前图像帧的初始图像特征，包括：

获取待检测视频的当前图像帧的像素矩阵；其中，所述像素矩阵的每一个元素均对应所述当前图像帧的一个像素点，并且，所述元素的元素值根据对应的像素点的颜色确定；

利用预设的卷积神经网络计算所述像素矩阵，得到所述当前图像帧的初始图像特征。

可选的，所述实例门为二值矩阵，所述二值矩阵的每一个元素均对应所述历史图像帧的一个像素点；

其中，所述二值矩阵中，所述目标物体在所述历史图像帧的所在区域内的像素点对应的元素的元素值设定为第一数值，所述目标物体在所述历史图像帧的所在区域外的像素点对应的元素的元素值设定为第二数值。

可选的，所述待检测视频包括：视频网站中播放的视频，所述目标物体为所述视频网站中播放的视频中的目标物体；

或者，所述待检测视频包括：智能追寻设备录制的视频，所述目标物体为所述智能追寻设备录制的视频中的被追寻物体；

或者，所述待检测视频包括安防视频，所述目标物体为所述安防视频中的目标物体；

或者，所述待检测视频包括直播平台的直播视频；所述目标物体为所述直播平台的直播视频中的目标物体。

本发明第二方面公开一种视频目标的检测装置，包括：

获取单元，用于获取待检测视频的当前图像帧的初始图像特征、以及历史图像帧的图像特征；其中，所述当前图像帧是所述待检测视频中任意一个未检测的图像帧，所述历史图像帧是所述当前图像帧的前一个图像帧；

计算单元，用于利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征；其中，所述卷积长短记忆网络模型包括实例门，所述实例门携带有所述历史图像帧的指示信息，且在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征的过程中，用于利用所述历史图像帧的指示信息调整所述历史图像帧的图像特征；所述历史图像帧的指示信息用于指示目标物体在所述历史图像帧的所在区域；

确定单元，用于根据所述当前图像帧的图像特征，确定出所述目标物体在所述当前图像帧中的所在区域。

可选的，所述计算单元用于利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征时，用于：

所述历史图像帧的指示信息，用于在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的映射特征的过程中，调整所述历史图像帧的映射特征。

可选的，所述获取单元用于获取待检测视频的当前图像帧的初始图像特征时，用于：

获取待检测视频的当前图像帧的像素矩阵；其中，所述像素矩阵的每一个元素均对应所述当前图像帧的一个像素点，并且，所述元素的值根据对应的像素点的颜色确定；

本发明第三方面公开一种电子设备，包括处理器和存储器；其中：

所述存储器用于存储计算机指令；

所述处理器用于执行所述存储器存储的计算机指令，具体用于执行如本发明第一方面任意一项公开的视频目标的检测方法。

本发明第四方面公开一种存储介质，用于存储程序，所述程序被执行时，用于执行如本发明第一方面任意一项公开的视频目标的检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为现有的一种卷积长短记忆网络模型的结构示意图；

图2为本申请实施例提供的一种视频目标的检测方法的流程示意图；

图3为本申请实施例涉及的矩阵的卷积运算的示意图；

图4为本申请实施例提供的卷积长短记忆网络模型计算得到当前图像帧的图像特征的流程示意图；

图5a为本申请实施例提供的带实例门的卷积长短记忆网络模型的结构示意图；

图5b为本申请另一实施例提供的带实例门的卷积长短记忆网络模型的结构示意图；

图6为本申请实施例提供的携带有历史图像帧的指示信息的实例门的示意图；

图7为本申请实施例提供的根据当前图像帧的图像特征确定出目标物体在当前图像帧的所在区域的方法的流程图；

图8为本申请另一实施例提供的历史图像帧的光流矢量的示意图；

图9为本申请实施例提供的一种视频目标的检测装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的视频目标的检测方法，其关键在于对现有的应用于检测视频目标的卷积长短记忆网络模型进行改进，得到一种新型的卷积长短记忆网络模型，然后利用这种新型的卷积长短记忆网络模型进行视频目标的检测，从而获得更好的检测效果。

为了便于理解本申请提供的检测方法，下面结合图1介绍现有的卷积长短记忆网络模型的结构，以及基于现有的卷积长短记忆网络模型进行的检测视频目标的方法。

现有的卷积长短记忆网络模型主要是结合当前图像帧的初始图像特征，以及历史图像帧的图像特征，计算得到当前图像帧的图像特征。历史图像帧是指当前图像帧的前一个图像帧。

需要说明的是，本申请中，图像帧的初始图像特征，指代利用预设的卷积神经网络根据这个图像帧计算得到的一个或多个矩阵，矩阵的数量根据利用的卷积神经网络的类型以及参数相关。进一步的，卷积长短记忆网络模型的输出，即图像帧的图像特征，实际包括两类特征，分别记为第一图像特征和第二图像特征，并且第一图像特征和第二图像特征都可以表示成一个或多个矩阵，第一图像特征的矩阵的数量和第二图像特征的矩阵的数量均为N，N是由卷积长短记忆网络模型中预先设定的参数决定的正整数。图像特征的所有矩阵的行数相同，列数也相同。

还需要说明的是，利用卷积长短记忆网络模型计算当前图像帧的图像特征时，如果当前图像帧不是待检测视频的第一个图像帧，那么计算过程中涉及的历史图像帧的图像特征，就是卷积长短记忆网络模型计算得到的历史图像帧的图像特征，如果当前图像帧是待检测视频的第一个图像帧，则计算过程中以预先设定的参考特征作为历史图像帧的图像特征。

例如，假设一个卷积长短记忆网络模型计算得到的图像帧的第一图像特征是一个A行B列的矩阵，利用这个卷积长短记忆网络模型计算待检测视频的第一个图像帧的图像特征时，预先设定的参考特征可以是一个A行B列，且所有元素的元素值均为预设的参考值(例如，均为1)的矩阵，在计算第一个图像帧的图像特征的过程中，这个矩阵既作为历史图像帧的第一图像特征使用，也作为历史图像帧的第二图像特征使用。计算得到第一个图像帧的图像特征后，针对后续每个图像帧的计算，即可依据卷积长短记忆网络模型计算得到的这个图像帧的前一个图像帧的图像特征进行。

现有的卷积长短记忆网络模型如图1所示，主要包括输入门，输出门，遗忘门和候选门，每个门相当于卷积长短记忆网络模型的一个处理单元，用于根据自身的输入进行计算得到对应的输出。现有的卷积长短记忆网络模型中，上述四个处理单元的输入相同，均由当前图像帧(即当前需要检测的图像帧)的初始图像特征，和历史图像帧的第一图像特征组成。

计算得到上述四个处理单元的输出后，卷积长短记忆网络模型就可以根据输入门的输出，遗忘门的输出，候选门的输出，以及历史图像帧的第二图像特征计算得到当前图像帧的第二图像特征，再根据当前图像帧的第二图像特征和输出门的输出计算得到当前图像帧的第一图像特征。利用预设的图像目标检测模型对当前图像帧的第一图像特征进行分析，即可确定出当前图像帧中目标物体所在的区域。

现有的卷积长短记忆网络模型在应用于视频目标的检测时，若当前图像帧中目标物体被部分遮挡，或者目标物体出现运动模糊，现有的卷积长短记忆网络模型计算得到的图像特征会缺失部分目标物体的特征，使得图像特征经过处理后得到的结果无法准确的指示出当前图像帧的目标区域(一个图像帧的目标区域，指代目标物体在该图像帧的所在区域)。

为了解决上述现有技术存在的问题，本申请实施例提供一种视频目标的检测方法，请参考图2所示的本实施例提供的方法的流程图，本实施例提供的方法包括以下步骤：

首先需要说明的是，本申请实施例提供的视频目标的检测方法，既可以在视频播放过程中实时的对视频进行检测，并在视频中实时的指示出目标物体所在区域，也可以在视频播放前完成对整个视频的检测并对检测到的目标物体进行标记。

S201、判断待检测视频中是否存在未检测的图像帧。

若待检测视频中有未检测的图像帧，执行步骤S202，若待检测视频中不存在未检测的图像帧，则再次执行步骤S201。

S202、获取待检测视频的当前图像帧的初始图像特征和历史图像帧的图像特征。

可以理解的，步骤S201和步骤S202也可以认为是一个步骤，即：

若待检测视频中存在未检测的图像帧，获取待检测视频的当前图像帧的初始图像特征和历史图像帧的图像特征。

其中，当前图像帧是待检测视频中的一个未检测的图像帧，历史图像帧的定义如前述。由于本实施例提供的方法中，卷积长短记忆网络模型对当前图像帧需要利用卷积长短记忆网络模型输出的历史图像帧的第一图像特征和第二图像特征，因此一般将第一个未检测的图像帧作为当前图像帧，方便利用检测历史图像帧时生成的历史图像帧的第一图像特征和第二图像特征。例如，若一个视频包含1000个图像帧，前400个图像帧已经完成检测，则将第401个图像帧作为当前图像帧。

如前文所述，步骤S202中提及的当前图像帧的初始图像特征，是利用预设的卷积神经网络对当前图像帧进行卷积处理后得到的。现有技术中有多种卷积神经网络可以用于对一个图像帧进行处理得到上述初始图像特征，下面介绍一种获取初始图像特征的方法作为参考。

首先，能够理解的，一个图像帧可以认为是由若干个像素点构成的矩阵，通过将图像帧中各像素点的颜色用一种色彩模式表示，就可以得到各个像素点对应的，与该像素点的颜色相关的数值，同类的数值组合就构成图像帧的一个像素矩阵。例如，基于RGB色彩模式，可以将每个像素点的颜色转换为三个数值，分别用于表示该像素点的红色亮度值，绿色亮度值和蓝色亮度值，通过上述转换，一个图像帧的所有像素点的红色亮度值可以组成该图像帧的一个像素矩阵，类似的，该图像帧的所有像素点的绿色亮度值和蓝色亮度值也可以分别组成该图像帧的另外两个像素矩阵。

假设有一个只包含A，B，C，D四个像素点的图像帧(各像素点的位置如表1所示)，RGB色彩模式下，像素点A的颜色表示为(250,30,80)，像素点B的颜色表示为(90,20,71)，像素点C的颜色表示为(105,60,51)，像素点D的颜色表示为(182,64,20)，括号内的三个数值依次表示该像素点的红色亮度值，绿色亮度值和蓝色亮度值。则在RGB色彩模式下，该图像帧的红色亮度值对应的像素矩阵可以用表2表示，蓝色亮度值和绿色亮度值对应的像素矩阵类似。

A	B
		C	D

表1

250	90
		105	182

表2

利用卷积神经网络对一个图像帧进行处理，其实就是利用卷积神经网络中预设的卷积核，对这个图像帧的像素矩阵进行卷积运算，得到像素矩阵对应的结果矩阵。

当然，基于不同的色彩模式，可以得到一个图像帧的不同的像素矩阵，它们也都可以用于输入卷积神经网络进行处理，此处不一一列举。

卷积核是预设的用于进行卷积运算的矩阵，一般将卷积核设置为3阶或5阶的方阵，当然，根据实际情况，也可以设置其他阶数的方阵作为卷积核。卷积核中的各个元素则可以利用样本数据进行训练得到，现有技术中有多种训练方法可以参考，此处不再赘述。

下面结合一个例子介绍对矩阵进行卷积运算的过程，假设需要进行卷积运算的矩阵(记为待运算矩阵)是一个5阶方阵，卷积核是一个3阶方阵，其中的元素用J_ij，i是该元素在卷积核中的行标记，j是该元素在卷积核中的列标记，卷积运算的过程包括：针对这个矩阵的任意一个元素(记为元素P_ij，i表示行数，j表示列数)，将卷积核的中心元素(即位于第2行，第2列的元素，记为J₂₂)与元素P_ij对齐，使得卷积核中的元素与矩阵的元素对应，然后将卷积核中的每个元素与矩阵中对应的元素相乘，得到的9个乘积之和，就是元素P_ij卷积运算后得到的结果，记为S_ij。待运算矩阵中的所有元素都进行上述卷积运算后，将每一个S_ij按其对应的元素P_ij的位置排列，就构成了待运算矩阵进行卷积运算后得到的结果矩阵。

关于上述过程，可以参考图3进行理解。图3中的两个点阵分别表示待运算矩阵和结果矩阵，3×3的方格表示卷积核，如图3所示，通过将卷积核的中心元素与待运算矩阵的元素P₁₁对齐，就可以基于前述过程计算得到S₁₁，将卷积核的中心元素与待运算矩阵的元素P₄₅对齐，就可以基于前述过程计算得到S₄₅，以此类推，最终得到整个结果矩阵。

可以发现，在上述过程中，若卷积核的中心元素与待运算矩阵边缘的元素对应，那么卷积核中的部分元素将无法与待运算矩阵中的元素对应，这种情况下，可以将这些元素与0相乘。例如，将卷积核的元素J₂₂与待运算矩阵的元素P₁₁对齐时，卷积核的第一列的所有元素和第一行的所有元素(J₁₁，J₂₁，J₃₁，J₁₂，J₁₃)均未与待运算矩阵中的元素对应，因此，对元素P₁₁进行卷积运算时，前述5个元素均乘以0。

可以发现，卷积运算并不改变待运算矩阵的行数和列数，对M行N列的矩阵进行卷积运算，得到的结果矩阵仍然是M行N列的矩阵，M和N为正整数。

需要说明的是，一个彩色的图像帧一般会表示为多个像素矩阵(例如，基于RGB色彩模式可以表示为红色亮度值，绿色亮度值和蓝色亮度值三个像素矩阵)。因此，每个像素矩阵经过卷积运算后都会得到一个对应的结果矩阵，也就是说一个彩色的图像帧会对应多个结果矩阵。涉及对多个像素矩阵进行卷积运算的场合，可以用同一个卷积核对多个像素矩阵进行卷积运算，也可以针对每一个像素矩阵设置一个对应的卷积核，并对每个像素矩阵用对应的卷积核进行卷积运算。

这种情况下，可以将一个彩色的图像帧对应的所有结果矩阵相加得到的和矩阵作为这个图像帧的初始图像特征，也可以将这些结果矩阵都作为这个图像帧的初始图像特征。

也就是说，利用预设的卷积神经网络处理得到的初始图像特征，可以是根据当前图像帧的像素矩阵计算得到的多个矩阵，也可以是一个矩阵，并且，初始图像特征包含的矩阵的行数和列数与当前图像帧的像素矩阵的行数和列数一致。

可选的，对当前图像帧的像素矩阵进行卷积运算得到结果矩阵后，可以对当前图像帧对应的结果矩阵进行偏置，得到偏置后的结果矩阵，然后再将偏置后的结果矩阵作为当前图像帧的初始图像特征，或者根据偏置后的结果矩阵求和得到当前图像帧的初始图像特征。

对结果矩阵进行偏置，是指，将结果矩阵中的每一个元素与预设的偏置值相加，得到的和作为偏置后的结果矩阵中的对应元素。例如，假设结果矩阵包含4个元素，分别是1,2,3和4，预设的偏置值为6，对这个结果矩阵进行偏置后，得到的偏置后的结果矩阵中的四个元素就分别是7,8,9和10。

综上所述，卷积长短记忆网络模型处理的图像帧的初始图像特征，是一个(或多个)矩阵，矩阵的每一个元素都对应图像帧的一个像素点，并且两者的位置一致，也就是说，假设初始图像特征的一个元素位于一个矩阵的第20行，第30列，那么这个元素对应的像素点在图像帧中也位于第20行，第30列。

进一步的，卷积长短记忆网络模型处理得到的一个图像帧的第一图像特征和第二图像特征，也都可以认为是一个(或多个)矩阵，矩阵的性质与初始图像特征一致，即矩阵的元素以及元素的位置，与图像帧的像素点以及像素点的位置对应。

S203、利用卷积长短记忆网络模型计算当前图像帧的初始图像特征和历史图像帧的图像特征，得到当前图像帧的图像特征。

需要说明的是，步骤S203中提及的卷积长短记忆网络模型，是本申请提供的，一个包括实例门在内的新型的卷积长短记忆网络模型。在这个卷积长短记忆网络模型中，实例门携带有历史图像帧的指示信息，历史图像帧的指示信息用于指示目标物体在历史图像帧的所在区域(目标物体在一个图像帧的所在区域，也可以称为该图像帧的目标区域)。并且，在这个卷积长短记忆网络模型根据当前图像帧的初始图像特征和历史图像帧的图像特征计算得到当前图像帧的图像特征的过程中，历史图像帧的指示信息用于对历史图像帧的图像特征进行调整。

具体的，指示信息对历史图像帧的图像特征的调整，可以认为基于指示信息所指示的历史图像帧的目标区域对历史图像帧的图像特征进行过滤，从而提高历史图像帧的目标物体的特征对当前图像帧的图像特征的的影响，并且降低历史图像帧的不属于目标物体的特征对当前图像帧的图像特征的影响。通过在计算当前图像帧的图像特征的过程中对历史图像帧的目标物体的特征进行强调，可以使当前图像帧的图像特征能够感知到历史图像帧的目标物体的特征。基于这样的技术方案，即使是当前图像帧的目标物体的被遮挡，或者出现运动模糊，最后计算得到的当前图像帧的图像特征中，也能够充分体现出目标物体的特征，而不会出现目标物体的特征的缺失。

对于一个图像帧，这个图像帧的目标物体的特征，可以认为是这个图像帧的图像特征中，在该图像帧的目标区域内的元素，相对的，不属于目标物体的特征，指代图像特征中，在该图像帧的目标区域以外的元素。

本领域技术人员能够理解，本申请实施例提供的包含实例门的卷积长短记忆网络模型中，用于对历史图像帧的图像特征进行调整的实例门，应当设置于卷积长短记忆网络模型的遗忘门中。也就是说，本申请实施例提供的卷积长短记忆网络模型对实例门的应用，主要是利用实例门，历史图像帧的图像特征(具体是历史图像帧的第一图像特征)和当前图像帧的初始图像特征计算卷积长短记忆网络模型的遗忘门的输出。进一步的，通过结合遗忘门的输出，历史图像帧的第二图像特征，输入门的输出，候选门的输出和输出门的输出就可以计算得到当前图像帧的图像特征，在上述计算过程中，实例门就可以作为遗忘门的输出的一部分，用于对历史图像帧的第二图像特征进行调整。

S204、根据当前图像帧的图像特征，确定出目标物体在当前图像帧的所在区域。

可以理解的，如步骤S201至步骤S204所述的过程，是针对当前图像帧的检测过程，通过对待检测视频中的每一个未检测的图像帧执行上述检测过程，就可以完成对待检测视频的检测。

因此，本领域技术人员能够理解，步骤S204执行结束后，可以返回步骤S201，继续对待检测视频中的未检测的图像帧进行检测。

步骤S203一般是利用一个预先设定的图像目标检测模型实现。将当前图像帧的图像特征输入预设的图像目标检测模型后，图像目标检测模型通过计算可以在当前图像帧中确定出将当前图像帧中的目标物体包含在内的矩形框，作为目标物体在当前图像帧的所在区域。显然，在当前图像帧中不存在目标物体时，也可以不确定出矩形框，在当前图像帧中存在多个目标物体时，确定出的矩形框的数量与目标物体的数量一致，每个目标物体均对应一个矩形框。

现有技术中有多种图像目标检测模型可以用于根据当前图像帧的图像特征进行上述计算。一些常用的图像目标检测模型主要是根据当前图像帧的第一图像特征进行计算，当然，也存在根据当前图像帧的第一图像特征和第二图像特征进行计算的图像目标检测模型，此处不做限定。

本申请实施例提供的视频目标的检测方法，采用在卷积长短记忆网络模型中增设一个实例门的方式，将历史图像帧的指示信息引入计算当前图像帧的图像特征的过程中，利用指示信息所指示的，历史图像帧的目标区域对历史图像帧的目标物体的特征进行强调。经过强调后的历史图像帧的目标物体的特征被传输至当前图像帧的图像特征后，使得当前图像帧的图像特征，即使在当前图像帧的目标物体被遮挡或者模糊的情况下，也能够完整的体现目标物体的特征，而不会出现目标物体的特征的缺失。而图像特征中携带的目标物体的特征越完整，如步骤S204所述的图像目标检测模型根据图像特征进行的计算就越准确。

综上所述，在当前图像帧的目标物体被遮挡或者出现运动模糊的情况下，本申请实施例提供的新型的卷积长短记忆网络模型，以及基于这种模型进行的视频目标的方法，能够准确的识别出当前图像帧的目标物体。因此本申请实施例提供的视频目标的检测方法相对于现有的视频目标检测方法具有更好的检测效果。

前一实施例中，步骤S203涉及利用本申请提供的新型的卷积长短记忆模型计算当前图像帧的图像特征，下面结合图4，说明步骤S203的具体实现过程，也就是卷积长短记忆网络计算得到当前图像帧的图像特征的具体过程。如图4所示，该过程其中包括下述步骤：

S2031、根据当前图像帧的初始图像特征和历史图像帧的第一图像特征计算得到卷积长短记忆网络模型的输入门的输出，输出门的输出，候选门的输出。

卷积长短记忆网络模型的输入门，输出门和候选门，相当于是模型内的三个预先配置了计算公式和参数的处理单元，将当前图像帧的初始图像特征和历史图像帧的第一图像特征分别输入处理单元后，处理单元就会根据结合输入，自身的计算公式和参数进行计算得到对应的输出。

其中，输入门的计算公式是：

i_t＝σ(w_i*[x_t,h_t-1]+b_i)

首先需要说明的是，在本实施例介绍的计算当前图像帧的过程中，下标t用于表示当前图像帧，t-1表示历史图像帧，也就是假设当前图像帧是待检测视频的第t个图像帧，那么，历史图像帧自然是待检测视频的第t-1个图像帧。t是大于或等于1的整数，其中，t等于1时，历史图像帧的第一图像特征和第二图像特征如前文所述。

上述公式中，i_t表示针对当前图像帧的输入门的输出，x_t表示当前图像帧的初始图像特征，h_t-1表示历史图像帧的第一图像特征，本实施例中，为了方便理解，假设历史图像帧的第一图像特征，当前图像帧的初始图像特征以及下文涉及的历史图像帧的第二图像特征均只包括一个矩阵，因此x_t也可以认为是当前图像帧的初始特征矩阵，h_t-1可以认为是历史图像帧的第一特征矩阵，矩阵的行数和列数均等于当前图像帧的像素点的行数和列数，或者说，相当于待检测视频的分辨率。当然，如前文所述，在本申请其他实施例中，初始图像特征，第一图像特征，以及第二图像特征可以包含多个矩阵。

公式中的w_i和b_i是输入门的两个参数，其中w_i是输入门的卷积核，本实施例中，设定卷积长短记忆网络模型的输入门，输出门，候选门以及遗忘门的卷积核均只包括一个3阶方阵。当然，在其他实施例中，上述处理单元的卷积核可以包括多个方阵，方阵的阶数也不限于3。b_i表示输入门的偏置矩阵，卷积长短记忆网络的每一个处理单元均包含一个偏置矩阵，并且每个偏置矩阵的行数和列数都等于当前图像帧的初始图像特征。当然，对于每个处理单元，其偏置矩阵的元素的元素值在训练卷积长短记忆网络模型时确定，根据实际情况，偏置矩阵的所有元素的元素值可以均设置为0，相当于不设置偏置矩阵，直接将卷积运算后的结果作为激活函数的输入。

在本实施例中，用符号*表示卷积运算，具体的，表示用左侧的卷积核对右侧的矩阵进行卷积运算。

上述公式表示：向输入门输入了当前图像特征的初始特征矩阵和历史图像帧的第一特征矩阵后，首先将当前图像特征的初始特征矩阵和历史图像帧的第一特征矩阵合并成一个矩阵，这里的合并可以是将两个矩阵的元素对应相加，即初始特征矩阵的第x行，第y列的元素与第一特征矩阵的第x行，第y列的元素相加得到合并后的矩阵的第x行，第y列的元素；也可以是直接将两个矩阵连接在一起，例如，两个矩阵均为M阶方阵，M为正整数，直接将一个矩阵连接在另一个矩阵的右侧，构成一个行数为M，列数为2M的矩阵，即为合并后的矩阵。

得到合并后的矩阵后，用输入门的卷积核对合并后的矩阵进行卷积运算，卷积运算得到的矩阵与输入门的偏置矩阵的元素对应相加，就得到了输入门的激活前的输出，最后利用激活函数对激活前的输出进行激活，就得到针对当前图像帧的，输入门的输出i_t。

激活函数是一个预设的函数，本实施例中，输入门，输出门，候选门和遗忘门均涉及上述用激活函数进行激活的过程，其中，输入门，输出门和遗忘门的激活函数均为sigmoid函数，在上述公式中表示为σ(x)，x表示激活函数的输入，本实施例中，x就是前述输入门的激活前的输出。利用激活函数进行激活，就是指将激活前的输出输入到激活函数中，然后获得激活函数的运算结果的过程。

sigmoid函数的表达式为：

需要说明的是，sigmoid函数是针对一个实数进行计算的函数，以矩阵作为该函数的输入，实际是指针对输入的矩阵的每一个元素的元素值，用sigmoid函数计算得到一个对应的函数值，这个函数值就是输出的矩阵中对应元素的元素值，例如，输入的矩阵的第2行，第2列的元素，其元素值为4，计算得到4对应的sigmoid函数的函数值，即σ(4)，就是输出的矩阵的第2行，第2列的元素的元素值。

输出门的计算公式是：

o_t＝σ(w_o*[x_t,h_t-1]+b_o)

其中的w_o和b_o分别表示输出门的卷积核和偏置矩阵，o_t表示针对当前图像帧的输出门的输出，公式中的其他符号的含义，以及整个计算过程与输入门一致，不再赘述。

候选门的计算公式是：

d_t＝tanh(w_i*[x_t,h_t-1]+b_d)

从上述公式可以看到，候选门直接以输入门的卷积核作为自身的卷积核，公式中的b_d表示候选门的偏置矩阵，d_t表示针对当前图像帧的候选门的输出。其他符号的定义如前所述。

需要注意的，候选门的激活函数是tanh(x)，称为双曲正切函数，该函数的表达式是：

与sigmoid函数类似，双曲正切函数也是针对单个实数进行计算的函数，以矩阵作为输入时，其计算方法与sigmoid函数一致。

图4所示的过程可以结合图5a所示的本申请实施例提供的带实例门的卷积长短记忆网络模型的结构进行理解。需要说明的是，为了方便理解，图5a还展示了用于处理图像帧的第一图像特征得到检测结果的图像目标检测模型与本实施例提供的卷积长短记忆网络模型之间的连接关系，这里的检测结果，可以认为是图像目标检测模型输出的，用矩形框标记出目标物体的所在区域的图像帧。

如图5a所示，当前图像帧的初始图像特征和历史图像帧的第一图像特征均被输入卷积长短记忆网络模型的输入门，输出门和候选门。输入的当前图像帧的初始图像特征和历史图像帧的第一图像特征在图示的各个处理单元的卷积模块中被合并，然后结合处理单元的卷积核进行前述公式所示的卷积运算，卷积运算后的结果与处理单元的偏置矩阵相加，就得到各个处理单元的激活前的输出。图5a中，各个处理单元的激活函数以对应的激活模块的形式表现，将各个处理单元的激活前的输出输入到对应的激活模块，经过激活函数的计算，就得到卷积长短记忆网络模型的输入门，输出门和候选门的输出。

S2032、根据实例门，当前图像帧的初始图像特征和历史图像帧的第一图像特征计算遗忘门的输出。

遗忘门的计算公式为：

f_t＝σ(G_t-1+w_f*[x_t,h_t-1]+b_f)

其中的w_f和b_f分别表示遗忘门的卷积核和偏置矩阵，f_t表示针对当前图像帧的遗忘门的输出，G_t-1表示携带有历史图像帧的指示信息的实例门。其他符号的定义如前述。

通过对比图1所示的现有的卷积长短记忆网络模型和图5a所示的本实施例提供的卷积长短记忆网络模型，可以发现，本申请实施例提供的卷积长短记忆网络模型中，利用遗忘门的卷积核对输入的历史图像帧的第一图像特征和当前图像帧的初始图像特征进行卷积运算后，得到的卷积运算的结果与遗忘门的偏置矩阵以及实例门相加得到遗忘门的激活前的输出，激活前的输出经过激活函数激活后，就得到遗忘门的输出。而图1所示的现有的卷积长短记忆网络模型中，遗忘门的输出只根据历史图像帧的第一图像特征和当前图像帧的初始图像特征计算得到。

根据图5a还可以发现，计算当前图像帧的图像特征时所用的实例门，是根据图像目标检测模型对历史图像帧的检测结果确定的，历史图像帧的检测结果，可以认为是一个标记有目标物体在历史图像帧的所在区域的历史图像帧。自然的，根据检测结果确定的实例门，就是一个携带有历史图像帧的指示信息的实例门。

本实施例中，实例门可以表示为一个矩阵，这个矩阵的行数和列数等于历史图像帧的像素点的行数和列数，也就是说，可以认为实例门中的每一个元素均对应于历史图像帧的一个像素点，根据已经确定出目标区域的历史图像帧配置这个矩阵中的元素的元素值，就可以得到携带有历史图像帧的指示信息的实例门。

具体的，确定出历史图像帧的目标区域后，针对实例门的每一个元素，判断这个元素对应的历史图像帧的像素点是否在历史图像帧的目标区域之内，若一个元素对应的像素点在历史图像帧的目标区域内，则将这个元素的元素值设置为第一数值；若一个元素对应的像素点在历史图像帧的目标区域之外，则将这个元素的元素值设置为第二数值。

其中，第二数值小于第一数值，一般的第一数值设置为接近1的数值，也可以直接设置为1，第二数值一般可以直接设置为0。

具体的，参考图6，假设在图6所示的历史图像帧中，确定出历史图像帧有且仅有一个目标区域，根据这个历史图像帧产生的，携带有历史图像帧的指示信息的实例门中，与历史图像帧的目标区域内的像素点对应的元素，其元素值为1，与历史图像帧的目标区域外的像素点对应的元素，其元素值为0。

按上述方式配置实例门的各个元素之后，根据实例门中第一数值和第二数值的分布情况，就可以直接确定出历史图像帧中的目标区域。

本实施例提供的遗忘门的计算公式中，涉及对实例门，卷积后的矩阵以及遗忘门的偏置矩阵的求和，若卷积后的矩阵是多个矩阵，而实例门是单个矩阵，那么可以针对其中的每一个卷积后的矩阵，都直接使用实例门求和。

可选的，在本申请的另一实施例中，卷积长短记忆网络模型还可以设置一个实例门权重，设置实例门权重后的遗忘门的公式如下：

f_t＝σ(βG_t-1+w_f*[x_t,h_t-1]+b_f)

其中的β就是实例门权重，通过设置实例门权重，可以对实例门携带的历史图像帧的指示信息进行修正，得到修正后的历史图像帧的指示信息，再用修正后的历史图像帧的指示信息取调整历史图像帧的图像特征。

具体的，实例门权重可以是一个大于0的数值，该数值由技术人员通过实验确定。用实例门权重乘以实例门G_t-1，是指对于实例门的每一个元素，将其元素值更新为原有的元素值与实例门权重的乘积。

例如，乘以实例门权重之前，实例门的一个元素的元素值为第一数值，用实例门与实例门权重相乘后，这个元素的元素值就变更为第一数值与实例门权重的乘积。

本实施例中涉及的各个处理单元的参数(即各个处理单元卷积核和偏置矩阵)，其具体取值可以通过利用样本数据进行训练得到。其中，样本数据可以是多个图像帧，每一个图像帧中均预先标记出了目标物体，首先设定一组初始的参数值，然后基于卷积长短记忆网络模型对样本数据进行目标检测后，根据检测结果与预先做的标记的匹配程度对参数值进行调整，反复多次后就可以确定出一组检测结果与预先做的标记匹配程度较好的参数值，从而获得一个训练好的卷积长短记忆网络模型。

S2033、根据遗忘门的输出，输入门的输出，候选门的输出以及历史图像帧的第二图像特征计算得到当前图像帧的第二图像特征。

计算当前图像帧的第二图像特征的公式如下：

其中c_t表示当前图像帧的第二图像特征(也可以认为是当前图像帧的第二特征矩阵)，c_t-1表示历史图像帧的第二图像特征(相当于是历史图像帧的第二特征矩阵)，符号

表示将该符号两侧的矩阵的元素进行对应相乘，得到一个新的矩阵。

例如，

表示，矩阵a的第x行，第y列的元素，与矩阵b的第x行，第y列的元素相乘，乘积作为计算结果(也是一个矩阵)的第x行，第y列的元素，对矩阵a和b的每一个元素进行上述运算，就得到

的计算结果。

上述公式可以参考图5a理解，遗忘门的输出和历史图像帧的第二图像特征进行对应相乘，候选门的输出和输入门的输出进行对应相乘，最后两个乘积相加，得到当前图像帧的第二图像特征。

可以发现，根据上述公式计算当前图像帧的第二特征矩阵时，当前图像帧的第二特征矩阵中的每一个元素，均携带有历史图像帧的第二特征矩阵的对应位置的元素和实例门的对应位置的元素的乘积。

并且，结合前述对实例门的介绍，如果一个当前图像帧的第二特征矩阵的元素在历史图像帧中对应的像素点在历史图像帧的目标区域之外，上述乘积对该元素的元素值的影响会比较小，当实例门的第二数值设置为0时，上述乘积也等于0，相当于上述乘积完全不影响该元素的元素值；如果一个当前图像帧的第二特征矩阵的元素在历史图像帧中对应的像素点在历史图像帧的目标区域之内，则上述乘积对该元素的影响较大，特别的，当实例门的第一数值设置为1，且实例门权重也为1(或者说未设置实例门权重)时，历史图像帧的第二特征矩阵中对应位置的元素的元素值，将对这个当前图像帧的第二特征矩阵的元素的元素值产生完整的影响。

综上所述，通过引入实例门，历史图像帧的第二特征矩阵的元素被选择性的传递至当前图像帧的第二特征矩阵中对应位置的元素，传递过程中，在历史图像帧的目标区域外的第二特征矩阵的元素被削弱(进一步的，当第二数值为0时，被完全归零)，在历史图像帧的目标区域内的第二特征矩阵的元素则基本保持不变。对于历史图像帧，在历史图像帧的目标区域内的第二特征矩阵的元素相当于是历史图像帧的目标物体的特征的一种表现形式，因此，上述过程可以认为是用实例门从历史图像帧的第二特征矩阵中筛选出目标物体的特征，并将筛选出的目标物体的特征用于强化当前图像帧的第二特征矩阵。

S2034、根据当前图像帧的第二图像特征，以及输出门的输出计算得到当前图像帧的第一图像特征。

计算当前图像帧的第一图像特征的计算公式如下：

h_t表示当前图像帧的第一图像特征(或者说是当前图像帧的第一特征矩阵)，其他符号定义如前述。

结合图5a，上述公式表示，当前图像帧的第二图像特征输入到函数tanh(x)后得到的输出，与输出门的输出进行对应相乘，就得到当前图像帧的第一图像特征。

步骤S2033中已经指出，本实施例中计算得到的当前图像帧的第二特征矩阵，已经利用实例门筛选出来的目标物体的特征进行强化，那么根据当前图像帧的第二特征矩阵计算得到的当前图像帧的第一特征矩阵，也相当于用筛选出的目标物体的特征进行了强化。

另一方面，如前文所述，本发明提供的带实例门的卷积长短记忆网络，也可以适用于输入数据是多个矩阵的情况。在历史图像帧的第一图像特征和第二图像特征均为多个矩阵，并且当前图像帧的初始图像特征也是多个矩阵的情况下，本申请另一实施例提供的一种带实例门的卷积长短记忆网络如图5b所示，图5b中遗忘门，输入门，输出门和候选门的具体结构与图5a一致，因此上述处理单元在图5b中简化为多个矩形框，另外，还省略了图5a所示的图像目标检测模型与本实施例提供的带实例门的卷积长短记忆网络模型之间的连接关系。图5b中历史图像帧的第一图像特征和第二图像特征中的(H，W，N/G)表示数据格式，具体指，历史图像帧的第一图像特征包括多个矩阵，每个矩阵都是N行W列的矩阵，矩阵的数量为N/G，历史图像帧的第二图像特征相同。类似的，当前图像帧的初始图像特征包括M个矩阵，每个矩阵的行数均为N，且列数均为W。图5b的四个处理单元中的(H，W，N/G)表示，这个处理单元用于处理由N/G个N行W列的矩阵构成的数据，同时该处理单元的输出的格式相同，也是N/G个N行W列的矩阵。其中，前述H，W，M，以及N/G均为正整数。

如图5b所示，在这种情况下，历史图像帧的第一图像特征和当前图像帧的初始图像特征直接合并得到的结果就需要经过图示的瓶颈层处理，才能输入至遗忘门，输入门，输出门和候选门中。相当于，图5b所示的卷积长短记忆网络模型将各个门(即遗忘门，输入门，输出门和候选门)中合并历史图像帧的第一图像特征和当前图像帧的初始图像特征的功能独立出来，合并成一个瓶颈层。瓶颈层获得历史图像帧的第一图像特征和当前图像帧的初始图像特征后，先直接合并得到格式为(H，W，N/G+M)的数据，然后对合并的结果进行转换，得到与卷积长短记忆网络模型的各个门的格式要求匹配的数据，即格式为(H，W，N/G)的数据。

当然，本领域技术人员也可以将瓶颈层理解为，先合并历史图像帧的第一图像特征和当前图像帧的初始图像特征，合并后的格式为(H，W，N/G+M)的数据作为瓶颈层的输入，即瓶颈层只用于格式转换，而不用于合并，这种理解并不影响图5b提供的卷积长短记忆网络模型的应用。

结合本实施例介绍的卷积长短记忆网络模型对当前图像帧的初始图像特征的计算过程，可以理解，本实施例利用设置在卷积长短记忆网络中的实例门从历史图像帧的图像特征中筛选出目标物体的特征，并进一步用筛选出来的目标物体的特征强化当前图像帧的图像特征，从而确保计算得到的当前图像帧的图像特征能够携带有较完整的目标物体的特征，进而提高了基于当前图像帧的图像特征进行的对目标物体的检测的准确程度。因此，本申请提供的视频目标检测方法具有较好的检测效果。

本申请实施例提供的视频目标的检测方法中，利用卷积长短记忆网络模型对当前图像帧进行处理得到当前图像帧的图像特征后，需要利用预设的图像目标检测模型对当前图像帧的图像特征进行处理，然后才能确定出当前图像帧的目标区域，一种可用的图像目标检测模型是SSD模型(单点探测模型，Single shot detector)，基于SSD模型的对图像特征进行处理的方法如下，参考图7：

S701、利用预设的默认框在当前图像帧中划分出多个区域。

默认框一般是设定了一定的长度和宽度的矩形框，通常步骤S601会使用多个默认框分别进行划分，任意两个默认框的长度不同，并且宽度不同。

可选的，针对一个默认框，可以按照下述方式利用该默认框对当前图像帧进行划分：

首先将默认框设置在当前图像帧的一个初始位置，例如，使默认框的左上角的顶点与当前图像帧的左上角的顶点重合，这个位置作为一个初始位置，此处，这个默认框内就是划分出来的一个区域。

然后，沿当前图像帧的水平方向或垂直方向，按照预先设定的划分步长滑动这个默认框，直至沿该方向滑动至当前图像帧的边缘，每滑动一次，默认框就划分出一个区域。其中，划分步长可以表现为像素点的数量。

滑动至边缘后，再将默认框垂直于前述滑动方向地滑动出一个划分步长的距离，然后再次执行上述步骤，如此循环，直至整个默认框滑过整个当前图像帧。

例如，将默认框从当前图像帧的左上角开始，水平地从左向右滑动，划分步长设定为10个像素点，也就是说，在初始位置时，默认框左侧的边与当前图像帧的第一列的像素点重合，那么向右移动出一个划分步长后，默认框左侧的边应当与当前图像帧的第10列的像素点重合。

默认框滑动至当前图像帧右侧的边缘后，将默认框垂直向下滑动10个像素点，然后将默认框从右至左水平的按划分步长滑动，滑动至左侧边缘后，又向下滑动10个像素点，然后从左至右水平滑动，以此类推，最终完成对整个当前图像帧的划分。

S702、针对划分出的每一个区域，计算该区域的目标概率。

一个区域的目标概率，是指当前图像帧的这个区域内存在目标物体的概率。一个区域的目标概率，可以根据这个区域内的像素点在当前图像帧的图像特征中对应的元素计算得到。

前面已经提及，当前图像帧的第一图像特征和当前图像帧的第二图像特征均可以表示为一个矩阵，那么在当前图像帧中划分出一个区域后，这个区域内的像素点在当前图像帧的第一特征矩阵中对应的元素就可以构成一个子特征矩阵，相对的，在当前图像帧的第二特征矩阵中对应的元素也可以构成一个子特征矩阵，利用这个区域对应的两个子特征矩阵，就可以计算出目标概率。

在图像目标检测模型SSD中，上述计算过程可以利用预先配置好的卷积神经网络进行，具体过程此处不再赘述。

可选的，可以只利用对应的两个子特征矩阵中的任意一个，也可以同时利用两个子特征矩阵。

S703、根据各个区域的目标概率的大小，从划分出的所有区域中确定出目标区域。

可选的，可以预先设定一个概率阈值，任意一个区域，若该区域的目标概率大于概率阈值，则认为这个区域是当前图像帧的目标区域，反之，若该区域的目标概率小于或等于概率阈值，则认为这个区域不是当前图像帧的目标区域。当然，如果不存在目标概率大于概率阈值的区域，则确定当前图像帧中不存在目标物体。

可选的，也可以将所有区域按目标概率从大至小排列，选择前面的P个区域，将这P个区域确定为当前图像帧的目标区域。P是预设的正整数。

进一步的，步骤S702中已经指出，可以用多个大小和形状不同的默认框分别进行划分，并且划分得到的多个区域之间也存在一定的重叠，因此，可以针对确定出来的多个目标区域进行合并，将两个重叠面积较大的目标区域合并为一个目标区域，然后就可以将合并完成后得到的目标区域以矩形框的形式显示在当前图像帧上，完成对当前图像帧的目标物体的检测。

一般的，一个视频中相邻的两个图像帧的内容不会有较大的变化，也就是说历史图像帧的目标区域和当前图像帧的目标区域之间，一般会有较大的重叠面积，因此前述实施例提供的方法中，可以直接结合历史图像帧的图像特征，以及携带有历史图像帧的指示信息的实例门进行计算，得到当前图像帧的图像特征。

然而，当视频中两个相邻的图像帧的内容变化较大，例如一个物体在历史图像帧的位置和在当前图像帧的位置距离较远时，直接利用历史图像帧的图像特征可能会影响对当前图像帧的检测。

这种情况下，可以利用历史图像帧的运动信息，将历史图像帧的图像特征向当前图像帧进行映射，得到历史图像帧的映射特征，再结合历史图像帧的映射特征计算当前图像帧的图像特征，从而实现历史图像帧和当前图像帧的空间位置的对齐，改善对当前图像帧的检测效果。其中，历史图像帧的映射特征，包括由历史图像帧的第一图像特征映射得到的第一映射特征，以及根据历史图像帧的第二映射特征映射得到的第二映射特征。

一个图像帧的运动信息可以有多种类型，上述映射可以根据任意一种类型的运动信息进行，其中一种常用的运动信息为光流。下面介绍根据历史图像帧的光流进行上述映射的过程，以供参考。根据其他类型的运动信息进行映射的方法，可以参考现有技术，此处不再赘述。

首先对光流进行说明。视频实际是一组按时间顺序显示的图像帧，视频中物体的运动，则是通过在各个图像帧中，分别用不同位置的像素点显示同一物体来实现的。下面给出一个简单的例子，参考图8，图中每个点表示图像帧中的一个像素点，黑色像素点构成的三角形表示图像帧中的一个物体，可以发现，在历史图像帧和当前图像帧中，分别用不同位置的像素点表示该物体，相当于该物体从历史图像帧中所在的位置，移动到了当前图像帧中的位置，而这个物体的移动，可以看成是构成这个物体的多个像素点，分别从历史图像帧中的位置移动至当前图像帧的位置。历史图像帧的光流，就是一种用于描述历史图像帧的像素点向当前图像帧移动的信息。

可以认为光流由一组光流矢量构成，一个光流矢量的起点是历史图像帧中的一个像素点所在的位置，而终点是这个像素点在当前图像帧中的位置，例如图8的三个箭头，就可以认为是历史图像帧的三个光流矢量。

结合前述介绍，基于历史图像帧的光流对历史图像帧的第一图像特征进行映射得到第一映射特征的过程，具体是：针对历史图像帧的第一图像特征的任意一个元素，从历史图像帧的光流中查找到这个元素对应的像素点的光流矢量，从而确定出这个元素对应的像素点在当前图像帧中的位置，然后将这个元素移动至对应的像素点在当前图像帧中的位置，就确定了第一映射特征的一个元素，对历史图像帧的第一图像特征的每一个元素执行上述操作，就可以将历史图像帧的第一图像特征向当前图像帧映射，得到历史图像帧的第一映射特征。

例如，对于历史图像帧的第一图像特征的矩阵中的一个元素，该元素位于这个矩阵的第a行，第b列，相对的，这个元素对应的像素点在历史图像帧中也位于第a行，第b列，对历史图像帧的第一图像特征进行映射时，根据历史图像帧的光流，确定出这个像素点在当前图像帧的位置是第(a+x)行，第(b+y)列，所以，将上述历史图像帧的第一图像特征的矩阵的第a行，第b列的元素，作为历史图像帧的第一映射特征的矩阵的第(a+x)行，第(b+y)列的元素，对历史图像帧的第一图像特征的每一个元素进行上述操作，就可以得到历史图像帧的第一映射特征。上述a，b，x和y是正整数。

需要说明的是，若历史图像帧的第一图像特征包含N个矩阵，那么历史图像帧的第一映射特征也包含N个矩阵，并且经过映射后，在历史图像帧的第一图像特征中属于同一个矩阵的元素，在第一映射特征中也应当属于同一个矩阵。上述N是正整数。

获得第二映射特征的过程相同，此处不再赘述。

在利用本申请实施例提供的新型的卷积长短记忆网络模型计算当前图像帧的图像特征的过程中，历史图像帧的映射特征的作用与历史图像帧的图像特征的作用一致，因此，结合历史图像帧的映射特征计算当前图像帧的图像特征的过程，只需要参考前述实施例提供的方法，将其中涉及的历史图像帧的第一图像特征和历史图像帧的第二图像特征，对应的替换为历史图像帧的第一映射特征和历史图像帧的第二映射特征即可，此处不再详述。下面给出以历史图像帧的映射特征作为输入的情况下，卷积长短记忆网络模型中的四个处理单元的输出的计算公式，以及计算当前图像帧的第二图像特征的公式作为参考，从公式中也能发现，结合历史图像帧的映射特征进行计算，只需要对原公式中历史图像帧的图像特征进行替换即可。当然，在结合历史图像帧的映射特征进行的计算中，实例门携带的历史图像帧的指示信息具体用于对历史图像帧的映射特征进行调整。

输入门：

输出门：

遗忘门：

候选门：

计算当前图像帧的第二图像特征的公式：

上述5个公式中，

表示历史图像帧的第一映射特征，

表示历史图像帧的第二映射特征。

当然，确定出携带有历史图像帧的指示信息的实例门后，也可以对实例门进行上述映射，得到映射后的实例门，然后用映射后的实例门进行计算。实例门的映射方法与前述历史图像帧的第一图像特征的映射方法相同。

需要说明的是，本申请任一实施例提供的视频目标的检测方法，可以适用于多种需要在视频中检测目标物体的场景。为了方便理解，下面介绍四种本申请实施例的应用场景，当然，除了下述场景以外的需要在视频中检测目标物体的场景也同样可以应用本申请实施例提供的方法。

其一，视频网站中播放的视频，例如：电视剧、电影、短视频等各种类型的视频类型，需要进行视频内容分析，以对视频中的目标物体进行检测。在该场景下，视频网站中播放的视频即作为待检测视频，并对其执行本申请实施例公开的视频目标的检测方法。

其二，多种智能追寻设备，如智能机器人被广泛应用于各个领域，可以用智能机器人搬运物体，还可以用智能机器人打扫房间等等。智能机器人工作过程中，需要录制其视野范围内的视频，并对视野范围内视频中的目标物体进行检测。

例如，智能机器人用于搬运物体时，需要识别出自身的视野范围内物体的所在区域，判断出目标物体的实际位置，然后才能准确的抓取目标物体。这种情况下，智能机器人可以利用自身的摄像头拍摄特定方向的场景，得到一段视频，同时，在视频的拍摄过程中，利用本申请提供的视频目标的检测方法，实时的对拍摄到的视频的进行处理，在拍摄得到的视频的每一帧中确定出目标物体的所在区域，使得智能机器人能够根据本申请提供的检测方法处理后的视频，确定出目标物体的实际位置，进而完成搬运。

其三，针对安防需求而录制的安防视频，在需要对安防视频中出现的目标物体，一般为目标人或车进行检测。在该场景中，则将安防视频作为待检测视频，并对其执行本申请实施例公开的视频目标的检测方法。

其四，网络直播过程中，用户在网络直播间内看到的视频，是利用摄像头实时拍摄主播以及主播周围的特定空间得到的。在直播过程中，可以利用本申请提供的检测方法实时的对摄像头拍摄得到的视频进行处理，如果检测到视频中的特定区域出现目标物体，就表明主播当前正在与目标物体互动，进而触发网络直播平台执行相应的操作。例如，检测到主播手上拿着目标物体时，触发网络直播平台，使网络直播平台在网络直播间内推送目标物体的相关信息。

除了上述应用场景，本申请提供的视频目标的检测方法，还可以针对无人机拍摄的视频实时的检测目标物体，从而实现大范围内的基于无人机的目标搜索，还可以针对无人机摄像头拍摄的视频进行实时检测，在识别出视频中存在危险物体时，触发警报，等等。

结合本申请任一实施例提供的视频目标的检测方法，本申请另一实施例提供了一种视频目标的检测装置，请参考图9，该装置包括以下结构：

获取单元901，用于获取待检测视频的当前图像帧的初始图像特征、以及历史图像帧的图像特征。

其中，当前图像帧是待检测视频中任意一个未检测的图像帧，历史图像帧是当前图像帧的前一个图像帧。

计算单元902，用于利用预设的卷积长短记忆网络模型，计算当前图像帧的初始图像特征和历史图像帧的图像特征，得到当前图像帧的图像特征。

其中，卷积长短记忆网络模型包括实例门，实例门携带有历史图像帧的指示信息，且在利用卷积长短记忆网络模型计算当前图像帧的初始图像特征和历史图像帧的图像特征的过程中，用于利用历史图像帧的指示信息调整历史图像帧的图像特征；历史图像帧的指示信息用于指示目标物体在历史图像帧的所在区域。

确定单元903，用于根据当前图像帧的图像特征，确定出目标物体在当前图像帧中的所在区域。

可选的，计算单元902可以用于利用卷积长短记忆网络模型，计算当前图像帧的初始图像特征和历史图像帧的映射特征，得到当前图像帧的图像特征。

其中，历史图像帧的映射特征，由历史图像帧的图像特征根据历史图像帧的运动信息向当前图像帧映射得到。

历史图像帧的指示信息，用于在利用卷积长短记忆网络模型计算当前图像帧的初始图像特征和历史图像帧的映射特征的过程中，调整历史图像帧的映射特征。

可选的，获取单元用于获取待检测视频的当前图像帧的初始图像特征，包括：

获取待检测视频的当前图像帧的像素矩阵；其中，像素矩阵的每一个元素均对应当前图像帧的一个像素点，并且，每一个元素的元素值均根据对应的像素点的颜色确定；

利用预设的卷积神经网络计算像素矩阵，得到当前图像帧的初始图像特征。

可选的，卷积长短记忆网络模型还包括一个预设的实例门权重。

其中，实例门权重用于修正实例门携带的历史图像帧的指示信息，得到修正后的历史图像帧的指示信息。

这种情况下，前述利用历史图像帧的指示信息调整历史图像帧的图像特征，是指：

利用修正后的历史图像帧的指示信息调整历史图像帧的图像特征。

可选的，实例门可以是一个二值矩阵，二值矩阵的每一个元素均对应历史图像帧的一个像素点。

二值矩阵中，目标物体在历史图像帧的所在区域内的像素点对应的元素的元素值设定为第一数值，目标物体在历史图像帧的所在区域外的像素点对应的元素的元素值设定为第二数值。

本申请实施例提供的视频目标的检测装置，获取单元901获取当前图像帧的初始图像特征和历史图像帧的图像特征后，计算单元902利用包含有实例门的卷积长短记忆网络模型计算当前图像帧的初始图像特征和历史图像帧的图像特征，得到当前图像帧的图像特征，再由确定单元903根据当前图像帧的图像特征确定出目标物体在当前图像帧的所在区域。其中，卷积长短记忆网络模型的实例门携带有历史图像帧的指示信息，历史图像帧的指示信息用于指示目标物体在历史图像帧的所在区域，计算得到当前图像帧的图像特征的过程中，历史图像帧的指示信息用于对历史图像帧的图像特征进行调整，从而达到在当前图像帧的图像特征中强调历史图像帧的携带的目标物体的特征的效果。这样计算得到的当前图像帧的图像特征，即使在当前图像帧中目标物体被遮挡或者存在运动模糊的情况下，也能表现出完整的目标物体的特征，使得根据当前图像帧的图像特征进行的对目标物体的检测更加准确。

本申请另一实施例还提供一种电子设备，请参考图10，该电子设备包括存储器1001和处理器1002；其中：

存储器1001用于存储计算机指令。

处理器1002用于执行存储器1001存储的计算机指令，具体用于执行本申请任一实施例提供的视频目标的检测方法。

本申请另一实施例还提供一种存储介质，用于存储程序，所述程序被执行时，用于执行本申请任一实施例提供的视频目标的检测方法。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频目标的检测方法，其特征在于，包括：

利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征；其中，所述卷积长短记忆网络模型包括实例门，所述实例门携带有所述历史图像帧的指示信息，且在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征的过程中，用于利用所述历史图像帧的指示信息调整所述历史图像帧的图像特征；所述历史图像帧的指示信息用于指示目标物体在所述历史图像帧的所在区域；在所述卷积长短记忆网络模型中，利用遗忘门的卷积核对输入的历史图像帧的第一图像特征和当前图像帧的初始图像特征进行卷积运算后，将得到的卷积运算的结果与所述遗忘门的偏置矩阵以及所述实例门相加得到所述遗忘门的激活前的输出，将所述遗忘门的激活前的输出经过激活函数激活后，得到所述遗忘门的输出；

2.根据权利要求1所述的检测方法，其特征在于，所述利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征，包括：

3.根据权利要求1所述的检测方法，其特征在于，所述卷积长短记忆网络模型还包括实例门权重；其中，所述实例门权重用于修正所述实例门携带的所述历史图像帧的指示信息，得到修正后的所述历史图像帧的指示信息；

4.根据权利要求1所述的检测方法，其特征在于，所述获取待检测视频的当前图像帧的初始图像特征，包括：

5.根据权利要求1所述的检测方法，其特征在于，所述实例门为二值矩阵，所述二值矩阵的每一个元素均对应所述历史图像帧的一个像素点；

6.根据权利要求1至5中任意一项所述的检测方法，其特征在于，所述待检测视频包括：视频网站中播放的视频，所述目标物体为所述视频网站中播放的视频中的目标物体；

7.一种视频目标的检测装置，其特征在于，包括：

计算单元，用于利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征，得到所述当前图像帧的图像特征；其中，所述卷积长短记忆网络模型包括实例门，所述实例门携带有所述历史图像帧的指示信息，且在利用所述卷积长短记忆网络模型计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征的过程中，用于利用所述历史图像帧的指示信息调整所述历史图像帧的图像特征；所述历史图像帧的指示信息用于指示目标物体在所述历史图像帧的所在区域；在所述卷积长短记忆网络模型中，利用遗忘门的卷积核对输入的历史图像帧的第一图像特征和当前图像帧的初始图像特征进行卷积运算后，将得到的卷积运算的结果与所述遗忘门的偏置矩阵以及所述实例门相加得到所述遗忘门的激活前的输出，将所述遗忘门的激活前的输出经过激活函数激活后，得到所述遗忘门的输出；

8.根据权利要求7所述的检测装置，其特征在于，所述计算单元用于利用预设的卷积长短记忆网络模型，计算所述当前图像帧的初始图像特征和所述历史图像帧的图像特征时，用于：

9.根据权利要求7所述的检测装置，其特征在于，所述获取单元用于获取待检测视频的当前图像帧的初始图像特征时，用于：

10.一种电子设备，其特征在于，包括处理器和存储器；其中：

所述存储器用于存储计算机指令；

所述处理器用于执行所述存储器存储的计算机指令，具体用于执行如权利要求1至6中任意一项所述的视频目标的检测方法。

11.一种存储介质，其特征在于，用于存储程序，所述程序被执行时，用于执行如权利要求1至6中任意一项所述的视频目标的检测方法。