CN109978756B

CN109978756B - 目标检测方法、系统、装置、存储介质和计算机设备

Info

Publication number: CN109978756B
Application number: CN201910204386.0A
Authority: CN
Inventors: 陈思宏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-03-09
Anticipated expiration: 2039-03-18
Also published as: CN109978756A; US20210256266A1; US11816895B2; WO2020186942A1

Abstract

本申请涉及一种目标检测方法、系统、装置、存储介质和计算机设备，所述方法包括：获取视频帧序列中的当前帧及当前帧对应的前置关键帧；确定前置关键帧与当前帧之间的光流特征图和光流图；当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征；根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的目标对应的检测结果。本申请提供的方案可以提高对视频进行目标检测的效率。

Description

目标检测方法、系统、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标检测方法、系统、装置、计算机可读存储介质和计算机设备。

背景技术

目标检测是计算机视觉研究领域的热点之一，计算机通过算法模拟人的视觉特点，标注出图像或视频中的目标区域，实现目标检测。

现有的对视频进行目标检测的方式，需要对视频的每一帧进行特征提取，然后基于每一个提取的图像特征对视频帧进行像素预测，得到每一帧中的目标对应的检测框，实现针对视频的目标检测。然而，由于每一帧都重复地提取特征，运算量十分庞大，检测效率低。

发明内容

基于此，有必要针对现有的对视频进行目标检测的方式运算量大、检测效率低的技术问题，提供一种目标方法、系统、装置、计算机可读存储介质和计算机设备。

一种目标检测方法，包括：

获取视频帧序列中的当前帧及所述当前帧对应的前置关键帧；

确定所述前置关键帧与所述当前帧之间的光流特征图和光流图；

当根据所述光流特征图确定所述当前帧为非关键帧时，则获取所述前置关键帧对应的关键帧特征，根据所述光流图对所述关键帧特征进行仿射变换，得到所述当前帧对应的图像特征；

根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的目标对应的检测结果。

一种目标检测方法，包括：

获取对生物组织进行医学检测得到的检测视频；

从检测视频的视频帧序列中获取当前帧及所述当前帧对应的前置关键帧；

根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的肿块对应的检测结果。

一种目标检测系统，包括：

采集器，用于对生物组织进行医学检测得到检测视频；

存储器，所述存储器中存储有计算机可读指令；

处理器，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：从所述检测视频的视频帧序列中获取当前帧及所述当前帧对应的前置关键帧；确定所述前置关键帧与所述当前帧之间的光流特征图和光流图；当根据所述光流特征图确定所述当前帧为非关键帧时，则获取所述前置关键帧对应的关键帧特征，根据所述光流图对所述关键帧特征进行仿射变换，得到所述当前帧对应的图像特征；根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的肿块对应的检测结果；

显示器，用于根据所述检测结果在所述当前帧中显示肿块对应的检测框。

一种目标检测装置，所述装置包括：

获取模块，用于获取视频帧序列中的当前帧及所述当前帧对应的前置关键帧；

光流计算模块，用于确定所述前置关键帧与所述当前帧之间的光流特征图和光流图；

特征变换模块，用于当根据所述光流特征图确定所述当前帧为非关键帧时，则获取所述前置关键帧对应的关键帧特征，根据所述光流图对所述关键帧特征进行仿射变换，得到所述当前帧对应的图像特征；

检测模块，用于根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的目标对应的检测结果。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述目标检测方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述目标检测方法的步骤。

上述目标检测方法、系统、装置、计算机可读存储介质和计算机设备，确定当前帧与对应的前置关键帧之间的光流特征图和光流图，光流特征图可以表示当前帧与前置关键帧之间的相似程度，而光流图可以表示前置关键帧到当前帧之间的运动变化信息，当根据光流特征图确定当前帧为非关键帧时，说明当前帧与前置关键帧之间相似程度高，则可以根据光流图对前置关键帧对应的关键帧特征进行仿射变换，得到当前帧对应的图像特征，而非经过特征提取得到，减少了特征提取次数从而减少运算量，提高了对视频进行目标检测的检测效率。并且，由于该图像特征不仅能够保留前置关键帧的信息，也因为光流图而具备自身的特征，基于该图像特征对当前帧中各像素点的像素级别进行检测，得到目标的检测结果的准确性更高。

附图说明

图1为一个实施例中目标检测方法的应用环境图；

图2为一个实施例中目标检测方法的流程示意图；

图3为一个实施例中视频帧序列的示意图；

图4为一个实施例中确定前置关键帧与当前帧之间的光流特征图和光流图的步骤的流程示意图；

图5为一个实施例中光流网络中的上采样模块对应的网络结构的示意图；

图6为一个实施例中仿射网络的网络结构示意图；

图7为一个实施例中特征提取模型的每一层网络中的卷积网络块的结构示意图；

图8为一个实施例中目标检测方法的整体框架图；

图9为一个实施例中对乳腺超声检测视频中的肿块进行目标检测得到检测结果的示意图；

图10为一个具体的实施例中目标检测方法的流程示意图；

图11为一个实施例中目标检测模型的训练步骤的流程示意图；

图12为一个实施例中对目标检测模型进行训练的流程框架图；

图13为一个实施例中用于表示本申请实施例提供的目标检测方法的准确性提升的对比示意图；

图14为另一个实施例中目标检测方法的流程示意图；

图15为一个实施例中目标检测系统的框架示意图；

图16为一个实施例中目标检测装置的框架示意图；

图17为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中目标检测方法的应用环境图。参照图1，该目标检测方法应用于目标检测系统。该目标检测系统包括采集器110和计算机设备120，采集器110和计算机设备120可以通过网络连接，也可以通过传输线连接。计算机设备120具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种，计算机设备120也可以是服务器。采集器110可以实时采集视频，将视频传输至计算机设备120，计算机设备120可以获取视频对应的视频帧序列中的当前帧及当前帧对应的前置关键帧；确定前置关键帧与当前帧之间的光流特征图和光流图；当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征；根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的目标对应的检测结果。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，计算机设备120可以直接获取视频，对视频对应的视频帧序列中的各个视频帧按照上述步骤进行目标检测。

如图2所示，在一个实施例中，提供了一种目标检测方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2，该目标检测方法具体包括如下步骤：

S202，获取视频帧序列中的当前帧及当前帧对应的前置关键帧。

其中，当前帧(Current Frame)是当前处理的视频帧。当前帧对应的前置关键帧(Key Frame)是在当前帧之前的最近的关键帧。视频帧序列中的关键帧比非关键帧携带更多的图像信息，关键帧比如可以是视频帧序列中的I帧(I-Frame)。当前帧可以是关键帧，也可以是非关键帧，非关键帧比如可以是视频帧序列中的P帧(P-frame)或B帧(B-frame)。在对视频帧序列中的视频进行处理的过程中，前置关键帧会被更新为最新的关键帧。

具体地，计算机设备可以在对视频进行检测的过程中，获取当前要处理的当前帧以及该当前帧对应的前置关键帧。在一个实施例中，计算机设备可以设置一个全局变量作为前置关键帧，在更新前置关键帧时，只需要对前置关键帧对应的全局变量进行更新，那么在获取当前帧对应的前置关键帧时，可以直接获取该全局变量对应的值所表示的视频帧。

可以理解，本申请所使用的“当前帧”用于描述当前本方法所处理的视频帧，“当前帧”是一个相对变化的视频帧，比如在处理当前帧的下一个视频帧时，则可以将该下一个视频帧作为新的“当前帧”。

在一个实施例中，在对当前帧检测结束后，若当前帧为关键帧，则计算机设备将当前帧作为最新的前置关键帧，也就是，在对下一个视频帧进行处理时，获取的前置关键帧已经更新为该视频帧之前的最近的关键帧。

如图3所示，为一个实施例中视频帧序列的示意图。参照图3，在该视频帧序列中，第1帧为关键帧，第2帧为非关键帧，在对第3帧进行处理时，即第3帧为当前帧时，则第3帧为对应的前置关键帧为第1帧。若第3帧也为关键帧，则在对第4帧进行处理时，即第4帧为当前帧时，则第4帧对应的前置关键帧为第3帧。

S204，确定前置关键帧与当前帧之间的光流特征图和光流图。

光流特征图(Flow Feature)可以用于表示视频帧之间的相似程度。前置关键帧与当前帧之间的光流特征图可以表示前置关键帧与当前帧之间的相似程度，相似程度越高，则说明当前帧与前置关键帧之前的差异较小，当前帧携带了与前置关键帧大部分相同的图像信息，当前帧为非关键帧。反之，相似程度越高，则说明当前帧与前置关键帧之前的差异较大，当前帧携带了与前置关键帧大部分不同的图像信息，说明当前帧也是视频帧序列中的关键帧。

光流图(Flow Field)用于表示视频帧序列中各像素点在视频帧中移动所形成的位置偏移图，可以表示视频帧之间的运动变化信息，包括视频画面中待检测目标的运动变化信息。前置关键帧与当前帧之间的光流图，是前置视频帧中各像素点相对于当前帧的运动变化。比如，属于视频中的待检测目标区域的像素点A在前置关键帧帧中的位置为(X,Y),在当前帧中找到像素点A，对应的位置为(X’,Y’)，则像素点A在前置关键帧与当前帧之间的运动变化信息为像素点A从前置关键帧到当前帧的位置偏移(U,V)，其中(U,V)＝(X’,Y’)-(X,Y).

具体地，计算机设备可以将获取的当前帧以及当前帧对应的前置关键帧输入至预训练好的目标检测模型中，通过该目标检测模型计算当前帧与前置关键帧之间的光流图和光流特征图。其中，预训练的目标检测模型基于深度神经网络实现的网络模型，该目标检测模型的模型参数已经训练好，因而该目标检测模型可以直接用于对视频进行目标检测。

在一个实施例中，目标检测模型中包括光流网络，光流网络可以是基于FlowNetSimple设计的网络结构，可以将当前帧及当前帧对应的前置关键帧输入至目标检测模型中的光流网络，通过光流网络计算得到前置关键帧与当前帧之间的光流特征图和光流图。需要说明的是，可以通过目标检测模型对输入的视频帧进行预处理，得到表示输入的视频帧的RGB分量，然后再对RGB分量进行后续的处理。

如图4所示，在一个实施例中，确定前置关键帧与当前帧之间的光流特征图和光流图的步骤具体包括：

S402,将前置关键帧和当前帧进行叠加处理，得到合成图像。

具体地，计算机设备可以将当前帧与前置关键帧结合(concatence)，得到双倍通道数的合成图像。当前帧以及前置关键帧均可以用3通道的像素矩阵来表示，每个通道的像素矩阵分别对应了视频帧的RGB(Red、Green、Blue)分量图。计算机设备可以将当前帧及前置关键帧的像素矩阵进行合成处理，得到6通道的像素矩阵，即为合成图像，然后再输入至目标检测模型中。当然，也可以由目标检测模型的输入层对当前帧及前置关键帧进行合成处理，得到合成图像后再继续通过中间层进行后续的处理。

比如，当前帧以及前置关键帧对应的像素矩阵大小为w*h*3(其中w*h表示视频帧的像素尺寸)，将当前帧与前置关键帧叠加后，得到像素矩阵大小为w*h*6的像素矩阵。

S404,将合成图像输入预训练的目标检测模型的光流网络。

具体地，计算机设备可将得到的合成图像输入目标检测模型的光流网络中，光流网络包括下采样模块和上采样模块，合成图像经过下采样模块的卷积运算，可得到光流特征图，光流特征图再经过上采样模块的反卷积运算，可得到光流图。

S406,通过光流网络的下采样模块对合成图像进行卷积运算，得到前置关键帧与当前帧之间的光流特征图。

其中，下采样模块包括多层网络，将合成图像输入至下采样模块，经各层网络的卷积运算，得到下采样模块的输出，即为光流特征图。在卷积运算过程中，首层网络的输出会作为第二层网络的输入，经第二层网络进行卷积运算后得到第二层网络的输出，依此类推，每一层网络的输出都会作为下一层网络的输入继续进行卷积运算，直到得到下采样模块最后一层网络的输出，而这个输出也就作为整个下采样模块的输出，即为光流特征图。可以理解，下采样模块中间层网络的输出实质上也是光流特征图，只是中间层得到的光流特征图所表达的视频帧之间的相似程度的信息还不够全面。

S408,通过光流网络的上采样模块对光流特征图进行反卷积运算，得到前置关键帧与当前帧之间的光流图。

其中，上采样模块包括多层网络，在计算机设备得到下采样模块中每一层网络的输出后，下采样模块每一层网络的输出都会被输入至上采样模块，通过上采样模块中各层网络对其进行反卷积运算，得到上采样模块各层网络的输出。具体地，首先，计算机设备将上采样模块最后一层网络的输出，也就是光流特征图输入至下采样模块，经过下采样模块中第一层网络的反卷积运算，得到第一类输出，计算机设备还对光流特征图进行一次卷积运算和反卷积运算，得到第二类输出，最后，将该第一类输出、第二类输出以及上采样模块倒数第二层网络的输出这三者结合在一起，得到上采样模块第一层网络的输出。从第二层网络开始将上一层网络的输出作为输入，也就是在第二层网络中，将第一层网络的输出作为第二层网络的输入，继续处理分别得到第二层网络的第一类输出和第二类输出，然后将第二层网络中得到的第一类输出、第二类输出以及下采样模块倒数第二层网络的输出这三者结合在一起，得到上采样模块第二层网络的输出。以此类推，直到得到上采样模块最后一层网络的输出，而这个输出也就作为整个上采样模块的输出，即为光流图。可以理解，上采样模块中间层网络的输出也是光流图，只是中间层得到的光流图所表示的视频帧之间的运动变化信息还不够全面。

在一个实施例中，基于FlowNet设计的光流网络的网络结构表如下表(1)所示：

表(1)

在上表(1)中，Conv表示卷积网络，Deconv表示反卷积网络，LeakyReLU表示激活函数，网络参数包括卷积核的尺寸大小、卷积通道数以及卷积时窗口移动的步长。以Conv1对应的网络参数(7x7,12,stride 2)来说明，该层卷积核的尺寸大小为7x7，卷积核的通道数为12，步长为2。

如图5所示，为一个实施例中光流网络中的上采样模块对应的网络结构的示意图。参照图5，将下采样模块最后一层网络Conv6输出的结果，即光流特征图502输入至上采样模块500，经过上采样模块500中第一层网络Deconv5进行反卷积运算，得到第一类输出504，再对光流特征图502进行一次卷积和一次反卷积操作，得到第二类输出506，然后获取下采样模块倒数第二层网络Conv5的输出508，将第一类输出504、第二类输出506和下采样模块倒数第二层网络Conv5的输出508进行结合，得到上采样模块第一层网络的输出510，然后再将第一层网络的输出510、第一层网络的第二类输出506以及下采样模块倒数第二层网络Conv4的输出512结合，得到上采样模块第二层网络的输出514，以此类推，得到上采样模块最后的输出，即为光流图516。

S206，当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征。

其中，关键帧特征是对前置关键帧进行特征提取得到的能表示该前置关键帧的帧信息的空间向量矩阵。当前帧对应的图像特征，是能够表示该当前帧的帧信息的空间向量矩阵。仿射变换是指对一个空间向量矩阵进行线性变换后再进行平移变换得到另一个空间向量矩阵的过程，线性变换包括卷积运算。

具体地，由于光流特征图表示视频帧之间的相似程度，计算机设备可以根据光流网络输出的光流特征图确定前置关键帧与当前帧之间的差异值，根据差异值确定当前帧是否为关键帧。在当前帧为非关键帧时，说明当前帧与前置关键帧相似程度较高，则计算机设备可以直接根据光流图和关键帧特征进行仿射变换得到当前帧对应的图像特征，也就是根据前置关键帧与当前帧之间的运动变化信息，将关键帧特征变换至另一个特征，作为当前帧的图像特征。

经过仿射变换得到的当前帧对应的图像特征，免去了直接通过特征提取网络对当前帧进行特征提取的过程，减少了特征提取的次数，能够提高运算效率。并且，由于该图像特征参考了前置关键帧的关键帧特征，也结合了与前置关键帧之间的运动变化信息，相比于直接进行特征提取导致了忽视前置关键帧的特征而言，能够充分表示当前帧的特征，提高准确率。

在一个实施例中，获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征的步骤具体包括：获取前置关键帧对应的关键帧特征；将关键帧特征、光流图输入预训练的目标检测模型的仿射网络；在仿射网络中，对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，连接关键帧特征和尺寸相同的光流图，得到当前帧对应的图像特征。

其中，仿射网络是目标检测模型中用于对关键帧特征进行仿射变换的网络。具体地，当根据前置关键帧与当前帧之间的光流特征图确定当前帧为非关键帧时，计算机设备就直接获取当前帧对应的前置关键帧的关键帧特征，也就是最新的前置关键帧对应的最新的关键帧特征。然后，计算机设备将最新的关键帧特征、以及光流网络输出的前置关键帧与当前帧之间的光流图输入仿射网络中，通过仿射网络对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，然后再连接关键帧特征与调整尺寸后的光流图，得到当前帧对应的图像特征。

尺寸相同指的是调整后的光流图的矩阵宽度与关键帧特征的矩阵宽度相同、调整后的光流图的矩阵高度与关键帧特征的矩阵高度也相同。连接关键帧特征与调整尺寸后的光流图，是指将关键帧特征与调整尺寸后的光流图按照通道数拼合在一起，得到一个更多通道数的空间向量矩阵，比如，关键帧特征的矩阵大小为w*h*c1(w代表矩阵宽度，h代表矩阵高度)，经卷积运算得到的与关键帧特征尺寸相同的光流图的矩阵大小为w*h*c2，则拼合后得到的当前帧对应的图像特征的矩阵大小为w*h*(c1+c2)。

在一个实施例中，为了便于后续对得到的当前帧的图像帧进行像素级的目标检测，减小运算量，还可以对连接后得到的高维度的图像特征进行降维处理，将降维处理后得到的特征作为当前帧对应的图像特征。比如，可以在仿射网络中增加一个1*1*c(其中c与关键帧特征的通道数相同)的卷积网络，对连接后的得到的图像特征进行降维处理。

在本实施例中，之所以是将光流图的尺寸调整至与关键帧特征的尺寸相同之后，再连接关键帧特征与调整后的光流图，而非将关键帧特征的尺寸调整至与光流图的尺寸相同，再连接光流图与调整后的关键帧特征，是因为关键帧特征的通道数大大多于关键帧特征的通道数，若对关键帧特征进行调整，会大量丢失前置关键帧的帧信息，从而导致仿射变换后得到的当前帧的图像特征不够准确。

如图6所示，为一个实施例中仿射网络的网络结构示意图。参照图6，在获取到前置关键帧对应的关键帧特征602后，先通过一个w*h*c(c与关键帧特征的通道数相同)的卷积核对光流图604进行卷积运算，得到一个与关键帧特征的尺寸相同的光流图，然后连接(Contat)关键帧特征602和调整后的光流图，再通过一个(1*1*c)的卷积核对连接后的特征进行降维处理，得到的特征作为当前帧对应的图像特征606。

在上述实施例中，对光流图进行卷积运算得到与关键帧特征尺寸相同的光流图所采用的卷积核的大小可以是3*3*c，对连接后的特征进行降维处理的卷积核的大小可以是1*1*c，c与关键帧特征的通道数相同，这样得到的仿射网络不仅误差较小，网络的运算效率也较高。

表(2)给出了仿射网络的网络结构与误差之间的关系的参考数据。参照下表(2)可知，虽然更复杂的网络结构的误差更小，但是使用过多卷积核会急剧增加仿射网络的网络参数，从而严重地降低效率，例如表(2)最后一行的组合，整个方法的设计代码的大小将会达到1.8G，而采用第一行的组合整个方法的设计代码只有97M。

卷积运算的卷积核	降维处理的卷积核	误差
			3x3Conv	1x1Conv	0.057
1x1Conv	1x1Conv	0.101
			3x3Conv	3x3Conv	0.056
3x3Conv,1x1Conv	1x1Conv	0.055

表(2)

在一个实施例中，目标检测方法还包括以下步骤：

当根据光流特征图确定当前帧为关键帧时，则通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，根据图像特征更新前置关键帧对应的关键帧特征。

其中，特征提取模型是用于对视频帧进行特征提取得到能表示视频帧的帧信息的特征的神经网络模型。特征提取模型可以是基于ResNet设计得到的网络模型。在一个实施例中，可以根据预训练的特征提取模型的网络参数构建特征提取网络，直接将该特征提取网络作为目标检测模型的一部分，这样，当确定当前帧为关键帧时，可以通过目标检测模型中的特征提取网络对当前帧进行特征提取，得到对应的图像特征。

具体地，当根据光流特征图确定当前帧为关键帧时，也就是当前帧与前置关键帧相似程度较低时，则计算机设备就可以直接将当前帧输入至训练好的特征提取模型中，经过特征提取模型中模型参数的处理，得到当前帧对应的图像特征。并且，由于当前帧为关键帧，则前置关键帧会被更新，将当前帧作为最新的前置关键帧，并将当前帧对应的图像特征作为最新的关键帧特征。在对当前帧的下一帧进行处理时，就可以获取到下一帧对应的最新的前置关键帧以及最新的关键帧特征。

在一个实施例中，特征提取模型的网络结构如下表(3)所示：

表(3)

在上表(3)中，Conv表示卷积网络，Conv_x表示某一层网络中的第几个块，比如Conv2_1表示在Conv2中的第2个卷积网络块，上表(3)中的blocks表示当前网络层具有的相同网络参数的卷积网络块的数量，比如Conv2中包括3个卷积网络块，Conv4包括6个卷积网络块，Conv5包括3个卷积网络块。Conv3_x和Conv4_x的第一个块的步长stride均为2，每一层网络之后都接有ReLU层和Batch Normalization层，ReLU层表示激活函数，用于增加各层之间的线性关系，Batch Normalization层用于保证每一层的输入都标准化，可以提高运算速率。

如图7所示，为一个实施例中特征提取模型的每一层网络中的卷积网络块的结构示意图。参照图7，每一个卷积网络块都由三个不同尺寸的卷积核构成，第一个卷积核的尺寸为1*1，第二个卷积核的尺寸为3*3，第三个卷积核的尺寸为1*1，每一层网络中卷积网络块的通道数也不同。比如在Conv2中，卷积网络块的第一个卷积核的矩阵大小为1*1*64，即通道数为64，第二个卷积核的矩阵大小为3*3*64，第三个卷积核的矩阵大小为1*1*256；而在Conv3中，卷积网络块的第一个卷积核的矩阵大小为1*1*128，第二个卷积3*3*128，第三个卷积核的矩阵大小为1*1*512。不仅每一层网络之间有ReLu层和Batch Normalization层，在同一层的每个卷积网络块之间、每个卷积网络块中的卷积核之间也有ReLu层和BatchNormalization层。

在一个实施例中，上述目标检测方法还包括以下步骤：

当当前帧为视频帧序列中的首个视频帧时，则通过预训练的特征提取模型直接对首个视频帧进行特征提取，得到对应的图像特征，并将首个视频帧作为前置关键帧，将图像特征作为前置关键帧对应的关键帧特征。

具体地，若当前帧为视频帧序列中的首个视频帧，则计算机设备会将该首个视频帧作为关键帧，也就是首个前置关键帧。也就是说，视频帧序列中的首个视频帧对应的图像特征需要通过预训练的特征提取模型直接进行特征提取得到，在得到首个视频帧对应的图像特征后，将首个视频帧作为最新的前置关键帧，将首个视频帧对应的图像特征作为最新的关键帧特征。

在一个实施例中，目标检测方法还包括根据光流特征图确定当前帧是否为关键帧的步骤，具体包括：

将光流特征图输入预训练的目标检测模型的决策网络；通过决策网络对光流特征图进行卷积运算，输出前置关键帧与当前帧之间的差异值；当差异值大于或等于超过预设阈值时，则确定当前帧为关键帧；当差异值小于预设阈值时，则确定当前帧为非关键帧。

其中，决策网络用于判断当前帧是否为关键帧。目标检测模型的决策网络的输入为当前帧与前置关键帧之间的光流特征图，输出为当前帧与前置关键帧之间差异值。差异值的大小能反映出当前帧与前置关键帧之间的相似程度，计算机设备还可以将光流网络输出的差异值与预设阈值进行比较，当差异值大于或等于预设阈值时，则确定当前帧为关键帧，当差异值小于预设阈值时，则确定当前帧为非关键帧。预设阈值的大小可以按需进行设置。

当差异值大于或等于预设阈值时，触发计算机设备执行通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，将图像特征更新前置关键帧对应的关键帧特征的步骤；当差异值小于预设阈值时，则确定当前帧为非关键帧，触发计算机设备执行获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征的步骤。

在一个实施例中，当差异值等于预设阈值时，则确定当前帧为非关键帧，不需要更新前置关键帧以及相应的关键帧特征，而是触发执行获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征的步骤。

在一个实施例中，决策网络的网络结构包括一个卷积层和两个全连接层(Fc，Fully connected layer)。如下表(4)所示，为决策网络的网络结构与效率、准确性之间的关系的示意。参照下表(4)可知，由于光流特征图的通道数较高，所以决策网络的设计应该尽量简单以提高效率，当决策网络包括一个卷积层和两个全连接层时，决策网络的性能较好。

决策网络的网络结构	决策网络的判断时间(毫秒)	错误率(百分比)
			1xConv+1xFc	0.45	2.60
1xConv+2xFc	1.09	1.96
			1xConv+3xFc	1.99	1.85
1xConv+4xFc	2.50	1.76

表(4)

S208，根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的目标对应的检测结果。

其中，检测结果可以是当前帧中属于目标的像素点构成的目标区域，也可以是目标区域对应的目标区域检测框，目标区域检测框可以是包围目标区域的最小矩形框。

具体地，通过目标检测模型的处理，得到当前帧对应的图像特征后，计算机设备就可以对当前帧进行像素级的目标检测，也就是基于当前帧的图像特征，对当前帧中每个像素的像素级别进行检测，输出当前帧中的目标对应的检测结果。如前文所描述的，当前帧为非关键帧时，当前帧的图像特征是对关键帧特征经过仿射变换得到的，当前帧为关键帧时，当前帧的图像特征是直接进行特征提取得到的。在一个实施例中，计算机设备可以通过训练好的像素级别分类器对当前帧的图像特征进行目标检测，输出当前帧中的目标对应的检测结果。

在一个实施例中，根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的目标对应的检测结果包括：将当前帧对应的图像特征输入像素级别分类器；通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；依据当前帧中各像素点的像素级别，输出当前帧中的目标对应的检测结果。

其中，像素级别分类器是用于对视频帧中各像素点的像素级别进行预测的机器学习模型。将当前帧对应的图像特征输入至像素级别分类器中，通过像素级别分类器的隐层对图像特征进行处理，得到当前帧中各像素点的像素级别。比如若当前帧中属于目标的像素点的像素级别为1，不属于目标的像素点的像素级别为0，则当前帧中所有像素级别为1的像素点所构成的区域为目标区域，可以根据目标区域中各像素点的像素坐标确定目标区域对应的最小矩形检测框，将该最小矩形检测框作为检测结果。

在一个实施例中，计算机设备可以根据每一个视频帧的检测结果在视频帧中显示目标区域对应的检测框，以实现在连续的视频帧构成的视频中实现对目标进行跟踪的效果。

上述目标检测方法，提取当前帧与对应的前置关键帧之间的光流特征图和光流图，光流特征图可以表示当前帧与前置关键帧之间的相似程度，而光流图可以表示前置关键帧到当前帧之间的运动变化信息，当根据光流特征图确定当前帧为非关键帧时，说明当前帧与前置关键帧之间相似程度高，则可以根据光流图对前置关键帧对应的关键帧特征进行仿射变换，得到当前帧对应的图像特征，而非经过特征提取得到，减少了特征提取次数从而减少运算量，提高了对视频进行目标检测的检测效率。并且，由于该图像特征不仅能够保留前置关键帧的信息，也因为光流图而具备自身的特征，基于该图像特征对当前帧中各像素点的像素级别进行检测，得到目标的检测结果的准确性更高。

如图8所示，为一个实施例中目标检测方法的整体框架图。参照图8，整体框架图包括目标检测模型810、特征提取模型820以及像素级别分类器830，目标检测模型810包括光流网络812、决策网络814和仿射网络816。

在对视频中的目标进行目标检测时，按帧输入视频帧序列中的各个视频帧，若当前帧为首个视频帧，则将首个视频帧作为关键帧，直接通过特征提取模型820对当前帧进行特征提取，得到对应的图像特征，将当前帧作为最新的前置关键帧，将该图像特征作为最新的关键帧特征。从第二个视频帧开始，需要判断当前帧是否为关键帧：将当前帧和对应的前置关键帧输入至光流网络812，通过光流网络812输出光流特征图和光流图，将光流特征图输入至决策网络814，通过决策网络814输出当前帧与最新的前置关键帧之间的差异值，将差异值与预设阈值比较，从而确定当前帧是否为关键帧。若当前帧为关键帧，则直接通过特征提取模型820进行特征提取，得到当前帧对应的图像特征，并更新前置关键帧以及关键帧特征；若当前帧为非关键帧，则将当前帧对应的前置关键帧的关键帧特征、当前帧与前置关键帧之间的光流图输入至仿射网络816，通过仿射网络816进行仿射变换后输出当前帧对应的图像特征。最后，将得到的图像特征输入至像素级别分类器830中进行像素级别的目标检测，输出当前帧中的目标对应的检测结果。依此类推，对当前帧的下一个视频帧进行处理。

在一个实施例中，视频帧序列属于对生物组织进行医学检测得到的检测视频，比如可以是乳腺超声检测视频。视频帧中的目标为肿块，检测结果为视频帧中肿块对应的检测框。

如图9，为一个实施例中对乳腺超声检测视频中的肿块进行目标检测得到检测结果的示意图。参照图9，对乳腺超声检测视频进行目标检测，可以检测出肿块区域并显示肿块对应的检测框，实现了对乳腺超声检测视频中的肿块进行跟踪。

如图10所示，为一个具体的实施例中目标检测方法的流程示意图。参照图10，该方法具体包括以下步骤：

S1002，获取视频帧序列中的当前帧。

S1004，判断当前帧是否为视频帧序列中的首个视频帧；若是，则执行步骤S1020；若否，则执行步骤S1004。

S1006，获取当前帧对应的前置关键帧，将前置关键帧和当前帧进行叠加处理，得到合成图像。

S1008，将合成图像输入预训练的目标检测模型的光流网络。

S1010，通过光流网络的下采样模块对合成图像进行卷积运算，得到前置关键帧与当前帧之间的光流特征图。

S1012，通过光流网络的上采样模块对光流特征图进行反卷积运算，得到前置关键帧与当前帧之间的光流图。

S1014，将光流特征图输入预训练的目标检测模型的决策网络。

S1016，通过决策网络对光流特征图进行卷积运算，输出前置关键帧与当前帧之间的差异值。

S1018，判断差异值与预设阈值的大小关系，当差异值大于或等于预设阈值时，则执行步骤S1020，当差异值小于预设阈值时，则执行步骤S1018。

S1020，获取前置关键帧对应的关键帧特征；将关键帧特征、光流图输入预训练的目标检测模型的仿射网络；在仿射网络中，对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，连接关键帧特征和尺寸相同的光流图，得到当前帧对应的图像特征。

S1022，通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，将图像特征更新前置关键帧对应的关键帧特征。

S1024，将当前帧对应的图像特征输入像素级别分类器；

S1026，通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；

S1028，依据当前帧中各像素点的像素级别，输出当前帧中的目标对应的检测结果。

图10为一个实施例中目标检测方法的流程示意图。应该理解的是，虽然图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图11所示，在一个实施例中，目标检测模型包括光流网络、决策网络和仿射网络，目标检测模型的训练步骤包括：

S1102，获取视频样本集；视频样本集包括多个无标注的视频样本。

其中，视频样本中的视频画面包括待检测的目标。无标注的视频样本指的是，训练的过程中并不需要获取视频样本中待检测的目标对应的标注数据。标注数据可以是待检测的目标对应的检测框的像素坐标数据。

比如，视频样本集可以是由若干无标注的乳腺超声检测视频所构成样本集，乳腺超声检测视频的视频画面中包括肿块区域。

S1104，获取各视频样本对应的视频帧序列。

具体地，计算机设备需要将无标注的视频样本处理为单帧图片，得到每个视频样本对应的视频帧序列。

S1106，将视频帧序列中属于同一视频样本的任意两个视频帧作为一对视频帧组，视频帧组包括当前帧和前置关键帧。

具体地，将同一视频样本的任意两个视频帧组为一对，作为视频帧组，该视频帧组为目标检测模型中光流网络和决策网络的训练数据。视频帧组中的其中一个视频帧为当前帧，另一个视频帧即为前置关键帧。从属于同一视频样本中视频帧序列中选取的任意两个视频帧，可以是随机选取的视频帧，这样，不仅可以使决策网络识别多样性的光流信息，并且增多了视频样本集。

S1108，将视频帧组输入光流网络，通过光流网络输出前置关键帧与当前帧之间的光流特征图和光流图。

具体地，将得到的视频帧组输入光流网络，实际是要对视频帧组中的当前帧与前置关键帧进行叠加处理，得到合成图像，再将合成图像输入至光流网络，通过光流网络输出该视频帧组中当前帧与前置关键帧之间的光流特征图和光流图。在整个目标检测模型训练完成之前，这里光流网络输出的光流特征图和光流图并不十分准确。

S1110，将前置关键帧对应的关键帧特征和光流图输入仿射网络，通过仿射网络输出当前帧对应的估计图像特征。

具体地，在整个目标检测模型训练完成之前，仿射网络的网络参数还不确定，因此通过仿射网络输出的当前帧的特征为估计图像特征(Fake Feature)，而非真实的图像特征(True Feature)。

S1112，根据当前帧对应的图像特征与估计图像特征，计算第一误差。

其中，当前帧对应的图像特征是真实的图像特征(True Feature)，是通过预训练的特征提取模型进行特征提取得到的。根据当前帧对应的图像特征与估计图像特征计算得到的第一误差(Loss1)，能够反映光流网络与仿射网络的准确性。

在训练目标检测模型之前，需要先采用已标注的包括目标的图片对特征提取模型进行训练，得到预训练的特征提取模型，然后再基于该预训练的特征提取模型对目标检测模型进行训练。

在一个实施例中，上述训练方法还包括步骤：

将当前帧输入预训练的特征提取模型，通过特征提取模型的模型参数对当前帧进行运算，输出当前帧对应的图像特征；将前置关键帧输入预训练的特征提取模型，通过特征提取模型的模型参数对前置关键帧进行运算，输出当前帧对应的关键帧特征。

在一个实施例中，上述训练方法还包括预先对特征提取模型进行训练，得到预训练的特征提取模型的步骤，具体包括：

获取图片样本集；获取图片样本集中各个图片样本所对应的真实检测框；将图片样本输入至特征提取模型中进行训练，得到图片样本所包括目标对应的预估检测框；根据真实检测框和预估检测框构建损失函数；根据损失函数对特征提取模型的模型参数进行调整，并从图片样本集获取下一个图片样本，返回将图片样本输入至特征提取模型中进行训练的步骤继续训练，直至满足训练停止条件。

其中，图片样本集的各个图片样本是已标注的图片样本，也就是说，在特征提取模型的训练过程中，计算机设备会获取图片样本对应的真实检测框，也就是图片样本中的目标所对应的检测结果，根据该真实的检测结果对特征提取模型进行训练。

由于特征提取模型是先训练好的，因此，目标检测模块可以适应多种不同的特征提取模型，目标检测模型的设计人员可以根据目标检测任务的难易度选择相应的特征提取网络构建特征提取模型。

S1114，将光流特征图输入决策网络，通过决策网络输出前置关键帧与当前帧之间的差异值。

具体地，计算机设备继续将光流网络输出的光流图输入决策网络，通过决策网络输出视频帧组中两个视频帧之间的差异值(Fake Difference)。同样地，在目标检测模型训练完成之前，通过决策网络判断得到的差异值并不太准确。

S1116，根据差异值与第一误差，计算第二误差。

具体地，根据步骤S1114中得到的差异值与步骤S1112中得到的第一误差，再求误差得到第二误差(Loss2)，能够反映光流网络与决策网络的准确性。

S1118，融合第一误差和第二误差，得到目标检测模型的损失值。

具体地，目标检测模型的损失值Loss可以通过以下公式计算得到：

Loss＝n*Loss1+Loss2，n为权重参数。

由于第二误差Loss2与第一误差Loss1之间是存在关联的，第二误差的大小与第一误差有较大关系，为了得到更准确的损失值，n的取值为0.1～0.5。

S1120，根据损失值对目标检测模型的模型参数进行调整，返回将视频帧组输入光流网络，输出前置关键帧与当前帧之间的光流特征图和光流图的步骤继续训练，直至满足训练停止条件。

如图12所示，为一个实施例中对目标检测模型进行训练的流程框架图。参照图12，待训练的目标检测模型1210包括光流网络1212、决策网络1214和仿射网络1216，在训练好特征提取模型1220后，将一对视频帧组(包括当前帧和前置关键帧)输入至光流网络1212中，通过光流网络1212输出当前帧与前置关键帧之间的光流特征图和光流图，然后将前置关键帧的关键帧特征(通过预训练的特征提取模型进行特征提取得到的真实关键帧特征)、光流图输入至仿射网络1216，通过仿射网络1216输出当前帧对应的估计图像特征(FakeFeature)，通过特征提取模型1220对当前帧进行特征提取得到的真实图像特征(TureFeature)，根据当前帧的估计图像特征(Fake Feature)与真实图像特征(Ture Feature)之间的差异，得到第一误差Loss1。接着，还要将光流特征图输入至决策网络1214，将决策网络1214判断出的差异值(Fake Difference)与第一误差再求误差，得到第二误差Loss2。整个目标检测模型的损失Loss可根据第一误差和第二误差计算得到。

在本实施例中，视频样本是没有标注数据的，也就是说不使用视频的标注数据，而是使用无标注的视频样本以及预训练的特征提取模型来实现对目标检测模型的训练，能够得到准确性和运算效率均良好的目标检测模型。

本申请所提供的实施例的目标检测方法，设计的特征提取模型可基于ResNet50进行设计。下表(5)给出了现有技术、采用本申请所提供的目标检测方法进行目标检测的性能数据。

表(5)

在上表(5)中，性能数据包括MAP(Mean Average Precision，平均精度均值)和运行时间(单位是毫秒)，运行时间包括GPU的运行时间和CPU的运行时间。表(5)中第一行代表采用不同的网络结构设计的特征提取模型，包括ResNet152、ResNet101和ResNet50，不管是从现有技术还是本申请实施例提供的目标检测方法来看，ResNet50网络结构设计的特征提取模型的mAP和运行效率比ResNet152、ResNet101要好。

再看表(5)中每种网络结构对应的列数据，无论是哪一种网络结构，将现有技术与本申请提供的改进的目标检测方法进行比较，可以看出，由于现有技术直接对视频中的每一个视频帧进行特征提取，不仅没有带来准确性的提升，反而由于忽视前置关键帧与当前帧之间的运动变化信息，导致无法充分理解当前帧的图像特征，使得准确性下降(MAP值较大)，运行效率也下降。

再看采用本申请实施例提供的目标检测方法，一共有六行数据，每一行数据对应了决策网络中不同的预设阈值。可见，当采用不同网络结构设计特征提取模型时，调整预设阈值对整个方法的准确性和运行效率的影响较小，说明本申请提供的目标检测方法可以适用于多种网络结构设计的特征提取模型，可以根据任务难易度选择提取特征模型的网络结构。

如图13所示，表示本申请实施例提供的目标检测方法的准确性提升的对比示意图。图13第1列表示现有技术对乳腺超声检测视频的检测结果，可见由于未考虑到前置关键帧的帧信息，从第二帧图片至第五帧图片，图片中右边的肿块并未被检测出，图13第2列而采用本申请实施例提供的目标检测方法则可以对图片中右边的肿块进行持续性跟踪，准确性有明显提升。

在一个实施例中，如图14所示，提供了一种目标检测方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图14，该目标检测方法具体包括如下步骤：

S1402，获取对生物组织进行医学检测得到的检测视频。

其中，生物组织可以是人体某个部分组织，比如乳腺、肩部或腹部等。对生物组织进行医学检测可以是对生物组织进行超声检测或X线检测等。具体地，计算机设备可获取采集器对生物组织进行医学检测得到的检测视频。

S1404，从检测视频的视频帧序列中获取当前帧及当前帧对应的前置关键帧。

具体地，计算机设备可以对检测视频的每一帧图像视频帧的顺序进行处理，获取检测视频的视频帧序列中的当前帧以及对应的前置关键帧。当前帧(Current Frame)是当前处理的视频帧。当前帧对应的前置关键帧(Key Frame)是在当前帧之前的最近的关键帧。在对视频帧序列中的视频进行处理的过程中，前置关键帧会被更新为最新的关键帧。

关于步骤S1404的具体实施可参见前面针对步骤S202所描述的实施例。

S1406，确定前置关键帧与当前帧之间的光流特征图和光流图。

其中，预训练的目标检测模型基于深度神经网络实现的网络模型，该目标检测模型的模型参数已经训练好，因而该目标检测模型可以直接用于对检测视频进行目标检测。具体地，计算机设备可以将获取的当前帧以及当前帧对应的前置关键帧输入至预训练好的目标检测模型中，通过该目标检测模型计算当前帧与前置关键帧之间的光流图和光流特征图。

关于步骤S1404的具体实施可参见前面针对步骤S204所描述的实施例。

S1408，当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征。

关于步骤S1408的具体实施可参见前面针对步骤S206所描述的实施例。

S1410，根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的肿块对应的检测结果。

其中，检测结果可以是当前帧中属于肿块的像素点构成的肿块区域，也可以是肿块区域对应的肿块区域检测框，肿块区域检测框可以是包围肿块区域的最小矩形框。具体地，通过目标检测模型的处理，得到当前帧对应的图像特征后，计算机设备就可以对当前帧进行像素级的目标检测，也就是基于当前帧的图像特征，对当前帧中每个像素的像素级别进行检测，输出当前帧中的肿块对应的检测结果。

关于步骤S1410的具体实施可参见前面针对步骤S208所描述的实施例。

在一个实施例中，上述目标检测方法还包括：当根据光流特征图确定当前帧为关键帧时，则通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，将图像特征更新前置关键帧对应的关键帧特征。

在一个实施例中，确定前置关键帧与当前帧之间的光流特征图和光流图包括：将前置关键帧和当前帧进行叠加处理，得到合成图像；将合成图像输入预训练的目标检测模型的光流网络；通过光流网络的下采样模块对合成图像进行卷积运算，得到前置关键帧与当前帧之间的光流特征图；通过光流网络的上采样模块对光流特征图进行反卷积运算，得到前置关键帧与当前帧之间的光流图。

在一个实施例中，上述目标检测方法还包括：将光流特征图输入预训练的目标检测模型的决策网络；通过决策网络对光流特征图进行卷积运算，输出前置关键帧与当前帧之间的差异值；当差异值大于或等于预设阈值时，则确定当前帧为关键帧；当差异值小于预设阈值时，则确定当前帧为非关键帧。

在一个实施例中，获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征包括：获取前置关键帧对应的关键帧特征；将关键帧特征、光流图输入预训练的目标检测模型的仿射网络；在仿射网络中，对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，连接关键帧特征和尺寸相同的光流图，得到当前帧对应的图像特征。

在一个实施例中，根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的肿块对应的检测结果包括：将当前帧对应的图像特征输入像素级别分类器；通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；依据当前帧中各像素点的像素级别，输出当前帧中的肿块对应的检测结果。

在一个实施例中，上述目标检测方法还包括：当当前帧为视频帧序列中的首个视频帧时，则通过预训练的特征提取模型直接对首个视频帧进行特征提取，得到对应的图像特征，并将首个视频帧作为前置关键帧，将图像特征作为前置关键帧对应的关键帧特征。

在一个实施例中，目标检测模型包括光流网络、决策网络和仿射网络，目标检测模型的训练步骤包括：获取检测视频样本集；检测视频样本集包括多个无标注的检测视频样本；获取各检测视频样本对应的视频帧序列；将视频帧序列中属于同一检测视频样本的任意两个视频帧作为一对视频帧组，视频帧组包括当前帧和前置关键帧；将视频帧组输入光流网络，通过光流网络输出前置关键帧与当前帧之间的光流特征图和光流图；将前置关键帧对应的关键帧特征和光流图输入仿射网络，通过仿射网络输出当前帧对应的估计图像特征；根据当前帧对应的图像特征与估计图像特征，计算第一误差；将光流特征图输入决策网络，通过决策网络输出前置关键帧与当前帧之间的差异值；根据差异值与特征误差，计算第二误差；融合第一误差和第二误差，得到目标检测模型的损失值；根据损失值对目标检测模型的模型参数进行调整，返回将视频帧组输入光流网络，输出前置关键帧与当前帧之间的光流特征图和光流图的步骤继续训练，直至满足训练停止条件。

在一个实施例中，上述目标检测方法还包括：将当前帧输入预训练的特征提取模型，通过特征提取模型的模型参数对当前帧进行运算，输出当前帧对应的图像特征；将前置关键帧输入预训练的特征提取模型，通过特征提取模型的模型参数对前置关键帧进行运算，输出当前帧对应的关键帧特征。

在一个实施例中，上述目标检测方法还包括：获取肿块检测图片样本集；获取肿块检测图片样本集中各个肿块检测图片样本所对应的真实检测框；将肿块检测图片样本输入至特征提取模型中进行训练，得到肿块检测图片样本所包括目标对应的预估检测框；根据真实检测框和预估检测框构建损失函数；根据损失函数对特征提取模型的模型参数进行调整，并从肿块检测图片样本集获取下一个肿块检测图片样本，返回将肿块检测图片样本输入至特征提取模型中进行训练的步骤继续训练，直至满足训练停止条件。

关于上述实施例的具体实施可参见前文所描述的实施例。

上述目标检测方法，提取当前帧与对应的前置关键帧之间的光流特征图和光流图，光流特征图可以表示当前帧与前置关键帧之间的相似程度，而光流图可以表示前置关键帧到当前帧之间的运动变化信息，当根据光流特征图确定当前帧为非关键帧时，说明当前帧与前置关键帧之间相似程度高，则可以根据光流图对前置关键帧对应的关键帧特征进行仿射变换，得到当前帧对应的图像特征，而非经过特征提取得到，减少了特征提取次数从而减少运算量，提高了对视频进行目标检测的检测效率。

并且，由于该图像特征不仅能够保留前置关键帧的信息，也因为光流图而具备自身的特征，基于该图像特征进行像素级的目标检测得到视频帧中的肿块对应的检测框准确性更高。尤其，在一些情况下，检测视频中的肿块会在某一个视频帧中隐藏至肌肉层，此时该视频帧中肿块的特征不那么明显，如果直接对该视频帧进行特征提取，那么得到的图像特征就不够准确，从而无法在该视频帧中找出肿块对应的检测框。

如图15所示，在一个实施例中，提供了一种目标检测系统1500，包括：

采集器1502，用于对生物组织进行医学检测得到检测视频。

存储器1504，存储器中存储有计算机可读指令。

处理器1506，计算机可读指令被处理器1506执行时，使得处理器1506执行以下步骤：从检测视频的视频帧序列中获取当前帧及当前帧对应的前置关键帧；确定前置关键帧与当前帧之间的光流特征图和光流图；当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征；根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的肿块对应的检测结果；

显示器1508，用于根据检测结果在当前帧中显示肿块对应的检测框。

在一个实施例中，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：当根据光流特征图确定当前帧为关键帧时，则通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，将图像特征更新前置关键帧对应的关键帧特征。

在一个实施例中，计算机可读指令被处理器1506执行确定前置关键帧与当前帧之间的光流特征图和光流图的步骤时，使得处理器1506还执行以下步骤：将前置关键帧和当前帧进行叠加处理，得到合成图像；将合成图像输入预训练的目标检测模型的光流网络；通过光流网络的下采样模块对合成图像进行卷积运算，得到前置关键帧与当前帧之间的光流特征图；通过光流网络的上采样模块对光流特征图进行反卷积运算，得到前置关键帧与当前帧之间的光流图。

在一个实施例中，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：将光流特征图输入预训练的目标检测模型的决策网络；通过决策网络对光流特征图进行卷积运算，输出前置关键帧与当前帧之间的差异值；当差异值大于或等于预设阈值时，则确定当前帧为关键帧；当差异值小于预设阈值时，则确定当前帧为非关键帧。

在一个实施例中，计算机可读指令被处理器1506执行获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征的步骤时，使得处理器1506还执行以下步骤：获取前置关键帧对应的关键帧特征；将关键帧特征、光流图输入预训练的目标检测模型的仿射网络；在仿射网络中，对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，连接关键帧特征和尺寸相同的光流图，得到当前帧对应的图像特征。

在一个实施例中，计算机可读指令被处理器1506执行根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的肿块对应的检测结果的步骤时，使得处理器1506还执行以下步骤：将当前帧对应的图像特征输入像素级别分类器；通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；依据当前帧中各像素点的像素级别，输出当前帧中的肿块对应的检测结果。

在一个实施例中，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：当当前帧为视频帧序列中的首个视频帧时，则通过预训练的特征提取模型直接对首个视频帧进行特征提取，得到对应的图像特征，并将首个视频帧作为前置关键帧，将图像特征作为前置关键帧对应的关键帧特征。

在一个实施例中，目标检测模型包括光流网络、决策网络和仿射网络，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：获取检测视频样本集；检测视频样本集包括多个无标注的检测视频样本；获取各检测视频样本对应的视频帧序列；将视频帧序列中属于同一检测视频样本的任意两个视频帧作为一对视频帧组，视频帧组包括当前帧和前置关键帧；将视频帧组输入光流网络，通过光流网络输出前置关键帧与当前帧之间的光流特征图和光流图；将前置关键帧对应的关键帧特征和光流图输入仿射网络，通过仿射网络输出当前帧对应的估计图像特征；根据当前帧对应的图像特征与估计图像特征，计算第一误差；将光流特征图输入决策网络，通过决策网络输出前置关键帧与当前帧之间的差异值；根据差异值与特征误差，计算第二误差；融合第一误差和第二误差，得到目标检测模型的损失值；根据损失值对目标检测模型的模型参数进行调整，返回将视频帧组输入光流网络，输出前置关键帧与当前帧之间的光流特征图和光流图的步骤继续训练，直至满足训练停止条件。

在一个实施例中，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：将当前帧输入预训练的特征提取模型，通过特征提取模型的模型参数对当前帧进行运算，输出当前帧对应的图像特征；将前置关键帧输入预训练的特征提取模型，通过特征提取模型的模型参数对前置关键帧进行运算，输出当前帧对应的关键帧特征。

在一个实施例中，计算机可读指令被处理器1506执行时，使得处理器1506还执行以下步骤：获取肿块检测图片样本集；获取肿块检测图片样本集中各个肿块检测图片样本所对应的真实检测框；将肿块检测图片样本输入至特征提取模型中进行训练，得到肿块检测图片样本所包括目标对应的预估检测框；根据真实检测框和预估检测框构建损失函数；根据损失函数对特征提取模型的模型参数进行调整，并从肿块检测图片样本集获取下一个肿块检测图片样本，返回将肿块检测图片样本输入至特征提取模型中进行训练的步骤继续训练，直至满足训练停止条件。

上述目标检测系统1500，提取当前帧与对应的前置关键帧之间的光流特征图和光流图，光流特征图可以表示当前帧与前置关键帧之间的相似程度，而光流图可以表示前置关键帧到当前帧之间的运动变化信息，当根据光流特征图确定当前帧为非关键帧时，说明当前帧与前置关键帧之间相似程度高，则可以根据光流图对前置关键帧对应的关键帧特征进行仿射变换，得到当前帧对应的图像特征，而非经过特征提取得到，减少了特征提取次数从而减少运算量，提高了对视频进行目标检测的检测效率。并且，由于该图像特征不仅能够保留前置关键帧的信息，也因为光流图而具备自身的特征，基于该图像特征对当前帧中各像素点的像素级别进行检测，得到目标的检测结果的准确性更高。

在一个实施例中，如图16所示，提供了一种目标检测装置1600，该装置包括获取模块1602、光流计算模块1604、特征变换模块1606和检测模块1608，其中：

获取模块1602，用于获取视频帧序列中的当前帧及当前帧对应的前置关键帧；

光流计算模块1604，用于确定前置关键帧与当前帧之间的光流特征图和光流图；

特征变换模块1606，用于当根据光流特征图确定当前帧为非关键帧时，则获取前置关键帧对应的关键帧特征，根据光流图对关键帧特征进行仿射变换，得到当前帧对应的图像特征；

检测模块1608，用于根据图像特征对当前帧中各像素点的像素级别进行检测，得到当前帧中的目标对应的检测结果。

在一个实施例中，上述目标检测装置1600还包括特征提取模块，特征提取模块用于当根据光流特征图确定当前帧为关键帧时，通过预训练的特征提取模型对当前帧进行特征提取，得到对应的图像特征，并根据当前帧更新前置关键帧，将图像特征更新前置关键帧对应的关键帧特征。

在一个实施例中，光流计算模块1604还用于将前置关键帧和当前帧进行叠加处理，得到合成图像；将合成图像输入预训练的目标检测模型的光流网络；通过光流网络的下采样模块对合成图像进行卷积运算，得到前置关键帧与当前帧之间的光流特征图；通过光流网络的上采样模块对光流特征图进行反卷积运算，得到前置关键帧与当前帧之间的光流图。

在一个实施例中，上述目标检测装置1600还包括确定模块，用于将光流特征图输入预训练的目标检测模型的决策网络；通过决策网络对光流特征图进行卷积运算，输出前置关键帧与当前帧之间的差异值；当差异值大于或等于预设阈值时，则确定当前帧为关键帧；当差异值小于预设阈值时，则确定当前帧为非关键帧。

在一个实施例中，特征变换模块1606还用于获取前置关键帧对应的关键帧特征；将关键帧特征、光流图输入预训练的目标检测模型的仿射网络；在仿射网络中，对光流图进行卷积运算，得到与关键帧特征的尺寸相同的光流图，连接关键帧特征和尺寸相同的光流图，得到当前帧对应的图像特征。

在一个实施例中，检测模块1608还用于将当前帧对应的图像特征输入像素级别分类器；通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；依据当前帧中各像素点的像素级别，输出当前帧中的目标对应的检测结果。

在一个实施例中，特征提取模块还用于当当前帧为视频帧序列中的首个视频帧时，则通过预训练的特征提取模型直接对首个视频帧进行特征提取，得到对应的图像特征，并将首个视频帧作为前置关键帧，将图像特征作为前置关键帧对应的关键帧特征。

在一个实施例中，目标检测模型包括光流网络、决策网络和仿射网络，上述目标检测装置1600还包括训练模块，用于获取视频样本集；视频样本集包括多个无标注的视频样本；获取各视频样本对应的视频帧序列；将视频帧序列中属于同一视频样本的任意两个视频帧作为一对视频帧组，视频帧组包括当前帧和前置关键帧；将视频帧组输入光流网络，通过光流网络输出前置关键帧与当前帧之间的光流特征图和光流图；将前置关键帧对应的关键帧特征和光流图输入仿射网络，通过仿射网络输出当前帧对应的估计图像特征；根据当前帧对应的图像特征与估计图像特征，计算第一误差；光流特征图输入决策网络，通过决策网络输出前置关键帧与当前帧之间的差异值；根据差异值与特征误差，计算第二误差；融合第一误差和第二误差，得到目标检测模型的损失值；根据损失值对目标检测模型的模型参数进行调整，返回将视频帧组输入光流网络，输出前置关键帧与当前帧之间的光流特征图和光流图的步骤继续训练，直至满足训练停止条件。

在一个实施例中，上述特征提取模块还用于将当前帧输入预训练的特征提取模型，通过特征提取模型的模型参数对当前帧进行运算，输出当前帧对应的图像特征；将前置关键帧输入预训练的特征提取模型，通过特征提取模型的模型参数对前置关键帧进行运算，输出当前帧对应的关键帧特征。

上述目标检测装置1600，提取当前帧与对应的前置关键帧之间的光流特征图和光流图，光流特征图可以表示当前帧与前置关键帧之间的相似程度，而光流图可以表示前置关键帧到当前帧之间的运动变化信息，当根据光流特征图确定当前帧为非关键帧时，说明当前帧与前置关键帧之间相似程度高，则可以根据光流图对前置关键帧对应的关键帧特征进行仿射变换，得到当前帧对应的图像特征，而非经过特征提取得到，减少了特征提取次数从而减少运算量，提高了对视频进行目标检测的检测效率。并且，由于该图像特征不仅能够保留前置关键帧的信息，也因为光流图而具备自身的特征，基于该图像特征对当前帧中各像素点的像素级别进行检测，得到目标的检测结果的准确性更高。

图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备120。如图17所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、采集器和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现目标检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行目标检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的采集器可以是超声波探头或者X射线检测探头。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的目标检测装置1600可以实现为一种计算机程序的形式，计算机程序可在如图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标检测装置1600的各个程序模块，比如，图16所示的获取模块1602、光流计算模块1604、特征变换模块1606和检测模块1608。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标检测方法中的步骤。

例如，图17所示的计算机设备可以通过如图16所示的目标检测装置1600中的获取模块1602执行步骤S202。计算机设备可通过光流计算模块1604执行步骤S204。计算机设备可通过特征变换模块1606执行步骤S206。计算机设备可通过检测模块1608执行步骤S208。

又比如，图17所示的计算机设备可以通过如图16所示的目标检测装置1600中的获取模块1602执行步骤S1304。计算机设备可通过光流计算模块1604执行步骤S1306。计算机设备可通过特征变换模块1606执行步骤S1308。计算机设备可通过检测模块1608执行步骤S1310。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标检测方法的步骤。此处目标检测方法的步骤可以是上述各个实施例的目标检测方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述目标检测方法的步骤。此处目标检测方法的步骤可以是上述各个实施例的目标检测方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标检测方法，包括：

获取视频帧序列中的当前帧及所述当前帧对应的前置关键帧；所述前置关键帧是在所述当前帧之前的最近的一帧关键帧；

当根据所述光流特征图确定所述当前帧为关键帧时，则对所述当前帧进行特征提取，得到对应的图像特征，并将所述当前帧作为最新的前置关键帧，将所述当前帧对应的图像特征作为所述最新的前置关键帧对应的关键帧特征；

根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的目标对应的检测结果；

根据所述检测结果在所述当前帧中显示目标对应的检测框。

2.根据权利要求1所述的方法，其特征在于，所述确定所述前置关键帧与所述当前帧之间的光流特征图和光流图包括：

将所述前置关键帧和所述当前帧进行叠加处理，得到合成图像；

将所述合成图像输入预训练的目标检测模型的光流网络；

通过所述光流网络的下采样模块对所述合成图像进行卷积运算，得到所述前置关键帧与所述当前帧之间的光流特征图；

通过所述光流网络的上采样模块对所述光流特征图进行反卷积运算，得到所述前置关键帧与所述当前帧之间的光流图。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述光流特征图输入预训练的目标检测模型的决策网络；

通过所述决策网络对所述光流特征图进行卷积运算，输出所述前置关键帧与所述当前帧之间的差异值；

当所述差异值大于或等于预设阈值时，则确定所述当前帧为关键帧；

当所述差异值小于预设阈值时，则确定所述当前帧为非关键帧。

4.根据权利要求1所述的方法，其特征在于，所述获取所述前置关键帧对应的关键帧特征，根据所述光流图对所述关键帧特征进行仿射变换，得到所述当前帧对应的图像特征包括：

获取所述前置关键帧对应的关键帧特征；

将所述关键帧特征、所述光流图输入预训练的目标检测模型的仿射网络；

在所述仿射网络中，对所述光流图进行卷积运算，得到与所述关键帧特征的尺寸相同的光流图，连接所述关键帧特征和所述尺寸相同的光流图，得到所述当前帧对应的图像特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，输出所述当前帧中的目标对应的检测结果包括：

将所述当前帧对应的图像特征输入像素级别分类器；

通过所述像素级别分类器的隐层，对所述图像特征进行像素级别预测，得到所述当前帧中各像素点的像素级别；

依据所述当前帧中各像素点的像素级别，输出所述当前帧中的目标对应的检测结果。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述当前帧为所述视频帧序列中的首个视频帧时，则

通过预训练的特征提取模型直接对所述首个视频帧进行特征提取，得到对应的图像特征，并将所述首个视频帧作为前置关键帧，将所述图像特征作为所述前置关键帧对应的关键帧特征。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述光流特征图和所述光流图通过目标检测模型中的光流网络计算得到，所述目标检测模型还包括决策网络和仿射网络，所述目标检测模型的训练步骤包括：

获取视频样本集；所述视频样本集包括多个无标注的视频样本；

获取各所述视频样本对应的视频帧序列；

将所述视频帧序列中属于同一视频样本的任意两个视频帧作为一对视频帧组，所述视频帧组包括当前帧和前置关键帧；

将所述视频帧组输入所述光流网络，通过所述光流网络输出所述前置关键帧与所述当前帧之间的光流特征图和光流图；

将所述前置关键帧对应的关键帧特征和所述光流图输入所述仿射网络，通过所述仿射网络输出所述当前帧对应的估计图像特征；

根据所述当前帧对应的图像特征与所述估计图像特征，计算第一误差；

将所述光流特征图输入所述决策网络，通过所述决策网络输出所述前置关键帧与所述当前帧之间的差异值；

根据所述差异值与所述第一误差，计算第二误差；

融合所述第一误差和所述第二误差，得到所述目标检测模型的损失值；

根据所述损失值对所述目标检测模型的模型参数进行调整，返回所述将所述视频帧组输入所述光流网络，输出所述前置关键帧与所述当前帧之间的光流特征图和光流图的步骤继续训练，直至满足训练停止条件。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

将所述当前帧输入预训练的特征提取模型，通过所述特征提取模型的模型参数对所述当前帧进行运算，输出所述当前帧对应的图像特征；

将所述前置关键帧输入预训练的特征提取模型，通过所述特征提取模型的模型参数对所述前置关键帧进行运算，输出所述当前帧对应的关键帧特征。

9.一种目标检测系统，包括：

采集器，用于对生物组织进行医学检测得到检测视频；

存储器，所述存储器中存储有计算机可读指令；

处理器，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：从所述检测视频的视频帧序列中获取当前帧及所述当前帧对应的前置关键帧；所述前置关键帧是在所述当前帧之前的最近的一帧关键帧；确定所述前置关键帧与所述当前帧之间的光流特征图和光流图；当根据所述光流特征图确定所述当前帧为非关键帧时，则获取所述前置关键帧对应的关键帧特征，根据所述光流图对所述关键帧特征进行仿射变换，得到所述当前帧对应的图像特征；当根据所述光流特征图确定所述当前帧为关键帧时，则对所述当前帧进行特征提取，得到对应的图像特征，并将所述当前帧作为最新的前置关键帧，将所述当前帧对应的图像特征作为所述最新的前置关键帧对应的关键帧特征；

根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的肿块对应的检测结果；

10.一种目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取视频帧序列中的当前帧及所述当前帧对应的前置关键帧；所述前置关键帧是在所述当前帧之前的最近的一帧关键帧；

特征提取模块，用于当根据所述光流特征图确定所述当前帧为关键帧时，则对所述当前帧进行特征提取，得到对应的图像特征，并将所述当前帧作为最新的前置关键帧，将所述当前帧对应的图像特征作为所述最新的前置关键帧对应的关键帧特征；

检测模块，用于根据所述图像特征对所述当前帧中各像素点的像素级别进行检测，得到所述当前帧中的目标对应的检测结果；

根据所述检测结果在所述当前帧中显示目标对应的检测框。

11.根据权利要求10所述的装置，其特征在于，所述光流计算模块，还用于将所述前置关键帧和所述当前帧进行叠加处理，得到合成图像；将所述合成图像输入预训练的目标检测模型的光流网络；通过所述光流网络的下采样模块对所述合成图像进行卷积运算，得到所述前置关键帧与所述当前帧之间的光流特征图；通过所述光流网络的上采样模块对所述光流特征图进行反卷积运算，得到所述前置关键帧与所述当前帧之间的光流图。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括确定模块，用于将所述光流特征图输入预训练的目标检测模型的决策网络；通过所述决策网络对所述光流特征图进行卷积运算，输出所述前置关键帧与所述当前帧之间的差异值；当所述差异值大于或等于预设阈值时，则确定所述当前帧为关键帧；当所述差异值小于预设阈值时，则确定所述当前帧为非关键帧。

13.根据权利要求10所述的装置，其特征在于，所述特征变换模块还用于获取所述前置关键帧对应的关键帧特征；将所述关键帧特征、所述光流图输入预训练的目标检测模型的仿射网络；在所述仿射网络中，对所述光流图进行卷积运算，得到与所述关键帧特征的尺寸相同的光流图，连接所述关键帧特征和所述尺寸相同的光流图，得到所述当前帧对应的图像特征。

14.根据权利要求10所述的装置，其特征在于，所述装置还包括检测模块，用于将当前帧对应的图像特征输入像素级别分类器；通过像素级别分类器的隐层，对图像特征进行像素级别预测，得到当前帧中各像素点的像素级别；依据当前帧中各像素点的像素级别，输出当前帧中的目标对应的检测结果。

15.根据权利要求10所述的装置，其特征在于，所述特征提取模块，还用于当当前帧为视频帧序列中的首个视频帧时，则通过预训练的特征提取模型直接对首个视频帧进行特征提取，得到对应的图像特征，并将首个视频帧作为前置关键帧，将图像特征作为前置关键帧对应的关键帧特征。

16.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

17.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。