CN115104136A

CN115104136A - 用于基于利用机器学习模型的输出的视觉证据而检测视频信号中的对象的设备、方法和计算机可读存储介质

Info

Publication number: CN115104136A
Application number: CN202080096364.8A
Authority: CN
Inventors: 克里斯蒂安·埃格特
Original assignee: Hoya Corp
Current assignee: Hoya Corp
Priority date: 2019-12-13
Filing date: 2020-11-26
Publication date: 2022-09-23
Also published as: EP4073699A1; JP2024050897A; WO2021116810A1; JP2023506219A; DE102019134253A1; US20230023972A1

Abstract

视频信号的视频帧中的检测相关联以生成检测链(S307)，所述视频帧从机器学习模型(S305)输出。检测在所述视频信号中的显示基于所述检测在所述检测链中的位置、所述检测的所述置信值和所述检测的所述位置而引起(S309)。

Description

用于基于利用机器学习模型的输出的视觉证据而检测视频信号中的对象的设备、方法和计算机可读存储介质

技术领域

本发明涉及用于基于利用机器学习模型的输出的视觉证据而检测视频信号中的对象的设备、方法和计算机可读存储介质。

背景技术

传统机器学习可有助于找出决策函数，该决策函数将相关于检测目标的特征映射于图像中以对标签进行分类。机器学习算法必须经历训练阶段，其中决策函数修改成使训练数据的错误最小化。在训练阶段完成之后，决策函数固定并用于预测先前未看到数据。

为向机器学习算法提供相关于检测目标的合适特征(例如，彩色分布、梯度直方图等)，采用了深度学习，该深度学习为一种能够自动地发现合适特征的技术。

深度学习通常利用深度卷积神经网络。相比于传统神经网络，第一层已由卷积操作来取代。这允许卷积神经网络学习能够提取特征的图像滤波。因为滤波系数现为决策函数的一部分，所以训练过程也可优化特征提取。因此，卷积神经网络能够自动地发现有用特征。

必须在分类和对象类别检测之间进行区分。关于分类，输入为图像并且输出为类别标签。因此，分类可回答诸如“该图像是否包括检测目标，例如息肉？(是/否)”的问题。相比之下，对象类别检测不仅提供了类别标签，而且提供了边界框形式的对象的位置。可能的是将对象检测器想象为应用于许多不同图像小块上的分类器。

用于对象检测的周知方式为单步多框检测器(SSD)，其由W.Liu、D.Anguelov、D.Erhan、C.Szegedy、S.Reed、C-Y.Fu、A.C.Berg公开于“SSD:单步多框检测器”，《2016年欧洲计算机视觉大会(European Conference on Computer Vision 2016)》。

发明内容

SSD的基本原理是将所谓锚箱的假想网格放置横穿图像。在每个位置，存在具有不同标度和长宽比的多个锚箱。关于检测某个检测目标(例如，息肉)，问题是“这个锚箱是否包括检测目标，例如息肉(是/否)？”。因此，对于每个锚箱需要具有两个输出神经元的神经网络。根据两个输出神经元更强力地激活的一者，锚箱分类为阳性或阴性。

检测器(诸如SSD)提供了框架以用于静止图像的对象检测。

本发明的目的是提供一种对象检测和显示机制，该对象检测和显示机制可基于从机器学习模型的输出而实现视频信号的时间一致性检测。

该目的通过如附属权利要求书所定义的设备、方法和计算机可读存储介质来解决。

根据本发明的一个方面，提供了一种设备，该设备包括：

用于获得从机器学习模型所输出的关于视频信号的一系列连续视频帧的至少一个当前视频帧的一个或多个当前检测的器具，所述至少一个当前视频帧输入至所述机器学习模型，其中所述一个或多个当前检测的当前检测包括置信值和检测目标在所述至少一个当前视频帧中的位置，所述置信值指示所述当前检测包括待由所述机器学习模型所检测的所述检测目标的概率；

用于通过使从所述机器学习模型所输出的检测相关联而生成检测链的器具，其中所述一个或多个当前检测中的当前检测与从所述机器学习模型所获得的关于所述系列视频帧的至少一个先前视频帧的一个或多个先前检测中的先前检测相关联，所述至少一个先前视频帧处于所述至少一个当前视频帧之前并且已输入至所述机器学习模型，其中所述一个或多个先前检测中的先前检测包括置信值和所述检测目标在所述至少一个先前视频帧中的位置，所述置信值指示所述先前检测包括所述检测目标的概率，其中所述当前检测基于所述当前和先前检测的所述位置而与所述先前检测相关联；

用于基于所述当前检测在所述检测链中的位置、所述当前检测的所述置信值和所述当前检测的位置而引起所述至少一个当前检测在所述视频信号中的显示的器具；和

对于作为所述至少一个当前视频帧的所述系列中至少一个下一视频帧，重复所述获得、生成和引起显示的器具。

根据本发明的一个实施例，当前检测与先前检测相关联，使得在当前和先前检测的位置的重叠满足预定条件的情况下，当前检测和先前检测属于相同检测链。

根据本发明的一个实施例，在当前检测属于检测链的N+M个检测的情况下，引起了当前检测的显示，其中N和M为等于或大于1的正整数，并且其中N指示检测链的N时间上首次检测，并且其中在当前检测属于检测链的N时间上首次检测的情况下，未引起当前检测的显示。

根据本发明的一个实施例，在当前检测的置信值等于或大于第一阈值的情况下，引起了当前检测的显示。

根据本发明的一个实施例，在当前检测的置信值等于或大于第二阈值的情况下和在属于与当前检测相同的检测链的先前检测的置信值等于或大于第一阈值的情况下，引起了当前检测的显示，该第二阈值小于第一阈值。

根据本发明的一个实施例，该设备还包括用于对于检测链的检测的位置执行平滑处理的器具。

根据本发明的一个实施例，视频信号在检查过程期间由内窥镜捕获。

根据本发明的一个实施例，检测目标为息肉。

根据本发明的一个实施例，提供了一种对象检测和显示机制，该对象检测和显示机制利用机器学习模型基于视频信号的视频帧的视觉证据而实现了视频信号的时间一致性检测。

根据一种实例实施方式，对象检测和显示机制通过利用机器学习模型的输出而处理了移动图像的视频信号，该对象检测和显示机制能够抑制伪影，诸如，如后文将描述的假性检测、丢失检测和不稳定定位，同时还抑制了机器学习模型的训练负荷。

根据本发明的一个实施例，采用了启发式方式以用于通过利用机器学习模型的输出而执行移动图像的视频信号中的对象检测，从而视觉上改善了检测的质量。

利用本发明，例如，当执行内窥镜检查(诸如结肠镜筛查)时，可支持医生将他/她注意力集中于相关图像区域，这些图像区域包括与息肉的外观一致的组织。

在下文中，本发明将参照附图通过其实施例的方式进行描述。

附图说明

图1根据本发明的一个实施例示出了说明交并比(IoU)标准的示意图，该标准用于将检测分组成检测链。

图2根据本发明的一个实施例示出了图示，示意性地说明执行视频信号中的对象检测的“理想”解决方案和执行对象检测的启发式方式。

图3根据本发明的一个实施例示出了流程图，说明了对象检测和显示过程。

图4示出了示意性框图，说明了控制单元的配置，其中本发明实施例的实例为可实现的。

图5根据本发明的一个实施例示出了图示，说明了当闪烁抑制应用于对象检测和显示过程时的PR曲线。

图6根据本发明的一个实施例示出了图示，说明了待应用于对象检测和显示过程的滞后阈值处理。

图7根据本发明的一个实施例示出了图示，说明了当滞后阈值处理应用于对象检测和显示过程时的PR曲线。

具体实施方式

根据本发明，使用了机器学习模型的输出。机器学习模型对于视频信号的每个视频帧输出了一个或多个检测，该视频信号输入至机器学习模型。例如，视频信号在检查过程期间由内窥镜捕获。

特别地，机器学习模型输出了置信值和每次检测的位置。置信值指示该检测包括待由机器学习模型所检测的检测目标的概率，并且位置指示检测目标在视频帧中的区域。例如，检测目标为息肉。

例如，作为机器学习模型，采用了神经网络，该神经网络对于如上文所述及的每个锚箱具有两个输出神经元。根据两个输出神经元更强力地激活的一者，锚箱分类为阳性或阴性。检测目标的位置基于锚箱的位置。两个神经元的输出形成了置信值。

机器学习模型已利用对象检测的训练数据进行训练，即，用于检测目标(诸如息肉)的检测的训练数据，该训练数据包括图像和注释对象(例如，以边界框的形式)。

为客观地评估机器学习模型的数据集和滤波技术的性能改善，标准量度用于对象检测的任务。所用的相关量度为准确率、召回率和平均准确率(AP)。准确率定义为正确检测实例相比于由机器学习模型所返回的总检测数量的分数。召回率定义为正确检测实例相比于待检测总实例数量的分数。

因此，准确率和召回率可正式定义为

准确率＝TP/(TP+FP)召回率＝TP/(TP+FN)

其中TP表示真实阳性(正确检测)的数量，FP表示虚假阳性(错误检测)的数量，并且FN表示虚假阴性(遗漏检测)的数量。

为将检测分类为“真实”或“虚假”，定位的质量需进行测量。为测量定位质量，采用了交并比(IoU)的标准：

IoU(A,B)＝|A∩B|/|A∪B|

仅在完美定位的情况下，交并比将为1。检测不足和检测过度均进行惩罚。如果检测和注释之间的IoU≥0.5，那么检测分类为正确。图1说明了不良定位、最低可接受定位和完美定位的实例。

虽然准确率和召回率为用于评估算法的性能的可用工具，但是它们具有严重缺点：分类器输出置信值，该置信值测量了图像区域包括检测目标(诸如息肉)的概率。对于是否显示检测的最终决策，需应用阈值。然而，准确率和召回率的数值取决于该阈值。例如，通过增加阈值，始终可能的是以召回率的代价增加准确率。

因此，在将在后文描述的图5和图7中，准确率(P)和召回率(R)对于所有可能阈值进行评估以绘制准确率-召回率曲线。曲线下方面积称为平均准确率(AP)并且用作不同分类器如何总体良好地执行的指标。该数值可用于将不同分类器彼此相比较。

在下文中，假设机器学习模型(其输出用于本发明)已训练以当基于视频信号的视频帧而产生检测时实现良好性能。然而，以往视频帧的信息可能够甚至进一步改善性能。

仅基于当前视频帧而产生检测可导致下述伪影：

——假性检测：虚假阳性，往往出现于视频信号的单个图像帧，并且在视频信号的下一帧中消失。

——丢失检测：当机器学习模型已检测到检测目标(例如，息肉)时，该检测在视频信号的多个连续帧中通常为非常稳定的。然而，检测的置信度有时将短暂地下降低于检测阈值，这将引起检测闪烁。

——不稳定定位：机器学习模型将估计边界框以定位每次检测。如果输入图像轻微地改变，那么定位将也改变。然而，这种变化对于用户可看起来非平滑。

能够考虑到以往视频帧的检测器可具有良好机会以减少这些伪影。然而，训练此类检测器将需要收集视频序列作为数据集。这将给医生带来巨大负担，因为他们将需要标记视频信号中的每个单个帧。

为避免利用视频序列来训练机器学习模型，根据本发明，采用了启发式解决方案以视觉上改善检测的质量。为此，引入了一种解决上文所述及伪影的滤波启发方式。图2示出了图示，示意性地说明了“理想”解决方案和根据本发明的解决方案。

“理想”解决方案示出于图2的左手侧。例如，深度卷积神经网络(DCNN)长短期记忆(LSTM)架构将多个视频帧取为输入，并且基于多个帧的视觉证据而输出检测。

根据本发明的解决方案示出于图2的右手侧。预测基于独立帧，通过启发式方式进行滤波。

这两种解决方案之间的区别在于，真实多帧检测器将能够依赖于多个视频帧的视觉证据。根据本发明的启发式解决方案依赖于当前帧的视觉证据以产生检测。如上文所描述，检测包括位置和置信值。因此，启发式方式可对这些数值进行操作。

根据本发明的一个实施例，在应用滤波启发式方式之前，检测在多个视频帧中彼此相关联。根据本发明的一个实施例，假设检测通常未趋于快速移动横穿连续视频帧，并且检测的位置用于使检测彼此相关联。根据一个实施方式实例，先前所描述的交并比标准用于使检测彼此相关联。例如，连续视频帧中IoU≥0.3的检测视为相同检测链的一部分。IoU<0.3的连续检测视为不同检测链的一部分。将在下文描述的滤波阶段各自对于这些检测链进行操作。

在描述滤波阶段之前，参考图3，图3根据本发明的一个实施例示出了对象检测和显示的过程。

在图3的步骤S305，获得关于输入至机器学习模型的至少一个当前视频帧的一个或多个当前检测，如从该机器学习模型所输出。至少一个当前视频帧属于视频信号的一系列连续视频帧。根据一种实例实施方式，视频信号从内窥镜装置进行采集，该内窥镜装置捕获视频信号。例如，视频信号包括移动图像。

一个或多个当前检测的当前检测包括置信值和检测目标在至少一个当前视频帧中的位置，该置信值指示当前检测包括将由机器学习模型所检测的检测目标的概率。在步骤S305，获得关于至少一个当前视频帧的一个或多个当前检测。

在步骤S307，检测链通过使从机器学习模型所输出的检测相关联而生成。一个或多个当前检测中的当前检测与从机器学习模型所获得的关于该系列视频帧的至少一个先前视频帧的一个或多个先前检测中的先前检测相关联，该至少一个先前视频帧处于至少一个当前视频帧之前并且已输入至机器学习模型。一个或多个先前检测中的先前检测包括置信值和检测目标在至少一个先前视频帧中的位置，该置信值指示该先前检测包括检测目标的概率。根据本发明的一个实施例，当前检测基于当前和先前检测的位置而与先前检测相关联。根据一个另选实施例或此外，当前检测基于检测在连续视频帧中的速度和取向的至少一者而与先前检测相关联。

在步骤S309，基于当前检测在检测链中的位置、当前检测的置信值和当前检测的位置而引起至少一个当前检测在视频信号中的显示。

在步骤S311，检查是否满足结束条件。在满足结束条件的情况下，该过程结束。在未满足结束条件的情况下，该过程返回至步骤S305以处理作为至少一个当前视频帧的该系列中的至少一个下一视频帧。

例如，在该系列中未存在下一视频帧的情况下，结束条件得以满足。

根据一种实例实施方式，在步骤S307，当前检测与先前检测相关联，使得在当前和先前检测的位置的重叠满足预定条件(例如，IoU≥0.3)的情况下，当前检测和先前检测属于相同检测链。

另外，根据一种实例实施方式，在步骤S309，在当前检测的置信值等于或大于第一阈值的情况下，引起了当前检测的显示。

现参考图4，图4示出了控制单元40，其中本发明实施例的实例为可实现的。例如，控制单元40实现了图3的对象检测和显示过程。

控制单元40包括处理资源(例如，处理电路)41、存储器资源(例如，存储器电路)42和接口(例如，接口电路)43，它们经由链接(例如，总线、有线连接、无线连接，等等)44进行连接。

根据一种实例实施方式，存储器资源42存储了程序，该程序当由处理资源41执行时引起控制单元40根据本发明的至少一些实施例进行操作。

一般来讲，本发明的示例性实施例可通过计算机软件来实现，该计算机软件存储于存储器资源42中并且为通过处理资源41或通过硬件或通过软件和/或固件和硬件的组合可执行的。

在下文中，将描述滤波阶段，这些滤波阶段对如上所述所获得的检测链进行操作。

滤波阶段1：闪烁抑制

闪烁抑制设计成解决假性检测的问题。因为假性检测仅对于数个帧出现并且然后再次消失，所以用以规避这个问题的解决方案是抑制检测在图像中的首次发生。例如，如果仅检测目标(例如，息肉)已在多个后续视频帧中在相同位置单独地检测，那么对应于该位置的检测在S309显示。

存在两种不同方式来实现此类闪烁抑制。一种方式是无预知抑制，其始终抑制检测的前N次发生。另一种方式是有预知抑制，其在检测已在第N+1个帧中消失的情况下仅抑制检测的前N次发生。

两种型式具有增加对象检测和显示机制的准确率的效果。然而，因为检测有意地抑制，召回率必然受影响。在采用无预知闪烁抑制的情况下，召回率的这种下降相比于采用有预知闪烁抑制的情况将为较大的。然而，将存在N+1个帧的延迟，直至采集是否显示检测的知识。因为此类延迟通常为不可接受的，所以利用无预知闪烁抑制为优选的。

根据图3的对象检测和显示过程的一种实例实施方式，在步骤S309，在当前检测属于检测链的N+M检测的情况下，引起了当前检测的显示，其中N和M为等于或大于1的正整数，并且其中N指示检测链的N时间上首次检测。另外，在当前检测属于检测链的N时间上首次检测的情况下，未引起当前检测的显示。

在图5中，准确率和召回率对于所有可能阈值进行评估以绘制关于以下项的准确率-召回率(PR)曲线：(1)原始数据集(即，闪烁抑制未应用于图3的对象检测和显示过程)，(2)具有应用于图3的对象检测和显示过程的无预知(wof)闪烁抑制的数据集，和(3)具有应用于图3的对象检测和显示过程的有预知(wf)闪烁抑制的数据集。

如前文所描述，曲线下方面积称为平均准确率(AP)并且用作图3的对象检测和显示过程如何在以下情况下工作良好的指标：(1)在无闪烁抑制的情况下，(2)在无预知闪烁抑制的情况下，和(3)在有预知闪烁抑制的情况下。

图5示出了应用有预知和无预知闪烁抑制的效果。可实现最大召回率降低，同时检测器的(例如，机器学习模型的)特性的高准确率部分中的准确率得以改善。在采用有预知闪烁抑制的情况下，两种效果均不太明显。准确率的增加对于用户为高度可视的，同时召回率的下降为非可视的，因为对于大多数应用情景，检测器(例如，机器学习模型)将在PR曲线的高准确率区域中具有其操作点。

虽然应用无预知闪烁抑制意味着召回率更明显地下降，但是丢失召回率对于用户为很难察觉的。在息肉进入视野之后，相比于图像上弹出并立即消失的虚假阳性，数个丢失检测为更加不易察觉的。

滤波阶段2：滞后

有时，出现闪烁检测的相反情况。检测对于单个帧短暂地丢失，并且在下一帧中迅速地再次检测。例如，当发生运动模糊适，可出现这种情况。

为抵消这些丢失检测，引入了滞后阈值处理，如图6所示。

滞后阈值处理利用两个阈值：第一阈值称为高阈值(图6中称为“高”)，并且第二阈值称为低阈值(图6中称为“低”)。初始地，检测的置信值必须超过高阈值以进行显示。换句话讲，初始地，在多个帧(例如，随着时间推移，如图6所示)中在类似位置以高置信度进行检测的情况下，检测得以显示。如果检测已对于数个帧在类似位置进行显示，那么该检测允许下降低于高阈值并且仍显示。仅当检测下降低于低阈值时，其不再进行显示。在图6中，置信值指示为“分”。

根据一种实例实施方式，在图3的步骤S309，在当前检测的置信值等于或大于第二阈值的情况下和在属于与当前检测相同的检测链的先前检测的置信值等于或大于第一阈值的情况下，引起了当前检测的显示，该第二阈值小于第一阈值。

图7示出了滞后阈值处理在图3的对象检测和显示过程中的应用的典型效果。对于给定准确率，召回率可改善。在实践中，准确率的潜在降低为不可观察的。

应注意，图5和图7所示的PR曲线已基于不同数据集而获得。

因为滞后阈值处理导致更多所检测息肉，所以其可使召回率增加。潜在地，其也可导致准确率的下降，因为这些检测中的一者可证明为不正确的。然而，因为神经网络通常善于当息肉真实存在时分配高置信值并且当息肉不存在时分配极低置信值，所以此类问题尚未遇到。在此类情况下，网络的置信值井通常甚至未超过低阈值。

滤波阶段3：位置平滑处理

在滤波阶段3中，执行对于检测的位置的平滑处理。

根据一种实例实施方式，在图3的步骤S309，当引起至少一个当前检测的显示时，其位置基于该当前检测所属于的检测链的检测位置进行平滑处理，其中该检测处于当前检测之前。

例如，平滑处理通过执行检测坐标的加权平均来进行。这创建了定位相比于初始情况更稳定的现象。另选地，平滑处理可利用更复杂滤波结构来执行，例如，通过将卡曼滤波应用于视频信号中检测的位置。

效果

应用启发式滤波阶段1至3的上文所描述方式的组合效果已对于6000个图像的大型测试数据集进行评估。平均而言，相比于无启发式滤波的情况，已观察到虚假阳性检测的62％减少。类似地，已观察到虚假阴性的16％增加。同样，需注意，虚假阳性的减少为高度可视的，而虚假阴性的减少为难以可视的。其中息肉在进入视野时未检测到的数个帧在技术上测量为虚假阴性。然而，对于人类用户，这为难以可视的。然而，在视频中弹出的虚假阳性对于用户为非常易于察觉的。

此时，还需注意，虚假阴性的16％增加未意味着在结肠镜检测期间遗漏16％的息肉。这意味着存在视频帧的16％增加，其中息肉存在但未检测到。然而，通常存在描述相同息肉的多个视频帧。如果网络善于检测息肉，那么几乎可肯定的是，遇到至少一个视频帧，其中检测到特定息肉。在实践中，启发式滤波未影响至少一次所检测的息肉的数量。

上文所描述对象检测和显示机制能够在结肠镜检查期间实时可靠地检测息肉。

三阶段启发式滤波方式允许对于视频信号的帧的滤波检测，即，随着时间推移。因此，虽然对象检测和显示机制对于视频帧(例如，独立视频帧)进行操作，但是单独检测看起来更稳定。这种启发式滤波视觉上改善了结果，并且允许在训练期间的时间一致性检测而无需视频数据(和对应注释)。

应当理解，上文描述说明了本发明并且不应理解为限制本发明。在不脱离如附属权利要求书所定义的本发明的真实精神和范围的情况下，本领域的技术人员可做出各种修改和应用。

Claims

1.一种方法，包括，

获得从机器学习模型所输出的关于视频信号的一系列连续视频帧的至少一个当前视频帧的一个或多个当前检测，所述至少一个当前视频帧输入至所述机器学习模型，其中所述一个或多个当前检测的当前检测包括置信值和检测目标在所述至少一个当前视频帧中的位置，所述置信值指示所述当前检测包括待由所述机器学习模型所检测的所述检测目标的概率；

通过使从所述机器学习模型所输出的检测相关联而生成检测链，其中所述一个或多个当前检测中的当前检测与从所述机器学习模型所获得的关于所述系列视频帧的至少一个先前视频帧的一个或多个先前检测中的先前检测相关联，所述至少一个先前视频帧处于所述至少一个当前视频帧之前并且已输入至所述机器学习模型，其中所述一个或多个先前检测中的先前检测包括置信值和所述检测目标在所述至少一个先前视频帧中的位置，所述置信值指示所述先前检测包括所述检测目标的概率，其中所述当前检测基于所述当前和先前检测的所述位置而与所述先前检测相关联；和

基于所述当前检测在所述检测链中的位置、所述当前检测的所述置信值和所述当前检测的位置而引起所述至少一个当前检测在所述视频信号中的显示，

其中所述获得、生成和引起显示对于作为所述至少一个当前视频帧的所述系列中至少一个下一视频帧进行重复。

2.根据权利要求1所述的方法，其中所述当前检测与所述先前检测相关联，使得在所述当前和先前检测的所述位置的重叠满足预定条件的情况下，所述当前检测和所述先前检测属于相同检测链。

3.根据权利要求1或2所述的方法，其中在所述当前检测属于所述检测链的N+M个检测的情况下，引起了所述当前检测的显示，其中N和M为等于或大于1的正整数，并且其中N指示所述检测链的所述N时间上首次检测，并且其中在所述当前检测属于所述检测链的所述N时间上首次检测的情况下，未引起所述当前检测的显示。

4.根据权利要求1至3中任一项所述的方法，其中在所述当前检测的所述置信值等于或大于第一阈值的情况下，引起了所述当前检测的显示。

5.根据权利要求4所述的方法，其中在所述当前检测的所述置信值等于或大于第二阈值的情况下和在属于与当所述前检测相同的检测链的所述先前检测的所述置信值等于或大于所述第一阈值的情况下，引起了所述当前检测的显示，所述第二阈值小于所述第一阈值。

6.根据权利要求1至5中任一项所述的方法，还包括：

对于所述检测链的所述检测的位置执行平滑处理。

7.根据权利要求1至6中任一项所述的方法，其中所述视频信号在检查过程期间由内窥镜捕获。

8.根据权利要求1至7中任一项所述的方法，其中所述检测目标为息肉。

9.一种计算机可读非暂态存储介质，所述计算机可读非暂态存储介质存储程序，所述程序当由计算机执行时引起所述计算机执行根据权利要求1至8中任一项所述的方法。

10.一种设备，所述设备包括至少一个处理器和至少一个存储器，所述至少一个存储器包括计算机程序代码，所述至少一个存储器和所述计算机程序代码配置成与所述至少一个处理器一起引起所述设备至少执行：

通过使从所述机器学习模型所输出的检测相关联而生成检测链，其中所述一个或多个当前检测中的当前检测与从所述机器学习模型所获得的关于所述系列视频帧的至少一个先前视频帧的一个或多个先前检测中的先前检测相关联，所述至少一个先前视频帧处于所述至少一个当前视频帧之前并且已输入至所述机器学习模型，其中所述一个或多个先前检测中的先前检测包括置信值和所述检测目标在所述至少一个先前视频帧中的位置，所述置信值指示所述先前检测包括所述检测目标的概率，其中所述当前检测基于所述当前和先前检测的所述位置而与所述先前检测相关联；

基于所述当前检测在所述检测链中的位置、所述当前检测的所述置信值和所述当前检测的位置而引起所述至少一个当前检测在所述视频信号中的显示；和

对于作为所述至少一个当前视频帧的所述系列中至少一个下一视频帧，重复所述获得、生成和引起显示。