CN110717441B

CN110717441B - 视频目标检测方法、装置、设备及介质

Info

Publication number: CN110717441B
Application number: CN201910951142.9A
Authority: CN
Inventors: 章子健; 尚鸿; 孙钟前; 郑瀚
Original assignee: Tencent Healthcare Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2021-04-16
Anticipated expiration: 2039-10-08
Also published as: CN110717441A

Abstract

公开了一种基于人工智能的视频目标检测方法、装置、设备及介质。视频目标检测方法包括：获取视频中当前图像帧的目标检测信息以及视频中至少一个历史图像帧的目标检测结果；基于至少一个历史图像帧的目标检测结果确定当前图像帧的目标检测阈值；基于当前图像帧的目标检测信息和当前图像帧的目标检测阈值确定当前图像帧目标检测结果。基于历史图像帧的目标检测结果确定当前图像帧目标检测阈值，提高了连续图像帧检测结果的稳定性及连续图像帧召回率；且当视频图像晃动或抖动时，避免将非目标区域误判为目标，提高了目标检测准确率。

Description

视频目标检测方法、装置、设备及介质

技术领域

本公开涉及人工智能领域，更具体地涉及一种视频目标检测方法、视频目标检测装置、视频目标检测设备及介质。

背景技术

随着人工智能在民用和商用领域的广泛应用，基于人工智能的目标检测在智能视频监控、医疗病灶检测等领域起到日益重要的作用，也面临着更高的要求。

目前在目标检测中设置固定的检测阈值，通过对视频中每一图像帧进行目标检测得到置信度信息，并将所得到的置信度信息与该固定检测阈值相比较，得到检测结果。然而，在使用固定检测阈值的情况下，一方面，当目标在连续图像帧中多次出现时，由于存在镜头晃动、模糊或角度变化的情况，检测得到的置信度信息不稳定，某些图像帧的置信度可能低于检测阈值，从而导致遗漏了该图像帧中的目标；另一方面，在视频图像拍摄过程中可能存在快速晃动或水流冲击等非常规状况，这将使得某些图像帧的置信度信息高于该固定检测阈值，从而导致将非目标区域误判为目标的情况。

因此，需要一种在实现目标检测的前提下，具有较高目标检测准确率和检测结果输出稳定性，并具有较低误判的目标检测方法。

发明内容

针对以上问题，本公开提供了一种基于人工智能的视频目标检测方法、视频目标检测装置、视频目标检测设备及介质。利用本公开提供的视频目标检测方法可以在实时目标检测的基础上，有效提高对视频图像进行目标检测的准确率，实现实时且高精度的目标检测，且该方法具有良好的鲁棒性。

根据本公开的一方面，提出了一种视频目标检测方法，包括：获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果；基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值；基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

在一些实施例中，所述视频目标检测方法还包括：对所述当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

在一些实施例中，基于所述至少一个历史图像帧的目标检测结果确定当前图像帧的目标检测阈值包括：获取参考检测阈值；对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的阈值校正值；基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

在一些实施例中，对于所述至少一个历史图像帧中的每一个历史图像帧，确定与该历史图像帧对应的阈值校正值包括：基于该历史图像帧的目标检测结果，确定该历史图像帧的阈值影响值；确定该历史图像帧与当前图像帧的距离，并基于该距离确定该历史图像帧对当前图像帧的影响系数，其中，该历史图像帧与当前图像帧的距离越大，该历史图像帧对当前图像帧的影响系数越小；将该历史图像帧的阈值影响值和该历史图像帧对当前图像帧的影响系数相乘，得到该历史图像帧对当前图像帧的阈值校正值。

在一些实施例中，基于该历史图像帧的目标检测结果确定该历史图像帧的阈值影响值包括：获取该历史图像帧的目标检测信息；基于该历史图像帧的目标检测结果以及目标检测信息，确定该历史图像帧的阈值影响值。

在一些实施例中，对于所述至少一个历史图像帧中的每个历史图像帧，在该历史图像帧的目标检测结果指示在该历史图像帧中检测到特定目标的情况下，该历史图像帧的阈值影响值为负值；在该历史图像帧的目标检测结果指示在该历史图像帧中没有检测到特定目标的情况下，该历史图像帧的阈值影响值为正值。

在一些实施例中，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的多个阈值校正值；且其中，确定所述目标检测阈值包括：基于所述至少一个历史图像帧中每一个历史图像帧的多个阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

在一些实施例中，基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值确定当前图像帧的目标检测结果包括：将所述目标检测信息与所述目标检测阈值相比较；在所述目标检测信息大于所述目标检测阈值的情况下，则输出的目标检测结果指示在当前图像帧中检测到特定目标。

在一些实施例中，所述视频为内窥镜采集的视频；并且，所述视频目标检测方法包括：获取内窥镜采集的视频中当前图像帧的病灶检测信息以及该视频中至少一个历史图像帧的病灶检测结果；基于所述至少一个历史图像帧的病灶检测结果，确定当前图像帧的病灶检测阈值；基于所述当前图像帧的病灶检测信息和所述当前图像帧的病灶检测阈值，确定当前图像帧的病灶检测结果。

根据本公开的另一方面，提供了一种基于人工智能的视频目标检测装置，所述视频目标检测装置包括：目标检测结果获取模块，其被配置为获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果；目标检测阈值计算模块，其被配置为基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值；目标检测结果确定模块，其被配置为基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

在一些实施例中，所述视频目标检测装置还包括：目标检测模块，其被配置为对当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

在一些实施例中，所述目标检测阈值计算模块包括：参考阈值获取模块，其被配置为获取参考检测阈值；阈值校正值计算模块，其被配置为对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的阈值校正值；目标检测阈值生成模块，其被配置为基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

根据本公开的另一方面，提供了一种基于人工智能的视频目标检测设备，其中所述视频目标检测设备包括处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述视频目标检测设备执行如前所述的方法。

在一些实施例中，所述视频目标检测设备还包括：图像采集装置，其被配置为采集视频；其中，所述视频目标检测设备还执行如下操作：对视频中的图像帧进行目标检测，并生成目标检测信息。

在一些实施例中，所述视频目标检测设备还包括检测结果输出单元，所述检测结果输出单元被配置为将所述目标检测结果输出。

根据本公开的另一方面，提供了一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行如上所述的方法。

利用本公开提供的基于人工智能的视频目标检测方法、视频目标检测装置、视频目标检测设备及介质，可以很好的完成对于视频图像中的目标检测过程，特别地，其通过动态调整检测阈值，可以具有较高的目标检测准确率，且算法具有良好的鲁棒性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本公开的主旨。

图1A示出了根据本公开实施例的目标检测的总体流程的示意图；

图1B示出了根据本公开实施例的基于人工智能的视频目标检测方法100的示例性流程图；

图1C中示例性地示出了根据本公开实施例基于所述至少一个历史图像帧的目标检测结果确定当前图像帧的目标检测阈值的过程110的示例性流程图；

图2示出了根据本公开实施例计算所述目标检测阈值过程200的示例性流程图；

图3示出了根据本公开实施例对于所述至少一个历史图像帧中的每一个历史图像帧确定与该历史图像帧对应的阈值校正值的过程300的示例性流程图；

图4示出了根据本公开实施例的基于该历史图像帧的目标检测结果确定该历史图像帧的阈值影响值的过程400的示例性流程图；

图5示出了根据本公开实施例的基于人工智能的视频目标检测装置500的示例性框图；

图6A示出了根据本公开实施例的基于人工智能的视频目标检测设备600的示意性框图；

图6B示出了根据本公开实施例的基于人工智能的视频目标检测设备700的示例性流程图；

图7示出了根据本公开实施例的内窥镜系统800的示例性框图；

图8A示出了在医疗检测领域中分别应用本公开实施例的内窥镜系统与固定检测阈值的内窥镜系统所得到的病灶检测结果对比图；

图8B示出了根据本公开实施例视频图像处于器械干扰情况的示意图；

图8C示出了根据本公开实施例视频图像处于图像模糊情况的示意图；

图9A示出了在医疗检测领域中分别应用本公开实施例的内窥镜系统与固定检测阈值的内窥镜系统所得到的病灶检测结果的另一个对比图；

图9B示出了医疗视频图像检测中病灶误判的示意图。

具体实施方式

下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本公开的部分实施例，而不是全部的实施例。基于本公开实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本公开保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图1A示出了根据本公开实施例的目标检测的总体流程的示意图。

参照图1A，在一次目标检测过程中，首先，将视频中的待检测图像输入至目标检测模型，经由所述目标检测模型对于该待检测图像进行处理。

例如，所述目标例如可以是预先确定的目标，例如医疗病灶检测中的病态组织形状；或者其也可以是用户基于实际需要设置的目标，例如设定具有特定颜色或形状的区域为检测目标。本公开的实施例不受所述目标的类型及其设定方式的限制。

其中，所述视频例如可以是通过摄像头或摄录装置实时捕获的视频，例如，其可以为由道路摄像头、无人超市的监控摄像头、医疗病灶检测设备(如结直肠、上消化道病灶定位筛查设备)等直接拍摄的视频；或者也可以是经过计算机预先处理后得到的视频。本公开实施例不受视频的来源及获取方式的限制。

该目标检测模型对所述待检测图像的处理过程例如可以更具体地描述。首先，所述待检测图像被输入至目标检测模型的输入层，其后，经由目标检测模型中多个卷积层及全连接层的处理，最终可以在该目标检测模型的输出端得到待检测图像所对应的目标检测信息。

其后，采用二分法，基于所得到的目标检测信息与目标检测阈值得到目标检测结果。例如可以将所述目标检测阈值与目标检测信息输入至目标检测筛选模块，通过比较目标检测信息与检测阈值的大小得到目标检测结果。例如当所述目标检测信息大于该检测阈值时，输出的目标检测结果表征检测到特定目标。

在一些实施例中，在经由目标检测模型对所述待检测图像进行处理后，在目标检测模型的输出端输出待检测图像所对应的目标检测信息的同时，还输出目标检测框。则此时，在目标检测筛选模块中，在所述目标检测信息大于该目标检测阈值的情况下，输出目标检测结果的同时还可以输出所得到的目标检测框。

其中，所述目标检测框例如为能够包括目标完整图像且具有最小面积的矩形框，或者其也可以为其他形状的检测框。本公开实施例不受所述目标检测框的具体形状的限制。

基于上述，可以实现对图像的目标检测过程，并得到相应的检测结果。

在将目标检测阈值设定为固定检测阈值的情况下，基于固定检测阈值实现目标检测及处理过程。然而，当采用固定检测阈值时，一方面，当目标在连续图像帧中多次出现时，由于存在镜头晃动、模糊或角度变化的情况，使得检测得到的目标检测信息不稳定，某些图像帧的目标检测信息可能低于检测阈值，从而遗漏该图像帧中的目标；另一方面，在视频图像拍摄过程中可能存在快速晃动或水流冲击等非常规状况，这将使得某些图像帧的目标检测信息高于该固定检测阈值，从而导致将非目标区域误判为目标。

基于上述，为了提高视频中连续图像帧之间目标检测结果的稳定性和精确度。根据本发明的实施例，将基于视频中历史图像帧的目标检测结果动态地调整当前图像帧的目标检测阈值。

具体而言，基于视频中位于待检测图像之前的至少一个历史图像的目标检测结果，经由动态阈值调整模型计算得到待检测图像的目标检测阈值。其中所述目标检测阈值旨在用于对待检测图像的目标检测信息进行处理，以确定该待检测图像的目标检测结果。

图1B示出了根据本公开实施例的基于人工智能的视频目标检测方法100的示例性流程图。

首先，在步骤S101中，获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果。

所述当前图像帧旨在表征视频图像中的当前帧，即为视频图像在当前时刻下要分析的图像帧，其例如可以是在当前时刻下实时捕获的图像帧。

所述至少一个历史图像帧旨在表征位于视频图像当前图像帧之前且与该当前图像帧连续的图像帧。其例如可以为视频图像当前图像帧的前一图像帧，或者其也可以为视频图像当前图像帧之前连续的多帧图像帧。所述历史图像帧的个数例如可以预先设定，或者也可以基于实际需要进行选取，例如选择视频图像当前图像帧之前连续5帧图像帧，或者选择视频图像当前图像帧之前连续8帧图像帧。本公开的实施例不受所述历史图像帧的具体数目及其选择方式的限制。

所述当前图像帧的目标检测信息旨在表征当前图像帧的视频图像经由目标检测模型处理后所得到的检测信息。所述检测信息例如可以为置信度信息，或者其也可以包括其他的信息，例如目标尺寸信息、目标颜色信息等。本公开的实施例不受所述目标检测信息的具体组成的限制。

所述目标检测结果旨在表征视频目标检测方法对于待检测图像进行目标检测之后，最终输出的检测结果数据。该目标检测结果例如指示是否检测到特定目标。其例如可以为数值的形式，或者其也可以为字符串或二进制编码的形式，本公开的实施例不受所述目标检测结果的具体内容及其组成形式的限制。

其后，在步骤S102中，基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值。

例如，可以直接基于所述至少一个历史图像帧的目标检测结果计算目标检测阈值，或者也可以将所述目标检测结果代入预设算法或公式计算得到当前图像帧的目标检测阈值。本公开的实施例不受所述目标检测阈值的计算方式的限制。

其中，所述目标检测阈值旨在用于对当前图像帧的目标检测信息进行处理，以确定视频图像当前图像帧的目标检测结果。所述目标检测阈值例如可以在0-1的范围内。本公开的实施例不受所述目标检测阈值的具体数值的限制。

得到所述目标检测阈值后，在步骤S103中，基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

上述得到目标检测结果的过程例如可以通过将所述目标检测阈值与所述目标检测信息进行比较，并基于比较结果确定目标检测结果；或者也可以通过其他方式基于该目标检测信息与目标检测阈值计算目标检测结果。本公开的实施例不受所述目标检测结果的生成方式的限制。

基于上述，通过基于至少一个历史图像帧的目标检测结果确定目标检测阈值，并基于目标检测阈值与当前图像帧的目标检测信息生成目标检测结果，使得对视频图像的当前图像帧，可以动态地调整该当前图像帧的目标检测阈值。因此，当视频图像中某一帧存在镜头晃动或图像模糊等异常时，基于该检测方法仍可以良好地实现目标检测结果的输出，减少目标漏检，提高所输出的检测结果的稳定性；此外，通过动态阈值调整，减少由于视频摄录设备的快速晃动或非常规抖动而导致将非目标区域误判为目标的情况，从而进一步提高目标检测的准确率。

其中，所述置信度信息用于指示图像帧中包括特定目标的概率。且所述置信度信息的数值越高，表征在该视频帧中检测到该特定目标的可能性越高。所述置信度信息例如处于0-1的数值范围内。

上述获取置信度信息的过程例如可以通过如图1A中所示出的目标检测模型实现。且其中，所述目标检测模型例如可以采用基于卷积神经网络特征的区域算法(R-CNN)、基于卷积神经网络特征的快速区域算法(Faster R-CNN)等二阶段(two-stage)目标检测算法，或者也可以采用一瞥目标检测算法(You Only Look Once,YOLO)、单镜头多盒检测器算法(Single Shot MultiBox Detector，SSD)等一阶段(one-stage)目标检测算法。本公开实施例不受所选取的目标检测模型的限制。

基于上述，通过对当前图像帧进行目标检测以得到置信度信息，并将其确定为当前图像帧的目标检测信息，实现了目标检测信息的获取，有利于在后续步骤中基于该目标检测信息得到最终的目标检测结果。

图1C中示例性地示出了根据本公开实施例基于所述至少一个历史图像帧的目标检测结果确定当前图像帧的目标检测阈值的过程110的示例性流程图。

参照图1C，首先，在步骤S111中，获取参考检测阈值。

所述参考检测阈值旨在提供用于视频图像的每一帧的基准检测阈值，其例如在0-1的数值范围内。所述参考检测阈值例如对于视频图像每一帧为相同数值，如对视频图像每一帧，其参考检测阈值均为0.5；或者其也可以对于视频图像的不同图像帧为不同数值，例如对于共包括30帧的视频图像，其中第12帧图像帧的参考检测阈值例如为0.3，第13帧图像帧的参考检测阈值例如为0.5。本公开的实施例不受视频图像中各图像帧所具有的参考检测阈值的具体数值及其关系的限制。

所述参考检测阈值例如可以是基于视频图像类别而预先分配的参考检测阈值，或者也可以是用户基于实际需要所选定的参考检测阈值。本公开的实施例不受所述参考检测阈值的设定方式的限制。

得到所述参考检测阈值后，在步骤S112中，对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的阈值校正值。

其中，所述历史图像帧的目标检测结果，旨在表征在该历史图像帧中是否检测到特定目标。所述目标检测结果例如可以为数值形式，例如当检测到特定目标存在时，目标检测结果为1，当未检测到特定目标存在时，目标检测结果为0。或者其也可以为其他形式，本公开的实施例不受所述目标检测结果的具体形式的限制。

所述阈值校正值旨在表征该历史图像帧对当前图像帧的参考检测阈值进行校正的数值。其可以为正数，或者其也可以为负数。其例如可以在-1至1的数值范围内取值。本公开的实施例不受所述阈值校正值的具体数值的限制。

所述阈值校正值例如可以基于该目标检测结果直接确定，例如设定目标检测结果与阈值校正值对照表，设置当目标检测结果为1(该图像帧中检测到特定目标)且该历史图像帧与当前图像帧的距离为5时，对应的阈值校正值为-0.2，当目标检测结果为0(该图像帧中未检测到特定目标)且该历史图像帧与当前图像帧的距离为3时，阈值校正值为0.5；或者所述阈值校正值也可以通过将该目标检测结果代入预设公式或算法进行计算而得到。本公开的实施例不受所述生成阈值校正值的方式的限制。

得到所述阈值校正值后，在步骤S113中，基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

所述目标检测阈值例如可以基于所述阈值校正值和所述参考检测阈值直接确定，例如将该历史图像帧的阈值校正值与所述参考检测阈值加权求和；或者所述目标检测阈值也可以通过将至少一个历史图像帧的阈值校正值与参考检测阈值代入预设公式或算法进行计算而得到。本公开的实施例不受所述生成目标检测阈值的方式的限制。

图2示出了根据本公开实施例计算所述目标检测阈值过程200的示例性流程图。

参照图2，在一些实施例中，当基于至少一个历史图像帧的阈值校正值与所述参考检测阈值来计算目标检测阈值时，首先，在步骤S201中，基于至少一个历史图像帧中每一个历史图像帧所对应的阈值校正值，计算得到所述至少一个历史图像帧所具有的总阈值校正值。

例如，可以将所述至少一个历史图像帧中每一个历史图像帧各自所具有的阈值校正值加权求和以得到所述总阈值校正值。其中，上述每一个历史图像帧的阈值校正值所对应的权重系数例如可以基于可以为预设的权重系数，或者其也可以由用户基于实际需要确定。本公开的实施例不受所述权重系数的设置方式及其数值内容的限制。

例如，当采用当前图像帧之前数目为τ₁的历史图像帧计算总阈值校正值，且通过将该历史图像帧的阈值校正值直接加和到的总阈值校正值时，所述总阈值校正值例如可以通过如下公式表示：

其中，D_A表征视频图像当前图像帧(第n帧)所具有的总阈值校正值，d_i表征该视频图像第i帧所对应的阈值校正值，τ₁表征参与计算的历史图像帧总数。且其中n为大于等于τ₁且小于等于视频图像的总帧数的正整数，τ₁为大于等于1且小于视频图像的总帧数的正整数。

基于上述公式，例如在总帧数为30帧的视频图像中，对于视频图像第15帧而言，若基于该帧之前连续3帧图像帧的阈值校正值计算其总阈值校正值，则该总阈值校正值为：D_A＝d₁₂+d₁₃+d₁₄。

得到所述总阈值校正值后，在步骤S202中，将所述总阈值校正值与所述参考检测阈值加权求和，得到所述目标检测阈值。

其中，所述总阈值校正值及所述参考检测阈值各自的权重系数例如可以为预设的权重系数，例如设置总阈值校正值的权重系数为0.6，参考检测阈值的权重系数为0.4；或者其也可以由用户基于实际需要确定。本公开的实施例不受所述权重系数的设置方式及其数值内容的限制。

例如，当设置将总阈值校正值与参考检测阈值直接加和得到目标检测阈值时，所述目标检测阈值可以通过如下公式表示：

A_T(n)＝A₀+D_A 2)

其中，A_T(n)表征视频图像当前图像帧(第n帧)所具有的目标检测阈值，A₀表征参考检测阈值，D_A表征视频图像当前图像帧所对应的总阈值校正值。

基于上述，基于历史图像帧的目标检测结果确定阈值校正值，并基于阈值校正值与参考检测阈值确定当前图像帧的目标检测阈值，从而实现对检测阈值的动态调整，同时通过基于历史图像帧的目标检测信息实时调整当前图像帧的目标检测阈值，可以有效地提高视频图像中连续图像帧之间的召回率，稳定目标检测的输出，减少由于非经常性晃动而出现的漏判、误判问题。

图3示出了根据本公开实施例对于所述至少一个历史图像帧中的每一个历史图像帧确定与该历史图像帧对应的阈值校正值的过程300的示例性流程图。

首先，在步骤S301中，基于该历史图像帧的目标检测结果，确定该历史图像帧的阈值影响值。

所述阈值影响值例如可以为正数，或者也可以为负数，且其数值可以基于实际情况进行选取。本公开的实施例不受所述阈值影响值的具体数值的限制。

在一些实施例中，所述阈值影响值例如可以基于所述目标检测结果直接计算得到，例如当目标检测结果为发现特定目标的情况下，设置该阈值影响值为1；当目标检测结果为未发现特定目标的情况下，设置该阈值影响值为-1。或者其可以基于该目标检测结果与历史图像帧的其他信息综合计算得出，例如基于目标检测结果与目标检测信息综合求取阈值影响值。本公开的实施例不受所述阈值影响值的计算方式的限制。

在一些实施例中，所述阈值影响值例如可以为基于目标检测结果所确定的冲激响应信号的信号值。其中，该冲激响应信号例如可以为单位脉冲信号，其也可以为其他类型的冲激响应信号或者多个冲激响应信号的组合所形成的综合响应信号，本公开不受所选取的所述冲激响应信号的具体类型及其幅度值的限制。

对于视频图像中的每一个图像帧，其阈值影响值例如可以为相同的信号值，或者也可以为不同的信号值，例如基于视频图像的不同图像帧所具有的目标检测信息的不同，可以为其分配不同类型的冲激响应信号或者调整其所对应的冲激响应信号的幅度值。本公开的实施例不受不同图像帧对应的冲激响应信号及其信号值的关系的限制。

得到阈值影响值后，在步骤S302中，确定该历史图像帧与当前图像帧的距离，并基于该距离确定该历史图像帧对当前图像帧的影响系数。

所述历史图像帧与当前图像帧的距离旨在表征该历史图像帧与当前图像帧所间隔的图像帧的数目。例如若当前图像帧为视频图像第26帧，则对于该视频图像第20帧历史图像帧而言，其与该当前图像帧的距离为6。

所述影响系数旨在表征该历史图像帧对当前图像帧的影响程度。其例如可以在0-1的数值范围内。且其中，当该历史图像帧与当前图像帧的距离越大，该历史图像帧对当前图像帧的影响系数越小。

基于所述距离确定历史图像帧对于当前图像帧的影响系数的过程可以更具体地描述。例如可以基于距离与影响系数对照表，对于每一个历史图像帧，基于计算得到的该历史图像帧的距离值，找到其对应的影响系数的数值，并将该影响系数的数值作为该历史图像帧的影响系数。

例如，对于视频图像第30帧，若对两个历史图像帧(视频图像第29帧、第28帧)分别计算其对当前图像帧的阈值校正值，则例如经由查询阈值影响值与影响系数的对照表可以得到：视频图像第29帧(与当前图像帧的距离为1)的影响系数为0.8，视频图像第28帧(与当前图像帧的距离为2)的影响系数为0.75。

在一些实施例中，所述影响系数例如可以基于衰减函数来确定，例如当基于指数衰减函数来确定影响系数时，则所述影响系数可以通过如下所述的公式确定：

其中，h_i表征该视频图像中第i帧对应于当前图像帧(第n帧)所具有的影响系数，其中n、i均为大于等于1且小于等于视频图像的总帧数的正整数，且其中n大于i。

应了解，本公开的实施例不限于此，也可以选择其他的衰减函数来计算影响系数，或者用户也可以基于实际需求自定义其他的响应函数。本公开的实施例不受所述影响系数的数值及其计算方式的限制。

计算得到阈值影响值和影响系数后，在步骤S303中，将该历史图像帧的阈值影响值和该历史图像帧对当前图像帧的影响系数相乘，得到该历史图像帧对当前图像帧的阈值校正值。所述阈值校正值例如可以通过如下所述的公式表示：

d_i＝x_i×h_i 4)

其中，d_i表征该视频图像中第i帧所对应的阈值校正值，x_i表征该视频图像中第i帧所对应的阈值影响值，h_i表征该视频图像中第i帧对当前图像帧的影响系数。

基于上述，通过历史图像帧的目标检测结果确定该历史图像帧的阈值影响值，并基于该历史图像帧与当前图像帧的距离确定该历史图像帧对当前图像帧的影响系数，最终将阈值影响值与影响系数相乘得到该历史图像帧的阈值校正值，有利于后续基于该阈值校正值计算目标检测阈值。此外，通过设置历史图像帧与当前图像帧的距离越大，其对当前图像帧的影响系数越小，使得在基于多个历史图像帧实现阈值调整的过程中，能够合理地配置各个历史图像帧对于当前图像帧的作用效果，从而使得相较于其他历史图像帧，距离当前图像帧较近的历史图像帧的阈值影响值能够更大程度地作用于当前图像帧的阈值调整中，从而有利于提高目标检测的精确度。

图4示出了根据本公开实施例的基于该历史图像帧的目标检测结果确定该历史图像帧的阈值影响值的过程400的示例性流程图。

参照图4，在一些实施例中，首先，在步骤S401中，获取该历史图像帧的目标检测信息。

所述目标检测信息例如可以为该历史图像帧的置信度信息，或者其也可以为该历史图像帧的图像尺寸或形状信息。本公开的实施例不限于所述目标检测信息的具体类别。

得到该历史图像帧的目标检测信息后，在步骤S402中，基于该历史图像帧的目标检测结果以及目标检测信息，确定该历史图像帧的阈值影响值。

基于目标检测结果及目标检测信息确定阈值影响值时，例如可以将目标检测结果及目标检测信息输入预设算法或公式中，经由算法或公式的计算得到阈值影响值；或者也可以基于其他方法计算阈值影响值。本公开的实施例不受基于目标检测结果及目标检测信息确定阈值影响值的具体方式的限制。

在一些实施例中，所述目标检测信息为置信度信息，则当目标检测结果指示检测到特定目标时，例如可以直接将该置信度信息的负数作为阈值影响值，其具体如下公式所示：

x_i＝-(Con_i) 5)

其中，x_i表征该视频图像第i帧所对应的阈值影响值，Con_i表征该视频图像第i帧所对应的置信度信息，且其在0-1的数值范围内。

当目标检测结果指示未检测到特定目标时，此时例如可以直接将该置信度信息作为阈值影响值，例如当其未检测到特定目标时，获取到其置信度数值为0.5，则设置其阈值影响值为0.5。

应了解，上述仅给出一种基于置信度信息计算阈值影响值的示例，本公开的实施例不限于此，例如还可以将置信度信息乘以预设比例系数的结果作为阈值影响值、将所述置信度信息与预设参数相加和的结果作为阈值影响值，或者也可以将所述置信度信息代入预设公式以计算其阈值影响值。

基于上述，通过基于历史图像帧的目标检测信息和目标检测结果共同确定该历史图像帧的阈值影响值，使得所述阈值影响值可以进一步反映历史图像帧的目标检测信息，在对当前图像帧阈值调整的过程中综合考虑到历史图像帧的目标检测结果和目标检测信息，可以进一步提高当前图像帧输出的目标检测结果的精确度。

在一些实施例中，在计算历史图像帧的阈值影响值的过程中，对于所述至少一个历史图像帧中的每个历史图像帧，在该历史图像帧的目标检测结果指示在该历史图像帧中检测到特定目标的情况下，该历史图像帧的阈值影响值为负值；在该历史图像帧的目标检测结果指示在该历史图像帧中没有检测到特定目标的情况下，该历史图像帧的阈值影响值为正值。

例如，当根据视频图像当前图像帧的前一历史图像帧所对应的阈值校正值来计算当前图像帧的目标检测阈值时，若当前图像帧所对应的参考检测阈值为0.5，且例如设置若所述前一历史图像帧的目标检测结果指示在该历史图像帧中检测到特定目标，则设定其所对应的阈值影响值为-0.2；若该历史图像帧的目标检测结果指示在该历史图像帧中没有检测到特定目标的情况下，该历史图像帧的阈值影响值为0.2。

基于上述规则，若当前图像帧为视频图像第25帧，且视频图像第24帧的目标检测结果为发现特定目标，则当前图像帧的目标检测阈值为A_T(25)＝0.5-0.2＝0.3，此时目标检测阈值较小，使得在当前图像帧中基于目标检测模型检测得到的目标检测框更易被识别为特定目标，因而在该当前图像帧中，即使由于视频模糊或角度变化而导致置信度信息较低时，也能够良好地实现目标检测。

若视频图像第24帧的目标检测结果为未发现特定目标，则当前图像帧目标检测阈值为A_T(25)＝0.5+0.2＝0.7，所得到的目标检测阈值较大，使得在当前图像帧中基于目标检测模型检测得到的目标检测框更难被识别为特定目标，从而可以有效地避免因为干扰而导致的目标误判。

基于上述，根据历史图像帧中是否检测到特定目标来确定该历史图像帧的阈值影响值的正负，使得当目标在连续图像帧中多次出现时，即使存在镜头晃动、模糊或角度变化的情况而使得置信度信息不稳定或变低的情况下，仍可以良好地实现目标检测结果的输出，提高了连续图像帧输出的检测结果的稳定性。此外，当某一视频检测帧未发现目标时，通过相应地增加其后图像帧的目标检测阈值，也可以有效避免由于镜头快速晃动等非常规操作使得相应图像帧的置信度信息较高时，将非目标区域误判为目标的情况。

在一些实施例中，根据实际需要或者用户的设置，可以基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的多个阈值校正值；且其中，确定所述目标检测阈值包括：基于所述至少一个历史图像帧中每一个历史图像帧的多个阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

例如，在医疗病灶检测中，当目标病灶的形态较为复杂时，需要综合考虑多种信息实现对目标病灶的检测定位。则此时对每一个历史图像帧，例如将历史图像帧对应于第一冲激响应信号的第一信号值作为阈值影响值求取其第一阈值校正值，且将其对应于第二冲激响应信号的第二信号值作为阈值影响值求取其第二阈值校正值，并可以综合所述第一、第二阈值校正值实现对于参考检测阈值的调整。其中第一、第二冲激响应信号例如为不同类型的冲激响应信号。

所述多个阈值校正值中的每一个阈值校正值的计算可以采用如前所述的方法，其例如可以基于所述目标检测结果直接计算得到，或者其可以基于该目标检测结果与历史图像帧的其他信息综合计算得出。本公开的实施例不受所述阈值校正值的计算方式的限制。

对同一个历史图像帧而言，其所对应的多个阈值校正值的数值例如可以相同，或者其也可以不同。本公开的实施例不受所述多个阈值校正值的数值关系的限制。

例如，可以基于所述多个阈值校正值与所述参考检测阈值直接计算得到目标检测阈值，例如将其加权求和得到目标检测阈值，或者也可以将所得到的多个阈值校正值与参考检测阈值代入预设公式或算法，经由进一步处理得到目标检测阈值。本公开的实施例不受所述目标检测阈值的计算方式的限制。

当通过将所述多个阈值校正值与所述参考检测阈值直接加和求取所述目标检测阈值时，该目标检测阈值例如可以通过如下所述的公式表示：

其中，A_T(n)表征视频图像当前图像帧(第n帧)所具有的目标检测阈值，D_{A_k}表征当前图像帧的第k个阈值总校正值，其中K为当前图像帧需计算的阈值校正值的数目。

且其中，对每一个阈值总校正值，其计算公式例如可以表示为：

其中，D_{A_k}表征当前图像帧的第k个阈值总校正值，d_mk表征第m帧历史图像帧所对应的第k个阈值校正值，τ_k表征参与计算该阈值校正值的历史图像帧总数，n为视频图像当前图像帧的帧数。

基于上述，通过对于每一个历史图像帧计算其所对应的多个阈值校正值，使得能够基于该历史图像帧中的多个不同方面的信息实现对于当前图像帧的目标检测阈值的计算，从而提高目标检测结果的准确度。

所述目标检测信息例如可以为置信度信息。例如，若当前图像帧的目标检测阈值为0.4，则若基于目标检测模型得到的置信度信息为0.5，则此时输出的目标检测结果指示在当前图像帧中检测到特定目标。若基于目标检测模型得到的置信度信息为0.2，则此时输出的目标检测结果指示在当前图像帧中未检测到特定目标。

基于上述，通过将所得到的目标检测阈值和当前图像帧的目标检测信息相比较，并基于比较结果确定当前图像帧的目标检测结果，使得可以基于动态调整的检测阈值确定当前图像帧的目标检测结果，从而提高目标检测结果的精确度，降低漏检和误判的情况。

所述内窥镜采集的视频旨在表征通过内窥镜头采集得到的视频，其例如为在医疗检测或病灶筛查中经由内窥镜采集的医疗视频，例如上消化道病灶定位筛查视频等。本公开的实施例不受所述内窥镜采集得到的视频的具体内容的限制。

所述病灶旨在所述内窥镜采集的视频中的待检测目标。其例如为病变的组织、结构或异常器官形态等。本公开的实施例不受所述病灶的具体形态及其位置的限制。

基于上述，在医疗视频检测中，对于内窥镜检测得到的视频，通过基于至少一个历史图像帧的病灶检测结果确定当前帧的病灶检测阈值，并基于当前帧的病灶检测阈值与当前图像帧的病灶检测信息生成病灶检测结果，使得对视频图像的当前图像帧，可以动态地调整该当前图像帧的病灶检测阈值。因此，当内窥镜采集的视频中某一帧存在镜头晃动或图像模糊等异常时，基于该检测方法仍可以良好地实现病灶检测结果的输出，减少病灶漏检，提高所输出的病灶检测结果的稳定性；此外，通过动态阈值调整，减少由于内窥镜的快速晃动或非常规抖动而导致将非病灶误判为病灶的情况，从而进一步提高医疗病灶检测的准确率。

图5示出了根据本公开实施例的基于人工智能的目标检测装置500的示例性框图。

如图5所示的目标检测装置500包括目标检测结果获取模块510、目标检测阈值计算模块520、目标检测结果确定模块530。

其中，目标检测结果获取模块510配置为获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果。

所述当前图像帧旨在表征视频图像的当前帧，即为视频图像在当前时刻下要分析的图像帧，其例如可以是在当前时刻下实时捕获的图像帧。

所述至少一个历史图像帧旨在表征位于视频图像当前图像帧之前且与该当前图像帧连续的图像帧。其例如可以为视频图像当前图像帧的前一图像帧，或者其也可以为视频图像当前图像帧之前连续的多帧图像帧。本公开的实施例不受所述历史图像帧的具体数目及其选择方式的限制。

所述目标检测阈值计算模块520被配置为基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值。

且其中，所述目标检测阈值旨在用于对当前图像帧的目标检测信息进行处理，以确定视频图像当前图像帧的目标检测结果。所述目标检测阈值例如可以在0-1的范围内。本公开的实施例不受所述目标检测阈值的具体数值的限制。

所述目标检测结果确定模块530被配置为基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

在一些实施例中，目标检测装置还包括目标检测模块540，其被配置为对当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

其中，所述置信度信息旨在表征目标检测模型对待检测图像检测所得到的目标检测框包括实际目标的概率。且所述置信度信息的数值越高，表征当前目标检测模型检测所得到的目标检测框包括实际目标的可能性越高。所述置信度信息例如可以处于0-1的数值范围内。

上述获取置信度信息的过程例如可以通过如图1A中所示出的目标检测模型实现。且本公开实施例不受所选取的目标检测模型的限制。

在一些实施例中，所述目标检测阈值计算模块520包括参考阈值获取模块521、阈值校正值计算模块522和目标检测阈值生成模块523。其可以执行如图1C所示的流程，基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值。

其中，所述参考阈值获取模块521被配置为获取参考检测阈值。其可以执行图1C中步骤S111的操作。

所述阈值校正值计算模块522被配置为对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的阈值校正值。其可以执行图1C中步骤S112的操作。

其中，所述历史图像帧的目标检测结果，旨在表征在该历史图像帧中是否检测到特定目标。所述目标检测结果例如可以为数值形式，或者其也可以为其他形式，本公开的实施例不受所述目标检测结果的具体形式的限制。

所述阈值校正值例如可以基于该目标检测结果直接确定，或者所述阈值校正值也可以通过将该目标检测结果代入预设公式或算法进行计算而得到。本公开的实施例不受所述生成阈值校正值的方式的限制。

所述目标检测阈值生成模块523被配置为基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。其可以执行图1C中步骤S113的操作。

所述目标检测阈值例如可以基于所述阈值校正值和所述参考检测阈值直接确定，或者所述目标检测阈值也可以通过将至少一个历史图像帧的阈值校正值与参考检测阈值代入预设公式或算法进行计算而得到。本公开的实施例不受所述生成目标检测阈值的方式的限制。

在一些实施例中，所述阈值校正值计算模块522包括阈值影响值确定模块5221、影响系数确定模块5222和阈值校正值生成模块5223。

其中，所述阈值影响值确定模块5221被配置为基于该历史图像帧的目标检测结果，确定该历史图像帧的阈值影响值。其可以执行图3中步骤S301的操作。

所述阈值影响值例如可以基于所述目标检测结果直接计算得到，或者其可以基于该目标检测结果与历史图像帧的其他信息综合计算得出，本公开的实施例不受所述阈值影响值的计算方式的限制。

且对于视频图像中的每一个图像帧，其阈值影响值例如可以为相同的信号值，或者也可以为不同的信号值。本公开的实施例不受不同图像帧对应的冲激响应信号及其信号值的关系的限制。

所述影响系数确定模块5222被配置为确定该历史图像帧与当前图像帧的距离，并基于该距离确定该历史图像帧对当前图像帧的影响系数。其可以执行图3中步骤S302的操作。

所述历史图像帧与当前图像帧的距离旨在表征该历史图像帧与当前图像帧所间隔的图像帧的数目。且所述影响系数旨在表征该历史图像帧对当前图像帧的影响程度。其例如可以在0-1的数值范围内。其中，当该历史图像帧与当前图像帧的距离越大，该历史图像帧对当前图像帧的影响系数越小。

在一些实施例中，所述影响系数例如可以基于衰减函数来确定，然而，应了解，本公开的实施例不限于此，也可以选择其他的衰减函数来计算影响系数，或者用户也可以基于实际需求自定义其他的响应函数。本公开的实施例不受所述影响系数的数值及其计算方式的限制。

所述阈值校正值生成模块5223被配置为将该历史图像帧的阈值影响值和该历史图像帧对当前图像帧的影响系数相乘，得到该历史图像帧对当前图像帧的阈值校正值。其可以执行图3中步骤S303的操作。

基于上述，根据历史图像帧中是否检测到特定目标来确定该历史图像帧的阈值影响值的正负，使得当目标在连续图像帧中多次出现时，即使存在镜头晃动、模糊或角度变化的情况而使得置信度信息不稳定或变低的情况下，仍可以良好地实现目标检测结果的输出，提高了连续图像帧输出的检测结果的稳定性。此外，当某一视频检测帧未发现目标时，通过相应地增加其后图像帧的目标检测阈值，使得可以有效避免由于镜头快速晃动抖动或冲水等非常规操作使得相应图像帧的置信度信息较高时，将非目标区域误判为目标的情况。

在一些实施例中，所述目标检测结果确定模块530被配置为将所述目标检测信息与所述目标检测阈值相比较；且在所述目标检测信息大于所述目标检测阈值的情况下，则输出的目标检测结果指示在当前图像帧中检测到特定目标。

在一些实施例中，所述目标检测装置能够执行如前所述的方法，具有如前所述的功能。

图6A示出了根据本公开实施例的基于人工智能的视频目标检测设备600的示意性框图。

如图6A所示的视频目标检测设备600可以实现为一个或多个专用或通用的计算机系统模块或部件，例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance，PDA)及任何智能便携设备。其中，视频目标检测设备600可以包括至少一个处理器610及存储器620。

其中，所述至少一个处理器用于执行程序指令。所述存储器620在视频目标检测设备600中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行目标检测过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。虽然未在图中示出，但视频目标检测设备600还可以包括一个输入/输出组件，支持视频目标检测设备600与其他组件(如图像采集设备980)之间的输入/输出数据流。视频目标检测设备600也可以通过通信端口从网络发送和接收信息及数据。

在一些实施例中，所述存储器620所存储的一组指令在由所述处理器610执行时，使所述视频目标检测设备600执行操作，所述操作包括：获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果；基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值；基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

在一些实施例中，所述操作还包括：对所述当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

在一些实施例中，基于所述至少一个历史图像帧的目标检测结果确定当前图像帧的目标检测阈值时，所述视频目标检测设备600执行的操作包括：获取参考检测阈值；对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的阈值校正值；基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

在一些实施例中，对于所述至少一个历史图像帧中的每一个历史图像帧，确定与该历史图像帧对应的阈值校正值时，所述视频目标检测设备600执行的操作包括：基于该历史图像帧的目标检测结果，确定该历史图像帧的阈值影响值；确定该历史图像帧与当前图像帧的距离，并基于该距离确定该历史图像帧对当前图像帧的影响系数，其中，该历史图像帧与当前图像帧的距离越大，该历史图像帧对当前图像帧的影响系数越小；将该历史图像帧的阈值影响值和该历史图像帧对当前图像帧的影响系数相乘，得到该历史图像帧对当前图像帧的阈值校正值。

在一些实施例中，视频目标检测设备600可以接收来自该视频目标检测设备600外部的图像采集设备所采集的视频图像，并对接收的图像数据执行上文描述的视频目标检测方法、实现上文描述的目标检测装置的功能。

所述图像采集设备可以例如为道路摄像头或医疗检测中的病灶检测或医疗诊断设备，或者其也可以为包括图像采集器、图像处理装置的综合图像采集设备。本公开的实施例不受所述图像采集设备具体组成的限制。

尽管在图6A中，处理器610、存储器620呈现为单独的模块，本领域技术人员可以理解，上述设备模块可以被实现为单独的硬件设备，也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理，不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。

根据本公开的另一方面，提供了另一种视频目标检测设备700。图6B示出了根据本公开实施例的基于人工智能的视频目标检测设备700的示例性流程图。

参照图6B，所述视频目标检测设备700包括图像采集装置710、处理器720、存储器730。

其中，所述图像采集装置710被配置为采集视频图像。所述图像采集装置例如可以进一步包括图像采集器、图像处理装置等。本公开的实施例不受所述图像采集装置具体组成的限制。

其中，所述图像采集器用于采集场景中的视频图像，其例如可以为摄像头组件，其可包括摄像头、护照、安装杆、视频线等；在医疗诊断领域，其也可为内窥镜组件相关医疗诊断成像装置。

所述图像处理装置旨在对于所得到的视频图像进行处理，例如对所采集的视频图像去噪，或者也可以对采集的图像进行裁剪或伸缩变换等。

所述处理器用于执行程序指令，其例如可以为一个或多个专用或通用的计算机处理系统模块或部件，例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance，PDA)及任何智能便携设备。

所述存储器包含一组指令，其在视频目标检测设备中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行语句补全及应答语句生成的过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。

其中，所述一组指令在由所述处理器执行时使所述视频目标检测设备执行操作，所述操作包括：获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果；基于所述至少一个历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值；基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

在一些实施例中，所述操作包括：对所述当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

在一些实施例中，所述视频目标检测设备700还包括检测结果输出单元740，所述检测结果输出单元740被配置为将所述检测结果输出。

所述检测结果输出单元例如可以为图像输出装置，将所述目标检测结果及经由目标检测模型检测得到的目标检测框的图像输出，或者其也可以为其他输入/输出组件，将所述目标检测结果以文本的形式输出，其可以支持视频目标检测设备与其他组件(如屏幕显示装置等)的数据传输。

基于上述，通过设置视频目标检测设备，采集预设场景内的视频图像，并基于所述历史图像帧的目标检测结果，确定当前图像帧的目标检测阈值，基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果并将该目标检测结果输出。使得所述视频目标检测设备能够提高连续图像帧下输出的目标检测结果的稳定性，提高视频图像连续帧的召回率；同时减少由于视频采集装置的快速晃动或非常规抖动而导致将非目标区域误判为目标的情况，从而进一步提高目标检测的准确率。

图7示出了根据本公开实施例的内窥镜系统800的示例性框图。

参照图7，根据本公开的另一方面，提出了一种内窥镜系统800，所述内窥镜系统800包括内窥镜头810和图像分析设备820。

所述内窥镜头810被配置为采集视频，其例如用于采集医疗视频，例如结直肠内部视频、上消化道检测视频等。本公开的实施例不受所述内窥镜头所采集的具体视频内容的限制。

所述内窥镜头例如可以独立实现视频图像采集，或者其也可以与其他视频采集装置集成以实现视频图像的采集。本公开的实施例不受所述内窥镜头实现视频图像采集的具体方式的限制。

所述图像分析设备820被配置为对所述视频的图像帧进行病灶检测以生成病灶检测结果。其例如可以进一步地包括处理器821和存储器822，所述存储器822包含一组指令。

所述处理器821用于执行程序指令，其例如可以为一个或多个专用或通用的计算机处理系统模块或部件，例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personal digital assistance，PDA)及任何智能便携设备。

所述存储器822包含一组指令，其在内窥镜系统中可以以不同形式的程序储存单元以及数据储存单元存在，例如硬盘、只读存储器(ROM)、随机存取存储器(RAM)，其能够用于存储处理器处理和/或执行视频病灶检测的过程中使用的各种数据文件，以及处理器所执行的可能的程序指令。

其中，所述一组指令在由所述处理器执行时使所述内窥镜系统执行操作，所述操作包括：获取内窥镜头所采集的视频中当前图像帧的病灶检测信息以及该视频中至少一个历史图像帧的病灶检测结果；基于所述至少一个历史图像帧的病灶检测结果，确定当前图像帧的病灶检测阈值；基于所述当前图像帧的病灶检测信息和所述当前图像帧的病灶检测阈值，确定当前图像帧的病灶检测结果。

所述病灶旨在所述内窥镜头采集的视频中的待检测目标。其例如为病变的组织、结构或异常器官形态等。本公开的实施例不受所述病灶的具体形态及其位置的限制。

基于上述，根据本公开实施例的内窥镜系统，通过内窥镜头采集视频图像，对于内窥镜检测得到的视频，通过基于至少一个历史图像帧的病灶检测结果确定当前帧的病灶检测阈值，并基于当前帧的病灶检测阈值与当前图像帧的病灶检测信息生成病灶检测结果，使得对视频图像的当前图像帧，可以动态地调整该当前图像帧的病灶检测阈值。因此，当内窥镜头采集的视频中某一帧存在镜头晃动或图像模糊等异常时，基于该内窥镜系统仍可以良好地实现病灶检测结果的输出，减少病灶漏检，提高所输出的病灶检测结果的稳定性；此外，通过动态阈值调整，减少由于内窥镜头的快速晃动或非常规抖动而导致将非病灶误判为病灶的情况，从而进一步提高医疗病灶检测的准确率。

在一些实施例中，所述内窥镜系统还包括检测结果输出单元840，其被配置为输出病灶检测结果。

所述检测结果输出单元840例如可以为输入/输出组件，将所述病灶检测结果以文本或图像的形式输出，其可以支持内窥镜系统与其他组件(如屏幕显示装置等)的数据传输。

基于上述，通过设置检测结果输出单元，使得可以将所述内窥镜系统检测得到的病灶检测结果实时地对外输出，有利于基于所述检测结果执行后续的医疗步骤或动作。

在一些实施例中，所述内窥镜系统例如可以执行如前所述的视频目标检测方法，并具有如前所述的视频目标检测装置的功能。

图8A示出了在医疗检测领域中分别应用本公开实施例的内窥镜系统与固定检测阈值的内窥镜系统所得到的病灶检测结果对比图。

参照图8A，其中横轴表征视频图像的帧数，纵轴表征视频图像的经由目标检测模型所得到的病灶检测信息，此处的病灶检测信息为置信度信息。图8A中的水平线为固定检测阈值内窥镜系统中所采用的固定检测阈值数据，所述固定检测阈值的数值为0.25。图中的虚线为采用本申请所述的内窥镜系统中的动态检测阈值。

若固定检测阈值的内窥镜系统及本申请所述的内窥镜系统均采用当置信度信息大于检测阈值时输出检测到特定病灶的检测结果。则基于图8A可以看到，采用固定检测阈值的内窥镜系统时，在图像帧第9600-10000帧中，大部分图像帧的置信度信息均小于固定检测阈值，则对于其中大部分图像帧，其病灶检测后的输出结果将指示未检测到特定病灶；而采用本申请的内窥镜系统时，在图像帧第9600-10000帧时，由于其基于历史图像帧的检测结果对于当前图像帧的病灶检测阈值进行调整，因此对于其中大部分图像帧，其病灶检测后得到的置信度信息均大于其所具有的病灶检测阈值，因此其病灶检测后的病灶输出结果将指示检测到特定病灶。

特别地，在图8A中采用圆圈标注的图像帧区域内示出了采用本申请的内窥镜系统能够多召回的图像帧，即在该些图像帧中，本申请所述内窥镜系统的病灶检测结果为检测到存在特定病灶，而固定检测阈值的内窥镜系统的病灶检测结果为未能检测到特定病灶。

可以看到，在当前图像帧第9000-10000帧中，原先采用固定检测阈值的内窥镜系统的召回率约在60％左右，而采用本申请所述内窥镜系统后，召回率几乎为100％，其提升幅度为30％以上。

图8B和图8C示出了医疗视频图像检测中的样例图。其中图8B示出了根据本公开实施例视频图像处于器械干扰情况的示意图，图8C示出了根据本公开实施例视频图像处于图像模糊情况的示意图。其中采用黑色方框标注出了易被遗漏检测的病灶。

在采用固定检测阈值的内窥镜系统中，图8B、8C中的病灶均被漏检，该内窥镜系统的病灶检测输出为未检测到特定病灶，而采用本申请所述的内窥镜系统时，均能够正常检测到病灶并将其输出。

基于上述可知，经由本申请所述的内窥镜系统，通过基于历史图像帧的病灶检测结果和当前图像帧的病灶检测信息动态地调整当前图像帧的病灶检测阈值，使得当病灶在连续图像帧中多次出现时，当出现由于镜头晃动、模糊或角度变化的情况而使得检测得到的置信度信息不稳定或某些图像帧的置信度偏低的情况，其仍能够良好地识别并输出该图像帧中的病灶。提高了连续图像帧的召回率并有利于保持所输出的病灶检测结果的稳定性。

图9A示出了在医疗检测领域中分别应用本公开实施例的内窥镜系统与固定检测阈值的内窥镜系统所得到的病灶检测结果的另一个对比图。

参照图9A，其中横轴表征视频图像的帧数，纵轴表征视频图像的经由目标检测模型所得到的病灶检测信息，此处的病灶检测信息为置信度信息。图9A中的水平线为固定检测阈值内窥镜系统中所采用的固定检测阈值数据，所述固定检测阈值的数值为0.25。图中的虚线为采用本申请所述的内窥镜系统中的动态检测阈值。

若固定检测阈值的内窥镜系统及本申请所述的内窥镜系统均采用当置信度信息大于检测阈值时输出检测到特定病灶的检测结果。则基于图9A可以看到，在视频图像第4000-4400帧中，其输出的置信度信息普遍小于固定检测阈值，但在第4200帧和第4400帧附近置信度信息出现突变，形成尖峰状噪点。

此时，当采用固定检测阈值的内窥镜系统时，第4200帧和第4400帧的置信度信息将大于固定检测阈值，则其病灶输出结果将指示检测到特定病灶；而采用本申请的内窥镜系统时，在视频图像第4200帧和第4400帧处，由于其基于历史图像帧的检测结果对于当前图像帧的病灶检测阈值进行调整，增大了该图像帧的病灶检测阈值，因此第4200帧和第4400帧的图像经由病灶检测后得到的置信度信息仍小于其所具有的病灶检测阈值，因此其病灶检测后的病灶输出结果仍将指示未检测到特定病灶。

图9B示出了医疗视频图像检测中病灶误判的示意图。其中采用黑色方框标注出了易被错误识别为病灶的图像区域。其为在医疗检测过程中由于内窥镜快速晃动而出现的粪便。

在采用固定检测阈值的内窥镜系统中，图9B中的黑色方框所标注的区域将被错误地识别为病灶，且该内窥镜系统的病灶检测输出结果为检测到特定病灶。而采用本申请所述的内窥镜系统时，将能够避免将所述标注区域识别为病灶，并输出未检测到特定病灶的检测输出结果。

基于上述可知，在视频图像中，当基于摄像头快速晃动或水流冲击等非常规情况使得某些图像帧的置信度信息畸高时，经由本申请所述的内窥镜系统，通过基于历史图像帧的病灶检测结果和当前图像帧的病灶检测信息动态地调整当前图像帧的病灶检测阈值，从而能够有效地避免将非病灶误判为病灶。

根据本公开的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种视频目标检测方法，包括：

获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果，所述目标检测结果指示是否检测到目标；

获取参考检测阈值；

对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果及该历史图像帧与当前图像帧的距离，确定与该历史图像帧对应的阈值校正值；

基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值；

基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

2.如权利要求1所述的视频目标检测方法，还包括：

对所述当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

3.如权利要求1所述的视频目标检测方法，其中，对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果及该历史图像帧与当前图像帧的距离，确定与该历史图像帧对应的阈值校正值包括：

基于该历史图像帧的目标检测结果，确定该历史图像帧的阈值影响值；

确定该历史图像帧与当前图像帧的距离，并基于该距离确定该历史图像帧对当前图像帧的影响系数，其中，该历史图像帧与当前图像帧的距离越大，该历史图像帧对当前图像帧的影响系数越小；

将该历史图像帧的阈值影响值和该历史图像帧对当前图像帧的影响系数相乘，得到该历史图像帧对当前图像帧的阈值校正值。

4.如权利要求3所述的视频目标检测方法，其中，基于该历史图像帧的目标检测结果确定该历史图像帧的阈值影响值包括：

获取该历史图像帧的目标检测信息；

基于该历史图像帧的目标检测结果以及目标检测信息，确定该历史图像帧的阈值影响值。

5.如权利要求3或4所述的视频目标检测方法，其中，对于所述至少一个历史图像帧中的每个历史图像帧，

在该历史图像帧的目标检测结果指示在该历史图像帧中检测到特定目标的情况下，该历史图像帧的阈值影响值为负值；

在该历史图像帧的目标检测结果指示在该历史图像帧中没有检测到特定目标的情况下，该历史图像帧的阈值影响值为正值。

6.如权利要求1所述的视频目标检测方法，其中，基于该历史图像帧的目标检测结果，确定与该历史图像帧对应的多个阈值校正值；

且其中，确定所述目标检测阈值包括：

基于所述至少一个历史图像帧中每一个历史图像帧的多个阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值。

7.如权利要求1所述的视频目标检测方法，基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值确定当前图像帧的目标检测结果包括：

将所述目标检测信息与所述目标检测阈值相比较；

在所述目标检测信息大于所述目标检测阈值的情况下，输出的目标检测结果指示在当前图像帧中检测到特定目标。

8.如权利要求1所述的视频目标检测方法，其中，所述视频为内窥镜采集的视频；并且，所述视频目标检测方法包括：

获取内窥镜采集的视频中当前图像帧的病灶检测信息以及该视频中至少一个历史图像帧的病灶检测结果；

基于所述至少一个历史图像帧的病灶检测结果，确定当前图像帧的病灶检测阈值；

基于所述当前图像帧的病灶检测信息和所述当前图像帧的病灶检测阈值，确定当前图像帧的病灶检测结果。

9.一种视频目标检测装置，包括：

目标检测结果获取模块，其被配置为获取视频中当前图像帧的目标检测信息以及该视频中至少一个历史图像帧的目标检测结果，所述目标检测结果指示是否检测到目标；

参考阈值获取模块，其被配置为获取参考检测阈值；

阈值校正值计算模块，其被配置为对于所述至少一个历史图像帧中的每一个历史图像帧，基于该历史图像帧的目标检测结果及该历史图像帧与当前图像帧的距离，确定与该历史图像帧对应的阈值校正值；

目标检测阈值生成模块，其被配置为基于所述至少一个历史图像帧的阈值校正值与所述参考检测阈值，确定所述当前图像帧的目标检测阈值；

目标检测结果确定模块，其被配置为基于所述当前图像帧的目标检测信息和所述当前图像帧的目标检测阈值，确定当前图像帧的目标检测结果。

10.如权利要求9所述的视频目标检测装置，其中还包括：

目标检测模块，其被配置为对当前图像帧进行目标检测，产生目标检测的置信度信息，并将所述置信度信息作为所述当前图像帧的目标检测信息。

11.一种视频目标检测设备，其中所述视频目标检测设备包括处理器和存储器，所述存储器包含一组指令，所述一组指令在由所述处理器执行时使所述视频目标检测设备执行如权利要求1-8中任一项所述的方法。

12.如权利要求11所述的视频目标检测设备，还包括：

图像采集装置，其被配置为采集视频；

其中，所述视频目标检测设备还执行如下操作：

对视频中的图像帧进行目标检测，并生成目标检测信息。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机可读的指令，当利用计算机执行所述指令时执行上述权利要求1-8中任一项所述的方法。