CN115104130A

CN115104130A - 背景图像分析的系统及方法

Info

Publication number: CN115104130A
Application number: CN202180012151.7A
Authority: CN
Inventors: A·凯鲁比尼; N·吴丁
Original assignee: Kosmer Ai Co ltd
Current assignee: Kosmer Ai Co ltd
Priority date: 2020-02-03
Filing date: 2021-01-29
Publication date: 2022-09-23
Also published as: CA3150926A1; JP2023511810A; BR112022015217A2; IL290761A; EP4100875A1; KR20220136338A; AR121227A1; US20230050833A1; AU2021216168A1; WO2021156159A1; TW202135092A; MX2022004757A

Abstract

在一个实施方式中，提供了一种用于实时视频处理的计算机实现系统。所述系统包括至少一个存储指令的存储器以及至少一个执行指令进行操作的处理器。所述至少一个处理器可接收医学图像系统所生成的实时视频(包括多个图像帧)，并获取表明用户与医学图像系统交互状态的背景信息。所述至少一个处理器还可进行目标检测，检测多个图像帧中的至少一个目标，并进行分类，生成多个图像帧中至少一个目标的分类信息。此外，所述至少一个处理器还可进行视频操作，基于目标检测和分类中的至少一种操作来修改接收到的实时视频。此外，所述处理器可根据背景信息调用目标检测、分类和视频操作中的至少一种操作。

Description

背景图像分析的系统及方法

相关专利申请的交叉引用

本申请要求2020年2月3日提交的第62/969,643号美国临时申请的优先权，所述第62/969,643号美国临时申请的的全部内容通过本发明的引用，成为本发明的一部分。

技术领域

本发明通常涉及背景图像分析的计算机实现系统和方法。更具体地说，本发明涉及(但不限于)用于处理实时视频并根据背景信息进行图像处理操作的计算机实现系统和方法。本发明所公开的系统和方法可用于各种应用和视觉系统，如医学图像分析及系统，它们均受益于精确的图像处理能力。

背景技术

在图像分析系统中，通常需要检测图像中的关注目标。关注目标可以是一个人、一个地点或一个物品。在医学图像分析和诊断等一些应用中，检测目标(例如，人体组织形成等异常)的位置和分类也很重要。但是，现有计算机实现系统和方法存在许多缺点，包括无法准确检测目标和/或提供检测目标的位置或分类。此外，现有系统和方法可能不加选择地进行不必要的图像处理操作，和/或不考虑图像设备的实时情景或使用，因此效率低下。在本发明中，“实时”是指立即发生或处理。

一些现有医学成像系统以单检测器网络为基础。在进行检测后，所述网络只是简单地向医生或其他医疗保健专业人员输出检测结果。但是，此类检测可能呈假阳性，如内窥镜检查中的非息肉等。此类系统不提供用于区分假阳性和真阳性的单独网络。

此外，基于神经网络的目标检测器通常向检测器传送由神经网络识别的特征，还可包括第二神经网络。但是，此类网络通常并不准确，因为由广义网络进行特征检测，其中仅检测器部分是专用的。

用于实时应用的现有医学成像系统还存在其他缺点。例如，此类系统通常适合在不考虑使用情景或医生或其他用户与医学图像设备(生成待处理视频帧)之间实时交互状态的情况下进行操作。

此外，用于实时应用的现有医学成像系统并不使用从医生或其他用户与医学图像设备之间的交互中获取的背景信息来沿着时间维度聚合目标检测器所识别的目标。

此外，用于实时应用的现有医学成像系统并不使用从用户与医学图像设备之间的交互中获取的背景信息来激活或停用能够执行特定任务(如目标检测、检测目标分类、目标特性输出或为确保用户利益而修改医用显示器上的信息可视化方式)的特定神经网络。

鉴于上述情况，发明人确定，需要改进图像分析(包括医学图像分析和诊断)系统和方法。还需要改进医学成像系统，从而准确、有效地检测目标并提供分类信息。此外，还需要提供可根据背景信息进行实时图像处理操作的图像分析系统和方法。

发明内容

鉴于上述情况，本发明的实施例提供了用于处理来自图像设备(如医学图像系统)的实时视频的计算机实现系统和方法。所公开的系统和方法可进行图像处理操作，如目标检测和分类。所公开的系统和方法还可使用背景信息确定用户与图像设备的交互状态，并根据所确定的交互状态使用一个或多个神经网络(经训练可处理从图像设备接收到的图像帧)进行图像处理，或根据背景信息修改显示器上的信息可视化方式。与现有系统和技术相比，本发明所述的系统和方法提供了诸多优势，包括解决了上述一个或多个缺点和/或现有系统和技术的其他缺点。

在某些实施例中，从图像设备接收到的图像帧可包括人体器官的图像帧。例如，所述人体器官可包括胃肠器官。所述帧可包括来自内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查中的至少一项检查所使用医学图像设备的图像。在各个实施例中，图像帧中所包含的关注目标可为人体器官、手术器械或异常的一部分。所述异常可包括人体组织形成、人体组织中一种细胞变成另一种细胞和/或人体组织的预期位置处缺少人体组织。人体组织形成可包括病变，如息肉样病变或非息肉样病变。因此，所公开的实施例可用于医学情景，但并非特定于任何单一疾病，而是具有普适性。

在某些实施例中，背景信息可用于确定应进行何种图像处理操作。例如，所述图像处理操作可包括激活或停用特定神经网络，如目标检测器、图像分类器或图像相似性评估器。此外，所述图像处理操作还可包括激活或停用用于提供检测目标信息(如目标类别或目标具体特征)的特定神经网络。

在某些实施例中，背景信息可用于确定用户与图像设备的交互状态。例如，背景信息可表明用户正在与图像设备进行交互识别图像帧中的关注目标。然后，背景信息可表明用户不再与图像设备进行交互识别关注目标。此外，例如，背景信息可表明用户正在与图像设备进行交互检查图像帧中的一个或多个检测目标。然后，背景信息可表明用户不再与图像设备进行交互检查图像帧中的一个或多个检测目标。但是，应理解，背景信息可用于确定任何其他用户与图像设备或相关设备与医学图像系统之间的交互状态，如显示或隐藏显示信息，执行视频功能(例如，放大到包含关注目标的区域、改变图像颜色分布等)，将捕获到的图像帧保存到存储设备，打开或关闭图像设备。

在某些实施例中，背景信息可用于确定是否沿着时间维度聚合多个图像帧中的关注目标。例如，可能需要捕获包含关注目标(如息肉)的所有图像帧，以便医生进行后续检查。在这种情况下，对图像设备所捕获的包含关注目标的所有图像帧进行分组可能很有利。可将标签、时间戳、位置、移动行程等信息与每组图像帧相关联，从而进行区分。可使用其他方法来聚合关注目标，如改变图像帧的颜色分布(例如，用绿色表示第一关注目标，用红色表示第二关注目标)，在图像帧中添加其他字母数字信息或其他字符(例如，用“1”表示第一关注目标，用“2”表示第二关注目标)。

可通过与所公开实施例一致的各种方法来生成背景信息。例如，可使用一段时间内两个或多个图像帧中检测目标位置的交并比(IoU)值生成背景信息。可将所述IoU值与阈值进行比较，确定用户与图像设备的交互情景(例如，用户正在导航图像设备识别目标)。在某些实施例中，如果所述IoU值在预定帧数或时间内达到阈值，则可建立确定用户与图像设备交互状态所需的持久性。

在某些实施例中，可使用一段时间内两个或多个图像帧中检测目标的图像相似值或其他特定图像特征生成背景信息。可将所述检测目标的图像相似值或其他特定图像特征与阈值进行比较，确定用户与图像设备的交互情景(例如，用户正在导航图像设备识别目标)。在某些实施例中，如果所述检测目标的图像相似值或另一个特定图像特征在预定帧数或时间内达到阈值，则可建立确定用户与图像设备交互状态所需的持久性。

所公开的实施例还可根据在同一图像帧中同时存在的多个目标的存在或分析获取背景信息。所公开的实施例还可根据整个图像(即，不仅仅所识别的目标)的分析获取背景信息。在某些实施例中，根据分类信息获取背景信息。此外或可替代地，可根据图像设备接收到的用户输入生成背景信息，所述输入将表明用户的交互状态(例如，输入表明用户正在聚焦或缩放图像设备，检查所识别的目标)。在此类实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内确保用户输入的持久性。

本发明的实施例包括根据背景信息进行图像处理的计算机实现系统和方法。例如，在某些实施例中，当背景信息表明用户正在与图像设备进行交互识别目标时，可调用目标检测操作。因此，当不存在关注目标或用户不准备开始检测过程或一个或多个分类过程时，进行目标检测的可能性降低。此外，例如，在某些实施例中，当背景信息表明用户正在与图像设备进行交互检查检测目标时，可调用分类操作。因此，最大限度地降低了在关注目标正确成帧或用户不想了解关注目标的分类信息前过早进行分类的风险。

此外，本发明的实施例包括使用神经网络进行图像处理操作，所述神经网络经训练可处理从图像设备(如医学成像系统)接收到的图像帧。通过这种方式，所公开的实施例可适用于各种应用，如以非针对疾病的方式对医学视频进行实时处理。

本发明的实施例还包括显示实时视频(如内窥镜检查视频或其他医学图像)以及从图像处理中获取的目标检测和分类信息的系统和方法。本发明的实施例进一步包括显示实时视频(如内窥镜检查视频或其他医学图像)以及为使医生注意图像内的关注特征所做的图像修改和/或提供有关此关注特征或目标的信息(例如，一个覆盖层(包括一个表明图像帧中关注目标位置的边框)、关注目标的分类信息、关注目标的缩放图像或图像帧中的特定关注区域和/或修改后的图像颜色分布)的系统和方法。在单一显示设备上可同时显示这些信息，以供用户(如医生或其他医疗保健专业人员)查看。此外，在某些实施例中，此类信息的显示取决于根据背景信息调用相应图像处理操作的时间。因此，如本发明所述，本发明的实施例在需要时有效提供了此类检测和分类信息，从而防止显示器包含过多不必要的信息。

在一个实施例中，用于实时视频处理的计算机实现系统可包括至少一个存储指令的存储器以及至少一个执行指令的处理器。所述至少一个处理器可执行指令，即，接收医学图像系统所生成的实时视频，所述实时视频包括多个图像帧。在接收医学图像系统所生成的实时视频时，所述至少一个处理器可进一步获取表明用户与医学图像系统交互状态的背景信息。所述至少一个处理器可进一步进行目标检测，检测多个图像帧中的至少一个目标。所述至少一个处理器可进一步进行分类，生成多个图像帧中至少一个检测目标的分类信息。所述至少一个处理器可进一步进行图像修改，基于目标检测和分类中的至少一种操作来修改接收到的实时视频，并在视频显示设备上生成实时视频及图像修改显示。所述至少一个处理器可进一步根据背景信息调用目标检测和分类中的至少一种操作。

在某些实施例中，可使用至少一个神经网络执行目标检测和分类中的至少一种操作，所述神经网络经训练可处理从医学图像系统接收到的图像帧。在某些实施例中，当背景信息表明用户可能正在与医学图像系统进行交互识别目标时，所述至少一个处理器可进一步调用目标检测操作。在某些实施例中，当背景信息表明用户可能不再与医学图像系统进行交互识别目标时，所述至少一个处理器可进一步停用目标检测操作。在某些实施例中，当背景信息表明用户可能正在与医学图像系统进行交互检查多个图像帧中的至少一个目标时，所述至少一个处理器可调用分类操作。在某些实施例中，当背景信息表明用户可能不再与医学图像系统进行交互检查多个图像帧中的至少一个目标时，所述至少一个处理器可进一步停用分类操作。在某些实施例中，当背景信息表明用户可能对多个图像帧(包含至少一个目标)中的某一区域关注时，所述至少一个处理器可进一步调用目标检测操作，当背景信息表明用户可能对至少一个目标关注时，所述至少一个处理器可进一步调用分类操作。在某些实施例中，所述至少一个处理器可进一步聚合两个或多个帧(包含至少一个目标)，其中，所述至少一个处理器可进一步根据背景信息调用聚合操作。在某些实施例中，所述图像修改包括一个覆盖层(包括至少一个表明至少一个检测目标位置的边框)、至少一个检测目标的分类信息、至少一个检测目标的缩放图像或修改后的图像颜色分布中的至少一种。

在某些实施例中，所述至少一个处理器可根据一段时间内两个或多个图像帧中至少一个检测目标位置的交并比(IoU)值生成背景信息。在某些实施例中，所述至少一个处理器可根据两个或多个图像帧的图像相似值生成背景信息。在某些实施例中，所述至少一个处理器可根据多个图像帧中一个或多个目标的检测或分类生成背景信息。在某些实施例中，所述至少一个处理器可根据医学图像系统从用户处接收到的输入生成背景信息。在某些实施例中，所述至少一个处理器可进一步根据分类信息生成背景信息。在某些实施例中，所述多个图像帧可包括胃肠器官的图像帧。在某些实施例中，所述帧可包括来自内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查中的至少一项检查所使用医学图像设备的图像。在某些实施例中，所述至少一个检测目标可为异常。所述异常可为人体组织形成、人体组织中一种细胞变成另一种细胞、人体组织的预期位置处缺少人体组织或病变。

在其他实施例中，提供了一种实时视频处理方法。所述方法包括接收医学图像系统所生成的实时视频，其中，所述实时视频包括多个图像帧。所述方法进一步包括提供至少一个神经网络，所述至少一个神经网络经训练，可处理来自医学图像系统的图像帧；以及获取表明用户与医学图像系统交互状态的背景信息。所述方法进一步包括根据背景信息确定交互状态；以及根据所确定的交互状态，使用至少一个经训练的神经网络对多个图像帧进行实时处理。

在某些实施例中，进行实时处理包括执行目标检测(检测多个图像帧中的至少一个目标)、分类(生成至少一个检测目标的分类信息)和图像修改(修改接收到的实时视频)中的至少一种操作。

在某些实施例中，当所确定的交互为用户与医学图像系统进行交互导航识别目标时，调用所述目标检测操作。在某些实施例中，当背景信息表明用户不再与医学图像系统进行交互导航识别目标时，停用所述目标检测操作。

在某些实施例中，当所确定的交互为用户与医学图像系统进行交互检查多个图像帧中的至少一个检测目标时，调用所述分类操作。在某些实施例中，当背景信息表明用户不再与医学图像系统进行交互检查多个图像帧中的至少一个检测目标时，停用所述分类操作。

在某些实施例中，当背景信息表明用户对多个图像帧(包含至少一个目标)中的某一区域关注时，调用所述目标检测操作，其中，当背景信息表明用户对至少一个目标关注时，调用所述分类操作。

在某些实施例中，使用至少一个神经网络执行目标检测和分类中的至少一种操作，所述神经网络经训练可处理从医学图像系统接收到的图像帧。

在某些实施例中，所述方法进一步包括根据背景信息聚合两个或多个帧(包含至少一个目标)。在某些实施例中，所述图像修改包括一个覆盖层(包括至少一个表明至少一个检测目标位置的边框)、至少一个检测目标的分类信息、至少一个检测目标的缩放图像或修改后的图像颜色分布中的至少一种。

所述多个图像帧可包括人体器官(如胃肠器官)的图像帧。例如，所述帧可包括来自内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查中的至少一项检查所使用医学图像设备的图像。

根据本发明的实施例，所述至少一个检测目标为异常。所述异常可为人体组织形成、人体组织中一种细胞变成另一种细胞、人体组织的预期位置处缺少人体组织或病变。

将在下述的详细说明中部分列出其他目标和优势，从此说明中，将明显看出部分目标和优势，或可通过本发明的实践来了解部分目标和优势。通过所附权利要求中特别指出的要素及组合，将实现并获得本发明的目标和优势。

应理解，上述一般说明及以下详细说明仅用于示例和解释目的，并非限制所公开的实施例。

附图说明

附图构成本说明书的一部分，显示了一些实施例，并结合说明，解释了所公开实施例的原则和特征。在附图中：

图1显示了本发明实施例中实时处理视频及视频传送覆盖信息的示例性计算机实现系统。

图2A和图2B显示了本发明实施例中使用背景信息进行实时图像处理的示例性计算机实现系统。

图3为本发明实施例中处理从图像设备接收到的实时视频的一种示例性方法的流程图。

图4为本发明实施例中根据表明用户与图像设备交互状态的背景信息调用图像处理操作的一种示例性方法的流程图。

图5为本发明实施例中生成图像设备传送实时视频覆盖信息的一种示例性方法的流程图。

图6显示了本发明实施例中视频的目标检测及相关分类信息覆盖层的显示示例。

图7A显示了本发明实施例中确定两个图像帧中检测目标交并比(IoU)值的可视化表示的一个示例。

图7B显示了本发明实施例中确定两个图像帧中检测目标交并比(IoU)值的可视化表示的另一个示例。

图8为本发明实施例中实时视频处理的另一种示例性方法的流程图。

具体实施方式

本发明所公开的实施例通常涉及用于处理来自图像设备(如医学图像系统)的实时视频的计算机实现系统和方法。在某些实施例中，所公开的系统和方法可进行图像处理操作，如目标检测和分类。如本发明所述，所述系统和方法还可使用背景信息确定用户与图像设备的交互状态，并根据所确定的交互状态进行图像处理。进一步地，可通过人工智能实现本发明的实施例，如一个或多个经训练可处理从图像设备接收到的图像帧的神经网络。本发明进一步公开了本发明的这些特征及其他特征。

从本发明中可以看出，所公开的实施例用于说明目的，可在各种应用和视觉系统中实现和使用。例如，本发明的实施例可用于医学图像分析系统以及其他类型图像处理(包括实时图像处理操作)的系统。虽然在本发明中通常参照医学图像分析和内窥镜检查对本发明的实施例进行说明，但是，应理解，所述实施例可用于其他医学图像程序，如内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查。进一步地，本发明的实施例可用于其他环境和视觉系统，如LIDAR、监视、自动驾驶及其他成像系统。

根据本发明的一个方面，计算机实现系统可使用背景信息确定用户交互状态，并根据所确定的交互状态进行图像处理。所述系统可包括至少一个存储指令的存储器(例如，ROM、RAM、局部存储器、网络存储器等)以及至少一个执行指令的处理器(参见图1和图2)。所述至少一个处理器可接收图像设备所生成的实时视频，所述实时视频表示多个图像帧。例如，所述至少一个处理器可从医学成像系统(如在内窥镜检查、胃镜检查、结肠镜检查、肠镜检查程序中使用的医学成像系统)接收实时视频。此外或可替代地，所述图像帧可包括医学图像，如胃肠器官、其他器官或人体组织区域的图像。

在本发明中，术语“图像”是指场景或视场的任何数字表示。可采用任何适当的格式对所述数字表示进行编码，如联合图像专家组(JPEG)格式、图形交换格式(GIF)、位图格式、可缩放矢量图形(SVG)格式、被封装的PostScript(EPS)格式等。同样，术语“视频”是指包括按顺序排列的多个图像的场景或关注区域的任何数字表示。可采用任何适当的格式对所述数字表示进行编码，如活动图像专家组(MPEG)格式、flash视频格式、音频视频交错格式(AVI)等。在某些实施例中，图像序列可与音频配对。

图像帧可包括关注特征(即，异常或关注目标)的表示。例如，所述关注特性可包括人体组织异常。在某些实施例中，所述关注特性可包括一个目标，如车辆、人员或其他实体。

根据本发明，“异常”可包括人体组织形成、人体组织中一种细胞变成另一种细胞和/或人体组织的预期位置处缺少人体组织。例如，肿瘤或其他组织生长可包括异常，因为存在的细胞比预期多。同样，挫伤或细胞类型的其他变化可包括异常，因为在预期位置以外的位置(即，毛细血管外)存在血细胞。同样，人体组织凹陷可包括异常，因为预期位置不存在细胞，从而导致凹陷。

在某些实施例中，异常可包括病变。病变可包括胃肠粘膜病变。可对病变进行组织学分类(例如，按照窄带成像国际结直肠内窥镜(NICE)分类或维也纳分类)、形态学分类(例如，按照巴黎分类)和/或结构学分类(例如，分为锯齿状或非锯齿状)。巴黎分类包括息肉样和非息肉样病变。息肉样病变可包括隆起型带蒂病变和隆起型无蒂病变。非息肉样病变可包括浅表隆起型、平坦型、浅表浅微凹陷型或凹陷型病变。

对于检测到的异常，锯齿状病变可包括无蒂锯齿状腺瘤(SSA)；传统锯齿状腺瘤(TSA)；增生性息肉(HP)；成纤维细胞性息肉(FP)；或混合性息肉(MP)。根据NICE分类系统，异常分为如下三种类型：(1型)无蒂锯齿状息肉或增生性息肉；(2型)传统腺瘤；以及(3型)深层粘膜下浸润性癌症。根据维也纳分类，异常分为如下五类：(类别1)无瘤变/异型增生；(类别2)不确定性瘤变/异型增生；(类别3)非浸润性低级别瘤变(低级别腺瘤/异型增生)；(类别4)粘膜高级别瘤变，如高级别腺瘤/异型增生、非浸润性癌(原位癌)或疑似浸润性癌；以及(类别5)浸润性瘤变、粘膜内癌、粘膜下癌等。

所述系统处理器可包括一个或多个图像处理器。所述图像处理器可用作一个或多个经训练可处理实时视频并进行目标检测和分类等图像操作的神经网络。在某些实施例中，所述处理器包括一个或多个CPU或服务器。根据本发明的一个方面，所述处理器还可获取表明用户与图像设备交互状态的背景信息。在某些实施例中，通过分析一段时间内实时视频中的两个或多个图像帧，所述处理器可生成背景信息。例如，可使用一段时间内两个或多个图像帧中检测目标位置的交并比(IoU)值生成背景信息。在某些实施例中，可将所述IoU值与阈值进行比较，确定用户与图像设备的交互情景(例如，用户正在导航图像设备识别目标)。进一步地，在某些实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内确保IoU值(达到阈值)的持久性。所述处理器还可根据整个图像(即，不仅仅所识别的目标)的分析获取背景信息。在某些实施例中，根据分类信息获取背景信息。

此外或可替代地，可根据图像设备接收到的用户输入生成背景信息，所述输入将表明用户的交互状态(例如，输入表明用户正在聚焦或缩放图像设备，检查所识别的目标)。在此类实施例中，所述图像设备可向处理器提供信号，显示图像设备接收到的用户输入(例如，通过按下聚焦或缩放按钮)。在某些实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内确保用户输入的持久性。

所述系统处理器可根据背景信息确定用户交互状态。例如，在采用懒散方法的实施例中，如果两个连续图像帧之间的懒散值高于0.5(例如，约0.6、0.7或更高，如0.8或0.9)，则可确定用户正在检查关注目标。相比之下，如果两个连续图像帧之间的懒散值低于0.5(例如，约0.4或更低)，则可确定用户正在导航图像设备或远离关注目标。在任一种情况下，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内确保懒散值(高于或低于阈值)的持久性。

此外或可替代地，可根据图像设备的用户输入获取背景信息。例如，用户按下图像设备上的一个或多个按钮，可提供表明用户想了解分类信息(如关注目标的类别信息)的背景信息。表明用户想了解更多关注目标信息的用户输入示例包括聚焦操作、缩放操作、稳定操作、光线控制操作等。在另一个示例中，其他用户输入可表明用户想进行导航并识别目标。进一步地，例如，对于医学图像设备，用户可控制设备进行导航并移动视场，识别关注目标。在上述实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内确保用户输入的持久性。

在某些实施例中，所述系统处理器可根据所获取的背景信息以及用户与图像设备的所确定交互状态，对多个图像帧进行图像处理。在某些实施例中，可使用至少一个经训练可处理从图像设备接收到的图像帧的神经网络(例如，对抗网络)进行图像处理。例如，所述神经网络可包括多层中的一层，所述多层经配置，可接受图像帧作为输入，并输出关注目标的位置和/或分类信息指示符。在某些实施例中，可使用卷积神经网络进行图像处理。

根据本发明的实施例，可调整一个或多个网络节点的权重和/或调整一个或多个网络节点的激活(或传递)函数，从而对神经网络进行训练。例如，可调整神经网络的权重，使与网络有关的损失函数最小化。在某些实施例中，所述损失函数可包括平方损失函数、合页损失函数、逻辑损失函数、交叉熵损失函数或任何其他适当的损失函数或损失函数组合。在某些实施例中，可修改所述神经网络的激活(或传递)函数，以改善一个或多个节点模型与节点输入之间的拟合。例如，所述处理器可增加或减少节点相关多项式函数的幂，可将相关函数从一种改为另一种(例如，从多项式函数改为指数函数、从对数函数改为多项式函数等)，或对节点模型进行任何其他调整。

在某些实施例中，处理多个图像帧可包括进行目标检测，检测多个图像帧中的至少一个目标。例如，如果图像帧中的目标包括非人体组织，则所述至少一个处理器可识别所述目标(例如，根据纹理、颜色、对比度等)。

在某些实施例中，处理多个图像帧可包括进行分类，生成多个图像帧中至少一个检测目标的分类信息。例如，如果检测目标包括病变，则所述至少一个处理器可将所述病变分为一种或多种类型(例如，癌性或非癌性等)。但是，所公开的实施例不限于对目标检测器所识别的目标进行分类。例如，无需首先对图像中的目标进行检测，即可对图像进行分类。此外，可对可能包含关注目标(例如，通过候选区域网络(RPN)、基于区域的快速卷积神经网络(FRCN)等候选区域算法识别)的图像的一个分段或一个区域进行分类。

在某些实施例中，处理多个图像帧可包括确定两个或多个图像帧或其部分之间的图像相似值或其他特定图像特征。例如，可根据多个图像帧中一个或多个目标的移动、多个图像帧中一个或多个目标的物理相似点、两个或多个整个图像帧或其部分之间的相似性或两个或多个图像帧之间的任何其他特征、特性或信息生成图像相似值。在某些实施例中，可根据目标检测、分类的历史数据和/或系统接收、捕获或计算出的任何其他信息来确定图像相似值。例如，可使用一段时间内两个或多个图像帧中检测目标位置的交并比(IoU)值生成图像相似值。进一步地，可根据检测目标是否类似于先前检测目标来生成图像相似值。此外，可根据至少一个目标是否属于用户先前关注的分类的一部分来生成图像相似值。此外，可根据用户是否执行先前执行的某一个操作(例如，稳定帧、聚焦目标或与图像设备的任何其他交互)来生成图像相似值。以这种方式，所述系统可学会识别用户偏好，从而提供更加个性化、更愉快的用户体验。从上述内容中可以看出，所公开的实施例不限于任何特定类型的相似值或相似值生成过程，而是可与确定两个或多个图像帧或其部分之间相似值的任何适当过程(包括涉及一段时间内的信息聚合、一段时间内的信息整合、一段时间内的平均信息和/或任何其他数据(例如，图像数据)处理或操作方法的过程)结合使用。

在某些实施例中，可根据系统接收、捕获或生成的信息控制多个图像帧中至少一个目标的目标检测、分类和/或相似值生成。例如，可根据背景信息(例如，当背景信息表明用户正在与图像设备进行交互识别目标时，可调用目标检测操作，和/或当背景信息表明用户正在与图像设备进行交互以检查检测目标时，可调用分类操作)调用或停用目标检测、分类和/或相似值操作。例如，当背景信息表明用户对一个或多个图像帧或其一部分中的某一区域关注时，可调用目标检测操作，检测关注区域中的所有目标。然后，当背景信息表明用户对关注区域中的一个或多个特定目标关注时，可调用分类操作，生成关注目标的分类信息。以这种方式，所述系统可实时或近实时不断提供用户关注的信息。进一步地，在某些实施例中，目标检测、分类和/或相似值生成中的至少一种操作可处于连续活动状态。例如，可连续进行目标检测，检测多个图像帧中的一个或多个目标，可将所得输出用于系统的其他过程(例如，分类和/或相似值生成(生成背景信息)或系统的任何其他功能)。由于用户输入(例如，按下按钮)或其组合，可由系统自动进行连续激活控制(例如，在通电后)。

在本发明中，所述系统处理器可生成一个在视频显示设备上与多个图像帧一同显示的覆盖层。可选地，如果在多个图像帧中未检测到目标，则所述覆盖层可包括一个空指示符或表示未检测到目标的其他指示符。

所述覆盖层可包括一个表明多个图像帧中至少一个检测目标位置的边框。例如，在至少一个检测目标的位置包括一个点的实施例中，所述覆盖层可包括圆形、星形或所述点上的任何其他形状。此外，在位置包括一个区域的实施例中，所述覆盖层可包括一个围绕所述区域的边框。在某些实施例中，所述形状或边框可为动画。因此，可生成多个图像帧的形状或边框，这样即可在各帧中跟踪检测目标的位置，并在按顺序显示图像帧时以动画形式出现。

在某些实施例中，所述覆盖层可与分类信息(如视频传送中至少一个检测目标的分类信息)一同显示。例如，在使用NICE分类系统的实施例中，所述覆盖层可包括“1型”、“2型”、“3型”、“无息肉”或“尚不清楚”中的一个标签。所述覆盖层还可包括置信度得分(例如，“90％”)等信息。在某些实施例中，所述覆盖层的颜色、形状、模式或其他方面可取决于分类。进一步地，在提供声音和/或振动指示器的实施例中，声音和/或振动的持续时间、频率和/或振幅可取决于是否检测到目标或分类。

根据本发明，所述系统处理器可从图像设备接收实时视频，并向显示设备实时输出包含覆盖层的视频。2018年6月13日提交的第16/008，006号和第16/008，015号美国申请对从图像设备接收视频并向显示设备输出视频(包含覆盖层)的适当实施例的示例性发明进行了说明。这些申请明确成为本发明的一部分。

在某些实施例中，可提供包括一个或多个神经网络的人工智能(AI)系统，以确定在与图像设备进行交互时医生或其他医疗专业人员的行为。可使用多种可能的方法来训练AI系统。在一个实施例中，可根据特定任务-器官-疾病组合，对视频帧进行分组。例如，可采集一系列的视频帧，以便用于结肠腺瘤检测，或对巴雷特食管综合征进行表征。在这些视频帧中，执行相同任务的不同医生的行为在系统所分析的多维域中具有某些共同特征。经适当训练后，在向所述AI系统提供相似视频帧后，其可在给定精度下确定，在这些视频帧中，医生正在执行给定任务。因此，所述系统可激活适当的智能子算法，此类智能子算法经训练，可对视频帧进行高性能分析，在屏幕上信息方面帮助医生。

在其他实施例中，对时间空间域中图像的基本特征进行计算机视觉分析(分析图像特征，如颜色、速度、对比度、运动速度、光流、熵、二进制模式、纹理等变化)，可获得类似结果。

在本发明中，在息肉检测和结肠镜检查表征的情况下对实施例进行了说明。在常规结肠镜检查中，将包含摄像机的柔性管穿过肛门。其主要目的是检查整个长度的结肠，以确定并可能切除可为结直肠癌前兆的小病变(息肉)。医生或其他用户可移动柔性管，导航通过结肠，同时，可检查结肠壁，不断寻找潜在病变(检测)。医生在每次注意到可能为息肉的特定图像区域时，都可以改变导航方法，降低移动速度，试图放大可疑区域。在针对可疑病变的性质做出决定后(表征)，可采取适当的措施。如果认为病变是癌症的潜在前兆，则医生可对所述病变进行原位切除，或可恢复导航，以其他方式进行检测。

旨在检测息肉的经训练人工智能系统和算法可能适用于检测阶段，但在手术等其他时间可能造成干扰。同样，可将潜在病变描述为腺瘤或非腺瘤的经训练人工智能算法在表征阶段很有意义，但在检测阶段并不需要。因此，发明人发现，需要使检测用人工智能系统或算法仅在检测阶段处于活动状态，使表征用人工智能系统或算法仅在表征阶段处于活动状态。

参照图1，提供了本发明实施例中实时处理视频及视频传送覆盖信息的示例性计算机实现系统100的图示。如图1所示，系统100包括控制图像设备103的操作员101。在视频传送包括医学视频的实施例中，操作员101可包括医生或其他医疗保健专业人员。图像设备103可包括一个医学成像设备，如X光机、计算机断层扫描(CT)机、磁谐振成像(MRI)机、内窥镜检查机或可生成人体或其部分的视频或一个或多个图像的其他医学成像设备。操作员101可控制图像设备103的捕获率和/或图像设备103的移动(例如，通过人体或相对于人体)，从而控制图像设备103。在某些实施例中，图像设备103可包括一个Pill-Cam^TM设备或其他形式的胶囊内窥镜检查设备，代替了外部成像设备(X光机)或通过人体腔插入的成像设备(如内窥镜检查设备)。

进一步地，如图1所示，图像设备103可将所捕获的视频以多个图像帧的形式传输到覆盖设备105。覆盖设备105可包括一个或多个可处理视频的处理器(如本发明所述)。此外或可替代地，所述一个或多个处理器可作为单独组件(未显示)，而非覆盖设备105的一部分。在此类实施例中，所述处理器可从图像设备103接收多个图像帧，并与覆盖设备105进行通信，传输控制或信息信号，以创建一个或多个覆盖层。此外，在某些实施例中，除图像设备103之外，操作员101还可控制覆盖设备105，例如，通过控制覆盖设备105的目标检测器(未显示)的灵敏度。

如图1所示，覆盖设备105可增强从图像设备103接收到的视频，然后将增强视频传输到显示设备107。在某些实施例中，所述增强可包括为视频提供一个或多个覆盖层(如本发明所述)。如图1所示，覆盖设备105可将图像设备103中的视频直接中继到显示设备107。例如，覆盖设备105可在预定条件下进行直接中继，如当未进行增强或覆盖时。此外或可替代地，如果操作员101向覆盖设备105输入相关命令，则覆盖设备105可进行直接中继。可通过覆盖设备105上的一个或多个按钮或通过键盘等输入设备接收所述命令。如果存在视频修改或一个或多个覆盖层，则覆盖设备105可创建修改后的视频流，以发送到显示设备。所述修改后的视频可包含原始图像帧以及通过显示设备107向操作员显示的覆盖层和/或分类信息。显示设备107可包括显示视频或修改后的视频的任何适当显示器或类似硬件。本发明对其他类型的视频修改(例如，至少一个目标的缩放图像、修改后的图像颜色分布等)进行了说明。

图2A和图2B分别为本发明实施例中使用背景信息进行实时图像处理的示例性计算机实现系统200a和200b的图示。图2A和图2B分别显示了本发明实施例中示例性计算机实现系统200a和200b各个元件的示例性配置。应理解，考虑到本发明以及本发中的各个实施例，也可实施其他配置，或增加、删除或重新布置各组件。

在图2A和图2B中，可提供一个或多个图像处理器230a和230b。图像处理器230a和230b可分别处理图像设备210a和210b所采集的图像帧。图像处理器230a和230b可分别包括目标检测器240a和240b(用于检测图像帧中的至少一个关注目标)以及分类器250a和250b(用于生成至少一个关注目标的分类信息)。在某些实施例中，可使用经训练(可处理图像帧)的一个或多个神经网络来实施目标检测器240a和240b以及分类器250a和250b。图像处理器230a和230b可执行其他图像处理功能，包括图像修改，如生成一个覆盖层(包括至少一个表明至少一个检测目标位置的边框)、生成至少一个目标的分类信息、放大至少一个目标、修改图像颜色分布，或对一个或多个图像帧进行任何其他调整或改变。图像设备210a和210b(类似于图1中的图像设备103)可以是医学图像系统的图像设备或其他类型的图像设备。显示设备260a和260b可与图1中的显示设备107相同或相似，并以上述相同或相似的方式工作。

背景分析器220a和220b可与图像处理器230a和230b分开实施(如图2A和图2B所示)，或可作为集成组件(未显示)与图像处理器230a和230b一同实施。背景分析器220a和220b可分别确定操作员或用户与图像设备210a和210b的交互状态，并根据所确定的用户交互状态生成一个或多个输出。可由背景分析器220a和220b获取或生成背景信息，以分别确定用户与图像设备210a和210b的交互状态。例如，在某些实施例中，背景分析器220a和220b可计算与一段时间内两个或多个图像帧中的目标位置有关的交并比(IoU)值。背景分析器220a和220b可将所述IoU值与阈值进行比较，以确定用户与图像设备的交互状态。此外或可替代地，背景分析器220a和220b可使用一段时间内两个或多个图像帧中检测目标的图像相似值或其他特定图像特征生成背景信息。可将所述检测目标的图像相似值或其他特定图像特征与阈值进行比较，确定用户与图像设备的交互情景(例如，用户正在导航图像设备识别目标)。如果所述检测目标的图像相似值或其他特定图像特征在预定帧数或时间内达到阈值，则可建立确定用户与图像设备交互状态所需的持久性。此外或可替代地，可由用户手动生成背景信息，如用户按下聚焦或缩放按钮，或向图像设备210a和210b提供其他输入(如本发明所述)。在这些实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内保持(i)所述IoU或图像相似值(相对于阈值)或(ii)所确定用户输入的持久性。

在某些实施例中，可使用一个或多个经训练(可确定两个或多个图像帧或其部分之间的图像相似值或其他特定图像特征)的神经网络来生成所述相似值。在此类实施例中，所述神经网络可根据两个或多个图像帧之间的任何特征、特性和/或信息来确定相似值，包括IoU值、检测目标是否类似于先前检测目标、至少一个目标是否属于用户先前关注的分类的一部分和/或用户是否执行先前执行的某一个操作。在某些实施例中，可根据系统接收、捕获和/或生成的信息(包括背景信息)调用相似值生成操作(如本发明所述)。

根据图2A的示例配置，背景分析器220a可确定操作员或用户与图像设备210a的交互状态，并根据所确定的用户与图像设备210a的交互状态生成适用于图像处理器230a的指令。可由背景分析器220a获取或生成背景信息，以确定用户与图像设备210a的交互状态。例如，在某些实施例中，背景分析器220a可计算与一段时间内两个或多个图像帧中的目标位置有关的交并比(IoU)值。背景分析器220a可将所述IoU值与阈值进行比较，以确定用户与图像设备的交互状态。此外或可替代地，可由用户手动生成背景信息，如用户按下聚焦或缩放按钮，或向图像设备210a提供其他输入(如上所述)。在这些实施例中，为了确定用户与图像设备的交互状态，可能需要在预定帧数或时间内保持(i)所述IoU值(相对于阈值)或(ii)所确定用户输入的持久性。

图像处理器230a可根据背景分析器220a接收到的背景分析输入处理图像帧。图像处理器230a可调用目标检测器240a、分类器250a和/或其他图像处理组件(未显示)，从而进行一项或多项图像处理操作。在某些实施例中，可使用一个或多个经训练(可处理从图像设备210a接收到的图像帧)的神经网络进行图像处理。例如，当背景信息表明用户正在使用图像设备210a进行导航时，背景分析器220a可指示图像处理器230a调用目标检测器240a。进一步地，例如，当背景信息表明用户正在检查关注目标时，背景分析器220a可指示图像处理器230a调用分类器250a。本领域的技术人员理解，图像处理不限于目标检测或分类。例如，图像处理可包括应用候选区域算法(例如，候选区域网络(RPN)、基于区域的快速卷积神经网络(FRCN)等)、应用兴趣点检测算法(例如，加速分割检测特征(FAST)、Harris、最大稳定极值区域(MSER)等)、进行图像修改(例如，覆盖边框或分类信息(如本发明所述))或对一个或多个图像帧进行任何其他调整或改变。

进一步地，如图2A所示，图像处理器230a可生成向显示设备260a提供的输出。显示设备260a可与图1中的显示设备107相同或相似，并以上述相同或相似的方式工作。所述输出可包括原始图像帧以及一个或多个覆盖层(如一个表明图像帧中检测目标位置的边框)和/或图像帧中关注目标的分类信息。

根据图2B的示例配置，图像处理器230b可使用由背景分析器220b提供的信息来处理图像帧，或可直接处理图像设备210b所捕获的图像。可在整个过程中一致执行背景分析器220b，以确定表明用户与图像设备210a交互状态的背景信息(如有)，并作为响应，向图像处理器230b提供指令。背景分析器220b还可分析历史数据，包括IoU值、相似性确定或其他信息。图像处理器230b可向显示设备260b提供视频输出，和/或向背景分析器220b提供其图像处理功能的一个或多个输出。向显示设备260b提供的视频输出可包括经修改或未经修改(例如，一个或多个覆盖层、分类信息等)的原始视频(如本发明所述)。

背景分析器220b可确定操作员或用户与图像设备210b的交互状态，并根据所确定的用户与图像设备210b的交互状态生成适用于图像处理器230b的指令。背景分析器220b可使用图像设备210b所捕获的一个或多个图像帧确定用户交互状态(例如，通过计算两个或多个图像帧之间的IoU值)(如本发明所述)。背景分析器220b可接收图像处理器230b所生成的历史数据，如目标检测器240b所生成的目标检测信息，或分类器250b所生成的分类信息。背景分析器220b可使用这些信息确定用户与图像设备210b的交互状态(如本发明所述)。此外，背景分析器220b可根据其先前获取的背景信息(例如，先前计算出的IoU值、相似值、用户交互状态和/或背景分析器220b所生成的其他信息)确定操作员或用户交互状态(如本发明所述)。

在某些实施例中，背景分析器220b可处理来自图像设备210b的多个图像帧，并确定用户对图像帧中的特定区域关注。然后，背景分析器220b可向图像处理器230b提供指令，使目标检测器240b进行目标检测，检测所确定的关注区域中的所有目标。然后，当背景信息表明用户对关注区域中的目标关注时，背景分析器220b可向图像处理器230b提供指令，使分类器250b生成关注目标的分类信息。以这种方式，所述系统可不断向用户实时或近实时提供关注的信息，同时防止显示不关注的目标信息。有利的是，由于仅对关注区域以及所述区域内的关注目标(源自背景信息)进行处理，以这种方式使用背景信息还可避免目标检测器240b和分类器250b进行不当处理。

图像处理器230b可根据背景分析器220b接收到的背景分析输入处理图像帧。此外，无需首先从背景分析器220b接收指令，图像处理器230b可直接处理图像设备210b所捕获的图像帧。图像处理器230b可调用目标检测器240b、分类器250b和/或其他图像处理组件(未显示)，从而进行一项或多项图像处理操作。在某些实施例中，可使用一个或多个经训练(可处理从图像设备210b接收到的图像帧)的神经网络进行图像处理。例如，当背景信息表明用户正在使用图像设备210b进行导航时，背景分析器220b可指示图像处理器230b调用目标检测器240b。进一步地，例如，当背景信息表明用户正在检查关注目标或特征时，背景分析器220b可指示图像处理器230b调用分类器250b。本领域的技术人员理解，图像处理不限于目标检测和分类。例如，图像处理可包括应用候选区域算法(例如，候选区域网络(RPN)、基于区域的快速卷积神经网络(FRCN)等)、应用兴趣点检测算法(例如，加速分割检测特征(FAST)、Harris、最大稳定极值区域(MSER)等)、进行图像修改(例如，覆盖边框或分类信息(如本发明所述))或对一个或多个图像帧进行任何其他调整或改变。

此外，如图2B所示，图像处理器230b可生成向显示设备260b提供的输出。所述输出可包括原始图像帧以及一个或多个图像修改(例如，覆盖层(如一个表明图像帧中检测目标位置的边框)、图像帧中目标的分类信息、目标的缩放图像、修改后的图像颜色分布等)。此外，图像处理器230b可向背景分析器220b提供图像处理信息。例如，图像处理器230b可提供与目标检测器240b的检测目标有关的信息和/或分类器250b所生成的分类信息。因此，背景分析器220b可使用这些信息来确定操作员或用户交互状态(如本发明所述)。

图3为本发明实施例中处理从图像设备接收到的实时视频的一种示例性方法的流程图。图3的实施例可由一个或多个处理器以及其他组件(如图1或图2的示例性系统中所示的组件)实施。在图3中，根据背景信息处理视频。在步骤301中，从图像设备(如医学图像系统)接收视频。所述视频可包括多个图像帧，其中可包含一个或多个关注目标。在步骤303中，可提供一个或多个经训练(可处理图像帧)的神经网络。例如，可提供对抗神经网络，以识别关注目标(例如，息肉)。此外，例如，可提供卷积神经网络，以根据纹理、颜色等以及一个或多个类别对图像进行分类(例如，癌性或非癌性等)。以这种方式，在为所需应用量身定做的同时，可有效、准确地处理图像帧。

在步骤305中，可获取背景信息。所述背景信息可表明用户与图像设备的交互状态(如本发明所述)。在步骤307中，所述背景信息可用于确定用户的交互状态。例如，IoU或图像相似值可用于确定用户正在导航识别关注目标、检查关注目标或远离关注目标。此外或可替代地，图像设备的用户输入可提供可用于确定用户与图像设备交互状态的背景信息。作为步骤307的一部分，在处理器确定用户正在与图像设备进行特定交互前，可能需要在预定帧数或时间内保持所述IoU或相似值(相对于阈值)和/或用户输入的持久性。在步骤309中，可根据所确定的交互状态(背景信息)，使用一个或多个经训练的网络进行图像处理。例如，如果所确定的交互状态为正在导航，则图像处理器可进行目标检测。在另一个示例中，如果所确定的交互状态为正在检查，则图像处理器可进行分类。在步骤311中，可根据图像处理，对接收到的视频进行图像修改。例如，作为步骤311的一部分，可根据在步骤309中进行的图像处理，生成一个或多个覆盖层和/或分类信息。在本发明中，可通过显示设备向用户或操作员显示所述覆盖层。例如，显示的视频输出可包括一个表明图像帧中检测目标的边框(例如，一个方框或星形)和/或图像帧中关注目标的分类信息(例如，“1型”、“2型”或“3型”等文本标签)。

图4为本发明实施例中根据表明用户与图像设备交互状态的背景信息调用图像处理操作的一种示例性方法的流程图。图4的实施例可由一个或多个处理器以及其他组件(如图1或图2的示例性系统中所示的组件)实施。在图4中，根据所确定的用户与图像设备的交互状态调用目标检测和分类操作。在步骤401中，所述处理器可确定用户是否正在使用图像设备进行导航(例如，在结肠镜检查时导航通过某个身体部分，以识别关注目标)。如果确定用户正在导航，则在步骤403中，可调用目标检测器。例如，可调用经训练(可检测结肠腺瘤)的神经网络。在步骤405中，所述处理器可确定用户是否正在检查关注目标(例如，保持图像设备稳定，以分析图像帧中的关注目标)。如果确定用户正在检查，则在步骤407中，可调用分类器。例如，可调用经训练(可对巴雷特食管综合征进行表征)的神经网络。在步骤409中，可检测用户是否正在远离关注目标。如果确定用户正在远离，则在步骤411中，可停用分类器。

图5为本发明实施例中生成图像设备实时视频传送覆盖信息的一种示例性方法的流程图。图5的实施例可由一个或多个处理器以及其他组件(如图1或图2的示例性系统中所示的组件)实施。在图5中，根据背景信息分析生成覆盖层，其中，所述覆盖层显示提供图像帧中目标的位置和分类信息。在步骤501中，所述处理器可在实时视频传送的多个图像帧中检测目标。可使用目标检测算法或经训练的神经网络完成此操作(如上所述)。在步骤503中，可生成第一覆盖层显示，其中包括一个表明图像帧中检测目标位置的边框。例如，所述第一覆盖层显示可包括指定检测目标点位置的圆形、星形或其他形状。此外，例如，如果目标的位置包括一个区域，则所述第一覆盖层显示可包括方框、矩形、圆形或所述区域上的另一种形状。在步骤505中，所述处理器可获取表明用户交互状态的背景信息。如本文所述，通过分析视频(即，IoU或图像相似性方法)和/或用户输入(即，聚焦或缩放操作)，可获取所述背景信息。在步骤506中，通过调用分类器或分类算法，可生成图像帧中关注目标的分类信息(如本发明所述)。在步骤504中，可生成第二覆盖层显示，其中包括分类信息。例如，所述第二覆盖层显示可包括一个覆盖层(包括一个表明关注目标位置的边框)以及一个提供分类信息的文本标签(例如，“息肉性”或“非息肉性”)。此外或可替代地，在某些实施例中，所述第一和/或第二覆盖层的颜色、形状、模式或其他方面可取决于目标检测和/或分类。

图6为本发明实施例中基于目标检测和分类的视频中覆盖层的显示示例。在图6(以及图7A和图7B)的示例中，所示视频样本600a、600b和600c来自结肠镜检查程序。从本发明中可以看出，当实施本发明的实施例时，可使用来自其他程序和成像设备的视频。因此，视频样本600a、600b和600c(以及图7A和图7B)为本发明的非限制性示例。此外，例如，可在显示设备(如图1中的显示设备107)上显示图6(以及图7A和图7B)的视频。

第一覆盖层601为用作视频中检测目标(例如，异常)指示符的图形边框的一个示例。在图6的示例中，第一覆盖层601包括采用实心矩形边框形式的指示符。在其他实施例中，第一覆盖层601可为不同形状(规则或不规则)。此外，可以预定颜色显示第一覆盖层601，或从第一种颜色过渡到另一种颜色。第一覆盖层601出现在视频帧600b和600c中，按顺序可能来自视频帧600a。

第二覆盖层602提供了视频中关注目标(例如，异常)分类的一个示例。在图6的示例中，第二覆盖层602包括一个确定异常类型的文本标签(例如，根据分类系统(如NICE分类系统)，分为“1型”)。从视频样本600c中可以看出，除分类标签之外，第二覆盖层602还可包括其他信息。例如，第二覆盖层602可包括与分类有关的置信度标签(例如，“95％”)。

图7A为本发明实施例中确定两个图像帧中目标交并比(IoU)值的可视化表示的一个示例。如图7A所示，图像700a和700b包括包含关注目标的视频帧。图7A显示了图像700a及后面的图像700b。在图7A的示例中，区域701a和701b分别表示在图像700a和700b中检测到的关注目标的位置和大小。此外，区域702表示区域701a和701b的组合，也是确定图像700a和700b中检测目标IoU值的可视化表示。在某些示例中，可使用以下公式估计IoU值：

在上述IoU公式中，重叠面积为两个图像中存在检测目标的面积，并集面积为两个图像中存在检测目标的总面积。在图7A的示例中，可使用区域701a和701b之间的重叠面积(即，区域702的中心)与区域701a和701b之间的并集面积(即，整个区域702)之比来估计IoU值。在图7A的示例中，考虑到区域702的中心相对小于整个区域702，可认为所述IoU值较低。在某些实施例中，这可能表明用户正在远离关注目标。

图7B为本发明实施例中确定两个图像帧中目标交并比(IoU)值的可视化表示的另一个示例。如图7B所示，图像710a和720b包括包含关注目标的视频帧。图7B显示了图像710a及后面的图像710b(类似于图像700a和700b)。在图7B的示例中，区域711a和711b分别表示在图像710a和710b中检测到的关注目标的位置和大小。此外，区域712表示区域711a和711b的组合，也是确定图像710a和710b中检测目标IoU值的可视化表示。可使用适用于图7A的上述相同IoU公式来确定IoU值。在图7B的示例中，可使用区域711a和711b之间的重叠面积(即，区域712的中心)与区域711a和711b之间的并集面积(即，整个区域712)之比来估计IoU值。在图7B的示例中，考虑到区域712的中心相对等于整个区域712，可认为所述IoU值较高。在某些实施例中，这可能表明用户正在检查关注目标。

图8为本发明实施例中目标检测器和分类器的一种示例性调用方法的流程图，其中，根据多个图像帧之间的图像相似值来确定背景信息。但是，应理解，所述方法可与用于确定背景信息的其他方法结合使用，如基于IoU值、图像帧中一个或多个目标的检测或分类或医学图像系统接收到的用户输入的方法。图8的实施例可由一个或多个处理器以及其他组件(如图1或图2的示例性系统中所示的组件)实施。

在步骤801中，调用目标检测器(例如，图2A和图2B中的目标检测器240a和240b)，检测第一图像帧中的关注目标。例如，可调用经训练(可检测特定疾病或异常(例如，结肠腺瘤))的一个或多个神经系统来确定第一图像帧中是否存在特定疾病或异常。出于与其他实施例有关的上述相同或相似原因，可调用目标检测器。在步骤803中，所述目标检测器处理在第一图像帧之后获取的第二图像帧，以确定第二图像帧中是否存在关注目标。例如，所述一个或多个神经系统可检测第二图像帧中是否存在与结肠腺瘤相符的息肉。

在步骤805中，确定第一图像帧与第二图像帧之间的相似值是否高于预定阈值，以确定背景信息。使用图像相似性评估器(未显示)进行所述确定操作。所述相似性评估器可与处理器结合实施，并包括一个或多个算法，所述算法可将图像帧作为输入进行处理，并使用图像特征(如图像重叠、边缘、关注点、关注区域、颜色分布等)输出两个或多个图像帧之间的相似值。在某些实施例中，所述相似性评估器可输出0到1之间的数字(例如，0.587)，其中，相似值1意味着两个或多个图像帧相同，相似值0意味着两个或多个图像帧不具有相似性。在某些实施例中，所述图像相似性评估器可为背景分析器(图2A和图2B中的背景分析器220a和220b)或图像处理器(图2A和图2B中的图像处理器230a和230b)的一部分，如目标检测器(图2A和图2B中的目标检测器240a和240b)或分类器(图2A和图2B中的分类器250a和250b)的一部分。

可使用第一图像帧和第二图像帧的一个或多个特征进行相似值计算。例如，可确定第二图像帧中是否包含足够的第一图像帧部分，以确定用户正在检查关注目标。作为一个非限制性示例，如果第二图像帧中包含至少0.5(例如，约0.6、0.7或更高，如0.8或0.9)的第一图像帧，则可用于确定用户正在检查关注目标。相比之下，如果第二图像帧中包含少于0.5(例如，约0.4或更低)的第一图像帧，则可用于确定用户正在导航图像设备或远离关注目标。但是，应理解，可使用边缘、关注点、关注区域、颜色分布等其他图像特征进行确定。

在步骤807中，如果背景信息表明用户没有检查关注目标(如通过确定图像相似值低于预定阈值)，则仍调用目标检测器，以获取其输出，并从图8所示示例性方法的步骤803重新开始处理下一个图像帧。在某些实施例中，可在步骤807停用目标检测器。例如，当背景信息表明用户不再想识别目标时，可停用目标检测器。例如，当用户与输入设备(例如，按钮、鼠标、键盘等)进行交互以停用目标检测器时，可确定这一点。以这种方式，仅在需要时有效进行检测，从而防止显示器包含过多不必要的信息。

在步骤809中，进行图像修改，以根据目标检测器输出修改接收到的图像帧。例如，根据本发明的实施例，可生成图像设备的实时视频传送覆盖信息。所述覆盖信息可包括目标检测器检测到的关注目标的位置，如指定检测目标位置的圆形、星形或其他形状。此外，例如，如果目标的位置包括一个区域，则所述覆盖信息可包括方框、矩形、圆形或所述区域上的另一种形状。但是，应理解，可进行其他图像修改，以便让用户注意到检测目标，如放大检测目标的区域、改变图像颜色分布等。

在步骤811中，调用分类器(例如，图2A和图2B中的分类器250a和250b)，生成至少一个检测目标的分类信息，这与所公开的实施例一致。例如，如果检测目标包括病变，则所述分类器可将所述病变分为一种或多种类型(例如，癌性或非癌性等)。在某些实施例中，根据所公开的实施例，可调用一个或多个经训练(可对检测目标进行分类)的神经网络(例如，对抗神经网络)。在步骤813中，所述目标检测器和分类器处理下一帧(例如，在第二图像帧之后获取的第三图像帧)，以确定所述图像帧中是否存在关注目标，并在检测到关注目标时生成分类信息。例如，一个或多个神经网络可检测图像帧中是否存在与结肠腺瘤相符的息肉，然后，如果确定所述息肉的确为腺瘤，则生成“腺瘤”等标签，如果确定所述息肉不是腺瘤，则生成“非腺瘤”等标签以及置信度得分(例如，“90％”)。

在步骤815中，确定图像帧(例如，第二图像帧和第三图像帧)之间的相似值是否高于预定阈值，以确定背景信息。可采用与步骤805有关的上述相同或相似方式进行此操作。在步骤817中，如果背景信息表明用户不再检查关注目标(如通过确定图像相似值低于预定阈值)，则停用分类器，但仍调用目标检测器，从步骤803重新开始处理下一个图像帧。以这种方式，仅在需要时有效进行分类，从而防止显示器包含过多不必要的信息。在步骤819中，相比之下，如果背景信息表明用户继续检查关注目标，则分类器处理N(即，两个或多个)个图像帧，生成至少一个检测目标的分类信息。可将一种算法用于所有N个图像帧的分类器输出，生成单一输出。例如，可通过移动平均计算，在时间维度上整合每个图像帧的分类器输出。由于有关特定息肉属于某一类别(例如，腺瘤或非腺瘤)的分类信息可能受不同特性(例如，纹理、颜色、大小、形状等)的影响，因此，在存在息肉的N帧中，分类器输出可能受噪声影响。为了减少这种现象，可实施一种移动平均形式，整合最后N帧的分类器输出。作为一个非限制性示例，可计算算数平均值，但使用其他数学和统计公式也可获得相同结果。

在步骤821中，进行图像修改，以根据分类器输出修改接收到的图像帧。例如，可采用与步骤809有关的上述相同或相似方式生成检测目标的图像设备实时视频传送覆盖信息。此外，所述覆盖信息可与分类器所生成的检测目标分类信息一同显示。所述分类信息可包括与步骤813有关的上述相同或相似信息。在步骤823a、823b和823c中，例如，根据分类，生成检测目标的不同分类信息。在步骤823a中，如果检测目标为息肉，由分类器分类为腺瘤，则可生成“腺瘤”标签，检测目标周围带有红框。在步骤823b中，如果检测目标为息肉，由分类器分类为非腺瘤，则可生成“非腺瘤”标签，检测目标周围带有白框。在步骤823c中，如果分类器因聚焦不良、图像数据损坏等原因无法对检测目标进行分类，则可生成“未分类”标签，检测目标周围带有灰框。

在步骤825中，所述目标检测器和分类器处理下一个可用图像帧，以确定是否存在关注目标，并从图8所示方法的步骤815重新开始，在检测到关注目标时生成分类信息。

本发明仅用于说明目的。其并不详尽，并且不限于所公开的精确形式或实施例。从所公开实施例的说明书和实践中，可明确了解实施例的修改和调整情况。例如，所述实施方式包括硬件，但可以使用硬件和软件来实施与本发明一致的系统和方法。此外，虽然将某些组件描述为相互耦合，但此类组件也可相互集成，或以任何适当的方式分布。

此外，虽然本发明描述了说明性实施例，但其范围包括包含等效元素、修改、省略、组合(例如，各个实施例中的各方面)、调整和/或改变(基于本发明)的任何及所有实施例。应根据权利要求中所使用的语言从广义上解释权利要求中的各个元素，并非仅限于本说明书中或申请审查时所述的示例，所述示例应具有非排他性。进一步地，可采用任何方式修改所公开方法的各个步骤，包括将步骤重新排序，和/或插入或删除步骤。

从详细的说明书中可明显看出本发明的特征和优点，因此，所附权利要求旨在涵盖本发明真实精神和范围内的所有系统和方法。在本发明中，不定冠词“一个(a)”和“一个(an)”是指“一个或多个”。同样，除非在给定上下文中明确说明，否则使用复数术语并不一定表示多个。除非另有明确指示，否则“和”或“或”等单词是指“和/或”。进一步地，由于在研究本发明时很容易出现大量的修改和变更，因此，不希望将本发明限制为所示及所述的精确结构和操作，因此，在本发明的范围内，可采用所有适当的修改和等同。

从所公开实施例的说明书和实践中，可明确了解其他实施例。本说明书和示例仅用作示例，所公开实施例的真实范围和精神如以下权利要求所述。

根据某些实施例，本发明所述的操作、技术和/或组件可由一种设备或系统(可包括一个或多个专用计算设备)实现。所述专用计算设备可采用硬接线形式，能够执行本发明所述的操作、技术和/或组件，或可包括数字电子设备，如一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)(可持续编程，以执行本发明所述的操作、技术和/或组件)，还可包括一个或多个硬件处理器，所述硬件处理器经编程，可根据固件、存储器、其他存储设备或其组合中的程序指令执行本发明的此类特征。此类专用计算设备也可将定制硬接线逻辑、ASIC或FPGA与定制编程结合在一起，实现本发明的技术和其他特征。所述专用计算设备可为台式计算机系统、便携式计算机系统、手持式设备、网络设备或可结合硬接线和/或程序逻辑，以实现本发明所述技术和其他特征的任何其他设备。

通常可由操作系统软件(如iOS、Android、Blackberry、Chrome OS、Windows XP、Windows Vista、Windows 7、Windows 8、Windows Server、Windows CE、Unix、Linux、SunOS、Solaris、VxWorks或其他兼容操作系统)控制所述一个或多个专用计算设备在其他实施例中，可由专有操作系统控制所述计算设备。操作系统可控制并安排计算机执行进程，进行内存管理，提供文件系统、网络、I/O服务，并提供图形用户界面(“GUI”)等用户界面功能。

此外，虽然将所公开实施例的各个方面描述为与存储在存储器以及其他有形计算机可读存储介质中的数据有关，但是，本领域的技术人员理解，也可通过辅助存储设备(如硬盘、软盘或CD-ROM)或其他形式的RAM或ROM等多种有形可读存储介质来存储并执行这些方面。因此，所公开的实施例不限于上述示例，而是根据其等同的全部范围由所附权利要求加以界定。

此外，虽然本发明描述了说明性实施例，但其范围包括包含等效元素、修改、省略、组合(例如，各个实施例中的各方面)、调整或改变(基于本发明)的任何及所有实施例。应根据权利要求中所使用的语言从广义上解释权利要求中的各个元素，并非仅限于本说明书中或申请审查时所述的示例，所述示例应具有非排他性。进一步地，可采用任何方式修改所公开方法的各个步骤，包括将步骤重新排序，或插入或删除步骤。

因此，本说明书和示例仅用作示例，本发明的真实范围和精神如以下权利要求及其等同的全部范围所述。

Claims

1.一种用于实时视频处理的计算机实现系统，包括：

至少一个存储指令的存储器；以及

至少一个执行指令进行操作的处理器，所述操作包括：

接收医学图像系统所生成的实时视频，所述实时视频包括多个图像帧；以及

当接收医学图像系统所生成的实时视频时：

获取表明用户与医学图像系统交互状态的背景信息；

进行目标检测，检测多个图像帧中的至少一个目标；

进行分类，生成多个图像帧中至少一个检测目标的分类信息；以及

进行图像修改，基于目标检测和分类中的至少一种操作来修改接收到的实时视频，并在视频显示设备上生成实时视频及图像修改显示；

其中，所述至少一个处理器还可根据背景信息调用目标检测和分类中的至少一种操作。

2.根据权利要求1所述的系统，其中，使用至少一个执行目标检测和分类中的至少一种操作，所述神经网络经训练可处理从医学图像系统接收到的图像帧。

3.根据权利要求1或2所述的系统，其中，当背景信息表明用户正在与医学图像系统进行交互识别目标时，所述至少一个处理器可调用目标检测操作。

4.根据权利要求3所述的系统，其中，当背景信息表明用户不再与医学图像系统进行交互识别目标时，所述至少一个处理器可进一步停用目标检测操作。

5.根据任何前述权利要求所述的系统，其中，当背景信息表明用户正在与医学图像系统进行交互检查多个图像帧中的至少一个目标时，所述至少一个处理器可调用分类操作。

6.根据权利要求5所述的系统，其中，当背景信息表明用户不再与医学图像系统进行交互检查多个图像帧中的至少一个目标时，所述至少一个处理器可进一步停用分类操作。

7.根据任何前述权利要求所述的系统，其中，当背景信息表明用户对多个图像帧(包含至少一个目标)中的某一区域关注时，所述至少一个处理器可进一步调用目标检测操作，其中，当背景信息表明用户对至少一个目标关注时，所述至少一个处理器可进一步调用分类操作。

8.根据任何前述权利要求所述的系统，其中，所述至少一个处理器可进一步聚合两个或多个帧(包含至少一个目标)，其中，所述至少一个处理器可进一步根据背景信息调用聚合操作。

9.根据任何前述权利要求所述的系统，其中，所述图像修改包括一个覆盖层(包括至少一个表明至少一个检测目标位置的边框)、至少一个目标的分类信息、至少一个目标的缩放图像或修改后的图像颜色分布中的至少一种。

10.根据任何前述权利要求所述的系统，其中，所述至少一个处理器可根据一段时间内两个或多个图像帧中至少一个检测目标位置的交并比(IoU)值生成背景信息。

11.根据任何前述权利要求所述的系统，其中，所述至少一个处理器可根据两个或多个图像帧的图像相似值生成所述背景信息。

12.根据任何前述权利要求所述的系统，其中，所述至少一个处理器可根据多个图像帧中一个或多个目标的检测或分类生成所述背景信息。

13.根据任何前述权利要求所述的系统，其中，所述至少一个处理器可根据医学图像系统从用户处接收到的输入生成所述背景信息。

14.根据任何前述权利要求所述的系统，其中，所述至少一个处理器还可根据分类信息生成所述背景信息。

15.根据任何前述权利要求所述的系统，其中，所述多个图像帧包括胃肠器官的图像帧。

16.根据任何前述权利要求所述的系统，其中，所述帧包括来自内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查中的至少一项检查所使用医学图像设备的图像。

17.根据任何前述权利要求所述的系统，其中，所述至少一个检测目标为异常。

18.根据权利要求17所述的系统，其中，所述异常包括人体组织形成、人体组织中一种细胞变成另一种细胞、人体组织的预期位置处缺少人体组织或病变中的至少一种。

19.一种实时视频处理方法，包括：

接收医学图像系统所生成的实时视频，所述实时视频包括多个图像帧；

提供至少一个神经网络，所述至少一个神经网络经训练可处理来自医学图像系统的图像帧；

获取表明用户与医学图像系统交互状态的背景信息；

根据背景信息确定交互状态；以及

根据所确定的交互状态，使用至少一个经训练的神经网络对多个图像帧进行实时处理。

20.根据权利要求19所述的方法，其中，进行实时处理包括执行目标检测(检测多个图像帧中的至少一个目标)、分类(生成至少一个检测目标的分类信息)和图像修改(修改接收到的实时视频)中的至少一种操作。

21.根据权利要求20所述的方法，其中，当所确定的交互为用户与医学图像系统进行交互导航识别目标时，调用所述目标检测操作。

22.根据权利要求21所述的方法，其中，当背景信息表明用户不再与医学图像系统进行交互导航识别目标时，停用所述目标检测操作。

23.根据权利要求20-22中任一项所述的方法，其中，当所确定的交互为用户与医学图像系统进行交互检查多个图像帧中的至少一个检测目标时，调用所述分类操作。

24.根据权利要求20-23中任一项所述的方法，其中，当背景信息表明用户不再与医学图像系统进行交互检查多个图像帧中的至少一个检测目标时，停用所述分类操作。

25.根据权利要求20-24中任一项所述的方法，其中，当背景信息表明用户对多个图像帧(包含至少一个目标)中的某一区域关注时，调用所述目标检测操作，其中，当背景信息表明用户对至少一个目标关注时，调用所述分类操作。

26.根据权利要求20-25中任一项所述的方法，其中，使用至少一个神经网络执行目标检测和分类中的至少一种操作，所述神经网络经训练可处理从医学图像系统接收到的图像帧。

27.根据权利要求20-26中任一项所述的方法，其中，所述图像修改包括一个覆盖层(包括至少一个表明至少一个检测目标位置的边框)、至少一个检测目标的分类信息、至少一个检测目标的缩放图像或修改后的图像颜色分布中的至少一种。

28.根据权利要求20-27中任一项所述的方法，其中，所述至少一个检测目标为异常。

29.根据权利要求28所述的方法，其中，所述异常包括人体组织形成、人体组织中一种细胞变成另一种细胞、人体组织的预期位置处缺少人体组织或病变中的至少一种。

30.根据权利要求19-29中任一项所述的方法，进一步包括根据背景信息聚合两个或多个帧(包含至少一个目标)。

31.根据权利要求19-30中任一项所述的方法，其中，所述多个图像帧包括胃肠器官的图像帧。

32.根据权利要求19-31中任一项所述的方法，其中，所述帧包括来自内窥镜检查、胃镜检查、结肠镜检查、肠镜检查、腹腔镜检查或外科内窥镜检查中的至少一项检查所使用医学图像设备的图像。