CN117437635A

CN117437635A - 一种生物组织类图像的预标注方法、装置

Info

Publication number: CN117437635A
Application number: CN202311765098.5A
Authority: CN
Inventors: 徐跃书
Original assignee: Hangzhou Haikang Huiying Technology Co ltd
Current assignee: Hangzhou Haikang Huiying Technology Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-01-23
Anticipated expiration: 2043-12-21
Also published as: CN117437635B

Abstract

本申请公开了一种生物组织类图像的预标注方法以及装置，该方法包括：获取待标注目标的视频数据，其中，待标注目标包括生物组织类图像，从视频数据中截取至少两视频帧，得到图像序列，获取图像序列的首帧中的目标框信息，基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，得到图像序列中各视频帧的目标框信息，作为预标注数据。本申请有利于降低人工标注的数量，提高了标注效率。

Description

一种生物组织类图像的预标注方法、装置

技术领域

本发明涉及图像数据标注领域，特别地，涉及一种生物组织类图像的预标注方法和装置。

背景技术

随着现代医疗行业的迅速发展，医疗数据的处理作为智能医疗实施过程中的环节之一，对智能医疗的性能起到重要作用。

非生物组织类的医疗器械和耗材的标注难度相对较低，除了极端情况，如浸血、模糊、阴影等情况下，目标形态保持较好，目标轮廓清晰明确，能得到相同的标注效果。但是生物组织类的标注，特别是一些隐藏在筋膜下的组织，如喉返神经、肾动脉等，则难度较高。其难度主要体现在，目标未清晰暴露时待标注目标的轮廓和位置难以确定，导致难以辨别相似组织和待标注组织。为了推进以生物组织类为目标的标注工作，一套可以辅助生物组织类标注的工具就显得尤为重要，通常，将以神经网络模型所得到的标注数据称为预标注数据。

由于医疗视觉数据往往以手术视频序列的方式呈现，体现出数据量大、动作连续、数据重复性强的特点，且人体内环境的复杂，手术场景不同，待标注目标也不同，因此，像自然场景一样对每个待标注目标训练一个预标注模型的方法实现难度较高，适用性较差。

发明内容

本发明提供了一种生物组织类图像的预标注方法，以实现不同场景下的生物组织的预标注。

本发明第一方面提供一种生物组织类图像的预标注方法，该方法包括：

获取待标注目标的视频数据，其中，待标注目标包括生物组织类图像，

从视频数据中截取至少两视频帧，得到图像序列，

获取图像序列的首帧中的目标框信息，所述目标框信息用于表示待标注目标的位置，

基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，得到图像序列中各视频帧的目标框信息，作为预标注数据。

较佳地，该方法进一步包括：

确定视频数据中的关键帧；

所述从视频数据中截取至少两视频帧，得到图像序列，包括：

以一关键帧为末帧，从视频数据中前向截取视频帧，得到正序图像序列，

或者，

以一关键帧为首帧，从视频数据中后向截取视频帧，得到正序图像序列，

或者，

截取相邻两关键帧之间的视频数据，得到正序图像序列；

所述获取图像序列的首帧中的目标框信息，包括：

对首帧中的待标注目标进行初始标注，得到目标框信息。

较佳地，所述基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，包括：

将正序图像序列按照逆序进行排序，得到逆序图像序列，其中，正序图像序列的末帧为逆序图像序列的首帧，该首帧标注有目标框信息，

基于逆序图像序列的首帧中目标框信息，对该逆序图像序列进行目标跟踪，以对第一形态变化的待标注目标进行预标注，得到逆序图像序列中各视频帧的目标框信息，作为预标注数据；

和/或，

基于正序图像序列的首帧中目标框信息，对该正序图像序列进行目标跟踪，以对第二形态变化的待标注目标进行预标注，得到该正序图像序列中各视频帧的目标框信息，作为预标注数据；

其中，

第一形态变化为生物组织暴露不清晰变化为暴露清晰，

第二形态变化为生物组织暴露清晰变化为暴露不清晰，或者当前暴露清晰状态的变化小于设定的阈值。

将图像序列、以及该图像序列具有目标框的首帧输入至用于目标跟踪的深度学习模型，从深度学习模型的输出结果中得到待标注目标的预标注数据，

其中，

深度学习模型不需要以生物组织类图像为样本的样本训练集进行训练，

输出结果包括：待标注目标的掩码信息、目标框信息、以及置信度信息；

较佳地，该方法进一步包括：

在逆序图像序列进行目标跟踪所得到预标注数据中，筛选出待标注目标的置信度信息大于设定的第一置信度阈值的第一预标注数据，

在正序图像序列进行目标跟踪所得到预标注数据中，筛选出待标注目标的置信度信息大于设定的第二置信度阈值的第二预标注数据，

确定第一预标注数据所在视频帧与第二预标注数据所在视频帧的交集，

对于交集中的每一视频帧，将该视频帧的第一预标注数据和第二预标注数据进行融合，将融合后的预标注数据作为该视频帧的预标注数据，

对于图像序列中不属于交集的任一视频帧，将该视频帧以逆序图像序列进行目标跟踪所得到的预标注数据与以正序图像序列进行目标跟踪所得到的预标注数据进行比较，保留置信度高的预标注数据。

较佳地，所述获取待标注目标的视频数据，包括：

按照设定的解帧密度，对待标注目标的视频流数据进行解帧，得到解帧视频数据，其中，解帧密度为单位时间所解帧的视频帧数量；

所述确定视频数据中的关键帧，包括：

按照设定的抽取方式，基于解帧视频数据进行关键帧抽取，并在解帧视频数据中标记所抽取的关键帧；

所述对首帧中的待标注目标进行初始标注，包括：

根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行标注；

基于解帧视频数据，截取图像序列。

较佳地，所述解帧密度根据待标注目标形态变化和/或预标注数据所需的数据总量设定，待标注目标形态变化越大，解帧密度越大，预标注数据所需的数据总量越多，解帧密度越大；

所述抽取方式包括：等间隔抽取和/或非等间隔抽取，

其中，

等间隔的抽取间隔根据初始标注所标注的帧数确定，

非等间隔的抽取间隔根据待标注目标形态变化确定，待标注目标形态变化越大，抽取间隔越小，待标注目标形态变化越小，抽取间隔越大。

较佳地，所述根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行初始标注，包括：

在待标注目标形态暴露清晰的情况下，利用配置的第一标注资源，对关键帧中的待标注目标直接进行标注，

在待标注目标形态暴露不清晰的情况下，利用配置的第二标注资源，对关键帧中的待标注目标进行标注，该标注过程包括：从关键帧所在的解帧视频数据中获取该关键帧的逆序解帧视频片段，在逆序解帧视频片段中确定暴露清晰的待标注目标，根据该待标注目标的位置，追踪该关键帧中待标注目标的位置，

在待标注目标形态暴露介于清晰和不清晰之间的情况下，不进行标注，

其中，第二标注资源优于第一标注资源。

较佳地，该方法进一步包括：

根据深度学习模型的输出结果，判断是否存在跟踪丢失，

在存在跟踪丢失的情况下，对跟踪丢失的图像序列中的首帧进行初始标注，将该标注有目标框的首帧、以及该跟踪丢失的图像序列输入至深度学习模型，得到跟踪丢失的图像序列的预标注数据。

较佳地，所述将图像序列、以及该图像序列具有目标框的首帧输入至用于目标跟踪的深度学习模型，进一步包括：

在图像序列的首帧中无目标框信息的情况下，将该图像序列拼接至与之相邻的图像序列中，得到拼接后的图像序列，

将拼接后的图像序列、以及该拼接后的图像序列中首帧的目标框信息输入至深度学习模型。

本申请第二方面提供一种生物组织类图像的预标注装置，该装置包括：

视频数据获取模块，用于获取待标注目标的视频数据，其中，待标注目标包括生物组织类图像，

截取模块，用于从视频数据中截取至少两视频帧，得到图像序列，

标注模块，用于获取图像序列的首帧中的目标框信息，所述目标框信息用于表示待标注目标的位置，

跟踪模块，用于基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，得到图像序列中各视频帧的目标框信息，作为预标注数据。

本申请实施例提供的生物组织类图像的预标注方法，基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，以利用图像序列之间的相似关系，得到图像序列中各视频帧的目标框信息，从而在生物组织在形态存在变化、轮廓不清晰等情形下实现预标注，实现了具有不同场景、不同生物组织的泛用性，并降低了人工标注的数量，提高了标注的效率。

附图说明

图1为本申请实施例生物组织类图像的预标注方法的一种流程示意图。

图2为本申请实施例一生物组织类图像的预标注方法的一种流程示意图。

图3 为从视频流数据中得到图像序列的一种示意图。

图4a为根据待标注目标形态变化的不同，采用不同的标注策略对关键帧中的待标注目标进行标注的一种示意图。

图4b 为暴露不清晰的待标注目标进行标注的一种示意图。

图5为本实施例深度学习模型进行目标跟踪的一种示意图。

图6为本申请实施例二生物组织类图像的预标注方法的一种流程示意图。

图7为本申请实施例三生物组织类图像的预标注方法的一种流程示意图。

图8为本申请实施例生物组织类图像的预标注装置的一种示意图。

图9为本申请实施例生物组织类图像的预标注装置的另一种示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

申请人发现，在生物组织类图像数据的预标注中，由于待标注目标形态及其变化导致预标注成为技术瓶颈，本申请实施例利用目标跟踪来进行生物组织类图像数据的预标注，大大降低了生物组织类图像的标注难度。

参见图1所示，图1为本申请实施例生物组织类图像的预标注方法的一种流程示意图。该方法包括：

步骤11，获取待标注目标的视频数据，其中，待标注目标包括生物组织类图像，

作为一种示例，按照设定的解帧密度，对待标注目标的视频流数据进行解帧，以从视频流中提取有效视频帧，得到解帧视频数据，其中，解帧密度为单位时间所解帧的视频帧数量，解帧密度根据待标注目标形态变化和/或预标注数据所需的数据总量设定，待标注目标形态变化越大，解帧密度越大，所需的预标注数据视频帧越多，解帧密度越大；

所应理解的是，对于同一视频流数据，可采用不同的解帧密度进行解帧。

步骤12，从视频数据中截取至少两视频帧，得到图像序列，

作为一种示例，确定视频数据中的关键帧，例如，按照设定的抽取方式，基于解帧视频数据进行关键帧抽取，以便用于进行初始标注，并在解帧视频数据中标记所抽取的关键帧，以便从视频数据中截取视频帧；

其中，

抽取方式包括：等间隔自动抽取和/或非等间隔人工抽取，

等间隔的间隔大小根据初始标注所标注的帧数确定，

非等间隔的间隔大小根据待标注目标形态变化确定，待标注目标形态变化越大，间隔越小，待标注目标形态变化越小，间隔越大。

图像序列可以如下方式得到：

或者，以一关键帧为首帧，从视频数据中后向截取视频帧，得到正序图像序列，

或者，截取相邻两关键帧之间的视频数据，得到正序图像序列。

其中，

前向截取系指以当前关键帧的时间信息为参照截取早于该关键帧所在时间的视频帧的操作，

后向截取系指以当关键帧的时间信息为参照截取晚于该关键帧所在时间的视频帧的操作，

正序图像序列系指图像序列中各视频帧之间的时序关系与视频流中该各视频帧的时序关系相同，

逆序图像序列系指图像序列中各视频帧之间的时序关系与视频流中该各视频帧的时序关系相反，

同一图像序列内所包含的视频帧连续，例如，正序图像序列1由视频帧1~5组成，其中，视频帧1~5连续，

相邻图像序列之间可以是连续的，例如，正序图像序列1由视频帧1~5组成，图像序列2由视频帧5~10组成，当相邻正序图像序列均是以截取相邻两关键帧之间的视频数据的方式获得时，则上一图像序列的末帧为下一图像序列的首帧，例如，前例中，正序图像序列1中视频帧5为该序列中的末帧，同时也是正序图像序列2中的首帧，

相邻图像序列之间也可以是不连续的，例如，正序图像序列1由视频帧1~5组成，正序图像序列2由视频帧10~12组成，这时，视频帧5与视频帧10之间是不连续的，从而正序图像序列1与正序图像序列2之间不连续。

步骤13，获取图像序列的首帧中的目标框信息，

作为一种示例，对首帧中的待标注目标进行初始标注，得到目标框信息，目标框信息用于表示待标注目标的位置。例如，根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行标注：

在待标注目标形态暴露清晰的情况下，利用配置的第一标注资源，对关键帧中的待标注目标直接进行初始标注，

在待标注目标形态暴露介于清晰和不清晰之间的情况下，不进行标注。

其中，第二标注资源优于第一标注资源，标注资源包括且不限于，用于标注的人力资源、物力资源、资质资源等。

步骤14，基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，得到图像序列中各视频帧的目标框信息，作为预标注数据。

作为一种示例，将图像序列、以及该图像序列具有目标框的首帧输入至用于目标跟踪的深度学习模型，从深度学习模型的输出结果中得到待标注目标的预标注数据，

其中，

深度学习模型不需要以生物组织类图像为样本的样本训练集进行训练，也就是说，深度学习模型可不必进行生物组织类图像本域数据的训练，而可采用非生物组织类图像等其它领域的样本数据进行训练，由此有利于提高数据标注的效率，减低生物组织类图像数据标注成本。

图像序列包括：正序图像序列、逆序图像序列中的至少之一，其中，逆序图像序列可以将正序图像序列按照逆序进行排序而得到。

作为一种示例，可以对同一图像序列的正序图像序列、逆序图像序列分别进行目标跟踪，如此一来，在逆序图像序列进行目标跟踪所得到预标注数据中，筛选出待标注目标的置信度信息大于设定的第一置信度阈值的第一预标注数据，在正序图像序列进行目标跟踪所得到预标注数据中，筛选出待标注目标的置信度信息大于设定的第二置信度阈值的第二预标注数据，确定第一预标注数据所在视频帧与第二预标注数据所在视频帧的交集，对于交集中的每一视频帧，将该视频帧的第一预标注数据和第二预标注数据进行融合，将融合后的预标注数据作为该视频帧的预标注数据，对于图像序列中不属于交集的任一视频帧，将该视频帧以逆序图像序列进行目标跟踪所得到预标注数据与以正序图像序列进行目标跟踪所得到预标注数据进行比较，保留置信度高的预标注数据，以有利于提高预标注数据的准确性，得到高质量的预标注数据。

此外，在图像序列的首帧中无目标框信息的情况下，将该图像序列拼接至与之相邻的图像序列中，得到拼接后的图像序列，将拼接后的图像序列、以及该拼接后的图像序列中首帧的目标框信息输入至深度学习模型。

在存在跟踪丢失的情况下，对跟踪丢失的图像序列中的首帧进行初始标注，将该首帧目标框、以及该跟踪丢失的图像序列输入至深度学习模型，得到跟踪丢失的图像序列的预标注数据，如此反复，直至图像序列中的各帧都进行了预标注，以提高预标注的鲁棒性。

本申请实施例提供的生物组织类图像的预标注方法，通过逆序图像序列的目标跟踪，能够对特征不明显的隐藏组织或未暴露组织进行预标注；通过正序图像序列的目标跟踪，既能够加快已暴露组织的预标注，提高预标注的效率和自动化程度，又能够对暴露清晰变化为暴露不清晰的组织进行预标注；借助深度学习模型来实现目标跟踪，可以不需要过多的先验信息，不需要提前在生物组织类图像域数据训练的深度学习模型和大量的样本训练集，降低了预标注的难度。

为便于理解本申请，以下结合不同实施例来说明。

实施例一

本实施例针对视频流数据中生物组织由暴露不清晰变化为暴露清晰即第一形态变化的待标注目标进行预标注。参见图2所示，图2为本申请实施例一生物组织类图像的预标注方法的一种流程示意图。该方法包括：

步骤21，将视频流数据进行解帧，对解帧得到的解帧视频数据进行关键帧抽取，得到关键帧，并在解帧视频数据标记关键帧，截取位于相邻两关键帧之间的解帧视频数据，得到图像序列。

鉴于生物组织类图像数据往往以视频流的形式存在，其记录了手术实施的全过程，手术实施过程中随着医疗器械的介入、病灶的暴露和清除、医疗器械的整理与手术的结束，视频流数据存在着较为明显的时序性，在不同实施阶段中待标注目标的形态也不尽相同，例如，在医疗器械介入以及病灶暴露之前，待标注目标往往不显性，该部分标注难度较高，在对病灶进行确认的过程中，待标注目标往往清晰可见，且随着手术的进行会呈现出不同的形态，该部分数据标注相对难度较低。

故而，在对视频流数据进行截取以获得图像序列时，可以先对视频流数据进行解帧处理，以得到解帧视频数据。解帧处理时主要考虑是解帧密度，解帧密度为单位时间内所提取的视频帧的数量，例如，每秒4帧，解帧密度的大小可以根据两个层面确定：

1、根据待标注目标形态变化确定，待标注目标形态变化越大，解帧密度越大。

为保证后续预标注质量，手术动作较快时，因待标注组织形态变化较快，则以第一解帧密度进行解帧，以便以更高的解帧密度进行解帧，得到更多视频帧数据；反之，手术动作较慢时，因待标注组织形态变化较慢，则以第二解帧密度进行解帧，以便以较低的解帧密度进行解帧。其中，第一解帧密度大于第二解帧密度。

2、根据预标注数据所需的数据总量设定，预标注数据所需的数据总量越多，解帧密度越大，

作为一个示例，使用高于或等于所需求的数据总量作为解帧密度。

例如，在进行甲状腺切除手术中喉返神经标注时，可以通过该病灶暴露出的形态对解帧密度进行把控，因喉返神经只在“显露、纤维包裹”之后的“分离RLN”、“解剖甲状腺”、“切除甲状腺后”等阶段才具有清晰形态，可以考虑增大解帧密度，以提高有效数据比例。由此，可获得高于或等于预标注需求数据总量的图像序列数据。

基于解帧处理所得到的解帧视频数据，抽取关键帧数据，并在解帧视频数据中标记所抽取的关键帧。关键帧抽取时主要考虑的是抽取方式，包括但不限于：

按照设定的抽取间隔等间隔自动抽取。例如，根据初始标注可提供的首帧目标框的帧数，设定抽取间隔；按照抽取间隔，等间隔地从解帧视频数据中抽取关键帧，获得占解帧视频数据总量一定比例的关键帧，其中，关键帧总数占解帧视频数据总量的比例为抽取比例；

根据手术阶段非等间隔地人工抽取。例如，在进行甲状腺切除手术中喉返神经标注时，可以根据该病灶暴露的形态灵活抽取图片，在清晰暴露阶段以第一间隔抽取，在动作较快或目标未清晰暴露阶段以第二间隔抽取，其中，第一间隔大于第二间隔，由此获得数据量大大降低的关键帧。

以所标记的两相邻关键帧为首帧和末帧，从解帧视频数据中截取位于首帧和末帧之间视频帧，得到一图像序列；鉴于所截取的图像序列与视频帧的时序相同，该图像序列称为正序图像序列。如此，当关键帧的数量为n时，可得到n-1个正序图像序列。

参见图3所示，图3为从视频流数据中得到图像序列的一种示意图。例如，视频流数据包括数万帧的视频帧，按照设定的解帧密度，从数万帧视频流数据中解帧出数千帧视频帧，得到解帧视频数据；按照抽取比例，从解帧视频数据中抽取关键帧并进行标记关键帧；以所标记的两相邻关键帧为首帧和末帧，从解帧视频数据中截取位于首帧和末帧之间视频帧，得到至少一个图像序列。所应理解的是，图中抽取处理和截取处理在实际应用中可合并为同一处理，通过同一代码的实现。

步骤22，对各正序图像序列分别进行逆序操作，得到各逆序图像序列，

所应理解的是，正序图像序列的首帧为逆序图像序列的末帧，正序图像序列的末帧为逆序图像序列的首帧，

逆序操作系指将正序图像序列按照逆序进行排序，

步骤23，对各关键帧中的目标进行初始标注，得到各关键帧中的目标框信息，

参见图4a所示，图4a为根据待标注目标形态变化的不同，采用不同的标注策略对关键帧中的待标注目标进行标注的一种示意图。在进行初始标注时，根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行标注，例如，根据关键帧中目标暴露形态的不同，采用不同的标注策略：

对于清晰暴露的待标注目标，可配置较低的第一标注资源直接进行标注，例如，由一般见习医生进行标注；

对于不清晰暴露的待标注目标，可配置较高的第二标注资源进行标注，例如，由高级人员例如专家医生进行标注；

对于介于清晰暴露和不清晰暴露的待标注目标，不进行初始标注。

如此，根据不同的标注策略，匹配不同的标注资源，有利于降低生物组织类图像数据的标注成本，提高标注效率和准确性。

上述对于不清晰暴露的待标注目标进行初始标注的目的，是对目标跟踪进行一定的纠正，以避免逆序跟踪时跟踪位置过早地偏离目标。

对于不清晰暴露的待标注目标，在初始标注时，将步骤21所得到的正序图像序列进行逆序操作，获得逆序解帧视频片段，以实现待标注目标由不清晰到清晰的转变，以此实现借助清晰暴露的目标位置对不清晰暴露的目标位置进行追踪识别。参见图4b所示，在逆序解帧视频片段中确定暴露清晰的待标注目标，根据该待标注目标的位置，追踪该关键帧中待标注目标的位置。

所应理解的是，步骤22、23没有严格三顺序关系，可并行执行。

步骤24，对于每一逆序图像序列，将该逆序图像序列、以及该逆序图像序列的首帧及其目标框输入至用于目标跟踪的深度学习模型中，从深度学习模型的输出得到待标注目标的掩码信息（Mask）、目标框信息、目标置信度。

依赖于深度学习目标跟踪技术，只需要提供片段序列的首帧中目标框的位置信息，就可以实现后续帧中目标位置的确认。在该步骤中，将逆序图像序列的首帧中的目标框作为首帧跟踪框，以便深度学习模型进行目标跟踪。作为一种示例，在首帧目标框无法标注的情形下，则将该首帧目标框所在的逆序图像序列拼接至与之相邻的逆序图像序列中，得到拼接后的图像序列，将拼接后的图像序列、以及该拼接后的图像序列中首帧的目标框信息输入至深度学习模型。

用于目标跟踪的深度学习模型可以是基于光流、几何或纹理特征的跟踪器，如卡尔曼滤波器等方法。根据待标注目标的形态和需求来选择跟踪器，例如，在一张图内有多个待标注目标时，可以选择支持多目标跟踪的Deep Sort系列多目标跟踪（MOT）算法的深度学习模型；在一张图内仅有一个待标注目标时，可以选择Siam Mask系列基于暹罗神经网络的单目标跟踪（SOT）算法。

参见图5所示，图5为本实施例深度学习模型进行目标跟踪的一种示意图。在网络结构中，具有目标框的首帧和逆序图像序列经过特征提取网络分别得到特征图，所得到的两特征图尺度不同、维度相同，对两特征图进行相关计算，得到响应向量，将响应向量通过第一卷积网络处理，得到待标注目标或背景的Mask信息，通过第二卷积网络处理，得到待标注目标的目标框信息，通过第三卷积网络处理，得到置信度信息。

步骤25，根据深度学习模型输出的每帧中的目标的掩码信息、目标框信息、目标置信度，判断是否存在跟踪丢失，例如，判断每帧中是否识别出待标注目标的目标框信息、掩码信息，且置信度是否达到设定的置信度阈值，

如果是，则判定存在跟踪丢失，对存在跟踪丢失的逆序图像序列，将丢失逆序图像序列中的首帧进行初始标注，得到首帧目标框，将丢失逆序图像序列以及具有目标框的首帧输入至深度学习模型中，返回步骤25，直至该逆序图像序列均进行了标注。

否则，整合逆序图像序列中每帧中待标注目标的掩码信息、目标框信息、置信度，得到预标注数据。

对于跟踪丢失的判定，可以使用的方法包括但不限于，基于响应向量强度进行判定，如平均峰值能量、直方图响应强度等；基于深度学习模型输出的置信度进行判定；在预标注数据积累到一定数量后，还可以采用结合目标检测模型的基于预测框和真实框之间的重叠率（IOU）的方法判定。

通过跟踪丢失的判定，可获得需补充标注的视频帧，相比于基于单帧的目标跟踪，基于图像序列的目标跟踪无需提供该标注目标的大量已标注图像，也就是说，即使不具备以生物组织类图像为样本的样本训练集良好训练的深度学习模型，而采用非生物组织类图像为样本的样本训练集所训练的深度学习模型，也可以实现图像帧中待标注目标的标注，这在医疗数据的首次AI探索任务中显得尤为珍贵。

在本实施例中，利用逆序图像序列进行目标跟踪，使得隐藏组织和未暴露组织的预标注得以实现，并有利于提高预标注精度。

所应理解的是，当解帧视频数据的总量高于预标注数据所需的数据总量时，例如，预标注数据所需的数据总量为2000帧，解帧视频数据的总量为2500帧，其中，解帧视频数据的总量高于预标注数据所需的数据总量，则可以对解帧视频数据进行筛选，使得筛选后的解帧视频数据的总量与预标注数据所需的数据总量相同，也可以不进行解帧视频数据的筛选，而是在得到预标注数据后进行整合，以满足预标注数据所需的数据总量，还可以是这两种方式的结合，即，既对解帧视频数据进行筛选，也在得到预标注数据后进行整合。

实施例二

本实施例针对视频流数据中生物组织由暴露清晰变化为暴露不清晰即第二形态变化的待标注目标进行预标注。参见图6所示，图6为本申请实施例二生物组织类图像的预标注方法的一种流程示意图。该方法包括：

步骤61，从视频数据中获取图像序列，

该步骤可以与步骤21相同，所获取的图像序列为正序图像序列。

步骤62，对各关键帧中的目标进行初始标注，得到各关键帧中的目标框信息，

该步骤可以与步骤23相同，

步骤63，对于每一正序图像序列，将该正序图像序列、以及该正序图像序列的首帧及其目标框输入至用于目标跟踪的深度学习模型中，从深度学习模型的输出得到待标注目标的掩码信息、目标框信息、目标置信度。

步骤64，根据深度学习模型输出的每帧中的目标的掩码信息、目标框信息、目标置信度，判断是否存在跟踪丢失，

如果是，则判定存在跟踪丢失，对存在跟踪丢失的正序图像序列，将丢失正序图像序列中的首帧进行初始标注，得到首帧目标框，将丢失正序图像序列以及具有目标框的首帧输入至深度学习模型中，返回步骤64，直至该正序图像序列均进行了标注。

否则，整合正序图像序列中每帧中待标注目标的掩码信息、目标框信息、置信度，得到预标注数据。

所应理解的是，在本实施例中，待标注目标当前暴露清晰状态的变化小于设定的阈值，例如，待标注目标已暴露且维持暴露清晰的当前状态，也就是说，可以没有形态的变化。

在本实施例中，利用正序图像序列进行目标跟踪，对于已暴露且无形态变化的待标注目标，有利于提高预标注的效率，降低人工标注的成本，对于暴露清晰变化为暴露不清晰的待标注目标，使得隐藏组织和未暴露组织的预标注得以实现。

实施例三

本实施例针对视频流数据中第一形态变化和/或第二形态变化的待标注目标的预标注。参见图7所示，图7为本申请实施例三生物组织类图像的预标注方法的一种流程示意图。该方法包括：

步骤701，从视频数据中获取图像序列，

步骤702，对各正序图像序列分别进行逆序操作，得到各逆序图像序列，

该步骤与步骤22相同，

步骤703，对各关键帧中的目标进行初始标注，得到各关键帧中的目标框信息，

该步骤可以与步骤23相同，

步骤704，对于每一逆序图像序列，将该逆序图像序列、以及该逆序图像序列的首帧及其目标框输入至用于目标跟踪的第一深度学习模型中，从第一深度学习模型的输出得到待标注目标的掩码信息、目标框信息、目标置信度，作为第一预标注数据。

步骤705，根据第一深度学习模型输出的每帧中的目标的掩码信息、目标框信息、目标置信度，判断是否存在跟踪丢失，

如果是，则判定存在跟踪丢失，对存在跟踪丢失的逆序图像序列，将丢失逆序图像序列中的首帧进行初始标注，得到首帧目标框，将丢失逆序图像序列以及具有目标框的首帧输入至第一深度学习模型中，返回步骤705，直至该逆序图像序列均进行了标注。

否则，整合每帧中待标注目标的掩码信息、目标框信息、置信度，得到预标注数据。

步骤706，对于每一正序图像序列，将该正序图像序列、以及该正序图像序列的首帧及其目标框输入至用于目标跟踪的第二深度学习模型中，从第二深度学习模型的输出得到待标注目标的掩码信息、目标框信息、目标置信度，

步骤707，根据第二深度学习模型输出的每帧中的目标的掩码信息、目标框信息、目标置信度，判断是否存在跟踪丢失，

如果是，则判定存在跟踪丢失，对存在跟踪丢失的正序图像序列，将丢失正序图像序列中的首帧进行初始标注，得到首帧目标框，将丢失正序图像序列以及具有目标框的首帧输入至第二深度学习模型中，返回步骤707，直至该正序图像序列均进行了标注。

在本实施例中，通过对每一正序图像序列、和每一逆序图像序列分别进行目标跟踪，可分别得到预标注数据，这相当于对同一图像序列进行了两次预标注，也就是说，对同一视频帧进行了两次预标注。

步骤708，对于步骤705所得到的预标注数据，筛选出待标注目标的置信度信息大于设定的第一置信度阈值的第一预标注数据，以得到质量较佳的预标注数据，

步骤709，对于步骤707所得到的预标注数据，筛选出待标注目标的置信度信息大于设定的第二置信度阈值的第二预标注数据，以得到质量较佳的预标注数据，

步骤710，确定第一预标注数据所在视频帧与第二预标注数据所在视频帧的交集，

步骤711，对于交集中的每一视频帧，将该视频帧的第一预标注数据和第二预标注数据进行融合，将融合后的预标注数据作为该视频帧的预标注数据。

作为一种示例，根据该视频帧的第一预标注数据中的置信度以及第二预标注数据中的置信度，加权融合待标注目标的目标框、掩码信息。

步骤712，对于步骤705所得到的预标注数据中不属于交集的视频帧，将该视频帧所对应的步骤707所得到的预标注数据与该视频帧所对应的步骤705所得到的预标注数据进行比较，选取两预标注数据中置信度大的预标注数据作为该视频帧的预标注结果。

通过步骤708~711，使得同一视频帧质量较佳的预标注数据得以融合，通过步骤712，使得同一视频帧的较佳预标注数据得以保留，从而有利于提高预标注数据的准确性。

所应理解的是，上述步骤708、709没有严格的先后次序，可以并行执行，第一深度学习模型和第二深度学习模型可以是同一深度学习模型，也可以是不同的深度学习模型。在第一深度学习模型和第二深度学习模型为不同的深度学习模型的情形下，步骤704、705、708可以与步骤706、707、709并行执行，从而有利于提高预标注效率。

在本实施例中，对于同一图像序列，利用其正序图像序列和逆序图像序列分别进行目标跟踪，并对分别得到的预标注数据进行融合，既有利于提高预标注数据的准确性和鲁邦性，又有利于提高对待标注目标的适应性，使得预标注具有更较佳的通用性。

参见图8所示，图8为本实施例生物组织类图像的预标注装置的一种示意图。该装置包括：

标注模块，用于获取图像序列的首帧中的目标框信息，

该装置还包括：

抽取模块，用于抽取视频数据中的关键帧；

其中，

视频数据获取模块包括：

解帧模块，用于按照设定的解帧密度，对待标注目标的视频流数据进行解帧，得到解帧视频数据。

所述截取模块被配置以一关键帧为末帧，从视频数据中前向截取视频帧，得到正序图像序列，或者，以一关键帧为首帧，从视频数据中后向截取视频帧，得到正序图像序列，或者，截取相邻两关键帧之间的视频数据，得到正序图像序列。

所述跟踪模块还被配置用于根据深度学习模型的输出结果，判断是否存在跟踪丢失，在存在跟踪丢失的情况下，对跟踪丢失的图像序列中的首帧进行初始标注，将该首帧目标框、以及该跟踪丢失的图像序列输入至深度学习模型，得到跟踪丢失的图像序列的预标注数据。

该装置还包括：

预标注数据后处理模块，用于在逆序图像序列进行目标跟踪所得到预标注数据中，筛选出待标注目标的置信度信息大于设定的第一置信度阈值的第一预标注数据，

对于图像序列中不属于交集的任一视频帧，将该视频帧以逆序图像序列进行目标跟踪所得到预标注数据与以正序图像序列进行目标跟踪所得到预标注数据进行比较，保留置信度高的预标注数据。

参见图9所示，图9为本实施例生物组织类图像的预标注装置的另一种示意图。该装置包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置执行计算机程序以实现本申请实施例所述生物组织类图像的预标注方法的步骤。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例所述生物组织类图像的预标注方法的步骤。

对于装置/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种生物组织类图像的预标注方法，其特征在于，该方法包括：

从视频数据中截取至少两视频帧，得到图像序列，

2.如权利要求1所述的预标注方法，其特征在于，该方法进一步包括：

确定视频数据中的关键帧；

或者，

截取相邻两关键帧之间的视频数据，得到正序图像序列。

3.如权利要求2所述的预标注方法，其特征在于，所述基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，包括：

和/或，

其中，

第一形态变化为生物组织暴露不清晰变化为暴露清晰，

4.如权利要求3所述的预标注方法，其特征在于，所述基于图像序列的首帧中目标框信息，对该图像序列进行目标跟踪，包括：

其中，

输出结果包括：待标注目标的掩码信息、目标框信息、以及置信度信息。

5.如权利要求3所述的预标注方法，其特征在于，该方法进一步包括：

6.如权利要求2所述的预标注方法，其特征在于，所述获取待标注目标的视频数据，包括：

所述确定视频数据中的关键帧，包括：

所述获取图像序列的首帧中的目标框信息包括：根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行初始标注；

基于解帧视频数据，截取图像序列。

7.如权利要求6所述的预标注方法，其特征在于，所述解帧密度根据待标注目标形态变化和/或预标注数据所需的数据总量设定，待标注目标形态变化越大，解帧密度越大，预标注数据所需的数据总量越多，解帧密度越大；

所述基于解帧视频数据进行关键帧抽取，包括：等间隔抽取和/或非等间隔抽取，

其中，

等间隔的抽取间隔根据初始标注所标注的帧数确定，

8.如权利要求6所述的预标注方法，其特征在于，所述根据待标注目标形态的不同，采用不同的标注策略对关键帧中的待标注目标进行初始标注，包括：

在待标注目标形态暴露介于清晰和不清晰之间的情况下，不进行初始标注，

其中，第二标注资源优于第一标注资源。

9.如权利要求4所述的预标注方法，其特征在于，该方法进一步包括：

根据深度学习模型的输出结果，判断是否存在跟踪丢失，

10.如权利要求4所述的预标注方法，其特征在于，所述将图像序列、以及该图像序列具有目标框的首帧输入至用于目标跟踪的深度学习模型，进一步包括：

11.一种生物组织类图像的预标注装置，其特征在于，该装置包括：