CN116189050B

CN116189050B - 一种上消化道内镜视频肿瘤诊断关键帧的提取方法及装置

Info

Publication number: CN116189050B
Application number: CN202310142617.6A
Authority: CN
Inventors: 徐瑞华; 骆卉妍; 李超峰; 贺龙君; 徐国梁; 经秉中; 邓一术; 陈浩华
Original assignee: Sun Yat Sen University Cancer Center
Current assignee: Sun Yat Sen University Cancer Center
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-08-22
Anticipated expiration: 2043-02-20
Also published as: CN116189050A

Abstract

本发明公开了一种上消化道内镜视频肿瘤诊断关键帧的提取方法及装置，包括：将待处理的内镜视频时序帧输入抖动消除模型，得到第一时序帧；将所述第一级时序帧输入至预设的肿瘤预测模型，最后输出得到包含预测结果的第二级时序帧；将所述预测结果连接成第一预测曲线，并将所述第一预测曲线输入至平滑模型，得到平滑后的第二预测曲线；根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域。本发明能减少内镜视频中噪声对肿瘤诊断关键帧提取的干扰，提升内镜AI辅助诊断的可靠性。

Description

一种上消化道内镜视频肿瘤诊断关键帧的提取方法及装置

技术领域

本发明涉及内镜视频关键帧提取技术领域，尤其涉及一种上消化道内镜视频肿瘤诊断关键帧的提取方法及装置。

背景技术

内镜检查是消化道肿瘤检查的重要手段，通过内镜检查，能顺次地观察食管，胃，十二指肠球部甚至降部的粘膜状态，而传统肿瘤筛查的内镜检查需要年资较高的内镜医生进行专业、仔细、谨慎的观察和判断才能识别出肿瘤的位置、形态和性质。

如何将高年资内镜医生的识别能力抽取成为一个独立的深度学习模型是人工智能内镜肿瘤区域识别应用落地的重要步骤。

在利用深度学习模型预测内镜视频肿瘤概率存在如下问题：

①内镜视频存在严重的抖动和动态模糊的情况，不进行抖动稳定会影响模型识别。

②内镜图像噪声较大，现实情况下可能还有更多、更复杂的噪声会出现，不去除会影响模型识别。

③关键帧中会包含一些与内镜诊断无关的反光光斑、器材、阴影，不去除会影响模型识别。

④若模型误报，会出现平稳的预测曲线的局部峰值现象，单从模型的输入端也就是图像进行三帧采样难以降低波动的出现。

⑤除了实时的模型在肿瘤区域的预测识别、定位能力外，模型上还需对关键帧进行捕捉，现实情况下往往会出现几十甚至几百张关键帧需要被记录，若不结合模型输出的概率进行筛选会增加使用上的复杂度。

⑥现有方法通常简单的结合内镜视频关键帧(其中，“内镜肿瘤诊断关键帧”指在内镜肿瘤诊断过程中，由医生判断为具有重要诊断意义的帧)前一帧、关键帧本身和关键帧后一帧，共三帧图像，利用通用的CNN模型对三帧图像特征进行提取，再使用全连接层进行特征融合，结合一些简单的图像预处理和后处理，无法完全消除上述问题，从而导致肿瘤预测的结果产生假阳性，不够稳定可靠。

发明内容

本发明实施例提供一种上消化道内镜视频肿瘤诊断关键帧的提取方法及装置，能关键解决上述现有技术中存在的技术问题，提高深度学习模型在提取内镜视频中肿瘤关键帧的精度。

本发明一实施例提供一种上消化道内镜视频肿瘤诊断关键帧的提取方法，包括：

将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动稳定模型利用仿射变换原理构建而成；

将所述第一级时序帧输入至预设的肿瘤预测模型，以使所述肿瘤预测模型依次对所述第一级时序帧进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后，得到包含预测结果的第二级时序帧；其中，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，所述预测结果为所述第一级时序帧中的每一帧图像内含有肿瘤区域的预测概率值；

将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线；

根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧预测图像。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过将待处理的视频时序帧先输入至抖动消除模型，消除时序帧的抖动，得到稳定的预测图像，再将稳定的预测图像输入至预测模型中，依次进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后得到预测结果，最后通过平滑模型处理最小化拟合残差值，得到最终平滑的预测曲线。最后根据预测曲线的局部最大值从内镜视频时序帧中提取筛选出关键帧图像。由此，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法能够关键提高内镜视频时序帧的肿瘤关键帧提取精度，进而减少基于内镜视频进行肿瘤检测时的假阳性率，提升内镜AI辅助诊断的可靠性。

进一步的，所述将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧，具体包括：

所述抖动消除模型对所述待处理的内镜视频时序帧进行若干次平均采样，每次的采样间隔递增，得到若干组时序图像数据；

对所述若干组时序图像数据中每相邻两帧图像预测仿射变换矩阵，得到若干组仿射变换矩阵数据，然后对所有所述仿射变换矩阵进行计算，得到若干组对应的光流矩阵；

在对所述若干组光流矩阵中不满足预设图像数量的光流矩阵进行线性插值后，对所有所述光流矩阵求平均，得到若干组平滑数据组；

分别计算所述若干组平滑数据组与参考数据组的偏移差值，若所述偏移差值超出预设阈值，则向对应的平滑数据组增加偏移值，最终得到若干组平滑光流矩阵；

将所述若干组平滑光流矩阵取反，并应用到每一帧待处理的内镜视频时序帧中，得到消除抖动后的第一级时序帧。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法采用了深度学习预测仿射变换参数的方法，并对仿射变换参数得出的光流矩阵进行平滑，进而进行抖动稳定处理，从而能够消除视频图像的抖动和动态模糊，为后续肿瘤区域预测做好铺垫。

进一步的，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，具体为：

训练一个异常区域检测UNet模型，预测图像异常区域，包含UNet编码器和UNet解码器；

训练一个图像修复MAE模型，所述图像修复MAE模型是一个Transformer组成的Auto Encoder模型，用于修复图像异常区域，包含MAE编码器和MAE解码器；

训练一个肿瘤预测Transformer模型，用于预测修复后图像的肿瘤区域以及概率，包含Transformer编码器和Transformer解码器；

将所述Transformer模型与所述UNet编码器、Unet解码器和MAE编码器、MAE解码器模块结合，构建成肿瘤预测模型。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法将三个深度学习模型结合为一个预测模型，将抖动稳定后的视频图像输入至预测模型，能够去除噪声，检测并修复异常区域，同时能够对肿瘤区域进行分割预测，实现一个模型解决三个现有技术问题。

进一步的，所述将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：

将所述预测结果连接为第一预测曲线并将所述第一预测曲线输入至平滑模型后，利用Savitzky-Golay卷积平衡算法，通过滑动窗口的方式最小化所述第一预测结果的二乘拟合残差值，最终得到平滑后的第二预测曲线。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法将得到的预测结果连线并对得到的概率曲线进行平滑处理，提高了预测结果的准确度。

进一步的，所述根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域，具体包括：

对所述第二预测曲线按预设时间长度进行分组，得到若干组预测数值；

获取每组所述预测数值中的最大值，若所述最大值超过预设关键阈值，则记录所述最大值对应的时间点，作为关键时间点；

根据所述关键时间点，从所述第二级时序帧中分别提取出各所述关键时间点对应的肿瘤关键帧预测图像。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法获取预测结果曲线中的多个局部极大值对应的时间点的关键帧数据，截图保存，能够提高关键帧提取的对AI辅助诊断的可靠性。

本发明另一实施例对应提供了一种上消化道内镜视频肿瘤诊断关键帧的提取装置，其特征在于，包括：抖动稳定模块、预测模块、平滑模块以及关键帧提取模块；

所述抖动稳定模块用于将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动消除模型利用仿射变换原理构建而成；

所述预测模块用于将所述第一级时序帧输入至预设的肿瘤预测模型，以使所述肿瘤预测模型依次对所述第一级时序帧进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后，得到包含预测结果的第二级时序帧；其中，所述肿瘤预测模型由常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，所述预测结果为所述第一时序帧中的每一帧图像内含有肿瘤区域的预测概率值；

所述平滑模块用于将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线；

所述关键帧提取模块用于根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域。

与现有技术相比，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取装置通过将待处理的视频时序帧先输入至抖动消除模型，消除时序帧的抖动，得到稳定的预测图像，再将稳定的预测图像输入至预测模型中，依次进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后得到预测结果，最后通过平滑模型处理最小化拟合残差值，得到最终平滑的预测曲线。最后根据预测曲线的局部最大值从内镜视频时序帧中提取筛选出关键帧图像。由此，能够有效提高内镜视频时序帧的肿瘤关键帧提取精度，进而减少基于内镜视频进行肿瘤检测时的假阳性率，提升内镜AI辅助诊断的可靠性。

进一步的，所述抖动稳定模块用于将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧，具体包括：

进一步的，所述平滑模块用于将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：

将所述预测结果连接为第一预测曲线并将所述第一预测曲线输入至平滑模型后，利用Savitzky-Golay卷积平衡算法，通过滑动窗口的方式最小化所述预测结果的二乘拟合残差值，最终得到平滑后的第二预测曲线。

进一步的，所述关键帧提取模块用于根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域，具体包括：

根据所述关键时间点分别提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域。

附图说明

图1是本发明一实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法的流程示意图。

图2是本发明一实施例提供的一种抖动消除模型的训练过程示意图。

图3是本发明一实施例提供的一种异常区域检测UNet模型的训练过程示意图。

图4是本发明一实施例提供的一种图像修复MAE模型的训练过程示意图。

图5是本发明一实施例提供的一种异常区域检测UNet模型与图像修复MAE模型的合并过程示意图。

图6是本发明一实施例提供的一种肿瘤预测Transformer模型的构建过程示意图。

图7是本发明一实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法的流程示意图，包括：

S101：将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动稳定模型利用仿射变换原理构建而成；

S102：将所述第一级时序帧输入至预设的肿瘤预测模型，以使所述肿瘤预测模型依次对所述第一级时序帧进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后，得到包含预测结果的第二级时序帧；其中，述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，所述预测结果为所述第一时序帧中的每一帧图像内含有肿瘤区域的预测概率值；

S103：将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线；

S104：根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域。

本发明实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过将待处理的视频时序帧先输入至抖动消除模型，消除时序帧的抖动，得到稳定的预测图像，再将稳定的预测图像输入至预测模型中，依次进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后得到预测结果，最后通过平滑模型处理最小化拟合残差值，得到最终平滑的预测曲线。最后根据预测曲线的局部最大值从内镜视频时序帧中提取筛选出关键帧图像。由此，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取方法能够有效提高内镜视频时序帧的肿瘤关键帧提取精度。

对于步骤S101，具体的，所述将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一时序帧，具体包括：

在一个优选的实施例中，参见图2，训练一个能够预测两张图片放射变换参数矩阵的模型，其中Encoder为自监督预训练模型。以处理10帧图像举例，抖动稳定模型的具体应用步骤如下：

a.对10帧图像进行多次平均采样，每次间隔增加1，得到

[0,1,2,3,4,5,6,7,8,9]，[0,1,3,5,7,9]，[0,3,6,9]，[0,1,5,9]，[0,4,9]

这5组时序图像数据，其中0和9作为起始帧和结束帧被保留。

b.对每组图像数据相邻两帧图像预测仿射变换矩阵，得到5组仿射变换矩阵数据。对于所有的仿射变换矩阵，生成其光流矩阵。

c.对于不满足9个图像数量的光流矩阵数据组进行线性插值，如

[1,2,3,4,5,6,7,8,9]，[1,3,3,5,5,7,7,9,9]，[3,3,3,6,6,6,9,9,9]，

[1,5,5,5,5,9,9,9,9]，[4,4,4,4,9,9,9,9,9]。

d.将所有光流矩阵一一对应求平均，以获得更加平滑的网格采样图

[(1+1+3+1+4)/5,(2+3+3+5+4)/5,(3+3+3+5+4)/5,(4+5+6+5+4)

/5,(5+5+6+6+5+9)/5,(6+7+6+9+9)/5,(7+7+9+9+9)/5,(8+9+9+9+9)/5,(9

+9+9+9+9)/5]

e.得到平滑的光流矩阵数据组后，与未平滑的第一组[1,2,3,4,5,6,7,8,9]

网格采样图一一对应计算其光流矩阵的偏移差值矩阵。遍历每一个偏移差值矩阵，若偏移矩阵的最大偏移差值大于预设的偏移差值，则使对应的光流矩阵减去偏移矩阵的最大偏移差值与预设偏移差值的差的绝对值，防止图像平移超过边界，导致画面的过度裁剪。

f.得到平滑的光流矩阵后，将其取反，并应用于每一帧待处理的内镜视频时序帧中，得到变化更加稳定的时序帧。

上述过程可完全由gpu完成，对实际帧率影响较小。

本发明实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过应用逆仿射变换原理，将待处理的视频图像先进行抖动稳定处理，能够消除视频图像的抖动与动态模糊，为后续肿瘤区域预测做好铺垫。其中，“抖动消除”是指在视频图像处理中，通过技术手段减少或消除因为相机振动或其他原因导致的图像抖动的过程。这可以通过软件或硬件实现，帮助提高图像质量并使得视频中的物体更加清晰可见。

对于步骤S102，具体的，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，具体为：

在一个优选的实施例中，步骤S102可分为下列步骤进行：

第一步，训练异常区域检测UNet模型。参见图3，训练一个可学习人工标注标签的异常区域分割模型。输入原图，输出异常区域的分割图，并将图像规范为网格，对异常区域进行屏蔽。

第二步，训练图像修复MAE模型。参见图4，为解决图像噪声和异常补全的问题，训练一个MAE模型。其中，最小化MSELoss不仅能够保留图像最有价值的信息，还能补全缺失的图形块并去除大部分像素噪声。

第三步，合并异常区域检测UNet模型与图像修复MAE模型。参见图5，为解决异常消除问题，需要提取出异常区域检测UNet模型的UNet编码器结构、UNet解码器结构与图像修复MAE模型中的MAE编码器和MAE解码器结构，其中UNet编码器结构与UNet解码器结构用于检测异常区域并生成屏蔽层，MAE编码器和MAE解码器结构用于补全屏蔽层像素并去除噪声。

第四步，训练Transformer模型，并将其与异常区域检测UNet模型和图像修复MAE模型合并。参见图6，考虑到问题场景实际上是视频的肿瘤实例分割任务，而Transformer模型对时序任务比较适合，因此将第三步模型结构作为骨干，充当Transformer时序预测的编码器，在此基础上进行多任务的端到端的训练。

于是，结合UNet编码器、UNet解码器、MAE编码器和MAE解码器以及肿瘤预测Transformer模型，构建成肿瘤预测模型。其中，UNet编码器、UNet解码器用于生成屏蔽层，MAE编码器和MAE解码器用于去噪和异常区域修复，肿瘤预测Transformer模型用于图像编码分割预测，最终实现一个模型解决三个问题。

本发明实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过将三个深度学习模型结合为一个预测模型，将抖动稳定后的视频图像输入至预测模型，能够去除噪声，检测并修复异常区域，同时能够对肿瘤区域进行分割预测，实现一个模型解决三个现有技术问题。其中，“异常区域”是指在图像或视频中，与主要目标物体无关或与其不相符的部分。在这种情况下，异常区域包括与内镜诊断无关的反光光斑、器材、阴影。这些异常区域可能会干扰图像处理算法的正确识别，并影响最终结果的准确性；其中，“图像噪声”是指在图像中不是由真实场景产生的随机像素值变化，它可能来自各种来源，如相机传感器、图像采集和存储设备、信号传输过程中的干扰等。常见的图像噪声类型包括高斯噪声、椒盐噪声、线性噪声和非线性噪声。噪声会影响图像的质量，使得物体变得模糊不清，并可能导致图像处理算法出错。

对于步骤S103，具体的，所述将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：

本发明实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过将得到的预测结果连线并对得到的概率曲线进行平滑处理，提高了预测结果的准确度。

对于步骤S104，具体的，所述根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧，具体包括：

作为一个优选的实施例，根据步骤S103得到的平滑概率曲线，对所有数值按每3秒时间段进行分组；取每组数值中的最大值，筛选出各最大值中超过0.95的时间点，作为关键时间点；获取各关键时间点对应的关键帧图像，截图保存。

本发明实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取方法通过获取预测结果曲线中的多个局部极大值对应的时间点的关键帧数据，截图保存，能够提高关键帧提取的可靠性和精度。

参见图7，是本发明一实施例提供的一种上消化道内镜视频肿瘤诊断关键帧的提取装置的结构示意图，包括：抖动消除模块201、预测模块202、平滑模块203以及关键帧提取模块204；

所述抖动消除模块201用于将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动消除模型利用仿射变换原理构建而成；

所述预测模块202用于将所述第一级时序帧输入至预设的肿瘤预测模型，以使所述肿瘤预测模型依次对所述第一级时序帧进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后，得到包含预测结果的第二级时序帧；其中，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，所述预测结果为所述第一时序帧中的每一帧图像内含有肿瘤区域的预测概率值；

所述平滑模块203用于将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线；

所述关键帧提取模块204用于根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧预测图像。

本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取装置通过将待处理的视频时序帧先输入至抖动消除模型，消除时序帧的抖动，得到稳定的预测图像，再将稳定的预测图像输入至预测模型中，依次进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后得到预测结果，最后通过平滑模型处理最小化拟合残差值，得到最终平滑的预测曲线。最后根据预测曲线的局部最大值从内镜视频时序帧中提取筛选出关键帧图像。由此，本发明实施例公开的一种上消化道内镜视频肿瘤诊断关键帧的提取装置能够关键提高内镜视频时序帧的肿瘤关键帧提取精度，进而减少基于内镜视频进行肿瘤检测时的假阳性率，提升内镜AI辅助诊断的可靠性。

进一步的，所述抖动消除模块201用于将待处理的内镜视频时序帧输入抖动稳定模型，得到消除抖动后的第一级时序帧，具体包括：

进一步的，所述平滑模块203用于将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：

进一步的，所述关键帧提取模块204用于根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个关键时间点对应的肿瘤关键帧，具体包括：

根据所述关键时间点，从所述第二级时序帧中分别提取出各所述关键时间点对应的肿瘤关键帧。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种上消化道内镜视频肿瘤诊断关键帧的提取方法，其特征在于，包括：

将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动消除模型利用仿射变换原理构建而成；

根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个符合预设条件的关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域；

其中，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，具体为：训练一个异常区域检测UNet模型，预测图像异常区域，包含UNet编码器和UNet解码器；

训练一个图像修复MAE模型，所述图像修复MAE模型是一个Transformer组成的自编码模型，用于修复图像异常区域，包含MAE编码器和MAE解码器；

将所述Transformer模型与所述UNet编码器、UNet解码器和MAE编码器、MAE解码器模块结合，构建成肿瘤预测模型；

所述根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个符合预设条件的关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域，具体包括：对所述第二预测曲线按预设时间长度进行分组，得到若干组预测数值；

根据所述关键时间点，从所述第二级时序帧中分别提取出所述若干个关键时间点对应的肿瘤关键帧图像以及对应的肿瘤预测概率和肿瘤区域。

2.如权利要求1所述的一种上消化道内镜视频肿瘤诊断关键帧的提取方法，其特征在于，所述将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧，具体包括：

在对所述若干组对应的光流矩阵中不满足预设图像数量的光流矩阵进行线性插值后，对所有所述光流矩阵求平均，得到若干组平滑数据组；

3.如权利要求1所述的一种上消化道内镜视频肿瘤诊断关键帧的提取方法，其特征在于，所述将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：

4.一种上消化道内镜视频肿瘤诊断关键帧的提取装置，其特征在于，包括：抖动消除模块、预测模块、平滑模块以及关键帧提取模块；

所述抖动消除模块用于将待处理的内镜视频时序帧输入抖动消除模型，得到消除抖动后的第一级时序帧；其中，所述抖动消除模型利用仿射变换原理构建而成；

所述预测模块用于将所述第一级时序帧输入至预设的肿瘤预测模型，以使所述肿瘤预测模型依次对所述第一级时序帧进行异常区域检测、噪声去除、异常区域修复以及图像编码分割预测后，得到包含预测结果的第二级时序帧；其中，所述肿瘤预测模型由异常区域检测UNet模型、图像修复MAE模型和肿瘤预测Transformer模型组合而成，所述预测结果为所述第一级时序帧中的每一帧图像内含有肿瘤区域的预测概率值；

所述关键帧提取模块用于根据第二预测曲线找出若干个符合预设条件的关键时间点，并从所述第二级时序帧中提取出所述若干个符合预设条件的关键时间点对应的肿瘤关键帧预测图像；

5.如权利要求4所述的一种上消化道内镜视频肿瘤诊断关键帧的提取装置，其特征在于，所述抖动消除模块用于将待处理的内镜视频时序帧输入抖动稳定模型，得到消除抖动后的第一级时序帧，具体包括：

6.如权利要求4所述的一种上消化道内镜视频肿瘤诊断关键帧的提取装置，其特征在于，所述平滑模块用于将所述预测结果连接成第一预测曲线，将所述第一预测曲线输入至平滑模型以使所述第一预测曲线的拟合残差值最小化，得到平滑后的第二预测曲线，具体包括：