CN113689430A

CN113689430A - 肠镜检查状态监测的图像处理方法与装置

Info

Publication number: CN113689430A
Application number: CN202111246462.8A
Authority: CN
Inventors: 戴捷; 张泽宇; 李寿山; 鹿伟民
Original assignee: Zidong Information Technology Suzhou Co ltd
Current assignee: Zidong Information Technology Suzhou Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2021-11-23
Anticipated expiration: 2041-10-26
Also published as: CN113689430B

Abstract

本发明涉及一种肠镜检查状态监测的图像处理方法与装置，方法包括以下步骤：获取肠镜检查状态的视频数据；将视频数据切分为多个视频片段，抽取每个视频片段中的相邻帧图片并组成多个图片组，将图片组使用n‑gram帧模型进行表示，得到图片的n‑gram帧；将图片的n‑gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果。本发明可避免单一图片识别率低的难点，具有更高的预测性能，并且，本发明将图片的n‑gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，显著提高了交界处位置状态的识别率，从而提高了识别肠镜镜头所处的位置状态的准确率。

Description

肠镜检查状态监测的图像处理方法与装置

技术领域

本发明涉及肠道检查状态监测技术领域，尤其是指一种肠镜检查状态监测的图像处理方法与装置。

背景技术

肠镜是一种医学检查方法，医师将装有内视镜的管子由患者肛门伸入，经过直肠、乙状、降结肠等部位。医生可以在这个过程中观察到肛门、直肠和结肠的内部情况。例如，痔疮、直肠的肿瘤或者息肉等疾病。除了普通疾病，肠镜还是早期肠癌筛查的重要手段，在很多高级体检项目中都会包含肠镜检查项目。

目前，随着人工智能技术在医学图像和视频方面的应用，渐渐出现了利用人工智能对肠镜视频进行分析的技术。例如：基于人工智能技术实现了肠镜的息肉自动识别算法。人工智能技术在肠镜检查中的应该需要解决一个基本任务，即肠镜检查状态监测的图像处理。具体而言，该任务指的是在肠镜检查过程中，要实时识别当前肠镜镜头所处的位置状态，即外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境，退镜外/内部环境交界处等。这些肠镜位置状态的识别有利于帮助监测人工智能疾病诊断系统开启的时刻和关闭的时刻。此外，肠镜检查状态监测的图像处理任务可以帮助医生把握退镜时间，从而降低漏诊概率。

传统的肠镜检查状态监测的图像处理方法多是对肠镜部位图片进行识别，这种单一图片识别的方法容易存在识别盲点，导致了识别肠镜镜头所处的位置状态的准确率较低。例如：进/退镜交界处可以选择回盲瓣特征部位的图片作为标准，但是如果速度比较快或者医生操作不规范，很容易遗漏回盲瓣特征部位的图片的观察，这种情况下，进/退镜交界处可能并不能被识别，而且在实际处理时会存在数据不平衡问题（例如内部环境的图片总是比交界处的图片多很多），因此就会降低交界处位置状态的识别率，从而降低了识别肠镜镜头所处的位置状态的准确率。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术存在的问题，提出一种肠镜检查状态监测的图像处理方法与装置，显著提高了交界处位置状态的识别率，从而提高了识别肠镜镜头所处的位置状态的准确率。

为解决上述技术问题，本发明提供一种肠镜检查状态监测的图像处理方法，包括以下步骤：

获取肠镜检查状态的视频数据；

将所述视频数据切分为多个视频片段，抽取每个视频片段中的相邻帧图片并组成多个图片组，将所述图片组使用n-gram帧模型进行表示，得到图片的n-gram帧，其中，所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作，形成了长度为n的字节片段序列，所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型；

将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，以提高识别肠镜镜头所处的位置状态的准确率；

所述多边神经网络模型包括采样层、网络层和分类网络层，所述采样层用于全样本学习和多次欠采样学习，所述网络层用于提取样本的n-gram帧表示，所述分类网络层用于获取样本标签类别，每个样本包含多个图片组，其中，所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示；

所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，具体包括：

首先获得全采样学习得到的样本n-gram帧表示的

，然后获得多次欠采样学习得到的样本n-gram帧表示的集成

为

，其中，m表示欠采样次数，

表示第i次欠采样特征学习得到的当前图片组的n-gram帧表示；

将全采样学习和多次欠采样学习得到的两个表示进行融合如下，得到预测输出

：

其中，参数

表示调节全采样学习表示和多次欠采样学习表示在融合中的权重，

表示所有视频特征学习的线性分类器，

表示集成的多个视频欠采样特征学习的线性分类器，

表示当前的训练轮数，

表示总训练轮数，K为标签总类别数；

通过所述预测输出得到最终的各个类别的预测结果。

在本发明的一个实施例中，将所述视频数据切分为多个视频片段的方法包括：

将所述视频数据按照固定时间切分为多个视频片段，相邻视频片段的间隔时间相等。

在本发明的一个实施例中，所述抽取每个视频片段中单位时间的相邻帧图片组成多个图片组的方法包括：

抽取每个视频片段中n张相邻帧图片组成多个图片组，每个图片组中的图片按时间顺序存放，其中n≥2，n为自然数。

在本发明的一个实施例中，所述多边神经网络模型为基于全样本学习和多次欠采样学习的多边神经网络模型，其中全样本学习为对所有样本均匀采样的特征学习，多次欠采样学习为对样本的多次欠采样的特征学习。

在本发明的一个实施例中，所述网络层包括卷积层和池化层，其中卷积层的参数为部分共享，所有分支网络的卷积层包含的多个卷积块中除了最后一个卷积块外所有参数都是共享的。

在本发明的一个实施例中，提取所述样本的n-gram帧表示的方法包括：

提取每个图片组中每个图片的特征表示，通过所述卷积层得到每个图片组的n-gram帧表示，再通过池化层得到整个图片组的n-gram帧表示。

在本发明的一个实施例中，在提取所述样本的n-gram帧表示中使用了多个不同的窗口大小

，利用n-gram帧表示对同一个图片组提取不同窗口大小的n-gram帧表示，公式如下：

其中,

表示基于多图片组的n-gram帧表示模型网络，

表示窗口个数，窗口大小指图片组包含的图片个数，

表示提取窗口大小为

的图片组，

表示提取窗口大小为

的图片组n-gram帧表示，f表示图片组整体n-gram帧表示。

此外，本发明还提供一种肠镜检查状态监测的图像处理装置，包括：

获取模块，所述获取模块用于获取肠镜检查状态的视频数据；

数据处理模块，所述数据处理模块用于将所述视频数据切分为多个视频片段，抽取每个视频片段中的相邻帧图片并组成多个图片组，将所述图片组使用n-gram帧模型进行表示，得到图片的n-gram帧，其中，所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作，形成了长度为n的字节片段序列，所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型；

模型训练预测模块，所述模型训练预测模块用于将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，以提高识别肠镜镜头所处的位置状态的准确率；

首先获得全采样学习得到的样本n-gram帧表示的

，然后获得多次欠采样学习得到的样本n-gram帧表示的集成

为

，其中，m表示欠采样次数，

表示第i次欠采样特征学习得到的当前图片组的n-gram帧表示；

：

其中，参数

表示所有视频特征学习的线性分类器，

表示集成的多个视频欠采样特征学习的线性分类器，

表示当前的训练轮数，

表示总训练轮数，K为标签总类别数；

通过所述预测输出得到最终的各个类别的预测结果。

本发明的上述技术方案相比现有技术具有以下优点：

相对于基于主流神经网络模型的单张图片分类方法，本发明将任务建模成多图片组分类问题，预测时结合了多张图片的信息，可以避免单一图片识别率低的难点，具有更高的预测性能。并且，本发明为了解决数据不平衡问题，将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，显著提高了交界处位置状态的识别率，从而提高了识别肠镜镜头所处的位置状态的准确率。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明肠镜检查状态监测的图像处理方法的流程示意图。

图2是本发明用于提取样本的n-gram帧表示的网络层结构示意图。

图3是本发明使用多边神经网络模型进行训练学习的一结构示意图。

图4是本发明使用多边神经网络模型进行训练学习的另一结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

请参阅图1至4所示，本实施例提供一种肠镜检查状态监测的图像处理方法，包括以下步骤：

S100：获取肠镜检查状态的视频数据。

示例地，肠镜检查状态的顺序依次为：外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境，退镜外/内部环境交界处以及外部环境。肠镜检查状态模型标签类别包括以下6种：外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境，退镜外/内部环境交界处。

S200：将所述视频数据切分为多个视频片段，抽取每个视频片段中的相邻帧图片并组成多个图片组，将所述图片组使用n-gram帧模型进行表示，得到图片的n-gram帧，其中，所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作，形成了长度为n的字节片段序列，所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型。

示例地，n-gram是指自然语言处理研究领域里面的专有名词，是一种基于统计语言模型的算法。其基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作，形成了长度是n的字节片段序列。

示例地，将视频数据按照固定时间切分为多个视频片段，相邻视频片段的间隔时间相等，抽取每个视频片段中n张相邻帧图片组成多个图片组，每个图片组中的图片按时间顺序存放，其中n≥2，n为自然数。本实施例不对具体的间隔时间作限定。比如，一段时长为5分钟的原生监测视频，以1分钟为时间段进行切分，共得到5段视频，每段视频以200ms为时间间隔进行抽取，共取得5组300张共1500张视频帧图片，其中按照每个图片组5张帧图片进行按序组合，一共可得到5大组60小组共300组多个图片组样本。

示例地，在获得多个图片组样本后，将多个图片组样本进行存储，标注每个图片组的标签信息，并对每个图片组中的每帧图片进行预处理，获得每个图片组的肠镜检查状态标签序列。其中，图片预处理操作包括以下几种中的一种或多种：缩放裁剪处理、随机水平翻转处理、标准化处理以及图片切割处理。缩放裁剪处理用于将输入图片处理成固定的尺寸。标准化处理是指在图片的RGB维度上减去数据对应维度的统计平均值，以消除公共的部分、凸显个体之间的特征和差异。随机水平翻转处理也是为了进行数据增强来提高模型的泛化能力。本实施例不对图片缩放裁剪的取值作限定。比如，将不同输入图片的尺寸缩放为640*640*3的大小，随后裁剪为384*384*3的大小，剪去图片四个边角的黑色冗余部分。

S300：将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，以提高识别肠镜镜头所处的位置状态的准确率。

其中，上述步骤S300中涉及到的多边神经网络模型为基于全样本学习和多次欠采样学习的多边神经网络模型，其中全样本学习为对所有样本均匀采样的特征学习，多次欠采样学习为对样本的多次欠采样的特征学习。上述多边神经网络模型包括采样层、网络层和分类网络层，所述采样层用于全样本学习和多次欠采样学习，所述网络层用于提取样本的n-gram帧表示，所述分类网络层用于获取样本标签类别。其中，采样层包括单次全样本采样器和多次部分样本欠采样器，单次全样本采样器用于对所有样本进行随机不重复采样，多次部分样本欠采样器用于对样本数量多的类别中的样本进行多次欠采样操作，还有，n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示。

另外，上述多边神经网络模型中用于提取样本的n-gram帧表示的网络层包括卷积层和池化层。参阅图2所示，提取样本的n-gram帧表示的方法包括：首先提取每个图片组中每个图片的特征表示，然后通过卷积层得到每个图片组的n-gram帧表示，最后再通过池化层得到整个图片组的n-gram帧表示。并且，卷积层的参数为部分共享，所有分支网络的卷积层包含的多个卷积块中除了最后一个卷积块外所有参数都是共享的。其优点有：所有视频特征学习的分支可以辅助提升其余的多个视频欠采样学习分支的特征学习，并且共享权重还可以大大降低这个模块的计算复杂度。

可选的，在提取样本的n-gram帧表示中使用了多个不同的窗口大小

其中,

表示基于多图片组的n-gram帧表示模型网络，

表示窗口个数，窗口大小指图片组包含的图片个数，

表示提取窗口大小为

的图片组，

表示提取窗口大小为

的图片组n-gram帧表示，f表示图片组整体n-gram帧表示。

还有，参照图3和图4所示，上述多边神经网络模型的分类网络层用于对样本的n-gram帧进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，具体包括：

首先获得全采样学习得到的样本n-gram帧表示的

，然后获得多次欠采样学习得到的样本n-gram帧表示的集成

为

，其中，m表示欠采样次数，

表示第i次欠采样特征学习得到的当前图片组的n-gram帧表示；

：

其中，参数

表示所有视频特征学习的线性分类器，

表示集成的多个视频欠采样特征学习的线性分类器，

表示当前的训练轮数，

表示总训练轮数，K为标签总类别数；

将得到的预测输出通过Softmax层得到最终的各个类别的预测结果，Softmax层公式如下：

其中，

表示第i个类别的概率值，K表示标签总类别数，

表示第i个类别的预测输出。

相对于基于主流神经网络模型的单张图片分类方法，本发明将任务建模成多图片组分类问题，预测时结合了多张图片的信息，可以避免单一图片识别率低的难点，具有更高的预测性能。并且，本发明为了解决数据不平衡问题，将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，显著提高了交界处位置状态的识别率，从而提高了识别肠镜镜头所处的位置状态的准确率，样本少的类别的分类准确率均超过了95%，例如：进镜外/内部环境交界处、进/退镜交界处、退镜外/内部环境交界处。由此可见，本发明具有较高的识别精度，能较好地进行肠镜检查状态的识别。

实施例二

下面对本发明实施例二公开的一种肠镜检查状态监测的图像处理装置进行介绍，下文描述的一种肠镜检查状态监测的图像处理装置与上文描述的一种肠镜检查状态监测的图像处理方法可相互对应参照。

本发明实施例二公开了一种肠镜检查状态监测的图像处理装置，具体包括以下模块。

模型训练预测模块，所述模型训练预测模块用于将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习，得到最终的各个类别的预测结果，以提高识别肠镜镜头所处的位置状态的准确率。

首先获得全采样学习得到的样本n-gram帧表示的

，然后获得多次欠采样学习得到的样本n-gram帧表示的集成

为

，其中，m表示欠采样次数，

表示第i次欠采样特征学习得到的当前图片组的n-gram帧表示；

：

其中，参数

表示所有视频特征学习的线性分类器，

表示集成的多个视频欠采样特征学习的线性分类器，

表示当前的训练轮数，

表示总训练轮数，K为标签总类别数；

通过所述预测输出得到最终的各个类别的预测结果。

本实施例的肠镜检查状态监测的图像处理装置用于实现前述的肠镜检查状态监测的图像处理方法，因此该装置的具体实施方式可见前文中的肠镜检查状态监测的图像处理方法的实施例部分，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的肠镜检查状态监测的图像处理装置用于实现前述的肠镜检查状态监测的图像处理方法，因此其作用与上述方法的作用相对应，这里不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。