CN113689430A - 肠镜检查状态监测的图像处理方法与装置 - Google Patents
肠镜检查状态监测的图像处理方法与装置 Download PDFInfo
- Publication number
- CN113689430A CN113689430A CN202111246462.8A CN202111246462A CN113689430A CN 113689430 A CN113689430 A CN 113689430A CN 202111246462 A CN202111246462 A CN 202111246462A CN 113689430 A CN113689430 A CN 113689430A
- Authority
- CN
- China
- Prior art keywords
- gram
- learning
- representation
- frame
- undersampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30028—Colon; Small intestine
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种肠镜检查状态监测的图像处理方法与装置,方法包括以下步骤:获取肠镜检查状态的视频数据;将视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将图片组使用n‑gram帧模型进行表示,得到图片的n‑gram帧;将图片的n‑gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果。本发明可避免单一图片识别率低的难点,具有更高的预测性能,并且,本发明将图片的n‑gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,显著提高了交界处位置状态的识别率,从而提高了识别肠镜镜头所处的位置状态的准确率。
Description
技术领域
本发明涉及肠道检查状态监测技术领域,尤其是指一种肠镜检查状态监测的图像处理方法与装置。
背景技术
肠镜是一种医学检查方法,医师将装有内视镜的管子由患者肛门伸入,经过直肠、乙状、降结肠等部位。医生可以在这个过程中观察到肛门、直肠和结肠的内部情况。例如,痔疮、直肠的肿瘤或者息肉等疾病。除了普通疾病,肠镜还是早期肠癌筛查的重要手段,在很多高级体检项目中都会包含肠镜检查项目。
目前,随着人工智能技术在医学图像和视频方面的应用,渐渐出现了利用人工智能对肠镜视频进行分析的技术。例如:基于人工智能技术实现了肠镜的息肉自动识别算法。人工智能技术在肠镜检查中的应该需要解决一个基本任务,即肠镜检查状态监测的图像处理。具体而言,该任务指的是在肠镜检查过程中,要实时识别当前肠镜镜头所处的位置状态,即外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境,退镜外/内部环境交界处等。这些肠镜位置状态的识别有利于帮助监测人工智能疾病诊断系统开启的时刻和关闭的时刻。此外,肠镜检查状态监测的图像处理任务可以帮助医生把握退镜时间,从而降低漏诊概率。
传统的肠镜检查状态监测的图像处理方法多是对肠镜部位图片进行识别,这种单一图片识别的方法容易存在识别盲点,导致了识别肠镜镜头所处的位置状态的准确率较低。例如:进/退镜交界处可以选择回盲瓣特征部位的图片作为标准,但是如果速度比较快或者医生操作不规范,很容易遗漏回盲瓣特征部位的图片的观察,这种情况下,进/退镜交界处可能并不能被识别,而且在实际处理时会存在数据不平衡问题(例如内部环境的图片总是比交界处的图片多很多),因此就会降低交界处位置状态的识别率,从而降低了识别肠镜镜头所处的位置状态的准确率。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种肠镜检查状态监测的图像处理方法与装置,显著提高了交界处位置状态的识别率,从而提高了识别肠镜镜头所处的位置状态的准确率。
为解决上述技术问题,本发明提供一种肠镜检查状态监测的图像处理方法,包括以下步骤:
获取肠镜检查状态的视频数据;
将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型;
将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率;
所述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别,每个样本包含多个图片组,其中,所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示;
所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
通过所述预测输出得到最终的各个类别的预测结果。
在本发明的一个实施例中,将所述视频数据切分为多个视频片段的方法包括:
将所述视频数据按照固定时间切分为多个视频片段,相邻视频片段的间隔时间相等。
在本发明的一个实施例中,所述抽取每个视频片段中单位时间的相邻帧图片组成多个图片组的方法包括:
抽取每个视频片段中n张相邻帧图片组成多个图片组,每个图片组中的图片按时间顺序存放,其中n≥2,n为自然数。
在本发明的一个实施例中,所述多边神经网络模型为基于全样本学习和多次欠采样学习的多边神经网络模型,其中全样本学习为对所有样本均匀采样的特征学习,多次欠采样学习为对样本的多次欠采样的特征学习。
在本发明的一个实施例中,所述网络层包括卷积层和池化层,其中卷积层的参数为部分共享,所有分支网络的卷积层包含的多个卷积块中除了最后一个卷积块外所有参数都是共享的。
在本发明的一个实施例中,提取所述样本的n-gram帧表示的方法包括:
提取每个图片组中每个图片的特征表示,通过所述卷积层得到每个图片组的n-gram帧表示,再通过池化层得到整个图片组的n-gram帧表示。
其中,表示基于多图片组的n-gram帧表示模型网络,表示窗口个数,窗口大小指图片组包含的图片个数,表示提取窗口大小为的图片组,表示提取窗口大小为的图片组n-gram帧表示,f表示图片组整体n-gram帧表示。
此外,本发明还提供一种肠镜检查状态监测的图像处理装置,包括:
获取模块,所述获取模块用于获取肠镜检查状态的视频数据;
数据处理模块,所述数据处理模块用于将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型;
模型训练预测模块,所述模型训练预测模块用于将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率;
所述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别,每个样本包含多个图片组,其中,所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示;
所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
通过所述预测输出得到最终的各个类别的预测结果。
本发明的上述技术方案相比现有技术具有以下优点:
相对于基于主流神经网络模型的单张图片分类方法,本发明将任务建模成多图片组分类问题,预测时结合了多张图片的信息,可以避免单一图片识别率低的难点,具有更高的预测性能。并且,本发明为了解决数据不平衡问题,将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,显著提高了交界处位置状态的识别率,从而提高了识别肠镜镜头所处的位置状态的准确率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明肠镜检查状态监测的图像处理方法的流程示意图。
图2是本发明用于提取样本的n-gram帧表示的网络层结构示意图。
图3是本发明使用多边神经网络模型进行训练学习的一结构示意图。
图4是本发明使用多边神经网络模型进行训练学习的另一结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
请参阅图1至4所示,本实施例提供一种肠镜检查状态监测的图像处理方法,包括以下步骤:
S100:获取肠镜检查状态的视频数据。
示例地,肠镜检查状态的顺序依次为:外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境,退镜外/内部环境交界处以及外部环境。肠镜检查状态模型标签类别包括以下6种:外部环境、进镜外/内部环境交界处、进镜内部环境、进/退镜交界处、退镜内部环境,退镜外/内部环境交界处。
S200:将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型。
示例地,n-gram是指自然语言处理研究领域里面的专有名词,是一种基于统计语言模型的算法。其基本思想是将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。
示例地,将视频数据按照固定时间切分为多个视频片段,相邻视频片段的间隔时间相等,抽取每个视频片段中n张相邻帧图片组成多个图片组,每个图片组中的图片按时间顺序存放,其中n≥2,n为自然数。本实施例不对具体的间隔时间作限定。比如,一段时长为5分钟的原生监测视频,以1分钟为时间段进行切分,共得到5段视频,每段视频以200ms为时间间隔进行抽取,共取得5组300张共1500张视频帧图片,其中按照每个图片组5张帧图片进行按序组合,一共可得到5大组60小组共300组多个图片组样本。
示例地,在获得多个图片组样本后,将多个图片组样本进行存储,标注每个图片组的标签信息,并对每个图片组中的每帧图片进行预处理,获得每个图片组的肠镜检查状态标签序列。其中,图片预处理操作包括以下几种中的一种或多种:缩放裁剪处理、随机水平翻转处理、标准化处理以及图片切割处理。缩放裁剪处理用于将输入图片处理成固定的尺寸。标准化处理是指在图片的RGB维度上减去数据对应维度的统计平均值,以消除公共的部分、凸显个体之间的特征和差异。随机水平翻转处理也是为了进行数据增强来提高模型的泛化能力。本实施例不对图片缩放裁剪的取值作限定。比如,将不同输入图片的尺寸缩放为640*640*3的大小,随后裁剪为384*384*3的大小,剪去图片四个边角的黑色冗余部分。
S300:将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率。
其中,上述步骤S300中涉及到的多边神经网络模型为基于全样本学习和多次欠采样学习的多边神经网络模型,其中全样本学习为对所有样本均匀采样的特征学习,多次欠采样学习为对样本的多次欠采样的特征学习。上述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别。其中,采样层包括单次全样本采样器和多次部分样本欠采样器,单次全样本采样器用于对所有样本进行随机不重复采样,多次部分样本欠采样器用于对样本数量多的类别中的样本进行多次欠采样操作,还有,n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示。
另外,上述多边神经网络模型中用于提取样本的n-gram帧表示的网络层包括卷积层和池化层。参阅图2所示,提取样本的n-gram帧表示的方法包括:首先提取每个图片组中每个图片的特征表示,然后通过卷积层得到每个图片组的n-gram帧表示,最后再通过池化层得到整个图片组的n-gram帧表示。并且,卷积层的参数为部分共享,所有分支网络的卷积层包含的多个卷积块中除了最后一个卷积块外所有参数都是共享的。其优点有:所有视频特征学习的分支可以辅助提升其余的多个视频欠采样学习分支的特征学习,并且共享权重还可以大大降低这个模块的计算复杂度。
其中,表示基于多图片组的n-gram帧表示模型网络,表示窗口个数,窗口大小指图片组包含的图片个数,表示提取窗口大小为的图片组,表示提取窗口大小为的图片组n-gram帧表示,f表示图片组整体n-gram帧表示。
还有,参照图3和图4所示,上述多边神经网络模型的分类网络层用于对样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
将得到的预测输出通过Softmax层得到最终的各个类别的预测结果,Softmax层公式如下:
相对于基于主流神经网络模型的单张图片分类方法,本发明将任务建模成多图片组分类问题,预测时结合了多张图片的信息,可以避免单一图片识别率低的难点,具有更高的预测性能。并且,本发明为了解决数据不平衡问题,将图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,显著提高了交界处位置状态的识别率,从而提高了识别肠镜镜头所处的位置状态的准确率,样本少的类别的分类准确率均超过了95%,例如:进镜外/内部环境交界处、进/退镜交界处、退镜外/内部环境交界处。由此可见,本发明具有较高的识别精度,能较好地进行肠镜检查状态的识别。
实施例二
下面对本发明实施例二公开的一种肠镜检查状态监测的图像处理装置进行介绍,下文描述的一种肠镜检查状态监测的图像处理装置与上文描述的一种肠镜检查状态监测的图像处理方法可相互对应参照。
本发明实施例二公开了一种肠镜检查状态监测的图像处理装置,具体包括以下模块。
获取模块,所述获取模块用于获取肠镜检查状态的视频数据;
数据处理模块,所述数据处理模块用于将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型;
模型训练预测模块,所述模型训练预测模块用于将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率。
所述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别,每个样本包含多个图片组,其中,所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示;
所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
通过所述预测输出得到最终的各个类别的预测结果。
本实施例的肠镜检查状态监测的图像处理装置用于实现前述的肠镜检查状态监测的图像处理方法,因此该装置的具体实施方式可见前文中的肠镜检查状态监测的图像处理方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的肠镜检查状态监测的图像处理装置用于实现前述的肠镜检查状态监测的图像处理方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (8)
1.一种肠镜检查状态监测的图像处理方法,其特征在于,包括以下步骤:
获取肠镜检查状态的视频数据;
将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型;
将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率;
所述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别,每个样本包含多个图片组,其中,所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示;
所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
通过所述预测输出得到最终的各个类别的预测结果。
2.根据权利要求1所述的肠镜检查状态监测的图像处理方法,其特征在于:将所述视频数据切分为多个视频片段的方法包括:
将所述视频数据按照固定时间切分为多个视频片段,相邻视频片段的间隔时间相等。
3.根据权利要求1所述的肠镜检查状态监测的图像处理方法,其特征在于:所述抽取每个视频片段中单位时间的相邻帧图片组成多个图片组的方法包括:
抽取每个视频片段中n张相邻帧图片组成多个图片组,每个图片组中的图片按时间顺序存放,其中n≥2,n为自然数。
4.根据权利要求1所述的肠镜检查状态监测的图像处理方法,其特征在于:所述多边神经网络模型为基于全样本学习和多次欠采样学习的多边神经网络模型,其中全样本学习为对所有样本均匀采样的特征学习,多次欠采样学习为对样本的多次欠采样的特征学习。
5.根据权利要求1所述的肠镜检查状态监测的图像处理方法,其特征在于:所述网络层包括卷积层和池化层,其中卷积层的参数为部分共享,所有分支网络的卷积层包含的多个卷积块中除了最后一个卷积块外所有参数都是共享的。
6.根据权利要求5所述的肠镜检查状态监测的图像处理方法,其特征在于:提取所述样本的n-gram帧表示的方法包括:
提取每个图片组中每个图片的特征表示,通过所述卷积层得到每个图片组的n-gram帧表示,再通过池化层得到整个图片组的n-gram帧表示。
8.一种肠镜检查状态监测的图像处理装置,其特征在于,包括:
获取模块,所述获取模块用于获取肠镜检查状态的视频数据;
数据处理模块,所述数据处理模块用于将所述视频数据切分为多个视频片段,抽取每个视频片段中的相邻帧图片并组成多个图片组,将所述图片组使用n-gram帧模型进行表示,得到图片的n-gram帧,其中,所述n-gram帧表示将视频片段里面的内容按照图片帧进行大小为n的滑动窗口操作,形成了长度为n的字节片段序列,所述n-gram帧模型表示将n-gram帧变成向量表示的神经网络模型;
模型训练预测模块,所述模型训练预测模块用于将所述图片的n-gram帧通过多边神经网络模型进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,以提高识别肠镜镜头所处的位置状态的准确率;
所述多边神经网络模型包括采样层、网络层和分类网络层,所述采样层用于全样本学习和多次欠采样学习,所述网络层用于提取样本的n-gram帧表示,所述分类网络层用于获取样本标签类别,每个样本包含多个图片组,其中,所述n-gram帧表示是指n-gram 帧通过神经网络模型后得到的向量表示;
所述多边神经网络模型的分类网络层用于对所述样本的n-gram帧进行全样本学习和多次欠采样学习,得到最终的各个类别的预测结果,具体包括:
其中,参数表示调节全采样学习表示和多次欠采样学习表示在融合中的权重,表示所有视频特征学习的线性分类器,表示集成的多个视频欠采样特征学习的线性分类器,表示当前的训练轮数,表示总训练轮数,K为标签总类别数;
通过所述预测输出得到最终的各个类别的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246462.8A CN113689430B (zh) | 2021-10-26 | 2021-10-26 | 肠镜检查状态监测的图像处理方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246462.8A CN113689430B (zh) | 2021-10-26 | 2021-10-26 | 肠镜检查状态监测的图像处理方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113689430A true CN113689430A (zh) | 2021-11-23 |
CN113689430B CN113689430B (zh) | 2022-02-15 |
Family
ID=78587979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111246462.8A Active CN113689430B (zh) | 2021-10-26 | 2021-10-26 | 肠镜检查状态监测的图像处理方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689430B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188460A (zh) * | 2023-04-24 | 2023-05-30 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231696A (zh) * | 2008-01-30 | 2008-07-30 | 安防科技(中国)有限公司 | 遗留物检测方法及系统 |
US20140119447A1 (en) * | 2012-10-25 | 2014-05-01 | Qualcomm Incorporated | Reference picture status for video coding |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN110688513A (zh) * | 2019-08-15 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于视频的农作物查勘方法、装置及计算机设备 |
CN113327238A (zh) * | 2021-06-10 | 2021-08-31 | 紫东信息科技(苏州)有限公司 | 一种胃镜图像分类模型构建方法及胃镜图像分类方法 |
CN113516603A (zh) * | 2021-08-03 | 2021-10-19 | 上海交通大学 | 基于空间融合的磁共振图像多模态重建方法及存储介质 |
-
2021
- 2021-10-26 CN CN202111246462.8A patent/CN113689430B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231696A (zh) * | 2008-01-30 | 2008-07-30 | 安防科技(中国)有限公司 | 遗留物检测方法及系统 |
US20140119447A1 (en) * | 2012-10-25 | 2014-05-01 | Qualcomm Incorporated | Reference picture status for video coding |
CN109977997A (zh) * | 2019-02-13 | 2019-07-05 | 中国科学院自动化研究所 | 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 |
CN110688513A (zh) * | 2019-08-15 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于视频的农作物查勘方法、装置及计算机设备 |
CN113327238A (zh) * | 2021-06-10 | 2021-08-31 | 紫东信息科技(苏州)有限公司 | 一种胃镜图像分类模型构建方法及胃镜图像分类方法 |
CN113516603A (zh) * | 2021-08-03 | 2021-10-19 | 上海交通大学 | 基于空间融合的磁共振图像多模态重建方法及存储介质 |
Non-Patent Citations (1)
Title |
---|
XINTAO CHAI 等: "Deep Learning for Regularly Missing Data Reconstruction", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116188460A (zh) * | 2023-04-24 | 2023-05-30 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
CN116188460B (zh) * | 2023-04-24 | 2023-08-25 | 青岛美迪康数字工程有限公司 | 基于运动矢量的图像识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113689430B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jha et al. | Real-time polyp detection, localization and segmentation in colonoscopy using deep learning | |
US9886758B2 (en) | Annotation of skin image using learned feature representation | |
US11069062B2 (en) | Automated screening of histopathology tissue samples via analysis of a normal model | |
US11612311B2 (en) | System and method of otoscopy image analysis to diagnose ear pathology | |
CN110909780B (zh) | 一种图像识别模型训练和图像识别方法、装置及系统 | |
Nguyen et al. | $\mathtt {Deepr} $: a convolutional net for medical records | |
Pogorelov et al. | Deep learning and hand-crafted feature based approaches for polyp detection in medical videos | |
CN110288597B (zh) | 基于注意力机制的无线胶囊内窥镜视频显著性检测方法 | |
Cho et al. | Comparison of convolutional neural network models for determination of vocal fold normality in laryngoscopic images | |
Poorneshwaran et al. | Polyp segmentation using generative adversarial network | |
CN113496489A (zh) | 内窥镜图像分类模型的训练方法、图像分类方法和装置 | |
CN112686856A (zh) | 一种基于深度学习的实时肠镜息肉检测装置 | |
Huang et al. | Lesion-based contrastive learning for diabetic retinopathy grading from fundus images | |
CN109390053B (zh) | 眼底图像处理方法、装置、计算机设备和存储介质 | |
US20210342570A1 (en) | Automated clustering of anomalous histopathology tissue samples | |
Hicks et al. | Dissecting deep neural networks for better medical image classification and classification understanding | |
Zhang et al. | Dual encoder fusion u-net (defu-net) for cross-manufacturer chest x-ray segmentation | |
CN114399465A (zh) | 良恶性溃疡识别方法及系统 | |
CN113689430B (zh) | 肠镜检查状态监测的图像处理方法与装置 | |
CN113642537A (zh) | 一种医学图像识别方法、装置、计算机设备及存储介质 | |
Pérez-García et al. | Transfer learning of deep spatiotemporal networks to model arbitrarily long videos of seizures | |
Du et al. | Improving the classification performance of esophageal disease on small dataset by semi-supervised efficient contrastive learning | |
Zhao et al. | Deeply supervised active learning for finger bones segmentation | |
Raut et al. | Transfer learning based video summarization in wireless capsule endoscopy | |
Norval et al. | Evaluation of image processing technologies for pulmonary tuberculosis detection based on deep learning convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |