CN113223668A

CN113223668A - 胶囊内镜图像冗余数据筛查方法

Info

Publication number: CN113223668A
Application number: CN202110404204.1A
Authority: CN
Inventors: 潘宁; 农桂仙; 胡怀飞; 刘海华; 李旭
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-08-06
Anticipated expiration: 2041-04-15
Also published as: CN113223668B

Abstract

本发明涉及医学图像的计算机分析技术领域，公开了一种胶囊内镜图像冗余数据筛查方法，所述方法包括：获取胶囊内镜采集的胶囊内镜序列图像；对胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量；通过视觉单词模型对胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵；通过预设主题模型对胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布；通过图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。通过将胶囊内镜序列图像进行图像处理、词频统计以及主题分析后得到图像主题概率分布，从而根据图像主题概率分布筛查出冗余图像，从而有效筛查出胶囊内镜图像中的冗余图像。

Description

胶囊内镜图像冗余数据筛查方法

技术领域

本发明涉及医学图像的计算机分析技术领域，尤其涉及一种胶囊内镜图像冗余数据筛查方法。

背景技术

无线胶囊内镜是21世纪初发展起来的一项无创诊断技术，为消化道疾病诊断带来了极大的帮助，克服了传统内镜无法检查小肠疾病的局限，胶囊内镜是一种非侵入性检查手段，相比传统的内镜检查方式，具有安全、便捷、高效以及舒适等优点。虽然胶囊内镜在临床使用时间不长，但其检测的有效性逐渐的得到了医学界的认同，目前国内外许多著名的医院已经开始将胶囊内镜作为小肠疾病检测和诊断的首选设备。由于胶囊内镜检测的特点，最终得到的图像数据庞大，一位患者的彩色消化道图像大约为50000-80000幅。对于临床医生来说，从胶囊内镜图像数据中筛查出含有可疑病变的图像，是一项耗时耗力的工作，且可能会因疲劳带来误诊，在临床胶囊内镜阅片过程中，由于胶囊内镜拍摄的独特条件，得到的图像序列存在大量的气泡、杂质、曝光过度和曝光不足等图像，从而降低了医生的阅片效率和疾病诊断的准确率，属于干扰性的冗余数据。

发明内容

本发明的主要目的在于提出一种胶囊内镜图像冗余数据筛查方法，旨在解决如何有效筛查出胶囊内镜图像中的冗余图像技术问题。

为实现上述目的，本发明提供一种胶囊内镜图像冗余数据筛查方法，所述胶囊内镜图像冗余数据筛查方法包括以下步骤：

获取胶囊内镜采集的胶囊内镜序列图像；

对所述胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量；

通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵；

通过预设主题模型对所述胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布；

通过所述图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。

可选的，所述对所述胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量，包括：

对所述胶囊内镜序列图像进行镜像操作，得到镜像后的胶囊内镜序列图像；

提取所述镜像后的胶囊内镜序列图像预设尺寸的图像块，得到胶囊内镜序列图像块；

根据预设算法对所述胶囊内镜序列图像块进行特征提取，得到胶囊内镜图像块特征向量。

可选的，所述通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵之前，还包括：

获取胶囊内镜图像的胶囊内镜图像库；

对所述胶囊内镜图像库进行镜像操作，得到镜像后的胶囊内镜图像库；

提取所述镜像后的胶囊内镜图像库预设尺寸的数据块，得到胶囊内镜图像库的图像块；

通过预设算法对所述胶囊内镜图像库的图像块进行特征提取，得到胶囊内镜图像库的图像块特征向量；

通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型。

可选的，所述通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型，包括：

将预设数量的胶囊内镜图像库的图像块特征向量作为初始聚类中心；

计算剩余数量的胶囊内镜图像库的图像块特征向量与所述初始聚类中心的相似度，根据所述相似度得到预设数量的聚类簇；

计算所述聚类簇特征向量的平均值，得到新的聚类中心；

通过迭代计算所述聚类簇和所述聚类中心，直到满足迭代停止条件，得到目标聚类中心；

根据所述目标聚类中心确定视觉单词模型。

可选的，所述通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵，包括：

通过预设权投票原则将所述胶囊内镜图像块特征向量映射到所述视觉单词模型中，得到视觉单词出现的次数；

根据所述视觉单词出现的次数确定所述胶囊内镜图像词频矩阵。

可选的，所述通过预设主题模型对所述胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布，包括：

确定所述胶囊内镜图像词频矩阵的主题类别；

通过预设主题模型对所述胶囊内镜图像词频矩阵进行处理，得到所述胶囊内镜序列图像中所述主题类别对应的主题概率分布。

可选的，所述通过预设主题模型对所述胶囊内镜图像词频矩阵进行处理，得到所述胶囊内镜序列图像中所述主题类别对应的主题概率分布，包括：

通过预设迭代算法对所述胶囊内镜图像词频矩阵进行处理，得到所述主题类别对应的主题类别概率；

根据预设概率分布对所述胶囊内镜序列图像进行图像选取，确定预设胶囊内镜图像；

根据所述主题类别概率确定预设胶囊内镜图像对应的预设主体类别；

根据所述主题类别概率确定预设主体类别对应的预设视觉单词；

根据所述预设胶囊内镜图像、所述预设主体类别以及所述预设视觉单词确定图像主题概率分布。

可选的，所述通过所述图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像，包括：

通过预设概率对所述图像主题概率分布进行筛查，得到目标胶囊内镜图像。

此外，为实现上述目的，本发明还提出一种种胶囊内镜图像冗余数据筛查设备，所述种胶囊内镜图像冗余数据筛查设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的种胶囊内镜图像冗余数据筛查程序，所述种胶囊内镜图像冗余数据筛查程序配置有实现如上所述的种胶囊内镜图像冗余数据筛查方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有种胶囊内镜图像冗余数据筛查程序，所述种胶囊内镜图像冗余数据筛查程序被处理器执行时实现如上文所述的种胶囊内镜图像冗余数据筛查方法的步骤。

本发明提出的胶囊内镜图像冗余数据筛查方法，通过获取胶囊内镜采集的胶囊内镜序列图像；对胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量；通过视觉单词模型对胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵；通过预设主题模型对胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布；通过图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。通过将胶囊内镜序列图像进行图像处理、词频统计以及主题分析后得到图像主题概率分布，从而根据图像主题概率分布筛查出冗余图像，从而有效筛查出胶囊内镜图像中的冗余图像。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的胶囊内镜图像冗余数据筛查设备结构示意图；

图2为本发明胶囊内镜图像冗余数据筛查方法第一实施例的流程示意图；

图3为本发明胶囊内镜图像冗余数据筛查方法第二实施例的流程示意图；

图4为本发明胶囊内镜图像冗余数据筛查方法第三实施例的流程示意图；

图5为本发明胶囊内镜图像冗余数据筛查方法第四实施例的流程示意图；

图6为本发明胶囊内镜图像冗余数据筛查装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的胶囊内镜图像冗余数据筛查设备结构示意图。

如图1所示，该胶囊内镜图像冗余数据筛查设备可以包括：处理器1001，例如中央处理器(Central Processing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如2.4G接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对胶囊内镜图像冗余数据筛查设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及胶囊内镜图像冗余数据筛查程序。

在图1所示的胶囊内镜图像冗余数据筛查设备中，网络接口1004主要用于连接外网，与其他网络设备进行数据通信；用户接口1003主要用于连接用户设备，与所述用户设备进行数据通信；本发明设备通过处理器1001调用存储器1005中存储的胶囊内镜图像冗余数据筛查程序，并执行本发明实施例提供的胶囊内镜图像冗余数据筛查方法。

基于上述硬件结构，提出本发明胶囊内镜图像冗余数据筛查方法实施例。

参照图2，图2为本发明胶囊内镜图像冗余数据筛查方法第一实施例的流程示意图。

在第一实施例中，所述胶囊内镜图像冗余数据筛查方法包括以下步骤：

步骤S10，获取胶囊内镜采集的胶囊内镜序列图像。

需要说明的是，本实施例的执行主体可为胶囊内镜图像冗余数据筛查的设备，还可为其他可实现相同或相似功能的设备，本实施例对此不作限制，在本实施例中，以胶囊内镜图像冗余数据筛查的设备为例进行说明。

可以理解的是，胶囊内镜是通过患者吞咽一颗带有摄像头的“胶囊”，借助重力和人体肠胃的蠕动作用，经过并自动拍摄人体整个消化道的情况，采集得到的胶囊内镜序列图像，将采集得到的胶囊内镜序列图像传输给胶囊内镜图像冗余数据筛查的设备。

步骤S20，对所述胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量。

应当理解的是，首先对胶囊内镜序列图像进行镜像操作，可以得到镜像后的胶囊内镜序列图像，然后提取镜像后的胶囊内镜序列图像预设尺寸的图像块，其中，预设尺寸可以为7*7像素、30*30像素、40*40像素等，本实施例对此不作限制，从而得到胶囊内镜序列图像块，将提取得到的胶囊内镜序列图像块用预设算法进行特征的提取得到胶囊内镜图像块特征向量，其中，预设算法可以为自编码器进行特征的提取，也可以为传统的特征提取方式，如方向梯度直方图(Histogram of Oriented Gradient，HOG)、局部二值模式(LocalBinary Pattern，LBP)、尺度不变特征变换(Scale-invariant feature transform，SIFT)算法以及HSV等算法，本实施例对此不作限制。

步骤S30，通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵。

可以理解的是，将每幅图像的胶囊内镜图像块特征向量逐个输入到视觉单词模型中，按照投票原则，将该胶囊内镜图像块特征向量映射到已建立的视觉单词模型中，其中，视觉单词模型是已经构建的视觉单词，以此迭代，直到判别完一幅胶囊内镜序列图像的所有图像块，然后统计各个视觉单词出现的次数，以这种方式来统计所有图像的词频，最后形成一个N*M的矩阵，其中，M为视觉单词个数，N为胶囊内镜图像总数，得到胶囊内镜图像词频矩阵。

步骤S40，通过预设主题模型对所述胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布。

需要说明的是，主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型，最初主要被用来处理自然语言处理中的语义分析和文本挖掘问题，后有学者将其应用到自然图像的语义分析问题中。例如，一篇文档可以看作是几个主题的混合，一幅图像也可以看作是语义的混合，将文档映射到图像中，因此可以使用主题模型对胶囊内镜图像词频矩阵继续潜在主题分析，即，使用预设主题模型对N*M的矩阵进行分析，得到N*Z的矩阵，其中Z为人为指定的主题个数，其中，Z大于等于胶囊内镜序列图像类别数，矩阵里的值为胶囊内镜序列图像中各个主题的概率，从而可知每幅胶囊内镜序列图像中各个主题的概率分布，其中，预设主题模型可以为概率潜在主题分析(Probabilistic latentsemantic analysis,pLSA)、隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)等，本实施例对此不作限制。

步骤S50，通过所述图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。

可以理解的是，根据图像主题概率分布，以预设主题概率对胶囊内镜序列图像进行分类，将具有相同明显语义的图像分到同一类，以此来进行筛查，得到目标胶囊内镜图像，其中，预设主题概率可以为最高主题概率，本实施例对此不作限制。

本实施例中通过获取胶囊内镜采集的胶囊内镜序列图像；对胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量；通过视觉单词模型对胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵；通过预设主题模型对胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布；通过图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。通过将胶囊内镜序列图像进行图像处理、词频统计以及主题分析后得到图像主题概率分布，从而根据图像主题概率分布筛查出冗余图像，从而有效筛查出胶囊内镜图像中的冗余图像。

在一实施例中，如图3所示，基于第一实施例提出本发明胶囊内镜图像冗余数据筛查方法第二实施例，所述步骤S20，包括：

步骤S201，对所述胶囊内镜序列图像进行镜像操作，得到镜像后的胶囊内镜序列图像。

可以理解的是，由于胶囊内镜序列图像中包含图像信息的部分约为半径为105个像素的圆形区域，其他部分为黑色背景，这样的胶囊内镜序列图像包含的信息不突出，不利于后续的语义分析。因此，将胶囊内镜序列图像进行镜像操作就是以图像的像素中心为坐标点，以半径约为105个像素的圆形区域为分界点提取出不包含图像信息的部分，并计算该部分中各个像素点距离圆形区域的长度以及相对于中心点的角度，之后根据三角函数公式将圆内像素点映射到圆外，得到镜像后的胶囊内镜序列图像。

步骤S202，提取所述镜像后的胶囊内镜序列图像预设尺寸的图像块，得到胶囊内镜序列图像块。

可以理解的是，对镜像后的胶囊内镜序列图像提取预设尺寸的图像块，可以得到胶囊内镜序列图像块，其中，提取图像块包含两个部分，首先是对镜像后的胶囊内镜图库里的每幅图像随机提取10幅固定尺寸的图像块，如7*7像素，30*30像素，40*40像素等，本实施例对要提取的图像块数量和尺寸不作限制，胶囊内镜图库即从采集到的所有胶囊内镜序列图像中获取的一定数量满屏气泡、杂质、曝光过度以及曝光不足等干扰性图像、正常类别的图像和可能还有的其他类型图像，如：包含消化道病灶的图像等组成的图像集合。其次是对胶囊内镜序列图像隔一定像素提取与第一步中随机提取的图像块尺寸相同的图像块，如果每隔4个像素提取尺寸为40*4的图像块，那么一幅240*240的胶囊内镜序列图像将会有2500张图像块。

步骤S203，根据预设算法对所述胶囊内镜序列图像块进行特征提取，得到胶囊内镜图像块特征向量。

需要说明的是，对提取到的胶囊内镜序列图像块，可以用自编码器进行特征的提取，也可用传统的特征提取方式，如HOG、LBP、SIFT算法以及HSV等算法来提取图像块特征，将提取到的特征作为每个图像块的描述符，得到胶囊内镜图像块特征向量。

可以理解的是，自编码器(autoencoder,AE)是一种利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩为潜在空间表征，再通过这种表征来重构输出。自编码器是一种自监督的学习方法，可以从数据样本中进行无监督学习。因此，自编码器的编码部分可以用来提取图像的特征。在具体实施过程中可以把提取到的胶囊内镜序列图像块输入卷积自编码器网络中，通过卷积层和池化层的操作，将一幅图像块编码为能表达这幅图像块的描述符，然后通过反卷积操作将描述幅解码为与输入的胶囊内镜序列图像块相同尺寸的图像，最后计算输入的胶囊内镜序列图像和解码输出的图像的损失，来调节自编码器网络，使得编码得到的图像块特征能很好的代表图像块，从而卷积自编码器编码部分输出的就是胶囊内镜图像块特征向量。

应当理解的是，HOG特征是一种在计算机视觉和图像处理中用来处理物体检测的特征描述算子。它通过计算和统计图像局部区域的梯度方向直方图来构造特征。在具体实施过程中：首先将图像细分为等大小的细胞单元，计算每个单元的梯度直方图；然后几个细胞单元组合成块，统计块的梯度直方图；最后将所有块的梯度直方图串联起来，形成胶囊内镜图像块特征向量。

需要说明的是，SIFT是一种局部特征描述算法，该算法提取的特征向量具有对图像缩放，平移，旋转不变，对于光照、仿射和投影变换也有一定的不变性的特点。在具体实施过程中：由于胶囊内镜序列图像场景特殊，因此将胶囊内镜图像块作为不同尺度空间上的检测关键点，使用SIFT描述器对胶囊内镜图像块进行特征描述，最后得到128维的胶囊内镜图像块特征向量。

在本实施例中，通过对胶囊内镜序列图像进行镜像操作，得到镜像后的胶囊内镜序列图像，提取镜像后的胶囊内镜序列图像预设尺寸的图像块，得到胶囊内镜序列图像块，根据预设算法对胶囊内镜序列图像块进行特征提取，得到胶囊内镜图像块特征向量，从而进一步提高有效筛查出胶囊内镜图像中的冗余图像的准确性。

在一实施例中，如图4所示，基于第一实施例提出本发明胶囊内镜图像冗余数据筛查方法第三实施例，所述步骤S30，包括：

步骤S301，通过预设权投票原则将所述胶囊内镜图像块特征向量映射到所述视觉单词模型中，得到视觉单词出现的次数。

可以理解的是，根据搭建的视觉单词模型，可以以相似度为判别依据，计算每个图像块与各聚类的相似度，如欧式距离，马氏距离等，本实施例对此不作限制，按照预设投票原则，将图像块特征判给各个视觉单词，并统计视觉单词出现的频数，得到每幅图像的词频，统计完所有图像的图像块后，得到胶囊内镜序列图像的词频矩阵，其中，预设投票原则可以为加权投票原则，本实施例对此不作限制。

需要说明的是，投票分类中，各分类的成功率＝sum(实体分类成功率*实体投票值)/实体个数，例如，投票实体数为M，投票分类数为N，则：

各实体对各类的

其中，X₀₀表示第一个胶囊内镜图像块特征向量到第一个聚类簇中的平均相似度，即特征向量与类内各元素的相似度之和，再除以类内各元素的个数，对应的X_mn为第m+1个胶囊内镜图像块特征向量到第n+1个聚类簇中的平均相似度，其中，M＝m+1，N＝n+1，在具体实施过程中，M和N为本领域技术人员设置，本实施对此不作限制，如果一次判断一个胶囊内镜图像块特征向量，则矩阵为1*N维矩阵，N为视觉词汇的大小，也就是k均值聚类个数。

在一次投票中，各实体对各类的

其中，Y₀₀表示第一个胶囊内镜图像块特征向量到第一个聚类中心的相似度，以此类推，Y_mn表示第m+1个胶囊内镜图像块特征向量到第n+1个聚类中心的相似度。

因此在此次投票中，各分类的总成功率为:

Z0＝(X₀₀*Y₀₀+X₁₀*Y₁₀+…X_m0*Y_m0)/M

Z1＝(X₀₁*Y₀₁+X₁₁*Y₁₁+…X_m1*Y_m1)/M

以此类推：

Zn＝(X_0n*Y_0n+X_1n*Y_1n+…X_mn*Y_mn)/M

其中，Zn表示当前投票，投给第n+1个聚类的成功率。在本次实施例中，例如，一次对一幅图像块进行判断，因此M为1，Zn则代表要判断的胶囊内镜图像块特征向量属于第n+1个聚类中心的权值。

然后，一次对一个图像块特征向量进行判断，因此，一次投票实体数为1，投票分类数为K，K为视觉词汇的大小，实体投票值为特征向量与各聚类中心的相似度，实体对各类的分类成功率为特征向量到各类的平均相似度。即通过特征向量与类内各元素的相似度之和，再除以类内各元素的个数。

步骤S302，根据所述视觉单词出现的次数确定所述胶囊内镜图像词频矩阵。

需要说明的，特征向量对各类的最高投票成功率来判别其所属的视觉单词类，并统计一幅图像中，视觉单词出现的次数，形成[图像，单词]矩阵，即胶囊内镜图像词频矩阵。

进一步的，所述步骤S30之前，包括：

获取胶囊内镜图像的胶囊内镜图像库；对所述胶囊内镜图像库进行镜像操作，得到镜像后的胶囊内镜图像库；提取所述镜像后的胶囊内镜图像库预设尺寸的数据块，得到胶囊内镜图像库的图像块；通过预设算法对所述胶囊内镜图像库的图像块进行特征提取，得到胶囊内镜图像块特征向量；通过预设聚类算法对所述胶囊内镜图像块特征向量进行矢量化操作，得到视觉单词模型。

可以理解的是，胶囊内镜图像的胶囊内镜图像库是指从采集到的所有胶囊内镜序列图像中获取一定数量的气泡、杂质、曝光过度以及曝光不足等干扰性图像和正常类别的图像，以及不止上述这些图像类别可能还有其他类型，如：包含消化道病灶的图像，这些图像组成了胶囊内镜图像库，因此，对获取的胶囊内镜图像库的图像进行镜像操作，得到镜像后的胶囊内镜图像库，提取镜像后的胶囊内镜图像库预设尺寸的数据块得到胶囊内镜图像库的图像块，其中，预设尺寸与胶囊内镜序列图像进行图像块提取的预设尺寸是相对应的，再通过预设算法对所述胶囊内镜图像块进行特征提取，得到胶囊内镜图像库的图像块特征向量，其中，预设算法可以为自编码器进行特征的提取，也可用传统的特征提取方式，如HOG、LBP、SIFT算法以及HSV等算法，本实施例对此不作限制，得到胶囊内镜图像库的图像块特征向量，由于提取到的胶囊内镜图像库的图像块特征向量不能被直接认为是视觉单词，因为向量的每个分量跨越无限的实数集合，而语言中的单词由属于有限的字符集的字符组成。针对这一问题，可以通过矢量量化的过程来限制可能的特征向量的数量，因此可以通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型，在具体实施过程中，预设聚类算法可以为K均值聚类算法，其中，K为词汇的大小，也可以用模糊K均值聚类算法，本实施例对此不作限制，在具体实施过程中，预设聚类算法可以为K均值聚类算法进行说明。

进一步的，通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型，包括：

将预设数量的胶囊内镜图像库的图像块特征向量作为初始聚类中心；计算所述剩余数量的胶囊内镜图像库的图像块特征向量与所述初始聚类中心的相似度，根据所述相似度得到预设数量的聚类簇；计算所述聚类簇特征向量的平均值，得到新的聚类中心；通过迭代计算所述聚类簇和所述聚类中心，直到满足迭代停止条件，得到目标聚类中心；根据所述目标聚类中心确定视觉单词模型。

可以理解的是，通过随机选取预设数量的胶囊内镜图像库的图像块特征向量作为初始聚类中心，在具体实施过程中，选取的预设数量可以为K，本实施例对此不作限制，计算剩下每个胶囊内镜图像库的图像块特征向量与各个初始聚类中心的相似度，根据相似度确定相似度最高的聚类中心，然后将胶囊内镜图像块特征向量分配给相似度最高的聚类中心，得到预设数量的聚类簇，即形成K个聚类簇，通过计算每个聚类簇所有特征向量的平均值，并将它作为新的聚类中心，最后，通过对计算得到的聚类簇和聚类中心进行重复操作，直到满足迭代停止条件，可以得到目标聚类中心，视觉单词模型就已经形成，其中，迭代停止条件可以为聚类中心不再变化或者达到设置的迭代次数等条件，本实施例对象不作限制，而设置的迭代次数可以为本领域技术人员设置。因此，通过将任何一个图像块特征向量输进去模型中，都可以唯一的映射到特定的单词上。

在本实施例中，通过预设权投票原则将要筛查冗余数据的胶囊内镜图像块特征向量映射到视觉单词模型中，得到视觉单词出现的次数，根据所述视觉单词出现的次数确定所述胶囊内镜图像词频矩阵，从而提高筛查出胶囊内镜图像中的冗余图像的有效性。

在一实施例中，如图5所示，基于第一实施例提出本发明胶囊内镜图像冗余数据筛查方法第四实施例，所述步骤S40，包括：

步骤S401，确定所述胶囊内镜图像词频矩阵的主题类别。

可以理解的是，主题类别可以为气泡主题、杂质主题、正常主题等，本实施例对此不作限制，因此，可以确定胶囊内镜图像词频矩阵对应的气泡主题、杂质主题或正常主题等。

步骤S402，通过预设主题模型对词频矩阵进行处理，得到所述胶囊内镜序列图像中所述主题类别对应的主题概率分布。

应当理解的是，预设主题模型可以为概率潜在主题分析(Probabilistic latentsemantic analysis,pLSA)模型、隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)等，本实施例对此不作限制，pLSA是Thomas Hofmann在潜在语义索引的基础上提出来的一种基于双模式和共现的数据分析方法延伸的经典统计学方法。文档的结构和胶囊内镜图像的构成相似，一篇文档相当于一幅胶囊内镜图像，文档的主题可以映射到胶囊内镜序列图像的语义内容，LDA生成过程与pLSA模型相似，不同的是LDA在生成过程中，主题分布和词分布服从狄利克雷分布，其联合概率分布函数计算公式为：

其中，α和β为两个狄利克雷分布，θ是在参数为α的狄利克雷分布下的主题分布，N为胶囊内镜序列图像总数，在具体实施过程中可用EM算法或吉布斯采样算法来估计模型参数α、β和θ，求解胶囊内镜图像主题分布下主题类别对应的主题概率p(z_n|θ)，最终得到图像主题概率分布。

在具体实施过程中，可以以pLSA模型为例进行说明，步骤S402，包括：

通过预设迭代算法对所述胶囊内镜图像词频矩阵进行处理，得到所述主题类别对应的主题类别概率。

应当理解的是，通过预设迭代算法对输出的胶囊内镜图像词频矩阵进行处理，可以求解得到胶囊内镜序列图像中主题类别对应的主题类别概率，其中，预设迭代算法可以为最大期望算法(Expectation-maximization algorithm，EM)，本实施例对此不作限制。

需要说明的是，在本实施例中，EM求解概率潜在主题分析模型的具体流程为：

首先，令p(z_k)＝1/k，其中，p(z_k)表示所有主题类别中第k个主题的概率，z_k为确定的第k个主题类别，k为确定的主题类别数量，并且分别从0到1之间随机选取数作为p(z_k|d_i)和p(w_j|z_k)的初始值，其中，d_i为第i幅胶囊内镜序列图像，w_j为第j个视觉单词，p(z_k|d_i)为d_i幅图像下的主题z_k的概率，p(w_j|z_k)为胶囊内镜图像中第k个主题z_k下视觉单词w_j出现的概率。

然后，在E步根据如下公式计算任何一个(d_i，w_j)对产生z_k的后验概率p(z_k|d_i，w_j)：

其中，L为计算的似然数，l为平均迭代次数。

其次，在M步根据如下公式重新更新p(z_k)、p(w_j|z_k)和p(z_k|d_i)：

其中，M为视觉单词大小，N胶囊内镜序列图像总数，n(w_j，d_i)为视觉单词w_j在胶囊内镜图像d_i中出现的次数。

最后，根据更新的参数通过如下公式计算似然数L：

反复迭代E步和M步，直到L的期望值增量小于设定的阈值，其中，设定的阈值可以为本领域技术人员设置，本实施例对此不作限制，保存此时的参数值，若L的期望值增量大于等于设定的阈值，则进一步判断迭代次数是否超过400次，其中，迭代次数可以为本领域技术人员设置，本实施例对此不作限制，若迭代次数超过400次，则保存此时的参数值，若未达到400次，则继续反复迭代E步和M步，直到满足实现保存此时的参数值的条件。

根据预设概率分布对所述胶囊内镜序列图像进行图像选取，确定预设胶囊内镜图像。

可以理解的是，预设概率分布可以为二项分布，本实施例对此不作限制，通过二项分布对胶囊内镜序列图像进行图像选取，确定预设胶囊内镜图像，即按照概率p(d_i)在胶囊内镜序列图像中选取预设胶囊内镜图像d_i，图像被选中的概率服从二项分布。

根据所述主题类别概率确定预设胶囊内镜图像对应的预设主体类别。

应当理解的是，在选中预设胶囊内镜图像d_i后，从主题分布中按照主题类别概率对应的概率p(z_k|d_i)选择预设胶囊内镜图像对应的预设主体类别z_k。

根据所述主题类别概率确定预设主体类别对应的预设视觉单词。

需要说明的是，在选定预设主体类别后，从词分布中按照p(w_j|z_k)选取预设主体类别对应的预设视觉单词w_j。

可以理解的是，反复迭代主题类别z_k和视觉单词w_j的选取过程，直到生成一幅胶囊内镜图像，重复一幅胶囊内镜图像的生成过程，生成胶囊内镜图像集合。因此，胶囊内镜图像中，图像和视觉单词的联合图像主题概率分布为：

进一步的，步骤S50，包括：

步骤S501，通过预设概率对所述图像主题概率分布进行筛查，得到目标胶囊内镜图像。

需要说明的是，预设概率可以为当前图像主题概率分布对应的最高概率值，由于当前图像主题概率分布里的值为每幅图像中各个主题的概率，因此，以最高主题概率对图像进行分类，将具有相同明显语义的图像会被分到同一类，以此来对冗余图像进行筛查，得到目标胶囊内镜图像。

在本实施例中，通过迭代算法对胶囊内镜图像词频矩阵进行处理，得到每幅图像的各个主题的概率，以每幅图像中的最高主题概率值来确定主题类别，例如，气泡图像中z1主题概率最高，那么z1就为气泡主题，杂质图像中z3主题概率最高，那么z3为杂质主题，最后以每幅图像的主题概率分布中的最高主题概率对图像进行分类，得到目标胶囊内镜图像，从而有效筛查出胶囊内镜图像中的冗余图像。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有胶囊内镜图像冗余数据筛查程序，所述胶囊内镜图像冗余数据筛查程序被处理器执行时实现如上文所述的胶囊内镜图像冗余数据筛查方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，参照图6，本发明实施例还提出一种胶囊内镜图像冗余数据筛查装置，所述胶囊内镜图像冗余数据筛查装置包括：

获取模块10，用于获取胶囊内镜采集的胶囊内镜序列。

图像处理模块20，用于对所述胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量。

词频统计模块30，用于通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵。

主题分析模块40，用于通过预设主题模型对所述胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布。

需要说明的是，主题模型是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型，最初主要被用来处理自然语言处理中的语义分析和文本挖掘问题，后有学者将其应用到自然图像的语义分析问题中。例如，一篇文档可以看作是几个主题的混合，一幅图像也可以看作是语义的混合，将文档映射到图像中，因此可以使用主题模型对胶囊内镜图像词频矩阵继续潜在主题分析，即，使用预设主题模型对N*M的矩阵进行分析，得到N*Z的矩阵，其中Z为人为指定的主题个数，其中，Z大于等于胶囊内镜序列图像类别数，矩阵里的值为胶囊内镜序列图像中各个主题的概率，从而可知每幅胶囊内镜序列图像中各个主题的概率分布，其中，设主题模型可以为概率潜在主题分析(Probabilistic latent semanticanalysis,pLSA)、隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)等，本实施例对此不作限制。

筛查模块50，用于通过所述图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像。

在一实施例中，所述图像处理模块20，还用于对所述胶囊内镜序列图像进行镜像操作，得到镜像后的胶囊内镜序列图像；提取所述镜像后的胶囊内镜序列图像预设尺寸的图像块，得到胶囊内镜序列图像块；根据预设算法对所述胶囊内镜序列图像块进行特征提取，得到胶囊内镜图像块特征向量。

在一实施例中，胶囊内镜图像冗余数据筛查装置还包括构建视觉单词模块，用于获取胶囊内镜图像的胶囊内镜图像库；对所述胶囊内镜图像库进行镜像操作，得到镜像后的胶囊内镜图像库；提取所述镜像后的胶囊内镜图像库预设尺寸的数据块，得到胶囊内镜图像库的图像块；通过预设算法对所述胶囊内镜图像库的图像块进行特征提取，得到胶囊内镜图像库的图像块特征向量；通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型。

在一实施例中，所述构建视觉单词模块，还用于将预设数量的胶囊内镜图像库的图像块特征向量作为初始聚类中心；计算剩余数量的胶囊内镜图像库的图像块特征向量与所述初始聚类中心的相似度，根据所述相似度得到预设数量的聚类簇；计算所述聚类簇特征向量的平均值，得到新的聚类中心；通过迭代计算所述聚类簇和所述聚类中心，直到满足迭代停止条件，得到目标聚类中心；根据所述目标聚类中心确定视觉单词模型。

在一实施例中，所述词频统计模块30，还用于通过预设权投票原则将所述胶囊内镜图像块特征向量映射到所述视觉单词模型中，得到视觉单词出现的次数；根据所述视觉单词出现的次数确定所述胶囊内镜图像词频矩阵。

在一实施例中，所述主题分析模块40，还用于确定所述胶囊内镜图像词频矩阵的主题类别；通过预设主题模型对所述胶囊内镜图像词频矩阵进行处理，得到所述胶囊内镜序列图像中所述主题类别对应的主题概率分布。

在一实施例中，所述主题分析模块40，还用于通过预设迭代算法对所述胶囊内镜图像词频矩阵进行处理，得到所述主题类别对应的主题类别概率；根据预设概率分布对所述胶囊内镜序列图像进行图像选取，确定预设胶囊内镜图像；根据所述主题类别概率确定预设胶囊内镜图像对应的预设主体类别；根据所述主题类别概率确定预设主体类别对应的预设视觉单词；根据所述预设胶囊内镜图像、所述预设主体类别以及所述预设视觉单词确定图像主题概率分布。

在一实施例中，所述主题分析模块50，还用于通过预设概率对所述图像主题概率分布进行筛查，得到目标胶囊内镜图像。

在本发明所述胶囊内镜图像冗余数据筛查装置的其他实施例或具体实现方法可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该估算机软件产品存储在如上所述的一个估算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能胶囊内镜图像冗余数据筛查设备(可以是手机，估算机，胶囊内镜图像冗余数据筛查设备，空调器，或者网络胶囊内镜图像冗余数据筛查设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种胶囊内镜图像冗余数据筛查方法，其特征在于，所述胶囊内镜图像冗余数据筛查方法包括以下步骤：

获取胶囊内镜采集的胶囊内镜序列图像；

2.如权利要求1所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述对所述胶囊内镜序列图像进行图像处理，得到胶囊内镜图像块特征向量，包括：

3.如权利要求1所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵之前，还包括：

获取胶囊内镜图像的胶囊内镜图像库；

4.如权利要求3所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过预设聚类算法对所述胶囊内镜图像库的图像块特征向量进行矢量化操作，得到视觉单词模型，包括：

计算所述聚类簇特征向量的平均值，得到新的聚类中心；

根据所述目标聚类中心确定视觉单词模型。

5.如权利要求1所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过视觉单词模型对所述胶囊内镜图像块特征向量进行词频统计，得到胶囊内镜图像词频矩阵，包括：

6.如权利要求1所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过预设主题模型对所述胶囊内镜图像词频矩阵进行主题分析，得到图像主题概率分布，包括：

确定所述胶囊内镜图像词频矩阵的主题类别；

7.如权利要求6所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过预设主题模型对词频矩阵进行处理，得到所述胶囊内镜序列图像中所述主题类别对应的主题概率分布，包括：

8.如权利要求1～7中任一项所述的胶囊内镜图像冗余数据筛查方法，其特征在于，所述通过所述图像主题概率分布对所述胶囊内镜序列图像进行筛查，得到目标胶囊内镜图像，包括：