CN110458127A

CN110458127A - 图像处理方法、装置、设备以及系统

Info

Publication number: CN110458127A
Application number: CN201910757897.5A
Authority: CN
Inventors: 郑贺; 姚建华; 韩骁; 黄俊洲
Original assignee: Tencent Healthcare Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2019-11-15
Anticipated expiration: 2039-03-01
Also published as: CN109886243B; CN109886243A; CN110458127B

Abstract

本申请公开了一种图像处理方法、装置、设备以及系统，属于人工智能技术领域，具体涉及机器学习技术。装置包括：获取模块，用于获取待检测结直肠的视频影像流；检测模块，用于对视频影像流中的每一帧肠道图像依次进行病灶检测；处理模块，用于对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和当前帧肠道图像的第二病灶检测结果，对当前帧肠道图像进行分类；当分类结果指示存在病灶且当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为当前帧肠道图像最终的病灶中心点；前序帧肠道图像为时序上位于当前帧肠道图像之前的至少一帧肠道图像。本申请提高了图像分类的准确度以及确保了预测结果的连贯性。

Description

图像处理方法、装置、设备以及系统

本申请为2019年03月01日提交的申请号为201910156660.1、发明名称为“图像处理方法、装置、存储介质、设备以及系统”的中国专利申请的分案申请，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像处理方法、装置、设备以及系统。

背景技术

机器学习技术作为人工智能的核心，其应用范围目前已经遍及各个领域，比如医疗领域便是其中一种。在医疗领域中，利用机器学习技术对医学影像图像进行处理，可实现对病人是否罹患某种疾病进行识别。以结直肠癌为例，时下肠镜检查已被广泛应用于结肠癌筛查，在得到病人结直肠部位的医学影像图像后，利用计算机辅助检测技术对该医学影像图像进行处理，检测肠壁是否存在息肉，进而实现根据息肉的存在情况来辅助医生识别病人是否罹患结直肠癌。

继续以结直肠癌为例，相关技术在通过肠道图像处理进行息肉检测时，尽管采集到的是视频影像流，但是输入到息肉检测模型的是该视频影像流中的单帧肠道图像，即息肉检测模型在接收到单帧肠道图像后，首先对该帧肠道图像进行特征提取，之后，基于提取到的特征判断该帧肠道图像中是否存在息肉。

上述肠道图像处理方式至少存在以下问题：

第一、上述肠道图像处理方式对息肉检测模型的准确度有较高要求，而考虑到实际场景的复杂性，息肉检测模型的准确度存在瓶颈。例如，在肠镜检查时可能会出现遮挡、光线过亮或过暗、运动性模糊、失焦性模糊等，又例如，息肉大小、形态、颜色等也会根据病人不同、摄像头与息肉的距离不同、终端型号不同等发生变化，而上述提及到的各种因素均会响应模型的检测准确度。

第二、上述肠道图像处理方式的预测结果连贯性存在问题。视频影像流在采集过程中往往存在噪音，即便摄像头没有移动，由于肠道移动，相邻两帧肠道图像之间通常也会存在细微差异，而这种差异有时会导致相邻两帧肠道图像产生截然不同的预测结果，即视觉上相同的区域，息肉检测模型却给出不同的、不连贯、不一致的预测结果。

发明内容

本申请实施例提供了一种图像处理方法、装置、设备以及系统，解决了相关技术存在的检测精确度不高以及预测结果缺乏连贯性的问题。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

获取待检测结直肠的视频影像流，所述视频影像流是通过图像采集设备对待检测结直肠进行图像采集形成的视频流；

对所述视频影像流中的每一帧肠道图像依次进行病灶检测；

对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和所述当前帧肠道图像的第二病灶检测结果，对所述当前帧肠道图像进行分类；

当分类结果指示存在病灶且所述当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为所述当前帧肠道图像最终的病灶中心点；

其中，所述前序帧肠道图像为时序上位于所述当前帧肠道图像之前的至少一帧肠道图像。

在一种可能的实现方式中，对所述当前帧肠道图像进行病灶检测，包括：

将所述当前帧肠道图像输入检测模型中，获取所述检测模型输出的第一分割图像，所述第一分割图像中每个像素点表示所述当前帧肠道图像中相应位置上的像素点为病灶的概率值；

对所述第一分割图像进行调整，并对调整后的第一分割图像进行后处理；

计算后处理的第一分割图像中至少一个前景区域的连通分量；

按照大小对所述至少一个连通分量进行排序，并按照与目标形状的相似程度对所述至少一个连通分量进行排序；

当最大的连通分量、与最接近所述目标形状的连通分量一致时，将所述最大的连通分量指示的前景区域，确定为所述当前帧肠道图像的病灶中心点。

在一种可能的实现方式中，所述对所述第一分割图像进行调整，并对调整后的第一分割图像进行后处理，包括：

获取与上一帧肠道图像匹配的调整后的第二分割图像，求取所述第一分割图像和所述调整后的第二分割图像的平均值，得到所述调整后的第一分割图像；

以指定数值为阈值，对所述调整后的第一分割图像进行二值化处理；

去除二值化处理后的第一分割图像中的噪声点并平滑前景边缘。

在一种可能的实现方式中，所述方法还包括：

当所述预测位置坐标超出所述当前帧肠道图像的图像范围时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪；或，

当所述分类器将所述预测位置坐标对应的预测病灶中心点判定为背景时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪。

在一种可能的实现方式中，所述方法还包括：

当对任意一个病灶中心点的追踪帧数大于第一数量时，停止对所述病灶中心点进行追踪；或，

当在第二数量的连续肠道图像中追踪一个病灶中心点失败时，停止对所述病灶中心点进行追踪。

在一种可能的实现方式中，所述将置信度最高的病灶中心点确定为所述当前帧肠道图像最终的病灶中心点，包括：

连接欧氏距离小于目标阈值的相邻病灶中心点；

计算所述多个病灶中心点的连通分量，将最大连通分量对应的病灶中心点作为所述置信度最高的病灶中心点，得到所述当前帧肠道图像最终的病灶中心点。

另一方面，提供了一种图像处理装置，所述装置包括：

获取模块，用于获取待检测结直肠的视频影像流，所述视频影像流是通过图像采集设备对待检测结直肠进行图像采集形成的视频流；

检测模块，用于对所述视频影像流中的每一帧肠道图像依次进行病灶检测；

处理模块，用于对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和所述当前帧肠道图像的第二病灶检测结果，对所述当前帧肠道图像进行分类；当分类结果指示存在病灶且所述当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为所述当前帧肠道图像最终的病灶中心点；其中，所述前序帧肠道图像为时序上位于所述当前帧肠道图像之前的至少一帧肠道图像。

另一方面，提供了一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种图像处理设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的图像处理方法。

另一方面，提供了一种图像处理系统，所述系统包括：图像采集设备、图像处理设备以及显示设备；

所述图像采集设备用于对待检测结直肠进行图像采集，得到所述待检测结直肠的视频影像流；

所述图像处理设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现：获取所述视频影像流；对所述视频影像流中的每一帧肠道图像依次进行病灶检测；对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和所述当前帧肠道图像的第二病灶检测结果，对所述当前帧肠道图像进行分类，当分类结果指示存在病灶且所述当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为所述当前帧肠道图像最终的病灶中心点，所述前序帧肠道图像为时序上位于所述当前帧肠道图像之前的至少一帧肠道图像；

所述显示设备用于对所述图像处理设备输出的结果进行显示。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例在进行肠道图像处理时，会将对前序帧肠道图像的预测结果考虑到对当前帧肠道图像的预测之中，即本申请实施例会综合前序帧肠道图像的预测结果与当前帧肠道图像的图像信息，来完成对单帧肠道图像的最终预测，不但聚合了单帧肠道图像检测时高效且无累积误差的优点，而且通过融合其他帧肠道图像的相关信息显著提高了肠道图像分类的准确度以及确保了预测结果的连贯性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法所涉及的实施环境示意图；

图2是本申请实施例提供的一种图像处理方法的病灶检测流程示意图；

图3是本申请实施例提供的一种图像处理方法的流程图；

图4是本申请实施例提供的一种U-net网络的结构示意图；

图5是本申请实施例提供的一种单帧肠道图像息肉检测时的方法流程图；

图6是本申请实施例提供的一种在线训练CNN分类器的流程示意图；

图7是本申请实施例提供的一种图像处理装置的结构示意图；

图8是本申请实施例提供的一种图像处理设备800的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的图像处理方案应用于智能医疗领域，涉及人工智能的机器学习技术。

其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体通过如下实施例对本申请提供的一种图像处理方法进行说明。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例涉及到的一些名词进行解释说明。

CNN：英文全称Convolutional Neural Network，中文名称卷积神经网络。

简言之，CNN是由多个卷积操作组成的计算网络，多用于深度学习。其中，深度学习技术是一种利用深层神经网络系统进行机器学习的技术。

CAD：英文全称Computer Aided Diagnosis,中文名称计算机辅助诊断。

其中，CAD用于通过影像学、医学图像处理技术以及其他可能的生理、生化手段，结合计算机的分析计算，辅助发现病灶，提高诊断的准确率。

视频影像流：指代通过图像采集设备对机体部位(人体上目标器官)进行图像采集形成的视频流。

示例性地，以目标器官为结直肠为例，则上述视频影像流便指代医学仪器对结直肠进行图像采集形成的包括多帧肠道图像的视频流。

肠镜：医学上用于检测肠道的一种内窥镜。

息肉：是指人体组织表面长出的赘生物，现代医学通常将生长在人体黏膜表面上的赘生物统称为息肉，包括增生性、炎症性、错构瘤、腺瘤及其他肿瘤等。需要说明的是，息肉属于良性肿瘤的一种。

病灶：病灶通常指代机体上发生病变的部分。换一种表达方式，一个局限的、具有病原微生物的病变组织，即可称为病灶。

示例性地，比如肺的一叶被结核菌破坏，那么这部分便是肺结核病灶。

在本申请实施例中，病灶即指代息肉；在一种可能的实现方式中，病灶在本文中具体指代肠息肉。

图像类别：即通过图像分类确定图像中包含内容所属的类别。在本申请实施例中，通过对医学影像图像进行分类，可以明确病人的目标器官上是否存在息肉。示例性地，通过本申请实施例提供的图像处理方法可识别出病人的肠道上是否存在肠息肉。

光流：在相邻的两帧图像中存在像素点的运动，也即是上一帧图像中的像素点在下一帧图像中其位置会有轻微的变动，那么这个变动，也即是位移向量，便是该像素点的光流。

众所周知，时下结直肠癌是全世界癌症死亡的普遍诱因之一。目前，降低结直肠癌死亡率的标准方法是通过结直肠筛查来寻找息肉。其中，肠镜检查作为现今的通用做法已被广泛应用于结直肠癌筛查。在肠镜检查期间，临床医生通过医学仪器的图像采集设备对肠壁进行拍摄，从而协助临床医生基于采集到的医学影像图像进行息肉检测。然而，一旦临床医生存在漏检情况，病人便会错过早期疾病检测和治疗的机会，存在极大健康隐患。为此，为了降低误诊的风险并减轻临床医生的负担，本申请实施例通过计算机辅助诊断方法，实现在病人肠镜检查期间，自动通过图像处理方法对息肉进行自动检测。

下面先对本申请实施例提供的图像处理方法所涉及的实施环境进行介绍。

图1是本申请实施例提供的一种图像处理方法所涉及的实施环境示意图。参见图1，该实施环境包括图像处理设备101、显示设备102和图像采集设备103。上述图像处理设备101、显示设备102和图像采集设备103构成了图像处理系统。其中，显示设备102可为显示器，图像处理设备101包括但不限于固定式终端和移动式终端，本申请实施例对此不进行具体限定。

其中，图像采集设备103用于对待检测结直肠进行图像采集，得到待检测结直肠的视频影像流；图像处理设备101包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现：获取视频影像流；对视频影像流中的每一帧肠道图像依次进行病灶检测；对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和当前帧肠道图像的第二病灶检测结果，对当前帧肠道图像进行分类，前序帧肠道图像为时序上位于当前帧肠道图像之前的至少一帧肠道图像；显示设备102用于对图像处理设备输出的结果进行显示。其中，在本文中一帧肠道图像也简称为一帧图像。

以病灶为息肉，对结直肠进行息肉检测为例，在本申请实施例中，临床医生通过肠镜对病人的结直肠进行观察。其中，进行肠镜检查的医学仪器即图像采集设备103会深入到肠道内部，以对肠壁进行图像采集，并将采集到的视频影像流传递给图像处理设备101。其中，图像采集设备103为摄像头。

而图像处理设备101负责通过本申请实施例提供的图像处理方法，判断当前采集到的视频影像流中是否存在肠息肉。如果存在，则图像处理设备101负责控制显示设备102显示输出的结果，以及对临床医生进行提示。

其中，进行提示的方式包括但不局限于：语音提示、显示设备102或指示灯的特殊示警提示、在显示设备102显示的视频画面中高亮显示检测到的息肉区域，本申请实施例对此不进行具体限定。

基于以上关于实施环境的描述，本申请实施例提供的图像处理方法在架构层面，一方面通过端到端的深度学习网络完成了对单帧图像的息肉预测。另一方面，本申请实施例还增加了追踪方法用于息肉检测，综合前序帧图像的预测结果与当前帧图像的图像信息，完成对当前帧图像最终的息肉预测。

继续以病灶为息肉，对结直肠进行息肉检测为例，参见图2，本申请实施例提供的图像处理方法的详细实现步骤包括但不限于：

1)、肠镜采集得到结直肠的视频影像流。

2)、对于视频影像流中的每一帧图像，通过端到端的深度学习网络检测当前一帧图像中是否存在息肉。

即，本申请实施例首先基于深度学习网络用以检测和分割图像中的息肉。对于任一帧图像，只要在该帧图像中检测到息肉，便计算该息肉的中心点坐标即，如果当前一帧图像中存在息肉，则上述深度学习网络通常还会给出息肉的空间位置。

另外，上述深度学习网络在本文中也被称之为检测模型。

3)、对于采取步骤2)给出的单帧检测方法检测到的息肉，追踪它在下一帧图像中的出现位置。

示例性地，可先尝试利用光流追踪法追踪它在下一帧图像中的出现位置，对于光流追踪法失效的复杂情况，改用光流追踪卷积神经网络对息肉在其他帧图像中的出现位置继续进行追踪。

在本申请实施例中，在一帧图像中检测到息肉后，在后续帧中会对其继续进行追踪，直到满足停止规则。在追踪期间，光流追踪法用于追踪更容易的情况，而光流追踪卷积神经网络用于处理更难的情况。

4)、对于每一帧图像，综合追踪得到的息肉以及对当前帧图像预测得到的息肉，得到当前帧图像是否存在息肉，以及息肉在当前帧图像中出现的位置的最终预测结果。

需要说明的是，如果某一帧图像中不包含息肉，则将该帧图像视为负帧。如果该帧图像中包括多个息肉中心点(其中一些是从先前帧图像中追踪到继承的)，则本申请实施例采用空间加权投票算法，保留置信度最高的息肉中心点，并将其作为最终的息肉中心点，同时删除其他息肉中心点。

综上所述，基于同一个病人、同一次肠镜检查中息肉特征相对一致的特点，本申请实施例提出了一种结合单帧检测、前后帧的特征继承、以及运动目标追踪等手段的图像分类方式，本方案不但吸收了相关技术中给出的单帧检测方法的高效且无累积误差的优点，而且通过融合视频信息显著提高了息肉检测的准确度以及确保了预测结果的连贯性。

图3是本申请实施例提供的一种图像处理方法的流程图。该方法的执行主体为图1中示出的图像处理设备101，以对结直肠进行息肉检测为例，参见图3，本申请实施例提供的方法流程包括：

301、获取待检测结直肠的视频影像流。

该视频影像流通常是医学仪器的摄像头深入到肠道内部进行图像采集得到的。而摄像头在采集到影像后会直接传输给图像处理设备。

302、对该视频影像流中的每一帧肠道图像依次进行病灶检测；对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和当前帧肠道图像的第二病灶检测结果，对当前帧肠道图像进行分类，前序帧肠道图像为时序上位于当前帧肠道图像之前的至少一帧肠道图像。

其中，当分类结果指示存在病灶且当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为当前帧肠道图像最终的病灶中心点。

单帧图像病灶检测

由于在本申请实施例中机体部位指代结直肠，因此本步骤即对单帧图像进行息肉检测。在本申请实施例中，采取基于深度学习的端到端方法来进行单帧图像息肉检测。

示例性地，参见图4，本申请实施例采用名为U-net的全卷积神经网络来对每一帧图像进行分割。其中，U-net网络是一种端到端的CNN(Convolutional Neural Networks，卷积神经网络)，其输入为一幅图像，输出为对该图像中感兴趣对象的分割结果。

换一种表达方式，U-net网络的输入和输出均是图像，且U-net网络不包括全连接层，而图像分割用于分割出一个感兴趣对象的准确轮廓。

如图4所示，U-net网络的左半部分用于进行特征提取，包括卷积层和池化层，在将图像输入U-net网络后，通过卷积层与池化层的配合，即可完成对输入图像的逐层特征提取。

其中，卷积层具体是通过卷积核来执行卷积运算，进而实现对输入图像的特征提取。需要说明的是，上一个卷积层的输出又可作为下一个卷积层的输入，提取到的特征信息一般以特征图(feature map)进行表征。此外，由于一层卷积学习到的特征往往是局部的，卷积层的层数越高，学习到的特征越全局化，因此为了提取输入图像的全局特征，U-net网络中通常包括多个卷积层，且每一个卷积层中通常包括多个卷积核。

而池化层具体用来降维，以减少计算量和避免过拟合，比如利用池化层可以将一幅大的图像缩小，同时又保留该图像中的重要信息。

进一步地，U-net网络的右半部分用于进行反卷积运算，包括反卷积层、卷积层以及拼接步骤。如图4所示，由于该网络结构形状类似U型，所以称之为U-net网络。需要说明的是，每反卷积一次，便相应地和特征提取部分进行特征融合一次，即进行特征拼接一次。

其中，反卷积又被称为转置卷积，卷积层的前向传播过程即是反卷积层的反向传播过程，卷积层的反向传播过程即是反卷积层的前向传播过程。由于反卷积过程是一个由小尺寸到大尺寸的过程，因此输入图像和输出的分割图像的大小一致。

在一种可能的实现方式中，参见图5，以对当前处理的一帧图像(简称为当前帧图像)为例，对单帧图像息肉检测时包括但不限于下述步骤：

302a、将当前帧肠道图像输入至训练好的检测模型中，获取该检测模型输出的当前帧肠道图像的第一分割图像。

其中，该检测模型即指代上文提及的U-net网络，且当前帧图像的大小与第一分割图像的大小一致。换一种表达方式，输入的图像在通过U-net网络后，得到一张分割图像，且该分割图像的大小与输入图像的大小一致。

需要说明的是，上述第一、以及后续出现的第二仅是用于对不同的分割图像进行区分，而不构成任何其他的限定。

另外，第一分割图像中每个像素点表示当前帧图像中相应位置上的像素点为息肉的概率值；换一种表达方式，该分割图像中每个像素点指代原始图像中对应像素点所在区域为息肉的概率值。示例性地，1表示息肉，0表示非息肉，本申请实施例对此不进行具体限定。

302b、对第一分割图像进行调整，并对调整后的第一分割图像进行后处理。

为了减少抖动效应，本申请实施例还会对第一分割图像和之前的多帧图像的分割图像进行加权平均，并将加权平均结果作为当前帧图像最终的分割图像。示例性地，权值可为0.5^d+1，其中，d为与一张分割图像匹配的那帧图像到当前帧图像的距离(即帧数)。

以第t帧图像的分割图像为S_t为例，则调整后的分割图像S_t*为：

由于上述公式中当t的取值较大时，分母部分接近于1，因此可以将分母舍去，分子进行合并后可以得到：

即本申请实施例利用基于当前帧图像计算得到的分割图像和前一帧图像的调整后的分割图像，来计算当前帧图像最终的分割图像，且最终的分割图像为二者的平均值。换一种表达方式，对第一分割图像进行调整，包括但不限于：获取与上一帧图像匹配的调整后的第二分割图像，求取第一分割图像和调整后的第二分割图像的平均值，得到调整后的第一分割图像。

在一种可能的实现方式中，为了降低获得假阳性预测结果的风险，在得到调整后的第一分割图像后，本申请实施例还会进一步地对其执行后处理操作。其中，对调整后的第一分割图像进行后处理包括但不限于：以指定数值为阈值，对调整后的第一分割图像进行二值化处理；去除二值化处理后的第一分割图像中的噪声点并平滑前景边缘。

其中，指定数值的取值可为0.5或0.6等，本申请实施例对此不进行具体限定。示例性地，以指定数值的取值为0.5为例，则在后处理时，首先会以0.5作为阈值将调整后的第一分割图像进行二值化处理。之后，还会对二值化处理后的分割图像进行侵蚀操作，从而去除小的噪音点并平滑前景边缘。

302c、计算后处理的第一分割图像中至少一个前景区域的连通分量，并按照数值大小和与目标形状的相似程度分别对至少一个连通分量进行排序。

由于息肉在分割图像中往往呈现圆形或椭圆形，因此目标形状可为圆形或椭圆形，本申请实施例对此不进行具体限定。

示例性地，对于计算得到的连通分量，可按照连通分量由大到小的顺序对各个连通分量依次进行排序，再按照呈椭圆程度由大到小的顺序对各个连通分量依次进行排序。

302d、当最大的连通分量、与最接近目标形状的连通分量一致时，将最大的连通分量指示的前景区域，确定为当前帧肠道图像的病灶中心点。

由于息肉在分割图像中往往呈现圆形或椭圆形，且区域较大，因此仅有当最大的连通分量和最呈目标形状的连通分量为同一个连通分量时，才会将该连通分量指示的前景区域确定为息肉中心点。继续以上述举例为例，对于两个排序列表，若排位在两个列表首位的连通分量为同一个连通分量，则将该连通分量对应的前景区域确定为当前帧图像的息肉中心点。

以上以当前处理的一帧图像为例，介绍了对单帧图像进行病灶检测的过程；继续以当前帧图像为例，除上述描述之外，图像处理设备还会基于前序帧图像的病灶检测结果在当前帧图像中进行病灶中心点的追踪。

病灶追踪

在一帧图像中检测到息肉后，本申请实施例在之后的多帧图像中会对该息肉进行追踪，直至满足停止追踪规则。需要说明的是，在追踪期间，光流法用于追踪更容易的情况，而光流追踪卷积神经网络用于处理更难的情况。

其中，光流法是两个连续帧之间图像对象的明显运动模式，它是2D矢量场，每个矢量均是位移矢量，表示从第一帧图像到第二帧图像的点的流动。

通常情况下，光流法基于以下两个假设：

1、相同对象的像素强度在连续帧之间不会改变；

2、相邻像素具有相似的运动。在本申请实施例中，给定帧t的息肉中心点坐标(x,y)，便可利用光流法追踪其在下一帧图像中出现的位置。

基于以上描述，光流法用于息肉追踪的原理如下：

针对视频影像流中的每一帧图像，检测可能出现的前景目标即息肉；如果某一帧图像中出现了息肉中心点，则对之后任意两帧相邻图像而言，寻找上一帧图像中出现的息肉中心点在当前帧图像中出现的位置，从而得到前景目标在当前帧图像中的位置坐标；如此迭代进行，便可实现息肉追踪。

然而，针对模糊图像或图像假像而言，会出现并不能够满足上述两个假设的情况，进而导致利用光流法追踪息肉失效的情况出现。在本申请实施例中，为了决定是否继续进行息肉追踪，采用鲁棒性更优的运动回归模型来评估是否继续进行息肉追踪，并在光流法追踪停止时进行进一步地追踪。

运动回归模型

在本申请实施例中，通过利用先前帧图像中息肉中心点的运动情况，采用运动回归模型预测当前帧图像中息肉中心点的运动情况。

示例性地，假设ΔP_t＝P_t-P_t-1指代第t帧中息肉中心点的运动向量，其中，P_t指代第t帧中息肉中心点的位置，P_t-1指代第t-1帧中息肉中心点的位置，则本申请实施例通过线性拟合，利用先前帧图像中息肉中心点的运动向量，来预测当前帧图像中息肉中心点的运动向量ΔP_t。

示例性地，本申请实施例利用前三帧中息肉中心点的运动向量[ΔP_t-3,ΔP_t-2,ΔP_t-1]来预测当前图像帧的运动向量ΔP_t，从而通过公式P_t＝ΔP_t+P_t-1得到当前帧图像中息肉中心点的位置P_t。该位置P_t即为根据先前帧图像对当前帧图像中息肉位置的预测，即逐帧追踪息肉中心点。

在一种可能的实现方式中，如果该位置P_t位于当前帧图像的图像范围内，则利用下文介绍的分类器进一步地确定预测的位置P_t是否为实际的息肉中心点；如果是，则继续在后续帧中进行追踪；否则，则停止追踪。其中，该分类器可为CNN分类器，本申请实施例对此不进行具体限定。

基于以上描述，前述的根据前序帧图像的第一息肉检测结果和当前帧图像的第二息肉检测结果，对当前帧图像进行分类，包括但不限于：

在当前帧图像中追踪息肉：根据前序帧图像中至少一帧图像的息肉中心点的运动向量，通过线性拟合预测当前帧图像的息肉中心点的运动向量；之后，基于当前帧图像的预测息肉中心点的运动向量，追踪在当前帧图像中预测息肉中心点的位置坐标；当追踪得到的预测位置坐标位于当前帧图像的图像范围内时，基于分类器对预测位置坐标进行判定，得到第三息肉检测结果。

其中，前序帧图像中至少一帧图像的息肉中心点基于第一息肉检测结果得到的；需要说明的是，上述第一息肉检测结果是对前序帧图像中全部图像的息肉检测结果的统称。

在本申请实施例中，由于在对一帧图像进行上述单帧检测得到息肉中心点后，还会在后续多帧图像中对其继续进行追踪，因此一帧图像中可能包含多个息肉中心点，比如分别来自单帧检测结果和追踪继承结果。所以示例性地，上述至少一帧图像的息肉中心点可以既包括单帧检测结果，也包括追踪继承结果；另外，针对追踪继承过程来说，息肉中心点的追踪始于单帧检测，换一种表达方式，息肉中心点的追踪是在单帧检测得到息肉中心点后，开始对其在后续帧图像中是否出现进行预测的。

其中，上述至少一帧图像可为前序帧图像中的部分图像或全部图像，本申请实施例对此不进行具体限定。示例性地，上述至少一帧图像可为时序上位于当前帧图像之前的三帧图像。

之后，基于对当前帧图像进行单帧检测的第二息肉检测结果，和进行息肉追踪得到的第三息肉检测结果，对当前帧图像进行分类。

如上所述，在基于前序帧图像的息肉预测结果完成对当前帧图像的预测后，还需利用在线训练好的分类器，对预测的息肉中心点进行实际判定。在对该判定过程进行解释说明之前，先对分类器的在线训练过程进行描述。

在线训练分类器

在实际场景中，根据经验观察息肉的外观在帧与帧之间是趋于一致的，因此本申请实施例提出了一种在线训练的光流追踪CNN框架，用于判定运动回归模型预测的息肉中心点是否为真正的息肉，并进一步地判定运动回归模型是否应该停止追踪。

由于U-net网络计算过程中提取的中间特征图包含了光流追踪CNN计算所需要的息肉特征，且由于在本申请实施例中每一帧图像均会先通过U-net网络计算，因此为了降低计算复杂度，提升计算效率，可直接将U-net网络计算过程中产生的中间特征图作为光流追踪CNN的输入。参见图6,对于当前帧图像的追踪过程来说，本申请实施例会将当前帧图像的上一帧图像输入到图4所示的U-net网络中后所提取的特征图作为共享特征。

另外，为了优化分类器从而判断追踪的息肉是否还存在于当前帧图像中，本申请实施例会在上一帧图像检测到的息肉附近区域采集目标数量的正样本，并在距离息肉较远区域采集目标数量的负样本，进而通过对样本所在区域对应的共享特征图进行池化操作，从而标准化共享特征长度后，再基于目标数量的正样本和目标数量的负样本，实现对分类器的在线训练。换一种表达方式，本申请实施例通过从上一帧图像得来的一定数量的正样本和负样本，对分类器进行微调，从而完成对息肉进行分类。

其中，目标数量的取值可为4，本申请实施例对此不进行具体限定。

在一种可能的实现方式中，基于共享特征图，生成目标数量的正样本和目标数量的负样本，包括但不限于：在上一帧图像获取的最终分割图像中，裁剪与该息肉区域重叠范围大于第一取值的图像区域，得到目标数量的正样本；在上一帧图像获取的最终分割图像中，裁剪与该息肉区域重叠范围小于第二取值的图像区域，得到目标数量的负样本。其中，第一取值可为0.7，第二取值可为0.1，本申请实施例对此不进行具体限定。

需要说明的是，上一帧图像获取的最终分割图像在本文中称之为第三分割图像，而第三分割图像为经过上述步骤302b所示的类似调整处理后的分割图像。

示例性地，如图6所示，可基于当前帧图像的上一帧图像生成四个正样本和四个负样本，比如正样本与息肉区域jaccard重叠大于0.7，负样本与息肉区域jaccard重叠小于0.1。利用这八个样本对分类器进行微调(在线训练)，以基于在线训练的分类器对运动回归模型对当前帧图像预测的息肉进行分类。

其中，jaccard用于比较有限样本集之间的相似性与差异性，Jaccard系数的值越大，样本相似度越高。

需要说明的是，前述已经通过运动回归模型预测了当前帧图像中息肉中心点的位置坐标，因此本步骤利用在线训练好的分类器对其进行分类，即判定其是否为实际的息肉；如果分类器将其判定为非息肉，即将其分类为背景区域而非前景区域，则停止继续追踪，即在后续帧图像中取消继续追踪。

在一种可能的实现方式中，考虑到运算速度问题，如图6所示，本申请实施例将U-net网络输出的分割图像作为分类器的输入。在图6中，输入到U-net网络中的输入图像大小为288×384×3，U-net网络产生的共享特征的维度是18×24×512，其比输入的原始图像的尺寸减小16倍。因此，当提取ROI的特征图时，直接实现将ROI的尺寸减小了16倍。

另外，本申请实施例还会直接将ROI的特征图裁剪成相应的尺寸，示例性地，为了便于运算操作，本申请实施例将ROI的长度和宽度固定为48×48，然后对ROI的特征图裁剪出3×3区域，完成正样本和负样本裁剪；之后，再接入一个1×1×256的卷积层+非线性层；之后，再接两个全连接层和一个softmax层，最后采用交叉墒损失函数完成息肉分类，得到先前运动回归模型预测的结果是否为实际息肉的分类结果。

追踪停止规则

在本申请实施例中，若对当前帧图像的息肉中心点的预测位置坐标超出当前帧的图像范围，或者，在线训练的分类器将对当前帧图像预测的息肉中心点分类为背景时，本申请实施例将对该预测的息肉中心点停止追踪。

换一种表达方式，当对当前帧图像的息肉中心点的预测位置坐标超出当前帧图像的图像范围时，在下一帧图像中对该预测位置坐标对应的预测息肉中心点停止追踪；或，当分类器将该预测位置坐标对应的预测息肉中心点判定为背景时，在下一帧图像中对该预测位置坐标对应的预测息肉中心点停止追踪。

在一种可能的实现方式中，由于可以通过从不同帧图像生成的多个息肉中心点来追踪同一息肉，因此为了节省计算时间并减少不必要的追踪，当对任意一个息肉中心点的追踪帧数大于第一数量时，停止对该息肉中心点进行追踪；其中，第一数量的取值可为10，本申请实施例对此不进行具体限定。

另外，为了减少由在线训练的分类器引起的误差，当在第二数量的连续图像中追踪一个息肉中心点失败时，停止对该息肉中心点进行追踪。其中，第二数量的取值可为3，本申请实施例对此不进行具体限定。

在本申请实施例中，基于前述的第二病灶检测结果和第三病灶检测结果，对当前帧图像进行分类。

空间投票算法

在本申请实施例中，在执行追踪后，一帧图像中可能包含多个息肉中心点，然而，其中一些息肉中心点可能是异常值，这些异常值会严重影响分类结果，而根据经验观察，正确的息肉中心点会集中在一个小区域，基于此，本申请实施例提出了一种空间投票算法来消除这些异常值。简言之，首先，连接欧氏距离小于目标阈值的相邻息肉中心点，然后计算连通分量，并将最大的连通分量的息肉中心点作为当前帧图像最终的息肉中心点。

换一种表达方式，基于第二病灶检测结果和第三病灶检测结果，对当前帧图像进行分类，包括但不限于：当第二病灶检测结果和第三病灶检测结果给出的息肉中心点数量为至少两个时，连接欧氏距离小于目标阈值的相邻息肉中心点；计算至少两个息肉中心点的连通分量，将最大连通分量对应的息肉中心点，确定为当前帧图像最终的息肉中心点。

综上所述，本申请实施例提供的方法，除了继承单帧检测方法的计算高效以及不存在累计误差的优点之外，同时还至少具有如下有益效果：

(1)、能够显著提高病灶的检出率。一方面本申请实施例通过端到端的深度学习网络完成了对单帧图像的息肉预测，另一方面，本申请实施例还增加了追踪方法用于息肉检测，综合前序帧图像的预测结果与当前帧图像的图像信息，能够完成对当前帧图像最终的预测，该种图像分类方式不但对息肉检测模型的准确度要求没那么高，而且对于单帧检测方法遗漏掉的息肉，通过本申请实施例提供的视频追踪方法能够补全。

(2)、能够提高预测结果的时间连贯性。相比于单帧检测方法中帧与帧之间预测相互独立，本申请实施例提供的图像处理方法将对先前多帧图像的预测结果融合到对当前帧图像的预测之中，不会出现相邻两帧图像产生截然不同的预测结果，从而可以提高检出息肉的时间连贯性，避免出现视觉上相同的区域，息肉检测模型却给出不同的、不连贯、不一致的预测结果。

(3)、能够降低检测过程中的误检概率。本申请实施例通过空间投票算法，能够将仅在少数帧中被检测出的错误结果剔除掉。

在另一种可能的实现方式中，上述提供的图像处理方法有着广泛的应用场景，不仅仅可适用于息肉检测或不仅仅可适用于肠息肉检测，还可用于其他类型疾病的检测。即针对其他某一种类型疾病或另一种机体部位的息肉检测来说，同样可基于本申请实施例提供的图像处理方法实现对该种类型疾病的检测。

换一种表达方式，本申请实施例提供的图像处理方法可实现对医学上各种类型疾病的检测，而不仅仅局限于息肉检测，本申请实施例仅是以肠息肉检测为例对其进行举例说明。

在另一种可能的实现方式中，前述实施例中仅检测了各个图像中是否存在息肉以及息肉在图像中出现的位置。除此之外，本申请实施例还可以进一步的提供更多的信息，如提供息肉的大小、种类、性状、以及生成关于本次检测结果的诊断报告等，本申请实施例对此不进行具体限定。

在另一种可能的实现方式中，除了使用上述实施例提供的图像处理方法进行息肉检测之外，还可使用单帧静态图像的检测方法进行息肉检测。比如，在对某一帧图像进行预测的时候，可将前序图像帧的预测结果以及图像特征信息也作为在进行当前帧图像预测时的输入，即与当前帧图像一同进行息肉预测。

在另一种可能的实现方式中，还可以使用其他视频追踪方法进行息肉检测。例如，可以采用端到端的深度学习方法，输入为一段视频，经过长短时间记忆网络或者类似的深度学习网络，直接生成该视频中每一个帧图像的息肉预测结果。但这种方法要求有大量且已完成标注的整段视频用于训练，同时会随着视频的增加产生累计误差。

在另一种可能的实现方式中，在进行单帧图像息肉检测时，另一种端到端的深度学习方法是将时间维度作为第三维，将二维的图像累加成一个三维矩阵，通过三维卷积的方式进行计算。但这种方法由于多了一维空间的卷积运算，因此计算复杂度要高于二维卷积。

图7是本申请实施例提供的一种图像处理装置的结构示意图。参见图7，该装置包括：

获取模块701，用于获取待检测结直肠的视频影像流，所述视频影像流是通过图像采集设备对待检测结直肠进行图像采集形成的视频流；

检测模块702，用于对所述视频影像流中的每一帧肠道图像依次进行病灶检测；

处理模块703，用于对于当前帧肠道图像，根据前序帧肠道图像的第一病灶检测结果和所述当前帧肠道图像的第二病灶检测结果，对所述当前帧肠道图像进行分类，当分类结果指示存在病灶且所述当前帧肠道图像中包括多个病灶中心点时，将置信度最高的病灶中心点确定为所述当前帧肠道图像最终的病灶中心点；其中，所述前序帧肠道图像为时序上位于所述当前帧肠道图像之前的至少一帧肠道图像。

本申请实施例提供的装置，在肠道图像处理时，会将对前序帧肠道图像的预测结果考虑到对当前帧肠道图像的预测之中，即本申请实施例提供的装置会综合前序帧肠道图像的预测结果与当前帧肠道图像的图像信息，来完成对单帧肠道图像的最终预测，不但聚合了单帧肠道图像检测方法的高效且无累积误差的优点，而且通过融合其他帧肠道图像的相关信息显著提高了图像分类的准确度以及确保了预测结果的连贯性。

在一种可能的实现方式中，检测模块，还用于将当前帧肠道图像输入检测模型中，获取所述检测模型输出的第一分割图像，所述第一分割图像中每个像素点表示所述当前帧肠道图像中相应位置上的像素点为病灶的概率值；对所述第一分割图像进行调整，并对调整后的第一分割图像进行后处理；计算后处理的第一分割图像中至少一个前景区域的连通分量；按照大小对所述至少一个连通分量进行排序，并按照与目标形状的相似程度对所述至少一个连通分量进行排序；当最大的连通分量、与最接近所述目标形状的连通分量一致时，将所述最大的连通分量指示的前景区域，确定为当前帧肠道图像的病灶中心点。

在一种可能的实现方式中，检测模块，还用于获取与上一帧肠道图像匹配的调整后的第二分割图像，求取所述第一分割图像和所述调整后的第二分割图像的平均值，得到所述调整后的第一分割图像；以指定数值为阈值，对所述调整后的第一分割图像进行二值化处理；去除二值化处理后的第一分割图像中的噪声点并平滑前景边缘。

在一种可能的实现方式中，处理模块，还用于根据所述前序帧肠道图像中至少一帧肠道图像的病灶中心点的运动向量，通过线性拟合预测所述当前帧肠道图像的病灶中心点的运动向量，所述前序帧肠道图像中至少一帧肠道图像的病灶中心点是基于所述第一病灶检测结果得到的；基于所述当前帧肠道图像的预测病灶中心点的运动向量，追踪在所述当前帧肠道图像中所述预测病灶中心点的位置坐标；当追踪得到的预测位置坐标位于所述当前帧肠道图像的图像范围内时，基于分类器对所述预测位置坐标进行判定，得到第三病灶检测结果；基于所述第二病灶检测结果和所述第三病灶检测结果，对所述当前帧肠道图像进行分类。

在一种可能的实现方式中，该装置还包括：

训练模块，用于获取所述当前帧肠道图像的上一帧肠道图像输入检测模型中得到的第三分割图像；基于所述第三分割图像，生成目标数量的正样本和目标数量的负样本；基于所述目标数量的正样本和所述目标数量的负样本，对所述分类器进行在线训练。

在一种可能的实现方式中，训练模块，还用于在所述第三分割图像中确定病灶区域；在所述第三分割图像中，裁剪与所述病灶区域重叠范围大于第一取值的图像区域，得到所述目标数量的正样本；在所述第三分割图像中，裁剪与所述病灶区域重叠范围小于第二取值的图像区域，得到所述目标数量的负样本。

在一种可能的实现方式中，处理模块，还用于当所述预测位置坐标超出所述当前帧肠道图像的图像范围时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪；或，当所述分类器将所述预测位置坐标对应的预测病灶中心点判定为背景时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪。

在一种可能的实现方式中，处理模块，还用于当对任意一个病灶中心点的追踪帧数大于第一数量时，停止对所述病灶中心点进行追踪；或，

在一种可能的实现方式中，处理模块，还用于连接欧氏距离小于目标阈值的相邻病灶中心点；计算所述多个病灶中心点的连通分量，将最大连通分量对应的病灶中心点作为所述置信度最高的病灶中心点，得到所述当前帧肠道图像最终的病灶中心点。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像处理装置在进行图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的一种图像处理设备800的结构框图。该设备800可以是便携式移动设备，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备800还可能被称为用户设备、便携式设备、膝上型设备、台式设备等其他名称。

通常，设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在设备的前面板，后置摄像头设置在设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在设备800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在设备800的侧边框时，可以检测用户对设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置设备800的正面、背面或侧面。当设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在设备800的前面板。接近传感器816用于采集用户与设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与设备800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与设备800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理装置，其特征在于，所述装置包括：

2.根据权利要求1所述的装置，其特征在于，所述检测模块，还用于将所述当前帧肠道图像输入检测模型中，获取所述检测模型输出的第一分割图像，所述第一分割图像中每个像素点表示所述当前帧肠道图像中相应位置上的像素点为病灶的概率值；对所述第一分割图像进行调整，并对调整后的第一分割图像进行后处理；计算后处理的第一分割图像中至少一个前景区域的连通分量；按照大小对所述至少一个连通分量进行排序，并按照与目标形状的相似程度对所述至少一个连通分量进行排序；当最大的连通分量、与最接近所述目标形状的连通分量一致时，将所述最大的连通分量指示的前景区域，确定为所述当前帧肠道图像的病灶中心点。

3.根据权利要求2所述的装置，其特征在于，所述检测模块，还用于获取与上一帧肠道图像匹配的调整后的第二分割图像，求取所述第一分割图像和所述调整后的第二分割图像的平均值，得到所述调整后的第一分割图像；以指定数值为阈值，对所述调整后的第一分割图像进行二值化处理；去除二值化处理后的第一分割图像中的噪声点并平滑前景边缘。

4.根据权利要求1所述的装置，其特征在于，所述处理模块，还用于根据所述前序帧肠道图像中至少一帧肠道图像的病灶中心点的运动向量，通过线性拟合预测所述当前帧肠道图像的病灶中心点的运动向量，所述前序帧肠道图像中至少一帧肠道图像的病灶中心点是基于所述第一病灶检测结果得到的；基于所述当前帧肠道图像的预测病灶中心点的运动向量，追踪在所述当前帧肠道图像中所述预测病灶中心点的位置坐标；当追踪得到的预测位置坐标位于所述当前帧肠道图像的图像范围内时，基于分类器对所述预测位置坐标进行判定，得到第三病灶检测结果；基于所述第二病灶检测结果和所述第三病灶检测结果，对所述当前帧肠道图像进行分类。

5.根据权利要求4所述的装置，其特征在于，该装置还包括：

6.根据权利要求5所述的装置，其特征在于，训练模块，还用于在所述第三分割图像中确定病灶区域；在所述第三分割图像中，裁剪与所述病灶区域重叠范围大于第一取值的图像区域，得到所述目标数量的正样本；在所述第三分割图像中，裁剪与所述病灶区域重叠范围小于第二取值的图像区域，得到所述目标数量的负样本。

7.根据权利要求4所述的装置，其特征在于，所述处理模块，还用于当所述预测位置坐标超出所述当前帧肠道图像的图像范围时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪；或，当所述分类器将所述预测位置坐标对应的预测病灶中心点判定为背景时，在下一帧肠道图像中对所述预测位置坐标对应的预测病灶中心点停止追踪。

8.根据权利要求4至7中任一权利要求所述的装置，其特征在于，所述处理模块，还用于当对任意一个病灶中心点的追踪帧数大于第一数量时，停止对所述病灶中心点进行追踪；或，当在第二数量的连续肠道图像中追踪一个病灶中心点失败时，停止对所述病灶中心点进行追踪。

9.根据权利要求1所述的装置，其特征在于，所述处理模块，还用于连接欧氏距离小于目标阈值的相邻病灶中心点；计算所述多个病灶中心点的连通分量，将最大连通分量对应的病灶中心点作为所述置信度最高的病灶中心点，得到所述当前帧肠道图像最终的病灶中心点。

10.一种图像处理系统，其特征在于，所述系统包括：图像采集设备、图像处理设备以及显示设备；

11.一种图像处理方法，其特征在于，所述方法包括：

对所述视频影像流中的每一帧肠道图像依次进行病灶检测；

12.根据权利要求11所述的方法，其特征在于，所述根据前序帧肠道图像的第一病灶检测结果和所述当前帧肠道图像的第二病灶检测结果，对所述当前帧肠道图像进行分类，包括：

根据所述前序帧肠道图像中至少一帧肠道图像的病灶中心点的运动向量，通过线性拟合预测所述当前帧肠道图像的病灶中心点的运动向量，所述前序帧肠道图像中至少一帧肠道图像的病灶中心点是基于所述第一病灶检测结果得到的；

基于所述当前帧肠道图像的预测病灶中心点的运动向量，追踪在所述当前帧肠道图像中所述预测病灶中心点的位置坐标；

当追踪得到的预测位置坐标位于所述当前帧肠道图像的图像范围内时，基于分类器对所述预测位置坐标进行判定，得到第三病灶检测结果；

基于所述第二病灶检测结果和所述第三病灶检测结果，对所述当前帧肠道图像进行分类。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

获取所述当前帧肠道图像的上一帧肠道图像输入检测模型中得到的第三分割图像；

基于所述第三分割图像，生成目标数量的正样本和目标数量的负样本；

基于所述目标数量的正样本和所述目标数量的负样本，对所述分类器进行在线训练。

14.根据权利要求13所述的方法，其特征在于，所述基于所述第三分割图像，生成目标数量的正样本和目标数量的负样本，包括：

在所述第三分割图像中确定病灶区域；

在所述第三分割图像中，裁剪与所述病灶区域重叠范围大于第一取值的图像区域，得到所述目标数量的正样本；

在所述第三分割图像中，裁剪与所述病灶区域重叠范围小于第二取值的图像区域，得到所述目标数量的负样本。

15.一种图像处理设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求11至14中任一个权利要求所述的图像处理方法。