CN113724191A

CN113724191A - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN113724191A
Application number: CN202110298175.5A
Authority: CN
Inventors: 徐海波; 孙文博; 熊俊峰; 伍健荣; 朱艳春; 钱天翼; 杨昊臻; 时允凯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-11-30

Abstract

本申请公开了一种图像识别方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：对于第n轮识别过程，获取第n个图像序列，第n个图像序列中包括M张二维医学图像，M张二维医学图像是在N个随访时间对同一机体部位进行扫描得到的随访图像；获取前n‑1轮识别过程得到的n‑1个前序医学状态和n‑1个医学进展状态；对第n个图像序列进行预处理和特征提取；基于得到的特征数据、n‑1个前序医学状态和n‑1个医学进展状态，预测机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态。本申请的图像识别准确性高。

Description

图像识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像识别方法、装置、设备及存储介质。

背景技术

在人工智能(Artificial Intelligence，AI)时代，AI的应用范围已经遍及各个领域，比如医学领域便是其中一种。针对医学领域，在AI的赋能下，医学的技术性得到了前所未有的提高，这使得医学领域近乎每天都发生革命性的变化。

在医学领域中，利用机器学习技术对医学图像进行识别，能够实现对疾病的病情状态进行预测。相关技术中，通常是利用机器学习技术对病灶区域的单个CT(ComputedTomography，电子计算机断层扫描)图像进行识别，比如将单个CT图像输入卷积神经网络进行识别，以此来预测疾病的病情状态。

上述图像识别方式仅依据单个的CT图像，数据较为单一，据此得到的预测结果缺乏准确性，即图像识别的准确性不高。

发明内容

本申请实施例提供了一种图像识别方法、装置、设备及存储介质，能够提高图像识别的准确性。所述技术方案如下：

一方面，提供了一种图像识别方法，所述方法包括：

对于第n轮识别过程，获取第n个图像序列，所述第n个图像序列中包括M张二维医学图像，所述M张二维医学图像是在N个随访时间对同一机体部位进行扫描得到的随访图像；n和M为不小于2的整数；

获取前n-1轮识别过程预测得到的n-1个前序医学状态和n-1个医学进展状态；其中，所述前序医学状态用于指示在前序一轮识别过程中所述机体部位的医学状况，所述医学进展状态用于指示在任意一轮识别过程中预测的下一阶段的医学状况进展；

对所述第n个图像序列进行预处理和特征提取；基于得到的特征数据、所述n-1个前序医学状态和所述n-1个医学进展状态，预测所述机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态，所述第n医学状态用于指示在第n轮识别过程中所述机体部位的医学状况。

另一方面，提供了一种图像识别装置，所述装置包括：

第一获取模块，被配置为对于第n轮识别过程，获取第n个图像序列，所述第n个图像序列中包括M张二维医学图像，所述M张二维医学图像是在N个随访时间对同一机体部位进行扫描得到的随访图像；n和M为不小于2的整数；

第二获取模块，被配置为获取前n-1轮识别过程预测得到的n-1个前序医学状态和n-1个医学进展状态；其中，所述前序医学状态用于指示在前序一轮识别过程中所述机体部位的医学状况，所述医学进展状态用于指示在任意一轮识别过程中预测的下一阶段的医学状况进展；

识别模块，被配置为对所述第n个图像序列进行预处理和特征提取；基于得到的特征数据、所述n-1个前序医学状态和所述n-1个医学进展状态，预测所述机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态，所述第n医学状态用于指示在第n轮识别过程中所述机体部位的医学状况。

在一些实施例中，所述第一获取模块，被配置为确定时序上相邻且最近扫描得到的M张随访图像，将所述M张随访图像作为所述第n个图像序列。

在一些实施例中，所述识别模块被配置为：

对所述第n个图像序列进行预处理，得到新图像；

将所述新图像输入图像识别网络的预测模型进行特征提取，并将所述预测模型输出的特征数据作为所述图像识别网络的第一全连接层的输入；

获取所述第一全连接层输出的第一特征向量；对所述第一特征向量、所述n-1个前序医学状态和所述n-1个医学进展状态进行特征融合，并将融合后的第二特征向量输入所述图像识别网络的第二全连接层；

经过所述第二全连接层，将所述第二特征向量整合为所述第n医学状态和所述第n+1医学进展状态。

在一些实施例中，所述n-1个前序医学状态和所述n-1个医学进展状态为特征向量形式，所述识别模块被配置为：

对所述第一特征向量、所述n-1个前序医学状态和所述n-1个医学进展状态进行向量拼接，得到所述第二特征向量。

在一些实施例中，所述预测模型中包括顺次相连的多个残差块；其中，任意一个残差块中均包括一个恒等映射和至少两个卷积层，任意一个残差块的恒等映射由所述任意一个残差块的输入端指向所述任意一个残差块的输出端；或，

所述预测模型中包括紧密连接块；其中，一个所述紧密连接块中包括至少两个紧密连接层；对于任意一个紧密连接块，各个紧密连接层的输入包括所述紧密连接块中之前所有紧密连接层的输出。

在一些实施例中，所述至少两个卷积层中的第一卷积层、第二卷积层以及第三卷积层顺序连接，所述恒等映射由所述第一卷积层的输入端指向所述第三卷积层的输出端；所述识别模块被配置为：

将所述新图像输入所述预测模型的第一个残差块；

对于任意一个残差块，接收上一个残差块的输出，并基于所述第一卷积层、所述第二卷积层和所述第三卷积层，对所述上一个残差块的输出进行特征提取；

获取所述第三卷积层的输出，将所述第三卷积层的输出以及所述上一个残差块的输出传递到下一个残差块；

获取所述预测模型的最后一个残差块的输出，得到所述特征数据。

在一些实施例中，所述识别模块被配置为：

对所述M张二维医学图像分别进行图像重建，得到M张三维医学图像；

获取各张三维医学图像在不同角度上的切片图像；

将各张三维医学图像的切片图像分别输入不同通道的卷积层进行特征提取，得到至少两张特征图；

对所述至少两张特征图进行数据增强处理，得到多张增强图像；

对所述多张增强图像进行图像融合，得到所述新图像。

在一些实施例中，所述第一获取模块，还被配置为对于第一轮识别过程，获取第一个图像序列，所述第一个图像序列中包括M张二维医学图像，所述M张二维医学图像中包括一张基准图像和M-1张随访图像；

所述识别模块，还被配置为根据所述第一个图像序列，预测所述机体部位在第一轮识别过程中的第一医学状态和第一医学进展状态，所述第一医学状态用于指示在第一轮识别过程中所述机体部位的医学状况。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的图像识别方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的图像识别方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像识别方法。

对于第n轮识别过程，本申请实施例会输入一个图像序列、n-1个前序医学状态和先前得到的n-1个医学进展状态用于预测，由于能够对该图像序列中包括的多张二维医学图像同时进行处理，因此可以累积多次随访图像的图像信息，实现充分利用前序随访图像的信息，另外，在预测时还充分利用了前序医学状态和先前得到的医学进展状态，而基于丰富的输入数据进行预测能够显著增加最终预测结果的准确性。即，本申请实施例能够提高图像识别的准确性。另外，本申请实施例还能够进行多任务预测，比如既能够判断当前阶段的医学状况，也能够预测下一阶段的医学状况进展，实现两项任务协同学习。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像识别方案涉及的实施环境示意图；

图2是本申请实施例提供的一种图像识别方案的整体架构图；

图3是本申请实施例提供的一种图像识别方案的整体架构图；

图4是本申请实施例提供的一种图像识别方法的流程图；

图5是本申请实施例提供的一种密集块的结构示意图；

图6是本申请实施例提供的一种残差块的结构示意图；

图7是本申请实施例提供的一种图像识别装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图；

图9是本申请实施例提供的另一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。

这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一元素能够被称为第二元素，并且类似地，第二元素也能够被称为第一元素。第一元素和第二元素都可以是元素，并且在某些情况下，可以是单独且不同的元素。

其中，至少一个是指一个或一个以上，例如，至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而至少两个是指两个或者两个以上，例如，至少两个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。

本申请实施例提供的图像识别方案涉及人工智能技术。

其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像识别、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的图像识别方案涉及人工智能的计算机视觉和机器学习等技术，具体通过如下实施例进行说明。

下面对本申请实施例可能涉及到的一些关键术语或缩略语进行介绍。

CT图像：利用精确准直的X线束、γ射线或超声波等，与灵敏度极高的探测器一同围绕机体的某一部位作横断面扫描，得到横断面图像，可以用于多种疾病的检查；根据所采用的射线不同可以分为：X射线CT、γ射线CT等。通常情况下，CT扫描得到的均为灰色的横断面图像，即二维图像。一张横断面图像代表一个机体组织切片。

各向同性：物理性质可以在不同的方向进行测量。如果各个方向的测量结果是相同的，说明其物理性质与取向无关，称为各向同性。相反地，如果物理性质和取向密切相关，不同取向的测量结果迥异，称为各向异性。

下面对本申请实施例提供的图像识别方案涉及的实施环境进行介绍。

参见图1，该实施环境包括：训练设备110和应用设备120。

在训练阶段，训练设备110用于训练多通道卷积神经网络(在文本中也称图像识别网络)。在应用阶段，应用设备120即可基于多通道卷积神经网络进行图像识别。示例性地，本申请实施例的识别对象为医学图像。另外，图像识别的本质是对图像进行分类，所以该图像识别方法也可称为图像分类方法。

其中，卷积神经网络是一种深度学习模型，与普通神经网络类似，由具有可学习的权重和偏置常量的神经元组成，通过局部连接和全局共享两种方式显著降低网络的复杂度。多通道卷积神经网络意味着不同的通道会输入不同的医学图像信息，这对处理在时间上形成序列的医学图像来说是非常有效的。

可选地，上述训练设备110和应用设备120为计算机设备，比如，该计算机设备可以是终端或服务器。在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、移动式医疗设备、固定式医疗设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在另一个实施例中，上述训练设备110和应用设备120可以是同一个设备，或者，训练设备110和应用设备120也可以是不同的设备。并且，当训练设备110和应用设备120是不同的设备时，训练设备110和应用设备120可以是同一类型的设备，比如训练设备110和应用设备120可以都是终端；或者，训练设备110和应用设备120也可以是不同类型的设备，比如训练设备110可以是服务器，而应用设备120可以是终端等。本申请在此不做限制。

下面对本申请实施例提供的图像识别方案的应用场景进行介绍。

本申请实施例提供的图像识别方案可以用于智能医疗，以辅助临床决策。

示例一、该种图像识别方案可以用于判断或预测因病毒或病菌引起的传染类疾病的感染程度。

可选地，本申请实施例提供的图像识别方案，能够基于多通道卷积神经网络，来判断当前阶段的疾病感染程度和预测下一阶段的疾病感染程度。

其中，在因病毒或病菌感染而发病的患者治疗过程中，需要实时评估当前疾病感染程度和预测下一阶段进展程度，以便及时更新治疗方法。CT图像对上述判断尤为重要。然而，在实际过程中，很难对疾病的当前感染程度和进展程度进行精准判断，存在部分突然变为危重症的患者，因此临床亟待一种可以对当前感染程度和下一阶段进展程度进行预测的手段。可选地，本申请实施例提供的图像识别方案，通过将患者的医学图像序列输入多通道卷积神经网络，来判断患者当前感染程度和预测下一阶段的进展程度，从而辅助临床决策。

可选地，上述医学图像序列包括在时间上形成序列的多张医学图像。比如，上述医学图像序列可以为患者的前几次随访CT，本申请在此不做限制。

示例二、除了判断或预测传染类疾病的感染程度之外，该种图像识别方案还可以用于其他疾病的临床决策，比如肿瘤类疾病，仅需在训练阶段使用相应的训练样本进行训练即可。

换言之，本申请实施例提供的图像识别方案是一种容易推广到其他病种的预测方法。比如，该种图像识别方案还能够基于多通道卷积神经网络，来判断肿瘤类疾病当前阶段的病情严重程度和预测肿瘤类疾病下一阶段的病情进展。

需要说明的是，以上介绍的应用场景仅用于说明本申请实施例而非限定。在实际实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

下面通过如下实施方式对本申请实施例提供的图像识别方案进行介绍。

首先结合图2所示的整体架构图对本申请实施例提供的图像识别方案的基本流程进行说明。可选地，医学状态用于表示疾病的病情状态，即病情的严重程度；医学进展状态用于表示下一阶段的病情进展程度。相应地，前序医学状态也可称为前序病情状态，医学进展状态也可称为病情进展状态，本申请在此不做限制。以输入图像识别网络(即多通道卷积神经网络)的医学图像序列包括2张医学图像，且医学图像为CT图像为例，基本流程如下：

1、患者第一次对患病器官进行CT扫描得到基准图像0。

2、患者经过治疗后再次随访对患病器官进行CT扫描得到随访图像1。

3、将基准图像0和随访图像1输入图像识别网络，得到用于表征当前一轮识别过程中病情严重程度的状态1和用于预测下一阶段病情进展程度的预测状态2。

4、患者经过治疗后再次随访对患病器官进行CT扫描得到随访图像2。

5、将随访图像1、随访图像2、前序病情状态(状态1)、预测状态2输入图像识别网络，得到用于表征当前一轮识别过程中病情严重程度的状态2和用于预测下一阶段病情进展程度的预测状态3。

6、以此类推，将前两次随访图像(随访图像n-1、随访图像n)、前n-1轮识别过程预测得到的n-1个前序病情状态(状态1、状态2、…、状态n-1)和先前预测得到的n-1个病情进展状态(预测状态2、预测状态3、…、预测状态n)输入图像识别网络，得到用于表征当前一轮识别过程中病情严重程度的状态n和用于预测下一阶段病情进展程度的预测状态n-1。

基于图2所示的架构图，本申请实施例提供的图像识别方案在流程上可以划分为图3所示的以下四个部分，分别为：多角度切片、输入增强、图像融合和预测。通常情况下，获取的医学图像均为CT图像即二维横断面图像，若仅采用二维横断面图像进行疾病预测，则会丢失部分空间上的信息，进而影像预测的准确性。针对多角度切片，对于输入的二维医学图像(比如CT图像)，首先将其重建为各向同性(比如各向同分辨率)的三维医学图像；然后对三维医学图像进行三维空间上的任意角度转动，再在转动后的三维医学图像中截取几个不同方位上的横断面切片，得到待输入到多个通道的卷积层的切片图像，从而可以有效获取更多空间上的信息。针对输入增强，得到的切片图像在经过图像识别网络的卷积层后，会进行数据增强。针对图像融合，该部分用于对每一个经过多角度切片和增强输入处理后得到的图像进行通道融合。最终，预测部分会基于融合后的图像、前序医学状态和医学进展状态，来判断当前阶段的医学状况和预测下一阶段的医学状况进展。

图4是本申请实施例提供的一种图像识别方法的流程图。参见图4，在应用阶段，对于第n轮识别过程，本申请实施例提供的方法流程包括如下步骤。

401、获取第n个图像序列；其中，第n个图像序列中包括M张二维医学图像，M张二维医学图像是在N个随访时间对同一机体部位进行扫描得到的随访图像。

其中，n和M为不小于2的整数；可选地，二维医学图像指代来自同一机体部位(比如人体的患病器官)的医学影像，比如二维CT图像。其中，该患病器官中包括病灶，病灶通常指代机体上发生病变的部分。比如肺的一叶被结核菌破坏，那么这部分便是肺结核病灶。

需要说明的第一点是，对于图2所示的每轮识别过程，本申请实施例利用多通道卷积神经网络，能够对图像序列中包括的多张二维医学图像同时进行处理，进而可以累积多次随访图像的图像信息，实现充分利用前序随访图像的信息，从而能够增加最终预测的准确性。

在一些实施例中，对于第n轮识别过程，获取第n个图像序列包括：确定时序上相邻且最近扫描得到的M张随访图像，将该M张随访图像作为第n个图像序列。其中，最新得到的二维医学图像即为最新扫描得到的二维医学图像。即，当前一轮识别过程(第n轮识别过程)中使用的是最新扫描得到的二维医学图像，以保证最终预测的准确性，得到更加符合患者当前实际病情的预测结果。示例性地，假设当前最新扫描得到的M张二维医学图像为随访图像n-1和随访图像n，那么在当前一轮识别过程中，便使用随访图像n-1和随访图像n进行预测。

需要说明的第二点是，在时序上相邻是指在扫描时间上是相邻的。示例性地，如图2所示，基准图像0和随访图像1在时序上便是相邻的；随访图像1和随访图像2在时序上也是相邻的；随访图像n-1和随访图像n在时序上也是相邻的。另外，这M张二维医学图像是在N个随访时间对同一机体的同一病灶区域进行扫描得到的。比如，该图像序列中包括的M张二维医学图像是在N个随访时间对同一患者的肺部区域进行扫描得到的。以N的取值为2、前后两次随访时间间隔一周为例，则该图像序列中包括的其中1张二维医学图像可能是在3月1号对该患者的肺部区域进行扫描得到的；另外1张二维医学图像可能是在3月8号对该患者的肺部区域进行扫描得到的。

402、获取前n-1轮识别过程预测得到的n-1个前序医学状态和n-1个医学进展状态；其中，前序医学状态用于指示在前序一轮识别过程中该机体部位的医学状况，医学进展状态用于指示在任意一轮识别过程中预测的下一阶段的医学状况进展。

在一些实施例中，前序医学状态也被称为前序病情状态，用于指示在前序一轮识别过程中该机体部位的病情严重程度，医学进展状态也被称为病情进展状态，用于指示在任意一轮识别过程中预测的下一阶段病情进展程度。

在本申请实施例中，第1轮识别过程会预测得到医学状态1和医学进展状态2；第2轮识别过程会预测得到医学状态2和医学进展状态3；第3轮识别过程会预测得到医学状态3和医学进展状态4；以此类推，第n-1轮识别过程会预测得到医学状态n-1和医学进展状态n；第n轮识别过程会预测得到医学状态n和医学进展状态n+1。

针对第n轮识别过程，n-1个前序医学状态包括：医学状态1、医学状态2、医学状态3、…、医学状态n-1；n-1个医学进展状态包括：医学进展状态2、医学进展状态3、医学进展状态4、…、医学进展状态n。

特别地，对于第一轮识别过程，获取第一个图像序列，其中，第一个图像序列中同样包括M张二维医学图像，具体包括一张基准图像和M-1张随访图像。比如参见图2，第一图像序列中包括基准图像0和随访图像1。之后，根据第一个图像序列，预测机体部位在第一轮识别过程中的第一医学状态和下一阶段的第二医学进展状态，第一医学状态用于指示在第一轮识别过程中患病器官的病情严重程度。

需要说明的是，除了第一轮识别过程之外，剩余的每一轮识别过程的流程均类似，均可以参考步骤401至步骤403实现。另外，本申请实施例提供的图像识别方案能够进行多任务预测。比如，本申请实施例既可以预测该患病器官在当前阶段的医学状况，也能够预测该患病器官在下一阶段的医学状况进展。可选地，以传染性疾病为例，能够判断患者当前的感染程度和预测该患者下一阶段的进展程度。即，申请实施例能够同时输出该患者当前的感染程度和预测该患者下一阶段的进展程度。

403、对第n个图像序列进行预处理和特征提取；基于得到的特征数据、n-1个前序医学状态和n-1个医学进展状态，预测该机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态；其中，第n医学状态用于指示在第n轮识别过程中该机体部位的医学状况。

在一些实施例中，参见图3，对第n个图像序列进行预处理和特征提取；基于得到的特征数据、n-1个前序医学状态和n-1个医学进展状态，预测该机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态，包括但不限于如下步骤。

4031、对第n个图像序列进行预处理，得到新图像。

可选地，预处理过程包括但不于限于图3所示的多角度切片、图像增强和图像融合。

4031-1、对M张二维医学图像分别进行图像重建，得到M张三维医学图像；对于该M张二维医学图像中的任意一张三维医学图像，在不同角度上对该三维医学图像进行至少两次切片处理，得到该三维医学图像的切片图像。

在本申请实施例中，图像重建是指将二维医学图像重建为三维医学图像。其中，一张二维医学图像进行图像重建后，得到一张三维医学图像。

而之所以需要进行图像重建是因为：目前的医学影像技术直接获得的通常是二维医学图像,比如医生通过观察不同成像角度获取的投影图像或者观察一组断层图像，对影像进行定性分析,来发现病变体或评估组织结构的畸形。由于人体的解剖结构是三维的,医生需要具备较强的读片能力，才能从二维影像上作出正确诊断，所以诊断结果依赖于医生的读片经验。要精确地确定病变体或畸形的空间位置、大小、几何形状以及和周围组织结构的空间关系，仅仅依靠医生的主观分析判断是很困难的。因此,目前的临床诊断迫切需要将医学数据直接以三维图像的形式直观地显示给医生。换言之，通过将二维医学图像重建为三维医学图像，能够将复杂的三维器官结构直观地显示出来，这必然有助于医生进行全面而准确的分析，从而提高医疗诊断水平。

在一些实施例中，对M张二维医学图像分别进行图像重建，得到M张三维医学图像，包括但不限于：对于任意一张二维医学图像，对该二维医学图像进行图像插值处理，得到各向同分辨率的三维医学图像；其中，各向同分辨率是指三维医学图像在各个方向上的分辨率相同。

可选地，图像插值方法包括但不限于：基于灰度的(grey-based)插值方法、基于形状的(shape-based)插值方法和基于小波的(wavelet-based)的插值方法。其中，基于灰度的插值方法包括：最近邻域插值、线性插值、拉格朗日插值、样条插值、匹配插值。示例性地，本申请实施例采用线性插值比如二次线性插值进行图像重建，本申请在此不做限制。其中，线性插值是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法。换一种表达方式，线性插值是指插值函数为一次多项式的插值方式。在数学上，二次线性插值是2个变量函数在方形网格上线性插值的一个扩展，其主要做法是先在一个方向上进行线性插值，然后再在另一个方向上进行线性插值。

需要说明的第一点是，任意一张三维医学图像在进行多角度切片后，会得到至少两张切片图像；换言之，根据一张三维医学图像能够得到至少两张切片图像。在一些实施例中，在不同角度上对该三维医学图像进行至少两次切片处理，得到该三维医学图像的切片图像，包括但不限于：将该三维医学图像在三维空间上进行任意角度转动；在转动后的三维医学图像中截取不同方位上的至少两张横断面切片，得到该三维医学图像的切片图像。

可选地，M张三维医学图像中每张三维医学图像的切片图像数量相同，本申请在此不做限制。比如，每张三维医学图像的切片图像数量均为x个，其中，x为不小于2的正整数；相应地，得到的切片图像总数即为N*x。

4031-2、将每张三维医学图像的切片图像分别输入图像识别网络的不同通道的卷积层进行特征提取，得到多张特征图。

其中，得到的特征图的数量与切片图像的数量一致，即一张切片图像经过卷积层进行特征提取后得到一张特征图。

需要说明的是，图像识别网络包括多个通道的卷积层。可选地，卷积层的通道数量与图像序列中包括的图像数量一致，即卷积层的通道数量为N。示例性地，如图3所示，图像序列中包括两张二维医学图像，分别为随访图像n-1和随访图像n，因此该图像识别网络中的卷积层通道数量为2个。

另外，对于每个通道，该通道的卷积层会对同一张三维医学图像的各个切片图像进行特征提取。示例性地，假设随访图像n-1对应有三张切片图像，则这三张切片图像均会经过图3中的第一个卷积层进行特征提取得到三张特征图。

另外，如图3所示，在经过不同的卷积层进行特征提取得到不同通道的特征图后，本申请实施例还会对不同通道的特征图进行数据增强处理。

4031-3、对至少两张特征图进行数据增强处理，得到多张增强图像。

在一些实施例中，对至少两张特征图进行数据增强处理，包括：对于至少两张特征图中的每张特征图，对该特征图进行旋转处理、镜像处理、缩放处理、裁剪处理和移位处理中的至少一项。可选地，上述旋转处理可以为随机旋转处理。需要说明的是，本申请实施例将经过数据增强处理后的特征图称为增强图像。且，一张特征图在经过数据增强处理后，可能会得到对应的多张增强图像。另外，如图3所示，在数据增强处理后即进入到多通道融合步骤。

4031-4、对多张增强图像进行图像融合处理，得到新图像。

在一些实施例中，对多张增强图像进行多通道融合处理，包括但不限于：对多张增强图像进行特征拼接处理。可选地，本申请实施例在通道维度上对多张增强图像进行特征拼接处理。示例性地，以特征图F1和F2为例，假设特征图F1的维度为(x1,y1,z1)，特征图F2的维度为(x2,y2,z2)，其中，x1＝x2且y1＝y2，z指代通道维度，x和y指代图像的宽和高，则将特征图F1和F2进行特征拼接得到新的特征图F的维度便为(x1,y1,z1+z2)，新的特征图F即为输入到预测模型的新图像。

另外，本申请实施例还能够进行多任务预测，比如既能够判断当前阶段的疾病感染程度，也能够预测下一阶段的疾病进展程度，实现两项任务协同学习。

4032、将新图像输入图像识别网络的预测模型进行特征提取，并将预测模型输出的特征数据作为图像识别网络的第一全连接层的输入；获取第一全连接层输出的第一特征向量；对第一特征向量、n-1个前序医学状态和n-1个医学进展状态进行特征融合，并将融合后的第二特征向量输入图像识别网络的第二全连接层；经过第二全连接层，将第二特征向量整合为第n医学状态和第n+1医学进展状态。

其中，第一全连接层和第二全连接层的结构既可以相同也可以不同，本申请在此不做限制。参见图3，预测模型输出的特征数据经过第一全连接层后，会再加入n-1个前序医学状态和n-1个医学进展状态进行特征融合，融合后的特征向量再经过第二全连接层，最终得到当前医学状态n和下一阶段的医学进展状态n+1。可选地，预测模型输出的特征数据经过第一全连接层后，会得到一个一维特征向量。

可选地，上述特征融合操作为向量拼接，即对第一特征向量、n-1个前序医学状态和n-1个医学进展状态进行向量拼接，得到第二特征向量。在一些实施例中，为保证每次向量拼接长度相同，可以对前序医学状态和先前预测的医学进展状态进行固定长度编码。假设固定长度为m(一般取20)，特征向量R和P分别用于表示前序医学状态和先前得到的医学进展状态。对于第n轮识别过程(n<m)，特征向量R和特征向量P的前面n个值分别用0至1之间的连续数进行表示(比如数值越靠近1说明病情越严重)，后面m-n个值均为-1。

其中，预测模型在本申请实施例中负责对下一阶段的医学状况进展进行预测，向第一全连接层输出的为特征数据，而第一全连接层和第二全连接层起到将分布式特征表示映射到样本标记空间的作用，目的是减少特征位置对分类的影响。在实际使用中，第一全连接层和第二全连接层可以由卷积操作实现，本申请在此不做限制。

在一些实施例中，预测模型由基于dense block(密集块)的卷积神经网络构成。其中，在训练较深或层次较多的卷积神经网络时，通常会出现退化问题，即深层网络比浅层网络训练效果差。而Dense Block是一种通过对不同层特征进行堆叠，以提高训练收敛能力并减少参数的深度神经网络，能够有效地实现减轻梯度消失并加强特征的传递。可选地，参见图5，该预测模型包括：特征提取块、至少两个紧密连接块(Dense Block)、位于任意两个紧密连接块之间的过渡块(Transition Block)；其中，特征提取块中包括卷积层用于特征提取；过渡块中包括卷积层和池化层，比如一个过渡块中包括一个卷积层和一个池化层；各个紧密连接块中包括至少两个紧密连接层(Dense Layer)。其中，如图5所示，每个DenseLayer都是紧密连接(dense connection)的,即每一层的输入均是前面所有层的输出的拼接。换言之，对于任意一个紧密连接块，该紧密连接块中各个紧密连接层的输入包括之前所有紧密连接层的输出。

在另一些实施例中，预测模型由基于residual block(残差块)卷积神经网络构成。其中，当网络层数达到一定的数目以后，网络的性能就会饱和，再增加深度网络的性能便会开始退化，但是这种退化并不是由过拟合引起的，因为训练精度和测试精度都在下降，这说明当网络达到一定深度以后，神经网络便难以训练了。而ResNet的出现便是为了解决网络深度在变深以后的性能退化问题。ResNet提出了一个深度残差学习(Deep ResidualLearning,DRL)框架来解决这种因为深度增加而导致性能退化问题。

可选地，任意一个残差块中均包括一个恒等映射(identity mapping)层和至少两个卷积层，任意一个残差块的恒等映射由任意一个残差块的输入端指向任意一个残差块的输出端。其中，恒等映射，对任意集合A，如果映射f:A→A定义为f(a)＝a，即规定A中每个元素a与自身对应，则称f为A上的恒等映射。

假设某段神经网络的输入是x，期望的网络层关系映射为H(x)，让堆叠非线性层拟合另一个映射F(x)＝H(x)-x,那么原先的映射H(x)则变成了F(x)+x。假设优化残差映射F(x)比优化原来的映射H(x)容易，这里我们首先求取残差映射F(x)，那么原先的映射便是F(x)+x，而F(x)+x可以通过Shortcut连接来实现。

图6示出了一个残差块的结构示意图。如图6所示，任意一个残差块中均包括一个恒等映射和至少两个卷积层。其中，一个残差块的恒等映射由该残差块的输入端指向该残差块的输出端。

在一些实施例中，至少两个卷积层中的第一卷积层、第二卷积层以及第三卷积层顺序连接，恒等映射由第一卷积层的输入端指向第三卷积层的输出端；将新图像输入图像识别网络的预测模型进行特征提取，包括：将新图像输入预测模型的第一个残差块；对于任意一个残差块，接收上一个残差块的输出，并基于第一卷积层、第二卷积层和第三卷积层，对上一个残差块的输出进行特征提取；获取第三卷积层的输出，将第三卷积层的输出以及上一个残差块的输出传递到下一个残差块；获取预测模型的最后一个残差块的输出，得到特征数据。

即，增加一个恒等映射，将原始所需要学的函数H(x)转换成F(x)+x。虽然这两种表达效果相同，但是优化的难度却并不相同，通过一个reformulation(再形成)，将一个问题分解成多个尺度直接的残差问题，能够很好地起到优化训练的效果。如图6所示，这个残差块通过Shortcut连接实现，通过Shortcut连接将这个残差块的输入和输出进行叠加，在不给网络增加额外的参数和计算量的前提下，大大增加了模型的训练速度、提高了训练效果，并且当模型的层数加深时，这个简单的结构能够很好地解决退化问题。

换一种表达方式，H(x)是期望的复杂潜在映射，学习难度大，如果直接通过图6的Shortcut连接将输入x传到输出作为初始结果，那么此时需要学习的目标便是F(x)＝H(x)-x，于是ResNet网络相当于将学习目标改变了，不再是学习一个完整的输出，而是需要学习最优解H(x)和恒等映射x的差值，即残差映射F(x)。需要说明的是，Shortcut原意指捷径，在本文中表示越层连接，ResNet网络中Shortcut连接没有权值，传递x后每个残差块仅学习残差映射F(x)。且由于网络稳定易于学习，随着网络深度的增加性能将逐渐变好，因此当网络层数够深时，优化残差映射F(x)＝H(x)-x，将易于优化一个复杂的非线性映射H(x)。

基于以上描述可知，ResNet网络相较于普通直连的卷积神经网络而言，有很多旁路的支线将输入直接连到后面的层，使得后面的层可以直接学习残差，这种结构即被称为Shortcut连接。其中，传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题，ResNet网络在某种程度上解决了这个问题，通过直接将输入绕道传递到输出，保护信息的完整性，整个网络则仅需要学习输入和输出差别的那一部分即可，简化学习目标和难度。

本申请实施例提供的图像识别方案至少包括如下有益效果：

多角度切片是从三维医学图像中的不同角度上进行多次切片得到的，并且会将得到的切片图像全部输入图像识别网络进行预测，因而几乎利用了整个三维图像的空间信息，能够抑制过拟合现象，而且据此得到的预测结果较为准确，即图像识别的准确性较高，效果好。另外，多角度切片能够对输入数据进行有效增强，抑制了过拟合现象，并且简化了图像识别网络的设计和训练难度。另外，采用多通道卷积神经网络，能够对医学图像序列中的多张二维医学图像同时进行处理，进而可以累积多次随访图像的图像信息，实现充分利用前序随访图像的信息，从而进一步地增加了预测结果的准确性。另外，在预测时还充分利用了前序医学状态和先前得到的医学进展状态，进一步地增加了预测结果的准确性。另外，还能够进行多任务预测，比如既能够判断当前阶段的疾病感染程度，也能够预测下一阶段的疾病进展程度，实现两项任务协同学习。

在另一些实施例中，为了提高预测的准确性，在当前一轮识别过程中可以重复上述步骤401至步骤403数次。

例如重复上述步骤401至步骤403的过程10次，得到10个当前医学状态的判断结果和10个下一阶段的医学状况进展的预测结果，并通过求取平均值得到最终的判断结果和最终的预测结果，即每个结果的加权值都是相同的。另外，如果存在先验知识，则还可以通过加权平均的方式来得到最终的判断结果和最终的预测结果，比如每个结果的加权值都是不同的，本申请在此不做限制。即，第n轮识别过程包括基于第n个图像序列的至少两次识别，本申请实施例还包括：获取第n轮识别过程的至少两次识别结果；其中，一次识别结果中包括一个判断结果和一个预测结果；该判断结果指示患病器官的当前医学状态，该预测结果指示患病器官的下一阶段的医学状况进展；对至少两个判断结果进行加权平均，基于得到的第一均值预测患病器官的当前医学状态；对至少两个预测结果进行加权平均，基于得到的第二均值预测患病器官下一阶段的医学状况进展。

在另一些实施例中，在训练阶段，上述图像识别网络(也称多通道卷积神经网络)的训练过程包括但不限于如下步骤。

获取训练样本集合，该训练样本集合包括多个样本图像序列；其中，每个样本图像序列中包括多张在时序上相邻的二维医学样本图像，该多张二维医学样本图像是在多个不同时间点对同一机体部位进行扫描得到的；将该多个样本图像序列分批次的分别输入初始网络进行医学状态预测；获取初始网络输出的与各个样本图像序列对应的预测结果；其中，该预测结果中包括当前阶段的病情严重程度以及下一阶段的医学状况进展；基于样本图像序列的预测结果和相应的标准医学状态，构建损失函数；响应于该损失函数的损失值不满足预设条件，反复循环地迭代更新初始网络的网络参数，直至满足该预设条件，得到该图像识别网络。可选地，该预设条件为损失值(也称误差值)小于设定阈值，该设定阈值可以根据实际需求进行设定，比如根据模型精度进行设置，本申请对此不做限制。

图7是本申请实施例提供的一种图像识别装置的结构示意图。参见图7，改装置包括：

第一获取模块701，被配置为对于第n轮识别过程，获取第n个图像序列，所述第n个图像序列中包括M张二维医学图像，所述M张二维医学图像是在N个随访时间对同一机体部位进行扫描得到的随访图像；n和M为不小于2的整数；

第二获取模块702，被配置为获取前n-1轮识别过程预测得到的n-1个前序医学状态和n-1个医学进展状态；其中，所述前序医学状态用于指示在前序一轮识别过程中所述机体部位的医学状况，所述医学进展状态用于指示在任意一轮识别过程中预测的下一阶段的医学状况进展；

识别模块703，被配置为对所述第n个图像序列进行预处理和特征提取；基于得到的特征数据、所述n-1个前序医学状态和所述n-1个医学进展状态，预测所述机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态，所述第n医学状态用于指示在第n轮识别过程中所述机体部位的医学状况。

对于第n轮轮识别过程，本申请实施例会输入一个图像序列、n-1个前序医学状态和先前得到的n-1个医学进展状态用于预测，由于能够对该图像序列中包括的多张二维医学图像同时进行处理，因此可以累积多次随访图像的图像信息，实现充分利用前序随访图像的信息，另外，在预测时还充分利用了前序医学状态和先前得到的医学进展状态，而基于丰富的输入数据进行预测能够显著增加最终预测结果的准确性。即，本申请实施例能够提高图像识别的准确性。另外，本申请实施例还能够进行多任务预测，比如既能够判断当前阶段的医学状况，也能够预测下一阶段的医学状况进展，实现两项任务协同学习。

在一些实施例中，所述识别模块被配置为：

对所述第n个图像序列进行预处理，得到新图像；

将所述新图像输入所述预测模型的第一个残差块；

在一些实施例中，所述识别模块被配置为：

获取各张三维医学图像在不同角度上的切片图像；

对所述多张增强图像进行图像融合，得到所述新图像。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像识别装置在识别图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像识别装置与图像识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的计算机设备800的结构框图。以计算机设备为终端为例，计算机设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器801所执行以实现本申请中方法实施例提供的图像识别方法。

在一些实施例中，计算机设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在计算机设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在计算机设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在计算机设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位计算机设备800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为计算机设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以计算机设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测计算机设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对计算机设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在计算机设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在计算机设备800的侧边框时，可以检测用户对计算机设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在计算机设备800的正面、背面或侧面。当计算机设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在计算机设备800的前面板。接近传感器816用于采集用户与计算机设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与计算机设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对计算机设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种计算机设备的结构示意图。以计算机设备为服务器为例，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条程序代码，所述至少一条程序代码由所述处理器901加载并执行以实现上述各个方法实施例提供的图像识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端中的处理器执行以完成上述实施例中的图像识别方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述图像识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第n个图像序列，包括：

确定时序上相邻且最近扫描得到的M张随访图像，将所述M张随访图像作为所述第n个图像序列。

3.根据权利要求1所述的方法，其特征在于，所述对所述第n个图像序列进行预处理和特征提取；基于得到的特征数据、所述n-1个前序医学状态和所述n-1个医学进展状态，预测所述机体部位在第n轮识别过程中的第n医学状态和第n+1医学进展状态，包括：

对所述第n个图像序列进行预处理，得到新图像；

4.根据权利要求3所述的方法，其特征在于，所述n-1个前序医学状态和所述n-1个医学进展状态为特征向量形式，所述对所述第一特征向量、所述n-1个前序医学状态和所述n-1个医学进展状态进行特征融合，包括：

5.根据权利要求3所述的方法，其特征在于，所述预测模型中包括顺次相连的多个残差块；其中，任意一个残差块中均包括一个恒等映射和至少两个卷积层，任意一个残差块的恒等映射由所述任意一个残差块的输入端指向所述任意一个残差块的输出端；或，

6.根据权利要求5所述的方法，其特征在于，所述至少两个卷积层中的第一卷积层、第二卷积层以及第三卷积层顺序连接，所述恒等映射由所述第一卷积层的输入端指向所述第三卷积层的输出端；

所述将所述新图像输入图像识别网络的预测模型进行特征提取，包括：

将所述新图像输入所述预测模型的第一个残差块；

7.根据权利要求3所述的方法，其特征在于，所述对所述第n个图像序列进行预处理，得到新图像，包括：

获取各张三维医学图像在不同角度上的切片图像；

对所述多张增强图像进行图像融合，得到所述新图像。

8.根据权利要求1至7中任一项权利要求所述的方法，所述方法还包括：

对于第一轮识别过程，获取第一个图像序列，所述第一个图像序列中包括不同于所述第n个图像序列的M张二维医学图像，所述第一个图像序列中包括一张基准图像和M-1张随访图像；

根据所述第一个图像序列，预测所述机体部位在第一轮识别过程中的第一医学状态和下一阶段的医学进展状态，所述第一医学状态用于指示在第一轮识别过程中所述机体部位的医学状况。

9.一种图像识别装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述第一获取模块，被配置为确定时序上相邻且最近扫描得到的M张随访图像，将所述M张随访图像作为所述第n个图像序列。

11.根据权利要求9所述的装置，其特征在于，所述识别模块被配置为：

对所述第n个图像序列进行预处理，得到新图像；

12.根据权利要求11所述的装置，其特征在于，所述n-1个前序医学状态和所述n-1个医学进展状态为特征向量形式，所述识别模块被配置为：

13.根据权利要求11所述的装置，其特征在于，所述预测模型中包括顺次相连的多个残差块；其中，任意一个残差块中均包括一个恒等映射和至少两个卷积层，任意一个残差块的恒等映射由所述任意一个残差块的输入端指向所述任意一个残差块的输出端；或，

14.一种计算机设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至8中任一项权利要求所述的图像识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至8中任一项权利要求所述的图像识别方法。