CN111274425A

CN111274425A - 医疗影像分类方法、装置、介质及电子设备

Info

Publication number: CN111274425A
Application number: CN202010064781.6A
Authority: CN
Inventors: 王俊; 高鹏; 谢国彤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12
Anticipated expiration: 2040-01-20
Also published as: WO2021147217A1; CN111274425B

Abstract

本公开涉及机器学习领域，揭示了一种医疗影像分类方法、装置、介质及电子设备。该方法包括：利用主动学习框架从未标注医疗影像样本集中选取目标医疗影像样本，主动学习框架的查询策略由强化学习模型提供；将经过标注专家标注的目标医疗影像样本输入至医学影像分类模型，对医学影像分类模型进行训练；若训练不满足预定条件，则获取训练结果并基于训练结果对强化学习模型进行训练，利用训练后的强化学习模型更新查询策略，并转至样本选取步骤，直至训练满足预定条件；将待分类的医疗影像数据输入至训练后的所述医学影像分类模型进行分类。此方法下，建立了通过人机协作来训练医学影像分类模型的长效工作机制，降低了标注成本，提高了标注效率。

Description

医疗影像分类方法、装置、介质及电子设备

技术领域

本公开涉及机器学习技术领域，特别涉及一种医疗影像分类方法、装置、介质及电子设备。

背景技术

随着软硬件平台和医学影像技术的发展，覆盖人体不同部位的各种医学影像数据被大量的获取以及存储。医学影像数据能够良好地辅助医学诊断。面对大量的医学影像数据，利用人工智能进行辅助医学诊断分析显得尤为重要。医学影像病种分类是对医学影像诊断和数据分析中的一个关键问题，从医学应用的角度来说，它的目的是依据图像特征将原始影像进行归类，为临床诊断提供依据。然而归类时用到的机器学习模型需要对医学影像数据样本进行标注，需要有经验的医生或者专家手工进行大量判读，而医学专家通常临床工作繁重且时间宝贵，因此获取带有标记的医学影像样本的代价比较昂贵。因此，在医学影像分类等任务中，标记样本的缺乏问题普遍存在。

目前，一般采用主动学习来解决医学影像分类中标记样本不足的问题。利用主动学习查询高质量的未标记样本，向医生或者专家询问标签后加入训练集合，使得在有限标记样本的情况下训练出具有较强泛化能力的分类模型，提高医学影像分类的精确度。

然而，若要采用主动学习来进行样本选择，对于不同的数据模态或者场景，往往要有针对性地事先基于专家经验设计并结合大量的试错实验进行主动学习中查询策略的设计，不但需要经验丰富的专家进行精细的算法设计，同时需要耗费大量的计算资源进行长时间的训练以试验出针对不同数据模态的算法参数配置，因此目前在利用主动学习进行医学影像分类模型的训练时，存在标注成本高、标注效率低下以及查询策略在不同场景下适应性差等问题。

发明内容

在机器学习技术领域，为了至少解决或部分解决上述技术问题，本公开的目的在于提供一种医疗影像分类方法、装置、介质及电子设备。

根据本公开的一方面，提供了一种医疗影像分类方法，所述方法包括：

样本选取步骤：利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本，其中，所述主动学习框架的查询策略由预定强化学习模型提供；

将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练；

若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型，其中，所述预定条件为停止对所述医学影像分类模型的训练的条件；

当获取到待分类的医疗影像数据，将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型，以得到由所述训练后的所述医学影像分类模型返回的分类结果。

根据本公开的另一方面，提供了一种医疗影像分类装置，所述装置包括：

样本选取模块，被配置为执行样本选取步骤，所述样本选取步骤包括：利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本，其中，所述主动学习框架的查询策略由预定强化学习模型提供；

发送模块，被配置为将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练；

训练模块，被配置为若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型，其中，所述预定条件为停止对所述医学影像分类模型的训练的条件；

输入模块，被配置为当获取到待分类的医疗影像数据，将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型，以得到由所述训练后的所述医学影像分类模型返回的分类结果。

根据本公开的另一方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行如前所述的方法。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开所提供的医疗影像分类方法包括如下步骤：样本选取步骤：利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本，其中，所述主动学习框架的查询策略由预定强化学习模型提供；将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练；若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型，其中，所述预定条件为停止对所述医学影像分类模型的训练的条件；当获取到待分类的医疗影像数据，将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型，以得到由所述训练后的所述医学影像分类模型返回的分类结果。

此方法下，通过利用结合了强化学习模型的主动学习框架从未标注医疗影像样本集中选取医疗影像样本提交给标注专家进行标注，并利用标注后的医疗影像样本进行医学影像分类模型的训练，其中，对主动学习框架的查询策略由强化学习模型提供，对医学影像分类模型的训练结果还会反馈到强化学习模型的迭代训练中，可以使强化学习模型提供的查询策略能够更好地用于主动学习框架，从而使主动学习框架能够选择出更适用于训练医学影像分类模型的医疗影像样本，建立了一套通过人机协作来训练医学影像分类模型的长效工作机制，降低了医学影像数据的标注成本，提高了标注效率，提高了主动学习算法的查询策略在不同场景下的适应性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种医疗影像分类方法的系统架构示意图；

图2是根据一示例性实施例示出的一种医疗影像分类方法的流程图；

图3A是根据一示例性实施例示出的医学影像分类模型训练流程示意图；

图3B是根据一示例性实施例示出的强化学习的学习过程示意图；

图4是根据一示例性实施例示出的Asynchronous Advantage Actor-Critic框架的预定强化学习模型的结构示意图；

图5是根据另一示例性实施例示出的Asynchronous Advantage Actor-Critic框架的预定强化学习模型的结构示意图；

图6是根据一示例性实施例示出的一种医疗影像分类装置的框图；

图7是根据一示例性实施例示出的一种实现上述医疗影像分类方法的电子设备示例框图；

图8是根据一示例性实施例示出的一种实现上述医疗影像分类方法的计算机可读存储介质。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本公开首先提供了一种医疗影像分类方法。这里的医疗影像可以是在医疗领域的各种能够用于生物(例如，人类)健康状况判断的影像数据，比如可以是图片、照片、由电子计算机断层扫描(Computed Tomography，CT)得到的图像数据等，可以是脑部、肺部、手部等各部位的扫描图像。医疗影像分类是指按照特定的目的，根据医疗影像的不同进行归类的过程。比如，若医疗影像为脑部扫描图像，如果要检测脑部扫描图像的肿瘤情况，对一张医疗影像进行分类的结果可以为有肿瘤和无肿瘤中的一种，还可以为无肿瘤、早期肿瘤、中期肿瘤、晚期肿瘤中的一种。

本公开的实施终端可以是任何具有运算和处理功能的设备，该设备可以与外部设备相连，用于接收或者发送数据，具体可以是便携移动设备，例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等，也可以是固定式设备，例如，计算机设备、现场终端、台式电脑、服务器、工作站等，还可以是多个设备的集合，比如云计算的物理基础设施或者服务器集群。

优选地，本公开的实施终端可以为服务器或者云计算的物理基础设施。

图1是根据一示例性实施例示出的一种医疗影像分类方法的系统架构示意图。如图1所示，该系统架构包括数据库110、服务器120以及用户终端130，数据库110和用户终端130分别通过通信链路与服务器120相连，可以接收服务器120发来的数据并可以向服务器120发送数据，在本实施例中，服务器120为本公开的实施终端。当本公开提供的医疗影像分类方法应用于图1所示的系统架构中时，一个具体过程可以是这样的：服务器120预先建立了主动学习框架并设有预定强化学习模型，而数据库110事先存储了未标注医疗影像样本集。服务器120通过主动学习框架和预定强化学习模型的查询策略从数据库110的未标注医疗影像样本集中选取至少一个目标医疗影像样本，然后将选取的目标医疗影像样本发送给用户终端130，由使用用户终端130的标注专家进行标注；然后获取标注专家返回的经过标注的目标医疗影像样本以进行医学影像分类模型的训练，当训练未达到预定条件时，获取训练结果并利用训练结果训练预定强化学习模型，使预定强化学习模型可以为主动学习框架提供更好的查询策略，在更新了主动学习框架的查询策略后，服务器120再次通过主动学习框架从数据库110选取目标医疗影像样本并提交给用户终端130的标注专家进行标注，并再次利用标注专家返回的经过标注的目标医疗影像样本对医学影像分类模型进行训练，直到训练达到预定条件，此时即得到了训练后的医学影像分类模型。数据库110中还存储了待分类的医疗影像数据，当服务器120获取到了这些医疗影像数据后，即可以利用训练后的医学影像分类模型进行分类。

值得一提的是，图1仅为本公开的一个实施例。虽然在本实施例中的实施终端为服务器，主动学习框架和预定强化学习模型也都设于本公开的实施终端之上，标注专家所使用的终端与本公开的实施终端为不同的终端，并且未标注医疗影像样本集也存储于本端之外的数据库上，但在其他实施例或者具体应用中，本公开的实施终端可以为如前所述的各种终端或设备，主动学习框架和预定强化学习模型可以设于本公开的实施终端之外的终端上，也可以分别设在不同的终端之上，标注专家所使用的终端也可以为本公开的实施终端，标注医疗影像样本集可以存储在本公开的实施终端上。本公开对此不作任何限定，本公开的保护范围也不应因此而受到任何限制。

图2是根据一示例性实施例示出的一种医疗影像分类方法的流程图。本实施例的医疗影像分类方法可以由服务器执行，如图2所示，包括以下步骤：

步骤210，样本选取步骤：利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本。

其中，所述主动学习框架的查询策略由预定强化学习模型提供。

本实施例主要利用的是医学影像分类模型进行医疗影像数据的分类。

主动学习(Active Learning)框架主要采用了主动学习算法(模型)，通过查询策略或函数主动地挑选高质量的样本进行标记，可以在在减少标记样本花费的同时获得泛化能力强的模型。主动学习框架的查询策略决定了主动学习框架用于选取要进行标注的样本的方式。当利用主动学习来选取样本进行医学影像分类模型的训练时，一个具体过程可以如图3A所示。图3A是根据一示例性实施例示出的医学影像分类模型训练流程示意图。

在图3A中，学习者通过少量初始标记样本开始学习，利用一定的查询函数(查询策略)选择出一个或一批最有用的样本，并向标注专家询问标签，得到有标注的样本，然后利用获得的新知识来训练医学影像分类模型和进行下一轮查询。主动学习是一个循环的过程，直至达到某一停止准则为止。

图3B是根据一示例性实施例示出的强化学习的学习过程示意图。参照图3B所示：强化学习是学习器(智能体)与环境交互的过程，学习器输出(执行动作)会影响环境，环境受到学习器的输出影响会改变状态并产生奖赏，改变后的状态和产生的奖赏会提供给学习器，从而训练学习器，目标是使学习器能够获得的奖赏最大化。

步骤220，将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练。

标注专家一般为对医疗影像的判读有丰富经验的相应领域医学专家。

医学影像分类模型功能是与目标医疗影像样本的特点相对应的，比如，若目标医疗影像样本为脑部扫描图像，则训练的医学影像分类模型可以为脑部肿瘤异常检测模型，若目标医疗影像样本为手骨图像，则训练的医学影像分类模型可以为骨龄识别模型。医学影像分类模型可以基于各种原理和架构来建立，比如医学影像分类模型的架构可以为卷积神经网络模型、深度学习模型、生成式对抗网络模型中的一种或多种模型的组合。目标医疗影像样本可以被发送至标注专家所在的终端进行标注，也可以仅在本地进行标注，即把目标医疗影像样本在本地终端上显示，从而使标注专家进行标注。

在一个实施例中，步骤220可以包括：将选取的所述目标医疗影像样本提交给标注专家进行标注；当监听到所述目标医疗影像样本被标注完成，获取经过标注的所述目标医疗影像样本并输入至医学影像分类模型，以对所述医学影像分类模型进行训练。

在一个实施例中，步骤220可以包括：将选取的所述目标医疗影像样本提交给标注专家进行标注，以便在所述目标医疗影像样本被标注后，接收由所述标注专家发送的经过标注的所述目标医疗影像样本；将所述经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练。

步骤230，若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型。

其中，所述预定条件为停止对所述医学影像分类模型的训练的条件。预定条件可以是多样的。

比如，所述预定条件可以为所述医学影像分类模型的精度达到预定精度阈值，可以为用于训练所述医学影像分类模型的经过标注的所述目标医疗影像样本的数目达到预定数目阈值，也可以为本次训练得到的医学影像分类模型与上次训练得到的医学影像分类模型的精度之差小于预定精度差阈值。

在一个实施例中，所述预定条件为本次训练得到的医学影像分类模型与上次训练得到的医学影像分类模型的精度之差与本次训练所使用的所述目标医疗影像样本的数目的比值小于预定比值阈值。

在本实施例中，通过基于精度差与训练所使用的目标医疗影像样本的数目的相对关系来确定何时停止对所述医学影像分类模型的训练，使得选择的停止条件更为合理。

在一个实施例中，事先建立了医疗影像验证集，所述医疗影像验证集包括多个经过准确标注的医疗影像数据，所述获取对所述医学影像分类模型的训练结果，包括：将医疗影像验证集中的医疗影像数据输入至所述医学影像分类模型，得到所述医学影像分类模型输出的分类结果；将所述分类结果与对应的各医疗影像数据的标注进行比对，得到与每一医疗影像数据对应的比对结果；基于所述比对结果确定所述医学影像分类模型的分类精度，作为对所述医学影像分类模型的训练结果。

在一个实施例中，所述比对结果为一致和不一致中的任意一项，所述基于所述比对结果确定所述医学影像分类模型的分类精度，作为对所述医学影像分类模型的训练结果，包括：确定所述医疗影像验证集中的医疗影像数据的数目，作为第一数目；确定所述比对结果为一致的医疗影像数据的数目，作为第二数目；获取所述第一数目与所述第二数目的比值作为所述医学影像分类模型的分类精度，并将所述分类精度作为对所述医学影像分类模型的训练结果。

环境的状态和产生的奖赏根据医学影像分类模型的具体应用的不同可以采用不同的定义方式。

在一个实施例中，所述医学影像分类模型为预定强化学习模型的环境，所述训练结果为状态，奖赏基于所述训练结果而确定。

在一个实施例中，所述预定强化学习模型为Actor-Critic(演员-评论员)框架，所述Actor-Critic框架包括智能体和环境，所述智能体包括Actor(演员)神经网络、Critic(评论员)神经网络，所述环境当前处于第一状态，每次通过如下方式训练所述预定强化学习模型：

获取第一状态的特征向量，作为第一特征向量；

将所述特征向量输入至所述Actor神经网络，获取所述智能体本次要执行的动作；

对智能体施加所述本次要执行的动作，以得到所述环境转换为的第二状态和所述环境反馈的回报；

获取所述第二状态的特征向量，作为第二特征向量，并将所述第二特征向量和所述第一特征向量分别输入至所述Critic神经网络，得到所述Critic神经网络输出的与所述第一特征向量对应的第一价值和与所述第二特征向量对应的第二价值；

基于所述回报和所述第二价值利用如下公式获取对所述智能体当前时刻起能够获得的总回报的估计，作为总回报估计：

其中，

为所述总回报估计，r_t+1为所述回报，γ为衰减因子，V_φ(s_t+1)为所述第二价值，s_t+1为所述第二状态，φ为所述Critic神经网络的参数；

根据所述总回报估计和所述第一价值，利用如下表达式梯度更新所述Critic神经网络的参数：

其中，

为所述总回报估计，V_φ(s_t)为所述第一价值；

根据所述总回报估计和所述第一价值，利用如下公式更新所述Actor神经网络的参数：

其中，s_t为所述第一状态，a_t为所述本次要执行的动作，θ为所述Actor神经网络的参数，π_θ(a_t|s_t)为所述智能体根据所述第一状态选择出所述本次要执行的动作所使用的策略，α为系数。

在一个实施例中，所述预定强化学习模型为Asynchronous Advantage Actor-Critic(异步优势演员-评论员)框架，所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体，所述公共智能体包括公共Actor神经网络和公共Critic神经网络，每一所述工作者智能体包括一个Actor神经网络和一个Critic神经网络，每一所述工作者智能体位于独立的线程中并与独立的环境进行交互，目标工作者智能体为位于目标线程的工作者智能体，训练所述预定强化学习模型时，目标工作者智能体的训练过程包括：

分别将当前时间和当前迭代次数置为1并将所述目标工作者智能体的Actor神经网络的梯度更新量和Critic神经网络的梯度更新量置为0；

执行参数同步步骤，所述参数同步步骤包括：分别将所述公共智能体的公共Actor神经网络的参数和公共Critic神经网络的参数同步至目标线程，分别作为所述目标工作者智能体的Actor神经网络的参数和Critic神经网络的参数；

初始化与所述目标工作者智能体进行交互的环境的当前状态；

执行动作确定步骤，所述动作确定步骤包括：获取所述当前状态的向量，并将所述向量输入至所述目标工作者智能体的Actor神经网络，得到所述目标工作者智能体本次要执行的动作；

对目标工作者智能体施加所述本次要执行的动作，以得到所述与目标工作者智能体进行交互的环境转换为的第二状态和所述环境反馈的回报；

分别将所述当前时间和所述当前迭代次数加1；

若当前状态为终止状态或所述当前时间序列与初始时间序列的差值等于预定时间差值阈值，则继续进行下列步骤，否则转至执行动作确定步骤；

基于所述Critic神经网络的参数和所述当前状态利用如下公式计算当前时间的价值：

其中，s_t为当前状态，V(s_t,w′)为所述目标工作者智能体的Critic神经网络的参数为w′且当前状态为非终止状态时，所述Critic神经网络根据当前状态s_t对应确定出的价值，0为在当前状态是终止状态的情况下，所述Critic神经网络确定出的价值；

基于所述当前时间序列的价值针对所述当前时间之前的每一时刻执行参数更新步骤，所述参数更新步骤包括：

利用如下公式计算本时刻的价值：

Q(s,i)＝r_i+γQ(s,i+1),

其中，Q(s,i)为本时刻的价值，r_i为本时刻所获得的回报，Q(s,i+1)为下一时刻的价值，γ为衰减因子；

利用如下公式对所述目标工作者智能体的Actor神经网络的参数进行梯度更新：

其中，dθ为所述目标工作者智能体的Actor神经网络的参数更新梯度，θ′为所述目标工作者智能体的Actor神经网络的参数，π_θ′(s_i,a_i)为所述目标工作者智能体根据本时刻的状态s_i选择出要执行的动作a_i所使用的策略，

为所述目标工作者智能体的Actor神经网络的分值函数，

为策略π的熵项，c为所述熵项的系数；

利用如下公式对所述目标工作者智能体的Critic神经网络的参数进行梯度更新并结束对本时刻的参数更新步骤：

其中，dw为所述Critic神经网络的参数更新梯度；

基于所述目标工作者智能体的Actor神经网络和Critic神经网络在所述当前时间之前的每一时刻的参数更新梯度，利用如下公式对对应时刻的所述公共智能体的公共Actor神经网络和公共Critic神经网络的参数进行更新；

若所述当前迭代次数超过预定迭代次数阈值，则输出所述公共智能体的公共Actor神经网络和公共Critic神经网络的参数，否则转至所述参数同步步骤。

在本实施例中，通过优化Actor神经网络的参数，使Actor神经网络在选择策略上表现的越来越好，而通过优化Critic神经网络的参数，使Critic神经网络对价值的评估越来越准确。

Asynchronous Advantage Actor-Critic框架的结构可以如图4所示，其中最上层的全局网络即为所述公共智能体，全局网络下方的每一工作组即为工作者智能体。每一工作者智能体与公共智能体之间可以进行双向数据的传输，比如可以传输参数，每一工作者智能体与唯一的一个环境进行交互，Policyπ(s)为价值网络，相当于Critic神经网络；π(s)为策略网络，相当于Actor神经网络。价值网络和策略网络耦合在一起。网络的具体结构可以是各种各样的，比如，可以包括至少一层卷积层、至少一层池化层和全连接层。

在一个实施例中，所述预定强化学习模型为Asynchronous Advantage Actor-Critic框架，所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体，所述公共智能体和每一工作者智能体均包括卷积层、全连接层和附加模块，其中，每一智能体中的卷积层和附加模块均与该智能体的全连接层相连，其中：

所述公共智能体的卷积层用于接收各工作者智能体发送的数据，并向该公共智能体的全连接层输出提取的特征数据；

所述工作者智能体的卷积层用于接收环境提供的数据，并向该工作者智能体的全连接层对应输出提取的特征数据；

所述附加模块至少获取标注专家对所述目标医疗影像样本的标记工作量和所述医学影像分类模型对验证集的输出精度，并向与该附加模块相连的全连接层输出性价比参数；

所述全连接层用于接收与该全连接层相连的附加模块发送的性价比参数和卷积层发送的特征数据，并对应输出处理结果。

本实施例中的Asynchronous Advantage Actor-Critic框架可以如图5所示，与前述实施例的模型相比，本实施例多了附加模块，附加模块兼顾了标记工作量和所述医学影像分类模型对验证集的输出精度，即考虑了性价比。

在本实施例中，通过将主动学习查询的样本标记工作量、模型训练的验证集精度等参数作为输入嵌入，其中的标记工作量和模型精度是一个变化的参数，显式化的将关于主动学习减少标注工作量这一任务的知识对智能体进行约束，使得所述主动学习框架的查询策略不仅关注数据标注对训练的模型的精度的作用，而且兼顾了样本标注的成本，即考虑了样本标注的性价比，从而使所述主动学习框架做出更合理的决策。

在一个实施例中，在步骤220之后，所述方法还包括：

获取所述标注专家对所述目标医疗影像样本的评分；

步骤230可以包括：

若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果和对所述目标医疗影像样本的评分对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型。

训练结果和对目标医疗影像样本的评分可以用于预定强化学习模型中奖赏的确定。

由于模型的训练效果有时并不足以表明样本选择的好坏，在本实施例中，通过基于训练结果和对目标医疗影像样本的评分来对预定强化学习模型进行训练，即在确定对智能体的奖赏时，同时考虑了训练结果和对目标医疗影像样本的评分，可以使得模型的泛化能力更强。

步骤240，当获取到待分类的医疗影像数据，将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型，以得到由所述训练后的所述医学影像分类模型返回的分类结果。

所述医学影像分类模型经过训练后，便可以用于医疗影像数据的分类，将待分类的医疗影像数据输入至训练后的所述医学影像分类模型，可以得到相应的分类结果。

本公开还提供了一种医疗影像分类装置，以下是本公开的装置实施例。

图6是根据一示例性实施例示出的一种医疗影像分类装置的框图。如图6所示，医疗影像分类装置600包括：

样本选取模块610，被配置为执行样本选取步骤，所述样本选取步骤包括：利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本，其中，所述主动学习框架的查询策略由预定强化学习模型提供；

发送模块620，被配置为将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练；

训练模块630，被配置为若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型，其中，所述预定条件为停止对所述医学影像分类模型的训练的条件；

输入模块640，被配置为当获取到待分类的医疗影像数据，将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型，以得到由所述训练后的所述医学影像分类模型返回的分类结果。

根据本公开的第三方面，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

根据本公开的第四方面，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种医疗影像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预定强化学习模型为Actor-Critic框架，所述Actor-Critic框架包括智能体和环境，所述智能体包括Actor神经网络、Critic神经网络，所述环境当前处于第一状态，每次通过如下方式训练所述预定强化学习模型：

获取第一状态的特征向量，作为第一特征向量；

其中，

其中，

为所述总回报估计，V_φ(s_t)为所述第一价值；

3.根据权利要求1所述的方法，其特征在于，所述预定强化学习模型为AsynchronousAdvantage Actor-Critic框架，所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体，所述公共智能体包括公共Actor神经网络和公共Critic神经网络，每一所述工作者智能体包括一个Actor神经网络和一个Critic神经网络，每一所述工作者智能体位于独立的线程中并与独立的环境进行交互，目标工作者智能体为位于目标线程的工作者智能体，训练所述预定强化学习模型时，目标工作者智能体的训练过程包括：

分别将所述当前时间和所述当前迭代次数加1；

利用如下公式计算本时刻的价值：

Q(s,i)＝r_i+γQ(s,i+1),

为所述目标工作者智能体的Actor神经网络的分值函数，

为策略π的熵项，c为所述熵项的系数；

其中，dw为所述Critic神经网络的参数更新梯度；

4.根据权利要求1所述的方法，其特征在于，所述预定强化学习模型为AsynchronousAdvantage Actor-Critic框架，所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体，所述公共智能体和每一工作者智能体均包括卷积层、全连接层和附加模块，其中，每一智能体中的卷积层和附加模块均与该智能体的全连接层相连，其中：

5.根据权利要求1所述的方法，其特征在于，事先建立了医疗影像验证集，所述医疗影像验证集包括多个经过准确标注的医疗影像数据，所述获取对所述医学影像分类模型的训练结果，包括：

将医疗影像验证集中的医疗影像数据输入至所述医学影像分类模型，得到所述医学影像分类模型输出的分类结果；

将所述分类结果与对应的各医疗影像数据的标注进行比对，得到与每一医疗影像数据对应的比对结果；

基于所述比对结果确定所述医学影像分类模型的分类精度，作为对所述医学影像分类模型的训练结果。

6.根据权利要求5所述的方法，其特征在于，所述比对结果为一致和不一致中的任意一项，所述基于所述比对结果确定所述医学影像分类模型的分类精度，作为对所述医学影像分类模型的训练结果，包括：

确定所述医疗影像验证集中的医疗影像数据的数目，作为第一数目；

确定所述比对结果为一致的医疗影像数据的数目，作为第二数目；

获取所述第一数目与所述第二数目的比值作为所述医学影像分类模型的分类精度，并将所述分类精度作为对所述医学影像分类模型的训练结果。

7.根据权利要求1所述的方法，其特征在于，在将选取的所述目标医疗影像样本发送给标注专家，以便在由标注专家进行标注后，接收从标注专家返回的经过标注的所述目标医疗影像样本，并将经过标注的所述目标医疗影像样本输入至医学影像分类模型，以对所述医学影像分类模型进行训练之后，所述方法还包括：

获取所述标注专家对所述目标医疗影像样本的评分；

所述若对所述医学影像分类模型的训练不满足预定条件，则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练，利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略，并转至样本选取步骤，直至对所述医学影像分类模型的训练满足预定条件，得到训练后的所述医学影像分类模型，包括：

8.一种医疗影像分类装置，其特征在于，所述装置包括：

9.一种计算机可读程序介质，其特征在于，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行根据权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至7任一项所述的方法。