CN111429414A

CN111429414A - 基于人工智能的病灶影像样本确定方法和相关装置

Info

Publication number: CN111429414A
Application number: CN202010191123.3A
Authority: CN
Inventors: 陈鹏; 孙钟前
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-17
Anticipated expiration: 2040-03-18
Also published as: CN111429414B

Abstract

本申请实施例公开了基于人工智能的病灶影像样本确定方法，在训练用于识别病灶影像的网络模型时，采用的是根据病灶影像确定出的训练样本，在对该网络模型进行第i轮训练之前，可以确定训练样本的训练次数和根据前i‑1轮训练所确定的损失参数。根据损失参数和训练次数可以确定训练样本对应第i轮训练的采样权重。故通过采用权重确定第i轮训练所需的目标样本时，确定出的目标样本既不会难度太简单，也不会被重复训练过多且每一轮训练时都会依据历史训练信息动态调整各个训练样本的采样权重，从而提高了每一轮训练所确定训练样本的质量，避免了简单样本被过多地重复训练，为模型训练质量打下了基础，显著提高了网络模型对病灶影像的识别精度。

Description

基于人工智能的病灶影像样本确定方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及基于人工智能的病灶影像样本确定方法和相关装置。

背景技术

随着人工智能的发展，可以通过网络模型快捷的对图像进行对象检测，例如病灶识别等。在一些需要通过训练样本训练后才能投入使用的网络模型来说，为了保证模型的检测精度，确定合理的训练样本是非常重要的。

然而，在一些病灶识别的场景中，可以获取的训练样本具有明显的缺陷，例如大部分训练样本的比较简单，只有小部分训练样本是难度较大的。例如针对肺结节病灶识别中，病灶影像中病灶所在区域相对于整个影像来说非常小，通过这类病灶影像构建训练样本时，不仅正样本(病灶影像中病灶所在的区域)和负样本(病灶影像中非病灶所在的区域)的数量差距明显，而且所体现的难度也会差别很大，绝大部分负样本所体现特征重复简单，仅有少部分负样本是具有训练难度的。

这种情况下，如果在训练过程中不能确定出合理的训练样本，将会导致模型在大部分训练时间里都在重复学习简单样本，难以在训练后准确识别出病灶影像中的病灶。由此可见，合理确定训练样本以提高模型对病灶影像的识别准确性是目前亟需解决的问题。

发明内容

为了解决上述技术问题，本申请提供了基于人工智能的病灶影像样本确定方法和相关装置，避免了简单样本被过多地重复训练。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种病灶影像样本确定方法，所述方法包括：

在对网络模型进行第i轮训练前，确定样本集合中训练样本的损失参数和训练次数；所述网络模型用于识别病灶影像，所述训练样本是根据病灶影像确定的，所述损失参数是根据前i-1轮训练确定的；

根据所述损失参数和所述训练次数确定所述训练样本对应第i轮训练的采样权重；

根据所述采样权重，从所述样本集合的训练样本中确定目标样本；所述目标样本用于对所述网络模型进行第i轮训练。

另一方面，本申请实施例提供了一种病灶影像样本确定装置，所述装置包括第一确定单元、第二确定单元和第三确定单元：

所述第一确定单元，用于在对网络模型进行第i轮训练前，确定样本集合中训练样本的损失参数和训练次数；所述网络模型用于识别病灶影像，所述训练样本是根据病灶影像确定的，所述损失参数是根据前i-1轮训练确定的；

所述第二确定单元，用于根据所述损失参数和所述训练次数确定所述训练样本对应第i轮训练的采样权重；

所述第三确定单元，用于根据所述采样权重，从所述样本集合的训练样本中确定目标样本；所述目标样本用于对所述网络模型进行第i轮训练。

另一方面，本申请实施例提供了一种用于病灶影像样本确定设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

由上述技术方案可以看出，在训练用于识别病灶影像的网络模型时，采用的是根据病灶影像确定出的训练样本，在进行第i轮训练之前，可以确定训练样本的训练次数和根据前i-1轮训练所确定的损失参数。由于训练次数体现了训练样本在前i-1轮训练网络模型的总数，损失参数体现了前i-1轮中网络模型对该训练样本的识别程度，相当于体现了该训练样本的难度。若根据损失参数和训练次数可以确定训练样本对应第i轮训练的采样权重，该采样权重可以起到平衡训练次数和样本难度在确定训练样本时带来的影响。故通过采用权重确定第i轮训练所需的目标样本时，确定出的目标样本既不会难度太简单，也不会被重复训练过多，例如通过病灶影像确定的负样本中，特征简单的负样本被选中训练的次数有效降低。而且每一轮训练时都会依据历史训练信息动态调整各个训练样本的采样权重，从而提高了每一轮训练所确定训练样本的质量，避免了简单样本被过多地重复训练，为模型训练质量打下了基础，显著提高了网络模型对病灶影像的识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种病灶影像样本确定方法的应用场景示意图；

图2为本申请实施例提供的一种病灶影像样本确定方法的流程示意图；

图3为本申请实施例提供的另一种病灶影像样本确定方法的应用场景示意图；

图4为本申请实施例提供的一种病灶影像样本确定装置的结构示意图；

图5为本申请实施例提供的服务器的结构示意图；

图6为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

在相关技术中，可以采用随机采样方式确定网络模型的目标样本。由于在训练样本集中可能存在大量的简单样本，如果采用随机采样方式确定网络模型的目标样本，其中简单样本被采样的概率较大，使得网络模型无法较好地学习到难度较大的样本。

为了避免简单样本被过多地重复训练，本申请实施例提供了基于人工智能的病灶影像样本确定方法，该方法利用第i-1轮训练中训练样本的损失参数和训练次数确定采样权重，通过该采样权重确定第i轮训练所需的目标样本，使得确定出的目标样本既不会难度太简单，也不会被重复训练过多，从而降低了大量简单样本被过多地重复训练的可能性。

本申请实施例提供的病灶影像样本确定方法是基于人工智能实现的，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。

例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、视频处理(video processing)、人脸识别(face recognition)等。

例如可以涉及机器学习(Machine learning，ML)中的深度学习(Deep Learning)，包括各类人工神经网络(Artificial Neural Network,ANN)。

为了便于理解本申请的技术方案，下面结合实际应用场景对本申请实施例提供的病灶影像样本确定方法进行介绍。

本申请提供的病灶影像样本确定方法可以应用于具有数据处理能力的病灶影像样本确定设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑等；服务器具体可以为独立服务器，也可以为集群服务器。

该数据处理设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

在本申请实施例中，数据处理设备可以通过计算机视觉技术对图像中的不同对象进行识别和检测。

该数据处理设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

本申请实施例提供的病灶影像样本确定方法主要涉及对各类人工神经网络的应用。

下面结合应用场景，以及图1，对本申请实施里提供的病灶影像样本确定方法进行说明。在图1所示的应用场景中，执行病灶影像样本确定方法的数据处理设备为服务器101，该服务器101中部署有网络模型，该网络模型为待训练的神经网络模型。

针对该网络模型，用于对病灶影像中的病灶进行识别，主要通过由病灶影像构建的样本集合中的训练样本进行训练。训练的过程包括多轮，每一轮都会从样本集合中进行采样，得到本轮训练所需使用的训练样本，每轮训练所需使用的训练样本是样本集合中一部分。在本申请实施例中，第i轮为针对网络模型的多轮训练中的一轮训练。

其中，样本集合中包括简单样本和困难样本。例如，在训练网络模型对病灶影像进行病灶识别的任务中，简单样本可以为其标签所标识病灶区域容易识别的样本，这类样本中一般病灶所在区域较大，与背景差别较大。困难样本可以为其标签所标识病灶区域较难识别的样本，这类样本一般病灶所在区域较小，与背景差别较小。在网络模型训练中，困难样本对网络模型能力的提升相对于简单样本要更大，并使得网络模型逐渐具备处理复杂任务的能力。

在网络模型完成第i-1轮训练后，对网络模型进行第i轮训练前，针对样本集合中的每个训练样本各自确定对应的损失参数和训练次数。

训练样本的损失参数可以通过该网络模型前i-1轮训练确定，用于标识该训练样本的历史损失情况。例如，可以用该训练样本在网络模型第i-1轮训练时对应的损失，也可以为该训练样本在网络模型前i-1轮训练的历史平均损失。

由于训练样本的损失标识了网络模型对于该训练样本的预测值与该训练样本的标签之间的差异。因此，训练样本的损失体现了网络模型对于该训练样本的预测准确度。若训练样本的损失较大，表明网络模型对于该训练样本的预测值与训练样本的标签之间的差异较大，该训练样本对于网络模型来说识别难度较大，体现了网络模型对于该训练样本中的特征学习难度较大。若训练样本的损失较小，表明网络模型对于该训练样本的预测值与训练样本的标签之间的差异较小，该训练样本对于网络模型来说识别难度较小，体现了网络模型学习该训练样本中的特征难度较小。

由于训练样本的损失参数是基于该训练样本在网络模型前i-1轮训练确定的，即该损失参数综合考虑了该训练样本在网络模型前i-1轮训练对应的历史损失情况，因此，损失参数体现了网络模型对于学习训练样本的难易程度，即网络模型对训练样本的识别难度。

相对于困难样本，网络模型学习简单样本较容易，网络模型能够较快地拟合简单样本的特征，简单样本的损失参数较小。相对于简单样本，网络模型学习困难样本较困难，网络模型无法较快地拟合困难样本的特征，困难样本的损失参数较大。

上述训练样本的训练次数标识了该训练样本在网络模型前i-1轮训练中参与训练的次数。例如训练样本A的训练次数为8次，其体现了在网络模型的前i-1轮训练中，训练样本A参与训练的次数为8次。

在图1中，以样本集合中的两个简单样本为例：训练样本1和训练样本2。对于训练样本1，确定对应的损失参数L1＝a和训练次数N1＝10次。对于训练样本2，确定对应的损失参数L2＝a和训练次数N2＝20次。损失参数L1和L2相较于样本集合中的困难样本的损失参数偏小。

在网络模型完成第i-1轮的训练后，针对样本集合中的每一个训练样本确定出各自对应的损失参数和训练次数，可以根据损失参数和训练次数这两个特征确定出该训练样本对应网络模型第i轮训练的采样权重。

采样权重用于作为训练样本被采样为目标样本用于网络模型第i轮训练的依据。采样权重的大小可以体现出训练样本被采样为目标样本的可能性大小。训练样本的采样权重越大，表明该训练样本被采样为目标样本的可能性越大；训练样本的采样权重越小，表明该训练样本被采样为目标样本的可能性越小。

由于一个训练样本的采样权重是基于前述该训练样本的损失参数和训练次数确定的，故一个训练样本的采样权重可以体现出该训练样本的样本难度和训练次数这两个维度的信息，根据采样权重确定网络模型第i轮训练所需的目标样本时，能够考虑到样本难度和训练次数的影响，从而平衡了训练样本的训练次数和样本难度在确定训练样本时起到的作用，选取的目标样本在样本难度和训练次数上都可以较为适当，目标样本的样本难度既不会太简单，训练次数也不会过于多。因此，基于训练样本的采样权重对样本集合中的训练样本进行采样，可以避免简单样本被过多次重复训练。

在图1中，对于训练样本1，基于损失参数L1和训练次数N1可以确定出对应的采样权重w1。对于训练样本2，基于损失参数L2和训练次数N2可以确定出对应的采样权重w2。对于训练样本1和训练样本2，在损失参数相同的条件下L1＝L2，由于训练样本2的训练次数相对于训练样本1的训练次数更大，也就是N2>N1，为了避免简单样本被过多地重复训练，训练样本2的采样权重小于训练样本1的采样权重w2<w1。

进而，可以根据训练样本对应的采样权重，从样本集合中确定目标样本，用于对网络模型进行第i轮训练。

在通过采用权重确定第i轮训练所需的目标样本时，确定出的目标样本的难度既不会太简单，也不会被重复训练过多次，且网络模型在每一轮训练时都会依据历史训练信息动态调整各个训练样本的采样权重，从而提高了每一轮训练所确定训练样本的质量，避免了简单样本被重复训练，为模型训练质量打下了基础。

在图1中，采样权重w体现了训练样本被选取进行本轮训练的可能性大小，由于w2<w1，故w1对应的训练样本1(即训练次数相对较小的)，会比w2对应的训练样本2(即训练次数相对较多的)更容易被选为目标样本，降低了简单样本被过多训练的可能。

一般地，网络模型投入应用之前，需要利用样本集合中的训练样本对网路模型进行训练。若在样本集合中简单样本数量较多，困难样本较少的情况下，为了使得网络模型具备较好的性能，可以通过执行本申请实施例提供的病灶影像样本确定方法，避免简单样本被过多地重复训练。

下面结合图2，对本申请实施例提供的病灶影像样本确定方法进行介绍。在图2中，该病灶影像样本确定方法包括以下步骤：

S201:在对网络模型进行第i轮训练前，确定样本集合中训练样本的损失参数和训练次数。

在网络模型完成第i-1轮训练，开始第i轮训练之前，可以针对样本集合中的每个训练样本各自确定出对应的损失参数和训练次数。

其中，网络模型用于识别病灶影像中的病灶区域。样本集合中的训练样本可以是根据具体的识别任务确定出的病灶影像。例如，网络模型用于识别胃部切片图像中的胃癌细胞区域，则样本集合中的训练样本可以是胃部切片图像。因此，在对网络模型进行训练的过程中，可以从对应的样本集合中确定出用于本轮训练的训练样本。

上述训练样本的损失参数是根据网络模型前i-1轮训练确定的，标识了该训练样本的历史损失情况。训练样本的损失参数可以设定为该训练样本在网络模型前i-1轮训练中的历史平均损失。

可以理解的是，训练样本的损失标识了网络模型对于该训练样本的预测结果与该训练样本的标签之间的差异。训练样本的损失的大小体现了网络模型对于该训练样本的识别准确度，相当于该训练样本对于网络模型的学习难度。由于训练样本的损失参数是基于网络模型前i-1轮训练中确定的，因此，该训练样本的损失参数从该训练样本的历史损失情况的角度，体现了网络模型对于该训练样本的识别程度，相当于体现了网络模型对于该训练样本在前i-1轮训练中的学习难度。

训练样本的训练次数标识了该训练样本在网络模型前i-1轮训练中参与训练的次数，体现了该训练样本在网络模型前i-1轮训练中，被采样作为目标样本参与网路模型的训练的情况。

例如，在网络模型完成前2次训练后，训练样本a参与了2次训练，2次训练对应的损失分别为l1和l2，则训练样本a的损失参数为

训练次数为2次。

上述网络模型可以根据不同的应用需求，具有不同的神经网络结构。例如，网络模型可以为卷积神经网络(Convolutional Neural Network,CNN)，也可以为基于快速区域的卷积神经网络(Fast Region Convolutional Neural Network,Fast R-CNN)。在此不对网络模型的具体结构做任何限定。

为了避免简单样本被过多地重复训练，在网络模型开始第i轮训练之前，利用样本集合中训练样本的损失参数和训练次数对样本集合中的训练样本进行采样，通过降低简单样本被采样的可能性，从而降低了简单样本被过多地重复训练。

S202：根据所述损失参数和所述训练次数确定所述训练样本对应第i轮训练的采样权重。

在网络模型完成第i-1轮训练开始第i轮训练之前，可以利用样本集合中的训练样本的损失参数和训练次数确定出对应采样权重。其中，采样权重的大小标识了训练样本被采样为目标样本用于网络模型第i轮训练的可能性大小。训练样本的采样权重越大，表明该训练样本被采样为目标样本的可能性越大；训练样本的采样权重越小，表明该训练样本被采样为目标样本的可能性越小。

由于损失参数体现了训练样本的样本难度，训练次数体现了训练样本在前i-1轮中参与训练的总次数，利用损失参数和训练次数确定出的采样权重对样本集合中的训练样本进行采样，同时考虑了训练样本的样本难度和训练次数这两个维度的信息，平衡了训练样本的样本难度和训练次数在确定训练样本时带来的影响，降低了被多次重复训练的简单样本被采样为目标样本网络模型第i轮训练的可能性，从而避免了简单样本被过多地重复训练。

可以理解的是，在训练样本的训练次数相同或相近的条件下，相对于困难样本，简单样本的样本难度较低，网络模型能够较快地拟合简单样本中的特征，简单样本的损失参数较小。为了避免大量的简单样本被用于训练，可以通过设置训练样本的损失参数对于采样权重的影响，从而调整训练样本被采样用于网络模型训练的可能性大小。

在一种可能实现的方式中，可以在利用损失参数确定采样权重时，将损失参数对采样权重造成的影响因素设置为：采样权重随着损失参数的增大而增大。

在简单样本和困难样本的训练次数相同或相近的情况下，由于简单样本的损失参数相较于困难样本较小，若采样权重随着损失参数的增大而增大，则简单样本的采样权重相较于困难样本较小。在利用采样权重对训练样本进行采样的过程中，降低了简单样本被大量采样的可能性，从而从样本难度这一角度降低了大量简单样本被采样为目标样本用于网络模型第i轮训练的可能性。

在训练样本的损失参数相同或相近的条件下，由于训练次数反映了训练样本参与训练的总次数，因此，为了避免训练样本被过多地重复训练，可以通过设置训练样本的训练次数对于采样权重的影响，从而调整训练样本被过多地重复训练的可能性大小。

在一种可能实现的方式中，可以在利用训练次数确定采样权重时，可以将训练次数对采样权重造成的影响因素设置为：采样权重随着损失参数的增大而减小。

在两个训练样本的损失参数相同或相近的情况下，若两个训练样本的训练次数不同，若采样权重随着训练次数的增大而减小，则训练次数多的训练样本对应的采样权重相对于训练次数少的训练样本较小，在利用采样权重对训练样本进行采样的过程中，降低了训练样本被多次重复采样的可能性，从而从训练次数这一角度降低了训练样本被过多地重复训练的可能性。

由于在对网络模型进行训练的过程中，既不希望训练样本的样本难度太小，也不希望个别训练样本被太多地用于训练，因此，可以综合损失参数和训练次数这两个特征对于采样权重造成的影响，平衡训练样本的样本难度和训练次数在确定网络模型第i轮训练的训练样本过程中所起的作用。

在一种可能的实现方式中，在确定采样权重时，损失参数对采样权重造成的影响因素随损失参数的增大而增大；在确定采样权重时，训练次数对采样权重造成的影响因素随训练次数的增大而减小。用数学式可以表示为：

其中，w_i表示训练样本对应第i轮训练的采样权重，L_i表示训练样本的损失参数，N_i表示训练样本的训练次数，α为超参数，用于平衡L_i和N_i的相对权重。在损失参数相同的条件下，训练次数多的训练样本对应的采样权重小。在训练次数相同的条件下，损失参数大的训练样本对应的采样权重大。

可以理解的是，网络模型对于训练样本的训练过程可以理解为对训练样本中的特征进行拟合的过程。随着一个训练样本被多次用于网络模型的训练，网络模型逐渐拟合该训练样本中的特征，该训练样本对应的损失会逐渐减小，基于前i-1轮训练确定出的损失参数也会随之减小。对于网络模型已经拟合的训练样本的特征，可以减少该训练样本再次被训练的次数，避免网络模型过拟合问题。因此，随着训练样本的损失参数的减少，该训练样本的采样权重也随之减小，降低了网络模型过拟合问题。

由于采样权重会随着损失参数的增大而增大，且随着训练次数的增大而减小，因此，利用采样权重确定训练样本时，降低了样本集合中被多次重复训练的简单样本被采样的可能性，从而避免了简单样本被过多地重复训练。

S203:根据所述采样权重，从所述样本集合的训练样本中确定目标样本。

在确定出训练样本的采样权重后，可以根据该采样权重对样本集合中的训练样本进行采样，将采样到的目标样本用于网络模型第i轮训练。

在实际应用中，可以设定一个阈值，通过将训练样本的采样权重与该阈值进行比较，选出采样权重大于该阈值的训练样本作为目标样本。其中，阈值的设定可以通过生成随机数的方式确定，也可以是其他的设定方式，在此不做限定。

由于采样权重可以在确定训练样本时起到平衡训练次数和样本难度的作用，因此，通过采用权重确定网络模型第i轮训练所需的目标样本时，确定出的目标样本的难度既不会太小，也不会被过多地重复训练，从而避免了简单样本被过多地重复训练。

通过执行上述实施例提供的病灶影像样本确定方法，网络模型利用采样出的目标样本进行训练，提高了网络模型每一轮对于目标样本中与病灶区域有关的特征的学习质量，从而提高了网络模型对于病灶影像中病灶区域的识别性能。将训练好的网络模型应用于病灶影像识别任务，可以有效地提高对于病灶影像中病灶区域的识别准确度。

上述实施例提供的病灶影像样本确定方法，在训练用于识别病灶影像的网络模型时，采用的是根据病灶影像确定出的训练样本，在进行第i轮训练之前，可以确定训练样本的训练次数和根据前i-1轮训练所确定的损失参数。由于训练次数体现了训练样本在前i-1轮训练网络模型的总数，损失参数体现了前i-1轮中网络模型对该训练样本的识别程度，相当于体现了该训练样本的难度。若根据损失参数和训练次数可以确定训练样本对应第i轮训练的采样权重，该采样权重可以起到平衡训练次数和样本难度在确定训练样本时带来的影响。故通过采用权重确定第i轮训练所需的目标样本时，确定出的目标样本既不会难度太简单，也不会被重复训练过多，例如通过病灶影像确定的负样本中，特征简单的负样本被选中训练的次数有效降低。而且每一轮训练时都会依据历史训练信息动态调整各个训练样本的采样权重，从而提高了每一轮训练所确定训练样本的质量，避免了简单样本被过多地重复训练，为模型训练质量打下了基础，显著提高了网络模型对病灶影像的识别精度。

在病灶影像中，病灶所在区域一般远小于非病灶所在区域。因此，对于由病灶影像构建的样本集合，样本集合中的简单样本的数量往往多于困难样本，通过执行上述实施例提供的病灶影像样本确定方法可以解决简单样本被多次重复训练的问题。由于采样权重是基于训练样本的损失参数和训练次数这两个特征确定的，且采样权重随着损失参数的增大而增大。由于困难样本相较于简单样本的损失参数较大，困难样本的采样权重相较于简单样本较大，因此，样本集合中的困难样本被采样用于网络模型训练的可能性较大。

为了平衡被采样用于网络模型的目标样本中简单样本与困难样本所占比例，在一种可能实现的方式中，可以根据采样权重和平均占比确定训练样本对应第i轮训练的采样概率，再根据该采样概率，从样本集合中确定目标样本。其中，平均占比用于标识训练样本占样本集合中训练样本总体的比例。

由于采样权重的大小标识了训练样本被采样用于网络模型训练的可能性大小，平均占比标识了训练样本占样本集合中训练样本总体的比例，因此，若利用采样权重和平均占比可以确定训练样本对应第i轮训练的采样概率，该采样概率可以根据样本集合中训练样本总体的比例调整每个训练样本被采样用于网络模型训练的可能性大小，相当于起到了平衡样本集合中每个训练样本被采样为目标样本用于网络模型第i轮训练的作用，提高了每轮用于网络模型训练的训练样本的质量，提高了网络模型对于被采样的训练样本中与病灶区域有关特征的学习质量，提高了网络模型的训练质量，从而提高了网络模型对病灶影像的识别精度。

可以理解的是，样本集合中的训练样本是携带有标签的样本，例如，训练样本为包括胃癌细胞区域的胃部切片图像，其对应的标签可以为该胃部切片图像中胃癌细胞区域所在位置。由于数据的复杂性和人为标注因素等多方面原因，样本集合中可能存在携带有错误标签的训练样本。在样本难度和训练次数相同的条件下，相较于正确样本(携带有正确标签的训练样本)，错误样本(携带有错误标签的训练样本)的损失较大，其对应的损失参数也较大，且采样权重也较大。若利用采样权重对样本集合中训练样本进行采样时，由于错误样本的采样权重较大，错误样本容易被多次地采样用于网络模型的训练，导致网路模型对于错误样本中的特征过拟合，从而降低了网络模型对于病灶影像的识别精度。

若在确定了训练样本的采样权重的基础上，通过增加平均占比这一新的特征确定出训练样本的采样概率，并利用该采样概率确定网络模型第i轮训练的目标样本，可以调整样本集合中每一个训练样本被采样的可能性大小，避免了错误样本被过多地重复训练，从而降低了网络模型对样本集合中的错误样本过拟合，提高了网络模型对病灶影像的识别精度。

针对上述确定采样概率的过程，在一种可能的实施例中，可以根据采样权重确定训练样本对应第i轮训练的权重占比，并根据权重占比和平均占比确定训练样本对应第i轮训练的采样概率。其中，权重占比用于标识训练样本的采样权重占样本集合中训练样本总体的比例。用数学式可以表示为：

其中，π_i表示训练样本对应第i轮训练的采样概率，w_i表示表示训练样本对应第i轮训练的采样权重，n表示样本集合中训练样本的总数。上述第一项

表示对采样权重w_i进行归一化(exploitation)，标识了训练样本采样权重占样本集合中训练样本总体采样权重的比例；第二项

表示均匀采样(exploration)，即平均占比，标识了训练样本占样本集合中训练样本总体的比例；ε为超参数，用于平衡采样权重中的归一化部分(前述第一项)和均匀采样部分(前述第二项)。

上述超参数ε可以在0-1之间取任意值。通过超参数ε平衡训练样本采样权重占比和平均占比，调整了样本集合中训练样本被采样的可能性大小，即降低了采样权重较大的训练样本被采样的可能性，提高了采样权重较小的训练样本被采样的可能性，相当于缩小了样本集合中训练样本被采样可能性的差距。在实际应用中，可以设定一个阈值，将训练样本的采样概率与该阈值进行比较，将大于该阈值的训练样本用于网络模型第i轮的训练。

例如，假设样本集合中仅有两个训练样本，分别为训练样本A和训练样本B，超参数ε取为0.5，若网络模型第i-1轮训练之后，训练样本A的采样权重为0.1，训练样本B的采样权重为0.9，则训练样本A对应第i轮训练的采样概率为：

训练样本B对应第i轮训练的采样概率为：

由上述结果可以看到，训练样本A的采样概率相对于原采样权重有所提高，训练样本B的采样概率相对于原采样权重有所下降，训练样本A和训练样本B被采样的可能性的差距由原采样权重之间的差距0.8缩小至采样概率之间的差距0.4。

利用根据采样权重和平均占比确定的采样概率对样本集合中的训练样本进行采样，在降低简单样本被过多地重复训练的同时，还能够平衡样本集合中各个训练样本被采样用于网络模型训练的可能性，降低了网路模型过拟合样本集合中错误样本的概率，提高了用于网络模型训练的训练样本的质量，提高了网络模型对与病灶区域有关特征的学习质量，从而提高了网络模型对于病灶影像的识别精度。

可以理解的是，在网络模型有监督学习的训练场景中，训练样本可以根据对应的标签分为正样本和负样本。其中，正样本可以理解为与标签相关的训练样本，负样本可以理解为与标签无关的训练样本。例如，在对包括癌细胞区域的胃部切片图像进行识别的应用场景中，正样本可以为包括胃癌细胞区域的图像，负样本可以为不包括胃癌细胞区域的图像。

若用于训练网络模型的训练样本中包括正样本和负样本，且正样本与负样本的数量存在不均衡的情况，可以通过执行本申请实施例提供的病灶影像样本确定方法针对正样本或负样本所构成的样本集合进行采样，用于提高网络模型对病灶影像的识别精度。

对于不同的应用场景和病灶影像样本确定任务，可以对训练样本进行预处理，以提高网络模型对训练样本的学习速度。在一种可能的实现方式中，样本集合中的训练样本为通过对待处理图像生成候选框的方式确定的。

其中，候选框(Region of Interest,ROI)标识了图像中感兴趣的区域，即图像中待识别物体所在的区域。生成候选框的方式可以有很多种，例如，基于规则的方式，或者，基于区域生成网络(Region Proposal Network,RPN)的方式等等，在此不做限定。

基于上述，通过对待处理图像生成候选框的方式确定的训练样本中，包括病灶区域的训练样本为正样本，不包括病灶区域的训练样本为负样本。例如，检测肺部CT图像中的癌细胞区域，可以对肺部CT图像利用基于规则的方式确定用于网络模型训练的训练样本，其中，包括肺结节区域的训练样本为正样本，不包括肺结节区域的训练样本为负样本。

为了更好地理解上述实施例提供的病灶影像样本确定方法，下面以检测肺部CT图像中肺结节的应用场景作为示例进行介绍。

在肺部CT检测中，一般会产生100多张连续的扫描帧，而肺结节通常只会出现在一或两张图像上，而且肺结节区域远远小于肺部CT图像大小。对肺部CT通过生成候选框的方式生成训练样本，将包括肺结节区域的训练样本设定为正样本，不包括肺结节区域的训练样本设定为负样本。在该应用场景中，正样本的数量远远小于负样本的数量，因此，保留正样本，并通过执行本申请实施例提供的病灶影像样本确定方法对负样本(不包括肺结节区域的训练样本)进行采样，将采样到的负样本和正样本用于对网络模型的训练，避免负样本中的简单样本被过多地重复训练，以提高网络模型的训练质量。

如图3所示，网络模型为Fast-RCNN。Fast-RCNN可以根据候选框的位置和大小，从特征图中抽取出特征，然后对抽取合并后的特征进行分类和回归。其中，分类任务就是判断训练样本中是否包括肺结节；回归任务是对识别出包括肺结节的训练样本中的肺结节位置进行调整，使其能够更好地指示出目标区域(肺结节区域)。

在对Fast-RCNN进行每一轮训练前，对负样本中的训练样本进行采样。记每个训练样本为(x_i,y_i)，其中x_i表示候选区域，y_i表示训练样本的标签。

在Fast-RCNN完成第i-1轮训练后，若确定出训练样本的损失参数和训练次数为L_i和N_i，则确定训练样本的采样权重为w_i，从而，确定训练样本的采样概率为π_i，然后，利用该采样概率对样本集合中的负样本进行采样，将采样出的负样本与正样本一起用于网络模型第i轮的训练。

针对上文描述病灶影像样本确定方法，本申请实施例还提供了对应的病灶影像样本确定装置。

参见图4，图4为本申请实施例提供的一种病灶影像样本确定装置的结构示意图。如图4所示，该病灶影像样本确定装置400包括第一确定单元401、第二确定单元402和第三确定单元403：

所述第一确定单元401，用于在对网络模型进行第i轮训练前，确定样本集合中训练样本的损失参数和训练次数；所述网络模型用于识别病灶影像，所述训练样本是根据病灶影像确定的，所述损失参数是根据前i-1轮训练确定的；

所述第二确定单元402，用于根据所述损失参数和所述训练次数确定所述训练样本对应第i轮训练的采样权重；

所述第三确定单元403，用于根据所述采样权重，从所述样本集合的训练样本中确定目标样本；所述目标样本用于对所述网络模型进行第i轮训练。

其中，在确定所述采样权重时，所述损失参数对所述采样权重造成的影响因素随所述损失参数的增大而增大；

在确定所述采样权重时，所述训练次数对所述采样权重造成的影响因素随所述训练次数的增大而减小。

其中，所述第三确定单元403，用于：

根据所述采样权重和平均占比确定所述训练样本对应第i轮训练的采样概率；所述平均占比用于标识所述训练样本占所述样本集合中训练样本总体的比例；

根据所述采样概率，从所述样本集合中确定目标样本。

其中，所述第三确定单元403，用于：

根据所述采样权重确定所述训练样本对应第i轮训练的权重占比；所述权重占比用于标识所述训练样本的采样权重占所述样本集合中训练样本总体的比例；

根据所述权重占比和所述平均占比确定所述训练样本对应第i轮训练的采样概率。

其中，所述样本集合中的训练样本为用于训练所述网络模型的正样本或负样本。

其中，所述样本集合中的训练样本为通过对待处理图像生成候选框的方式确定的。

上述实施例提供的病灶影像样本确定装置，在训练用于识别病灶影像的网络模型时，采用的是根据病灶影像确定出的训练样本，在进行第i轮训练之前，可以确定训练样本的训练次数和根据前i-1轮训练所确定的损失参数。由于训练次数体现了训练样本在前i-1轮训练网络模型的总数，损失参数体现了前i-1轮中网络模型对该训练样本的识别程度，相当于体现了该训练样本的难度。若根据损失参数和训练次数可以确定训练样本对应第i轮训练的采样权重，该采样权重可以起到平衡训练次数和样本难度在确定训练样本时带来的影响。故通过采用权重确定第i轮训练所需的目标样本时，确定出的目标样本既不会难度太简单，也不会被重复训练过多，例如通过病灶影像确定的负样本中，特征简单的负样本被选中训练的次数有效降低。而且每一轮训练时都会依据历史训练信息动态调整各个训练样本的采样权重，从而提高了每一轮训练所确定训练样本的质量，避免了简单样本被过多地重复训练，为模型训练质量打下了基础，显著提高了网络模型对病灶影像的识别精度。

本申请实施例还提供了一种用于病灶影像样本确定的服务器和终端设备，下面将从硬件实体化的角度对本申请实施例提供的用于病灶影像样本确定的服务器和终端设备进行介绍。

参见图5，图5是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作系统1441，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图5所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

可选的，CPU 1422还可以执行本申请实施例中病灶影像样本确定方法任一具体实现方式的方法步骤。

针对上文描述的病灶影像样本确定方法，本申请实施例还提供了一种用于病灶影像样本确定的终端设备，以使上述病灶影像样本确定方法在实际中实现以及应用。

参见图6，图6为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称：Personal DigitalAssistant，英文缩写：PDA)等任意终端设备：

图6示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图6，该终端包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解，图6中示出的平板电脑结构并不构成对平板电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对平板电脑的各个构成部件进行具体的介绍：

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1580是终端的控制中心，利用各种接口和线路连接整个平板电脑的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行平板电脑的各种功能和处理数据，从而对平板电脑进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1580中。

在本申请实施例中，该终端所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的病灶影像样本确定方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的病灶影像样本确定方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种病灶影像样本确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在确定所述采样权重时，所述损失参数对所述采样权重造成的影响因素随所述损失参数的增大而增大；

3.根据权利要求1所述的方法，其特征在于，所述根据所述采样权重，从所述样本集合中确定目标样本，包括：

根据所述采样概率，从所述样本集合中确定目标样本。

4.根据权利要求3所述的方法，其特征在于，所述根据所述采样权重和平均占比确定所述训练样本对应第i轮训练的采样概率，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述样本集合中的训练样本为用于训练所述网络模型的正样本或负样本。

6.根据权利要求1-4任意一项所述的方法，其特征在于，所述样本集合中的训练样本为通过对待处理图像生成候选框的方式确定的。

7.一种病灶影像样本确定装置，其特征在于，所述装置包括第一确定单元、第二确定单元和第三确定单元：

8.根据权利要求7所述的装置，其特征在于，在确定所述采样权重时，所述损失参数对所述采样权重造成的影响因素随所述损失参数的增大而增大；

9.根据权利要求7所述的装置，其特征在于，所述第三确定单元，用于：

根据所述采样概率，从所述样本集合中确定目标样本。

10.根据权利要求9所述的装置，其特征在于，所述第三确定单元，用于：

11.根据权利要求7-10任意一项所述的装置，其特征在于，所述样本集合中的训练样本为用于训练所述网络模型的正样本或负样本。

12.根据权利要求7-10任意一项所述的装置，其特征在于，所述样本集合中的训练样本为通过对待处理图像生成候选框的方式确定的。

13.一种用于病灶影像样本确定设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-6任意一项所述的方法。