CN110349147A

CN110349147A - 模型的训练方法、眼底黄斑区病变识别方法、装置及设备

Info

Publication number: CN110349147A
Application number: CN201910623973.3A
Authority: CN
Inventors: 龚丽君
Original assignee: Tencent Healthcare Shenzhen Co Ltd
Current assignee: Tencent Healthcare Shenzhen Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-18
Anticipated expiration: 2039-07-11
Also published as: CN110349147B

Abstract

本公开涉及图像识别技术领域，提供了一种目标识别模型的训练方法、装置、眼底黄斑区病变识别方法及装置，以及实现上述方法的电子设备。其中，该目标识别模型的训练方法包括：响获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。通过本技术方案训练的模型的目标识别准确率高。

Description

模型的训练方法、眼底黄斑区病变识别方法、装置及设备

技术领域

本公开涉及图像识别技术领域，具体而言，涉及一种目标识别模型的训练方法及装置、眼底黄斑区病变识别方法及装置，以及实现上述目标识别模型的训练方法和眼底黄斑区病变识别方法的电子设备。

背景技术

随着人工智能技术的不断发展，对图像中的目标进行识别的方式也越来多的采用机器学习算法完成。

在相关技术中，通过机器学习算法实现图像中目标识别的模型训练方案一般包括以下步骤：通过方向特征直方图(Histogram of Oriented Gradient,HOG，简称：HOG)、局部二值模式(Local Binary Pattern，简称：LBP)等方法将图像中的目标部分的特征提取出来得到目标特征，对目标特征进行人工标注之后，然后基于标注后的目标特征训练分类器模型。从而，将待识别图像输入训练后的分类器进行分类，达到识别图像中目标的目的。

然而，相关技术采用的目标识别方案的识别准确率有待提高。

需要说明的是，上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

本公开的目的在于提供一种目标识别模型的训练方法及装置、眼底黄斑区病变识别方法及装置，以及实现上述目标识别模型的训练方法和眼底黄斑区病变识别方法的电子设备，进而至少在一定程度上提高目标识别的准确率。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种目标识别模型的训练方法，包括：获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；以及，根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

在本公开的一些实施例中，基于前述方案，所述通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数，包括：通过所述训练集对所述目标识别模型的基础网络部分和第一分类网络部分进行第一训练；

确定所述第一训练的交叉熵损失函数为所述第一损失函数。

在本公开的一些实施例中，基于前述方案，所述通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数，包括：通过所述训练集对所述目标识别模型的基础网络部分和第二分类网络部分进行第二训练；

确定所述第二训练的均方差损失函数为所述第二损失函数。

在本公开的一些实施例中，基于前述方案，所述根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，包括：对所述第一损失函数和所述第二损失函数采用梯度下降方式迭代计算所述目标识别模型的模型参数；响应于所述第一损失值函数的损失值小于第一阈值，且所述第二损失函数的损失值小于第二阈值，获取所述基础网络部分的模型参数和所述第一分类网络部分的参数。

在本公开的一些实施例中，基于前述方案，所述基础网络部分包括卷积神经网络，所述第一分类网络部分包括第一全连接层，所述第二分类网络部分包括卷积层和第二全连接层。

在本公开的一些实施例中，基于前述方案，所述图像为包含黄斑区的眼底图像，所述识别目标为所述黄斑区，其中：所述获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集，包括：对于包含黄斑区的第一眼底图像，获取所述黄斑区在所述第一眼底图像中所处的位置信息；对所述第一眼底图像进行关于黄斑区病变的标记；确定标记后的第一眼底图像和所述位置信息为一组训练样本，得到所述训练集。

在本公开的一些实施例中，基于前述方案，所述图像为包含五官信息的人脸图像，所述识别目标为所述五官信息，其中：所述获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集，包括：对于包含五官信息的第二人脸图像，获取所述五官信息在所述第二人脸图像中所处的位置信息；对所述第二人脸进行身份标记；确定标记后的第二人脸和所述位置信息为一组训练样本，得到所述训练集。

根据本公开的一个方面，提供了一种目标识别模型的训练装置，包括：训练集确定模块，被配置为获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；第一损失函数获取模块，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；第二损失函数获取模块，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；以及，模型参数确定模块，被配置为根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

在本公开的一些实施例中，基于前述方案，上述第一损失函数获取模块，被具体配置为：通过所述训练集对所述目标识别模型的基础网络部分和第一分类网络部分进行第一训练；确定所述第一训练的交叉熵损失函数为所述第一损失函数。

在本公开的一些实施例中，基于前述方案，所上述第二损失函数获取模块，被具体配置为：通过所述训练集对所述目标识别模型的基础网络部分和第二分类网络部分进行第二训练；确定所述第二训练的均方差损失函数为所述第二损失函数。

在本公开的一些实施例中，基于前述方案，上述模型参数确定模块，被具体配置为：对所述第一损失函数和所述第二损失函数采用梯度下降方式迭代计算所述目标识别模型的模型参数；响应于所述第一损失值函数的损失值小于第一阈值，且所述第二损失函数的损失值小于第二阈值，获取所述基础网络部分的模型参数和所述第一分类网络部分的参数。

在本公开的一些实施例中，基于前述方案，所述图像为包含黄斑区的眼底图像，所述识别目标为所述黄斑区，其中：

上述训练集确定模块，被具体配置为：对于包含黄斑区的第一眼底图像，获取所述黄斑区在所述第一眼底图像中所处的位置信息；对所述第一眼底图像进行关于黄斑区病变的标记；确定标记后的第一眼底图像和所述位置信息为一组训练样本，得到所述训练集。

在本公开的一些实施例中，基于前述方案，所述图像为包含五官信息的人脸图像，所述识别目标为所述五官信息，其中：

上述训练集确定模块，被具体配置为：对于包含五官信息的第二人脸图像，获取所述五官信息在所述第二人脸图像中所处的位置信息；对所述第二人脸进行身份标记；确定标记后的第二人脸和所述位置信息为一组训练样本，得到所述训练集。

根据本公开的一个方面，提供了一种眼底黄斑区病变识别方法，包括：获取待识别的眼底图像；以及，将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据上述一个方面所述的目标识别模型的训练方法训练得到的。

根据本公开的一个方面，提供了一种眼底黄斑区病变识别装置，包括：眼底图像获取模块，被配置为获取待识别的眼底图像；以及，黄斑区病变识别模块，被配置为将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据上述一个方面所述的目标识别模型的训练方法训练得到的。

根据本公开的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的目标识别模型的训练方法。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的目标识别模型的训练方法。

由上述技术方案可知，本公开示例性实施例中的目标识别模型的训练方法、目标识别模型的训练装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的一些实施例所提供的技术方案中，获取识别目标在图像中的位置信息作为先验信息，并将整张图像和上述先验信息作为目标识别模型的训练集。由于训练集中包含整张图像和上述先验信息两方面信息，因此通过上述训练集训练目标识别模型，在使得模型学习识别目标的分类的同时，还学习识别目标在图像中的位置。鉴于上述两方面的学习确定模型参数，使得训练后的模型在目标识别过程中，同时考虑了整张图像信息和识别目标位置信息，有利于提升识别准确性。

本公开应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图；

图2示出本公开一示例性实施例中眼底图像的示意图；

图3示出本公开另一示例性实施例中眼底图像的示意图；

图4示出本公开一示例性实施例中目标识别模型的训练方法的流程示意图；

图5示出了本公开一示例性实施例中训练集的确定方法的流程示意图；

图6示出了本公开一示例性实施例中黄斑区位置信息的示意图；

图7示出了本公开一示例性另一实施例中目标识别模型的训练方法的流程示意图；

图8示出了本公开一示例性实施例中基础网络部分中模块(block)的结构示意图；

图9示出了本公开一示例性实施例中第一损失函数的确定方法的流程示意图；

图10示出了本公开一示例性实施例中第二损失函数的确定方法的流程示意图；

图11示出了本公开一示例性实施例中模型参数的确定方法的流程示意图；

图12示出了本公开一示例性实施例中眼底黄斑区病变识别方法的流程示意图；

图13示出了本公开另一示例性实施例中目标识别方法的流程示意图；

图14示出本公开一示例性实施例中目标识别模型的训练装置的结构示意图；

图15示出本公开一示例性实施例中眼底黄斑区病变识别装置的结构示意图；以及，

图16示出本公开示例性实施例中电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。

图1示出了可以应用本公开实施例的一种展示信息的处理方法及装置的示例性应用环境的系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等，服务器105还可以为云服务器。

本公开实施例所提供的展示信息的处理方法一般由服务器105执行，相应地，展示信息的处理装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的展示信息的处理方法也可以由终端设备101、102、103执行，相应的，展示信息的处理装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。

举例而言，在一种示例性实施例中，可以是服务器105获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集，通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数，通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数，根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。最终，可以将训练后的目标识别模型发送至终端设备101、102、103，终端设备101、102、103可以根据训练后的目标识别模型对图像中的目标进行识别。

其中，对图像的目标进行识别可用于疾病的确定，如，可以通过识别眼底图像中黄斑区来确定黄斑区的病变类型。还可以用于身份识别，如，通过识别人脸图像中五官来确定身份等。

在图像识别领域的相关技术中提供的目标识别方法中，目标特征是通过人为设计的通用图像特征来训练模型的，而没有考虑非通用图像特征、也没有采用图像中除目标之外的其他特征，导致根据相关技术确定的目标识别模型的识别准确率较低。

另外，相关技术中还提供以下方案来进行目标识别：

1、以确定黄斑区的病变类型为例进行说明：具体的，将包含黄斑区(即识别目标)的整张图像(如图2所示的眼底图像)输入至预训练后的深度神经网络来提取整张图像的特征。然而，基于整张图像的特征会对目标识别过程带来较多的干扰信息。

2、仍以确定黄斑区的病变类型为例进行说明：如图3所示，将眼底图像中的黄斑区30单独剪裁出来，将该部分单独输入深度神经网络来提取图像特征。然而，由于对黄斑区病变的类型确定过程中，重点关注黄斑区，还需观察整个眼底。可见，此方案导致眼底整体信息的损失，基于图像的局部特征不能全面的体现眼底特征会降低识别准确率，对黄斑区病变的类型确定造成不良影响。

针对相关技术中存在的上述确定，发明人提出来一种目标识别模型的训练方法及装置、目标识别方法及装置，以及实现上述方法的电子设备，至少在一定程度上克服现有的相关技术中所存在的缺陷。

图4示出本公开一示例性实施例中目标识别模型的训练方法的流程示意图。参考图4，该实施例提供的目标识别模型的训练方法，包括：

步骤S410，获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；

步骤S420，通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；

步骤S430，通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；以及，

步骤S440，根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

在图4所示实施例提供的技术方案中，获取识别目标在图像中的位置信息作为先验信息，并将整张图像和上述先验信息作为目标识别模型的训练集。由于训练集中包含整张图像和上述先验信息两方面信息，因此通过上述训练集训练目标识别模型，在使得模型学习识别目标的分类的同时，还学习识别目标在图像中的位置。鉴于上述两方面的学习确定模型参数，使得训练后的模型在目标识别过程中，同时考虑了整张图像信息和识别目标位置信息，有利于提升识别准确性。

以下对图4所示实施例的各个步骤的具体实施方式进行详细阐述：

在示例性的实施例中，图像识别领域中，对图像的目标进行识别可用于疾病的确定。例如，通过识别对眼底图像中黄斑区来确定黄斑区的病变类型。则步骤S410中所述的图像为包含黄斑区的眼底图像，所述地识别目标为黄斑区。

示例性的，图5示出了本公开一示例性实施例中训练集的确定方法的流程示意图。具体可以作为步骤S410的具体实施方式，参考图5，该方法包括步骤S510-步骤S530。

在步骤S510中，对于包含黄斑区的第一眼底图像，获取所述黄斑区在所述第一眼底图像中所处的位置信息。

在示例性的实施例中，眼底图像可以是利用专业眼底相机，拍摄眼球内部，得到眼球后内部组织的图像。其中，黄斑区是位于视网膜中央、视力最敏感的区域，负责视觉和色觉的细胞分布在此区域。本实施例涉及的黄斑区病变可以是年龄相关性黄斑变性(Age-related Macular Degeneration，简称：AMD)，也称作“老年黄斑变性”。更为具体的，基于临床研究中病变和治疗的不同，本实施例中将AMD分类为：干性AMD和湿性AMD。因此，本实施例中，在标记眼底图像训练样本时，可以标记为“无AMD”、“干性AMD”或“湿性AMD”。

在示例性的实施例中，对于收集到的海量眼底图像，确定每一眼底图像中黄斑区的位置坐标。例如，参考图6，以第一眼底图像60的一个顶点作为坐标原点O(0,0)，并可以以相交于此顶点的两条边所在的直线作为X轴和Y轴。便可以确定，黄斑区61在第一眼底图像60中的位置信息(x，y，h，w)。

在步骤S520中，对所述第一眼底图像进行关于黄斑区病变的标记。

在示例性的实施例中，使用来自多家医院眼科的3650张眼底图像，每张眼底图像经至少两个医生进行标注及审核，以确保训练样本的标记准确。示例性的，被标注为无AMD的图像为1500张，被标注为干性AMD图像为750张，以及，被标注为湿性AMD图像为1400张。

在步骤S530中，确定标记后的第一眼底图像和所述位置信息为一组训练样本，得到所述训练集。

根据图5所示实施例提供了一种用于黄斑区病变识别模型的训练集。另外，在示例性的实施例中，图像识别领域中，对图像的目标进行识别还可以用于身份识别。具体的，通过识别人脸图像中五官来确定身份。则步骤S410中所述的图像为包含五官信息的人脸图像，所述的识别目标为所述五官信息。进一步地，用于身份识别模型的训练集的确定方法如下：

步骤S1、对于包含五官信息的第二人脸图像，获取所述五官信息在所述第二人脸图像中所处的位置信息；步骤S2、对所述第二人脸进行身份标记；以及，步骤S3、确定标记后的第二人脸和所述位置信息为一组训练样本，得到所述训练集。

上述步骤S1-步骤S3的具体实施方式与上述图5所示实施例的具体实施方式相似，在此不再赘述。

本实施例提供的技术方案中，图7示出了本公开一示例性另一实施例中目标识别模型的训练方法的流程示意图。参考图7，可见本实施例采用的目标识别模型结构包括：基础网络部分70、第一分类网络部71和第二分类网络部72。

其中，在示例性的实施例中，基础网络部分70可采用卷积神经网络，如残差神经网络(Residual Neural Network，简称：ResNet)、稠密神经网络(Dense Neural Network，简称：DenseNet)或移动神经网络(Mobile Neural Network，简称：MobileNet)。其中，图7所示实施例以ResNet-50为例进行是理性说明。示例性的，表1示出了本实施例采用的ResNet-50网络结构。

表1

参考表1，ResNet-50网络结构中包括5个卷积层，其中，每个卷积层是可通过Conv2d函数实现。

具体的，以第一卷积层和第二卷积层为例进行介绍：第一卷积层的图像输出尺寸为256×256，第一卷积层对应的函数Conv1的参数为：卷积核大小为7x7，步长(stride)为2，输入图像的数据类型浮点型64。第二卷积层的图像输出尺寸为128×128，第二卷积层对应的函数Conv2_x包括3个模块(block)。其中，每个模块(block)的结构可如图8所示。

参考图8，模块(block)中三个参数层(weight layer)。其中，第一层和第三层的两个卷积核大小为1X1的过滤器(fliter)分别用于降低和升高特征维度，主要目的是为了减少参数的数量，从而减少计算量，且在降维之后可以更加有效、直观地进行数据的训练和特征提取。第二层中的卷积核大小为3X3过滤器(fliter)可以看作一个更小的输入输出维度的瓶颈。示例性的，模块(block)中经过每个参数层的卷积过滤之后都接有线性整流函数(Rectified Linear Unit,ReLU，简称：ReLU)层和Batch Normalization(批归一化)层。

在示例性的实施例中，继续参考图4，在确定训练集以及模型结构之后，执行模型训练步骤S420和步骤S430。需要说明的是，步骤S420和步骤S430可以是同时执行的。以下对步骤S420和步骤S430的具体实施方式进行分别说明：

在步骤S420，通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数。

示例性的，图9示出了本公开一示例性实施例中第一损失函数的确定方法的流程示意图。具体可以作为步骤S420的具体实施方式，参考图9，该方法包括步骤S910和步骤S920。

在步骤S910中，通过所述训练集对所述目标识别模型的基础网络部分和第一分类网络部分进行第一训练。

在示例性的实施例中，确定黄斑区病变的过程中，既需要对整个眼底图像进行观察，还需针对黄斑区进行观察，结合两方面信息有利于提升黄斑区病变的判断准确率。从而，本实施例中，结合参考图7，将图像和识别目标的位置信息(x，y，h，w)一起输入目标识别模型。其中，参考表1，卷积层Conv1，Conv2_x，……，Conv5_x为基础网络部分，连同在Conv5_x后接全连接层fc1层(集第一分类网络)，负责识别目标的分类。例如，黄斑区病变分类以及属于干AMD的概率、属于湿AMD的概率以及无AMD的概率。

在步骤S920中，确定所述第一训练的交叉熵损失函数为所述第一损失函数。

在示例性的实施例中，在步骤S910所述的训练过程中，利用交叉熵损失函数来优化网络参数。该损失函数表示网络预测值和真实值的误差，通过误差修正网络参数，从而使得网络能提取更符合特定任务的图像特征。

在步骤S430中，通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数。

示例性的，图10示出了本公开一示例性实施例中第二损失函数的确定方法的流程示意图。具体可以作为步骤S430的具体实施方式，参考图10，该方法包括：

步骤S1010，通过所述训练集对所述目标识别模型的基础网络部分和第二分类网络部分进行第二训练；以及，在步骤S1020中，确定所述第二训练的均方差损失函数为所述第二损失函数。

同前所述，在训练集方面：由于确定黄斑区病变的过程中，既需要对整个眼底图像进行观察，还需针对黄斑区进行观察，结合两方面信息有利于提升黄斑区病变的判断准确率。从而，本实施例中，结合参考图7，将图像和识别目标的位置信息(x，y，h，w)一起输入目标识别模型。

参考表1，在模型结构方面，Conv1，Conv2_x，……，Conv5_x为基础网络部分，连同在Conv5_x后接第二分类网络。具体的，上述第二分类网络包括：连接在Conv5_x之后连接Conv6_y,Conv7_y以及全连接层fc2层。其中，第二分类网络负责学习黄斑位置，全连接层fc2层作为特征向量feature vector输出黄斑位置坐标。

在示例性的实施例中，上述训练任务使用均方误差损失函数来学习。

在图10所示实施例提供的技术方案中，在基础网络部分ResNet-50上新增一个第二分类器分支，以用来学习黄斑区坐标。从而帮助提高基础网络在黄斑区的响应，从而提高目标识别的准确率。

在示例性的实施例中，继续参考图4，在步骤S440中，根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

示例性的，图11示出了本公开一示例性实施例中模型参数的确定方法的流程示意图。具体可以作为步骤S440的具体实施方式，参考图11，该方法包括步骤S1110和步骤S1120。

在步骤S1110中，对所述第一损失函数和所述第二损失函数采用梯度下降方式迭代计算所述目标识别模型的模型参数。

在示例性的实施例中，对上述第一损失函数和第二损失函数采用随机基于梯度下降法(Stochastic Gradient Descent，简称：SGD)，以求解神经网络模型的卷积模板参数w和偏置参数b。在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。

步骤S1120，响应于所述第一损失值函数的损失值小于第一阈值，且所述第二损失函数的损失值小于第二阈值，获取所述基础网络部分的模型参数和所述第一分类网络部分的参数。

在示例性的实施例中，本技术方案中上述两个损失函数共同作用于基础网络部分(Conv1，Conv2_x，……，Conv5_x)的模型参数。当第二训练的任务学习到最优的时候，Conv1，Conv2_x，……，Conv5_x也包含了黄斑位置的语义信息，有利于提高使黄斑区响应，进而提高网络对黄斑区的注意，从而提高目标识别准确率。

进而，在第一损失值函数的损失值小于第一阈值，且第二损失函数的损失值小于第二阈值时，获取当前基础网络部分70的模型参数和第一分类网络部分71的参数。从而，基于当前基础网络部分70的模型参数和第一分类网络部分71的参数进行目标识别，既能获得眼底全局信息，又能重点关注黄斑区，从而提高模型识别准确率，满足识别准确率的需求。

在示例性的实施例中，对于训练后的目标识别模型，可以基于训练集对其进行测试。示例性的，测试卷的确定方法与上述训练集的确定方法相同。

在示例性的实施例中，对于测试后的目标识别模型，可用于黄斑区病变的识别。示例性的，图12示出了本公开一示例性实施例中目标识别方法的流程示意图。参考图12，该方法包括：

步骤S1210，获取待识别的眼底图像；以及，步骤S1220，将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据权利要求1至5中任意一项所述的方法训练得到的。

在示例性的实施例中，参考图13对上述步骤进行解释说明：获取一待识别图像，例如，待识别眼底图像130。并通过前端A将眼底待识别眼底图像130上传至后端。其中，后端部署有本技术方案训练后目标识别模型。从而，后台的目标识别模型对接收到的待识别眼底图像130进行综合预测。最终，将预测结果131输出到前端B。示例性的，关于上述待识别眼底图像130，预测结果131为无AMD的概率为0.6％、干性AMD的概率为1.9％，以及湿性AMD的概率为97.5％。可见，根据本技术提供的基于先验信息的模型训练方法训练后的模型应用于目标识别，只需要用户输入待识别眼底图像，即可自动告诉地得到相应的AMD判断。从而，本技术可布局到各大小医院，社康，辅助医生缩短诊断时间，提高工作效率。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器，(包括GPU/CPU)执行的计算机程序。在该计算机程序被GPU/CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

以下通过图14介绍本公开的目标模型的训练装置实施例，可以用于执行本公开上述的目标模型的训练方法。

图14示出本公开示例性实施例中目标识别模型的训练装置的结构示意图。如图14所示，上述目标识别模型的训练装置1400包括：训练集确定模块1401、第一损失函数获取模块1402、第二损失函数获取模块1403以及模型参数确定模块1404。

其中，上述训练集确定模块1401，被配置为获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；上述第一损失函数获取模块1402，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；上述第二损失函数获取模块1403，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；以及，上述模型参数确定模块1404，被配置为根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

在本公开的一些实施例中，基于前述方案，上述第一损失函数获取模块1402，被具体配置为：通过所述训练集对所述目标识别模型的基础网络部分和第一分类网络部分进行第一训练；确定所述第一训练的交叉熵损失函数为所述第一损失函数。

在本公开的一些实施例中，基于前述方案，所上述第二损失函数获取模块1403，被具体配置为：通过所述训练集对所述目标识别模型的基础网络部分和第二分类网络部分进行第二训练；确定所述第二训练的均方差损失函数为所述第二损失函数。

在本公开的一些实施例中，基于前述方案，上述模型参数确定模块1404，被具体配置为：对所述第一损失函数和所述第二损失函数采用梯度下降方式迭代计算所述目标识别模型的模型参数；响应于所述第一损失值函数的损失值小于第一阈值，且所述第二损失函数的损失值小于第二阈值，获取所述基础网络部分的模型参数和所述第一分类网络部分的参数。

上述训练集确定模块1401，被具体配置为：对于包含黄斑区的第一眼底图像，获取所述黄斑区在所述第一眼底图像中所处的位置信息；对所述第一眼底图像进行关于黄斑区病变的标记；确定标记后的第一眼底图像和所述位置信息为一组训练样本，得到所述训练集。

上述训练集确定模块1401，被具体配置为：对于包含五官信息的第二人脸图像，获取所述五官信息在所述第二人脸图像中所处的位置信息；对所述第二人脸进行身份标记；确定标记后的第二人脸和所述位置信息为一组训练样本，得到所述训练集。

上述目标识别模型的训练装置中各单元的具体细节已经在图4至图11对应的目标识别模型的训练方法中进行了详细的描述，因此此处不再赘述。

以下通过图15介绍本公开的眼底黄斑区病变识别装置实施例，可以用于执行本公开上述的眼底黄斑区病变识别方法。

图15示出本公开一示例性实施例中眼底黄斑区病变识别装置的结构示意图。

如图15所示，上述眼底黄斑区病变识别装置1500包括：眼底图像获取模块1501，被配置为获取待识别的眼底图像；以及，黄斑区病变识别模块1502，被配置为将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据上述的目标识别模型的训练方法训练得到的。

上述眼底黄斑区病变识别装置中各单元的具体细节已经在图12对应的眼底黄斑区病变识别方法中进行了详细的描述，因此此处不再赘述。

图16示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图16示出的电子设备的计算机系统1600仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图16所示，计算机系统1600包括处理器1601，其中处理器1601又具体可以包括：图像处理单元(Graphics Processing Unit，简称：GPU)和中央处理单元(CentralProcessing Unit，简称：CPU)，其可以根据存储在只读存储器(Read-Only Memory，简称：ROM)1602中的程序或者从存储部分1608加载到随机访问存储器(Random Access Memory，简称：RAM)1603中的程序而执行各种适当的动作和处理。在RAM 1603中，还存储有系统操作所需的各种程序和数据。处理器1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output，简称：I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(Cathode Ray Tube，简称：CRT)、液晶显示器(Liquid Crystal Display，简称：LCD)等以及扬声器等的输出部分1607；包括硬盘等的存储部分1608；以及包括诸如局域网(Local Area Network，简称：LAN)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入存储部分1608。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被处理器1601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

例如，所述的电子设备可以实现如图4中所示的：步骤S410，获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；步骤S420，通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；步骤S430，通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；以及，步骤S440，根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

又如，所述的电子设备可以实现如图5至图12中任意一图所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种目标识别模型的训练方法，其特征在于，所述方法包括：

获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；

通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；

通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；

根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

2.根据权利要求1所述的目标识别模型的训练方法，其特征在于，所述通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数，包括：

通过所述训练集对所述目标识别模型的基础网络部分和第一分类网络部分进行第一训练；

确定所述第一训练的交叉熵损失函数为所述第一损失函数。

3.根据权利要求2所述的目标识别模型的训练方法，其特征在于，所述通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数，包括：

通过所述训练集对所述目标识别模型的基础网络部分和第二分类网络部分进行第二训练；

确定所述第二训练的均方差损失函数为所述第二损失函数。

4.根据权利要求3所述的目标识别模型的训练方法，其特征在于，所述根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，包括：

对所述第一损失函数和所述第二损失函数采用梯度下降方式迭代计算所述目标识别模型的模型参数；

响应于所述第一损失值函数的损失值小于第一阈值，且所述第二损失函数的损失值小于第二阈值，获取所述基础网络部分的模型参数和所述第一分类网络部分的参数。

5.根据权利要求4所述的目标识别模型的训练方法，其特征在于，所述基础网络部分包括卷积神经网络，所述第一分类网络部分包括第一全连接层，所述第二分类网络部分包括卷积层和第二全连接层。

6.根据权利要求1至3中任意一项所述的目标识别模型的训练方法，其特征在于，所述图像为包含黄斑区的眼底图像，所述识别目标为所述黄斑区，其中：

所述获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集，包括：

对于包含黄斑区的第一眼底图像，获取所述黄斑区在所述第一眼底图像中所处的位置信息；

对所述第一眼底图像进行关于黄斑区病变的标记；

确定标记后的第一眼底图像和所述位置信息为一组训练样本，得到所述训练集。

7.一种眼底黄斑区病变识别方法，其特征在于，所述方法包括：

获取待识别的眼底图像；

将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据权利要求1至6中任意一项所述的方法训练得到的。

8.一种目标识别模型的训练装置，其特征在于，所述装置包括：

训练集确定模块，被配置为获取识别目标在图像中的位置信息，并根据所述图像和所述位置信息确定所述目标识别模型的训练集；

第一损失函数获取模块，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标分类的第一损失函数；

第二损失函数获取模块，被配置为通过所述训练集训练所述目标识别模型获取关于识别目标在图像中位置的第二损失函数；

模型参数确定模块，被配置为根据所述第一损失函数和所述第二损失函数确定所述目标识别模型的模型参数，以完成所述目标识别模型的训练。

9.一种眼底黄斑区病变识别装置，其特征在于，所述装置包括：

眼底图像获取模块，被配置为获取待识别的眼底图像；

黄斑区病变识别模块，被配置为将所述眼底图像输出目标识别模型，根据所述目标识别模型的输出确定底黄斑区病变结果；其中，所述目标识别模型是根据权利要求1至6中任意一项所述的方法训练得到的。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任意一项所述的目标识别模型的训练方法，和实现如权利要求7中所述的眼底黄斑区病变识别方法。