CN110059744B

CN110059744B - 训练神经网络的方法、图像处理的方法、设备及存储介质

Info

Publication number: CN110059744B
Application number: CN201910304564.7A
Authority: CN
Inventors: 边成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2022-10-25
Anticipated expiration: 2039-04-16
Also published as: CN110059744A

Abstract

本申请公开了一种训练神经网络的方法、图像处理的方法、设备及存储介质，属于机器学习技术领域。训练神经网络的方法包括：将密集特征进行局部像素加权和全局通道加权，得到自适应密集特征；基于自适应密集特征进行对抗训练，得到对抗损失，基于对抗损失更新初始神经网络的参数，直至得到满足要求的目标神经网络。图像处理的方法包括：基于目标神经网络对目标图像进行处理。基于源域图像和目标域图像的所有层，提取密集特征，充分利用了网络底层和高层的特征，避免丢失重要特征。将密集特征进行局部像素加权和全局通道加权，得到的自适应密集特征代表性更强，提高用于图像处理的神经网络的训练精度，提高基于目标神经网络进行图像处理的效果。

Description

训练神经网络的方法、图像处理的方法、设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种训练神经网络的方法、图像处理的方法、设备及存储介质。

背景技术

目前，随着深度学习的发展，衍生出越来越多的神经网络用于图像处理。当图像来自不同设备时，由于设备厂商的不同，得到的图像分布也不同。在图像处理过程中，对来自一个设备的图像进行精心标注，将通过该标注训练所获得的神经网络用于处理另一个设备的图像时会造成图像处理效果的大幅度下降。因此，如何训练神经网络以及如何基于训练得到的神经网络进行图像处理，是保证跨设备图像的图像处理效果稳定的关键。

相关技术在训练用于图像处理的神经网络的过程中，从源域图像和目标域图像的倒数第一个和第二个层中提取图像特征，将图像特征赋予相同的权重。然后将提取的图像特征输入域适应模块进行对抗训练，获得神经网络。

在实现本申请的过程中，发明人发现相关技术至少存在以下问题：

相关技术中，在训练用于图像处理的神经网络过程中，仅从源域图像和目标域图像的倒数两层提取图像特征，可能会丢失部分重要的特征。此外，将图像特征赋予相同的权重，可能会降低用于图像处理的神经网络的训练精度，进而降低基于训练得到的神经网络进行图像处理的效果。

发明内容

本申请实施例提供了一种训练神经网络的方法、图像处理的方法、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种训练神经网络的方法，所述方法包括：

获取对初始神经网络进行训练的训练集和测试集，所述训练集中包括多张源域图像，所述测试集中包括多张目标域图像；

基于所述初始神经网络获取第一源域图像的密集特征和第一目标域图像的密集特征，所述第一源域图像为所述训练集的子集所包括的图像，所述第一目标域图像为所述测试集的子集所包括的图像；

对所述第一源域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一源域图像的自适应密集特征，对所述第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一目标域图像的自适应密集特征；

基于所述第一源域图像的自适应密集特征和所述第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，基于得到的对抗损失更新所述初始神经网络的参数，直至得到满足要求的目标神经网络。

还提供了一种图像处理的方法，所述方法包括：

获取待处理的目标图像；

基于上述训练得到的目标神经网络对所述目标图像进行处理。

另一方面，提供了一种训练神经网络的装置，所述装置包括：

第一获取模块，用于获取对初始神经网络进行训练的训练集和测试集，所述训练集中包括多张源域图像，所述测试集中包括多张目标域图像；

第二获取模块，用于基于所述初始神经网络获取第一源域图像的密集特征和第一目标域图像的密集特征，所述第一源域图像为所述训练集的子集所包括的图像，所述第一目标域图像为所述测试集的子集所包括的图像；

加权模块，用于对所述第一源域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一源域图像的自适应密集特征，对所述第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一目标域图像的自适应密集特征；

训练模块，用于基于所述第一源域图像的自适应密集特征和所述第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，基于得到的对抗损失更新所述初始神经网络的参数，直至得到满足要求的目标神经网络。

还提供了一种图像处理的装置，所述装置包括：

获取模块，用于获取待处理的目标图像；

处理模块，用于基于训练得到的目标神经网络对所述目标图像进行处理。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令在被所述处理器执行时实现上述任一所述的训练神经网络的方法，或上述任一所述的图像处理的方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令在被执行时实现上述任一所述的训练神经网络的方法，或上述任一所述的图像处理的方法。

本申请实施例提供的技术方案至少带来如下有益效果：

在训练用于图像处理的神经网络的过程中，基于源域图像和目标域图像的所有层，提取源域图像和目标域图像的密集特征，充分利用了网络底层和高层的特征，避免丢失部分重要的特征。将源域图像和目标域图像的密集特征进行局部像素加权和全局通道加权，获取源域图像的自适应密集特征和目标域图像的自适应密集特征，得到的自适应密集特征代表性更强，能够提高用于图像处理的目标神经网络的训练精度，进而提高基于目标神经网络进行图像处理的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种训练神经网络的方法流程图；

图3是本申请实施例提供的一种基于神经网络进行图像处理的效果示意图；

图4是本申请实施例提供的一种神经网络训练过程的框架图；

图5是本申请实施例提供的一种图像处理的方法流程图；

图6是本申请实施例提供的一种训练神经网络的装置示意图；

图7是本申请实施例提供的一种训练神经网络的装置示意图；

图8是本申请实施例提供的一种图像处理的装置示意图；

图9是本申请实施例提供的一种服务器的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对此，本申请实施例提供了一种训练神经网络的方法和一种图像处理的方法，请参考图1，其示出了本申请实施例提供的方法实施环境的示意图。该实施环境可以包括：至少一个终端11和服务器12。

其中，终端11安装有基于神经网络的图像处理系统，当该图像处理系统启动后，可应用本申请实施例提供的方法训练神经网络以及基于训练得到的神经网络进行图像处理。终端11可以采集待处理的目标图像，将该待处理的目标图像发送至服务器12上进行存储。当然，终端11上也可以待处理的目标图像进行存储。从而在需要对目标图像进行处理时，采用本申请实施例提供的方法训练神经网络，然后基于训练得到的神经网络进行图像处理。

可选地，终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(PersonalComputer，个人计算机)、手机、智能手机、PDA(Personal Digital Assistant，个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述终端11和服务器12仅为举例，其他现有的或今后可能出现的终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供了一种训练神经网络的方法，以该方法基于光学相干断层扫描(OCT)多设备采集的图像训练神经网络为例。如图2所示，本申请实施例提供的方法可以由终端实现，包括如下几个步骤：

在步骤201中，获取对初始神经网络进行训练的训练集和测试集，训练集中包括多张源域图像，测试集中包括多张目标域图像。

光学相干断层扫描(OCT)是近年来一种新的成像技术，能够对生物组织的各个方面进行成像，如结构信息、血流、弹性参数等。目前现有对眼后段(眼底)OCT的算法研究包括视网膜层的分割、病灶的检测、疾病的分类、转诊级别分类等。在实际应用场景中由于OCT设备厂商的不同，不同设备得到OCT图像也不同。因此在一个设备上得到的图像即使医生进行精心标注，通过该标注训练所获得的神经网络用于另一个设备的图像的语义分割时也会造成性能的大幅度下降。

例如，在脉络分割中，假如训练图像和测试图像来自同一个设备，基于神经网络的图像处理的效果良好，如图3(1)所示；假如训练图像和测试图像来自不同的设备，基于神经网络的图像处理的效果差强人意，如图3(2)所示。训练图像和测试图像来自不同的设备，就会导致训练图像和测试图像的分布不一致，从而在使用神经网络对图像进行处理的过程中，出现图像域迁移的现象。

本申请实施例基于来自不同OCT设备的图像，提供一种训练神经网络的方法，以解决图像域迁移的问题。

初始神经网络可以是用于图像处理的各种类型的神经网络，比如Unet网络、PSPNet网络、DeepLabv3网络和DenseNet网络等。在初始神经网络进行训练之前，可以对初始神经网络的参数进行初始化。例如，将初始神经网络的所有模块均采用方差为0.01，均值为0的高斯分布进行初始化。

在对初始神经网络训练之前，需要获取用于训练的训练集和测试集。训练集中包括多张源域图像，测试集中包括多张目标域图像。源域图像和目标域图像是指来自不同设备的图像，一般来说，源域图像是指带有标注信息的图像，目标域图像是指不带有标注信息的图像。标注信息可以表示图像的信息，例如，图像语义、图像类别等。例如，根据生产厂商的不同，OCT设备可以分为第一OCT设备和第二OCT设备。若第二OCT设备采集的图像带有表示图像语义的标注信息，第一OCT设备采集的图像不带有任何标注信息，则将第二OCT设备采集的图像作为源域图像，将第一OCT设备采集的图像作为目标域图像。

获取到训练集和测试集之后，将训练集中的所有源域图像和测试集中的所有目标域图像进行缩放，使其具有统一的长宽尺寸。例如，将所有源域图像和目标域图进行缩放，使其长宽尺寸统一为630×496(像素)。然后将所有源域图像和目标域图像进行随机加强处理，以提高神经网络的泛化能力。神经网络的泛化能力是指神经网络对新鲜样本的适应能力，泛化能力越强，神经网络对新鲜样本的适应能力越强。

可选地，随机加强处理包括标准化、随机旋转、随机水平翻转、随机弹性形变、添加噪声等的一种或多种处理。其中，标准化的处理可以是将每张待处理的目标图像减去图像均值，然后再除以图像方差。随机旋转的角度范围可以是-30°～+30°。添加的噪声可以是斑点噪声等。

在步骤202中，基于初始神经网络获取第一源域图像的密集特征和第一目标域图像的密集特征，第一源域图像为训练集的子集所包括的图像，第一目标域图像为测试集的子集所包括的图像。

第一源域图像为训练集的子集所包括的图像，第一目标域图像为测试集的子集包括的图像。一般来说，训练集的子集包含的图像数量远小于训练集包含的图像数量，训练集中包含多个子集。测试集的子集包含的图像数量远小于测试集包含的图像数量，测试集中包含多个子集。

基于初始神经网络对第一源域图像和第一目标域图像进行分割，得到第一源域图像的图像特征和第一目标域图像的图像特征，此时得到的图像特征，为多个层次的图像特征，各个层次的图像特征具有不同的长度、宽度和通道数。

对第一源域图像的图像特征进行上采样和连接处理，得到第一源域图像的密集特征；对第一目标域图像的图像特征进行上采样和连接处理，得到第一目标域图像的密集特征，如图4的纵向域适应路径所示。上采样是指将得到的多个层次的图像特征的长宽尺寸统一还原为原图的长宽尺寸，例如630×496(像素)。将经过上采样的多个层次的图像特征在通道维度上连接在一起即可得到密集特征，此处的连接包括将具有统一长宽尺寸的多个层次的图像特征进行通道数叠加，例如，若每个层次的图像特征的通道数均为1，则N个层次的图像特征进行通道数叠加，可以得到通道数为N的图像特征，这种具有统一长宽尺寸、通道数为N的图像特征即为密集特征。这种通过上采样和连接处理得到的密集特征，充分利用了网络所有层的特征，避免丢失部分重要的特征。

如图4的横向分割路径所示，在得到第一源域图像的图像特征之后，基于第一源域图像的图像特征获取第一源域图像的第三预测结果，将第三预测结果与第一源域图像的第三标注计算交叉熵损失。可选地，可以为交叉熵损失设置权重。例如，将交叉熵损失的权重设置为1。其中，交叉熵损失用来评估第一源域图像的图像特征与第一源域图像的第三标注的差异情况，交叉熵损失越小，说明第一源域图像的图像特征的分割结果越好。

可选地，第三标注指的是人工对第一源域图像的标注，第三标注用来标识第一源域图像的处理结果。例如，为第二OCT设备采集的图像进行人工标注，人工标注用来标识视网膜层中各个脉络的分割结果。

在步骤203中，对第一源域图像的密集特征进行局部像素加权和全局通道加权，得到第一源域图像的自适应密集特征，对第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到第一目标域图像的自适应密集特征。

将第一源域图像的密集特征分别进行局部像素加权和全局通道加权，得到第一源域图像的局部像素加权特征和第一源域图像的全局通道加权特征。将第一源域图像的局部像素加权特征和第一源域图像的全局通道加权特征相加，得到第一源域图像的自适应密集特征。

将第一目标域图像的密集特征分别进行局部像素加权和全局通道加权，得到第一目标域图像的局部像素加权特征和第一目标域图像的全局通道加权特征。将第一目标域图像的局部像素加权特征和第一目标域图像的全局通道加权特征相加，得到第一目标域图像的自适应密集特征。

可选地，基于第一源域图像的密集特征和第一目标域图像的密集特征得到第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征，包括：获取注意力模型，如图4所示；基于注意力模型对第一源域图像的密集特征进行局部像素加权和全局通道加权，得到第一源域图像自适应密集特征；基于注意力模型对第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到第一目标域图像自适应密集特征。

第一源域图像的密集特征和第一目标域图像的密集特征均是三维特征，具有长度、宽度和通道数三个参数，将三个参数分别用H、W和C表示，将密集特征的尺寸用H×W×C表示。

在输入注意力模块之前，待处理的密集特征尺寸为H×W×C。基于注意力模型对密集特征进行局部像素加权，得到局部像素加权特征的过程可以是，通过局部像素加权路径，得到尺寸为H×W×1的局部像素特征，将该局部像素特征在通道维度上复制C次，即可得到尺寸为H×W×C的局部像素加权特征。基于注意力模型对密集特征进行全局通道加权，得到全局通道加权特征的过程可以是，通过全局通道加权路径，得到尺寸为1×1×C的全局通道特征，将该全局通道特征乘以尺寸为H×W×C的待处理的密集特征，即可得到尺寸为H×W×C的全局通道加权特征。将尺寸为H×W×C的局部像素加权特征和尺寸为H×W×C的全局通道加权特征相加，即可得到自适应密集特征。

可选地，可以对获取的注意力模型进行初始化。例如，将注意力模型的所有模块均采用方差为0.01，均值为0的高斯分布进行初始化。

在步骤204中，基于第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，基于得到的对抗损失更新初始神经网络的参数，直至得到满足要求的目标神经网络。

基于第一源域图像的自适应密集特征获取第一源域图像的第一预测结果，将第一预测结果与第一源域图像的第一标注计算第一对抗损失。基于第一目标域图像的自适应密集特征获取第一目标域图像的第二预测结果，将第二预测结果与第一目标域图像的第二标注计算第二对抗损失。根据第一对抗损失和第二对抗损失，得到对抗损失。可选地，为第一对抗损失和第二对抗损失设置不同的权重，得到第一对抗损失和第二对抗损失加权后的对抗损失。例如，将第一对抗损失的权重设置成1，将第二对抗损失的权重设置为0.0005。此处将第二对抗损失的权重设置为比较小的数值，可以在训练过程中，使神经网络对目标域图像特征的学习更为稳定。

对抗损失用来评估对抗训练的效果，对抗损失越小，说明对抗训练的效果越好。对抗训练的效果越好，说明判别器越无法区分第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征，从而使得第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征进行对齐。

第一标注和第二标注是指生成的域标注，域标注是二维的，该域标注的长宽尺寸与源域图像和目标域图像的长宽尺寸相同，例如，第一标注和第二标注的长宽尺寸均为630×496(像素)。第一标注和第二标注根据类别不同，可以分为全为1的域标注和全为0的域标注。若域标注为全为1则代表图像来自源域，若域标注为全为0则代表图像来自目标域。

可选地，基于第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，包括：获取对抗网络模型，如图4所示；将第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征输入对抗网络模型，得到第一对抗损失与第二对抗损失。可选地，可以对获取的对抗网络模型进行初始化。例如，将对抗网络模型的所有模块均采用方差为0.01，均值为0的高斯分布进行初始化。

基于得到的对抗损失更新初始神经网络的参数，包括：

基于第一对抗损失、第二对抗损失与交叉熵损失更新初始神经网络的参数。

根据得到的第一对抗损失和第二对抗损失得到对抗损失，然后根据得到的对抗损失和交叉熵损失反向传播交替更新初始神经网络的参数、注意力模型的参数和对抗网络模型的参数，具体的更新过程如下：

固定注意力模型的参数和对抗网络模型的参数，根据得到的交叉熵损失反向传播更新初始神经网络的参数。

固定初始神经网络的参数，根据得到的对抗损失反向传播更新注意力模型的参数和对抗网络模型的参数。

可选地，在反向传播更新的过程中，利用梯度下降法求解神经网络、注意力模型和对抗网络模型中的卷积层参数和偏置参数。例如，采用基于Adam的梯度下降法求解卷积层参数和偏置参数。

在每轮更新之后，根据对抗损失和交叉熵损失判断训练是否结束，即确定是否得到满足要求的目标神经网络。若对抗损失和交叉熵损失满足终止条件，则停止训练，得到满足要求的目标神经网络；若对抗损失和交叉熵损失不满足终止条件，则返回步骤二，再次进行步骤二至步骤六，直至对抗损失和交叉熵损失满足终止条件或者迭代训练次数达到次数阈值，则得到满足要求的目标神经网络。

其中，对抗损失和交叉熵损失满足终止条件是指，对抗损失和交叉熵损失随着迭代训练次数的增加，对抗损失和交叉熵损失都逐渐减小，直至达到收敛。对抗损失和交叉熵损失都达到收敛是指，随着迭代训练次数的增加，在参考次数的训练结果中，对抗损失和交叉熵损失的波动范围均在参考阈值范围内。

例如，假设波动范围的参考阈值为10^-3，假设参考次数为10次。若对抗损失和交叉熵损失在10次的迭代训练结果中波动范围均不超过10^-3，则认为对抗损失和交叉熵损失都达到收敛。此时，对抗损失和交叉熵损失满足终止条件。迭代训练终止，初始神经网络、注意力模型和对抗网络模型都得到了最优参数，从而得到了满足要求的目标神经网络。

可选地，在基于训练集和测试集对初始神经网络进行迭代训练得到目标神经网络过程中，学习率的衰减方式为每20K次迭代以90％对学习率进行衰减。

在上述基于训练集和测试集对初始神经网络进行训练得到目标神经网络过程中，对第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征进行对抗学习。能够使得第一源域图像和第一目标域图像在像素级上越来越靠近，使得第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征的界限越来越模糊。令判别器无法区分第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征，从而解决域迁移的问题。另外，在训练神经网络的过程中，仅需要源域图像的标注信息而不需要目标域图像的标注信息，能够极大的减少在目标域获取标注信息所消耗的经济、时间开支。

在本申请实施例中，在训练用于图像处理的神经网络的过程中，基于源域图像和目标域图像的所有层，提取源域图像和目标域图像的密集特征，充分利用了网络底层和高层的特征，避免丢失部分重要的特征。将源域图像和目标域图像的密集特征进行局部像素加权和全局通道加权，获取源域图像的自适应密集特征和目标域图像的自适应密集特征，得到的自适应密集特征代表性更强，能够提高用于图像处理的目标神经网络的训练精度，进而提高基于目标神经网络进行图像处理的效果。

基于上述图1所示的实施环境，本申请实施例提供了一种图像处理的方法，以该方法应用于将光学相干断层扫描(OCT)多设备采集的图像进行语义分割的场景为例。如图5所示，本申请实施例提供的方法可以由终端实现，包括如下几个步骤：

在步骤501中，获取待处理的目标图像。

目标图像是指待处理的图像。可选地，获取待处理的目标图像，包括：获取待处理的初始图像，对待处理的初始图像进行随机加强处理，得到待处理的目标图像，随机加强处理包括标准化、随机旋转、随机水平翻转、随机弹性形变、添加噪声中的一种或多种处理。其中，待处理的初始图像可以是来自不同OCT设备的图像，经过对其进行随机加强处理，以提高神经网络的泛化能力。

本申请实施例中的图像处理的方法除了应用于对图像进行语义分割的场景中，还可以应用于其它图像处理的应用场景，例如对图像进行分类等，本申请实施例对应用场景不加以限定。

获取到待处理的目标图像之后，还可以将待处理的目标图像进行缩放，使其具有统一的长宽尺寸。例如，将待处理的目标图像进行缩放，使其长宽尺寸统一为630×496(像素)。后续针对该进行了缩放后的待处理的目标图像进行处理。

在步骤502中，基于训练得到的目标神经网络对目标图像进行处理。

目标神经网络是指能够对目标图像进行处理的神经网络。目标神经网络是基于训练集和测试集对初始神经网络进行训练得到的，训练神经网络的过程参见详见上述实施例中的步骤201-步骤204，这里不再赘述。

将进行了缩放后的待处理的目标图像输入目标神经网络，就可以得到目标图像的处理结果。例如，基于目标神经网络，对来自第一OCT设备的不带有任何标注信息的图像进行处理，可以得到效果很好的语义分割结果。

基于相同技术构思，参见图6，本申请实施例提供了一种训练神经网络的装置，该装置包括：

第一获取模块601，用于获取对初始神经网络进行训练的训练集和测试集，训练集中包括多张源域图像，测试集中包括多张目标域图像；

第二获取模块602，用于基于初始神经网络获取第一源域图像的密集特征和第一目标域图像的密集特征，第一源域图像为训练集的子集所包括的图像，第一目标域图像为测试集的子集所包括的图像；

加权模块603，用于对第一源域图像的密集特征进行局部像素加权和全局通道加权，得到第一源域图像的自适应密集特征，对第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到第一目标域图像的自适应密集特征；

训练模块604，用于基于第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，基于得到的对抗损失更新初始神经网络的参数，直至得到满足要求的目标神经网络。

可选地，第二获取模块602，用于基于初始神经网络对第一源域图像和第一目标域图像进行分割，得到第一源域图像的图像特征和第一目标域图像的图像特征；对第一源域图像的图像特征进行上采样和连接处理，得到第一源域图像的密集特征；对第一目标域图像的图像特征进行上采样和连接处理，得到第一目标域图像的密集特征。

可选地，训练模块604，用于基于第一源域图像的自适应密集特征获取第一源域图像的第一预测结果，将第一预测结果与第一源域图像的第一标注计算第一对抗损失；基于第一目标域图像的自适应密集特征获取第一目标域图像的第二预测结果，将第二预测结果与第一目标域图像的第二标注计算第二对抗损失。

可选地，训练模块604，还用于基于第一源域图像的图像特征获取第一源域图像的第三预测结果，将第三预测结果与第一源域图像的第三标注计算交叉熵损失。

可选地，训练模块604，用于基于第一对抗损失、第二对抗损失与交叉熵损失更新初始神经网络的参数。

可选地，参见图7，该装置还包括：

第三获取模块605，用于获取注意力模型；

加权模块603，用于基于注意力模型对第一源域图像的密集特征进行局部像素加权和全局通道加权，得到第一源域图像自适应密集特征；基于注意力模型对第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到第一目标域图像自适应密集特征。

可选地，参见图7，该装置还包括：

第四获取模块606，用于获取对抗网络模型；

训练模块604，用于将第一源域图像的自适应密集特征和第一目标域图像的自适应密集特征输入对抗网络模型，得到第一对抗损失与第二对抗损失。

参见图8，本申请实施例提供了一种图像处理的装置，该装置包括：

获取模块801，用于获取待处理的目标图像。

处理模块802，用于基于训练得到的目标神经网络对目标图像进行处理。

可选地，获取模块801，用于获取待处理的初始图像，对待处理的初始图像进行随机加强处理，得到待处理的目标图像，随机加强处理包括标准化、随机旋转、随机水平翻转、随机弹性形变、添加噪声中的一种或多种处理。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种训练神经网络或者图像处理的设备结构示意图，该设备可以为服务器，服务器可以是单独的服务器或集群服务器。具体来讲：

服务器包括中央处理单元(CPU)901、随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。服务器还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到系统总线905的输入/输出控制器910连接到中央处理单元901。基本输入/输出系统906还可以包括输入/输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为服务器提供非易失性存储。也就是说，大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本申请的各种实施例，服务器还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器可以通过连接在系统总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行本申请实施例提供的训练神经网络或者图像处理的方法的指令。

图10是本申请实施例提供的一种训练神经网络或者图像处理的设备的结构示意图。该设备可以为终端，例如可以是：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的训练神经网络或者图像处理的方法。

在一些实施例中，终端还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在终端的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端的前面板。接近传感器1016用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述任一种训练神经网络的方法，或者上述任一种图像处理的方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述任一种训练神经网络的方法，或者上述任一种图像处理的方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种训练神经网络的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述初始神经网络获取第一源域图像的密集特征和第一目标域图像的密集特征，包括：

基于所述初始神经网络对所述第一源域图像和所述第一目标域图像进行分割，得到所述第一源域图像的图像特征和所述第一目标域图像的图像特征；

对所述第一源域图像的图像特征进行上采样和连接处理，得到所述第一源域图像的密集特征；

对所述第一目标域图像的图像特征进行上采样和连接处理，得到所述第一目标域图像的密集特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一源域图像的自适应密集特征和所述第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，包括：

基于所述第一源域图像的自适应密集特征获取所述第一源域图像的第一预测结果，将所述第一预测结果与所述第一源域图像的第一标注计算第一对抗损失；

基于所述第一目标域图像的自适应密集特征获取所述第一目标域图像的第二预测结果，将所述第二预测结果与所述第一目标域图像的第二标注计算第二对抗损失。

4.根据权利要求3所述的方法，其特征在于，所述得到所述第一源域图像的图像特征之后，还包括：

基于所述第一源域图像的图像特征获取所述第一源域图像的第三预测结果，将所述第三预测结果与所述第一源域图像的第三标注计算交叉熵损失；

所述基于得到的对抗损失更新所述初始神经网络的参数，包括：

基于所述第一对抗损失、所述第二对抗损失与所述交叉熵损失更新所述初始神经网络的参数。

5.根据权利要求1-4任一所述的方法，其特征在于，所述对所述第一源域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一源域图像的自适应密集特征，对所述第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一目标域图像的自适应密集特征，包括：

获取注意力模型；

基于所述注意力模型对所述第一源域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一源域图像自适应密集特征；

基于所述注意力模型对所述第一目标域图像的密集特征进行局部像素加权和全局通道加权，得到所述第一目标域图像自适应密集特征。

6.根据权利要求1-4任一所述的方法，其特征在于，所述基于所述第一源域图像的自适应密集特征和所述第一目标域图像的自适应密集特征进行对抗训练，得到对抗损失，包括：

获取对抗网络模型，将所述第一源域图像的自适应密集特征和所述第一目标域图像的自适应密集特征输入所述对抗网络模型，得到第一对抗损失与第二对抗损失。

7.一种图像处理的方法，其特征在于，所述方法包括：

获取待处理的目标图像；

基于权利要求1-6任一所述的方法训练得到的目标神经网络对所述目标图像进行处理。

8.根据权利要求7所述的方法，其特征在于，所述获取待处理的目标图像，包括：

获取待处理的初始图像，对所述待处理的初始图像进行随机加强处理，得到待处理的目标图像，所述随机加强处理包括标准化、随机旋转、随机水平翻转、随机弹性形变、添加噪声中的一种或多种处理。

9.一种训练神经网络的装置，其特征在于，所述装置包括：

10.一种图像处理的装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的目标图像；

处理模块，用于基于权利要求1-6任一所述的方法训练得到的目标神经网络对所述目标图像进行处理。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令在被所述处理器执行时实现如权利要求1至6任一所述的训练神经网络的方法，或权利要求7-8任一所述的图像处理的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令在被执行时实现如权利要求1至6任一所述的训练神经网络的方法，或权利要求7-8任一所述的图像处理的方法。