CN111680697A - 实现领域自适应的方法、装置、电子设备及介质 - Google Patents
实现领域自适应的方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111680697A CN111680697A CN202010187988.2A CN202010187988A CN111680697A CN 111680697 A CN111680697 A CN 111680697A CN 202010187988 A CN202010187988 A CN 202010187988A CN 111680697 A CN111680697 A CN 111680697A
- Authority
- CN
- China
- Prior art keywords
- sample image
- loss function
- sample
- domain
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000006978 adaptation Effects 0.000 title claims description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 75
- 238000011478 gradient descent method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 123
- 238000012549 training Methods 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000002441 reversible effect Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 19
- 238000009826 distribution Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种实现领域自适应的方法、装置、电子设备及介质。其中,在基于预设的第一神经网络模型,对样本图像进行至少两个样本图像特征提取后,可以利用至少两个样本图像特征,得到至少两个难度因子,该难度因子为样本图像特征与目标图像特征之间的特征距离,并利用至少两个难度因子,获取损失函数,进而根据该损失函数以及随机梯度下降法,实现目标领域自适应。通过应用本申请的技术方案,可以利用原有的样本图像数据中的图像特征生成对应的难度因子,并根据难度因子的不同进行对应强度的特征对齐。从而使得神经网络模型无法区分源域样本和目标域样本,进而达到覆盖源域和目标域的特征表示的目的。从而实现神经网络模型的领域自适应。
Description
技术领域
本申请中涉及图像数据处理技术,尤其是一种实现领域自适应的方法、装置、电子设备及介质。
背景技术
近年来,随着神经网络近年来迅速发展,在图像分类、目标检测、图像分割等众多领域均取得了重大的突破,并成为了计算机视觉中最重要的技术之一。
相关技术中,现有的神经网络模型在不满足训练数据和测试数据同分布的情况下,在新域上的测试性能会有明显下降。这是因为神经网络模型是从已有的数据中学习数据特征,拟合得到的只有训练数据的规律,当训练好的学习模型部署到实际生产生活中时,其需要处理复杂的环境,包括训练数据中未出现的情景,此时已经训练好的模型性能会大打折扣。因此,使模型能在检测目标图像中保持良好的精准度至关重要。
因此,如何建立神经网络模型的无监督学习和领域自适应,是本领域技术人员需要解决的问题。
发明内容
本申请实施例提供一种实现领域自适应的方法、装置、电子设备及介质;本申请用于解决神经网络模型在实际应用场景中无法精确输出数据结果的问题。
其中,根据本申请实施例的一个方面,提供的一种实现领域自适应的方法,其特征在于,包括:
基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;
利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;
利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;
利用所述损失函数以及随机梯度下降法,实现目标领域自适应。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述至少两个样本图像特征,得到至少两个难度因子,包括:
获取所述至少两个目标图像特征,所述目标图像特征为与所述第一神经网络模型权重相同的神经网络提取的图像特征;
分别计算每个样本图像特征与目标图像特征之间的在希尔伯特内核空间的最大平均差异距离值,并将每个最大平均差异距离值作为对应的难度因子。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述至少两个难度因子,获取损失函数,包括:
基于所述难度因子,得到所述样本图像特征与所述目标图像特征对应的域偏移损失函数,域自适应对抗损失函数;
利用所述第一神经网络模型,得到预设的任务特定损失函数、;
基于所述任务特定损失函数、所述域偏移损失函数以及所述域自适应对抗损失函数,获取所述损失函数。
可选地,在基于本申请上述方法的另一个实施例中,在所述获取所述损失函数之后,还包括:
利用所述损失函数与样本数据,将所述样本图像与所述目标图像进行特征对齐;
利用特征对齐后的样本图像、样本数据与所述随机梯度下降法,对所述第一神经网络模型进行反向训练,得到第二神经网络模型,所述样本数据对应于所述样本图像,所述反向训练对应于最小化损失损失函数;
基于所述第二神经网络模型,实现所述目标领域自适应。
可选地,在基于本申请上述方法的另一个实施例中,在所述得到至少两个难度因子之后,还包括:
基于所述样本图像对应的至少两个难度因子,获取所述样本图像对应的难度因子平均值;
根据每个样本图像对应的难度因子平均值的数值高低,对各样本图像进行样本难度排序;
基于所述排序后的各样本图像以及所述损失函数,实现所述目标领域自适应。
可选地,在基于本申请上述方法的另一个实施例中,所述基于排序后的各样本图像,实现所述目标领域自适应,包括:
选取所述排序后的各样本图像中,排序范围在预设范围的样本图像作为待更新样本图像;
利用所述待更新样本图像对所述第一神经网络模型进行反向训练,得到经过目标次数的更新后的所述待更新样本图像;
基于所述经过目标次数的更新后的所述待更新样本图像,实现所述目标领域自适应。
可选地,在基于本申请上述方法的另一个实施例中,利用如下公式得到难度因子,包括:
可选地,在基于本申请上述方法的另一个实施例中,在所述得到至少两个难度因子之后,还包括:
基于最小化特征距离的方法,利用难度因子,构建域偏移损失函数,其公式为:
Lγ=γ
基于预设的对抗学习框架,利用难度因子和域标签预测概率,构建特征对齐网络。;
其中,基于如下公式构建所述基于对抗学习的域自适应对抗损失:
Ladv(xs,xt)=Lfocal(p,y=1)+Lfocal(p,y=0),
其中
其中,y表示域标签,对于源域中的样本,该标签为1,否则为0。p图像分配为源域图像的概率。
根据本申请实施例的另一个方面,提供的一种实现领域自适应的装置,包括:
提取模块,被设置为基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;
生成模块,被设置为利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;
获取模块,被设置为利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;
实现模块,被设置为利用所述损失函数以及随机梯度下降法,实现目标领域自适应。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器显示以执行所述可执行指令从而完成上述任一所述实现领域自适应的方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述实现领域自适应的方法的操作。
本申请中,在基于预设的第一神经网络模型,对样本图像进行至少两个样本图像特征提取后,可以利用至少两个样本图像特征,得到至少两个难度因子,该难度因子为样本图像特征与目标图像特征之间的特征距离,并利用至少两个难度因子,获取损失函数,进而根据该损失函数以及随机梯度下降法,实现目标领域自适应。通过应用本申请的技术方案,可以利用原有的样本图像数据中的图像特征生成对应的难度因子,并根据难度因子的不同进行对应强度的特征对齐。从而使得神经网络模型无法区分源域样本和目标域样本,进而达到覆盖源域和目标域的特征表示的目的。从而实现神经网络模型的领域自适应。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种实现领域自适应的方法的示意图;
图2为本申请提出的又一种实现领域自适应的方法的示意图;
图3为本申请提出的另外一种实现领域自适应的方法的示意图;
图4为本申请提出的样本选取和更新的示意图;
图5为本申请提出的另外一种实现领域自适应的方法的总示意图;
图6为本申请提出的另外一种实现领域自适应的方法的总示意图;
图7为本申请提出的实现领域自适应的装置的结构示意图;
图8为本申请提出的实现领域自适应的电子设备结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1-图5来描述根据本申请示例性实施方式的用于进行实现领域自适应的方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种实现领域自适应的方法、装置、目标终端及介质。
图1示意性地示出了根据本申请实施方式的一种实现领域自适应的方法的流程示意图。如图1所示,该方法包括:
S101,基于预设的第一神经网络模型,对样本图像进行特征提取,获取样本图像对应的至少两个样本图像特征。
一种实施方式中,本申请中的神经网络模型可以为卷积神经网络模型。其中,卷积神经网络近年来迅速发展,在图像分类、目标检测、图像分割等众多领域均取得了重大的突破,越来越多的学术研究和相关应用被关注和开发,成为了计算机视觉中最重要的技术之一。
进一步的,目标检测近年来也随着卷积神经网络获得了十足的发展,例如区域卷积神经网络(RCNN),将深度卷积神经网络与选择性搜索算法相结合,解决了目标检测需要手工提取特征和计算量大的问题,并且性能上获得了很大的提升。从此,卷积神经网络被大量应用于目标检测任务。例如快速区域卷积神经网络、更快的区域卷积神经网络、单阶段目标检测器、无锚检测器等等方法,使得通用目标检测的性能不断提升。另外,对于图像分割而言,其包括语义分割和实例分割,均得益于卷积神经网络的发展。
这些技术的发展有效地证明了卷积神经网络的可行性,但是现有的神经网络在不满足训练数据和测试数据同分布的情况下,在新域上的测试性能会有明显下降。这是因为神经网络从已有的数据中学习数据特征,拟合得到的只有训练数据的规律,当训练好的深度学习模型部署到实际生产生活中时,其需要处理复杂的环境,包括训练数据中未出现的情景,此时已经训练好的模型性能会大打折扣。
更进一步说明,图像是现在非常重要的信息载体,图像分类可以应用在医学图像识别,人脸识别,车牌识别,行人检测,遥感图像分类等方面。传统的分类方法都基于两个基本假设:其一为训练样本和测试样本需要满足独立同分布的条件。再者,具有充足的训练数据。但是,在很多现实领域,这两个条件往往无法同时满足。如随着时间的推移,原先有效的训练数据可能会过期,与新来的测试数据产生语义、分布上的差异,而对当前场景下的数据进行标定又需要耗费大量的时间以及人力成本。现有机器学习和深度学习方法均需要大量且准确的数据,以实现需要海量的标注数据才能达到令人满意的效果。因此,如何实现一种领域自适应的方法,为本申请技术方案所要实现的目的。
首先,需要基于预设的第一神经网络模型,对样本图像进行特征提取。需要说明的是,获取样本图像对应的应该至少包含两个样本图像特征。另外,本申请也同样不对样本图像的数量进行限定,例如可以为一个,也可以为多个。
S102,利用至少两个样本图像特征,得到至少两个难度因子,难度因子为样本图像特征与目标图像特征之间的特征距离,样本图像特征与目标图像特征相对应。
进一步的,本申请中可以将样本图像放入至第一神经网络模型中的特征提取器,以计算该样本图像在不同阶段的卷积特征(样本图像特征)。并基于各个阶段的卷积特征,在每次迭代中,将特征变换到再生希尔伯特内核空间,计算源域和目标域之间的特征距离,并将其作为难度因子的值。需要说明的是,本申请在每个样本对上提取出的不同阶段特征计算一个难度因子,利用难度因子,自适应的表示该阶段特征的重要性,进而给对应的鉴别器分配不同的损失,进而进行不同程度的对齐。
S103,利用至少两个难度因子,获取损失函数,损失函数用于对齐样本图像特征以及目标图像特征。
进一步的,本申请可以通过计算样本图像特征与目标图像特征之间的特征距离,同时减小源域和目标域的分布差异,利用MMD构建域间的条件概率和边际概率以达到两个域在距离上的相近进而实现二者之间的特征对齐。同时,利用MMD构建的难度因子在基于对抗的特征对齐框架中,利用对抗的方式对特征进行对齐。
其中,在一种实施例中,由于无监督领域自适应问题作为迁移学习的核心,一种典型的方法是最小化领域差异,通过减小领域特征的分布差异来获得更鲁棒的特征,最经典的领域差异度量为最大平均差异,计算特征在再生希尔伯特内核空间的距离。相关技术中大多关注在样本图像在对间维度上进行特征对齐,这也会导致在很大程度上忽略了每个小批量的采样策略。另外,在模型的训练过程中,由于域移位和可迁移性在不同的卷积阶段之间不断变化。因此,在不考虑瞬时域偏移的情况下,在固定的学习约束下对齐特征往往不够精确。因此,本申请可以采用为使用对抗学习对源域和目标域的特征表示进行对齐,获得在源域和目标域不变的目的。
S104,基于损失函数以及随机梯度下降法,实现目标领域自适应。
进一步的,由于不同的计算机视觉任务采用不同的输出,但源域数据通过网络生成输出后,均与标签计算生成一个任务特定的损失,一般为分类/回归损失,最小化该损失以确保模型向更精确的输出更新。因此,在本申请中,源域数据通过深度学习模型获得输出后,与标签计算任务特定损失,并在反向传播过程中,将该损失传递到模型的各个参数。目标域数据由于没有标注数据,不进行任务特定损失计算和反向传播。具体地,任务特定损失、域自适应对抗损失与最小化域偏移损失同时进行误差的反向传播。进而得到可以实现抗学习框架的神经网络模型。进而实现目标领域自适应。
本申请中,在基于预设的第一神经网络模型,对样本图像进行至少两个样本图像特征提取后,可以利用至少两个样本图像特征,得到至少两个难度因子,该难度因子为样本图像特征与目标图像特征之间的特征距离,并利用至少两个难度因子,获取损失函数,进而根据该损失函数以及随机梯度下降法,实现目标领域自适应。通过应用本申请的技术方案,可以利用原有的样本图像数据中的图像特征生成对应的难度因子,并根据难度因子的不同进行对应强度的特征对齐。从而使得神经网络模型无法区分源域样本和目标域样本,进而达到覆盖源域和目标域的特征表示的目的。从而实现该神经网络模型的领域自适应。
在本申请另外一种可能的实施方式中,在S102(利用至少两个样本图像特征,得到至少两个难度因子)中,可以通过以下方式实现:
获取至少两个目标图像特征,目标图像特征为与第一神经网络模型权重相同的神经网络提取的图像特征;
分别计算每个样本图像特征与目标图像特征之间的在希尔伯特内核空间的最大平均差异距离值,并将每个最大平均差异距离值作为对应的难度因子。
进一步的,本申请中可以首先进行目标域的特征提取进而得到至少两个目标图像特征。需要说明的是,为了保证后续计算源域和目标域的特征距离的准确性,提取目标域的特征与提取源域的特征使用权重共享的卷积神经网络。
另外,在得到目标图像特征之后,即可以开始分别计算每个样本图像特征与目标图像特征之间的MMD值(最大平均差异距离值maximum mean discrepancy)。其中,MMD是一种度量在再生希博尔特空间中两个分布的距离,是一种核学习方法。通过寻找在样本空间中的连续函数,随机投影后,分别求这两个不同分布的样本在f上的函数值均值,对两个均值做差得到这两个分布对应于f的均值差(mean discrepancy)。目标是寻找一个f使得均值差有最大值,即MMD。最后,将MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,则认为相同,反之不同。因此也可以用来判断两个分布之间的相似程度。
具体来说,可以通过每个批次的源域和目标域的图像经过权重共享的卷积神经网络进行特征提取,保留不同并保留不同阶段的特征F1,F2,F3,…,Fn。并基于每个阶段中的最大平均差异(MMD)距离为每个样本对计算不同阶段特征的难度因子。
进一步的,难度因子计算基于再生希尔伯特内核空间(RKHS),通过将分布嵌入到无限维特征空间中来保留分布的所有统计特征,同时可以使用希尔伯特空间内积运算来比较分布。
例如,对于两个不同分布(以源域s和目标域T举例进行说明),MMD距离的计算如下:
表示再生希尔伯特空间单位球中的函数。将两个样本图像传入第一神经网络中的提取器中以计算其对应的样本图像特征,并基于该样本图像特征在每次学习迭代中计算瞬时MMD距离。
计算MMD距离的最终方程为:
在本申请又一种可能的实施方式中,在S103(利用至少两个难度因子以及随机梯度下降法,获取损失函数)中,可以通过以下方式实现:
基于所述难度因子,得到所述样本图像特征与所述目标图像特征对应的域偏移损失函数,域自适应对抗损失函数;
利用所述第一神经网络模型,得到预设的任务特定损失函数、;
基于所述任务特定损失函数、所述域偏移损失函数以及所述域自适应对抗损失函数,获取所述损失函数。
进一步的,本申请中的难度因子(MMD距离值)还可以用作神经网络模型中的域偏移损失函数。具体来说,若该阶段特征计算得到的难度因子为γ,域偏移损失函数如下表示:Lγ=γ。需要说明的是,由于通过不同阶段的特征均分别计算域偏移损失,在反向传播过程中,可以分别最小化多个域偏移损失,进而保证在不同阶段上拉近模型特征的距离。
再进一步的,由于不同的计算机视觉任务采用不同的输出,但源域数据通过网络生成输出后,均与标签计算生成一个任务特定的损失,一般为分类/回归损失,最小化该损失以确保神经网络模型向更精确的输出更新。因此,在本申请中,源域数据(样本图像数据)通过深度学习模型后,与标签计算任务特定损失,并在反向传播过程中,将该损失传递到该模型的各个参数。目标域数据(目标图像数据)由于没有标注数据,不进行任务特定损失计算和反向传播。
基于预设的对抗学习框架,利用难度因子和域标签预测概率,构建特征对齐网络。;
其中,基于如下公式构建所述基于对抗学习的域自适应对抗损失:
Ladv(xs,xt)=Lfocal(p,y=1)+Lfocal(p,y=0),
其中
其中,y表示域标签,对于源域中的样本,该标签为1,否则为0。p图像分配为源域图像的概率。
更进一步的,由于反向传播的总损失函数为任务特定损失函数、域偏移损失函数以及损失域自适应对抗损失函数的结合。因此一个批量样本的领域自适应深度学习模型的总损失函数为:
其中,n表示小批量中的样本数,Ltask表示源域中训练样本上的任务特定损失函数,Lγ表示有域偏移损失函数,Ladv表示领域自适应对抗损失函数,β是通过实验确定的正则化因子。一种实施方式中,例如对于目标检测FasterR-CNN的领域自适应,可以设定β=0.25。
可选的,在获取到损失函数之后,还可以进行如下步骤:
利用特征对齐后的样本图像、样本数据与随机梯度下降法,对第一神经网络模型进行反向训练,得到第二神经网络模型,样本数据对应于样本图像;
基于第二神经网络模型,实现目标领域自适应。
其中,第二神经网络模型同样可以为卷积神经网络模型(Convolutional NeuralNetworks,CNN)。其是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks),是深度学习的代表算法之一。卷积神经网络模型具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类。得益于CNN(神经网络模型)对图像的强大特征表征能力,其在图像分类、目标检测、语义分割等领域都取得了令人瞩目的效果。
进一步的,本申请在获取到包含任务特定损失函数、域偏移损失函数以及损失域自适应对抗损失函数的损失函数之后,即可以根据损失函数与样本数据,对该第一神经网络模型进行反向训练,进而得到优化各项参数之后的第二神经网络模型。并以该第二神经网络模型为基础,实现目标领域自适应。
进一步可选的,在本申请的一种实施方式中,在S102(得到至少两个难度因子)之后,还包括一种具体的实施方式,如图2所示,包括:
S201,基于预设的第一神经网络模型,对样本图像进行特征提取,获取样本图像对应的至少两个样本图像特征。
S202,利用至少两个样本图像特征,得到至少两个难度因子。
S203,利用至少两个难度因子,获取损失函数。
S204,基于样本图像对应的至少两个难度因子,获取样本图像对应的难度因子平均值。
本申请中,在得到样本图像对应的难度因子之后,该难度因子还可以作为样本图像的使用指数。可以理解的,该样本图像对应的难度因子数值越高,则代表该样本图像的使用指数越低。而该样本图像对应的难度因子数值越低,则代表该样本图像的使用指数越高。具体而言,本申请可以通过计算得到每个样本图像对应的难度因子平均值的方法,获取该样本图像对应的使用指数。例如,当样本图像A的难度因子数量为3个,且分别为3、5、10时,则该样本图像A的难度因子平均值为6。又或,当样本图像A的难度因子数量为5个,且分别为1、2、3、5、10时,则该样本图像A的难度因子平均值为7。
S205,根据每个样本图像对应的难度因子平均值的数值高低,对各样本图像进行样本难度排序。
进一步的,本申请在获取到各个样本图像对应的难度因子平均值之后,即可以对该各个样本图像进行样本难度(也即使用指数)的排序。例如,当存在样本图像B、样本图像C、样本图像D,且分别对应的难度因子平均值为10、15、20时,该各样本图像进行样本难度排序依序为样本图像B、样本图像C、样本图像D。或者该各样本图像进行样本难度排序依序为样本图像D、样本图像C、样本图像B。
可选的,本申请可以选取排序后的各样本图像中,排序范围在预设范围的样本图像作为待更新样本图像;
利用待更新样本图像对第一神经网络模型进行反向训练,实现目标领域自适应。
需要说明的是,本申请中不对预设范围做具体限定,例如可以为排名在前3名的范围。也可以为排名在前50%的范围。又或,可以为排名在后3名的范围。也可以为排名在后50%的范围。
更进一步的,由于对于某个批量中的样本图像来说,可以通过计算该批量样本图像中每个样本图像的难度均值,进而可以得到一个对应的样本难度。将该批量的样本与难度因子对应关系存储记录。一种实施方式中,可以选取从易到难的方式训练得到实现领域自适应的神经网络模型。
例如,当采用“从易到难”的方式训练自适应的神经网络模型时,在早期训练迭代中将以较高的优先级选择易于对其的样本图像,而在以后的训练迭代中选择较难的样本图像。一种可能的实施方式中,可以使用自适应的阈值在不同轮次选取不同的样本。并通过在样本难度因子上引入自适应阈值α定义采样策略。第一个轮次迭代所有样本图像,记录难度因子并排序,选取其中位数作为初始阈值,在下一个轮次时,难度因子小于α的样本对用于训练,大于α的样本只计算新的难度因子不进行反向传播。在每个迭代轮次后,将α更新为最后一个轮次记录样本因子的中位数。这意味着α在模型训练过程中一直在减小,并且可以在纯自我指导下将自动从简单到复杂选择更多样本。
其中,一种实施方式中,本申请中样本采样损失函数可以定义为:
其中v确定是否应该选择样本进行对齐。如果平均难度因子满足avg(γ)≤α则v=1,否则v=0。其中avg(·)表示自适应神经网络模型的平均难度值。
S206,基于排序后的各样本图像以及损失函数,实现目标领域自适应。
在此进一步进行举例说明,以图3所示,为计算每个样本图像与目标图像的难度因子的示意图。由图3可以看出,其将样本图像与目标图像输入至神经网络模型中时,可以在不同的阶段生成对应的样本图像特征G1、G2、G3,以及目标图像特征F1、F2、F3。进一步的,可以根据该样本图像特征与目标图像特征的特征距离,分别计算各自对应的MMD值(难度因子),并在计算得到对应的难度因子之后,基于预设的策略使得样本图像与目标图像进行特征对齐。并在对齐每一阶段的样本图像与目标图像之后,利用难度因子得到模型对应的损失函数。并利用该损失函数进行反向训练来继续优化该神经网络模型。进而得到对应的第二神经网络模型,从而实现基于该模型的目标领域自适应。
在得到至少两个难度因子之后,还包括:
基于最小化特征距离的方法,利用难度因子,构建域偏移损失函数,其公式为:
Lγ=γ
基于预设的对抗学习框架,利用难度因子和域标签预测概率,构建特征对齐网络。;
其中,基于如下公式构建所述基于对抗学习的域自适应对抗损失:
Ladv(xs,xt)=Lfocal(p,y=1)+Lfocal(p,y=0),
其中
其中,y表示域标签,对于源域中的样本,该标签为1,否则为0。p图像分配为源域图像的概率。
再进一步的,以图4进行举例说明,本申请在得到样本图像与目标图像对应的各个难度因子之后,同样可以通过计算其对应的难度因子平均值,来得到对应的样本图像的使用指数。进而对该各样本图像进行排序。进而得到对应的序号1样本图像、序号2样本图像、序号n-1样本图像、序号n样本图像,以及第二训练轮次的序号1样本图像、序号2样本图像等等。可以看出,本申请可以选择每次轮流轮次中,序号为1的样本图像作为待训练的样本图像(待更新样本图像),以使后续跟进该待更新样本图像对第一神经网络模型进行反向训练,实现目标领域自适应。
更进一步的,在此以图5以及图6进行举例说明,图5为本申请提出的实现神经网络模型的领域自适应的流程图。其中,首先可以基于预设的第一神经网络模型,对样本图像进行特征提取,从而获取样本图像对应的至少两个样本图像特征。另外,可以利用至少两个样本图像特征,得到至少两个难度因子,其中难度因子为样本图像特征与目标图像特征之间的特征距离,且样本图像特征与目标图像特征相对应。进一步的,对于得到难度因子的步骤中,可以通过获取至少两个目标图像特征,目标图像特征为与第一神经网络模型权重相同的神经网络提取的图像特征,并分别计算每个样本图像特征与目标图像特征之间的最大平均差异距离值,并将每个最大平均差异距离值作为对应的难度因子的方式得到。再者,本申请实施例可以利用至少两个难度因子以及随机梯度下降法,获取损失函数,需要说明的是,该损失函数用于对齐样本图像特征以及目标图像特征。以使后续利用损失函数,实现目标领域自适应。再进一步的,本申请中得到损失函数的方式可以基于难度因子以及随机梯度下降法,得到样本图像特征与目标图像特征对应的最小域损失函数,并利用最小域损失函数,得到任务特定损失函数以及域自适应对抗损失函数,从而最后将任务特定损失函数、最小域损失函数以及损失域自适应对抗损失函数,作为该损失函数。
本申请中,在基于预设的第一神经网络模型,对样本图像进行至少两个样本图像特征提取后,可以利用至少两个样本图像特征,得到至少两个难度因子,该难度因子为样本图像特征与目标图像特征之间的特征距离,并利用至少两个难度因子,获取损失函数,进而根据该损失函数以及随机梯度下降法,实现目标领域自适应。通过应用本申请的技术方案,可以利用原有的样本图像数据中的图像特征生成对应的难度因子,并根据难度因子的不同进行对应强度的特征对齐。从而使得神经网络模型无法区分源域样本和目标域样本,进而达到覆盖源域和目标域的特征表示的目的。从而实现该神经网络模型的领域自适应。
在本申请的另外一种实施方式中,如图7所示,本申请还提供一种实现领域自适应的装置。其中,该装置包括提取模块301,生成模块302,获取模块303,实现模块304,其中:
提取模块301,被设置为基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;
生成模块302,被设置为利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;
获取模块303,被设置为利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;
实现模块304,被设置为利用所述损失函数以及随机梯度下降法,实现目标领域自适应。
本申请中,在基于预设的第一神经网络模型,对样本图像进行至少两个样本图像特征提取后,可以利用至少两个样本图像特征,得到至少两个难度因子,该难度因子为样本图像特征与目标图像特征之间的特征距离,并利用至少两个难度因子,获取损失函数,进而根据该损失函数以及随机梯度下降法,实现目标领域自适应。通过应用本申请的技术方案,可以利用原有的样本图像数据中的图像特征生成对应的难度因子,并根据难度因子的不同进行对应强度的特征对齐。从而使得神经网络模型无法区分源域样本和目标域样本,进而达到覆盖源域和目标域的特征表示的目的。从而实现该神经网络模型的领域自适应。
在本申请的另一种实施方式中,生成模块302,还包括:
生成模块302,被配置为获取所述至少两个目标图像特征,所述目标图像特征为与所述第一神经网络模型权重相同的神经网络提取的图像特征;
生成模块302,被配置为分别计算每个样本图像特征与目标图像特征之间的在希尔伯特内核空间的最大平均差异距离值,并将每个最大平均差异距离值作为对应的难度因子。
在本申请的另一种实施方式中,获取模块303,还包括:
获取模块303,被配置为基于所述难度因子以及所述随机梯度下降法,域偏移损失函数,域自适应对抗损失函数;
获取模块303,被配置为利用所述第一神经网络模型,得到预设的任务特定损失函数;
获取模块303,被配置为基于所述任务特定损失函数、所述域偏移损失函数以及所述域自适应对抗损失函数,获取所述损失函数。
在本申请的另一种实施方式中,实现模块304,其中:
实现模块304,被配置为利用特征对齐后的样本图像、样本数据与所述随机梯度下降法,对所述第一神经网络模型进行反向训练,得到第二神经网络模型,所述样本数据对应于所述样本图像,所述反向训练对应于最小化损失损失函数;
实现模块304,被配置为基于所述第二神经网络模型,实现所述目标领域自适应。
在本申请的另一种实施方式中,实现模块304,其中:
实现模块304,被配置为基于所述样本图像对应的至少两个难度因子,获取所述样本图像对应的难度因子平均值;
实现模块304,被配置为根据每个样本图像对应的难度因子平均值的数值高低,对各样本图像进行样本难度排序;
实现模块304,被配置为基于所述排序后的各样本图像以及所述损失函数,实现所述目标领域自适应。
在本申请的另一种实施方式中,实现模块304,还包括:
实现模块304,被配置为选取所述排序后的各样本图像中,排序范围在预设范围的样本图像作为待更新样本图像;
实现模块304,被配置为利用所述待更新样本图像对所述第一神经网络模型进行反向训练,得到经过目标次数的更新后的所述待更新样本图像;
实现模块304,被配置为基于所述经过目标次数的更新后的所述待更新样本图像,实现所述目标领域自适应。
在本申请的另一种实施方式中,还包括,利用如下公式得到难度因子,包括:
在本申请的另一种实施方式中,在所述得到至少两个难度因子之后,还包括:
基于预设的对抗学习框架,构建所述第二神经网络模型来对齐特征表示;
其中,基于如下公式构建所述第二神经网络模型:
Ladv(xs,xt)=Lfocal(p,y=1)+Lfocal(p,y=0),
其中
y表示域标签,对于源域中的样本,该标签为1,否则为0。p图像分配为源域图像的概率。
图8是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备400可以包括以下一个或多个组件:处理器401和存储器402。
处理器401可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器401可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器401还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器402可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的互动特效标定方法。
在一些实施例中,电子设备400还可选包括有:外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地,外围设备包括:射频电路404、触摸显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。
外围设备接口403可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中,处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上;在一些其他实施例中,处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路404用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路404包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路404还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏405用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时,显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时,显示屏405还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏405可以为一个,设置电子设备400的前面板;在另一些实施例中,显示屏405可以为至少两个,分别设置在电子设备400的不同表面或呈折叠设计;在再一些实施例中,显示屏405可以是柔性显示屏,设置在电子设备400的弯曲表面上或折叠面上。甚至,显示屏405还可以设置成非矩形的不规则图形,也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件406用于采集图像或视频。可选地,摄像头组件406包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器401进行处理,或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路407还可以包括耳机插孔。
定位组件408用于定位电子设备400的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源409用于为电子设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于:加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。
加速度传感器411可以检测以电子设备400建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号,控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器412可以检测电子设备400的机体方向及转动角度,陀螺仪传感器412可以与加速度传感器411协同采集用户对电子设备400的3D动作。处理器401根据陀螺仪传感器412采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器413可以设置在电子设备400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在电子设备400的侧边框时,可以检测用户对电子设备400的握持信号,由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时,由处理器401根据用户对触摸显示屏405的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器414用于采集用户的指纹,由处理器401根据指纹传感器414采集到的指纹识别用户的身份,或者,由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器401授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置电子设备400的正面、背面或侧面。当电子设备400上设置有物理按键或厂商Logo时,指纹传感器414可以与物理按键或厂商Logo集成在一起。
光学传感器415用于采集环境光强度。在一个实施例中,处理器401可以根据光学传感器415采集的环境光强度,控制触摸显示屏405的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏405的显示亮度;当环境光强度较低时,调低触摸显示屏405的显示亮度。在另一个实施例中,处理器401还可以根据光学传感器415采集的环境光强度,动态调整摄像头组件406的拍摄参数。
接近传感器416,也称距离传感器,通常设置在电子设备400的前面板。接近传感器416用于采集用户与电子设备400的正面之间的距离。在一个实施例中,当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变小时,由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态;当接近传感器416检测到用户与电子设备400的正面之间的距离逐渐变大时,由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对电子设备400的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由电子设备400的处理器420执行以完成上述实现领域自适应的方法,该方法包括:基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;基于所述损失函数以及随机梯度下降法,实现目标领域自适应。可选地,上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。可选地,上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备400的处理器420执行,以完成上述实现领域自适应的方法,该方法包括:基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;基于所述损失函数以及随机梯度下降法,实现目标领域自适应。可选地,上述指令还可以由电子设备400的处理器420执行以完成上述示例性实施例中所涉及的其他步骤。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种实现领域自适应的方法,其特征在于,包括:
基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;
利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;
利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;
利用所述损失函数以及随机梯度下降法,实现目标领域自适应。
2.如权利要求1所述的方法,其特征在于,所述利用所述至少两个样本图像特征,得到至少两个难度因子,包括:
获取所述至少两个目标图像特征,所述目标图像特征为与所述第一神经网络模型权重相同的神经网络提取的图像特征;
分别计算每个样本图像特征与目标图像特征之间的在希尔伯特内核空间的最大平均差异距离值,并将每个最大平均差异距离值作为对应的难度因子。
3.如权利要求1或2所述的方法,其特征在于,所述利用所述至少两个难度因子,获取损失函数,包括:
基于所述难度因子,得到所述样本图像特征与所述目标图像特征对应的域偏移损失函数,域自适应对抗损失函数;
利用所述第一神经网络模型,得到预设的任务特定损失函数;
基于所述任务特定损失函数、所述域偏移损失函数以及所述域自适应对抗损失函数,获取所述损失函数。
4.如权利要求3所述的方法,其特征在于,在所述获取所述损失函数之后,还包括:
利用所述损失函数与样本数据,将所述样本图像与所述目标图像进行特征对齐;
利用特征对齐后的样本图像、样本数据与所述随机梯度下降法,对所述第一神经网络模型进行反向训练,得到第二神经网络模型,所述样本数据对应于所述样本图像,所述反向训练对应于最小化损失损失函数;
基于所述第二神经网络模型,实现所述目标领域自适应。
5.如权利要求1所述的方法,其特征在于,在所述得到至少两个难度因子之后,还包括:
基于所述样本图像对应的至少两个难度因子,获取所述样本图像对应的难度因子平均值;
根据每个样本图像对应的难度因子平均值的数值高低,对各样本图像进行样本难度排序;
基于所述排序后的各样本图像以及所述损失函数,实现所述目标领域自适应。
6.如权利要求5所述的方法,其特征在于,所述基于排序后的各样本图像,实现所述目标领域自适应,包括:
选取所述排序后的各样本图像中,排序范围在预设范围的样本图像作为待更新样本图像;
利用所述待更新样本图像对所述第一神经网络模型进行反向训练,得到经过目标次数的更新后的所述待更新样本图像;
基于所述经过目标次数的更新后的所述待更新样本图像,实现所述目标领域自适应。
9.一种实现领域自适应的装置,其特征在于,包括:
提取模块,被设置为基于预设的第一神经网络模型,对样本图像进行特征提取,获取所述样本图像对应的至少两个样本图像特征;
生成模块,被设置为利用所述至少两个样本图像特征,得到至少两个难度因子,所述难度因子为所述样本图像特征与目标图像特征之间的特征距离,所述样本图像特征与所述目标图像特征相对应;
获取模块,被设置为利用所述至少两个难度因子,获取损失函数,所述损失函数用于对齐所述样本图像特征以及所述目标图像特征;
实现模块,被设置为利用所述损失函数以及随机梯度下降法,实现目标领域自适应。
10.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-8中任一所述实现领域自适应的方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010187988.2A CN111680697B (zh) | 2020-03-17 | 2020-03-17 | 实现领域自适应的方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010187988.2A CN111680697B (zh) | 2020-03-17 | 2020-03-17 | 实现领域自适应的方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680697A true CN111680697A (zh) | 2020-09-18 |
CN111680697B CN111680697B (zh) | 2024-03-22 |
Family
ID=72451346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010187988.2A Active CN111680697B (zh) | 2020-03-17 | 2020-03-17 | 实现领域自适应的方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680697B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116024A (zh) * | 2020-09-28 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 用户分类模型的方法、装置、电子设备和存储介质 |
CN114300091A (zh) * | 2021-12-07 | 2022-04-08 | 姜京池 | 一种胰岛素输注方案自适应调节方法、装置及存储介质 |
CN116246014A (zh) * | 2022-12-28 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 一种形象生成方法、装置、存储介质及电子设备 |
US11682451B2 (en) | 2019-12-30 | 2023-06-20 | Taiwan Semiconductor Manufacturing Co., Ltd. | SRAM devices with reduced coupling capacitance |
TWI831292B (zh) * | 2022-07-13 | 2024-02-01 | 國立陽明交通大學 | 多攝影機領域自適性物件偵測系統及其偵測方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520847A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 模式识别装置和方法 |
CN105975959A (zh) * | 2016-06-14 | 2016-09-28 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
CN107145827A (zh) * | 2017-04-01 | 2017-09-08 | 浙江大学 | 基于自适应距离度量学习的跨摄像机行人再识别方法 |
CN109636886A (zh) * | 2018-12-19 | 2019-04-16 | 网易(杭州)网络有限公司 | 图像的处理方法、装置、存储介质和电子装置 |
CN110188641A (zh) * | 2019-05-20 | 2019-08-30 | 北京迈格威科技有限公司 | 图像识别和神经网络模型的训练方法、装置和系统 |
CN110533107A (zh) * | 2019-08-30 | 2019-12-03 | 中国科学院半导体研究所 | 梯度增强型Softmax分类器、训练信号产生方法及其应用 |
-
2020
- 2020-03-17 CN CN202010187988.2A patent/CN111680697B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101520847A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 模式识别装置和方法 |
CN105975959A (zh) * | 2016-06-14 | 2016-09-28 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
CN107145827A (zh) * | 2017-04-01 | 2017-09-08 | 浙江大学 | 基于自适应距离度量学习的跨摄像机行人再识别方法 |
CN109636886A (zh) * | 2018-12-19 | 2019-04-16 | 网易(杭州)网络有限公司 | 图像的处理方法、装置、存储介质和电子装置 |
CN110188641A (zh) * | 2019-05-20 | 2019-08-30 | 北京迈格威科技有限公司 | 图像识别和神经网络模型的训练方法、装置和系统 |
CN110533107A (zh) * | 2019-08-30 | 2019-12-03 | 中国科学院半导体研究所 | 梯度增强型Softmax分类器、训练信号产生方法及其应用 |
Non-Patent Citations (1)
Title |
---|
刘晨璐: "基于领域自适应的跨媒体检索研究" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11682451B2 (en) | 2019-12-30 | 2023-06-20 | Taiwan Semiconductor Manufacturing Co., Ltd. | SRAM devices with reduced coupling capacitance |
CN112116024A (zh) * | 2020-09-28 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 用户分类模型的方法、装置、电子设备和存储介质 |
CN114300091A (zh) * | 2021-12-07 | 2022-04-08 | 姜京池 | 一种胰岛素输注方案自适应调节方法、装置及存储介质 |
CN114300091B (zh) * | 2021-12-07 | 2022-12-02 | 姜京池 | 一种胰岛素输注方案自适应调节方法、装置及存储介质 |
TWI831292B (zh) * | 2022-07-13 | 2024-02-01 | 國立陽明交通大學 | 多攝影機領域自適性物件偵測系統及其偵測方法 |
CN116246014A (zh) * | 2022-12-28 | 2023-06-09 | 支付宝(杭州)信息技术有限公司 | 一种形象生成方法、装置、存储介质及电子设备 |
CN116246014B (zh) * | 2022-12-28 | 2024-05-14 | 支付宝(杭州)信息技术有限公司 | 一种形象生成方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111680697B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629747B (zh) | 图像增强方法、装置、电子设备及存储介质 | |
CN110210571B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111680697B (zh) | 实现领域自适应的方法、装置、电子设备及介质 | |
CN114648480A (zh) | 表面缺陷检测方法、装置及系统 | |
CN108288032B (zh) | 动作特征获取方法、装置及存储介质 | |
CN111127509B (zh) | 目标跟踪方法、装置和计算机可读存储介质 | |
CN108363982B (zh) | 确定对象数量的方法及装置 | |
CN110933468A (zh) | 播放方法、装置、电子设备及介质 | |
CN111192262A (zh) | 基于人工智能的产品缺陷分类方法、装置、设备及介质 | |
US11386586B2 (en) | Method and electronic device for adding virtual item | |
CN110070143B (zh) | 获取训练数据的方法、装置、设备及存储介质 | |
CN110503160B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111027490A (zh) | 人脸属性识别方法及装置、存储介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN111327819A (zh) | 选择图像的方法、装置、电子设备及介质 | |
CN112989198B (zh) | 推送内容的确定方法、装置、设备及计算机可读存储介质 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN112819103A (zh) | 基于图神经网络的特征识别方法、装置、存储介质及终端 | |
CN110853124B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
CN110675473B (zh) | 生成gif动态图的方法、装置、电子设备及介质 | |
CN111898535A (zh) | 目标识别方法、装置及存储介质 | |
CN110232417B (zh) | 图像识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111860064B (zh) | 基于视频的目标检测方法、装置、设备及存储介质 | |
CN112882094B (zh) | 初至波的获取方法、装置、计算机设备及存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |