CN113435546A

CN113435546A - 基于区分置信度水平的可迁移图像识别方法及系统

Info

Publication number: CN113435546A
Application number: CN202110984978.6A
Authority: CN
Inventors: 张凯; 王帆; 王潇涵; 孔妍; 张梅玉; 杨光远
Original assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Current assignee: Shandong Liju Robot Technology Co.,Ltd.
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-09-24
Anticipated expiration: 2041-08-26
Also published as: CN113435546B

Abstract

本发明公开了一种基于区分置信度水平的可迁移图像识别方法及系统，其首先采用源域数据训练得到源域预训练模型，利用源域模型训练得到的参数作为目标域模型的特征提取参数和分类参数，使目标域模型基于源域模型的训练参数从目标域数据中选出伪标签可信样本，并利用选出的可信样本为不可信样本赋予伪标签和权重，有效地降低了当前所有目标域图像伪标签的不确定性；最后通过带有伪标签的目标域数据和源域数据一起训练优化目标域模型，使最终得到的目标域模型的目标图像识别性能得到了极大提高，能够进行快速的迁移和有效的图像识别工作；并有效减少对于目标图像识别的标注，大量减少人力物力。

Description

基于区分置信度水平的可迁移图像识别方法及系统

技术领域

本发明涉及图像分类识别技术领域，尤其是涉及一种基于区分置信度水平的可迁移图像识别方法及系统。

背景技术

可迁移的图像识别是指在进行图像识别时，利用分布相似但不同的已标注图像来指导当前无标签的图像进行准确识别的技术。大数据时代下，分析数据中隐含的价值信息来指导人们的生活和生产已成为一个良性的发展趋势。但在现实场景下，收集到大量无标签的数据非常容易，而在某些任务上进行准确的人工标注是非常耗时耗力的，比如对大规模的传感器图像的准确标注。在这种限制下，我们可以借助已有标注图像，利用标注图像和欲识别图像分布之间的相似性，指导当前图像识别的任务。例如，当两个不同的传感器A和B采集相同任务的图像时，且传感器A的图像（一般称为源域图像）已被标注，由于传感器A和B中采集的图像类别相同，传感器B可以借助传感器A已经标注数据进行有效的图像识别，而不用为传感器B得到的数据进行大规模的标注。但是由于传感器A和B设备内部构造等的不同，两者收集到的图像数据存在着分布差异，那么如何在图像分布差异存在的情况下，实现对传感器B收集到的图像（一般称为目标域图像）进行准确识别是当前可迁移图像识别问题中的一个难点。传统方法：在传感器收集的数据上进行准确的标注，重新训练一个模型，将模型用以图像识别任务，但是此过程产生昂贵人力浪费，且在大数据背景下，对所有收集到的数据进行准确的人工标注极其不现实。

目前，解决可迁移图像识别方法的主要分为以下四种类型：

（1）基于图像样本重要性估计的图像识别方法，基本思想是假设源域图像和目标域图像的分布之间存在着交集，通过计算源域图像样本点与重叠分布的距离估计源域图像样本中的重要性，优化加权后的损失函数；

（2）基于高阶矩匹配的方法，其核心思路是试图最小化源域的图像分布和目标域图像分布之间的高维统计量差异；

（3）基于伪标签的方法试图给目标域每个图像先赋予伪标签，并筛选可信图像样本实现模型的监督训练；

（4）基于对抗训练的方法，通过引入域判别器来区分图像样本是来自源域图像还是目标域图像，并在此过程中学习有效的特征表示，以此实现对目标域图像的准确识别。

其主要体现在以下两点：（1）在已有标注的源域图像上训练可以有效识别源域图像的模型（2）最小化源域图像分布和目标域图像分布之间的差距。这些方法的重心并未放在目标域图像上，即使基于伪标签技术也只用到了部分的目标域样本，但被标注为不可信的目标图像数据在模型的训练中还是丢弃了，而这些被过滤掉的图像极有可能是进行有效图像识别的关键，故如何降低这部分样本的不确定性，并将其用到模型的训练中，是有效提升图像识别性能的核心。

发明内容

本发明的目的在于克服上述技术不足，提出一种基于区分置信度水平的可迁移图像识别方法及系统，其能有效降低目标域图像样本伪标签的不确定性，将其用于模型的训练中，而不是仅仅选择可信伪标签标签的目标域样本用以训练。

为达到上述技术目的，本发明的技术方案第一方面提供一种基于区分置信度水平的可迁移图像识别方法，其包括如下步骤：

S1、采用源域数据对基础训练模型进行训练，得到源域预训练模型，

S2、利用源域预训练模型的参数初始化目标域模型的特征提取参数和分类参数；

S3、利用初始化的目标域模型为全体目标域数据赋予伪标签，将每一类伪标签中具有较小信息熵的部分样本标注为高置信度样本，并将每一类伪标签中剩余具有较大信息熵的部分样本标注为低置信度样本；

S4、计算低置信度样本的图像特征和所有类伪标签的类原型之间的距离，将距离最小的类原型的类别标签赋给低置信度样本；

S5、综合计算源域数据的交叉熵损失函数以及目标域伪标签数据的交叉熵损失函数，将计算得到的总损失函数对目标域模型进行优化；

S6、迭代步骤S2至S5,利用带有伪标签的目标域数据和源域数据不断迭代训练优化目标域模型。

本发明第二方面提供一种基于区分置信度水平的可迁移图像识别系统，其包括如下功能模块：

预训练模块，用于采用源域数据对基础训练模型进行训练，得到源域预训练模型；

初始化模块，用于利用源域预训练模型的参数初始化目标域模型的特征提取参数和分类参数；

样本分类模块，用于利用初始化的目标域模型为全体目标域数据赋予伪标签，将每一类伪标签中具有较小信息熵的部分样本标注为高置信度样本，并将每一类伪标签中剩余具有较大信息熵的部分样本标注为低置信度样本；

标签赋予模块，用于计算低置信度样本的图像特征和所有类伪标签的类原型之间的距离，将距离最小的类原型的类别标签赋给低置信度样本；

损失优化模块，用于综合计算源域数据的交叉熵损失函数以及目标域伪标签数据的交叉熵损失函数，将计算得到的总损失函数对目标域模型进行优化；

迭代优化模块，用于通过初始化模块、样本分类模块、标签赋予模块、损失优化模块形成迭代优化回路，利用带有伪标签的目标域数据和源域数据不断迭代训练优化目标域模型。

本发明第三方面提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于区分置信度水平的可迁移图像识别方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于区分置信度水平的可迁移图像识别方法的步骤。

与现有技术相比，本发明利用源域模型训练得到的参数作为目标域模型的特征提取参数和分类参数，使目标域模型基于源域模型的训练参数从目标域数据中选出伪标签可信样本，并利用选出的可信样本为不可信样本赋予伪标签和权重，有效地降低了当前所有目标域图像伪标签的不确定性；最后通过带有伪标签的目标域数据和源域数据一起训练优化目标域模型，使最终得到的目标域模型的目标图像识别性能得到了极大提高，能够进行快速的迁移和有效的图像识别工作；并有效减少对于目标图像识别的标注，大量减少人力物力。

其以往的方法相比，将所有不确定性已经大幅度降低的目标域图像都用于模型的训练，而不是使用部分可信数据，目标域在训练中的权重占比增加，使得最终的图像识别模型的性能更偏向于目标图像的识别，有效地提高目标图像识别的性能。

附图说明

图1是本发明实施例所述的基于区分置信度水平的可迁移图像识别方法的流程框图；

图2是图1中步骤S3的分步骤流程框图；

图3是图1中步骤S4的分步骤流程框图；

图4是图1中步骤S5的分步骤流程框图；

图5是本发明实施例所述的基于区分置信度水平的可迁移图像识别系统的模块框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基于上述内容，本发明实施例提供一种基于区分置信度水平的可迁移图像识别方法，如图1所示，其包括如下步骤：

S1、采用源域数据对基础训练模型进行训练，得到源域预训练模型。

其中，所述源域和目标域类别一样，但是存在类别中存在分布变化，但是这种分布变化程度不是很大，故源域模型具备初步为目标域数据赋予伪标签的能力，但是伪标签准确率比较低。

S2、利用源域预训练模型的参数初始化目标域模型的特征提取参数和分类参数。

基于源域图像和目标域图像的相似性，通过利用源域预训练模型的参数初始化目标域模型的特征提取参数和分类参数，使目标域模型具备初步为目标域数据赋予伪标签的能力。

S3、利用初始化的目标域模型为全体目标域数据赋予伪标签，将每一类伪标签中具有较小信息熵的部分样本标注为高置信度样本，并将每一类伪标签中剩余具有较大信息熵的部分样本标注为低置信度样本。

其中，如图2所示，所述步骤S3具有如下分步骤：

S31、利用初始化的目标域模型为全体目标域数据赋予伪标签。

S32、计算每一个样本的信息熵，利用伪标签将所有样本分为不同类别；

S33、在每一个类别中对该类的所有样本的信息熵进行排序，将每一类别中信息熵较小的部分样本标注为高置信度样本，将剩余部分信息熵较大的样本标注为低置信度样本。

具体的，由于目标域模型具备初步为目标域数据赋予伪标签的能力，所以利用初始化的目标域模型为全体目标域数据赋予伪标签。

基于样本的信息熵越小表示该样本伪标签的可信程度越大的特性，因此，可以通过目标域数据样本的信息熵来判断样本伪标签的可信度。具体可以通过softmax函数计算每个样本的概率值，并利用所得概率值计算得到每一个目标域数据样本的信息熵；所述标准的信息熵衡量模型预测结果的计算公式如下：

上式中，

表示目标域数据样本，

表示Softmax函数输出的该目标域数据样本属于每一类伪标签的概率集合，

表示信息熵值。

经过上述计算，每一个目标域数据样本都具有伪标签和信息熵，然后利用伪标签将所有样本分为不同类别，并在每一个类别中对该类的所有样本的信息熵进行排序，取每一类别中信息熵较小的50%样本标注为高置信度样本，即可信样本，将剩余50%信息熵较大的样本标注为低置信度样本，即不可信样本。并计算高置信度样本的权重为：

上式中，

表示高置信度样本的权重。

S4、计算低置信度样本的图像特征和所有类伪标签的类原型之间的距离，将距离最小的类原型的类别标签赋给低置信度样本。

其中，如图3所示，所述步骤S4包括如下分步骤：

S41、对高置信度样本的特征进行求均值得到高置信度样本的特征均值；

S42、将每一类的高置信度样本的特征均值作为该类的类原型；

S43、计算低置信度样本与每一类伪标签的类原型之间的距离，将距离最小的类原型的标签赋予给所述低置信度样本。

其中，所述类原型的计算公式为：

上式中，

表示第k类的类原型，也就是平均特征，

表示第k类高置信度样本集合，

表示第k类高置信度样本集合中样本数量，

表示第k类目标域数据样本通过神经网络输出的图像特征。

所述低置信度样本与每一类伪标签的类原型之间的距离的计算公式如下：

上式中，

表示低置信度样本

经过特征提取器输出的特征值，

表示

和k类类原型

之间的余弦相似度，

表示

和k类类原型

之间的距离，

表示通过神经网络输出的图像特征，

表示所有可信样本类原型的集合。

为了进一步降低利用距离为低置信度样本赋予伪标签的不确定性，本发明将距离最近类伪标签的余弦相似度作为该类伪标签的权重一起用于交叉熵损失函数的训练中,所述低置信度样本权重的计算公式如下：

上式中，

表示低置信度样本的权重。

最终得到所有目标域样本的伪标签和权重。

S5、综合计算源域数据的交叉熵损失函数以及目标域伪标签数据的交叉熵损失函数，将计算得到的总损失函数对目标域模型进行优化。

其中，如图4所示，所述步骤S5包括如下分步骤：

S51、利用赋予伪标签的目标域样本对目标域模型进行自监督训练，并计算目标域伪标签数据的自监督损失函数；

S52、利用源域数据对目标域模型进行训练，并计算源域数据的交叉熵损失函数；

S53、根据目标域伪标签数据的自监督损失函数和源域数据的交叉熵损失函数综合计算得到的总损失函数；

S54、利用总损失函数对目标域模型进行优化。

其中，为防止目标域模型中包含在特征提取参数和分类参数中的初始化的源域信息随着训练的逐步进行而丢失，所以需要继续训练源域数据。

具体的，所述目标域数据的自监督损失函数为：

源域数据的交叉熵损失函数为：

总损失函数为：

其中，

表示所有目标域样本的集合，

表示softmax函数，

表示指示函数，

表示每一个目标域样本的伪标签，就是传统的交叉熵损失函数，只不是每一个目标域样本有一个自己的权重，

表示所有源域样本的集合，使用传统的交叉熵损失函数，

表示源域样本的标签，

表示权衡参数；

表示目标域样本的损失期望；

表示源域样本的损失期望；K表示目标域样本的类别总数；

表示网络特征提取器模块；

表示分类器模块；

表示单个源域样本；

表示单个目标域样本。

本发明利用源域模型训练得到的参数作为目标域模型的特征提取参数和分类参数，使目标域模型基于源域模型的训练参数从目标域数据中选出伪标签可信样本，并利用选出的可信样本为不可信样本赋予伪标签和权重，有效地降低了当前所有目标域图像伪标签的不确定性；最后通过带有伪标签的目标域数据和源域数据一起训练优化目标域模型，使最终得到的目标域模型的目标图像识别性能得到了极大提高，能够进行快速的迁移和有效的图像识别工作；并有效减少对于目标图像识别的标注，大量减少人力物力。

如图5所示，本发明实施例还提供一种基于区分置信度水平的可迁移图像识别系统，其包括如下功能模块：

预训练模块10，用于采用源域数据对基础训练模型进行训练，得到源域预训练模型；

初始化模块20，用于利用源域预训练模型的参数初始化目标域模型的特征提取参数和分类参数；

样本分类模块30，用于利用初始化的目标域模型为全体目标域数据赋予伪标签，将每一类伪标签中具有较小信息熵的部分样本标注为高置信度样本，并将每一类伪标签中剩余具有较大信息熵的部分样本标注为低置信度样本；

标签赋予模块40，用于计算低置信度样本的图像特征和所有类伪标签的类原型之间的距离，将距离最小的类原型的类别标签赋给低置信度样本；

损失优化模块50，用于综合计算源域数据的交叉熵损失函数以及目标域伪标签数据的交叉熵损失函数，将计算得到的总损失函数对目标域模型进行优化；

迭代优化模块60，用于通过初始化模块、样本分类模块、标签赋予模块、损失优化模块形成迭代优化回路，利用带有伪标签的目标域数据和源域数据不断迭代训练优化目标域模型。

本实施例一种基于区分置信度水平的可迁移图像识别系统的执行方式与上述基于区分置信度水平的可迁移图像识别方法基本相同，故不作详细赘述。

本实施例服务器为提供计算服务的设备，通常指具有较高计算能力，通过网络提供给多个消费者使用的计算机。该实施例的服务器包括：存储器、处理器以及系统总线，所述存储器包括存储其上的可运行的程序，本领域技术人员可以理解，本实施例的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器上包含一种基于区分置信度水平的可迁移图像识别方法的可运行程序，所述可运行程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由处理器执行，以完成信息的获取及实现过程，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述服务器中的执行过程。例如，所述计算机程序可以被分割为预训练模块10、初始化模块20、样本分类模块30、标签赋予模块40、损失优化模块50、迭代优化模块60。

处理器是服务器的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器可包括一个或多个处理单元；优选的，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

系统总线是用来连接计算机内部各功能部件，可以传送数据信息、地址信息、控制信息，其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器的指令通过总线传递至存储器，存储器反馈数据给处理器，系统总线负责处理器与存储器之间的数据、指令交互。当然系统总线还可以接入其他设备，例如网络接口、显示设备等。

所述服务器应至少包括CPU、芯片组、内存、磁盘系统等，其他构成部件在此不再赘述。

在本发明实施例中，该终端所包括的处理器执行的可运行程序具体为：一种基于区分置信度水平的可迁移图像识别方法，其包括如下步骤：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。