CN104616031B

CN104616031B - 迁移学习方法及装置

Info

Publication number: CN104616031B
Application number: CN201510032970.4A
Authority: CN
Inventors: 桂林; 徐睿峰; 陆勤; 周俞
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2018-06-12
Anticipated expiration: 2035-01-22
Also published as: CN104616031A

Abstract

本发明公开了一种迁移学习方法及装置，方法包括：设置迁移学习的相关参数并初始化；开始迁移学习迭代，获得自动化标注数据；当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。本发明的有益效果是：在迁移学习过程中，将学习过程按迁移周期划分，每满一个迁移周期则进行误差检测，根据误差检测确定的样本相对质量筛选样本，由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的，进而提升应用迁移学习方法的系统的准确性。

Description

迁移学习方法及装置

技术领域

本发明涉及机器学习领域，具体涉及一种迁移学习方法及装置。

背景技术

在传统分类学习中，为了保证训练得到的分类模型具有准确性和高可靠性，都有两个基本的假设：(1)用于学习的训练样本与新的测试样本满足独立同分布的条件；(2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。但是，在实际应用中人们发现这两个条件往往无法满足。然而，作为机器学习中的一个重要分支的迁移学习则放宽了传统机器学习中的两个基本假设。迁移学习主要针对从资源较丰富的源领域和目标领域获取知识训练相关模型，进而解决资源相对缺乏的目标领域的问题，即迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。这一方法在目前的自然语言处理等领域有着广泛的应用，例如跨语言迁移问题、跨领域迁移问题以及其他的训练数据和测试数据来自不同分布的实际问题。因此，研究迁移学习变得非常重要。

目前迁移学习的方法及其在NLP(Natural Language Process，自然语言处理)领域的应用，其侧重点在于如何利用源领域数据训练相关模型，给予目标领域未标注数据以正确的标签，并且将其中置信度高的样本按照一定比例添加到训练数据中，进而达到扩充训练集的目的。关于迁移学习的具有代表性的方法有自学习(self-training)、联合学习(co-training)等。

然而，无论是自学习的迁移学习方法或是联合学习的迁移学习方法，在添加的样本选择和添加过程中，迁移到训练集的目标领域样本由于其标签来自于机器学习算法，可能有一定的错误率；特别是在其训练样本来自于源领域样本的前提下，错误率可能会更高。而随着样本迭代的进行，由于错误样本数量的不断累加，迁移学习算法的性能往往会下降，这种情况被称作“负迁移(negative transfer)”，这和迁移样本引入的带有错误标签的迁移样本的累积是有着密切关系的。因为传统的迁移学习对无标注样本进行自动标注，其误差会在迭代过程中累积。在整个学习过程的初期，由于自动标注样本对训练集的扩充，算法的性能指标会出现上升，但是随着误分类样本的累积，样本质量变差，算法性能会在学习过程的中后期出现下降。对于答案未知的实际任务，这一问题使得实验人员很难确定算法停止迭代的时间点，影响了系统所能达到的性能。

目前的针对迁移学习的机器学习方法，其着眼点往往在于基线方法的准确率，对于在迁移过程中的错误标签样本的问题并未解决。因此，寻找一种面向迁移学习过程中所产生的错误标签样本的检测方法，具有很强的现实意义。

发明内容

根据本发明的一个方面，提供一种迁移学习方法，包括：

初始步骤：设置迁移学习的相关参数并初始化；

样本获取步骤：开始迁移学习迭代，获得自动化标注数据；

周期计算步骤：当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；

结果处理步骤：根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。

根据本发明的另一个方面，提供一种迁移学习装置，包括：

初始模块，用于设置迁移学习的相关参数并初始化；

样本获取模块，用于开始迁移学习迭代，获得自动化标注数据；

周期计算模块，用于当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量；

结果处理模块，用于根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。

本发明的有益效果是：在迁移学习过程中，将学习过程按迁移周期划分，每满一个迁移周期则进行误差检测，根据误差检测确定的样本相对质量筛选样本，由此来剔除低质量样本以达到提高迁移学习中自动标注数据的样本质量的目的，进而提升应用迁移学习方法的系统的准确性。

附图说明

图1是本发明实施例1的迁移学习方法的基本流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下通过具体实施例并结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限制本发明。

本发明的基本思想是在迁移学习的过程中，将学习过程细分为周期，判断每个最近周期中的自动标注样本的质量是否高于之前周期自动标注样本的质量。之后利用高质量的周期对之前周期的自动标注样本进行筛选，删除其中的低质量样本以达到提高迁移学习中自动标注样本质量的目的，进而提升系统的准确性。

实施例1：

如图1所示，本实施例的迁移学习方法包括步骤S10～S40。

步骤S10为初始步骤，在该步骤中设置迁移学习的相关参数并初始化。例如，设置和初始化迁移学习的输入参数，包括有标注的源分布数据L、无标注的目标分布数据U、过往周期的自动标注数据集合TS_c＝φ、当前周期下的自动标注数据集合TS_l＝φ、进行误差检测的迭代周期T、迁移学习迭代的总次数(简称迭代总数)K、每轮迭代中自动标注的正负样本数目p和q、当前迭代的次数I、过往周期估计的误差界ε_pre、当前周期估计的误差界ε_next、等等。

步骤S20为样本获取步骤，即开始迁移学习迭代，获得自动化标注数据。在该步骤中，利用已有的有标注的源分布数据训练分类器，对无标注的目标分布数据进行分类，选取置信度高的分类结果进行自动化标注，从而扩大有标注数据规模。该步骤具体可包括步骤S201～S203。

步骤S201：判断当前迭代次数是否小于迭代总数，如果是，执行步骤S202，如果否，则结束迁移学习。

步骤S202：训练基分类器，即在有标注的源分布数据上训练基分类器，具体训练方式可参考已有的迁移学习方法中的相关技术实现，例如自学习的迁移学习方法、联合学习的迁移方法等。

步骤S203：自动化标注数据，即利用训练的基分类器进行分类，向过往周期的自动标注数据集合TS_c添加置信度最高的p个正例和q个反例，并自动化标注为C的分类结果。

步骤S30为周期计算步骤，在该步骤中，当迭代次数满足迭代周期，对该迭代周期内作为样本的自动化标注数据进行误差检测，确定该迭代周期的样本相对质量。具体地该步骤可包括步骤S301～S304。

步骤S301：判断当前迭代次数是否整除迁移周期，如果是，则执行步骤S301，如果否，则执行步骤S404。

步骤S302：计算错误率，即将每次迭代后的自动化标注数据作为一个样本，计算当前迭代周期内各个样本的错误率，错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到。在本实施例中采用基于统计的KNN(K近邻分类算法，即K-Nearest Neighborhood Classification)图模型方法计算错误率，即对TS_l∪TS_c中的每一个样本i建立KNN图G，并且利用如下公式(1)估计其错误率η_i。

具体地，对于每个待分析样本i以及其最相似的k个样本(或者是在当前迁移周期中的其它样本)，计算二者的相似度w_ij和距离函数I_ij，其中j属于k，对于I_ij，如果，j与i的标注相同，则I_ij＝1，否则I_ij＝-4。这里值1和-4可以根据实际情况设置为其它数值，这里是示例说明。相似度的计算可以采用已有的相关技术，在此不作详述。然后，每个待分析样本，利用以下公式(1)估计其错误率。

其中，η_i表示样本i的错误率，w_ij表示样本i与其它样本j的相似度，I_ij表示样本i与其它样本j的标签距离(即二者的标签是否一致)，||w||₁和||w||₂为关于w的L1范数和L2范数，w为每一个w_ij作为向量的一个分量而组成的和向量。

步骤S303：计算当前迭代周期的误差界。在该步骤中，利用步骤S302计算得到的错误率，根据PAC(概率近似正确，Probably Approximately Correct)理论的相关结论，结合如下公式(2)计算出误差界。

其中，η为当前迭代周期内所有样本的错误率的算术平均值，m为自动化标注数据的规模，N和δ为相关常数。

步骤S304：确定样本相对质量。显然，误差界ε越小，自动化标注样本的质量越高。

步骤S40为结果处理步骤，即根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器。该步骤具体包括步骤S401～S404。

步骤S401：判断当前迭代周期的样本相对质量是否大于与前一迭代周期的样本相对质量，如果是，则执行步骤S402，如果否，则执行步骤S403。

步骤S402：删除前一迭代周期中错误率大于预定错误率阈值的样本，然后执行步骤S404将当前迭代次数自加1后返回步骤S201以继续迁移学习迭代。也就是说，对于最近一个迁移周期，若样本质量高于之前周期，则将之前迁移周期中错误率高于预定错误率阈值如0.95(统计学上的显著性标准)的样本剔除训练集。

步骤S403：若最近一个周期的样本质量低于之前周期，则认为迁移学习已经达到负迁移(negative transfer)的临界点，继续迭代则有性能降低的风险，在此停止迭代输出最终的样本集并训练分类器。

本实施例的上述步骤可用如下的伪代码进行表示。

//输入：

//有标注的源分布数据:L

//无标注的目标分布数据:U

//基分类器:C

//过往周期的自动标注数据集合:TS_c＝φ

//当前周期下的自动标注数据集合:TS_l＝φ

//进行误差检测的迭代周期:T

//学习算法迭代的次数:K

//每轮迭代中自动标注的正负样本数目:p和q

//初始化:

I＝1；//I为当前迭代的次数

ε_pre＝1,ε_next＝1；//过往周期估计的误差界和当前周期估计的误差界

//算法流程：

While(I<K,I++)

//1)在L上训练基分类器C；

//2)利用C对U进行分类，向TS_c添加置信度最高的p个正例和q个反例，标注为C的分类结果；

//3)每满一个迁移周期，暂停迭代以进行误差检测

if(I mod T＝＝0)

then

//对TS_l∪TS_c中的每一个样本x_i建立KNN图G，并且利用公式(1)估计其错误率η_i；

//进而利用此结果估计TS_l∪TS_c的分类误差，公式为公式(2)或者为

if(ε_next>ε_pre)then break

else

//a.对于TS_l中的每一个样本x_i，剔除其中η_i>0.95的样本；

//b.令TS_l＝TS_l∪TS_c并且TS_c＝φ；

//c.ε_pre＝ε_next；

//4)C_*＝C；

End

//输出:

//最优分类器:C_*

基于以上的方法实施例，本实施例还提供一种迁移学习装置，包括：

初始模块，用于设置迁移学习的相关参数并初始化；

其中，所述周期计算模块包括：

错误率计算单元，用于将每次迭代后的自动化标注数据作为一个样本，计算当前迭代周期内各个样本的错误率，所述错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到；

质量确定单元，用于根据计算得到的当前迭代周期中各个样本的错误率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量。

所述结果处理模块包括：判断处理单元，用于将当前迭代周期的样本相对质量与前一迭代周期的样本相对质量进行比较，如果当前迭代周期的样本相对质量高于前一迭代周期的样本相对质量，删除前一迭代周期中错误率大于预定错误率阈值的样本，继续迁移学习迭代，如果当前迭代周期的样本相对质量低于前一迭代周期的样本相对质量，则终止迁移学习迭代，输出保留的样本和迁移分类器。

上述装置的各模块及其单元的具体实现可参考前述方法实施例，在此不作重述。

综上，本实施例的方法利用迁移过程中的误差样本检测，通过迁移学习迭代、估计迁移样本错误率、利用样本错误率估计周期样本质量、以及利用高质量周期中的样本筛选之前周期样本等，来提高迁移学习性能；并且保证了在迁移学习过程中，通过前述步骤S20～S40控制错误率，使得错误率相对稳定，算法的性能指标为单调递增，从而不仅可以提升算法性能，而且容易确定算法停止迭代的时间点。因为算法性能单调上升收敛于一个稳定的数值，在这一前提下，算法停止迭代的时间点可以通过步骤S30进行计算，估计样本质量(即样本错误率)下降时，或其样本质量收敛时，即可停止迭代。

实施例2：

本实施例的迁移学习方法基本上和实施例1相同，不同之处在于周期计算步骤中，实施例1是采用基于统计的KNN图模型方法计算错误率，而本实施例则是采用基于交叉验证的分类方法。具体地，本实施例的周期计算步骤包括：将每次迭代后的自动化标注数据作为一个样本，将当前迭代周期内的所有样本分为至少两个集合，其中一个集合作为测试集，剩余集合作为训练集，利用交叉验证法进行计算，得到每个样本的分类错误概率，该分类错误概率相当于实施例1的错误率，然后根据计算得到的当前迭代周期中各个样本的分类错误概率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量。这里，基于交叉验证的相关计算方式可参考现有的相关技术实现，在此不作详述。

上述内容仅仅是为描述本发明而列举的较佳实施例之一，并非依此限制本发明专利保护的范围，一切不脱离本发明宗旨进行的修改或者等同替换的技术方案及其改进，均不应排除在本发明的权利要求的保护范围之外。例如，实施例1的错误率的计算公式还可以是采用如下公式(3)进行计算，其中涉及的各参数含义类似前述公式(1)。

本发明的技术关键点在于将误差检测方法引入迁移学习方法中，其核心内容在于，对于迁移算法获得的自动标注样本，利用步骤S20～S40进行误差检测或者是实施例2的替代方案，剔除其中的错误标注样本。本发明的方法/装置可以广泛地应用于跨语言或跨领域的文本分类、倾向性分析、情绪计算等以机器学习为基础的应用问题。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种提高分类器精度的迁移学习方法，其特征在于，包括：

初始步骤：设置迁移学习的相关参数并初始化；

样本获取步骤：开始迁移学习迭代，获得自动化标注数据；

结果处理步骤：根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器；

其中，所述周期计算步骤包括：

将每次迭代后的自动化标注数据作为一个样本，计算当前迭代周期内各个样本的错误率，所述错误率为根据待分析样本和对应的周期内其它样本之间的相似度及距离按照假设检验的方法计算得到；

根据计算得到的当前迭代周期中各个样本的错误率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量；

其中，所述错误率的计算公式包括：

其中，η_i表示样本i的错误率，w_ij表示样本i与其它样本j的相似度，I_ij表示样本i与其它样本j的标签距离，||w||₁和||w||₂为关于w的L1范数和L2范数，w为每一个w_ij作为向量的一个分量而组成的和向量。

2.如权利要求1所述的方法，其特征在于，所述周期计算步骤包括：

将每次迭代后的自动化标注数据作为一个样本，将当前迭代周期内的所有样本分为至少两个集合，其中一个集合作为测试集，剩余集合作为训练集，利用交叉验证法进行计算，得到每个样本的分类错误概率；

根据计算得到的当前迭代周期中各个样本的分类错误概率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量。

3.如权利要求1所述的方法，其特征在于，所述结果处理步骤包括：

将当前迭代周期的样本相对质量与前一迭代周期的样本相对质量进行比较，

如果当前迭代周期的样本相对质量高于前一迭代周期的样本相对质量，删除前一迭代周期中错误率大于预定错误率阈值的样本，继续迁移学习迭代，

如果当前迭代周期的样本相对质量低于前一迭代周期的样本相对质量，则终止迁移学习迭代，输出保留的样本和迁移分类器。

4.如权利要求1所述的方法，其特征在于，所述样本获取步骤包括：

利用已有的有标注的元分类数据训练迁移分类器，利用训练得到的迁移分类器对无标注的目标分布数据进行分类，选取置信度大于预定置信度阈值的分类结果进行自动化标注，从而得到自动化标注数据。

5.一种提高分类器精度的迁移学习装置，其特征在于，包括：

初始模块，用于设置迁移学习的相关参数并初始化；

结果处理模块，用于根据样本相对质量确定样本的删除或保留，并确定是否继续迁移学习迭代，当终止迁移学习迭代，输出保留的样本和迁移分类器；

其中，所述周期计算模块包括：

质量确定单元，用于根据计算得到的当前迭代周期中各个样本的错误率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量；

所述错误率的计算公式包括：

6.如权利要求5所述的装置，其特征在于，所述周期计算模块包括：

错误率计算单元，用于将每次迭代后的自动化标注数据作为一个样本，将当前迭代周期内的所有样本分为至少两个集合，其中一个集合作为测试集，剩余集合作为训练集，利用交叉验证法进行计算，得到每个样本的分类错误概率；

质量确定单元，用于根据计算得到的当前迭代周期中各个样本的分类错误概率，计算当前迭代周期的误差界，从而确定当前迭代周期的样本相对质量。

7.如权利要求5所述的装置，其特征在于，所述结果处理模块包括：

判断处理单元，用于将当前迭代周期的样本相对质量与前一迭代周期的样本相对质量进行比较，如果当前迭代周期的样本相对质量高于前一迭代周期的样本相对质量，删除前一迭代周期中错误率大于预定错误率阈值的样本，继续迁移学习迭代，如果当前迭代周期的样本相对质量低于前一迭代周期的样本相对质量，则终止迁移学习迭代，输出保留的样本和迁移分类器。