CN104102917B

CN104102917B - 域自适应分类器的构造及数据分类的方法和装置

Info

Publication number: CN104102917B
Application number: CN201410315895.8A
Authority: CN
Inventors: 刘建伟; 孙正康; 罗雄麟
Original assignee: China University of Petroleum Beijing
Current assignee: China University of Petroleum Beijing
Priority date: 2014-07-03
Filing date: 2014-07-03
Publication date: 2017-05-10
Anticipated expiration: 2034-07-03
Also published as: CN104102917A

Abstract

本发明提供了一种域自适应分类器的构造及数据分类的方法和装置，其中，该构造方法包括：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；基于所述组合罚目标函数确定域自适应泛化误差上界；基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。本发明解决了现有技术中源域和目标域分布不一致的问题，在保证收敛的前提下可以实现更为准确的分类别，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域信息处理的问题。

Description

域自适应分类器的构造及数据分类的方法和装置

技术领域

本发明涉及数据分类技术领域，特别涉及一种域自适应(Domain Adaptation，DA)分类器的构造及数据分类的方法和装置。

背景技术

人工智能和机器学习的核心问题是：如何表示领域中存在的知识，以及如何利用已有的知识进行分析处理，得到人们所感兴趣的知识。在当前的机器学习研究领域中存在着一个关键的问题，即，通常假设训练样本和测试样本来自同一概率分布，通过对训练样本进行学习得到相应的模型和判别准则，对待测试的样例的输出进行预测。但是在实际应用中，训练数据与测试数据的分布可能是不同的，这就导致传统的机器学习方法训练得到的模型无法有效地对待测试样本的输出进行学习。

在一些新出现的应用领域(例如：Web数据挖掘、故障诊断、图像处理、语音识别与信息解码等)中经常会出现无法从这些新应用领域中获得训练数据的情况，然而，在这些领域中与学习任务相关的数据量却很大，如果要实现对目标领域的学习就必须利用与这些任务相关的数据，然而训练数据和测试数据概率分布的不一致会严重影响传统机器学习方法的性能，相反地，即使拥有了大量的、在不同分布下的训练数据，针对新的兴趣领域，完全丢弃这些训练数据而重新构建训练数据也是非常困难的，而且成本极高。

发明内容

本发明实施例提供了一种域自适应分类器的构造方法，以达到降低计算复杂度，解决普通模式识别无法处理的跨领域信息处理的问题的目的。该方法包括：

确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；

基于所述组合罚目标函数确定域自适应泛化误差上界；

基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。

在一个实施例中，确定的所述组合罚目标函数为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

其中，ε_α(h)表示组合罚目标函数，ε_T(h)表示目标域期望误差，ε_S(h)表示源域期望误差，α∈[0,1]，h表示假设函数类H中的参考假设函数。

在一个实施例中，所述目标域期望误差和所述源域期望误差采用以下函数之一表示：逻辑斯蒂损失函数、铰链损失函数、最小二乘损失函数。

在一个实施例中，基于所述组合罚目标函数确定的域自适应泛化误差上界为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

其中，H表示d维假设空间的假设函数类，d表示维度，S＝(S_T,S_S)表示包含m个已标识样例的样本集，其中S_T表示来自目标域D_T的βm个已标识样例集，S_S表示来自源域D_S的(1-β)m个已标识样例集，U_S,U_T表示m'个未标识样例集，表示使组合经验误差取值最小的假设函数，其中，组合经验误差表示目标域经验误差，表示源域经验误差，表示使目标域误差最小的假设函数，表示源域和目标域的经验对称差距离。

在一个实施例中，基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，包括：

将确定的所述域自适应泛化误差上界转换为如下的替代误差上界：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

其中，目标域D_T的样例总个数为m'，其中，已标识样例个数为未标识样例个数为源域D_S的样例总个数为m'，都是已标识样例；

基于所述替代误差上界，对两个以上分类器进行协同训练。

在一个实施例中，基于所述替代误差上界，对两个以上分类器进行协同训练，包括：

获取训练样本集，其中，所述训练样本集包括源域的训练样本和目标域的训练样本；

对每个分类器进行初始化，并为每个分类器分配训练样本；

对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者各个分类器的权值w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w取值，将求得的w的取值作为下一次重复操作时w的取值；

将求得的w的值作为所述目标函数的最优解。

在一个实施例中，所述判别条件包括：

且

其中，t表示重复次数，为正整数。

本发明实施例还提供了一种数据分类方法，以达到降低计算复杂度，解决普通模式识别无法处理的跨领域信息处理的问题的目的。该方法包括：

获取目标域样本数据；

通过上述构造的域自适应分类器对所述样本数据进行分类。

本发明实施例还提供了一种域自适应分类器的构造装置，以达到降低计算复杂度，解决普通模式识别无法处理的跨领域信息处理的问题的目的。该装置包括：

目标函数确定模块，用于确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；

泛化误差上界确定模块，用于基于所述组合罚目标函数确定域自适应泛化误差上界；

构造模块，用于基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。

在一个实施例中，所述目标函数确定模块确定的组合罚目标函数为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

在一个实施例中，所述泛化误差上界确定模块基于所述组合罚目标函数确定的域自适应泛化误差上界为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

在一个实施例中，所述构造模块包括：

转换单元，用于将确定的所述域自适应泛化误差上界转换为如下的替代误差上界：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

训练单元，用于基于所述替代误差上界，对两个以上分类器进行协同训练。

在一个实施例中，所述训练单元包括：

样本获取子单元，用于获取训练样本集，其中，所述训练样本集包括源域的训练样本和目标域的训练样本；

初始化子单元，用于对每个分类器进行初始化，并为每个分类器分配训练样本；

迭代子单元，用于对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者各个分类器的权值w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w取值，将求得的w的取值作为下一次重复操作时w的取值；

最优解确定子单元，用于将求得的w的值作为所述目标函数的最优解。

在一个实施例中，所述判别条件包括：

且

其中，t表示重复次数，为正整数。

本发明实施例还提供了一种数据分类装置，以达到降低计算复杂度，解决普通模式识别无法处理的跨领域信息处理的问题的目的。该装置包括：

数据获取模块，用于获取目标域样本数据；

分类模块，用于通过上述构造的域自适应分类器对所述样本数据进行分类。

在本发明实施例中，先确定出域自适应组合罚目标函数，也就相当于确定了对目标域和源域进行分类的分类器的构造依据，然后，确定域自适应泛化误差上界，从而根据自适应泛化误差上界作为限定，进行分类器的构造，同时，在构造分类器的时候是采用多个分类器协同训练的方式进行构造的，使得多个分类器的功能不断提高，同时又可以保证算法的收敛性，解决了现有技术中源域和目标域分布不一致的问题，在保证收敛的前提下可以实现更为准确的分类别，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域信息处理的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是本发明实施例的域自适应分类器的构造方法的方法流程图；

图2是本发明实施例的域自适应分类器的构造系统的具体结构框图；

图3是本发明实施例的数据分类的方法流程图；

图4是本发明实施例的域自适应分类器的构造装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

发明人考虑到，现有技术中之所以无法实现跨领域的分类，只要是因为目前的分类器从构造和使用上都是针对特定领域进行的，为了克服上述问题，可以在构造分类器的时候就按照源域和目标域的信息进行构造，从而使得构造出的分类器可以跨领域进行数据分类。

在本例中，提供了一种域自适应分类器的构造方法，如图1所示，包括以下步骤：

步骤101：确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；

步骤102：基于所述组合罚目标函数确定域自适应泛化误差上界；

步骤103：基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。

在上述实施例中，先确定出域自适应组合罚目标函数，也就相当于确定了对目标域和源域进行分类的分类器的构造依据，然后，确定域自适应泛化误差上界，从而根据自适应泛化误差上界作为限定，进行分类器的构造，同时，在构造分类器的时候是采用多个分类器协同训练的方式进行构造的，使得多个分类器的功能不断提高，同时又可以保证算法的收敛性，解决了现有技术中源域和目标域分布不一致的问题，在保证收敛的前提下可以实现更为准确的分类别，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域信息处理的问题。

具体的，上述确定的组合罚目标函数可以表示为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

上述源域和目标域的期望误差ε(h)可选为以下任意之一表示：

1)逻辑斯蒂损失函数：

2)铰链损失函数：其中当x>0时，(x)₊＝x，否则(x)₊＝0；

3)最小二乘损失函数：

其中，n表示样本个数，x_i表示输入样例，y_i表示输出类标签，样本(x,y)服从某一分布D，f表示假设函数类H中的判别函数。

然而值得注意的是，上述几种期望误差的表示方式仅是一种具体实现方式，还可以采用其它的损失函数来表示期望误差，本申请在此不作限定。

在上述步骤102中，基于组合罚目标函数确定的域自适应泛化误差上界可以表示为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

考虑到上述自适应泛化误差上界在实际计算的时候由于样本个数不能趋于无限大，导致无法得到精确的解，发明人考虑将其转化为经验对称差距离计算，同时将上述泛化误差上界转化为只含单一参数α的泛化误差上界，便于计算多分类器协同训练的最优迭代步长，有效减少计算的复杂度，得到更快的收敛速度，具体的，基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器也就变化为：确定所述域自适应泛化误差上界的替代误差上界；基于所述替代误差上界，对两个以上分类器进行协同训练。

上述的域自适应泛化误差上界的替代误差上界可以表示为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

其中，目标域D_T的样例总个数为m'，其中，已标识样例个数为未标识样例个数为源域D_S的样例总个数为m'，都是已标识样例。

具体的，基于替代误差上界，对两个以上分类器进行协同训练，包括：

对每个分类器进行初始化，并为每个分类器分配训练样本；

对每个分类器迭代执行以下操作，直至迭代次数达到预定的最高迭代次数或者各个分类器的w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w取值，将求得的w的取值作为下一次重复操作时w的取值；

将求得的w的值作为所述目标函数的最优解。

可以将重复过程中的判别条件作为内循环条件，其中，该判别条件包括：

且

其中，t表示迭代次数，为正整数。

即，在协同训练到的过程中，需要保证第t次迭代的经验对称差距离小于等于第t-1次迭代的对称差距离，同时还要满足上述替代误差上界中第二项在第t次迭代中的取值要小于等于第t-1次迭代的取值。

在本例中，还提供了一种数据分类方法，包括：获取目标域样本数据；通过上述构造的域自适应分类器对所述样本数据进行分类。具体而言，就是根据多分类协同训练域自适应分类器的构造方法构造DA分类器，然后利用交叉校验计算参数，最后，利用构造的DA分类器，对目标域样本数据进行分类。

下面结合一个具体的实施例对对上述的域自适应分类器的构造方法，和数据分类方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本发明，并不构成对本发明的不当限定。

在本例中，构造的域自适应分类器能够有效地实现跨领域的数据分类，解决了源域分布和目标域分布不一致的问题，在保证收敛的前提下能够实现任意准确度的分类，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域学习问题。

具体的，域自适应分类器的构造方法主要包括：

S1：确定域自适应的罚目标函数；

S2：基于组合的罚目标函数确定域自适应的泛化误差上界；

S3：利用多分类器协同训练构造域自适应分类器。

在构造分类器的过程中，需要通过目标函数来衡量一个分类器的好坏，因此对目标函数的构造和求解是构建分类器十分重要的一步，目标函数所限定的是一个分类器的各项指标的好坏，目标函数的值越小表明构造的分类器越好，在本发明实施例中，构造的分类器所对应的目标函数为域自适应组合目标函数为可以是源域和目标域凸组合的期望误差，公式表示为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

其中，ε_α(h)表示组合罚目标函数，ε_T(h)表示目标域期望误差，ε_S(h)表示源域期望误差，α∈[0,1]，h表示假设函数类H中的参考假设函数，h：X→{0,1}。

上述的误差函数ε(h)可选为以下任意之一的损失函数表达式进行表示：

1)逻辑斯蒂损失函数：

2)铰链损失函数：其中当x>0时，(x)₊＝x，否则(x)₊＝0；

3)最小二乘损失函数：

进一步的，经验误差为可以表示为：其中，表示是使组合经验误差最小的假设函数，表示使目标域误差最小的假设函数。

上述的域自适应泛化误差上界可以表示为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

其中，假设函数类H是VC维维数为d的假设空间，S＝(S_T,S_S)为包含m个已标识样例的样本集，其中S_T为来自目标域D_T的βm个已标识样例集(其中，β通常很小)，S_S表示来自源域D_S的(1-β)m个已标识样例集，U_S,U_T表示个数为m'的未标识样例的样本集。

为了便于计算，将采用替代误差进行求解，上述域自适应泛化误差上界的替代误差上界可以表示为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

其中，目标域D_T的已标识样例个数为未标识样例个数为总个数为m'，源域D_S的样例均为已标识，个数为m'。

源域D_S和目标域D_T的对称差距离，可以表示为：

在进行分类器构造的过程中，假设协同训练第t次迭代的经验对称差距离为则第t+1次迭代的经验对称差距离需要满足

同时，替代误差上界所得到的每次协同训练的样本更新个数需要满足：

上述组合罚目标函数中的最优α更新数值可以取值为：

其中，

满足上述迭代条件可以保证协同训练过程中的域自适应分类器的准确度逐渐提高且能够充分利用更多的样本，同时可以人为地控制准确度和运算的时间成本，通过采用最新的度量判据：H散度下的对称差距离，可以更为有效地度量分布的偏差。

在本例中，采用多分类器协同训练的方式，对目标域的分类进行逐步的修正，多分类器能够相互提高分类的准确度，当各个分类器的w不再变化时，可以认为完成了分类器的构造，实现了跨区域的分类识别。具体的就是采用多个分类器对一个分类器进行误差修正，在泛化误差上界的约束下，每次的迭代都会改善各个分类器的学习性能，具体的迭代的步骤可以包括：

S1：设置多个初始分类器，设置最大迭代次数T；

S2：设置各个初始分类器的w的初始值和的初始值；

S3：重复执行以下步骤，直至满足预设的终止条件或者迭代次数大于T次：将当前各个分类器的w和的值作为已知值，并对已标识的样本个数为的未标识的目标域样例进行预测，将每个分类器与其它分类器分类结果不同的样例进行判别，根据判别结果确定是否在更新样本集后，将加入到该分类器的训练样本中，即是否：然后，依次迭代求解替代目标函数中w的最优值，得到各个分类器的下次迭代的w，当所有分类器的w不再变化时，将求得的w的最优值作为组合目标函数的最优解。

下面结合一个具体实施例进行说明，假设训练样本域的m'个已标识样本：

以及个目标域已标识样本：

目标域已标识样本和未标识样例的总个数为m'，需要对个目标域未标识样例集进行预测。x∈R^n×1为n维矢量，y∈{-1,1}，类标签y并不仅局限为y∈{-1,1}，对于多类问题，y∈{1,2,…n}，对回归问题y∈R。

在本例中采用多个分类器进行系统训练(假设有k个分类器)，第i个分类器为h_i,i∈(1,2,…k),对应的自身训练集合为L_i，训练过程包括以下步骤：

S1：初始化分类器h_i,i∈(1,2,…k)及对应的训练集合

S2：判断是否满足外循环条件，即：判断初始化后的第t≥3次迭代，任意的h_i,i∈(1,2,…k)是否不再变化；

S3：在满足外循环条件的条件下，分类器h_i,i∈(1,2,…k)对进行预测

S4：对任意如果至少有个分类器与分类器h_i对其预测结果相同，则否则不更新；

步骤S5：若满足内训练条件，则对分类器h_i更新，否则不更新，并重新令

步骤S6：对k个分类器进行更新，直至满足外循环条件；

步骤S7：输出最优域自适应分类器。

在本例中，还提供了一种域自适应分类器的构造模块，如图2所示，包括：组合目标函数构造单元201、组合目标函数的最优解模块202、分布偏差度量模块203、组合最优系数α更新模块204，多分类器的辨识及样本集更新模块205、交叉校验模块206。

组合目标函数的最优解模块202主要用于求解最优值问题，包括：将给定的训练样例，作为初始样本集；对初始样本集进行归一化处理；将归一化处理后的初始样本集分为训练样本集和测试样本集；在测试样本集上，使用共轭梯度法计算搜索方向，使用二次和三次多项式逼近和Wolfe-Powell停止判据进行线搜索，计算相应的搜索步长，求出组合目标函数的最优解，具体的：通过线搜索找到梯度下降最快的方向并作为初始方向，进行线搜索，直至满足Wolfe-Powell条件：σ∈(ρ,1)，其中，λ_k表示步长，参数ρ∈(0,0.5)，x_k和d_k均为常量，为搜索方向，在子区间内搜索局部最优解，如果未获得最优解，则采用共轭梯度方法计算新的搜索方向，即，通过线搜索找到梯度下降最快的方向并作为初始方向，进行线搜索，直至满足Wolfe-Powell条件，在子区间内求解局部最优解，如果未获得最优解，则采用共轭梯度方法计算新的搜索方向。

组合目标函数构造单元201中域自适应组合目标函数为：包括相应的参数集及样本集，可以使用组合目标函数的最优解模块202求解组合目标函数构造单元的最优值。

分布偏差度量模块203具体用于采用计算H散度下当前分类器的对称差距离来度量分布偏差，保证每一次的迭代都能够实现比上一次更为精确的准确率，且保证收敛。其中，H散度距离表示为：其中I(h)为参考假设函数h∈H的集合，即，如果x∈I(h)则h(x)＝1。

例如，两个采样个数为m的样本集合U和U'，其H散度距离的经验估计表示为：

对于假设函数，定义对称差假设空间HΔH为：其中，⊕表示对称差运算。每一个g∈HΔH表示H中的两个假设h和h'不一致的集合，源域D_S和目标域D_T的对称差距离为：

多分类器的学习及样本集更新模块204需要满足以下双层约束条件：

1)偏差度量约束条件；

2)不等式约束条件。

在一次迭代过程中，对于某一特定分类器，其样本集是否更新需要进行双重判断，首先，需要满足第t次的分布偏差度量要小于第t-1次，即，每次计算分类器h_i关于样本集U_S,U_T的对称差距离应满足：通过这个方式可以保证在每一次的迭代中总是能够克服跨域的数据差异；如果满足，则进一步判断不等式条件：

是否满足，当两者都满足时，则更新该分类器的训练样本集，根据更新的训练样本集学习新的分类器，此时更新标志update＝true；若不满足条件更新标志设为update＝false，直至每个分类器不再产生变化或已达到最大循环次数T时停止计算。

交叉校验模块205用于校验参数，提高分类器的性能，对域自适应分类器而言，需要对其给出一个分类算法优劣的数量指标，对于其他输入(非训练样本的输入)，判断与真实的y是否一致，然后将训练集中的训练点分成两部分，一部分作为算法中使用的训练集，其余的部分作为后续测试用的测试集，用域自适应分类器对测试集进行预测确定判别函数的准确率，以该准确率作为衡量标准进行参数的校验，具体的校验方式可以采用现有的校验方式进行，例如可以采用k倍交叉校验方式。

在本例中，所有的损失函数也可以表示为核化形式，本发明实施例的非线性核映射形式并不作为对本发明的限定：

其中，常用核函数包括：

1)阶次为p的多项式核函数：

2)单变量带权径向基核函数：

3)单变量带权神经元的非线性作用核函数：k(x_i,x_j)＝tanh(k(x_i)^T(x_j)-δ)；

其中，i和j表示样例下标；(x_i,y_i)表示样例标签对，x_i和x_j表示样例,q,δ,k,σ表示核参数，σ大于0。

具体的，本例的域自适应学习算法可以表示为：

Input:

labeled source example set(size m')：

labeled target example set

unlabeled target example set

For i∈{1,2,…,k}do

Learn

End

update＝false；

While all ofi∈{1，2，…，k}unchanged

For i＝{1,2,…k}

For

if h_i(x)＝h_j(x),i≠j,j∈subset{1,2,…,k}and size(subset)≤2/3m'

then

end if

compute d_HΔH(D_S,D_T)；

if

then if:

then update＝true；

end of if

if update＝true；

then

compute

update α：

If update＝true

learn h_i←learn(L_i)

End if

End of for

End of While

Output

在具体实现时，需要先确定罚目标函数的最优值α^*，然后根据计算的最优值α^*，确定组合目标函数，进一步的再利用多分类器协同训练算法对目标函数求最优，构造域自适应分类器。

在本例中，还提供了一种对目标域样本数据进行分类的方法，如图3所示，包括以下步骤：

步骤301：根据多分类协同训练域自适应分类器的构造方法，构造DA分类器；

步骤302：利用交叉校验计算参数；

步骤303：利用构造的DA分类器，对目标域样本数据进行分类。

基于同一发明构思，本发明实施例中还提供了一种域自适应分类器的构造装置，如下面的实施例所述。由于域自适应分类器的构造装置解决问题的原理与域自适应分类器的构造方法相似，因此域自适应分类器的构造装置的实施可以参见域自适应分类器的构造方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图4是本发明实施例的域自适应分类器的构造装置的一种结构框图，如图4所示，包括：目标函数确定模块401、泛化误差上界确定模块402和构造模块403，下面对该结构进行说明。

目标函数确定模块401，用于确定构造域自适应分类器的组合罚目标函数，其中，所述域自适应分类器是对目标域和源域的数据进行分类的分类器；

泛化误差上界确定模块402，用于基于所述组合罚目标函数确定域自适应泛化误差上界；

构造模块403，用于基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器。

在一个实施例中，上述目标函数确定模块401确定的组合罚目标函数为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

在一个实施例中，上述目标域期望误差和所述源域期望误差采用以下函数之一表示：逻辑斯蒂损失函数、铰链损失函数、最小二乘损失函数。

在一个实施例中，泛化误差上界确定模块402基于所述组合罚目标函数确定的域自适应泛化误差上界为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

在一个实施例中，构造模块403包括：转换单元，用于将确定的所述域自适应泛化误差上界转换为如下的替代误差上界：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

在一个实施例中，上述训练单元包括：

样本获取子单元，用于获取训练样本集，其中，所述训练样本集包括源域的训练样本和目标域的训练样本；初始化子单元，用于对每个分类器进行初始化，并为每个分类器分配训练样本；迭代子单元，用于对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w取值，将求得的w的取值作为下一次重复操作时w的取值；最优解确定子单元，用于将求得的w的值作为所述目标函数的最优解。

在一个实施例中，上述判别条件包括：

且

其中，t表示重复次数，为正整数。

本发明实施例还提供了一种数据分类装置，包括：数据获取模块，用于获取目标域样本数据；分类模块，用于通过上述域自适应分类器对所述样本数据进行分类。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

从以上的描述中，可以看出，本发明实施例实现了如下技术效果：先确定出域自适应组合罚目标函数，也就相当于确定了对目标域和源域进行分类的分类器的构造依据，然后，确定域自适应泛化误差上界，从而根据自适应泛化误差上界作为限定，进行分类器的构造，同时，在构造分类器的时候是采用多个分类器协同训练的方式进行构造的，使得多个分类器的功能不断提高，同时又可以保证算法的收敛性，解决了现有技术中源域和目标域分布不一致的问题，在保证收敛的前提下可以实现更为准确的分类别，大幅度地降低了计算复杂度，解决了普通模式识别无法处理的跨领域信息处理的问题。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种域自适应分类器的构造方法，其特征在于，包括：

基于所述组合罚目标函数确定域自适应泛化误差上界；

基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器；

其中，确定的所述组合罚目标函数为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

其中，ε_α(h)表示组合罚目标函数，ε_T(h)表示目标域期望误差，ε_S(h)表示源域期望误差，α∈[0,1]，h表示假设函数类H中的参考假设函数；

其中，基于所述组合罚目标函数确定的域自适应泛化误差上界为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

\begin{matrix} ϵ_{T} (\hat{h}) \leq ϵ_{T} (h_{T}^{*}) + 4 \sqrt{\frac{α^{2}}{β} + \frac{{(1 - α)}^{2}}{1 - β}} \times \sqrt{2 d l o g (2 (m + 1)) + 2 l o g (\frac{8}{δ})} \\ + 2 (1 - α) (\frac{1}{2} {\hat{d}}_{H Δ H} (U_{S}, U_{T}) + 4 \sqrt{\frac{2 d l o g (2 m^{'}) + \log (\frac{8}{δ})}{m^{'}}} + λ) \end{matrix}

其中，H表示d维假设空间的假设函数类，d表示维度，S＝(S_T,S_S)表示包含m个已标识样例的样本集，其中S_T表示来自目标域D_T的βm个已标识样例集，S_S表示来自源域D_S的(1-β)m个已标识样例集，U_S,U_T表示m'个未标识样例集，表示使组合经验误差取值最小的假设函数，其中，组合经验误差表示目标域经验误差，表示源域经验误差，表示使目标域误差最小的假设函数，表示源域和目标域的经验对称差距离，表示使组合经验误差取值最小的假设函数在目标域上的误差的数学期望，表示使目标域误差最小的假设函数在目标域上的误差的数学期望；

其中，基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，包括：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

\begin{matrix} ϵ_{T} (\hat{h}) \leq ϵ_{T} (h_{T}^{*}) + 4 \sqrt{\frac{2 α^{2}}{m_{T}^{L}}} \times \sqrt{2 d l o g (2 (m^{'} + m_{T}^{L} + 1)) + 2 l o g (\frac{8}{δ})} \\ + 2 (1 - α) (\frac{1}{2} {\hat{d}}_{H Δ H} (U_{S}, U_{T}) + 4 \sqrt{\frac{2 d l o g (2 m^{'}) + \log (\frac{8}{δ})}{m^{'}}} + λ) \end{matrix}

其中，目标域D_T的样例总个数为m'，其中，已标识样例个数为未标识样例个数为源域D_S的样例总个数为m'，都是已标识样例，δ表示使用算法的用户给出的分类算法的置信度参数；

基于所述替代误差上界，对两个以上分类器进行协同训练；

其中，基于所述替代误差上界，对两个以上分类器进行协同训练，包括：

对每个分类器进行初始化，并为每个分类器分配训练样本；

对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者各个分类器的权值w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w的取值，将求得的w的取值作为下一次重复操作时w的取值；

将求得的w的值作为所述目标函数的最优解；

其中，所述判别条件包括：

{[{\hat{d}}_{H Δ H} (D_{S}, D_{T})]}^{t} \leq {[{\hat{d}}_{H Δ H} (D_{S}, D_{T})]}^{t - 1},

且

其中，t表示重复次数，为正整数。

2.如权利要求1所述的方法，其特征在于，所述目标域期望误差和所述源域期望误差采用以下函数之一表示：逻辑斯蒂损失函数、铰链损失函数、最小二乘损失函数。

3.一种数据分类方法，其特征在于，包括：

获取目标域样本数据；

通过权利要求1或2所述的方法构造的域自适应分类器对所述样本数据进行分类。

4.一种域自适应分类器的构造装置，其特征在于，包括：

构造模块，用于基于所述自适应泛化误差上界，对两个以上分类器进行协同训练，构造出域自适应分类器；

其中，所述目标函数确定模块确定的组合罚目标函数为：

ε_α(h)＝αε_T(h)+(1-α)ε_S(h)

其中，所述泛化误差上界确定模块基于所述组合罚目标函数确定的域自适应泛化误差上界为：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

\begin{matrix} ϵ_{T} (\hat{h}) \leq ϵ_{T} (h_{T}^{*}) + 4 \sqrt{\frac{α^{2}}{β} + \frac{{(1 - α)}^{2}}{1 - β}} \times \sqrt{\frac{2 d l o g (2 (m + 1)) + 2 l o g (\frac{8}{δ})}{m}} \\ + 2 (1 - α) (\frac{1}{2} {\hat{d}}_{H Δ H} (U_{S}, U_{T}) + 4 \sqrt{\frac{2 d l o g (2 m^{'}) + \log (\frac{8}{δ})}{m^{'}}} + λ) \end{matrix}

其中，所述构造模块包括：

对于以至少1-δ的概率对所有h∈H成立以下不等式：

\begin{matrix} ϵ_{T} (\hat{h}) \leq ϵ_{T} (h_{T}^{*}) + 4 \sqrt{\frac{2 α^{2}}{m_{T}^{L}}} \times \sqrt{2 d l o g (2 (m^{'} + m_{T}^{L} + 1)) + 2 l o g (\frac{8}{δ})} \\ + 2 (1 - α) (\frac{1}{2} {\hat{d}}_{H Δ H} (U_{S}, U_{T}) + 4 \sqrt{\frac{2 d l o g (2 m^{'}) + \log (\frac{8}{δ})}{m^{'}}} + λ) \end{matrix}

训练单元，用于基于所述替代误差上界，对两个以上分类器进行协同训练；

其中，所述训练单元包括：

迭代子单元，用于对每个分类器重复执行以下操作，直至重复次数达到预定的最高重复次数或者各个分类器的权值w的值不再变化：按照分类器当前的训练样本和w的值，对未标识的目标域样例进行预测，对预测到的与其它分类器的预测结果不同的样例进行判别，如果满足判别条件，则将其它分类器中该样例的预测结果作为已标识样例更新到该分类器的训练样本中，依次迭代求得所述目标函数中w的取值，将求得的w的取值作为下一次重复操作时w的取值；

最优解确定子单元，用于将求得的w的值作为所述目标函数的最优解；

其中，所述判别条件包括：

{[{\hat{d}}_{H Δ H} (D_{S}, D_{T})]}^{t} \leq {[{\hat{d}}_{H Δ H} (D_{S}, D_{T})]}^{t - 1},

且

其中，t表示重复次数，为正整数。

5.如权利要求4所述的装置，其特征在于，所述目标域期望误差和所述源域期望误差采用以下函数之一表示：逻辑斯蒂损失函数、铰链损失函数、最小二乘损失函数。

6.一种数据分类装置，其特征在于，包括：

数据获取模块，用于获取目标域样本数据；

分类模块，用于通过权利要求4或5构造的域自适应分类器对所述样本数据进行分类。