CN110365583A

CN110365583A - 一种基于桥接域迁移学习的符号预测方法及系统

Info

Publication number: CN110365583A
Application number: CN201910644073.7A
Authority: CN
Inventors: 袁伟伟; 庞嘉丽; 关东海; 李晨亮
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-10-22
Anticipated expiration: 2039-07-17
Also published as: CN110365583B

Abstract

本发明公开了一种基于桥接域迁移学习的符号预测方法及系统。本发明的预测方法使用桥接域可使无交集的网络产生公共知识空间，从而将有符号网络的知识高效迁移到无符号的目标网络。本发明的预测方法基于地位理论的桥接域选择算法不仅通用性高，且可在无需任何桥接域符号信息的情况下对目标域进行预测。本发明的预测方法还可有效去除干扰样本，从而保证可靠知识的有效迁移，且预测误差小，可精准预测出目标网络中的符号信息。

Description

一种基于桥接域迁移学习的符号预测方法及系统

技术领域

本发明涉及网络信息处理领域，特别是涉及一种基于桥接域迁移学习的符号预测方法及系统。

背景技术

符号预测问题的任务是预测符号网络中链接的符号。符号网络是指网络中的边具有符号的网络，其中正符号表示用户间的正相关关系，负符号表示用户间的负相关关系。对符号社会网络中链接的正负预测问题进行研究，其成果对社会网络的个性化推荐、网络中异常节点的识别、用户聚类等都具有非常重要的应用价值。然而，获取专家标记的符号信息的成本很高，因此无法完全获取符号信息，甚至完全获取不到，所以符号社会网络中的数据不足是近年来符号预测问题中不可避免的技术挑战。因此，迁移学习作为一种机器学习方法可以有效解决该问题：它通过适当的算法将知识从一个有标签网络迁移到另一个网络(即符号待预测网络)。如何利用少量的有标签训练样本或者源数据域，建立一个可靠的模型对目标域数据进行预测(源域和目标域可以不具有相同的数据分布)就是迁移学习中要解决的核心问题。

解决迁移学习的核心问题是如何获得适当的知识，以减少两个或多个域之间的差异所带来的影响。现有的通过将源域和目标域中的特征向量映射到高维特征向量空间中，从而得到共同的特征向量表示方法作为可迁移的知识。但是映射过程需要目标网络中的标签来辅助，因此，它们不能在未知网络中工作。另外，现有的利用稀疏编码重构源域特征，训练不带目标标签的分类器，可以预测未知标签。然而，它不能消除噪声和无用知识对源域和目标域的相当大的负面影响。

为了在没有重叠知识的域之间获得更有用的知识，减少源域和目标域之间的负迁移，提出了一种传递迁移学习方法(TTL)。TTL通过选择中间域将标签信息从源域传播到目标域，将知识从源域传输到目标域。但是，中间域的选择仍然是一个待解决的现实问题，由于社会网络的符号稀疏和分布不均衡，TTL在社会网络中无法进行符号预测。现有的通过选择有用实例来选择实例，可以克服社会网络中符号分布的稀疏性和不平衡性问题，但在这些被舍弃的实例中会丢失有用的信息，无法实现具有多样性的社会网络的预测。

发明内容

本发明的目的是提供一种基于桥接域迁移学习的符号预测方法及系统，以确定出最佳桥接域来完成大跨度域间知识迁移，克服有用信息丢失的技术缺陷，同时筛选并去除了干扰样本，以保证源域和选定中间域中可转移知识更纯净，有效避免了负迁移现象。

为实现上述目的，本发明提供了如下方案：

一种基于桥接域迁移学习的符号预测方法，所述预测方法包括如下步骤：

根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域；

建立包括源域、最佳桥接域和目标域的可迁移组；

根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差；

根据所述源域的重构误差去除所述源域中的干扰样本，得到去除干扰样本后的源域；根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差，得到去除干扰样本后的桥接域；

采用去除干扰样本后的源域的样本训练集成型符号分类器，得到训练后的集成型符号分类器；

利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号，获得去除干扰样本后的桥接域的样本，利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。

可选的，所述根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域，具体包括：

利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组；

利用A距离阈值将所述第i个三元组符号化，得到第i个符号化后的三元组：

判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果，

若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件，将第i个桥接域添加至候选桥接域集合；

判断i的数值是否小于桥接域集合中桥接域的总数，得到第二判断结果；

若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数，则i的数值增加1返回步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组”；

若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数，则利用域复杂度计算公式，计算所述候选桥接域集合中每个桥接域的域复杂度；

选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。

可选的，所述A距离计算公式为：

表示域D_i，与域D_j，之间的A距离，α和β分别为第一正则因子和第二正则因子，C_error(·)表示由分类器产生的分类误差，X_i和X_j分别为域D_i与域D_j的特征向量集合，h是假设空间H中的一个元素。

可选的，所述域复杂度计算公式为：

其中，DC(D)表示域D的域复杂度，f_i是域D的第i类特征；N(f_i)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量；ρ表示比例系数；M是特征类别数；Num是D中样本个数。

可选的，所述根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差，具体包括：

确定所述可迁移组的特征向量：(X_S，X_I，X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量；

建立所述可迁移组的特征向量的重构方程组：

其中，各自表示X_I，X_S和X_T的转置，W_SI表示将源域特征向量映射到候选中间域特征空间的变换矩阵，W_IT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵。

利用奇异值分解法，求解所述重构方程组，得到重构方程组的解：

其中，和分别是和的广义逆，y₁和y₂是任意n维向量，n是目标域样本个数；

根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量，得到源域重构特征向量和最佳桥接域特征向量

利用公式计算所述源于重构特征向量和所述源域的特征向量的差值，得到源域的重构误差E_S-I，利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值，得到最佳桥接域的重构误差E_I-T。

一种基于桥接域迁移学习的符号预测系统，所述预测系统包括：

最佳桥接域选取模块，用于根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域；

可迁移组建立模块，用于建立包括源域、最佳桥接域和目标域的可迁移组；

重构误差计算模块，用于根据所述可迁移组计算所述源域的重构误差和所述最佳桥接域的重构误差；

干扰样本去除模块，用于根据所述源域的重构误差去除所述源域中的干扰样本，得到去除干扰样本后的源域；根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差，得到去除干扰样本后的桥接域；

训练模块，用于采用去除干扰样本后的源域的样本训练集成型符号分类器，得到训练后的集成型符号分类器；

预测模块，用于利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号，获得去除干扰样本后的桥接域的样本，利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。

可选的，所述最佳桥接域选取模块，具体包括：

A距离计算子模块，用于利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组；

符号化子模块，用于利用A距离阈值将所述第i个三元组符号化，得到第i个符号化后的三元组；

第一判断子模块，用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果，

第一判断结果处理子模块，用于若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件，将第i个桥接域添加至候选桥接域集合；

第二判断子模块，用于判断i的数值是否小于桥接域集合中桥接域的总数，得到第二判断结果；

第二判断结果处理子模块，用于若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数，则i的数值增加1，调用A距离计算子模块，执行步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组”；

域复杂度计算子模块，用于若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数，则利用域复杂度计算公式，计算所述候选桥接域集合中每个桥接域的域复杂度；

最佳桥接域选取子模块，用于选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。

可选的，所述A距离计算公式为：

可选的，所述域复杂度计算公式为：

可选的，所述重构误差计算模块，具体包括：

特征向量确定子模块，用于确定所述可迁移组的特征向量：(X_S，X_I，X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量；

重构方程组建立子模块，用于建立所述可迁移组的特征向量的重构方程组：

重构方程组求解子模块，用于利用奇异值分解法，求解所述重构方程组，得到重构方程组的解：

特征向量重构子模块，用于根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量，得到源域重构特征向量和最佳桥接域特征向量

重构误差计算子模块，用于利用公式计算所述源于重构特征向量和所述源域的特征向量的差值，得到源域的重构误差E_S-I，利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值，得到最佳桥接域的重构误差E_I-T。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提出了一种基于桥接域迁移学习的符号预测方法及系统。本发明的预测方法使用桥接域可使无交集的网络产生公共知识空间，从而将有符号网络的知识高效迁移到无符号的目标网络。本发明的预测方法基于地位理论的桥接域选择算法不仅通用性高，且可在无需任何桥接域符号信息的情况下对目标域进行预测。本发明的预测方法还可有效去除干扰样本，从而保证可靠知识的有效迁移，且预测误差小，可精准预测出目标网络中的符号信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于桥接域迁移学习的符号预测方法的流程图；

图2为本发明的一种基于桥接域迁移学习的符号预测系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

迁移学习即研究如何从信息丰富的数据域(即源域)迁移知识到缺失信息的数据域(即目标域)。令D_S为源域，表示n个桥接域，组成桥接域集合，D_T表示目标域，提取X_S和X_T分别作为源域和目标域的特征向量，Y_S表示源域的符号集。令(X_S，Y_S)和(X_T，Y_T)分别表示源域和目标域的样本集。在无标签社会网络中的符号预测问题中，Y_T未知，且D_S和D_T分布相差甚远，本发明使用源域样本集来训练符号分类器，再用该分类器预测Y_T。

如图1所示，本发明提供一种基于桥接域迁移学习的符号预测方法，所述预测方法包括如下步骤：

步骤101，根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域。

具体包括：

利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离第i个桥接域与目标域的A距离源域与目标域的A距离得到第i个三元组

利用A距离阈值将所述第i个三元组符号化，得到第i个符号化后的三元组。计算所有可迁移组中的A距离的平均值，再对每个均值求均值作为A距离阈值σ；通过A距离阈值σ将三元组符号化，具体的，对三元组中的每一个元素，记大于阈值σ的A距离为“+”，小于等于σ的为“-”。

判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果；若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件，将第i个桥接域添加至候选桥接域集合。

判断i的数值是否小于桥接域集合中桥接域的总数，得到第二判断结果；若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数，则i的数值增加1返回步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组”。

若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数，则利用域复杂度计算公式，计算所述候选桥接域集合中每个桥接域的域复杂度；选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。

其中，所述A距离计算公式为：

所述域复杂度计算公式为：

步骤102，建立包括源域、最佳桥接域和目标域的可迁移组。

步骤103，根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差。

具体包括：提取最佳桥接域D_I的特征向量X_I，确定所述可迁移组的特征向量：(X_S，X_I，X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量。

建立所述可迁移组的特征向量的重构方程组：

其中，和分别是和的广义逆，y₁和y₂是任意n维向量，n是目标域样本个数。

步骤104，根据所述源域的重构误差去除所述源域中的干扰样本，得到去除干扰样本后的源域；根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差，得到去除干扰样本后的桥接域。

根据E_S-I和E_I-T筛选并去除X_S和X_I中的干扰样本。利用将源域特征向量映射到候选中间域特征空间的变换矩阵W_SI中或将候选中间域的特征向量映射到目标域特征空间的变换矩阵W_IT中的对应元素重构X_S或X_I中每一个样本，并计算每一个样本的重构误差范数，假设样本为X_*，记重构后的结果为X_*′，计算重构误差范数为e＝||X_*′-X_*||²。根据每个样本的重构误差范数和所述重构误差，去除干扰样本，具体的，若或则该X_*被判定为干扰样本，并从原来的特征向量集合中去除，其中m和n分别是X_S和X_I的元素个数；p_s和p_i为防止过拟合的参数。

步骤105，采用去除干扰样本后的源域的样本训练集成型符号分类器，得到训练后的集成型符号分类器；

训练采用的符号分类器是AdaBoost类型的集成分类器；将目标域划分成小部分测试样本集合和大部分待预测集合，用有标签的源域样本和中间域样本训练，用剩下的目标域样本测试。输入是去除干扰样本后的源域样本(有标签)和中间域样本(无标签)，以及少部分目标域样本(无标签)，最终输出是整个目标域样本标签的预测值。

步骤106，利用所述去除干扰样本后的源域的样本(X_S，Y_S)和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号Y_I，获得去除干扰样本后的桥接域的样本(X_I，Y_I)，利用去除干扰样本后的桥接域的样本(X_I，Y_I)和所述训练后的集成型符号分类器预测目标域的标签符号Y_T。

如图2所示，本发明还提供一种基于桥接域迁移学习的符号预测系统，所述预测系统包括：

最佳桥接域选取模块201，用于根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域。

所述最佳桥接域选取模块，具体包括：A距离计算子模块，用于利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组；符号化子模块，用于利用A距离阈值将所述第i个三元组符号化，得到第i个符号化后的三元组；第一判断子模块，用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果；第一判断结果处理子模块，用于若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件，将第i个桥接域添加至候选桥接域集合；第二判断子模块，用于判断i的数值是否小于桥接域集合中桥接域的总数，得到第二判断结果；第二判断结果处理子模块，用于若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数，则i的数值增加1，调用A距离计算子模块，执行步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离，第i个桥接域与目标域的A距离，源域与目标域的A距离，得到第i个三元组”；域复杂度计算子模块，用于若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数，则利用域复杂度计算公式，计算所述候选桥接域集合中每个桥接域的域复杂度；最佳桥接域选取子模块，用于选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。

其中，所述A距离计算公式为：

所述域复杂度计算公式为：

可迁移组建立模块202，用于建立包括源域、最佳桥接域和目标域的可迁移组；

重构误差计算模块203，用于根据所述可迁移组计算所述源域的重构误差和所述最佳桥接域的重构误差。

所述重构误差计算模块，具体包括：特征向量确定子模块，用于确定所述可迁移组的特征向量：(X_S，X_I，X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量；重构方程组建立子模块，用于建立所述可迁移组的特征向量的重构方程组：

其中，各自表示X_I,X_S和X_T的转置，W_SI表示将源域特征向量映射到候选中间域特征空间的变换矩阵，W_IT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵；

重构方程组求解子模块，用于利用奇异值分解法，求解所述重构方程组，得到重构方程组的解：其中，和分别是和勺广义逆，y₁和y₂是任意n维向量，n是目标域样本个数；特征向量重构子模块，用于根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量，得到源域重构特征向量和最佳桥接域特征向量重构误差计算子模块，用于利用公式计算所述源于重构特征向量和所述源域的特征向量的差值，得到源域的重构误差E_S-I，利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值，得到最佳桥接域的重构误差E_I-T。

干扰样本去除模块204，用于根据所述源域的重构误差去除所述源域中的干扰样本，得到去除干扰样本后的源域；根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差，得到去除干扰样本后的桥接域。

训练模块205，用于采用去除干扰样本后的源域的样本训练集成型符号分类器，得到训练后的集成型符号分类器；

预测模块206，用于利用所述去除干扰样本后的源域的样本(X_S，Y_S)和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号Y_I，获得去除干扰样本后的桥接域的样本(X_I，Y_I)，利用去除干扰样本后的桥接域的样本(X_I，Y_I)和所述训练后的集成型符号分类器预测目标域的标签符号Y_T。

本发明相比于现有方法的主要优点体现在以下四点：

1.基于桥接域迁移学习的符号预测方法引入了桥接域将知识从完全不相关的源域网络迁移到无标签目标网络，实现了网络间的大跨度知识迁移功能，从而大幅增加迁移学习中源域网络的候选范围。

2.本发明的桥接域选择算法结合了社会心理学中的地位理论，在社会网络中具有较强的通用性。

3.本发明可在桥接域无任何符号信息的情况下预测目标域符号，数据获取成本低，更适用于实际应用环境。

4.本发明通过重构样本筛选并去除了源域和中间域的干扰样本，可有效提升符号预测性能。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于桥接域迁移学习的符号预测方法，其特征在于，所述预测方法包括如下步骤：

建立包括源域、最佳桥接域和目标域的可迁移组；

2.根据权利要求1所述的基于桥接域迁移学习的符号预测方法，其特征在于，所述根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域，具体包括：

利用A距离阈值将所述第i个三元组符号化，得到第i个符号化后的三元组；

判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果；

3.根据权利要求2所述的基于桥接域迁移学习的符号预测方法，其特征在于，所述A距离计算公式为：

表示域D_i,与域D_j,之间的A距离，α和β分别为第一正则因子和第二正则因子，C_error(·)表示由分类器产生的分类误差，X_i和X_j分别为域D_i与域D_j的特征向量集合，h是假设空间H中的一个元素。

4.根据权利要求2所述的基于桥接域迁移学习的符号预测方法，其特征在于，所述域复杂度计算公式为：

5.根据权利要求1所述的基于桥接域迁移学习的符号预测方法，其特征在于，所述根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差，具体包括：

确定所述可迁移组的特征向量：(X_S,X_I,X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量；

建立所述可迁移组的特征向量的重构方程组：

其中，分别表示X_I，X_S和X_T的转置，W_SI表示将源域特征向量映射到最佳桥接域特征空间的变换矩阵，W_IT表示将最佳桥接域的特征向量映射到目标域特征空间的变换矩阵；

6.一种基于桥接域迁移学习的符号预测系统，其特征在于，所述预测系统包括：

7.根据权利要求6所述的基于桥接域迁移学习的符号预测系统，其特征在于，所述最佳桥接域选取模块，具体包括：

第一判断子模块，用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件，得到第一判断结果；

8.根据权利要求7所述的基于桥接域迁移学习的符号预测系统，其特征在于，所述A距离计算公式为：

9.根据权利要求7所述的基于桥接域迁移学习的符号预测系统，其特征在于，所述域复杂度计算公式为：

10.根据权利要求6所述的基于桥接域迁移学习的符号预测系统，其特征在于，所述重构误差计算模块，具体包括：

特征向量确定子模块，用于确定所述可迁移组的特征向量：(X_S,X_I,X_T)，其中，X_S、X_I和X_T分别表示源域、最佳桥接域和目标域的特征向量；