CN110365583A - 一种基于桥接域迁移学习的符号预测方法及系统 - Google Patents
一种基于桥接域迁移学习的符号预测方法及系统 Download PDFInfo
- Publication number
- CN110365583A CN110365583A CN201910644073.7A CN201910644073A CN110365583A CN 110365583 A CN110365583 A CN 110365583A CN 201910644073 A CN201910644073 A CN 201910644073A CN 110365583 A CN110365583 A CN 110365583A
- Authority
- CN
- China
- Prior art keywords
- domain
- bridged
- bridged domain
- source
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4604—LAN interconnection over a backbone network, e.g. Internet, Frame Relay
- H04L12/462—LAN interconnection over a bridge based backbone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/04—Interdomain routing, e.g. hierarchical routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
Abstract
本发明公开了一种基于桥接域迁移学习的符号预测方法及系统。本发明的预测方法使用桥接域可使无交集的网络产生公共知识空间,从而将有符号网络的知识高效迁移到无符号的目标网络。本发明的预测方法基于地位理论的桥接域选择算法不仅通用性高,且可在无需任何桥接域符号信息的情况下对目标域进行预测。本发明的预测方法还可有效去除干扰样本,从而保证可靠知识的有效迁移,且预测误差小,可精准预测出目标网络中的符号信息。
Description
技术领域
本发明涉及网络信息处理领域,特别是涉及一种基于桥接域迁移学习的符号预测方法及系统。
背景技术
符号预测问题的任务是预测符号网络中链接的符号。符号网络是指网络中的边具有符号的网络,其中正符号表示用户间的正相关关系,负符号表示用户间的负相关关系。对符号社会网络中链接的正负预测问题进行研究,其成果对社会网络的个性化推荐、网络中异常节点的识别、用户聚类等都具有非常重要的应用价值。然而,获取专家标记的符号信息的成本很高,因此无法完全获取符号信息,甚至完全获取不到,所以符号社会网络中的数据不足是近年来符号预测问题中不可避免的技术挑战。因此,迁移学习作为一种机器学习方法可以有效解决该问题:它通过适当的算法将知识从一个有标签网络迁移到另一个网络(即符号待预测网络)。如何利用少量的有标签训练样本或者源数据域,建立一个可靠的模型对目标域数据进行预测(源域和目标域可以不具有相同的数据分布)就是迁移学习中要解决的核心问题。
解决迁移学习的核心问题是如何获得适当的知识,以减少两个或多个域之间的差异所带来的影响。现有的通过将源域和目标域中的特征向量映射到高维特征向量空间中,从而得到共同的特征向量表示方法作为可迁移的知识。但是映射过程需要目标网络中的标签来辅助,因此,它们不能在未知网络中工作。另外,现有的利用稀疏编码重构源域特征,训练不带目标标签的分类器,可以预测未知标签。然而,它不能消除噪声和无用知识对源域和目标域的相当大的负面影响。
为了在没有重叠知识的域之间获得更有用的知识,减少源域和目标域之间的负迁移,提出了一种传递迁移学习方法(TTL)。TTL通过选择中间域将标签信息从源域传播到目标域,将知识从源域传输到目标域。但是,中间域的选择仍然是一个待解决的现实问题,由于社会网络的符号稀疏和分布不均衡,TTL在社会网络中无法进行符号预测。现有的通过选择有用实例来选择实例,可以克服社会网络中符号分布的稀疏性和不平衡性问题,但在这些被舍弃的实例中会丢失有用的信息,无法实现具有多样性的社会网络的预测。
发明内容
本发明的目的是提供一种基于桥接域迁移学习的符号预测方法及系统,以确定出最佳桥接域来完成大跨度域间知识迁移,克服有用信息丢失的技术缺陷,同时筛选并去除了干扰样本,以保证源域和选定中间域中可转移知识更纯净,有效避免了负迁移现象。
为实现上述目的,本发明提供了如下方案:
一种基于桥接域迁移学习的符号预测方法,所述预测方法包括如下步骤:
根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域;
建立包括源域、最佳桥接域和目标域的可迁移组;
根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差;
根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域;
采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号,获得去除干扰样本后的桥接域的样本,利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。
可选的,所述根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域,具体包括:
利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组;
利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组:
判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果,
若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合;
判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;
若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1返回步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”;
若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;
选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
可选的,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
可选的,所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
可选的,所述根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差,具体包括:
确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量;
建立所述可迁移组的特征向量的重构方程组:
其中,各自表示XI,XS和XT的转置,WSI表示将源域特征向量映射到候选中间域特征空间的变换矩阵,WIT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵。
利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:
其中,和分别是和的广义逆,y1和y2是任意n维向量,n是目标域样本个数;
根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量
利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
一种基于桥接域迁移学习的符号预测系统,所述预测系统包括:
最佳桥接域选取模块,用于根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域;
可迁移组建立模块,用于建立包括源域、最佳桥接域和目标域的可迁移组;
重构误差计算模块,用于根据所述可迁移组计算所述源域的重构误差和所述最佳桥接域的重构误差;
干扰样本去除模块,用于根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域;
训练模块,用于采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
预测模块,用于利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号,获得去除干扰样本后的桥接域的样本,利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。
可选的,所述最佳桥接域选取模块,具体包括:
A距离计算子模块,用于利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组;
符号化子模块,用于利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组;
第一判断子模块,用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果,
第一判断结果处理子模块,用于若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合;
第二判断子模块,用于判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;
第二判断结果处理子模块,用于若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1,调用A距离计算子模块,执行步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”;
域复杂度计算子模块,用于若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;
最佳桥接域选取子模块,用于选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
可选的,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
可选的,所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
可选的,所述重构误差计算模块,具体包括:
特征向量确定子模块,用于确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量;
重构方程组建立子模块,用于建立所述可迁移组的特征向量的重构方程组:
其中,各自表示XI,XS和XT的转置,WSI表示将源域特征向量映射到候选中间域特征空间的变换矩阵,WIT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵。
重构方程组求解子模块,用于利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:
其中,和分别是和的广义逆,y1和y2是任意n维向量,n是目标域样本个数;
特征向量重构子模块,用于根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量
重构误差计算子模块,用于利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种基于桥接域迁移学习的符号预测方法及系统。本发明的预测方法使用桥接域可使无交集的网络产生公共知识空间,从而将有符号网络的知识高效迁移到无符号的目标网络。本发明的预测方法基于地位理论的桥接域选择算法不仅通用性高,且可在无需任何桥接域符号信息的情况下对目标域进行预测。本发明的预测方法还可有效去除干扰样本,从而保证可靠知识的有效迁移,且预测误差小,可精准预测出目标网络中的符号信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于桥接域迁移学习的符号预测方法的流程图;
图2为本发明的一种基于桥接域迁移学习的符号预测系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于桥接域迁移学习的符号预测方法及系统,以确定出最佳桥接域来完成大跨度域间知识迁移,克服有用信息丢失的技术缺陷,同时筛选并去除了干扰样本,以保证源域和选定中间域中可转移知识更纯净,有效避免了负迁移现象。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
迁移学习即研究如何从信息丰富的数据域(即源域)迁移知识到缺失信息的数据域(即目标域)。令DS为源域,表示n个桥接域,组成桥接域集合,DT表示目标域,提取XS和XT分别作为源域和目标域的特征向量,YS表示源域的符号集。令(XS,YS)和(XT,YT)分别表示源域和目标域的样本集。在无标签社会网络中的符号预测问题中,YT未知,且DS和DT分布相差甚远,本发明使用源域样本集来训练符号分类器,再用该分类器预测YT。
如图1所示,本发明提供一种基于桥接域迁移学习的符号预测方法,所述预测方法包括如下步骤:
步骤101,根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域。
具体包括:
利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离第i个桥接域与目标域的A距离源域与目标域的A距离得到第i个三元组
利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组。计算所有可迁移组中的A距离的平均值,再对每个均值求均值作为A距离阈值σ;通过A距离阈值σ将三元组符号化,具体的,对三元组中的每一个元素,记大于阈值σ的A距离为“+”,小于等于σ的为“-”。
判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果;若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合。
判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1返回步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”。
若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
其中,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
步骤102,建立包括源域、最佳桥接域和目标域的可迁移组。
步骤103,根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差。
具体包括:提取最佳桥接域DI的特征向量XI,确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量。
建立所述可迁移组的特征向量的重构方程组:
其中,各自表示XI,XS和XT的转置,WSI表示将源域特征向量映射到候选中间域特征空间的变换矩阵,WIT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵。
利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:
其中,和分别是和的广义逆,y1和y2是任意n维向量,n是目标域样本个数。
根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量
利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
步骤104,根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域。
根据ES-I和EI-T筛选并去除XS和XI中的干扰样本。利用将源域特征向量映射到候选中间域特征空间的变换矩阵WSI中或将候选中间域的特征向量映射到目标域特征空间的变换矩阵WIT中的对应元素重构XS或XI中每一个样本,并计算每一个样本的重构误差范数,假设样本为X*,记重构后的结果为X*′,计算重构误差范数为e=||X*′-X*||2。根据每个样本的重构误差范数和所述重构误差,去除干扰样本,具体的,若或则该X*被判定为干扰样本,并从原来的特征向量集合中去除,其中m和n分别是XS和XI的元素个数;ps和pi为防止过拟合的参数。
步骤105,采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
训练采用的符号分类器是AdaBoost类型的集成分类器;将目标域划分成小部分测试样本集合和大部分待预测集合,用有标签的源域样本和中间域样本训练,用剩下的目标域样本测试。输入是去除干扰样本后的源域样本(有标签)和中间域样本(无标签),以及少部分目标域样本(无标签),最终输出是整个目标域样本标签的预测值。
步骤106,利用所述去除干扰样本后的源域的样本(XS,YS)和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号YI,获得去除干扰样本后的桥接域的样本(XI,YI),利用去除干扰样本后的桥接域的样本(XI,YI)和所述训练后的集成型符号分类器预测目标域的标签符号YT。
如图2所示,本发明还提供一种基于桥接域迁移学习的符号预测系统,所述预测系统包括:
最佳桥接域选取模块201,用于根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域。
所述最佳桥接域选取模块,具体包括:A距离计算子模块,用于利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组;符号化子模块,用于利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组;第一判断子模块,用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果;第一判断结果处理子模块,用于若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合;第二判断子模块,用于判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;第二判断结果处理子模块,用于若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1,调用A距离计算子模块,执行步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”;域复杂度计算子模块,用于若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;最佳桥接域选取子模块,用于选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
其中,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
可迁移组建立模块202,用于建立包括源域、最佳桥接域和目标域的可迁移组;
重构误差计算模块203,用于根据所述可迁移组计算所述源域的重构误差和所述最佳桥接域的重构误差。
所述重构误差计算模块,具体包括:特征向量确定子模块,用于确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量;重构方程组建立子模块,用于建立所述可迁移组的特征向量的重构方程组:
其中,各自表示XI,XS和XT的转置,WSI表示将源域特征向量映射到候选中间域特征空间的变换矩阵,WIT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵;
重构方程组求解子模块,用于利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:其中,和分别是和勺广义逆,y1和y2是任意n维向量,n是目标域样本个数;特征向量重构子模块,用于根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量 重构误差计算子模块,用于利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
干扰样本去除模块204,用于根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域。
训练模块205,用于采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
预测模块206,用于利用所述去除干扰样本后的源域的样本(XS,YS)和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号YI,获得去除干扰样本后的桥接域的样本(XI,YI),利用去除干扰样本后的桥接域的样本(XI,YI)和所述训练后的集成型符号分类器预测目标域的标签符号YT。
本发明相比于现有方法的主要优点体现在以下四点:
1.基于桥接域迁移学习的符号预测方法引入了桥接域将知识从完全不相关的源域网络迁移到无标签目标网络,实现了网络间的大跨度知识迁移功能,从而大幅增加迁移学习中源域网络的候选范围。
2.本发明的桥接域选择算法结合了社会心理学中的地位理论,在社会网络中具有较强的通用性。
3.本发明可在桥接域无任何符号信息的情况下预测目标域符号,数据获取成本低,更适用于实际应用环境。
4.本发明通过重构样本筛选并去除了源域和中间域的干扰样本,可有效提升符号预测性能。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于桥接域迁移学习的符号预测方法,其特征在于,所述预测方法包括如下步骤:
根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域;
建立包括源域、最佳桥接域和目标域的可迁移组;
根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差;
根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域;
采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号,获得去除干扰样本后的桥接域的样本,利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。
2.根据权利要求1所述的基于桥接域迁移学习的符号预测方法,其特征在于,所述根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域,具体包括:
利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组;
利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组;
判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果;
若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合;
判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;
若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1返回步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”;
若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;
选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
3.根据权利要求2所述的基于桥接域迁移学习的符号预测方法,其特征在于,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
4.根据权利要求2所述的基于桥接域迁移学习的符号预测方法,其特征在于,所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
5.根据权利要求1所述的基于桥接域迁移学习的符号预测方法,其特征在于,所述根据所述可迁移组确定所述源域的重构误差和所述最佳桥接域的重构误差,具体包括:
确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量;
建立所述可迁移组的特征向量的重构方程组:
其中,分别表示XI,XS和XT的转置,WSI表示将源域特征向量映射到最佳桥接域特征空间的变换矩阵,WIT表示将最佳桥接域的特征向量映射到目标域特征空间的变换矩阵;
利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:
其中,和分别是和的广义逆,y1和y2是任意n维向量,n是目标域样本个数;
根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量
利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
6.一种基于桥接域迁移学习的符号预测系统,其特征在于,所述预测系统包括:
最佳桥接域选取模块,用于根据A距离和域复杂度在桥接域集合中选取源域与目标域的最佳桥接域;
可迁移组建立模块,用于建立包括源域、最佳桥接域和目标域的可迁移组;
重构误差计算模块,用于根据所述可迁移组计算所述源域的重构误差和所述最佳桥接域的重构误差;
干扰样本去除模块,用于根据所述源域的重构误差去除所述源域中的干扰样本,得到去除干扰样本后的源域;根据所述最佳桥接域的重构误差去除所述最佳桥接域的重构误差,得到去除干扰样本后的桥接域;
训练模块,用于采用去除干扰样本后的源域的样本训练集成型符号分类器,得到训练后的集成型符号分类器;
预测模块,用于利用所述去除干扰样本后的源域的样本和所述训练后的集成型符号分类器预测所述去除干扰样本后的桥接域的标签符号,获得去除干扰样本后的桥接域的样本,利用去除干扰样本后的桥接域的样本和所述训练后的集成型符号分类器预测目标域的标签符号。
7.根据权利要求6所述的基于桥接域迁移学习的符号预测系统,其特征在于,所述最佳桥接域选取模块,具体包括:
A距离计算子模块,用于利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组;
符号化子模块,用于利用A距离阈值将所述第i个三元组符号化,得到第i个符号化后的三元组;
第一判断子模块,用于判断所述第i个符号化后的三元组是否满足地位理论的平衡条件,得到第一判断结果;
第一判断结果处理子模块,用于若所述第一判断结果为所述第i个符号化后的三元组满足地位理论的平衡条件,将第i个桥接域添加至候选桥接域集合;
第二判断子模块,用于判断i的数值是否小于桥接域集合中桥接域的总数,得到第二判断结果;
第二判断结果处理子模块,用于若所述第二判断结果表示i的数值小于桥接域集合中桥接域的总数,则i的数值增加1,调用A距离计算子模块,执行步骤“利用A距离计算公式分别计算所述源域与桥接域集合中第i个桥接域的A距离,第i个桥接域与目标域的A距离,源域与目标域的A距离,得到第i个三元组”;
域复杂度计算子模块,用于若所述第二判断结果为i的数值不小于桥接域集合中桥接域的总数,则利用域复杂度计算公式,计算所述候选桥接域集合中每个桥接域的域复杂度;
最佳桥接域选取子模块,用于选取候选桥接域集合中域复造度最小的桥接域作为最佳桥接域。
8.根据权利要求7所述的基于桥接域迁移学习的符号预测系统,其特征在于,所述A距离计算公式为:
表示域Di,与域Dj,之间的A距离,α和β分别为第一正则因子和第二正则因子,Cerror(·)表示由分类器产生的分类误差,Xi和Xj分别为域Di与域Dj的特征向量集合,h是假设空间H中的一个元素。
9.根据权利要求7所述的基于桥接域迁移学习的符号预测系统,其特征在于,所述域复杂度计算公式为:
其中,DC(D)表示域D的域复杂度,fi是域D的第i类特征;N(fi)是域D的第i类特征中特征值大于第i类特征的特征值的平均值的特征数量;ρ表示比例系数;M是特征类别数;Num是D中样本个数。
10.根据权利要求6所述的基于桥接域迁移学习的符号预测系统,其特征在于,所述重构误差计算模块,具体包括:
特征向量确定子模块,用于确定所述可迁移组的特征向量:(XS,XI,XT),其中,XS、XI和XT分别表示源域、最佳桥接域和目标域的特征向量;
重构方程组建立子模块,用于建立所述可迁移组的特征向量的重构方程组:
其中,各自表示XI,XS和XT的转置,WSI表示将源域特征向量映射到候选中间域特征空间的变换矩阵,WIT表示将候选中间域的特征向量映射到目标域特征空间的变换矩阵;
重构方程组求解子模块,用于利用奇异值分解法,求解所述重构方程组,得到重构方程组的解:
其中,和分别是和的广义逆,y1和y2是任意n维向量,n是目标域样本个数;
特征向量重构子模块,用于根据所述重构方程组的解重构源域的特征向量和最佳桥接域的特征向量,得到源域重构特征向量和最佳桥接域特征向量
重构误差计算子模块,用于利用公式计算所述源于重构特征向量和所述源域的特征向量的差值,得到源域的重构误差ES-I,利用公式计算最佳桥接域重构特征向量和所述最佳桥接域的特征向量的差值,得到最佳桥接域的重构误差EI-T。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910644073.7A CN110365583B (zh) | 2019-07-17 | 2019-07-17 | 一种基于桥接域迁移学习的符号预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910644073.7A CN110365583B (zh) | 2019-07-17 | 2019-07-17 | 一种基于桥接域迁移学习的符号预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110365583A true CN110365583A (zh) | 2019-10-22 |
CN110365583B CN110365583B (zh) | 2020-05-22 |
Family
ID=68220018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910644073.7A Active CN110365583B (zh) | 2019-07-17 | 2019-07-17 | 一种基于桥接域迁移学习的符号预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110365583B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444859A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种无监督跨域人脸表情识别方法 |
CN115640337A (zh) * | 2022-12-22 | 2023-01-24 | 粤港澳大湾区数字经济研究院(福田) | 针对符号图网络的异常数据预测方法、系统及相关设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1216419A (zh) * | 1997-06-24 | 1999-05-12 | 索尼公司 | 接收机、发射机-接收机和通信方法 |
CN101184069A (zh) * | 2007-12-14 | 2008-05-21 | 东南大学 | 基于单载波频域均衡的选择反馈检测方法 |
CN101227439A (zh) * | 2008-02-01 | 2008-07-23 | 北京航空航天大学 | 基于迭代搜索信道预测的上行探测域确定方法 |
CN101582813A (zh) * | 2009-06-26 | 2009-11-18 | 西安电子科技大学 | 基于分布式迁移网络学习的入侵检测系统及其方法 |
US20110307414A1 (en) * | 2010-06-10 | 2011-12-15 | Hansen Hans P | Consensus Investment Analysis/Stock Selection Methodology |
CN102365868A (zh) * | 2009-04-03 | 2012-02-29 | 松下电器产业株式会社 | 运动图像编码方法及装置、运动图像解码方法及装置 |
CN1981535B (zh) * | 2004-05-04 | 2012-05-30 | 高通股份有限公司 | 预测帧里的加权预测方法和设备 |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN105335756A (zh) * | 2015-10-30 | 2016-02-17 | 苏州大学 | 一种鲁棒学习模型与图像分类系统 |
CN105469111A (zh) * | 2015-11-19 | 2016-04-06 | 浙江大学 | 基于改进的mfa和迁移学习的小样本集的物体分类方法 |
CN107491792A (zh) * | 2017-08-29 | 2017-12-19 | 东北大学 | 基于特征映射迁移学习的电网故障分类方法 |
US20190147234A1 (en) * | 2017-11-15 | 2019-05-16 | Qualcomm Technologies, Inc. | Learning disentangled invariant representations for one shot instance recognition |
-
2019
- 2019-07-17 CN CN201910644073.7A patent/CN110365583B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1216419A (zh) * | 1997-06-24 | 1999-05-12 | 索尼公司 | 接收机、发射机-接收机和通信方法 |
CN1981535B (zh) * | 2004-05-04 | 2012-05-30 | 高通股份有限公司 | 预测帧里的加权预测方法和设备 |
CN101184069A (zh) * | 2007-12-14 | 2008-05-21 | 东南大学 | 基于单载波频域均衡的选择反馈检测方法 |
CN101227439A (zh) * | 2008-02-01 | 2008-07-23 | 北京航空航天大学 | 基于迭代搜索信道预测的上行探测域确定方法 |
CN102365868A (zh) * | 2009-04-03 | 2012-02-29 | 松下电器产业株式会社 | 运动图像编码方法及装置、运动图像解码方法及装置 |
CN101582813A (zh) * | 2009-06-26 | 2009-11-18 | 西安电子科技大学 | 基于分布式迁移网络学习的入侵检测系统及其方法 |
US20110307414A1 (en) * | 2010-06-10 | 2011-12-15 | Hansen Hans P | Consensus Investment Analysis/Stock Selection Methodology |
CN102710616A (zh) * | 2012-05-18 | 2012-10-03 | 中国科学院信息工程研究所 | 数据流预测方法及装置 |
CN105335756A (zh) * | 2015-10-30 | 2016-02-17 | 苏州大学 | 一种鲁棒学习模型与图像分类系统 |
CN105469111A (zh) * | 2015-11-19 | 2016-04-06 | 浙江大学 | 基于改进的mfa和迁移学习的小样本集的物体分类方法 |
CN107491792A (zh) * | 2017-08-29 | 2017-12-19 | 东北大学 | 基于特征映射迁移学习的电网故障分类方法 |
US20190147234A1 (en) * | 2017-11-15 | 2019-05-16 | Qualcomm Technologies, Inc. | Learning disentangled invariant representations for one shot instance recognition |
Non-Patent Citations (2)
Title |
---|
YUAN WEIWEI: "Edge-dual graph preserving sign prediction for signed social networks", 《IEEE ACCESS》 * |
庞雅丽: "基于目标迁移的文本分类技术", 《科技信息》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444859A (zh) * | 2020-03-30 | 2020-07-24 | 哈尔滨工程大学 | 一种无监督跨域人脸表情识别方法 |
CN115640337A (zh) * | 2022-12-22 | 2023-01-24 | 粤港澳大湾区数字经济研究院(福田) | 针对符号图网络的异常数据预测方法、系统及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110365583B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523018B (zh) | 一种基于深度迁移学习的图片分类方法 | |
Ayvaz | Simultaneous determination of aquifer parameters and zone structures with fuzzy c-means clustering and meta-heuristic harmony search algorithm | |
CN109214599B (zh) | 一种对复杂网络进行链路预测的方法 | |
CN106779069A (zh) | 一种基于神经网络的异常用电检测方法 | |
CN111416797B (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
Huang et al. | A hybrid fuzzy wavelet neural network model with self-adapted fuzzy c-means clustering and genetic algorithm for water quality prediction in rivers | |
CN113792758B (zh) | 一种基于自监督学习和聚类的滚动轴承故障诊断方法 | |
CN103942614B (zh) | 一种异构网络链接关系的预测方法及系统 | |
CN111008447A (zh) | 一种基于图嵌入法的链路预测方法 | |
CN108334943A (zh) | 基于主动学习神经网络模型的工业过程半监督软测量建模方法 | |
CN110365583A (zh) | 一种基于桥接域迁移学习的符号预测方法及系统 | |
He et al. | Deriving urban dynamic evolution rules from self-adaptive cellular automata with multi-temporal remote sensing images | |
CN104077493A (zh) | 一种电力继电保护系统状态评估指标体系的构建方法 | |
Pietrucha-Urbanik | Multidimensional comparative analysis of water infrastructures differentiation | |
CN115017513A (zh) | 一种基于人工智能的智能合约漏洞检测方法 | |
Joseph et al. | Molecular resolution of population history, systematics and historical biogeography of the Australian ringneck parrots Barnardius: are we there yet? | |
CN114048546A (zh) | 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法 | |
Webb et al. | How does network structure and complexity in river systems affect population abundance and persistence? | |
Alotaibi et al. | DNA profiling: An investigation of six machine learning algorithms for estimating the number of contributors in DNA mixtures | |
CN112989526A (zh) | 一种基于核极限学习机的航空网络关键节点识别方法 | |
Poczeta et al. | Application of fuzzy cognitive maps with evolutionary learning algorithm to model decision support systems based on real-life and historical data | |
CN109934248A (zh) | 一种针对迁移学习的多模型随机生成与动态自适应组合方法 | |
CN114998258A (zh) | 一种基于重平衡的半监督产品表面缺陷检测方法及其系统 | |
CN116011507A (zh) | 融合元学习与图神经网络的稀有故障诊断方法 | |
CN109598283A (zh) | 一种基于半监督极限学习机的铝电解过热度识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |