CN111898708A - 一种迁移学习方法和电子设备 - Google Patents

一种迁移学习方法和电子设备 Download PDF

Info

Publication number
CN111898708A
CN111898708A CN202011048856.8A CN202011048856A CN111898708A CN 111898708 A CN111898708 A CN 111898708A CN 202011048856 A CN202011048856 A CN 202011048856A CN 111898708 A CN111898708 A CN 111898708A
Authority
CN
China
Prior art keywords
sample set
samples
target domain
domain
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011048856.8A
Other languages
English (en)
Inventor
宫明明
郑霖
汲小溪
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011048856.8A priority Critical patent/CN111898708A/zh
Publication of CN111898708A publication Critical patent/CN111898708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例公开了一种迁移学习方法和电子设备。该方法包括:从源域的样本集合中获取第一样本集合和对应的标签;将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。

Description

一种迁移学习方法和电子设备
技术领域
本申请涉及迁移学习领域,尤其涉及一种迁移学习方法和电子设备。
背景技术
在日常生活中存在着电信诈骗、网络诈骗等形式的欺诈风险,欺诈者使用某些话术和套路,让受害人误以为真,而自愿将资金转移给欺诈者,从而蒙受损失。由于电信、网络等不同场景下的诈骗形式存在区别,所以应用于一种场景的反欺诈模型并不能直接应用于其他场景。
迁移学习(Transfer Learning)属于机器学习中的一个研究领域,是一种将现有数据域知识应用到一个新数据域的能力,它可以解决小数据场景下的模型个性化适配问题。
如何将应用于现有源域的模型迁移学习至新数据域中,是本说明书实施例所要解决的技术问题。
发明内容
本说明书实施例的目的是提供一种迁移学习方法和电子设备,用以解决如何将应用于现有源域的模型迁移学习至新数据域中的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提供了一种迁移学习方法,包括:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
第二方面,提供了一种电子设备,包括:
获取模块,从源域的样本集合中获取第一样本集合和对应的标签;
变换模块,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
训练模块,基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
第三方面,提供了一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
在本说明书实施例中,首先从源域的样本集合中获取第一样本集合和对应的标签,然后,将第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定,最后,基于第二样本集合中的样本和对应的标签,对目标域的目标分类器进行训练。通过本说明书实施例提供的方案,转换得到的第二样本集合与目标域样本集合的样本特征分布相似,进而能训练出适用于目标域的样本集合的分类器,实现由源域至目标域的迁移学习。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明的一个实施例一种迁移学习方法的流程示意图之一;
图2是本发明的一个实施例一种迁移学习方法的流程示意图之二;
图3是本发明的一个实施例一种迁移学习方法的流程示意图之三;
图4是本发明的一个实施例一种迁移学习方法的流程示意图之四;
图5是本发明的一个实施例一种迁移学习方法的流程示意图之五;
图6是本发明的一个实施例一种迁移学习方法的流程示意图之六;
图7是本发明的一个实施例一种迁移学习方法的流程示意图之七;
图8是本发明的一个实施例一种电子设备的结构示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决采用现有技术中应用于一种场景的模型直接应用于其他场景的预测效果较差的问题,本说明书实施例提供一种迁移学习方法。该方法的执行主体,可以是服务器、风险控制系统、也可以是任何能够执行该方法的设备。所述的执行主体并不构成对本申请的限定,为了便于描述,本申请实施例均以执行主体是服务器为例进行说明。
本说明书实施例提供一种迁移学习方法,如图1所示,可包括以下步骤:
步骤110:从源域的样本集合中获取第一样本集合和对应的标签。
其中,第一样本集合可以包括源域的样本集合中的部分样本,也可以包括源域的样本集合中的全部样本。与第一样本集合中各样本对应的标签可以是预先通过人工打标的方式生成的标签,也可以是通过模型识别的方式得到的样本标签。
步骤120:将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定。
在本说明书实施例中,特征空间变换可以是通过子空间学习法进行的针对样本特征的空间变换。其中,子空间学习法可以通过将源域样本和目标域样本经过一定变换,使得变换所得的子空间中源域样本与目标域样本具有相似的分布。本说明书实施例中以基于统计特征变换的统计特征对齐方法为例进行说明,在实际应用中,还可以采用基于流行变换的流行学习方法或其他方法对样本特征执行变换。
应理解,用于执行特征空间变换的变换矩阵由第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定,该变换矩阵使变换得到的第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,从而实现变换后的第二样本集合和目标域的样本集合在隐层空间分布的一致性。
步骤130:基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
目标分类器可以是一种预测模型,例如可以是决策树分类器。该决策树分类器代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一数量的输出,若欲有多个输出,可以建立独立的决策树以处理不同输出。在实际应用中,也可以采用其他类型的分类器进行训练。
通过本说明书实施例提供的方案,首先从源域的样本集合中获取第一样本集合和对应的标签,然后,将第一样本集合通过特征空间变换,得到转换后的第二样本集合,最后,基于第二样本集合中的样本和对应的标签,对目标域的目标分类器进行训练。由于转换得到的第二样本集合与目标域样本集合的样本特征分布相似,进而能训练出适用于目标域的样本集合的分类器,实现由源域至目标域的迁移学习。
为了进一步说明本方案,本说明书实施例以电信诈骗应用场景为例进行说明。
电信诈骗或网络诈骗是日常生活中常见的欺诈方式,欺诈者使用某些话术和套路,让受害人误以为真,而自愿将资金转移给欺诈者,导致资产损失。常见的欺诈手法包括以刷单为由,让用户点击购买商品;冒充公检法、领导或亲友让用户进行大额转账;骗子获取了客户网络购物信息,冒充客服人员以退款为由,向用户发送钓鱼链接等。为了保证用户资产安全,需要对这类欺诈交易和欺诈者进行识别,以便进行防范追查。
本说明书实施例中,源域的样本集合包括多个样本,这些样本具有相对应的标签。通过源域的样本集合中的样本和标签可以训练出适用于源域的分类器,能够用于预测源域数据的分类结果。但对于与源域具有相同特征维度的目标域而言,这种直接训练得到的分类器在目标域中的预测效果往往较差。这是由于目标域的特征与源域的特征的阈值不同。例如,源域的样本中的一种特征的取值范围是-1~1,而目标域的样本中虽然也包含相同的特征,但特征的取值范围是-0.9~1.1。这就导致由源域样本和对应的标签直接训练的模型在目标域中的预测结果不准确。
本说明书实施例提供的方案对源域的样本集合中的样本执行特征空间变换,使变换后的得到与目标域样本集合特征分布相似的集合,并利用变换后的样本和对应的标签训练目标分类器。本方案可以应用于没有标签的目标域,无需通过人工等方式对目标域的样本执行打标签的步骤,节省人力成本。由于变换后的样本集合的特征分布与目标域的样本的特征分布相似,所以训练得到的目标分类器能较好地适用于目标域的样本,可以用于对目标域的样本进行分类。
可选的,如图2所示,上述步骤110,从源域的样本集合中获取第一样本集合和对应的标签,包括以下步骤:
步骤210:当所述源域的样本集合的正负样本分布均匀度低于第一预设均匀度阈值时,根据所述源域的样本集合的正负样本分布均匀度对所述源域样本数据执行采样,以获取正负样本分布均匀度不小于所述第一预设均匀度阈值的第一样本集合。
本说明书实施例中第一预设均匀度阈值可以预先设定,也可以由服务器根据样本分布或其他参数自动生成。该第一预设均匀度阈值用于表征样本集合中正样本与负样本的数量关系,例如正样本数量与负样本数量的比值,或者,正样本在样本集合中的占比与负样本在样本集合中的占比等。该第一预设均匀度阈值可以通过比值、百分比等形式展现。
以电信诈骗应用场景为例,由于电信诈骗是偶发事件,在源域的样本中大部分样本均是没有发生电信诈骗的正样本,而发生了电信诈骗的负样本在源域的样本集合中占比很小,会使得源域的样本集合的正负样本分布均匀度较低,样本的总体特征分布基本由正样本所确定。在学习隐层特征空间的过程中,由于算法几乎是对正样本间进行分布对齐,很可能导致负迁移。
为了负迁移的发生,当源域的样本集合的正负样本分布均匀度低于第一预设均匀度阈值时,根据源域的样本集合的正负样本分布均匀度对源域样本数据执行采样,以获取正负样本分布均匀度不小于第一预设均匀度阈值的第一样本集合。在本说明书实施例中,由于电信诈骗场景下正样本数量远远多于负样本数量,则需要对负样本执行过采样,或者,对正样本执行欠采样,以得到正负样本平衡的样本集合。
通过本说明书实施例提供的方案能对正负样本分布不平衡的样本进行采样,以得到正负样本平衡的样本集合,随后以正负样本平衡的样本集合训练目标域的目标分类器,能有效提高训练得到的分类器的分类效果。
基于上述实施例提供的方案,可选的,如图3所示,上述步骤210,根据所述源域的样本集合的正负样本分布均匀度对所述源域样本数据执行采样,包括以下步骤:
步骤310:通过基于源域的样本集合和对应的标签训练得到的基分类器,分别对所述源域的样本集合中的各个样本打分;
步骤320:根据所述源域的样本集合中的各个样本的打分结果确定采样阈值;
步骤330:对所述源域的样本集合中打分结果超出所述采样阈值的样本执行欠采样。
在电信诈骗的应用场景中,正样本数量明显多于负样本数量。虽然对正样本执行欠采样或对负样本执行过采样均能够得到正负样本平衡的样本集合,但由于负样本数量过少,对负样本执行过采样的效果有限,对正样本进行欠采样的效果显著优于负样本过采样的效果。
下面以对正样本进行欠采样为例进行说明。
首先,通过基分类器对所述源域的样本集合中的各个样本打分,其中,基分类器是基于源域的样本集合和对应的标签训练得到的。通过基分类器对源域的样本集合中的各个样本进行打分,举例而言,分值低可以表明样本是正样本的概率大,分值高可以表明样本是负样本的概率大。
在打分之后,可以根据打分结果确定采样阈值,该采样阈值用于排除源域的样本数据中的部分正样本,使采样后的正样本数量减少,进而使得正负样本平衡。
例如,打分结果为整数,且数值分布在0~100之间,根据打分结果确定的采样阈值可以为30~100,那么,基于确定的采样阈值对源域的样本集合进行筛选,能够排除打分结果为0~29的正样本。在实际应用中,采样阈值也可以是不连续的区间,例如采样阈值可以为0~20和50~100,即排除打分结果为21~49的样本,同样能够得到正负样本平衡的样本集合。该采样阈值可以根据样本实际打分结果确定。
通过本说明书实施例提供的方案,能够对正负样本不平衡的样本集合进行欠采样,得到正负样本平衡的样本集合,提高随后训练的目标分类器的分类效果。
基于上述实施例提供的方案,可选的,如图4所示,上述步骤120,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括以下步骤:
步骤410:基于一阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合;或,
步骤420:基于二阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合。
在本说明书实施例中,可以采用一阶统计特征对齐法(Subspace Alignment,SA)或者二阶统计特征对齐法(CORrelation Alignment,CORAL)对第一样本集合执行特征空间变换。
可选的,如果采用SA一阶统计特征对齐法,上述步骤41可如图5所示,包括以下步骤:
步骤510:将所述第一样本集合的特征向所述第一样本集合的主成分方向投影;
步骤520:对投影得到的所述第一样本集合的特征根据所述变换矩阵执行一次线性变换,得到所述第二样本集合。
具体地,可先将所述第一样本集合的特征向所述第一样本集合的主成分方向投影,即向第一样本集合的PCA (Principal Components Analysis)子空间投影,该第一样本集合的特征表示为Xs,向主成分方向投影得到XsPs;然后,根据线性变换矩阵Ps TPt进行线性变换,得到的转换后的第二样本集合可以表示为(XsPsPs TPt)。其中,Ps表示源域的主成分矩阵, Pt表示目标域的主成分矩阵,上标T表示矩阵转置,其中,线性变换矩阵是源域PCA基向量矩阵的转置与目标域PCA基向量矩阵的乘积。
可选的,如图6所示,所述方法还包括以下步骤:
步骤610:获取目标域的多个样本;
步骤620:将所述目标域的多个样本的特征向所述目标域的多个样本的主成分方向投影,得到目标域的样本集合。
其中,目标域的多个样本具有与源域的样本相同的特征维度,该源域样本是指源域的样本集合中的样本,表示为Xt。当Pt表示目标域的主成分矩阵时,得到的目标域的样本集合可以表示为(XtPt)。在SA一阶统计特征对齐法中,源域样本的特征执行两次变换,分别是投影变换和一次线性变换;目标域样本的特征执行一次投影变换。得到的目标域的样本集合可以用于确定执行特征空间变换的变换矩阵。
可选的,上述步骤620可如图7所示,包括以下步骤:
步骤710:通过基于源域的样本集合和对应的标签训练得到的基分类器,分别对所述目标域的多个样本进行分类预测,得到所述目标域的多个样本的候选标签,所述目标域的多个样本具有与源域的样本相同的特征维度。
由于目标域的多个样本具有与源域的样本相同的特征维度,因此,能够采用源域的样本集合训练得到的基分类器对目标域的样本进行打分,根据打分结果生成对应于目标域的样本的候选标签,该候选标签能够表征对应的样本为负样本还是正样本的概率。根据目标域各样本对应的候选标签,能够确定目标域的多个样本的正负样本分布均匀度。
步骤720:当所述候选标签指示所述目标域的多个样本的正负样本分布均匀度低于第二预设均匀度阈值时,根据所述目标域的多个样本的正负样本分布均匀度对所述目标域的多个样本执行采样,以获取正负样本分布均匀度不小于所述第二预设均匀度阈值的采样后的目标域的多个样本。
应理解,第二预设均匀度阈值与第一预设均匀度阈值可以相同,也可以不同。
当候选标签指示目标域的多个样本的正负样本分布均匀度低于第二预设均匀度阈值时,表明目标域的多个样本的正负样本不平衡,此时可以根据目标域的样本的实际样本均匀度执行采样,采样得到正负样本平衡的多个样本。具体采样步骤可以参见上述实施例中根据所述源域的样本集合的正负样本分布均匀度对所述源域的样本集合执行采样的具体步骤。
步骤73:将采样后的目标域的多个样本的特征向所述采样后的目标域的多个样本的主成分方向投影,得到目标域的样本集合。
另外,本说明书实施例中对源域的样本集合执行采样使用的基分类器与对目标域的多个样本执行采样的基分类器相同,能够进一步减少采样带来的源域样本数据和目标域样本数据分布差异的改变,达到优化最终训练出的目标分类器的效果。
本说明书实施例提供的方案中,在源域正负样本分布不平衡时执行了采样,能优化训练出的目标分类器的效果。进一步地,在目标域正负样本分布不平衡时也执行采样,能在执行源域样本变换后,实现源域样本与目标域样本特征分布对齐,进而优化最终训练出的目标分类器的效果。
可选的,如果采用CORAL二阶统计特征对齐法,上述步骤410具体可实现为:
将所述第一样本集合根据所述变换矩阵执行一次线性变换,得到转换后的第二样本集合,所述用于执行特征空间变换的变换矩阵等于源域数据协方差矩阵的-1/2方与目标域数据协方差矩阵的1/2方的乘积。
其中,执行一次线性变换的变换矩阵可以由源域和目标域的协方差矩阵共同决定。在CORAL二阶统计特征对齐法中,源域样本的特征执行一次线性变换,目标域样本的特征不做变换。
应理解,通过以上SA一阶统计特征对齐法或CORAL二阶统计特征对齐法,能够实现源域样本与目标域样本的特征分布对齐。在本说明书实施例中,通过上述变换能够使转换得到的第二样本集合和目标域的样本集合的样本特征分布相似。其中,第一预设相似度阈值可以预先设定,也可以根据样本特征分布的实际情况自动生成。当第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值时,可以认为第二样本集合与目标域的样本集合的特征分布对齐。
优选地,在上述实施例提供的方案中,所述目标分类器可以是XGBoost(extremegradient boosting)分类器。XGBoost是一种对梯度提升算法(Gradient BoostingDecision Tree,GBDT)的改进,求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,并在损失函数中加入了正则化项。训练时的目标函数由两部分构成,第一部分为梯度提升算法损失,第二部分为正则化项。与GBDT算法相比,XGBoost算法精度有明显提升。当然,本说明书实施例的方案中也不排除使用其它基于Boosting的分类器,例如GBDT分类器等。
应理解,在电信诈骗应用场景中,样本往往具有高维稀疏的tabular data(表格化/结构化数据)。对于表格化数据,与神经网络相比,决策树算法具有明显优异的鲁棒性和可解释性,在实践中得到了更为广泛的应用。因此,在电信诈骗领域,采用决策树作为目标分类器能进一步优化训练得到的分类器的分类效果。相对于其他分类器,决策树在以下几个方面拥有优势:1)决策树易于理解和实现,具有较强的可解释性;2)对于决策树,数据的预处理一般是简单的或者是不必要的;3)能够同时处理数据型和常规型属性;4)模型泛化能力强。
尽管如此,但单一决策树的性能有限:当树深度较浅时,模型表示能力有限;当树深度过深时,容易学习到高度不规则的模式,即过拟合。通常情形下很少使用单一决策树,往往采用集成学习的方法将多个单一决策树结合起来。集成学习(Ensemble Learning )通过将多个学习器结合,常可获得比单一学习器显著优越的泛化性能。根据个体学习器的生成方式,目前集成学习方法大致可以分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时并行的并行化方法。前者的代表是Boosting,例如GBDT和XGBoost,后者的代表是Bagging和随机森林(RandomForest)。
本说明书实施例提供的方案采用子空间学习法(Subspace Learning)与树模型相结合的方案,在通过特征线性变换缩减源域和目标域特征差异的基础上,有效发挥了树模型更鲁棒、泛化能力强的特点。通过本说明书实施例方案训练目标分类器,能有效提高分类器的AUC(Area under Curve,曲线下面积)、F1分值(F1-score)等技术指标。
优选地,由于XGBoost计算速度快,模型性能优异,可以在单一机器上运行,也支持运行在分布式框架,并且采用XGBoost在特征对齐后的源域上训练分类模型,可直接对特征对齐后的目标域样本进行预测打分。因此,采用XGBoost作为目标分类器,与神经网络相比,算法随机性弱、鲁棒性好,能有效提升模型应用过程的稳定性。
为了解决现有技术中存在的问题,本说明书实施例还提供一种电子设备800,如图8所示,包括:
获取模块810,从源域的样本集合中获取第一样本集合和对应的标签;
变换模块820,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
训练模块830,基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
通过本说明书实施例提供的电子设备,首先从源域的样本集合中获取第一样本集合和对应的标签,然后,将第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定,最后,基于第二样本集合中的样本和对应的标签,对目标域的目标分类器进行训练。通过本说明书实施例提供的方案,转换得到的第二样本集合与目标域样本集合的样本特征分布相似,进而能训练出适用于目标域的样本集合的分类器,实现由源域至目标域的迁移学习。
可选的,上述获取模块810,从源域的样本集合中获取第一样本集合和对应的标签,包括:
当所述源域的样本集合的正负样本分布均匀度低于第一预设均匀度阈值时,根据所述源域的样本集合的正负样本分布均匀度对所述源域的样本集合执行采样,以获取正负样本分布均匀度不小于所述第一预设均匀度阈值的第一样本集合。
可选的,上述获取模块810,根据所述源域的样本集合的正负样本分布均匀度对所述源域的样本集合执行采样,包括:
通过基于源域的样本集合和对应的标签训练得到的基分类器,分别对所述源域的样本集合中的各个样本打分;
根据所述源域的样本集合中的各个样本的打分结果确定采样阈值;
对所述源域的样本集合中打分结果超出所述采样阈值的样本执行欠采样。
可选的,上述变换模块820,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
基于一阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合;或,
基于二阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合。
可选的,上述变换模块820,基于一阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
将所述第一样本集合的特征向所述第一样本集合的主成分方向投影;
对投影得到的所述第一样本集合的特征根据所述变换矩阵执行一次线性变换,得到所述第二样本集合。
可选的,上述获取模块810,还用于:
获取目标域的多个样本;
将所述目标域的多个样本的特征向所述目标域的多个样本的主成分方向投影,得到目标域的样本集合。
可选的,上述获取模块810,将所述目标域的多个样本的特征向所述目标域的多个样本的主成分方向投影,得到目标域的样本集合,包括:
通过基于源域的样本集合和对应的标签训练得到的基分类器,对所述目标域的多个样本分别进行分类预测,得到所述目标域的多个样本的候选标签,所述目标域的多个样本具有与源域的样本相同的特征维度;
当所述候选标签指示所述目标域的多个样本的正负样本分布均匀度低于第二预设均匀度阈值时,根据所述目标域的多个样本的正负样本分布均匀度对所述目标域的多个样本执行采样,以获取正负样本分布均匀度不小于所述第二预设均匀度阈值的采样后的目标域的多个样本;
将采样后的目标域的多个样本的特征向所述采样后的目标域的多个样本的主成分方向投影,得到目标域的样本集合。
可选的,上述变换模块820,基于二阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
将所述第一样本集合根据所述变换矩阵执行一次线性变换,得到转换后的第二样本集合,所述用于执行特征空间变换的变换矩阵等于源域的样本集合的协方差矩阵的-1/2方与目标域的样本集合的协方差矩阵的1/2方的乘积。
可选的,所述目标分类器可以是XGBoost分类器。
为了解决现有技术中存在的问题,本说明书实施例还提供一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
本说明书实施例提供的电子设备的存储器用于执行实现上述方法方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
为了解决现有技术中存在的问题,本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和所述目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
本说明书实施例提供的计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本说明书的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种迁移学习方法,包括:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
2.如权利要求1所述的方法,从源域的样本集合中获取第一样本集合和对应的标签,包括:
当所述源域的样本集合的正负样本分布均匀度低于第一预设均匀度阈值时,根据所述源域的样本集合的正负样本分布均匀度对所述源域的样本集合执行采样,以获取正负样本分布均匀度不小于所述第一预设均匀度阈值的第一样本集合。
3.如权利要求2所述的方法,根据所述源域的样本集合的正负样本分布均匀度对所述源域的样本集合执行采样,包括:
通过基于源域的样本集合和对应的标签训练得到的基分类器,分别对所述源域的样本集合中的各个样本打分;
根据所述源域的样本集合中的各个样本的打分结果确定采样阈值;
对所述源域的样本集合中打分结果超出所述采样阈值的样本执行欠采样。
4.如权利要求1所述的方法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
基于一阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合;或,
基于二阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合。
5.如权利要求4所述的方法,基于一阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
将所述第一样本集合的特征向所述第一样本集合的主成分方向投影;
对投影得到的所述第一样本集合的特征根据所述变换矩阵执行一次线性变换,得到所述第二样本集合。
6.如权利要求5所述的方法,所述方法还包括:
获取目标域的多个样本;
将所述目标域的多个样本的特征向所述目标域的多个样本的主成分方向投影,得到目标域的样本集合。
7.如权利要求6所述的方法,将所述目标域的多个样本的特征向所述目标域的多个样本的主成分方向投影,得到目标域的样本集合,包括:
通过基于源域的样本集合和对应的标签训练得到的基分类器,分别对所述目标域的多个样本进行分类预测,得到所述目标域的多个样本的候选标签,所述目标域的多个样本具有与源域的样本相同的特征维度;
当所述候选标签指示所述目标域的多个样本的正负样本分布均匀度低于第二预设均匀度阈值时,根据所述目标域的多个样本的正负样本分布均匀度对所述目标域的多个样本执行采样,以获取正负样本分布均匀度不小于所述第二预设均匀度阈值的采样后的目标域的多个样本;
将采样后的目标域的多个样本的特征向所述采样后的目标域的多个样本的主成分方向投影,得到目标域的样本集合。
8.如权利要求4所述的方法,基于二阶统计特征对齐法,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,包括:
将所述第一样本集合根据所述变换矩阵执行一次线性变换,得到转换后的第二样本集合,所述用于执行特征空间变换的变换矩阵等于源域的样本集合的协方差矩阵的-1/2方与目标域的样本集合的协方差矩阵的1/2方的乘积。
9.如权利要求1所述的方法,所述目标分类器为XGBoost分类器。
10.一种电子设备,包括:
获取模块,从源域的样本集合中获取第一样本集合和对应的标签;
变换模块,将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
训练模块,基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
11.一种电子设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
12.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
从源域的样本集合中获取第一样本集合和对应的标签;
将所述第一样本集合通过特征空间变换,得到转换后的第二样本集合,其中,所述第二样本集合和目标域的样本集合的样本特征分布相似度大于第一预设相似度阈值,用于执行特征空间变换的变换矩阵由所述第一样本集合的统计特征矩阵和目标域的样本集合的统计特征矩阵确定;
基于所述第二样本集合中的样本和对应的标签,对所述目标域的目标分类器进行训练。
CN202011048856.8A 2020-09-29 2020-09-29 一种迁移学习方法和电子设备 Pending CN111898708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011048856.8A CN111898708A (zh) 2020-09-29 2020-09-29 一种迁移学习方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011048856.8A CN111898708A (zh) 2020-09-29 2020-09-29 一种迁移学习方法和电子设备

Publications (1)

Publication Number Publication Date
CN111898708A true CN111898708A (zh) 2020-11-06

Family

ID=73223979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011048856.8A Pending CN111898708A (zh) 2020-09-29 2020-09-29 一种迁移学习方法和电子设备

Country Status (1)

Country Link
CN (1) CN111898708A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435632A (zh) * 2021-06-09 2021-09-24 北京京东振世信息技术有限公司 信息生成方法、装置、电子设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013539A1 (en) * 2011-01-13 2013-01-10 International Business Machines Corporation System and method for domain adaption with partial observation
CN107273853A (zh) * 2017-06-16 2017-10-20 中国地质大学(武汉) 一种基于类心和协方差对齐的遥感图像迁移学习方法
CN108960270A (zh) * 2018-04-08 2018-12-07 中国科学院计算技术研究所 一种基于流形迁移学习的数据标定方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013539A1 (en) * 2011-01-13 2013-01-10 International Business Machines Corporation System and method for domain adaption with partial observation
CN107273853A (zh) * 2017-06-16 2017-10-20 中国地质大学(武汉) 一种基于类心和协方差对齐的遥感图像迁移学习方法
CN108960270A (zh) * 2018-04-08 2018-12-07 中国科学院计算技术研究所 一种基于流形迁移学习的数据标定方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PETAR STOJANOV 等: "Low-Dimensional Density Ratio Estimation for Covariate Shift Correction", 《PROCEEDINGS OF MACHINE LEARNING RESEARCH》 *
向菲 等: "基于混合采样与迁移学习的患者评论识别模型", 《数据分析与知识发现》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435632A (zh) * 2021-06-09 2021-09-24 北京京东振世信息技术有限公司 信息生成方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
US20230325724A1 (en) Updating attribute data structures to indicate trends in attribute data provided to automated modelling systems
US10810463B2 (en) Updating attribute data structures to indicate joint relationships among attributes and predictive outputs for training automated modeling systems
CN110503531B (zh) 时序感知的动态社交场景推荐方法
US9355067B1 (en) Distribution of parameter calculation for iterative optimization methods
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
CN111352965A (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111126576A (zh) 一种深度学习的新型训练策略
WO2020170593A1 (ja) 情報処理装置及び情報処理方法
CN113222123A (zh) 模型训练方法、装置、设备及计算机存储介质
CN109902823A (zh) 一种基于生成对抗网络的模型训练方法及设备
CN111259264B (zh) 一种基于生成对抗网络的时序评分预测方法
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN111898708A (zh) 一种迁移学习方法和电子设备
CN112330426A (zh) 一种产品推荐方法、装置及存储介质
CN111401675A (zh) 基于相似性的风险识别方法、装置、设备及存储介质
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法
US20230230143A1 (en) Product recommendation system, product recommendation method, and recordingmedium storing product recommendation program
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN113239215A (zh) 多媒体资源的分类方法、装置、电子设备及存储介质
JP2022515941A (ja) 生成的敵対神経網ベースの分類システム及び方法
CN117708340B (zh) 标签文本的确定方法、模型训练及调整方法、设备和介质
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质
Mao et al. Predicting QoS for cloud services through prefilling-based matrix factorization
WO2023011062A1 (zh) 信息推送方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination