CN109214421A - 一种模型训练方法、装置、及计算机设备 - Google Patents

一种模型训练方法、装置、及计算机设备 Download PDF

Info

Publication number
CN109214421A
CN109214421A CN201810848267.4A CN201810848267A CN109214421A CN 109214421 A CN109214421 A CN 109214421A CN 201810848267 A CN201810848267 A CN 201810848267A CN 109214421 A CN109214421 A CN 109214421A
Authority
CN
China
Prior art keywords
characteristic
sample set
exemplar
value
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810848267.4A
Other languages
English (en)
Other versions
CN109214421B (zh
Inventor
王骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810848267.4A priority Critical patent/CN109214421B/zh
Publication of CN109214421A publication Critical patent/CN109214421A/zh
Application granted granted Critical
Publication of CN109214421B publication Critical patent/CN109214421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种模型训练方法、装置、及计算机设备,该方法包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。

Description

一种模型训练方法、装置、及计算机设备
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种模型训练方法、装置、及计算机设备。
背景技术
在机器学习、深度学习、数据挖掘等任务中,利用大量的带有可靠标签的数据样本进行训练,可以获得各种形式的数据模型以实现业务功能,例如防范欺诈风险、信用风险。
随着业务国际化的发展,通常希望针对国内业务场景实现的业务功能也可以快速应用于类似的海外业务场景中,然而,由于海外业务场景虽然与国内业务场景具有相似之处,但仍存在其独有的特性,从而,若直接将基于国内业务场景训练得到的数据模型应用于海外业务场景,则会导致模型识别结果的准确率较低;同时,由于带有标签的数据样本是需要一定时间的数据积累才可得到,从而,若从零开始重新训练新的适用于海外业务场景的数据模型,则需耗费较长时间,训练效率较低。
发明内容
针对上述技术问题,本说明书实施例提供一种模型训练方法、装置、及计算机设备,技术方案如下:
根据本说明书实施例的第一方面,提供一种模型训练方法,所述方法包括:
确定所述源域样本集和目标域样本集的共有特征空间;
根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第二方面,提供一种模型训练装置,所述装置包括:
共有特征确定模块,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块,用于利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本说明书实施例提供的任一模型训练方法。
本说明书实施例所提供的技术方案,通过确定源域样本集和目标域样本集的共有特征空间;根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项;根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型,由于利用源域样本集的知识对目标域样本集进行打标,然后将源域样本集与目标域样本集中已打标的不确定标签样本进行整合,基于整合后的样本集训练得到分类模型,从而实现快速训练出符合目标域特有业务特性的分类模型。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本说明书一示例性实施例提供的一种模型训练方法的实施例流程图;
图2为本说明书一示例性实施例提供的一种模型训练装置的实施例框图;
图3示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
针对上述问题,本说明书实施例提供一种模型训练方法,参见图1所示,为本说明书一示例性实施例提供的一种模型训练方法的实施例流程图,该方法可以包括以下步骤:
步骤102:确定源域样本集和目标域样本集的共有特征空间。
在本说明书实施例中,源域样本集中的任一数据样本均具有可靠的标签,基于此,为了描述方便,将源域样本集中的数据样本称为已确定标签样本;类似的,目标域样本集中的任一数据样本均不具有可靠的标签,则为了描述方便,将目标域样本集中的数据样本称为不确定标签样本。
在本说明书实施例中,为了描述方便,将针对源域样本集设置的特征空间称为初始源域特征空间,将针对目标域样本集设置的特征空间称为初始目标域特征空间,本领域技术人员可以理解的是,由于源域样本集与目标域样本集分别来自不同的业务场景,从而,初始源域特征空间与初始目标域特征空间有所不同,并且,由于两者所来自的业务场景存在一些共性特征,从而两者并不是完全不同,而是部分不同,举例来说,假设初始源域特征空间包括8个特征项,具体为{X1、X2、X3、X4、X5、X6、X7、X8},假设初始目标域特征空间包括10个特征项,具体为{X3、X4、X5、X6、X7、X8、X9、X10、X11、X12}。
在一实施例中,可以直接取初始源域特征空间与初始目标域特征空间直接的交集,将该交集确定为源域样本集和目标域样本集的共有特征空间,例如,共有特征空间为:{X3、X4、X5、X6、X7、X8}。
在一优选的实施例中,由于在实际应用中,特征数量往往较多,而其中可能会存在不相关的特征,利用数量较多的特征进行模型训练,则容易导致模型训练耗时长,训练效率低,且训练得到的模型较为复杂,推广能力下降,基于此,在本说明书实施例中提出,利用模型选择算法对上述初始源域特征集进行筛选,以剔除其中的不相关或冗余特征,仅保留真正相关的特征,从而减少特征个数,提高模型训练效率,提高模型精度。为了描述方法,将筛选后的源域样本集的特征空间称为核心源域特征空间。举例来说,核心源域特征空间为{X2、X3、X4、X6、X8}。
之后,取该核心源域特征空间和上述初始目标域特征空间之间的交集,将该交集确定为源域样本集和目标域样本集的共有特征空间,例如,共有特征空间为{X3、X4、X6、X8}。
上述特征选择算法可以为随机森林算法、逻辑回归算法,或者主成分分析算法等,本说明书实施例对具体采用何种特征选择算法不作限制。
步骤104:根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项。
特征项与类别的相关性包括正相关性和反相关性,基于此,在本说明书实施例中定义,若对于某一特征项而言,若其特征值越大,对应的分类结果为正类的概率越大,则该特征项与正类的相关性为正相关性,为了描述方便,可以将该特征项称为正相关特征项;反之,若其特征值越大,对应的分类结果为正类的概率越小,则该特征项与正类的相关性为负相关性,为了描述方便,可以将该特征项称为负相关特征项。
在本说明书实施例中,可以针对上述共有特征空间中的任一特征项进行如下处理:根据源域样本集中各个已确定标签样本的标签值,和其在特征项上的特征值,计算出用于表示该特征项与标签值之间相关性的相关性参数,例如皮尔逊相关系数、协方差,或者信息熵及互信息等,之后,则可以根据相关性参数确定该特征项为正相关特征项还是为负相关特征项。
以相关性参数为皮尔逊相关系数为例,若计算出的皮尔逊相关系数在0与1之间,则可以认为该特征项为正相关特征项,若计算出的皮尔逊相关系数在-1与0之间,则可以认为该特征项为负相关特征项。
在以相关性参数为协方差为例,若计算出的协方差为正值,则可以认为该特征项为正相关特征项,若计算出的协方差为负值,则可以认为该特征项为负相关特征项。
至于相关性系数为其他类型的参数的具体说明,本说明书实施例不再一一赘述。
步骤106:根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值。
在本说明书实施例中,可以利用聚类算法与上述共有特征空间,对目标域样本集中的不确定标签样本进行聚类,得到正相关特征项汇聚度高的聚类簇,与负相关特征项汇聚度高的聚类簇,之后,可以针对正相关特征项汇聚度高的聚类簇,将其中的不确定标签样本的标签值设置为表示正样本的第一标签值,例如1;针对负相关特征项汇聚度高的聚类簇,将其中的不确定标签样本的标签值设置为表示负样本的第二标签值,例如0。
具体的,在一实施例中,可以首先利用聚类算法与上述共有特征空间中的正相关特征项,对目标域样本集中的不确定标签样本进行聚类,可以得到两个以上聚类簇,为了描述方便,将此过程中得到的聚类簇称为第一聚类簇,之后,针对任一第一聚类簇,判断该第一聚类簇是否满足设定条件,若满足,则可以认为该第一聚类簇为正相关特征项汇聚度高的聚类簇,也即,可以确定该第一聚类簇中不确定标签样本的标签值为表示正样本的第一标签值。
之后,利用聚类算法与上述共有特征空间中的负相关特征项,对目标域样本集中,除已打标的,即已具有第一标签值以外的其他不确定标签样本再次进行聚类,得到两个以上聚类簇,为了描述方便,将此过程中得到的聚类簇称为第二聚类簇,之后,针对任一第二聚类簇,判断该第二聚类簇是否满足设定条件,若满足,则可以认为该第二聚类簇为负相关特征项汇聚度高的聚类簇,也即,可以确定该第二聚类簇中不确定标签样本的标签值为表示负样本的第二标签值。
在一实施例中,上述设定条件可以为:聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值,其中,该绝对距离表示聚类簇的中心点与预设原点之间的距离,如此设置该设定条件的依据为:对于第一聚类簇而言,其中心点的绝对距离越大,表示其中的不确定标签样本的标签值为第一标签值的概率越大;对于第二聚类簇而言,其中心点的绝对距离越大,表示其中的不确定标签样本的标签值为第二标签值的概率越大。
需要说明的是,上述所描述的判断聚类簇是否满足设定条件的描述仅仅作为举例,在实际应用中,还可以存在其他方式,例如,还可以对各个聚类簇的中心点的绝对距离按照从大到小的顺序进行排序,取绝对距离排在前N(N为大于0的自然数,且小于聚类簇的数量)位的聚类簇,然后,在该些聚类簇中筛选出不确定标签样本的数量大于预设的数量阈值的聚类簇,作为满足设定条件的聚类簇。
此外,在本说明书实施例中,还可以首先利用聚类算法与上述共有特征空间中的负相关特征项对目标域样本集中的不确定标签样本进行聚类,得到具有第二标签值的负类样本,再利用聚类算法与上述共有特征空间中的正相关特征对目标域样本集中除负类样本以外的其他样本进行聚类,得到具有第一标签值的正类样本。
步骤108:将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型。
由于是基于共有特征空间预测出不确定标签样本的标签值的,从而,已预测出标签值的不确定标签样本的特征空间则为该共有特征空间,这就与源域样本集的初始源域特征空间并不一致,基于此,在本说明书实施例中,首先对已预测出标签值的不确定标签样本进行特征补齐处理,使得已预测出标签值的不确定标签样本的特征空间与初始源域特征空间一致。
在一实施例中,可以首先将共有特征空间和初始源域特征空间之间的差集确定为待补齐特征空间,例如,待补齐特征空间为{X1、X2、X5、X7},之后,将已预测出标签值的不确定标签样本在该待补齐特征空间上的特征值设置为指定值。
该指定值可以为:源域样本集中的各个已确定标签样本在该待补齐特征空间上特征值的平均值、最大值或者最小值等。
后续,则可以将特征补齐处理后的已预测出标签值的不确定标签样本与源域样本集进行合并,利用有监督学习算法与合并后的样本集进行训练,得到分类模型。
本说明书实施例所提供的技术方案,通过确定源域样本集和目标域样本集的共有特征空间;根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项;根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型,由于利用源域样本集的知识对目标域样本集进行打标,然后将源域样本集与目标域样本集中已打标的不确定标签样本进行整合,基于整合后的样本集训练得到分类模型,从而实现快速训练出符合目标域特有业务特性的分类模型。
相应于上述方法实施例,本说明书实施例还提供一种模型训练装置,参见图2所示,为本说明书一示例性实施例提供的一种模型训练装置的实施例框图,该装置可以包括:共有特征确定模块210、正负相关特征确定模块220、标签值预测模块230、整合模块240,以及训练模块250。
其中,共有特征确定模块210,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块220,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块230,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块240,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块250,用于利用整合后的样本集训练得到分类模型。
在一实施例中,所述共有特征确定模块210包括(图2中未示出):
筛选子模块,用于利用特征选择算法对源域样本集的初始源域特征空间进行筛选,得到所述源域样本集的核心源域特征空间;
第一确定子模块,用于将所述核心源域特征空间和目标域样本集的初始目标域特征空间之间的交集,确定为所述源域样本集和所述目标域样板集的共有特征空间。
在一实施例中,所述正负相关特征确定模块220包括(图2中未示出):
相关性计算子模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述特性项上的特征值,计算出用于表示所述特征项与标签值之间相关性的相关性参数;
第二确定子模块,用于根据所述相关性参数确定所述特征项为正相关特征项或负相关特征项;
所述相关性计算子模块与所述第二确定子模块用于针对所述共有特征空间中的任一特征项进行处理。
在一实施例中,所述相关性参数至少包括下述其中一项:
皮尔逊相关系数、协方差、信息熵及互信息。
在一实施例中,所述标签值预测模块230包括(图2中未示出):
第一聚类子模块,用于利用所述正相关特征项对所述目标域样本集进行聚类,得到两个以上第一聚类簇;
第一标签值确定子模块,用于针对任一第一聚类簇,若所述第一聚类簇满足设定条件,则确定所述第一聚类簇中的不确定标签样本的标签值为表示正样本的第一标签值;
第二聚类子模块,用于利用所述负相关特征项对所述目标域样本集中除具有第一标签值以外的其他不确定标签样本进行聚类,得到两个以上第二聚类簇;
第二标签值确定子模块,用于针对任一第二聚类簇,若所述第二聚类簇满足所述设定条件,则确定所述第二聚类簇中的不确定标签样本的标签值为表示负样本的第二标签值。
在一实施例中,所述设定条件至少包括:
聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值。
在一实施例中,所述整合模块240包括(图2中未示出):
特征补齐子模块,用于对已预测出标签值的不确定标签样本进行特征补齐处理,使得所述已预测出标签值的不确定标签样本的特征空间与所述初始源域特征空间一致;
合并子模块,用于将特征补齐处理后的已预测出标签值的不确定标签样本与所述源域样本集合并。
在一实施例中,所述特征补齐子模块包括(图2中未示出):
第三确定子模块,用于将所述共有特征空间和所述初始源域特征空间之间的差集确定为待补齐特征空间;
特征值设置子模块,用于将已预测出标签值的不确定标签样本在所述待补齐特征空间上的特征值设置为指定值。
在一实施例中,所述指定值至少包括下述其中一项:
所述源域样本集中的已确定标签样本在所述待补齐特征空间上特征值的平均值、最大值、最小值。
在一实施例中,所述训练模块250具体用于:
利用有监督学习算法与整合后的样本集训练得到分类模型。
可以理解的是,共有特征确定模块210、正负相关特征确定模块220、标签值预测模块230、整合模块240,以及训练模块250作为五种功能独立的模块,既可以如图2所示同时配置在装置中,也可以分别单独配置在装置中,因此图2所示的结构不应理解为对本说明书实施例方案的限定。
此外,上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的模型训练方法,该方法至少包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
图3示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器310、存储器320、输入/输出接口330、通信接口340和总线350。其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。
处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口330用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图3中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口340用于连接通信模块(图3中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线350包括一通路,在设备的各个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器310、存储器320、输入/输出接口330、通信接口340以及总线350,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的模型训练方法,该方法至少包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (21)

1.一种模型训练方法,所述方法包括:
确定所述源域样本集和目标域样本集的共有特征空间;
根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
2.根据权利要求1所述的方法,所述确定源域样本集和目标域样本集的共有特征空间,包括:
利用特征选择算法对源域样本集的初始源域特征空间进行筛选,得到所述源域样本集的核心源域特征空间;
将所述核心源域特征空间和目标域样本集的初始目标域特征空间之间的交集,确定为所述源域样本集和所述目标域样板集的共有特征空间。
3.根据权利要求1所述的方法,所述根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项,包括:
针对所述共有特征空间中的任一特征项进行如下处理:
根据所述源域样本集中已确定标签样本的标签值,和其在所述特性项上的特征值,计算出用于表示所述特征项与标签值之间相关性的相关性参数;
根据所述相关性参数确定所述特征项为正相关特征项或负相关特征项。
4.根据权利要求3所述的方法,所述相关性参数至少包括下述其中一项:
皮尔逊相关系数、协方差、信息熵及互信息。
5.根据权利要求1所述的方法,所述根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值,包括:
利用所述正相关特征项对所述目标域样本集进行聚类,得到两个以上第一聚类簇;
针对任一第一聚类簇,若所述第一聚类簇满足设定条件,则确定所述第一聚类簇中的不确定标签样本的标签值为表示正样本的第一标签值;
利用所述负相关特征项对所述目标域样本集中除具有第一标签值以外的其他不确定标签样本进行聚类,得到两个以上第二聚类簇;
针对任一第二聚类簇,若所述第二聚类簇满足所述设定条件,则确定所述第二聚类簇中的不确定标签样本的标签值为表示负样本的第二标签值。
6.根据权利要求5所述的方法,所述设定条件至少包括:
聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值。
7.根据权利要求2所述的方法,所述将已预测出标签值的不确定标签样本与所述源域样本集进行整合,包括:
对已预测出标签值的不确定标签样本进行特征补齐处理,使得所述已预测出标签值的不确定标签样本的特征空间与所述初始源域特征空间一致;
将特征补齐处理后的已预测出标签值的不确定标签样本与所述源域样本集合并。
8.根据权利要求7所述的方法,所述对已预测出标签值的不确定标签样本进行特征补齐处理,包括:
将所述共有特征空间和所述初始源域特征空间之间的差集确定为待补齐特征空间;
将已预测出标签值的不确定标签样本在所述待补齐特征空间上的特征值设置为指定值。
9.根据权利要求8所述的方法,所述指定值至少包括下述其中一项:
所述源域样本集中的已确定标签样本在所述待补齐特征空间上特征值的平均值、最大值、最小值。
10.根据权利要求1所述的方法,所述利用整合后的样本集训练得到分类模型,包括:
利用有监督学习算法与整合后的样本集训练得到分类模型。
11.一种模型训练装置,所述装置包括:
共有特征确定模块,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块,用于利用整合后的样本集训练得到分类模型。
12.根据权利要求11所述的装置,所述共有特征确定模块包括:
筛选子模块,用于利用特征选择算法对源域样本集的初始源域特征空间进行筛选,得到所述源域样本集的核心源域特征空间;
第一确定子模块,用于将所述核心源域特征空间和目标域样本集的初始目标域特征空间之间的交集,确定为所述源域样本集和所述目标域样板集的共有特征空间。
13.根据权利要求11所述的装置,所述正负相关特征确定模块包括:
相关性计算子模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述特性项上的特征值,计算出用于表示所述特征项与标签值之间相关性的相关性参数;
第二确定子模块,用于根据所述相关性参数确定所述特征项为正相关特征项或负相关特征项;
所述相关性计算子模块与所述第二确定子模块用于针对所述共有特征空间中的任一特征项进行处理。
14.根据权利要求13所述的装置,所述相关性参数至少包括下述其中一项:
皮尔逊相关系数、协方差、信息熵及互信息。
15.根据权利要求11所述的装置,所述标签值预测模块包括:
第一聚类子模块,用于利用所述正相关特征项对所述目标域样本集进行聚类,得到两个以上第一聚类簇;
第一标签值确定子模块,用于针对任一第一聚类簇,若所述第一聚类簇满足设定条件,则确定所述第一聚类簇中的不确定标签样本的标签值为表示正样本的第一标签值;
第二聚类子模块,用于利用所述负相关特征项对所述目标域样本集中除具有第一标签值以外的其他不确定标签样本进行聚类,得到两个以上第二聚类簇;
第二标签值确定子模块,用于针对任一第二聚类簇,若所述第二聚类簇满足所述设定条件,则确定所述第二聚类簇中的不确定标签样本的标签值为表示负样本的第二标签值。
16.根据权利要求15所述的装置,所述设定条件至少包括:
聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值。
17.根据权利要求12所述的装置,所述整合模块包括:
特征补齐子模块,用于对已预测出标签值的不确定标签样本进行特征补齐处理,使得所述已预测出标签值的不确定标签样本的特征空间与所述初始源域特征空间一致;
合并子模块,用于将特征补齐处理后的已预测出标签值的不确定标签样本与所述源域样本集合并。
18.根据权利要求17所述的装置,所述特征补齐子模块包括:
第三确定子模块,用于将所述共有特征空间和所述初始源域特征空间之间的差集确定为待补齐特征空间;
特征值设置子模块,用于将已预测出标签值的不确定标签样本在所述待补齐特征空间上的特征值设置为指定值。
19.根据权利要求18所述的装置,所述指定值至少包括下述其中一项:
所述源域样本集中的已确定标签样本在所述待补齐特征空间上特征值的平均值、最大值、最小值。
20.根据权利要求11所述的装置,所述训练模块具体用于:
利用有监督学习算法与整合后的样本集训练得到分类模型。
21.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至10任一项所述的方法。
CN201810848267.4A 2018-07-27 2018-07-27 一种模型训练方法、装置、及计算机设备 Active CN109214421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810848267.4A CN109214421B (zh) 2018-07-27 2018-07-27 一种模型训练方法、装置、及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848267.4A CN109214421B (zh) 2018-07-27 2018-07-27 一种模型训练方法、装置、及计算机设备

Publications (2)

Publication Number Publication Date
CN109214421A true CN109214421A (zh) 2019-01-15
CN109214421B CN109214421B (zh) 2022-01-28

Family

ID=64990906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848267.4A Active CN109214421B (zh) 2018-07-27 2018-07-27 一种模型训练方法、装置、及计算机设备

Country Status (1)

Country Link
CN (1) CN109214421B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046642A (zh) * 2019-01-23 2019-07-23 阿里巴巴集团控股有限公司 计算机执行的用户意图预测方法、装置及设备
CN110738476A (zh) * 2019-09-24 2020-01-31 支付宝(杭州)信息技术有限公司 一种样本迁移方法、装置及设备
CN111144957A (zh) * 2020-04-07 2020-05-12 腾讯科技(深圳)有限公司 信息投放方法、装置、服务器及存储介质
CN111597946A (zh) * 2020-05-11 2020-08-28 腾讯科技(深圳)有限公司 图像生成器的处理方法、图像生成方法及装置
CN112308616A (zh) * 2020-11-02 2021-02-02 沈阳民航东北凯亚有限公司 一种航司旅客的群体划分方法及装置
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112634048A (zh) * 2020-12-30 2021-04-09 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置
CN112949752A (zh) * 2021-03-25 2021-06-11 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
CN115824993A (zh) * 2023-02-14 2023-03-21 北京英视睿达科技股份有限公司 水体化学需氧量的确定方法、装置、计算机设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016181400A1 (en) * 2015-05-12 2016-11-17 Trendiguru Llc System and method for automated object recognition
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN108229552A (zh) * 2017-12-29 2018-06-29 咪咕文化科技有限公司 一种模型处理方法、装置及存储介质
CN108304876A (zh) * 2018-01-31 2018-07-20 国信优易数据有限公司 分类模型训练方法、装置及分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016181400A1 (en) * 2015-05-12 2016-11-17 Trendiguru Llc System and method for automated object recognition
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification
CN107944874A (zh) * 2017-12-13 2018-04-20 阿里巴巴集团控股有限公司 基于迁移学习的风控方法、装置及系统
CN108229552A (zh) * 2017-12-29 2018-06-29 咪咕文化科技有限公司 一种模型处理方法、装置及存储介质
CN108197670A (zh) * 2018-01-31 2018-06-22 国信优易数据有限公司 伪标签生成模型训练方法、装置及伪标签生成方法及装置
CN108304876A (zh) * 2018-01-31 2018-07-20 国信优易数据有限公司 分类模型训练方法、装置及分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI PENGFEI等: "Domain Specific Feature Transfer for Hybrid Domain Adaptation", 《2017 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 *
刘建伟等: "域自适应学习研究进展", 《自动化学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046642A (zh) * 2019-01-23 2019-07-23 阿里巴巴集团控股有限公司 计算机执行的用户意图预测方法、装置及设备
CN110738476A (zh) * 2019-09-24 2020-01-31 支付宝(杭州)信息技术有限公司 一种样本迁移方法、装置及设备
CN110738476B (zh) * 2019-09-24 2021-06-29 支付宝(杭州)信息技术有限公司 一种样本迁移方法、装置及设备
CN111144957A (zh) * 2020-04-07 2020-05-12 腾讯科技(深圳)有限公司 信息投放方法、装置、服务器及存储介质
CN111597946A (zh) * 2020-05-11 2020-08-28 腾讯科技(深圳)有限公司 图像生成器的处理方法、图像生成方法及装置
CN112329838B (zh) * 2020-11-02 2024-02-02 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112308616A (zh) * 2020-11-02 2021-02-02 沈阳民航东北凯亚有限公司 一种航司旅客的群体划分方法及装置
CN112329838A (zh) * 2020-11-02 2021-02-05 上海明略人工智能(集团)有限公司 一种目标集合类别标签的确定方法和装置
CN112308616B (zh) * 2020-11-02 2024-05-28 沈阳民航东北凯亚有限公司 一种航司旅客的群体划分方法及装置
CN112634048A (zh) * 2020-12-30 2021-04-09 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置
WO2022143431A1 (zh) * 2020-12-30 2022-07-07 第四范式(北京)技术有限公司 一种反洗钱模型的训练方法及装置
CN112949752B (zh) * 2021-03-25 2022-09-06 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
CN112949752A (zh) * 2021-03-25 2021-06-11 支付宝(杭州)信息技术有限公司 业务预测系统的训练方法及装置
CN115824993A (zh) * 2023-02-14 2023-03-21 北京英视睿达科技股份有限公司 水体化学需氧量的确定方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN109214421B (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN109214421A (zh) 一种模型训练方法、装置、及计算机设备
TWI818999B (zh) 針對新場景的預測模型訓練方法及裝置
US10789786B2 (en) Picture-based vehicle loss assessment
US20210042628A1 (en) Building a federated learning framework
WO2018191435A1 (en) Picture-based vehicle loss assessment method and apparatus, and electronic device
CN113614748A (zh) 用于对象检测的增量学习的系统和方法
US10990810B2 (en) Automated facial recognition detection
KR20170077183A (ko) 계층적인 심층 합성곱 신경망
CN108009600A (zh) 模型优化、质量检测方法、装置、设备及存储介质
US10692089B2 (en) User classification using a deep forest network
CN107807945A (zh) 提供数据的装置、方法和数据处理系统
US10162879B2 (en) Label filters for large scale multi-label classification
JP2023542469A (ja) キーポイント検出に基づくコンピュータによる自動化された相互作用活動認識
CN109086791A (zh) 一种二分类器的训练方法、装置、及计算机设备
Hao et al. iTaskOffloading: Intelligent task offloading for a cloud-edge collaborative system
CA3135466A1 (en) User loan willingness prediction method and device and computer system
CN114384997A (zh) 传感器不可知姿势检测
CN105190474B (zh) 用于功率效率分类的经应用控制的粒度
CN114615177A (zh) 一种云平台的负载检测方法、装置、电子设备和存储介质
CN114691503B (zh) 一种面向测试的管理方法、装置、设备及介质
CN110188975A (zh) 一种资源获取方法及装置
US11671406B2 (en) Patterned and correlated electrical activity
CN116601961A (zh) 视觉标签显露模式检测
CN112200711A (zh) 一种水印分类模型的训练方法及系统
CN111599417A (zh) 溶解度预测模型的训练数据获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant