一种模型训练方法、装置、及计算机设备
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种模型训练方法、装置、及计算机设备。
背景技术
在机器学习、深度学习、数据挖掘等任务中,利用大量的带有可靠标签的数据样本进行训练,可以获得各种形式的数据模型以实现业务功能,例如防范欺诈风险、信用风险。
随着业务国际化的发展,通常希望针对国内业务场景实现的业务功能也可以快速应用于类似的海外业务场景中,然而,由于海外业务场景虽然与国内业务场景具有相似之处,但仍存在其独有的特性,从而,若直接将基于国内业务场景训练得到的数据模型应用于海外业务场景,则会导致模型识别结果的准确率较低;同时,由于带有标签的数据样本是需要一定时间的数据积累才可得到,从而,若从零开始重新训练新的适用于海外业务场景的数据模型,则需耗费较长时间,训练效率较低。
发明内容
针对上述技术问题,本说明书实施例提供一种模型训练方法、装置、及计算机设备,技术方案如下:
根据本说明书实施例的第一方面,提供一种模型训练方法,所述方法包括:
确定所述源域样本集和目标域样本集的共有特征空间;
根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第二方面,提供一种模型训练装置,所述装置包括:
共有特征确定模块,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块,用于利用整合后的样本集训练得到分类模型。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本说明书实施例提供的任一模型训练方法。
本说明书实施例所提供的技术方案,通过确定源域样本集和目标域样本集的共有特征空间;根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项;根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型,由于利用源域样本集的知识对目标域样本集进行打标,然后将源域样本集与目标域样本集中已打标的不确定标签样本进行整合,基于整合后的样本集训练得到分类模型,从而实现快速训练出符合目标域特有业务特性的分类模型。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本说明书一示例性实施例提供的一种模型训练方法的实施例流程图;
图2为本说明书一示例性实施例提供的一种模型训练装置的实施例框图;
图3示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
针对上述问题,本说明书实施例提供一种模型训练方法,参见图1所示,为本说明书一示例性实施例提供的一种模型训练方法的实施例流程图,该方法可以包括以下步骤:
步骤102:确定源域样本集和目标域样本集的共有特征空间。
在本说明书实施例中,源域样本集中的任一数据样本均具有可靠的标签,基于此,为了描述方便,将源域样本集中的数据样本称为已确定标签样本;类似的,目标域样本集中的任一数据样本均不具有可靠的标签,则为了描述方便,将目标域样本集中的数据样本称为不确定标签样本。
在本说明书实施例中,为了描述方便,将针对源域样本集设置的特征空间称为初始源域特征空间,将针对目标域样本集设置的特征空间称为初始目标域特征空间,本领域技术人员可以理解的是,由于源域样本集与目标域样本集分别来自不同的业务场景,从而,初始源域特征空间与初始目标域特征空间有所不同,并且,由于两者所来自的业务场景存在一些共性特征,从而两者并不是完全不同,而是部分不同,举例来说,假设初始源域特征空间包括8个特征项,具体为{X1、X2、X3、X4、X5、X6、X7、X8},假设初始目标域特征空间包括10个特征项,具体为{X3、X4、X5、X6、X7、X8、X9、X10、X11、X12}。
在一实施例中,可以直接取初始源域特征空间与初始目标域特征空间直接的交集,将该交集确定为源域样本集和目标域样本集的共有特征空间,例如,共有特征空间为:{X3、X4、X5、X6、X7、X8}。
在一优选的实施例中,由于在实际应用中,特征数量往往较多,而其中可能会存在不相关的特征,利用数量较多的特征进行模型训练,则容易导致模型训练耗时长,训练效率低,且训练得到的模型较为复杂,推广能力下降,基于此,在本说明书实施例中提出,利用模型选择算法对上述初始源域特征集进行筛选,以剔除其中的不相关或冗余特征,仅保留真正相关的特征,从而减少特征个数,提高模型训练效率,提高模型精度。为了描述方法,将筛选后的源域样本集的特征空间称为核心源域特征空间。举例来说,核心源域特征空间为{X2、X3、X4、X6、X8}。
之后,取该核心源域特征空间和上述初始目标域特征空间之间的交集,将该交集确定为源域样本集和目标域样本集的共有特征空间,例如,共有特征空间为{X3、X4、X6、X8}。
上述特征选择算法可以为随机森林算法、逻辑回归算法,或者主成分分析算法等,本说明书实施例对具体采用何种特征选择算法不作限制。
步骤104:根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项。
特征项与类别的相关性包括正相关性和反相关性,基于此,在本说明书实施例中定义,若对于某一特征项而言,若其特征值越大,对应的分类结果为正类的概率越大,则该特征项与正类的相关性为正相关性,为了描述方便,可以将该特征项称为正相关特征项;反之,若其特征值越大,对应的分类结果为正类的概率越小,则该特征项与正类的相关性为负相关性,为了描述方便,可以将该特征项称为负相关特征项。
在本说明书实施例中,可以针对上述共有特征空间中的任一特征项进行如下处理:根据源域样本集中各个已确定标签样本的标签值,和其在特征项上的特征值,计算出用于表示该特征项与标签值之间相关性的相关性参数,例如皮尔逊相关系数、协方差,或者信息熵及互信息等,之后,则可以根据相关性参数确定该特征项为正相关特征项还是为负相关特征项。
以相关性参数为皮尔逊相关系数为例,若计算出的皮尔逊相关系数在0与1之间,则可以认为该特征项为正相关特征项,若计算出的皮尔逊相关系数在-1与0之间,则可以认为该特征项为负相关特征项。
在以相关性参数为协方差为例,若计算出的协方差为正值,则可以认为该特征项为正相关特征项,若计算出的协方差为负值,则可以认为该特征项为负相关特征项。
至于相关性系数为其他类型的参数的具体说明,本说明书实施例不再一一赘述。
步骤106:根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值。
在本说明书实施例中,可以利用聚类算法与上述共有特征空间,对目标域样本集中的不确定标签样本进行聚类,得到正相关特征项汇聚度高的聚类簇,与负相关特征项汇聚度高的聚类簇,之后,可以针对正相关特征项汇聚度高的聚类簇,将其中的不确定标签样本的标签值设置为表示正样本的第一标签值,例如1;针对负相关特征项汇聚度高的聚类簇,将其中的不确定标签样本的标签值设置为表示负样本的第二标签值,例如0。
具体的,在一实施例中,可以首先利用聚类算法与上述共有特征空间中的正相关特征项,对目标域样本集中的不确定标签样本进行聚类,可以得到两个以上聚类簇,为了描述方便,将此过程中得到的聚类簇称为第一聚类簇,之后,针对任一第一聚类簇,判断该第一聚类簇是否满足设定条件,若满足,则可以认为该第一聚类簇为正相关特征项汇聚度高的聚类簇,也即,可以确定该第一聚类簇中不确定标签样本的标签值为表示正样本的第一标签值。
之后,利用聚类算法与上述共有特征空间中的负相关特征项,对目标域样本集中,除已打标的,即已具有第一标签值以外的其他不确定标签样本再次进行聚类,得到两个以上聚类簇,为了描述方便,将此过程中得到的聚类簇称为第二聚类簇,之后,针对任一第二聚类簇,判断该第二聚类簇是否满足设定条件,若满足,则可以认为该第二聚类簇为负相关特征项汇聚度高的聚类簇,也即,可以确定该第二聚类簇中不确定标签样本的标签值为表示负样本的第二标签值。
在一实施例中,上述设定条件可以为:聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值,其中,该绝对距离表示聚类簇的中心点与预设原点之间的距离,如此设置该设定条件的依据为:对于第一聚类簇而言,其中心点的绝对距离越大,表示其中的不确定标签样本的标签值为第一标签值的概率越大;对于第二聚类簇而言,其中心点的绝对距离越大,表示其中的不确定标签样本的标签值为第二标签值的概率越大。
需要说明的是,上述所描述的判断聚类簇是否满足设定条件的描述仅仅作为举例,在实际应用中,还可以存在其他方式,例如,还可以对各个聚类簇的中心点的绝对距离按照从大到小的顺序进行排序,取绝对距离排在前N(N为大于0的自然数,且小于聚类簇的数量)位的聚类簇,然后,在该些聚类簇中筛选出不确定标签样本的数量大于预设的数量阈值的聚类簇,作为满足设定条件的聚类簇。
此外,在本说明书实施例中,还可以首先利用聚类算法与上述共有特征空间中的负相关特征项对目标域样本集中的不确定标签样本进行聚类,得到具有第二标签值的负类样本,再利用聚类算法与上述共有特征空间中的正相关特征对目标域样本集中除负类样本以外的其他样本进行聚类,得到具有第一标签值的正类样本。
步骤108:将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型。
由于是基于共有特征空间预测出不确定标签样本的标签值的,从而,已预测出标签值的不确定标签样本的特征空间则为该共有特征空间,这就与源域样本集的初始源域特征空间并不一致,基于此,在本说明书实施例中,首先对已预测出标签值的不确定标签样本进行特征补齐处理,使得已预测出标签值的不确定标签样本的特征空间与初始源域特征空间一致。
在一实施例中,可以首先将共有特征空间和初始源域特征空间之间的差集确定为待补齐特征空间,例如,待补齐特征空间为{X1、X2、X5、X7},之后,将已预测出标签值的不确定标签样本在该待补齐特征空间上的特征值设置为指定值。
该指定值可以为:源域样本集中的各个已确定标签样本在该待补齐特征空间上特征值的平均值、最大值或者最小值等。
后续,则可以将特征补齐处理后的已预测出标签值的不确定标签样本与源域样本集进行合并,利用有监督学习算法与合并后的样本集进行训练,得到分类模型。
本说明书实施例所提供的技术方案,通过确定源域样本集和目标域样本集的共有特征空间;根据源域样本集中已确定标签样本的标签值,和其在共有特征空间上的特征值,在共有特征空间中确定出正相关特征项和负相关特征项;根据正相关特征项和负相关特征项预测出目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与源域样本集进行整合,利用整合后的样本集训练得到分类模型,由于利用源域样本集的知识对目标域样本集进行打标,然后将源域样本集与目标域样本集中已打标的不确定标签样本进行整合,基于整合后的样本集训练得到分类模型,从而实现快速训练出符合目标域特有业务特性的分类模型。
相应于上述方法实施例,本说明书实施例还提供一种模型训练装置,参见图2所示,为本说明书一示例性实施例提供的一种模型训练装置的实施例框图,该装置可以包括:共有特征确定模块210、正负相关特征确定模块220、标签值预测模块230、整合模块240,以及训练模块250。
其中,共有特征确定模块210,用于确定所述源域样本集和目标域样本集的共有特征空间;
正负相关特征确定模块220,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;
标签值预测模块230,用于根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;
整合模块240,用于将已预测出标签值的不确定标签样本与所述源域样本集进行整合;
训练模块250,用于利用整合后的样本集训练得到分类模型。
在一实施例中,所述共有特征确定模块210包括(图2中未示出):
筛选子模块,用于利用特征选择算法对源域样本集的初始源域特征空间进行筛选,得到所述源域样本集的核心源域特征空间;
第一确定子模块,用于将所述核心源域特征空间和目标域样本集的初始目标域特征空间之间的交集,确定为所述源域样本集和所述目标域样板集的共有特征空间。
在一实施例中,所述正负相关特征确定模块220包括(图2中未示出):
相关性计算子模块,用于根据所述源域样本集中已确定标签样本的标签值,和其在所述特性项上的特征值,计算出用于表示所述特征项与标签值之间相关性的相关性参数;
第二确定子模块,用于根据所述相关性参数确定所述特征项为正相关特征项或负相关特征项;
所述相关性计算子模块与所述第二确定子模块用于针对所述共有特征空间中的任一特征项进行处理。
在一实施例中,所述相关性参数至少包括下述其中一项:
皮尔逊相关系数、协方差、信息熵及互信息。
在一实施例中,所述标签值预测模块230包括(图2中未示出):
第一聚类子模块,用于利用所述正相关特征项对所述目标域样本集进行聚类,得到两个以上第一聚类簇;
第一标签值确定子模块,用于针对任一第一聚类簇,若所述第一聚类簇满足设定条件,则确定所述第一聚类簇中的不确定标签样本的标签值为表示正样本的第一标签值;
第二聚类子模块,用于利用所述负相关特征项对所述目标域样本集中除具有第一标签值以外的其他不确定标签样本进行聚类,得到两个以上第二聚类簇;
第二标签值确定子模块,用于针对任一第二聚类簇,若所述第二聚类簇满足所述设定条件,则确定所述第二聚类簇中的不确定标签样本的标签值为表示负样本的第二标签值。
在一实施例中,所述设定条件至少包括:
聚类簇中不确定标签样本的数量大于预设的数量阈值,且聚类簇的中心点的绝对距离大于预设的距离阈值。
在一实施例中,所述整合模块240包括(图2中未示出):
特征补齐子模块,用于对已预测出标签值的不确定标签样本进行特征补齐处理,使得所述已预测出标签值的不确定标签样本的特征空间与所述初始源域特征空间一致;
合并子模块,用于将特征补齐处理后的已预测出标签值的不确定标签样本与所述源域样本集合并。
在一实施例中,所述特征补齐子模块包括(图2中未示出):
第三确定子模块,用于将所述共有特征空间和所述初始源域特征空间之间的差集确定为待补齐特征空间;
特征值设置子模块,用于将已预测出标签值的不确定标签样本在所述待补齐特征空间上的特征值设置为指定值。
在一实施例中,所述指定值至少包括下述其中一项:
所述源域样本集中的已确定标签样本在所述待补齐特征空间上特征值的平均值、最大值、最小值。
在一实施例中,所述训练模块250具体用于:
利用有监督学习算法与整合后的样本集训练得到分类模型。
可以理解的是,共有特征确定模块210、正负相关特征确定模块220、标签值预测模块230、整合模块240,以及训练模块250作为五种功能独立的模块,既可以如图2所示同时配置在装置中,也可以分别单独配置在装置中,因此图2所示的结构不应理解为对本说明书实施例方案的限定。
此外,上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的模型训练方法,该方法至少包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
图3示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器310、存储器320、输入/输出接口330、通信接口340和总线350。其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。
处理器310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器320中,并由处理器310来调用执行。
输入/输出接口330用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图3中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口340用于连接通信模块(图3中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线350包括一通路,在设备的各个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器310、存储器320、输入/输出接口330、通信接口340以及总线350,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的模型训练方法,该方法至少包括:确定所述源域样本集和目标域样本集的共有特征空间;根据所述源域样本集中已确定标签样本的标签值,和其在所述共有特征空间上的特征值,在所述共有特征空间中确定出正相关特征项和负相关特征项;根据所述正相关特征项和所述负相关特征项预测出所述目标域样本集中不确定标签样本的标签值;将已预测出标签值的不确定标签样本与所述源域样本集进行整合,利用整合后的样本集训练得到分类模型。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。