机器学习模型的建模方法及装置
技术领域
本发明涉及计算机技术,尤其涉及一种机器学习模型的建模方法及装置。
背景技术
在利用机器学习模型进行行为模式的判定时,往往采用针对同属于某一种目标行为的各种具体行为进行共性特征提取,从而依据这些共性特征构建机器学习模型。在判定某一个具体行为是否属于该目标行为时,所构建的机器学习模型依据其是否具有这些共性特征,来确定是否为该目标行为。
以网络中的虚假交易为例,虚假交易是指卖方用户和/或买方用户通过虚构或隐瞒交易事实、规避或恶意利用信用记录规则、干扰或妨害信用记录秩序等不正当方式获取虚假的商品销量、店铺评分、信用积分或商品评论等不当利益的行为。例如现在已经出现了刷单、炒信、套现和制造虚假订单贷款等虚假交易类型,为了规范网络交易行为,需要对虚假交易这种行为模式进行判定。
由于虚假交易有着不同的类型,每一种类型的虚假交易又有着多种具体的实现方式,同时各种类型虚假交易之间的交易行为差异较大,在现有技术中,无法采用提取共性特征的方式构建用于判断虚假交易的机器模型,因此,现有技术中采用了每一个机器学习模型针对某一种实现形式或者一个类型的虚假交易进行判定的方式。在利用机器学习模型识别虚假交易时,便需要建立多个模型,需要耗费大量成本,识别效率较低。
发明内容
本发明提供一种机器学习模型的建模方法及装置,用于构建一个能够适用于在目标行为具有多种不同类型的实现形式时,对目标行为进行综合判定的机器学习模型,从而节省成本,提高识别效率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供了一种机器学习模型的建模方法,包括:
获得互斥的各中间目标变量;其中,所述中间目标变量用于指示虚假交易的类型;
分别对各中间目标变量对应的机器学习子模型进行训练,获得各机器学习子模型的概率值;其中,所述机器学习子模型用于根据描述交易行为的特征变量判定对应中间目标变量指示的虚假交易类型;
对各机器学习子模型的概率值进行概率求和,获得目标概率值;
根据所述目标概率值和所述特征变量,建立用于判定虚假交易的目标机器学习模型。
第二方面,提供了一种机器学习模型的建模装置,包括:
获得模块,用于获得互斥的各中间目标变量;其中,所述中间目标变量用于指示虚假交易的类型;
训练模块,用于分别对各中间目标变量对应的机器学习子模型进行训练,获得各机器学习子模型的概率值;其中,所述机器学习子模型用于根据描述交易行为的特征变量判定对应中间目标变量指示的虚假交易类型;
求和模块,用于对各机器学习子模型的概率值进行概率求和,获得目标概率值;
建模模块,用于根据所述目标概率值和所述特征变量,建立用于判定虚假交易的目标机器学习模型。
本发明实施例提供的机器学习模型的建模方法及装置,通过针对每一个中间目标变量所对应的机器学习子模型进行训练,获得各机器学习子模型的概率值,进而将各机器学习子模型的概率值进行概率求和,基于求和所获得的目标概率值以及用于描述交易行为的特征变量建立用于判定目标行为的目标机器学习模型。由于每一个机器学习子模型用于判 定目标行为的某一特定类型,对各机器学习子模型的概率值进行概率求和,从而获得样本属于多种目标行为类型中的至少一种类型的概率,基于这一概率所构建的机器学习模型可以用于对目标行为进行综合判定。举例来说,若将这种建模方法应用于虚假交易的应用场景中,所构建的模型便能够对于虚假交易进行综合判定,而无需现有技术中需要针对虚假交易的不同实现形式或类型构建多个模型,实现了节省成本,提高虚假交易的识别效率的目的。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例一提供的一种机器学习模型的建模方法的流程示意图;
图2为本发明实施例二提供的一种机器学习模型的建模方法的流程示意图;
图3为重构目标变量的流程示意图;
图4为本发明实施例三提供的一种机器学习模型的建模装置的结构示意图;
图5为本发明实施例四提供的一种机器学习模型的建模装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附 图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
下面结合附图对本发明实施例提供的机器学习模型的建模方法及装置进行详细描述。
实施例一
图1为本发明实施例一提供的一种机器学习模型的建模方法的流程示意图,本实施例所提供的方法,可以用于进行虚假交易的判断中,也就是说,本实施例中所提及的目标行为可以为虚假交易,本实施例所提供的方法还可以用于其他异常交易中,本实施例中对此不做限定,如图1所示,包括:
步骤101、分别对各中间目标变量对应的机器学习子模型进行训练,获得各机器学习子模型的概率值。
其中,机器学习子模型用于根据描述交易行为的特征变量判定对应中间目标变量指示的目标行为类型。
具体地,目标行为有着多种实现形式,可以将交易行为相似的实现形式划分为一种类型,从而使得在每一种类型的内部,交易行为是相似的,但每一种类型之间的交易行为往往具有较大的差异性。例如,在虚假交易判定的应用场景中,虚假交易有着多种实现形式,在刷单、套现、骗贷和炒信的实现形式中,炒信和刷单的交易行为相似性较高,可以划分为一个类型,而套现和骗贷的交易行为则与之具有较大差异,可以分别作为一个类型。
在进行目标行为的类别划分时,可以根据用于指示目标行为的具体实现形式的初始目标变量之间的相容或互斥状态,对相容的初始目标变量进行合并,获得相互之间为互斥状态的中间目标变量。若不同实现形式的目标行为的交易行为差异性较大,则不同实现形式所对应的初始目标变量之间为相斥的;若不同实现形式的目标行为的交易行为差异性较 小,则不同实现形式所对应的初始目标变量之间为相容的。
构建各中间目标变量对应的机器学习子模型,机器学习子模型是一个二分类模型,用于根据描述交易行为的特征变量判定样本是否属于对应中间目标变量指示的目标行为类型。利用训练样本,对各机器学习子模型进行训练,获得各机器学习子模型的概率值。
步骤102、对各机器学习子模型的概率值进行概率求和,获得目标概率值。
由于每一个机器学习子模型用于判定对应的中间目标变量所指示的目标行为类型,对各机器学习子模型的概率值进行概率求和就能够获得用于判定属于多种目标行为类型中的至少一种的概率,即目标概率值。
步骤103、根据目标概率值和特征变量,建立用于判定目标行为的目标机器学习模型。
具体地,构建用于判定目标行为的目标机器学习模型,目标机器学习模型是一个二分类模型,目标机器学习模型的概率取目标概率值,目标机器学习模型的输入为描述交易行为的特征变量,输出为用于指示是否为目标行为的目标变量,该目标变量的取值为0或1,当根据样本的特征变量判定出目标变量取值为1时,该样本为正样本,即属于目标行为,否则不为目标行为。
本实施例中,通过针对每一个中间目标变量所对应的机器学习子模型进行训练,获得各机器学习子模型的概率值,进而将各机器学习子模型的概率值进行概率求和,基于求和所获得的目标概率值以及用于描述交易行为的特征变量建立用于判定目标行为的目标机器学习模型。在虚假交易判断的应用场景中,目标行为即为虚假交易,从而每一个机器学习子模型用于判定对应的中间目标变量所指示的虚假交易类型,对各机器学习子模型的概率值进行概率求和就能够获得用于判定属于多种虚假交易类型中的至少一种的概率,基于这一概率值所构建的模型便能够对于多种虚假交易类型进行判定,实现了节省成本,提高虚假交易的识别效率的目的。
实施例二
图2为本发明实施例二提供的一种机器学习模型的建模方法的流程示意图,本实施例中,以构建对虚假交易进行综合判定的机器学习模型为例,进一步说明本发明实施例的技术方案,如图2所示,该方法包括:
步骤201、获得预设的初始目标变量和特征变量。
具体的,在历史交易数据中记录有历史发生过的交易所形成的交易记录,在每一条交易记录中包括三个维度的交易信息,分别为买家交易信息、卖家交易信息和商品交易信息。另外,每一条交易记录还包括是否属于各种虚假交易的具体实现形式的信息,虚假交易具体实现形式包括但不限于刷单、套现、骗贷和炒信。
用户可以从历史交易数据中,提取用于描述交易信息的参数,设定为特征变量x,以及提取用于描述虚假交易类型的参数设定为初始特征变量y。
例如:可以将刷单作为初始特征变量y1,将套现作为初始特征变量y2,将骗贷作为初始特征变量y3,将炒信作为初始特征变量y4。
由于历史信息中包含有大量的参数,在进行特征变量设定时,用户可以尽量多地提取用于描述交易信息的参数作为特征变量,通过提取完善的交易信息,使得特征变量所描述的交易行为也就更加准确。基于此所建立的机器学习模型在进行分类等分析运算时,所获得的结果也就更加准确。
步骤202、根据初始目标变量获得互斥的中间目标变量。
具体地,确定初始目标变量之间的相容或互斥状态,根据相容或互斥状态,对相容的初始目标变量进行合并,获得相互之间为互斥状态的中间目标变量。
首先,根据公式确定初始目标变量之间的相容或互斥状态,将存在互斥状态的两初始目标变量作为一个初始目标变量对。其中,Numij表示历史交易数据中被初始目标变量yi和初始目标变量yj同时定义为正样本的交易记录的条数。Numi表示历史交 易数据中被初始目标变量yi定义为正样本的交易记录的条数,Numj表示历史交易数据中被初始目标变量yj定义为正样本的交易记录的条数。i和j的取值范围为:1≤i≤N,1≤j≤N。N为初始特征变量的总数。H=1时两初始目标变量之间为互斥,H=0时两初始目标变量之间为相融。另外,上述公式中的0.2仅是一种优选的阈值,在实际使用中,可以选择其他取值,阈值的取值越小,则当H=1时所判定出的两初始目标变量之间的互斥就更加严格,也就是说,一个初始目标变量对另一初始目标变量的取值所构成的影响越小。
需要说明的是,正样本在这里是指交易记录属于初始目标变量所指示的虚假交易类型,反之为负样本。互斥在这里是指一个初始目标变量的取值对另一个初始目标变量的取值构成影响小,而相融是指一个初始目标变量的取值对另一个初始目标变量的取值构成影响大。
其次,构建一个拆分集合,集合中包括全部的初始目标变量。进而,重复执行根据一个初始目标变量对,将拆分集合拆分为两个下一级的拆分集合的步骤,其中,下一级的拆分集合用于根据下一个初始目标变量对进行拆分,直至全部的初始目标变量对执行完毕。在每一个拆分集合中包含有初始目标变量对中的一个初始目标变量,以及被拆分集合中除初始目标变量对之外的全部元素。对相互之间存在包含关系的拆分集合进行合并,获得目标子集。将同一目标子集中的初始目标变量合并,作为中间目标变量Y。
例如:若初始目标变量为y1,y2,y3,y4,经过计算,若确定存在互斥关系的为初始目标变量对y1和y2、初始目标变量对y1和y4、初始目标变量对y2和y4、初始目标变量对y3和y4,则可以据此对拆分集合{y1,y2,y3,y4}执行进行拆分和合并的重构过程,图3为重构目标变量的流程示意图,如图3所示,获得的目标子集为{y1,y2}、{y2,y3}、{y4}。将y1和y2相合并为Y1,将y2和y3相合并为Y2,将y4作为Y3。
步骤203、构建各中间目标变量对应的机器学习子模型。
具体地,针对每一个中间目标变量构建一个二分类的机器学习子模型,该中间目标变量的机器学习子模型用于确定样本是否为该中间目标 变量的正样本。
在机器学习子模型为线性模型的基础上,为了在对机器学习子模型进行训练的过程中,提高机器学习子模型的性能,减少训练噪声,可以针对每一个中间目标变量的机器学习子模型,进行特征变量的筛选,筛选后的每一个机器学习子模型的特征变量有可能是不相同的,在每个机器学习子模型中仅保留同向的特征变量,避免由于特征变量的同向性不一致所导致的训练噪声。具体筛选过程为:计算各特征变量与用于合并获得该中间目标变量的各初始目标变量之间的协方差,筛选掉与这些初始目标变量之间的协方差正负向不一致的特征变量。
例如:特征变量包括X1、X2、…Xq…、Xn,其中,n为特征变量的总个数,中间目标变量包括Y1、Y2、…Yv…、YN ’,其中,N’为中间目标变量的总个数。
合并获得中间目标变量Yv的各初始目标变量记为ys。在中间目标变量Yv的机器学习子模型中,依次针对每一个特征变量Xq,采用公式 计算与各初始目标变量ys之间的协方差,若计算出的各协方差特征变量Covq1,Covq2,……CovqS正负号相同,则保留该特征变量Xq,否则筛选掉该特征变量Xq。
其中,1≤q≤n,1≤s≤S,S为合并获得该中间目标变量Yv的各初始目标变量ys的个数,Xqk为特征变量Xq在历史交易数据中第k条交易记录中的取值,ysk为初始目标变量ys在历史交易数据中第k条交易记录中的取值,为特征变量Xq在历史交易数据中的平均值,为各目标初始目标变量ys在历史交易数据中的平均值。
构建中间目标变量Y的机器学习子模型M,机器学习子模型M的输入为筛选后的特征变量X,输出为中间目标变量Y。
步骤204、对各中间目标变量对应的机器学习子模型进行训练,获得机器学习子模型的概率。
具体地,将历史交易数据中的每一条交易记录作为一个训练样本,利用历史交易数据所构成的训练样本集,分别对各机器学习子模型进行训练,获得机器学习子模型的概率pv。
为了使得对于机器学习子模型进行训练的模拟性更好,可以根据用于合并获得机器学习子模型所对应的中间目标变量的各初始目标变量的 权重,在历史交易数据中,对每一条交易记录进行复制,将复制后的历史交易数据作为训练样本集。采用该方式,构建每个机器学习子模型的训练样本集。
由于权重是用于指示初始目标变量的严重程度,从而当初始目标变量越严重时,经过复制的操作后,在训练样本集中,该初始目标变量的正样本的数量也就越多,从而在训练过程中能够提高训练的模拟性。
例如:
对于中间目标变量Yv的机器学习子模型构建训练样本集时,预先确定合并获得该中间目标变量Yv的各初始目标变量ys的权重分别为W1、W2、…Ws…WS。针对每一条交易记录,将合并获得该中间目标变量Yv的各初始目标变量ys的权重Ws,代入公式
若该训练样本为初始目标变量ys正样本,则ys=1,若该训练样本为初始目标变量ys负样本,则ys=0,获得该样本的复制份数CN。对每一条训练样本复制对应的CN份,从而构建一个训练样本集。
进而,利用该复制后的训练样本集分别对各中间目标变量对应的机器学习子模型进行训练,获得机器学习子模型的概率p1、p2、…pv…、pN ’。
步骤205、对机器学习子模型的概率进行概率求和,获得目标概率值。
具体地,将机器学习子模型的概率p1、p2、…pv…、pN ’代入公式 计算获得机器学习模型的概率P。
步骤206、构建机器学习模型。
具体地,该机器学习模型为二分类模型,机器学习模型概率为P,输入为特征变量x,输出为用于指示是否为虚假交易的目标变量。所构建的机器学习模型用于判定输入的特征变量所描述的交易行为是否属于虚假交易。基于该机器学习模型对样本进行判定,若判定出该样本为正样本则说明样本所指示的交易为虚假交易的可能性很高,若判定出该样本为负样本,则说明样本所指示的交易为虚假交易的可能性很小。
实施例三
图4为本发明实施例三提供的一种机器学习模型的建模装置的结构示意图,如图4所示,包括:训练模块41、求和模块42和建模模块43。
训练模块41,用于分别对各中间目标变量对应的机器学习子模型进行训练,获得各机器学习子模型的概率值。
其中,机器学习子模型用于根据描述交易行为的特征变量判定对应中间目标变量指示的目标行为类型。
求和模块42,用于对各机器学习子模型的概率值进行概率求和,获得目标概率值。
具体地,求和模块42,具体用于将各机器学习子模型的概率pv代入公式计算获得机器学习模型的概率P。
其中,N’为机器学习子模型的个数。
建模模块43,用于根据目标概率值和特征变量,建立用于判定是否为目标行为的目标机器学习模型。
本实施例中,通过针对每一个中间目标变量所对应的机器学习子模型进行训练,获得各机器学习子模型的概率值,进而将各机器学习子模型的概率值进行概率求和,基于求和所获得的目标概率值以及用于描述交易行为的特征变量建立用于判定目标行为的目标机器学习模型。在虚假交易判断的应用场景中,目标行为即为虚假交易,从而每一个机器学习子模型用于判定对应的中间目标变量所指示的虚假交易类型,对各机器学习子模型的概率值进行概率求和就能够获得用于判定属于多种虚假交易类型中的至少一种的概率,基于这一概率值所构建的模型便能够对于多种虚假交易类型进行判定,实现了节省成本,提高虚假交易的识别效率的目的。
实施例四
图5为本发明实施例四提供的一种机器学习模型的建模装置的结构示意图,如图5所示,在图4所提供的机器学习模型的建模装置的基础上,建模装置还包括:获得模块44。
获得模块44,用于根据各初始目标变量之间的相容或互斥状态,对相容的初始目标变量进行合并,获得相互之间为互斥状态的中间目标变量;其中,所述初始目标变量用于指示目标行为的实现形式。
具体地,图5为本发明实施例四提供的一种机器学习模型的建模装置的结构示意图,作为一种可能的实现形式,获得模块44进一步包括:计算单元441、组合单元442、构建单元443、拆分单元444、合并单元445和确定单元446。
计算单元441,用于根据公式确定初始目标变量之间的相容或互斥状态。
其中,Numij表示历史交易数据中初始目标变量yi和初始目标变量yj同时定义为正样本的交易记录的条数,Numi表示所述历史交易数据中初始目标变量yi定义为正样本的交易记录的条数,Numj表示所述历史交易数据中初始目标变量yj定义为正样本的交易记录的条数,1≤i≤N,1≤j≤N,N为初始特征变量的总数,H=1时两初始目标变量之间为互斥,H=0时两初始目标变量之间为相融。
T1和T2为预设阈值,0<T1<1,0<T2<1。优选的,T1=T2=0.2。
组合单元442,用于将两两之间为互斥状态的初始目标变量组成初始目标变量对。
构建单元443,用于构建包括各初始目标变量的拆分集合。
拆分单元444,用于依次针对每一个初始目标变量对,执行根据所述初始目标变量对,将拆分集合拆分为两个下一级的拆分集合,在每一个下一级的拆分集合中包含有所述初始目标变量对中的一个初始目标变量,以及被拆分的拆分集合中除所述初始目标变量对之外的全部元素的步骤。
其中,所述下一级的拆分集合用于根据下一个初始目标变量对进行拆分。
合并单元445,用于对相互之间存在包含关系的拆分集合进行合并,获得目标子集。
确定单元446,用于将同一目标子集中的初始目标变量合并,作为所 述中间目标变量。
进一步,机器学习子模型为线性模型,建模装置,还包括:协方差计算模块45、筛选模块46、计算模块47、复制模块48和样本模块49。
协方差计算模块45,用于针对每一个机器学习子模型,计算特征变量Xq与各初始目标变量ys之间的协方差。
其中,所述初始目标变量ys用于合并获得所述机器学习子模型所对应的中间目标变量。
筛选模块46,用于若所述特征变量Xq与各初始目标变量ys之间的协方差正负号不相同,则筛选掉所述特征变量Xq,否则,保留所述特征变量Xq。
计算模块47,用于针对每一条交易记录,将初始目标变量ys及所述初始目标变量ys的权重Ws,代入公式获得所述交易记录的复制条数CN。
其中,所述交易记录为所述初始目标变量ys正样本时,ys=1,否则,ys=0;S为所述初始目标变量ys的个数。
复制模块48,用于针对每一个机器学习子模型,根据各初始目标变量ys权重Ws所确定出的交易记录复制条数,对所述历史交易数据中的交易记录进行复制;其中,所述初始目标变量ys用于合并获得所述机器学习子模型所对应的中间目标变量;
样本模块49,用于将复制后的历史交易数据作为所述机器学习子模型的训练样本。
本实施例所提供的装置,用于执行如图1和2所示的方法,各功能模块的描述请参见前述实施例,本实施例中不再赘述。
本实施例中,通过针对每一个中间目标变量所对应的机器学习子模型进行训练,获得各机器学习子模型的概率值,进而将各机器学习子模型的概率值进行概率求和,基于求和所获得的目标概率值以及用于描述交易行为的特征变量建立用于判定目标行为的目标机器学习模型。在虚假交易判断的应用场景中,目标行为即为虚假交易,从而每一个机器学习子模型用于判定对应的中间目标变量所指示的虚假交易类型,对各机 器学习子模型的概率值进行概率求和就能够获得用于判定属于多种虚假交易类型中的至少一种的概率,基于这一概率值所构建的模型便能够对于多种虚假交易类型进行判定,实现了节省成本,提高虚假交易的识别效率的目的。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。