交易特征生成模型的训练、交易特征的生成方法和装置
技术领域
本说明书涉及机器学习技术领域,尤其涉及一种交易特征生成模型的训练、交易特征的生成方法和装置。
背景技术
在机器学习技术领域,输入机器学习模型的特征往往依赖于人工的经验总结,这需要技术人员具有较多的先验知识,并且还需要消耗大量的时间进行验证,导致特征生成的效率低下。
发明内容
有鉴于此,本说明书提供一种交易特征生成模型的训练、交易特征的生成方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种交易特征的生成方法,所述交易特征用于对非法交易进行识别,所述方法包括:
获取目标数据集,所述目标数据集中包括若干条交易数据;
获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
一种交易特征生成模型的训练方法,包括:
获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
一种特征生成方法,所述方法包括:
获取目标数据集,所述目标数据集中包括若干条数据;
获取所述数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
将所述特征向量输入已训练的特征生成模型,输出所述新特征的预测结果;
选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的特征。
一种交易特征的生成装置,所述交易特征用于对非法交易进行识别,所述装置包括:
数据集获取单元,获取目标数据集,所述目标数据集中包括若干条交易数据;
特征获取单元,获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
特征组合单元,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
特征预测单元,将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
特征生成单元,选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
一种交易特征生成模型的训练装置,包括:
样本获取单元,获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
特征获取单元,获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
特征组合单元,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
差异计算单元,计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
模型训练单元,根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
一种交易特征的生成装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与交易特征的生成逻辑对应的机器可执行指令,所述处理器被促使:
获取目标数据集,所述目标数据集中包括若干条交易数据;
获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
一种交易特征生成模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与交易特征生成模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
由以上描述可以看出,本实施例可对数据的原始特征进行组合得到若干新特征,然后采用已训练的特征生成模型对所述新特征进行预测,并可选取预测结果满足指定条件的若干新特征作为新生成的特征,以用于后续的数据预测,从而实现特征的自动生成,极大的提高了特征生成的效率。
附图说明
图1是本说明书一示例性实施例示出的一种交易特征生成模型的训练方法的流程示意图。
图2是本说明书一示例性实施例示出的一种交易特征的生成方法的流程示意图。
图3是本说明书一示例性实施例示出的一种特征生成方法的流程示意图。
图4是本说明书一示例性实施例示出的一种用于交易特征的生成装置的一结构示意图。
图5是本说明书一示例性实施例示出的一种交易特征的生成装置的框图。
图6是本说明书一示例性实施例示出的一种用于交易特征生成模型的训练装置的一结构示意图。
图7是本说明书一示例性实施例示出的一种交易特征生成模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书提供一种交易特征的生成方案,可对交易数据的原始特征进行组合得到若干新特征,然后采用已训练的交易特征生成模型对所述新特征进行预测,并可选取预测结果满足指定条件的若干新特征作为新生成的交易特征,以用于后续的非法交易识别,从而实现交易特征的自动生成,极大的提高了交易特征生成的效率。
下面分别从交易特征生成模型的训练和交易特征的生成的两个方面来描述本说明书的具体实现过程。
一、交易特征生成模型的训练
图1是本说明书一示例性实施例示出的一种交易特征生成模型的训练方法的流程示意图。
请参考图1,所述交易特征生成模型的训练方法可包括以下步骤:
步骤102,获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易。
在本实施例中,可获取已进行过非法交易识别的交易数据作为样本交易数据,所述样本交易数据带有交易标签,所述交易标签用于标注对应的样本交易数据是否为非法交易。所述非法交易可包括:套现交易、洗钱交易等。
例如,交易标签“0”可表示对应的样本交易数据不是非法交易;交易标签“1”可表示对应的样本交易数据是非法交易等。
在本实施例中,可按照应用场景对样本交易数据进行划分,将同一应用场景中的样本交易数据划分到同一个样本数据集中。
例如,以某电商平台为例,可将通过该电商平台进行交易的样本交易数据划分到样本数据集1中。
再例如,以某消费信贷产品为例,可将通过该消费信贷产品进行支付的样本交易数据划分到样本数据集2中。
在本实施例中,可获取一个样本数据集,也可获取多个样本数据集,本说明书对此不作特殊限制。
步骤104,获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式。
在本实施例中,所述原始特征是所述样本交易数据自身的特征,例如:交易金额、交易次数、交易位置与商家距离、商家类别、用户类别等。
不同原始特征的类型可能相同,也可能不同。例如,交易金额的类型是数值型,交易次数也是数值型,商家类别的类型是字符串,用户类型也是字符串等。
其中,数值型还可细分为浮点型和整数型。
上述交易金额是浮点型,例如,交易金额108.75元等。
上述交易次数是整数型,例如,交易次数5次等。
本说明书不对原始特征类型的划分进行限制。
例如,可将浮点型和整数型统一归为数值型不进行区分。
再例如,可以浮点型、整数型等类别作为原始特征的类别,不保留数值型等。
在本实施例中,为便于特征组合,在获取样本数据集中的原始特征时,每次可获取若干类型相同的原始特征,获取的原始特征的数量可以是2,也可以是3等,本说明书对此不作特殊限制。
在一个例子中,可获取类型相同的若干原始特征。
以浮点型原始特征为例,可获取原始特征“上个月用户的交易总金额”以及原始特征“去年同期用户的交易总金额”。
以整数型原始特征为例,可获取原始特征“昨天交易次数”以及原始特征“前天交易次数”等。
在其他例子中,当类型不同的原始特征可以组合时,也可获取类型不同的若干原始特征。
例如,获取浮点型的原始特征“过去30天交易总金额”,以及整数型的原始特征“过去30天的交易次数”等。
值得注意的是,在进行原始特征获取时,如果两个原始特征无法组合,则不会同时获取这两个原始特征。
例如,不会同时获取字符型原始特征“用户类别”和整数型原始特征“过去30天的交易次数”,二者无法组合。
在本实施例中,为便于描述,可将每次获取到的若干原始特征称为一个原始特征组,在本步骤中,可进行多次获取,得到多个原始特征组。
值得注意的是,本实施例中原始特征的获取通常以样本数据集为操作对象,不会跨样本数据集获取。换言之,每个原始特征组中的原始特征均来自同一个样本数据集。
在本实施例中,针对获取到的每个原始特征组,可为所述原始特征组中的原始特征确定匹配其类型的组合方式。
以数值型原始特征为例,所述组合方式可包括:加减乘除等四则运算、计算对数和、计算平方和等运算方式。所述组合方式还可以是先对原始特征进行大小排序,然后根据排序结果抽取部分原始特征进行四则运算、计算平方和等运算,本说明书对此不作特殊限制。
举例来说,假设某原始特征组中的原始特征为“昨天交易次数”和“前天交易次数”,则组合方式可以为减法,例如:采用“昨天交易次数”除以“前天交易次数”,可得到交易次数的差值。
以字符串类型的原始特征为例,所述组合方式可以是针对原始特征字符串长度的运算,例如字符串长度的四则运算等,具体运算方式可参考数值型原始特征的组合方式,本说明书在此不再一一赘述。
步骤106,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量。
在本实施例中,针对前述步骤104获取到每个原始特征组,采用一种组合方式对所述原始特征组中的原始特征进行组合,就可得到一个新特征,采用各种组合方式对各原始特征组中的原始特征进行组合,可得到若干新特征。
在本步骤中,可确定每个新特征的特征向量。
在一个例子中,可基于组合方式对样本数据集中的原始特征进行组合,并可将组合得到的新特征的取值作为所述新特征的特征向量。
举例来说,假设从某样本数据集中获取到的原始特征组中包括原始特征a和原始特征b两个数值类型的原始特征,组合方式是加法,该样本数据集中一共有100条交易数据,原始特征a的取值分别为[a1,a2,…,a100],原始特征b的取值分别为[b1,b2,…,b100],则采用加法对原始特征a和原始特征b进行组合后,得到的新特征a+b的特征向量可以为[a1+b1,a2+b2,…,a100+b100]。
在另一个例子中,为降低计算量,也可以基于原始特征的元信息和组合方式生成新特征的特征向量。
其中,所述原始特征的元信息可包括样本数据集中该原始特征的均值、方差、唯一数据个数等。每个原始特征的元信息可组成一个元信息向量。
所述组合方式的展现形式可以是一个0/1向量(Onehot向量),也可以是对0/1向量进行嵌入处理之后得到的低维向量。所述0/1向量是采用一个很长的向量来表示组合方式,该向量的维度是组合方式的总数量,每个维度对应唯一一种组合方式。若采用某种组合方式,则该组合方式所在维度的元素值是1;若未采用某种组合方式,则该组合方式所在维度的元素值是0。
假设,一共有80种组合方式,则组合方式的0/1向量有80维,每个维度对应唯一一种组合方式。仍以前述加法为例,该80维的0/1向量中,这加法对应维度的元素值是1,其他维度的元素值都是0,即该80维的0/1向量中有1个元素的元素值是1,其他剩余79个元素的元素值都是0。
仍以前述原始特征a和原始特征b为例,可基于原始特征a的元信息向量、原始特征b的元信息向量和组合方式的0/1向量生成新特征的特征向量。较为简单的,可将这三个向量拼接到一起得到新特征的特征向量。
在其他例子中,当样本数据集有多个,即样本数据集的数量大于1时,可基于原始特征的元信息、组合方式和样本数据集的元特征生成新特征的特征向量。
其中,所述样本数据集的元特征可包括:该样本数据集中被标注为合法交易的样本交易数据量与被标注为非法交易的样本交易数据量的比值(正负样本比例)、原始特征数量、数值型原始特征数量、字符串型原始特征数量等,所述样本数据集的元特征可组成一个元特征向量。
在本例中,可将原始特征的元信息向量、组合方式的0/1向量和样本数据集的元特征向量拼接到一起,得到新特征的特征向量。
步骤108,计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签。
在本实施例中,组合得到的新特征与各样本交易数据交易标签之间的差异越小,可认为得到的新特征越可靠,由此本例中采用新特征和交易标签的差异作为新特征的特征标签。
在本实施例中,针对所述样本数据集中的各条样本交易数据,可根据所述组合方式,计算每条样本交易数据的新特征的取值,然后可将所述样本交易数据的交易标签作为真实值,计算所述样本交易数据的新特征的取值与所述真实值的均方误差,并将所述均方误差作为所述新特征与所述交易标签的差异。
在本实施例中,可采用如下公式计算新特征的特征标签:
仍以对原始特征a和原始特征b进行组合为例,上述公式中C表示新特征ab的特征标签,N表示样本数据集中样本交易数据的数量,fabi表示第i条样本交易数据的新特征ab的取值,li表示第i条样本交易数据的交易标签,其中i的取值是1到N。
在其他例子中,也可通过欧氏距离、马氏距离等算法来计算新特征与交易标签的差异,本说明书对此不作特殊限制。
步骤110,根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
基于前述步骤106和108,可将新特征的特征向量输入交易特征生成模型,输出所述新特征的预测结果,然后可计算该预测结果和所述新特征的特征标签之间的差异,并基于该差异调整交易特征生成模型的参数,以实现对交易特征生成模型的训练。
在本实施例中,可采用有监督的机器学习模型作为所述交易特征生成模型,例如神经网络模型等,本说明书对此不作特殊限制。
二、交易特征的生成
图2是本说明书一示例性实施例示出的一种交易特征的生成方法的流程示意图。
请参考图2,所述交易特征的生成方法可包括以下步骤:
步骤202,获取目标数据集,所述目标数据集中包括若干条交易数据。
在本实施例中,针对需要进行非法交易识别的某个应用场景,可获取该应用场景下的交易数据,得到目标数据集。
例如,可获取该场景下已进行过非法交易识别的交易数据,得到目标数据集,该目标数据集中的交易数据带有交易标签。
再例如,当该场景下的交易数据未进行过非法交易识别时,也可以获取该场景下不带有交易标签的交易数据,得到目标数据集,本说明书对此不作特殊限制。
所述非法交易可包括:套现交易、洗钱交易等。
步骤204,获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式。
在本实施例中,所述原始特征是所述目标数据集中交易数据自身的特征,例如:交易金额、交易次数、交易位置与商家距离、商家类别等。
在本实施例中,可从所述目标数据集中获取若干组原始特征组,每组原始特征组中包括若干个原始特征,然后可分别为每个原始特征组中的原始特征确定组合方式。
上述原始特征的获取、组合方式的确定方法可参考前述图1所示实施例中的步骤104,本说明书在此不再一一赘述。
步骤206,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量。
在本实施例中,针对前述步骤204获取到每个原始特征组,采用一种组合方式对所述原始特征组中的原始特征进行组合,就可得到一个新特征,采用各种组合方式对所有原始特征组中的原始特征进行组合,可得到若干新特征。
在本步骤中,可确定每个新特征的特征向量。
在一个例子中,可基于组合方式对样本数据集中的原始特征进行组合,并可将组合得到的新特征的取值作为所述新特征的特征向量。
在另一个例子中,也可以基于原始特征的元信息和组合方式生成新特征的特征向量。
在其他例子中,当用于训练交易特征生成模型的样本数据集的数量是多个时,可基于原始特征的元信息、组合方式和数据集的元特征生成新特征的特征向量。
所述数据集的元特征可包括:原始特征数量、数值型原始特征数量、字符串型原始特征数量、正负样本比例(如有)等。
上述特征向量的生成方式可参考前述图1所示实施例中步骤106中记载的特征向量生成方式,本说明书在此不再一一赘述。
步骤208,将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果。
步骤210,选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
在本实施例中,可将各新特征的特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果,然后可按照预测结果从小到大的顺序对各新特征进行排序。以采用欧式距离计算前述新特征与标签之间的差异为例,预测结果越小,说明新特征和交易标签的差异越小,新特征越可靠。
在本实施例中,在排序后,可选取排列在前N位的新特征作为为所述目标数据集生成的新的交易特征。其中,N的取值可预先设置。
在本实施例中,在为所述目标数据集确定新生成的交易特征后,可基于新生成的交易特征对所述目标数据集所属场景中的交易数据进行非法交易识别。
由以上描述可以看出,本说明书可对交易数据的原始特征进行组合得到若干新特征,然后采用已训练的交易特征生成模型对所述新特征进行预测,并可选取预测结果满足指定条件的若干新特征作为新生成的交易特征,以用于后续的非法交易识别,从而实现交易特征的自动生成,极大的提高了交易特征生成的效率。
本说明书还提供一种特征生成方法,可基于原始特征自动生成用于结果预测的新特征,提高特征生成效率。
请参考图3,所述特征生成方法可包括以下步骤:
步骤302,获取目标数据集,所述数据集中包括若干条数据。
在本实施例中,所述目标数据集是要进行新特征生成的数据集。在不同的预测任务中,所述目标数据集中的数据可能不同。
例如,在非法交易识别的任务中,所述目标数据集中的数据可以为交易数据,每条交易数据可包括交易金额、交易次数等原始特征。
再例如,在商品推荐的任务中,所述目标数据集中的数据可以为用户数据,每条用户数据可包括用户年龄、用户性别、用户历史购买记录、用户历史浏览记录等原始特征。
又例如,在文本分类的任务中,所述目标数据集中的数据可以为文本数据,每条文本数据可包括对应文本所包括的词语、词频等原始特征。
又例如,在风险用户识别的任务中,所述目标数据集中的数据可以为用户数据,每条用户数据可包括用户年龄、用户性别、用户行为轨迹等原始特征。
步骤304,获取所述数据的若干原始特征,并确定所述原始特征的一种或多种组合方式。
在本实施例中,可从所述数据的各原始特征中获取若干类型相同的原始特征,并确定这些原始特征的组合方式。
当然,在其他例子中,也可从所述数据的各原始特征中获取若干类型并不完全相同的原始特征,并确定这些原始特征的组合方式。
其中,原始特征的获取和组合方式的确定可参考前述图2所示实施例中交易特征生成任务中原始特征的获取和组合方式的确定,本说明书在此不再一一赘述。
步骤306,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量。
在本实施例中,针对前述步骤304获取到每组原始特征,采用一种组合方式对该组原始特征进行组合,就可得到一个新特征,采用各种组合方式对各组原始特征进行组合,可得到若干新特征。
在本步骤中,可确定每个新特征的特征向量。
其中,所述特征向量的确定方法可参考前述图1或图2所示的实施例,本说明书在此不再一一赘述。
步骤308,将所述特征向量输入已训练的特征生成模型,输出所述新特征的预测结果。
步骤310,选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的特征。
在本实施例中,可采用与前述特征生成方法相同的方式对特征生成模型进行训练,得到已训练的特征生成模型。
在训练的过程中,可采用新特征与数据标签的差异作为新特征的特征标签,以对特征生成模型的参数进行调整。
具体的训练过程可参考前述图1所示的交易特征生成场景中交易特征生成模型的训练过程,本说明书在此不再一一赘述。
在本实施例中,可将各新特征的特征向量输入已训练的特征生成模型,输出所述新特征的预测结果,并可选取预测结果满足指定条件的若干新特征,用于后续数据的结果预测。
举例来说,假设预测任务是对用户进行风险识别,以识别出风险用户。
可先采用具有用户标签的一个或样本数据集来训练特征生成模型,得到已训练的特征生成模型。所述用户标签用于标记对应用户是否为风险用户
例如,可采用第一交易场景下的样本数据集1和第二交易场景下的样本数据集2来训练特征生成模型,所述样本数据集1和所述样本数据集2中的每条用户数据均带有用户标签。
在得到所述已训练的特征生成模型之后,针对要进行风险用户识别的第三交易场景,可从该第三交易场景中获取目标数据集,然后采用前述已训练的特征生成模型来为该场景预测新特征。在预测得到新特征之后,可采用新特征对该第三交易场景中的用户数据进行预测,以预测对应用户是否为风险用户。
由以上描述可以看出,本实施例可对数据的原始特征进行组合得到若干新特征,然后采用已训练的特征生成模型对所述新特征进行预测,并可选取预测结果满足指定条件的若干新特征作为新生成的特征,以用于后续的数据预测,从而实现特征的自动生成,极大的提高了特征生成的效率。
与前述交易特征的生成方法的实施例相对应,本说明书还提供了交易特征的生成装置的实施例。
本说明书交易特征的生成装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书交易特征的生成装置所在服务器的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图5是本说明书一示例性实施例示出的一种交易特征的生成装置的框图。
请参考图5,所述交易特征的生成装置400可以应用在前述图4所示的服务器中,包括有:数据集获取单元401、特征获取单元402、特征组合单元403、特征预测单元404以及特征生成单元405。
其中,数据集获取单元401,获取目标数据集,所述目标数据集中包括若干条交易数据;
特征获取单元402,获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
特征组合单元403,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
特征预测单元404,将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
特征生成单元405,选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
可选的,所述特征获取单元402,获取所述交易数据中类型相同的若干原始特征,并确定与所述类型匹配的组合方式,作为所述原始特征的组合方式。
可选的,当所述类型是数值型时,所述组合方式包括以下一种或多种:
四则运算、计算对数和、计算平方和。
可选的,当所述类型是字符串时,所述组合方式包括以下一种或多种:
字符串长度的四则运算、字符串长度的对数和、字符串长度的平方和。
可选的,所述特征向量基于所述原始特征的元信息和所述组合方式生成。
可选的,所述元信息包括以下一种或多种:
所述原始特征的均值、方差、唯一数据个数。
可选的,当对所述交易特征生成模型进行训练的样本数据集的数量大于1时,所述特征向量基于所述原始特征的元信息、所述组合方式和所述数据集的元特征生成。
可选的,所述数据集的元特征包括以下一种或多种:
原始特征数量、数值型原始特征数量、正负样本比例。
与前述交易特征生成模型的训练方法的实施例相对应,本说明书还提供了交易特征生成模型的训练装置的实施例。
本说明书交易特征的生成装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本说明书交易特征生成模型的训练装置所在服务器的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图7是本说明书一示例性实施例示出的一种交易特征生成模型的训练装置的框图。
请参考图7,所述交易特征生成模型的训练装置600可以应用在前述图6所示的服务器中,包括有:样本获取单元601、特征获取单元602、特征组合单元603、差异计算单元604以及模型训练单元605。
其中,样本获取单元601,获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
特征获取单元602,获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
特征组合单元603,确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
差异计算单元604,计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
模型训练单元605,根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
可选的,所述差异计算单元604:
针对所述样本数据集中的各条样本交易数据,根据所述组合方式,计算所述样本交易数据的新特征的取值;
将所述样本交易数据的交易标签作为真实值,计算所述样本交易数据的新特征的取值与所述真实值的均方误差,并将所述均方误差作为所述新特征与所述交易标签的差异。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述交易特征的生成方法的实施例相对应,本说明书还提供一种交易特征的生成装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与交易特征的生成逻辑对应的机器可执行指令,所述处理器被促使:
获取目标数据集,所述目标数据集中包括若干条交易数据;
获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
可选的,所述获取所述交易数据的若干原始特征,包括:
获取所述交易数据中类型相同的若干原始特征;
所述确定所述原始特征的组合方式,包括:
确定与所述类型匹配的组合方式,作为所述原始特征的组合方式。
可选的,当所述类型是数值型时,所述组合方式包括以下一种或多种:
四则运算、计算对数和、计算平方和。
可选的,当所述类型是字符串时,所述组合方式包括以下一种或多种:
字符串长度的四则运算、字符串长度的对数和、字符串长度的平方和。
可选的,所述特征向量基于所述原始特征的元信息和所述组合方式生成。
可选的,所述元信息包括以下一种或多种:
所述原始特征的均值、方差、唯一数据个数。
可选的,当对所述交易特征生成模型进行训练的样本数据集的数量大于1时,所述特征向量基于所述原始特征的元信息、所述组合方式和所述数据集的元特征生成。
可选的,所述数据集的元特征包括以下一种或多种:
原始特征数量、数值型原始特征数量、正负样本比例。
与前述交易特征生成模型的训练方法的实施例相对应,本说明书还提供一种交易特征生成模型的训练装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与交易特征生成模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
可选的,所述获取所述样本交易数据的若干原始特征,包括:
获取所述样本交易数据中类型相同的若干原始特征;
所述确定所述原始特征的组合方式,包括:
确定与所述类型匹配的组合方式,作为所述原始特征的组合方式。
可选的,所述计算所述新特征与所述交易标签的差异,包括:
针对所述样本数据集中的各条样本交易数据,根据所述组合方式,计算所述样本交易数据的新特征的取值;
将所述样本交易数据的交易标签作为真实值,计算所述样本交易数据的新特征的取值与所述真实值的均方误差,并将所述均方误差作为所述新特征与所述交易标签的差异。
与前述交易特征的生成方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取目标数据集,所述目标数据集中包括若干条交易数据;
获取所述交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
将所述特征向量输入已训练的交易特征生成模型,输出所述新特征的预测结果;
选取预测结果满足指定条件的若干新特征,作为为所述目标数据集生成的交易特征。
可选的,所述获取所述交易数据的若干原始特征,包括:
获取所述交易数据中类型相同的若干原始特征;
所述确定所述原始特征的组合方式,包括:
确定与所述类型匹配的组合方式,作为所述原始特征的组合方式。
可选的,当所述类型是数值型时,所述组合方式包括以下一种或多种:
四则运算、计算对数和、计算平方和。
可选的,当所述类型是字符串时,所述组合方式包括以下一种或多种:
字符串长度的四则运算、字符串长度的对数和、字符串长度的平方和。
可选的,所述特征向量基于所述原始特征的元信息和所述组合方式生成。
可选的,所述元信息包括以下一种或多种:
所述原始特征的均值、方差、唯一数据个数。
可选的,当对所述交易特征生成模型进行训练的样本数据集的数量大于1时,所述特征向量基于所述原始特征的元信息、所述组合方式和所述数据集的元特征生成。
可选的,所述数据集的元特征包括以下一种或多种:
原始特征数量、数值型原始特征数量、正负样本比例。
与前述交易特征生成模型的训练方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取样本数据集,所述样本数据集中包括若干条带有交易标签的样本交易数据,所述交易标签用于标注对应的样本交易数据是否为非法交易;
获取所述样本交易数据的若干原始特征,并确定所述原始特征的一种或多种组合方式;
确定基于每种组合方式对所述原始特征进行组合所得到的新特征的特征向量;
计算所述新特征与所述交易标签的差异,作为所述新特征的特征标签;
根据所述新特征的特征向量和所述特征标签对交易特征生成模型进行训练。
可选的,所述获取所述样本交易数据的若干原始特征,包括:
获取所述样本交易数据中类型相同的若干原始特征;
所述确定所述原始特征的组合方式,包括:
确定与所述类型匹配的组合方式,作为所述原始特征的组合方式。
可选的,所述计算所述新特征与所述交易标签的差异,包括:
针对所述样本数据集中的各条样本交易数据,根据所述组合方式,计算所述样本交易数据的新特征的取值;
将所述样本交易数据的交易标签作为真实值,计算所述样本交易数据的新特征的取值与所述真实值的均方误差,并将所述均方误差作为所述新特征与所述交易标签的差异。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。