CN111401509B - 一种终端类型的识别方法和装置 - Google Patents

一种终端类型的识别方法和装置 Download PDF

Info

Publication number
CN111401509B
CN111401509B CN201910000930.XA CN201910000930A CN111401509B CN 111401509 B CN111401509 B CN 111401509B CN 201910000930 A CN201910000930 A CN 201910000930A CN 111401509 B CN111401509 B CN 111401509B
Authority
CN
China
Prior art keywords
data set
sample data
sample
feature
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910000930.XA
Other languages
English (en)
Other versions
CN111401509A (zh
Inventor
聂文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910000930.XA priority Critical patent/CN111401509B/zh
Publication of CN111401509A publication Critical patent/CN111401509A/zh
Application granted granted Critical
Publication of CN111401509B publication Critical patent/CN111401509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种终端类型的识别方法和装置,涉及通信技术领域。该终端类型的识别方法包括:根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;其中,第一样本数据集包括原始样本数据集以及根据原始样本数据集的非缺失率获取的权重值;根据第二样本数据集,构建匹配类型的深度神经网络模型;根据匹配类型的深度神经网络模型,识别终端类型。本发明实施例的第一样本数据集包括权重值,根据构建的特征模型,获取训练集的第二样本数据集,根据第二样本数据集,构建匹配类型的深度神经网络模型,根据匹配类型的深度神经网络模型,识别终端类型,可以改善数据不平衡以及误判用户类型的问题,提高异常数据的识别率。

Description

一种终端类型的识别方法和装置
技术领域
本发明涉及通信技术领域,具体涉及一种终端类型的识别方法和装置。
背景技术
目前,网上交易方便人们的生活,同时也带来了欺诈风险,在支付场景下,因木马钓鱼或互联网泄露数据等各种不安全操作,导致持有的账密信息被盗取。欺诈者在获取账密信息后,会尝试越权登录访问用户支付后台页面,进而发起盗卡交易行为,如购置虚拟商品等,导致用户账户资金损失。通常业内识别这种异常用户,用的是机器学习的方法,但是这类欺诈操作在整体所占的比例不高,数据存在不平衡性,直接利用机器学习或者深度神经网络去识别这类异常用户,容易误判为正常用户,并且,交易日志的原始数据的维度较多,维度之间存在隐藏关系,传统的机器学习需要根据具体业务选取合适特征,然而仅仅依靠业务理解去提取特征,不能深层次挖掘维度之间的关系,也会造成信息丢失。如果用数据建立深度神经网络模型,需要大量异常用户的数据,然而现实中这些异常用户的数据是小概率值。如果利用相似计算技术,虽然有时候效果比较好,但是当样本多的时候,计算量比较大,并且受合适的距离公式的影响。而反欺诈模型一般用传统的机器学习或者集成的方法,这就涉及到如何提取合适的特征,特征的好坏直接影响到其最终的结果。而依靠目前欺诈规则过滤不安全行为,很容易被欺诈者反利用。
因此,亟需一种终端类型的识别方法和装置,能够改善反作弊问题中数据不平衡以及误判用户类型的问题,提高异常数据的识别率。
发明内容
本发明实施例提供了一种终端类型的识别方法和装置,用以解决反作弊问题中数据不平衡以及误判用户类型的问题。
为解决上述技术问题,本发明实施例提供了一种终端类型的识别方法,包括:
根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;
其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值;
根据所述第二样本数据集,构建匹配类型的深度神经网络模型;
根据匹配类型的深度神经网络模型,识别终端类型。
优选的,在所述根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集之前,所述方法还包括:
获取经过识别归类后得到的原始样本数据集;其中,所述原始样本数据集为设置不同识别标签的样本数据集;所述识别标签包括:异常用户的第一识别标签和正常用户的第二识别标签;
根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率;
根据所述非缺失率,获取不同所述识别标签对应的权重值;
根据不同所述识别标签对应的权重值,获取包括所述原始样本数据集、所述识别标签以及与所述识别标签对应的权重值的第一样本数据集;
将所述第一样本数据集输入深度神经网络DNN中,构建特征模型。
优选的,所述根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率包括:
获取所述第一识别标签的第一非空值率,以及所述第二识别标签的第二非空值率;其中,所述第一非空值率为所述第一识别标签对应的每一维度的非空值的样本个数与所述第一识别标签的样本总数的比值,所述第二非空值率为所述第二识别标签对应的每一维度的非空值的样本个数与所述第二识别标签的样本总数的比值;
根据所述第一非空值率与所述第二非空值率的均值,获取原始样本数据集的非缺失率。
优选的,所述根据所述非缺失率,获取不同识别标签对应的权重值包括:
计算所述第一识别标签的第一权重值为:所述非缺失率与第二识别标签的第二样本总数乘积,除以原始样本数据集的样本总数;以及
计算所述第二识别标签的第二权重值为:所述非缺失率与第一识别标签的第一样本总数乘积,除以原始样本数据集的样本总数。
优选的,所述将所述第一样本数据集输入深度神经网络DNN中,构建特征模型包括:
将所述第一样本数据集输入深度神经网络DNN中,获得经过所述DNN训练后的一分类模型;
将所述分类模型的最后一层删除,获得特征模型。
优选的,所述根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集包括:
获取原始样本数据集经过特征模型训练的特征样本以及与特征样本对应的预测标签;
获取包括所述特征样本、所述识别标签和所述预测标签的特征数据集;
根据所述特征数据集,构建训练集的第二样本数据集;其中,所述第二样本数据集包括每两个特征样本的样本组合以及根据所述特征数据集设置的第三识别标签。
优选的,所述第三识别标签包括所述识别标签与所述预测标签相同的第四识别标签,以及所述识别标签与所述预测标签不同的第五识别标签。
优选的,所述根据所述第二样本数据集,构建匹配类型的深度神经网络模型包括:
根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取所述样本组合中特征样本之间距离的第一距离数据集;
对所述第一距离数据集根据所述第三识别标签进行分类,获取分类后的第二距离数据集;其中,所述第二距离数据集包括第一距离数据集和第三识别标签;
根据所述第二距离数据集,获取关于所述第一距离数据集和所述第三识别标签的损失函数;
将所述损失函数输入所述特征模型中,构建匹配类型的深度神经网络模型。
优选的,所述损失函数表示为:
loss=min ave(Σ(dis(XM)-labelM)2)
其中,M表示第二样本数据集中的样本组合的第M组;
XM为第二样本数据集中的第M组的样本组合;
dis(XM)为第M组的样本组合的第一距离数据集;
labelM为第M组的样本组合对应的第三识别标签。
优选的,所述根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取所述样本组合中特征样本之间距离的第一距离数据集包括:
计算所述第二样本数据集的样本组合中每一向量的每一维度在直角坐标系中的余弦值;其中,所述余弦值为每一向量的每一维度与向量的模的比值,所述向量为特征样本;
根据所述欧式距离和余弦相似度结合的距离函数,获取所述样本组合中的向量之间的第一距离公式;
根据所述第一距离公式,获取多个所述样本组合的第一距离数据集。
优选的,所述第一距离公式为:
Figure BDA0001933555200000041
其中,x和y分别为样本组合的向量;
j表示每一向量的第j维度;
xj为向量x的第j维度;
yj为向量y的第j维度;
||x||和||y||分别为向量x的模长和向量y的模长;
m表示向量的总维度。
本发明实施例还提供了一种终端类型的识别装置,包括:
第一获取模块,用于根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;
其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值;
第一构建模块,用于根据所述第二样本数据集,构建匹配类型的深度神经网络模型;
第一识别模块,用于根据匹配类型的深度神经网络模型,识别终端类型。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上所述的终端类型的识别方法中的步骤。
与现有技术相比,本发明实施例提供的一种终端类型的识别方法和装置,至少具有以下有益效果:
通过根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集,其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值,根据所述第二样本数据集,构建匹配类型的深度神经网络模型,根据匹配类型的深度神经网络模型,识别终端类型,可以改善数据不平衡以及误判用户类型的问题,提高异常数据的识别率。
附图说明
图1为本发明实施例提供的终端类型的识别方法流程图;
图2为本发明实施例提供的终端类型的识别装置结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常可互换使用。
在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
如图1所示,本发明实施例提供了一种终端类型的识别方法,包括:
步骤S11,根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值。
步骤S12,根据所述第二样本数据集,构建匹配类型的深度神经网络模型。
其中,通过获取的所述第二样本数据集,可以对所述特征模型进行微调构建匹配类型的深度神经网络模型。微调的原理为:经过所述特征模型处理的异常用户距离越近越好,正常用户的距离越近越好,异常用户与正常用户的距离越大越好。
步骤S13,根据匹配类型的深度神经网络模型,识别终端类型。
其中,可以将匹配类型的深度神经网络模型应用到基地提供的样本数据集中,对终端类型进行识别,可以提高异常用户的识别率。
在所述步骤S11之前,所述方法还包括:
步骤S00,获取经过识别归类后得到的原始样本数据集;其中,所述原始样本数据集为设置不同识别标签的样本数据集;所述识别标签包括:异常用户的第一识别标签和正常用户的第二识别标签。
其中,通过将原始数据进行识别归类后得到原始样本数据集,所述原始数据可以包括:标签、手机号、交易渠道、交易类型、业务类型、交易时间、支付方式、交易总金额、支付身份认证方式、短信下发类型标志、是否为常驻地点、身份证市编码、签约方式、性别和/或商品类型等。对于非数据维度,如性别做定性处理,3可以为男性,4可以为女性,其他类似的维度类似处理,可以得到数值类型的样本,如:0,13041276768,3,2,3,8,2,200,2,2,0,13,2,1,2等。将第一识别标签可以设为标签1,第二识别标签可以设置为标签0。
步骤S01,根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率。
在本发明的上述实施例中,获取所述第一识别标签的第一非空值率,以及所述第二识别标签的第二非空值率;其中,所述第一非空值率为所述第一识别标签对应的每一维度的非空值的样本个数与所述第一识别标签的样本总数的比值,所述第二非空值率为所述第二识别标签对应的每一维度的非空值的样本个数与所述第二识别标签的样本总数的比值;根据所述第一非空值率与所述第二非空值率的均值,获取原始样本数据集的非缺失率。
其中,由于支付环境下,在用户的交易日志当中有些维度如地点等需要用户授权才能获得信息,不授权则为空值,以往处理空值填一个常数或者删除,然而用户授权是个概率问题,为了体现这些特殊维度下空值的影响,需要对原始的交易日志在进行数值化处理后,加上非空缺失率。可以统计原始样本数据集中,所有样本处理标签和手机号以外的每一个维度的非空值率;第K个维度的非缺失率可以为:
Figure BDA0001933555200000071
步骤S02,根据所述非缺失率,获取不同所述识别标签对应的权重值。
在本发明的上述实施例中,计算所述第一识别标签的第一权重值为:所述非缺失率与第二识别标签的第二样本总数乘积,除以原始样本数据集的样本总数;以及计算所述第二识别标签的第二权重值为:所述非缺失率与第一识别标签的第一样本总数乘积,除以原始样本数据集的样本总数。
步骤S03,根据不同所述识别标签对应的权重值,获取包括所述原始样本数据集、所述识别标签以及与所述识别标签对应的权重值的第一样本数据集。
其中,原始样本数据集整体的非缺失率为所有维度的非缺失率的均值,可以得到每个样本的权重值,从而得到所述第一样本数据集为:
Figure BDA0001933555200000081
其中,S为第一样本数据集;
N为样本数;
xi为第i个样本;
yi为第i个样本对应的标签;
zi为第i个样本对应的权重值。
步骤S04,将所述第一样本数据集输入DNN(深度神经网络,Deep NeuralNetworks)中,构建特征模型。
在本发明的上述实施例中,将所述第一样本数据集输入深度神经网络DNN中,获得经过所述DNN训练后的一分类模型;将所述分类模型的最后一层删除,获得特征模型。
本发明的一具体实施例中,所述步骤S11包括:
获取原始样本数据集经过特征模型训练的特征样本以及与特征样本对应的预测标签。
其中,所述预测标签为所述DNN进行预测的预测标签。
获取包括所述特征样本、所述识别标签和所述预测标签的特征数据集。
其中,所述DNN中的加权样本Weighted samples参数可以调样本的权重值。所述特征模型的特征数据集为:
Figure BDA0001933555200000082
其中,C为特征数据集;
N为样本数;
xi为第i个样本;
feature(xi)为原始样本数据集经过特征模型训练的特征样本;
yi为第i个样本对应的标签;
prei为第i个样本的预测标签。
根据所述特征数据集,构建训练集的第二样本数据集;其中,所述第二样本数据集包括每两个特征样本的样本组合以及根据所述特征数据集设置的第三识别标签。
在本发明的上述实施例中,所述第三识别标签包括所述识别标签与所述预测标签相同的第四识别标签,以及所述识别标签与所述预测标签不同的第五识别标签。
其中,将每两个特征样本进行组合,设置新标签为第三识别标签;如:
将特征样本中为第一识别标签即标签为1的两个特征样本进行样本组合,设置第三识别标签为1:
D1={(feature(xi),feature(xj),lable=1)|p=1,pre=1}
将特征样本中为第一识别标签即标签为1的特征样本,与预测标签为0的特征样本进行样本组合,设置第三识别标签为0:
D2={(feature(xi),feature(xj),lable=0)|p=1,pre=0}
将特征样本中为第二识别标签即标签为0的特征样本,与预测标签为1的特征样本进行样本组合,设置第三识别标签为0:
D3={(feature(xi),feature(xj),lable=0)|p=0,pre=1}
构建训练集的第二样本数据集可以为:
D=D1∪D2∪D3
其中,D为第二样本数据集;
D1、D2和D3为多个样本组合中的其中一种;
feature(xi)为其中一特征样本;
feature(xj)为另一特征样本;
lable为第三识别标签;
p为第一识别标签或第二识别标签;
pre为预测标签。
本发明的一具体实施例中,所述步骤S12包括:
根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取所述样本组合中特征样本之间距离的第一距离数据集。
本发明的上述实施例中,欧式距离是常用的距离公式,表示两点之间的直线距离,但是容易受到量纲的影响,并且取值范围是0到正无穷,为此可以先将两个向量除以各自的模得到向量在各个分量的直角坐标系中的余弦值,比如:向量a=[2,200]除以模长得到的是[cos x,cos y],模长的距离公式为:sqrt(2*2+200*200),cos x表示向量a在直角坐标系与x轴夹角的余弦值,cos y表示向量a在直角坐标系与y轴夹角的余弦值;这样向量不会受量纲的影响。接着把变换好的两个向量做欧式距离的平方,再除以维度的个数N再开方,这样得到的距离范围在[0,2],这样是借鉴了欧式距离的思想。
余弦相似度是衡量两个向量的夹角的差别,取值范围在[-1,1]之间,而上面衡量是两个向量在直角坐标系中与各个坐标轴形成的夹角余弦值的平均差别,这样也借鉴的余弦相似度的思想。通过欧式距离和余弦相似度结合的方式可以使形变距离不受量纲以及特征维度的影响,距离范围也是有界的。
在本发明的上述实施例中,计算所述第二样本数据集的样本组合中每一向量的每一维度在直角坐标系中的余弦值;其中,所述余弦值为每一向量的每一维度与向量的模的比值,所述向量为特征样本;
根据所述欧式距离和余弦相似度结合的距离函数,获取所述样本组合中的向量之间的第一距离公式;
根据所述第一距离公式,获取多个所述样本组合的第一距离数据集。
其中,所述第一距离公式为:
Figure BDA0001933555200000101
其中,x和y分别为样本组合的向量;
j表示每一向量的第j维度;
xj为向量x的第j维度;
yj为向量y的第j维度;
||x||和||y||分别为向量x的模长和向量y的模长;
m表示向量的总维度。
其中,x=(x1,x2,……xm);y=(y1,y2,……ym);向量除以向量的模长得到向量的各个分量在直角坐标系中的余弦值:
Figure BDA0001933555200000102
Figure BDA0001933555200000111
其中,模长公式为:
Figure BDA0001933555200000112
Figure BDA0001933555200000113
其中,i表示向量的第i维度;
m表示向量的总维度;
xi为向量x的第j维度;
yi为向量y的第j维度。
得到的第一距离数据集为:
dis(XM)
={disFunc(feature(xi),feature(xj))|XM=[feature(xi),feature(xj)]}
其中,feature(xi)和feature(xj)分别为一特征样本;
disFunc(feature(xi),feature(xj))为根据所述第一距离公式得到的feature(xi)和feature(xj)之间的距离。
对所述第一距离数据集根据所述第三识别标签进行分类,获取分类后的第二距离数据集;其中,所述第二距离数据集包括第一距离数据集和第三识别标签。
其中,所述第二距离数据集为:
s_dis={(dis(XM),lableM)|XM∈D}
其中,s_dis为第二距离数据集;
dis(XM)为第一距离数据集;
lableM为第M组样本组合对应的第三识别标签;
D为第二样本数据集。
根据所述第二距离数据集,获取关于所述第一距离数据集和所述第三识别标签的损失函数;将所述损失函数输入所述特征模型中,构建匹配类型的深度神经网络模型。
其中,所述损失函数表示为:
loss=min ave(∑(dis(XM)-labelM)2)
其中,M表示第二样本数据集中的样本组合的第M组;
XM为第二样本数据集中的第M组的样本组合;
dis(XM)为第一距离数据集;
labelM为第M组的样本组合对应的第三识别标签。
如图2所示,本发明的实施例还提供了一种终端类型的识别装置,包括:
第一获取模块11,用于根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值;
第一构建模块12,用于根据所述第二样本数据集,构建匹配类型的深度神经网络模型;
第一识别模块13,用于根据匹配类型的深度神经网络模型,识别终端类型。
本发明的一具体实施例中,所述装置还包括:
第二获取模块,用于获取经过识别归类后得到的原始样本数据集;其中,所述原始样本数据集为设置不同识别标签的样本数据集;所述识别标签包括:异常用户的第一识别标签和正常用户的第二识别标签;
第一计算模块,用于根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率;
第三获取模块,用于根据所述非缺失率,获取不同所述识别标签对应的权重值;
第四获取模块,用于根据不同所述识别标签对应的权重值,获取包括所述原始样本数据集、所述识别标签以及与所述识别标签对应的权重值的第一样本数据集;
第二构建模块,用于将所述第一样本数据集输入深度神经网络DNN中,构建特征模型。
本发明的一具体实施例中,所述第一计算模块包括:
第一获取单元,用于获取所述第一识别标签的第一非空值率,以及所述第二识别标签的第二非空值率;其中,所述第一非空值率为所述第一识别标签对应的每一维度的非空值的样本个数与所述第一识别标签的样本总数的比值,所述第二非空值率为所述第二识别标签对应的每一维度的非空值的样本个数与所述第二识别标签的样本总数的比值;
第二获取单元,用于根据所述第一非空值率与所述第二非空值率的均值,获取原始样本数据集的非缺失率。
本发明的一具体实施例中,所述第三获取模块包括:
第一计算单元,用于计算所述第一识别标签的第一权重值为:所述非缺失率与第二识别标签的第二样本总数乘积,除以原始样本数据集的样本总数;以及
第二计算单元,用于计算所述第二识别标签的第二权重值为:所述非缺失率与第一识别标签的第一样本总数乘积,除以原始样本数据集的样本总数。
本发明的一具体实施例中,所述第二构建模块包括:
第一处理单元,用于将所述第一样本数据集输入深度神经网络DNN中,获得经过所述DNN训练后的一分类模型;
第二处理单元,用于将所述分类模型的最后一层删除,获得特征模型。
本发明的一具体实施例中,所述第一获取模块11包括:
第三获取单元,用于获取原始样本数据集经过特征模型训练的特征样本以及与特征样本对应的预测标签;
第四获取单元,用于获取包括所述特征样本、所述识别标签和所述预测标签的特征数据集;
第一构建单元,用于根据所述特征数据集,构建训练集的第二样本数据集;其中,所述第二样本数据集包括每两个特征样本的样本组合以及根据所述特征数据集设置的第三识别标签。
本发明的一具体实施例中,所述第三识别标签包括所述识别标签与所述预测标签相同的第四识别标签,以及所述识别标签与所述预测标签不同的第五识别标签。
本发明的一具体实施例中,所述第一构建模块12包括:
第三处理单元,用于根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取包括所述样本组合的第一距离数据集;
第四处理单元,用于对所述第一距离数据集根据所述第三识别标签进行分类,获取分类后的第二距离数据集;其中,所述第二距离数据集包括第一距离数据集和第三识别标签;
第五处理单元,用于根据所述第二距离数据集,获取关于所述第一距离数据集和所述第三识别标签的损失函数;
第二构建单元,用于将所述损失函数输入所述特征模型中,构建匹配类型的深度神经网络模型。
本发明的一具体实施例中,所述损失函数为:
loss=min ave(Σ(dis(XM)-labelM)2)
其中,M表示第二样本数据集中的样本组合的第M组;
XM为第二样本数据集中的第M组的样本组合;
dis(XM)为第M组的样本组合的第一距离数据集;
labelM为第M组的样本组合对应的第三识别标签。
本发明的一具体实施例中,所述第三处理单元包括:
第一计算子单元,用于计算所述第二样本数据集的样本组合中每一向量的每一维度在直角坐标系中的余弦值;其中,所述余弦值为每一向量的每一维度与向量的模的比值;
第一获取子单元,用于根据所述欧式距离和余弦相似度结合的距离函数,获取所述样本组合中的向量之间的第一距离公式;
第二获取子单元,用于根据所述第一距离公式,获取多个所述样本组合的第一距离数据集。
本发明的一具体实施例中,所述第一距离公式为:
Figure BDA0001933555200000151
其中,x和y分别为样本组合的向量;
j表示每一向量的第j维度;
xj为向量x的第j维度;
yj为向量y的第j维度;
||x||和||y||分别为向量x的模长和向量y的模长;
m表示向量的总维度。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的波束扫描配置方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如ROM(只读存储器,Read-Only Memory)、RAM(随机存取存储器,Random Access Memory)、磁碟或者光盘等。
本发明上述实施例中,先用深度神经网络自动提取特征,再用相似性技术微调网络,将可以将两者的优点结合在一起得到一种匹配类型的深度神经网络。这种匹配类型的深度神经网络可以提高识别异常用户的准确率,降低数据不平衡时深度神经网络将异常用户误判为正常用户的概率。在相似技术中,欧式距离是两点之间的真实距离,但是它易受量纲的影响且无界;余弦相似度有界,但是忽视两个向量在各个分量的差异性。通过欧式距离与余弦相似度结合的方式可以使形变距离不受量纲以及特征维度的影响,距离范围也是有界的。并且,样本权重考虑非缺失率,可以克服数据的不平衡性。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明方法中,显然,各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种终端类型的识别方法,其特征在于,包括:
根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;
其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值;
根据所述第二样本数据集,构建匹配类型的深度神经网络模型;
根据匹配类型的深度神经网络模型,识别终端类型;
其中,根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集包括:
获取原始样本数据集经过特征模型训练的特征样本以及与特征样本对应的预测标签;
获取包括所述特征样本、所述识别标签和所述预测标签的特征数据集;
根据所述特征数据集,构建训练集的第二样本数据集;其中,所述第二样本数据集包括每两个特征样本的样本组合以及根据所述特征数据集设置的第三识别标签。
2.如权利要求1所述的终端类型的识别方法,其特征在于,在所述根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集之前,所述方法还包括:
获取经过识别归类后得到的原始样本数据集;其中,所述原始样本数据集为设置不同识别标签的样本数据集;所述识别标签包括:异常用户的第一识别标签和正常用户的第二识别标签;
根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率;
根据所述非缺失率,获取不同所述识别标签对应的权重值;
根据不同所述识别标签对应的权重值,获取包括所述原始样本数据集、所述识别标签以及与所述识别标签对应的权重值的第一样本数据集;
将所述第一样本数据集输入深度神经网络DNN中,构建特征模型。
3.如权利要求2所述的终端类型的识别方法,其特征在于,所述根据不同所述识别标签对应的样本个数,计算原始样本数据集的非缺失率包括:
获取所述第一识别标签的第一非空值率,以及所述第二识别标签的第二非空值率;其中,所述第一非空值率为所述第一识别标签对应的每一维度的非空值的样本个数与所述第一识别标签的样本总数的比值,所述第二非空值率为所述第二识别标签对应的每一维度的非空值的样本个数与所述第二识别标签的样本总数的比值;
根据所述第一非空值率与所述第二非空值率的均值,获取原始样本数据集的非缺失率。
4.如权利要求2所述的终端类型的识别方法,其特征在于,所述根据所述非缺失率,获取不同识别标签对应的权重值包括:
计算所述第一识别标签的第一权重值为:所述非缺失率与第二识别标签的第二样本总数乘积,除以原始样本数据集的样本总数;以及
计算所述第二识别标签的第二权重值为:所述非缺失率与第一识别标签的第一样本总数乘积,除以原始样本数据集的样本总数。
5.如权利要求2所述的终端类型的识别方法,其特征在于,所述将所述第一样本数据集输入深度神经网络DNN中,构建特征模型包括:
将所述第一样本数据集输入深度神经网络DNN中,获得经过所述DNN训练后的一分类模型;
将所述分类模型的最后一层删除,获得特征模型。
6.如权利要求1所述的终端类型的识别方法,其特征在于,所述第三识别标签包括所述识别标签与所述预测标签相同的第四识别标签,以及所述识别标签与所述预测标签不同的第五识别标签。
7.如权利要求1所述的终端类型的识别方法,其特征在于,所述根据所述第二样本数据集,构建匹配类型的深度神经网络模型包括:
根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取所述样本组合中特征样本之间距离的第一距离数据集;
对所述第一距离数据集根据所述第三识别标签进行分类,获取分类后的第二距离数据集;其中,所述第二距离数据集包括第一距离数据集和第三识别标签;
根据所述第二距离数据集,获取关于所述第一距离数据集和所述第三识别标签的损失函数;
将所述损失函数输入所述特征模型中,构建匹配类型的深度神经网络模型。
8.如权利要求7所述的终端类型的识别方法,其特征在于,所述损失函数为:
Figure FDA0004035121750000031
其中,M表示第二样本数据集中的样本组合的第M组;
XM为第二样本数据集中的第M组的样本组合;
dis(XM)为第M组的样本组合的第一距离数据集;
labelM为第M组的样本组合对应的第三识别标签。
9.如权利要求7所述的终端类型的识别方法,其特征在于,所述根据所述第二样本数据集,通过欧式距离和余弦相似度结合的距离函数,获取所述样本组合中特征样本之间距离的第一距离数据集包括:
计算所述第二样本数据集的样本组合中每一向量的每一维度在直角坐标系中的余弦值;其中,所述余弦值为每一向量的每一维度与向量的模的比值,所述向量为特征样本;
根据所述欧式距离和余弦相似度结合的距离函数,获取所述样本组合中的向量之间的第一距离公式;
根据所述第一距离公式,获取多个所述样本组合的第一距离数据集。
10.如权利要求9所述的终端类型的识别方法,其特征在于,所述第一距离公式为:
Figure FDA0004035121750000032
其中,x和y分别为样本组合的向量;
j表示每一向量的第j维度;
xj为向量x的第j维度;
yj为向量y的第j维度;
||x||和||y||分别为向量x的模长和向量y的模长;
m表示向量的总维度。
11.一种终端类型的识别装置,其特征在于,包括:
第一获取模块,用于根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集;
其中,所述第一样本数据集包括原始样本数据集以及根据所述原始样本数据集的非缺失率获取的权重值;
第一构建模块,用于根据所述第二样本数据集,构建匹配类型的深度神经网络模型;
第一识别模块,用于根据匹配类型的深度神经网络模型,识别终端类型;
其中,所述第一获取模块根据第一样本数据集构建的特征模型,获取训练集的第二样本数据集包括:
获取原始样本数据集经过特征模型训练的特征样本以及与特征样本对应的预测标签;
获取包括所述特征样本、所述识别标签和所述预测标签的特征数据集;
根据所述特征数据集,构建训练集的第二样本数据集;其中,所述第二样本数据集包括每两个特征样本的样本组合以及根据所述特征数据集设置的第三识别标签。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至10中任一项所述的终端类型的识别方法中的步骤。
CN201910000930.XA 2019-01-02 2019-01-02 一种终端类型的识别方法和装置 Active CN111401509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000930.XA CN111401509B (zh) 2019-01-02 2019-01-02 一种终端类型的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000930.XA CN111401509B (zh) 2019-01-02 2019-01-02 一种终端类型的识别方法和装置

Publications (2)

Publication Number Publication Date
CN111401509A CN111401509A (zh) 2020-07-10
CN111401509B true CN111401509B (zh) 2023-03-28

Family

ID=71433912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000930.XA Active CN111401509B (zh) 2019-01-02 2019-01-02 一种终端类型的识别方法和装置

Country Status (1)

Country Link
CN (1) CN111401509B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750286A (zh) * 2011-04-21 2012-10-24 常州蓝城信息科技有限公司 一种处理缺失数据的新型决策树分类器方法
CN106778684A (zh) * 2017-01-12 2017-05-31 易视腾科技股份有限公司 深度神经网络训练方法及人脸识别方法
CN108280458A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 群体关系类型识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021364B (zh) * 2016-05-10 2017-12-12 百度在线网络技术(北京)有限公司 图片搜索相关性预测模型的建立、图片搜索方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750286A (zh) * 2011-04-21 2012-10-24 常州蓝城信息科技有限公司 一种处理缺失数据的新型决策树分类器方法
CN108280458A (zh) * 2017-01-05 2018-07-13 腾讯科技(深圳)有限公司 群体关系类型识别方法及装置
CN106778684A (zh) * 2017-01-12 2017-05-31 易视腾科技股份有限公司 深度神经网络训练方法及人脸识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合判别式深度特征学习的图像识别算法;黄旭等;《中国图象图形学报》;20180416(第04期);全文 *

Also Published As

Publication number Publication date
CN111401509A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US11973877B2 (en) Systems and methods for secure tokenized credentials
Zhang et al. Fragile bits in palmprint recognition
US20200285898A1 (en) Systems and methods for training a data classification model
CN108805583B (zh) 基于地址映射的电商欺诈检测方法、装置、设备及介质
CN110502694A (zh) 基于大数据分析的律师推荐方法及相关设备
US20210398109A1 (en) Generating obfuscated identification templates for transaction verification
CN110458644A (zh) 一种信息处理方法及相关设备
EP1285400B1 (en) Personal identity authentication process and system
CN111275416A (zh) 数字货币异常交易检测方法、装置、电子设备及介质
CN105681324A (zh) 互联网金融交易系统及方法
CN116823428A (zh) 一种反欺诈检测方法、装置、设备及存储介质
US20220172271A1 (en) Method, device and system for recommending information, and storage medium
Negi et al. Degree of accuracy in credit card fraud detection using local outlier factor and isolation forest algorithm
CN110705994B (zh) 一种风险用户检测方法及装置
CN117313154A (zh) 基于隐私保护的数据关联关系评估方法及装置
CN111401509B (zh) 一种终端类型的识别方法和装置
CN111402027B (zh) 身份识别方法、商品贷审核方法、装置及终端设备
CN116595486A (zh) 风险识别方法、训练风险识别模型的方法及对应装置
CN115345727B (zh) 一种识别欺诈贷款申请的方法及装置
CN111767936A (zh) 地址相似性的检测方法和装置
CN110717817A (zh) 贷前审核方法及装置、电子设备和计算机可读存储介质
Deepika et al. Credit card fraud detection using moth-flame earth worm optimisation algorithm-based deep belief neural network
US20240202743A1 (en) Learning model evaluation system, learning model evaluation method, and program
CN112819486B (zh) 用于身份证明的方法和系统
US20160048839A1 (en) System and method for exclusion-based imposter screening

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant