CN112115443B - 一种终端用户鉴权方法及系统 - Google Patents

一种终端用户鉴权方法及系统 Download PDF

Info

Publication number
CN112115443B
CN112115443B CN202011296941.6A CN202011296941A CN112115443B CN 112115443 B CN112115443 B CN 112115443B CN 202011296941 A CN202011296941 A CN 202011296941A CN 112115443 B CN112115443 B CN 112115443B
Authority
CN
China
Prior art keywords
encoder
user information
user
data
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011296941.6A
Other languages
English (en)
Other versions
CN112115443A (zh
Inventor
蔺静茹
邵俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Soxinda Beijing Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Soxinda Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd, Soxinda Beijing Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202011296941.6A priority Critical patent/CN112115443B/zh
Publication of CN112115443A publication Critical patent/CN112115443A/zh
Application granted granted Critical
Publication of CN112115443B publication Critical patent/CN112115443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种终端用户鉴权方法及系统,其中所述方法包括:基于当前用户请求,获取用户信息;将所述用户信息预处理为第一数据类型用户信息;使用编码器对所述第一数据类型用户信息进行特征降维处理;基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权。本发明通过使用自编码器技术,充分利用无标签数据所包含的信息,通过对全量数据基于神经网络编码器进行特征降维,以抓取特征的非线性信息,然后利用这些信息结合有标签数据进行监督学习,提升模型效果。

Description

一种终端用户鉴权方法及系统
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种终端用户鉴权方法及系统。
背景技术
移动互联网的快速发展催生了手机端业务的快速发展,用户只需要在手机APP上提交申请资料便可以极速享受相应应用的功能。而与此同时运营商服务器这边会有部署一套鉴权措施,以保证合法用户权益,防止不良用户给运营商带来损失。由于市场竞争激烈,服务器这边是否能够快速且精准地反馈结果就变得非常重要。
通常来说,采用如下方式鉴权:接收手机端用户的申请数据,包括用户的性别、年龄、职业信息、教育背景、居住地区等信息,手机关联的信息,比如IP地址、手机APP数量、手机品牌等,并在用户的授权下查询用户的第三方数据,以获得用户特征的360度全景图。我们在业务有了一定积累之后,会基于过去的历史数据建立历史数据库,并基于这些历史数据来建立和优化鉴权模型,以更好的控制风险。
而这种鉴权实际是一种二分类任务,即预测一个用户是否为不良用户,从而决定是否给与其授权。传统的鉴权方法通常使用有监督学习,通过对有标签的历史数据建模来预测用户是否为合法用户。然而由于基于历史的带有标签的数据非常有限,基于这些有限数据难以得到较好和较稳定的模型效果,而同时我们的数据库中往往有大量无标签的数据并没有为我们所用,而这些无标签数据却往往携带了大量信息。此外,在特征数量较多,而用于监督学习建模的样本量相对较少的情况下,会出现维度灾难,且特征之间的相关性也会导致多重共线性的问题,对此业界往往通过PCA(主成分分析)的方法来对特征进行降维,但是PCA只能够提取线性特征。此外,由于幸存者偏差效应的存在,使得我们仅仅只能够通过之前被授权的用户的表现来优化模型,从而导致样本空间不完备,在模型迭代的过程中会导致样本逐渐偏离真实分布。
发明内容
针对上述现有技术中存在的缺陷,本发明使用半监督学习的方法来优化模型。就此,本发明提供一种终端用户鉴权方法,包括以下步骤:
步骤S101、基于当前用户请求,获取用户信息;
步骤S103、将所述用户信息预处理为第一数据类型用户信息;
步骤S105、使用编码器对所述第一数据类型用户信息进行特征降维处理;
步骤S107、基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权;
所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 540946DEST_PATH_IMAGE001
,其中f为Sigmoid函数,x为基于特征降维后的数据的加权和;
所述逻辑回归模型通过如下步骤建立:
获取数据库中的全部历史用户信息;
基于所述全部历史用户信息构建自编码器;
获取数据库中的标签用户信息;
基于所述编码器和标签用户信息建立逻辑回归模型。
其中,所述第一数据类型为数值型。
其中,所述步骤S103包括将文本型数据处理为数值型数据。
其中,编码器为自编码器的一部分,其中所述自编码器包括编码器和解码器。
其中,所述基于所述全部历史用户信息构建自编码器包括:
对所述全部历史用户信息进行预处理;
对预处理后的全部历史用户信息提取特征变量,构建第一特征变量集合;
基于所述第一特征变量集合,构建自编码器。
其中,所述基于所述编码器和标签用户信息建立逻辑回归模型包括:
对所述标签用户信息进行预处理,得到第一标签用户数据;
使用编码器对所述第一标签用户数据进行降维处理,得到第二标签用户数据;
基于所述第一标签用户数据和第二标签用户数据建立逻辑回归模型。
其中,步骤S107包括:使用所述第一模型对每一个实时请求的客户计算其为负样本的概率p,如果p>0.5则认为该用户存在风险,鉴权不能通过,否则,鉴权通过。
其中,所述逻辑回归模型的表达式为:
Figure 225655DEST_PATH_IMAGE002
式中,
Figure 183246DEST_PATH_IMAGE003
表示的是降维后的特征,
Figure 123521DEST_PATH_IMAGE004
为模型参数。
本发明还提出了一种终端用户鉴权系统,其包括:
信息获取模块,其基于当前用户请求,获取用户信息;
数据预处理模块,其用于将所述用户信息预处理为第一数据类型用户信息;
特征降维处理模块,其使用编码器对所述第一数据类型用户信息进行特征降维处理;
鉴权模块,其用于基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权。
其中,所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 365015DEST_PATH_IMAGE001
,其中f为Sigmoid函数,x为基于特征降维后的数据的加权和。
其中,所述系统还包括:
历史信息获取模块,其用于获取数据库中的全部历史用户信息;
自编码器构建模块,其基于所述全部历史用户信息构建自编码器;
标签信息获取模块,其用于获取数据库中的标签用户信息;
模型建立模块,其基于所述编码器和标签用户信息建立逻辑回归模型。
与现有技术相比,由于本发明采用全量样本建模,其中全量样本表征了总体样本的真实分布,且样本量远大于有标签的样本量,使用整体数据进行编码,进行特征降维,可以有效避免幸存者偏差。同时其强大的非线性特征提取能力,克服了仅仅使用PCA降维方法带来的线性特征提取,避免丢失很多非线性特征携带的信息。该方法有效地使用了拒绝样本进行建模,实现了更高的模型精度,也使得模型不会在一次次的迭代优化中累计偏差,导致模型越来越失真。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种终端用户鉴权方法流程图;
图2是示出根据本发明实施例的逻辑回归模型建立流程图;
图3是示出根据本发明实施例的构建自编码器流程图;
图4是示出根据本发明某一实施例的建立逻辑回归模型流程图;
图5是示出根据本发明实施例的降维提取变量示意图;
图6是示出根据本发明实施例的一种终端用户鉴权系统的示意图;以及
图7是示出根据本发明某一实施例的终端用户鉴权系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
半监督学习是一种介于有监督学习和无监督学习中间的一种数据挖掘方法。半监督学习通常使用像标签传播算法这类方法来对无标签样本进行标签标注。而使用标签传播算法的划分结果不稳定、随机性强,且精度不高。通过人为的算法对无标签样本打上标签,会使得标签严重依赖于此人为设计的算法,而非客观事实。这样在后续建模优化的过程中会导致误差越来越被放大。
同时,本发明使用自编码器技术,充分利用无标签数据所包含的信息,通过对全量数据基于神经网络编码器进行特征降维,以抓取特征的非线性信息,然后利用这些信息结合有标签数据进行监督学习,提升模型效果。
其中,在本发明中,全量数据包括有标签数据和无标签数据,其区别仅在于是否有标签,而拥有的特征则是完全相同的。例如如果标签数据有‘年龄’这个特征,那么无标签数据也有‘年龄’这个特征。
实施例一、
如图1所示,本发明公开了一种终端用户鉴权方法,包括以下步骤:
步骤S101、基于当前用户请求,获取用户信息;
步骤S103、将所述用户信息预处理为第一数据类型用户信息;
步骤S105、使用编码器对所述第一数据类型用户信息进行特征降维处理;
步骤S107、基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权。
实施例二、
一种终端用户鉴权方法,包括以下步骤:
步骤S101、基于当前用户请求,获取用户信息;
步骤S103、将所述用户信息预处理为第一数据类型用户信息;
步骤S105、使用编码器对所述第一数据类型用户信息进行特征降维处理;
步骤S107、基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权。
其中,所述第一数据类型为数值型。
其中,所述步骤S103包括将文本型数据处理为数值型数据。
其中,编码器为自编码器的一部分,其中所述自编码器包括编码器和解码器。
其中,所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 998122DEST_PATH_IMAGE005
,其中f为Sigmoid函数,x为基于特征降维后的数据的加权和,e为自然常数。
其中,如图2所示,所述逻辑回归模型通过如下步骤建立:
获取数据库中的全部历史用户信息;
基于所述全部历史用户信息构建自编码器;
获取数据库中的标签用户信息;
基于所述编码器和标签用户信息建立逻辑回归模型。
其中,如图3所示,所述基于所述全部历史用户信息构建自编码器包括:
对所述全部历史用户信息进行预处理;
对预处理后的全部历史用户信息提取特征变量,构建第一特征变量集合;
基于所述第一特征变量集合,构建自编码器。
其中,如图4所示,所述基于所述编码器和标签用户信息建立逻辑回归模型包括:
对所述标签用户信息进行预处理,得到第一标签用户数据;
使用编码器对所述第一标签用户数据进行降维处理,得到第二标签用户数据;
基于所述第一标签用户数据和第二标签用户数据建立逻辑回归模型。
其中,步骤S107包括:使用所述第一模型对每一个实时请求的客户计算其可能为负样本的概率p,如果p>0.5则认为该用户存在风险,鉴权不能通过,否则,鉴权通过。
其中,使用
Figure 443009DEST_PATH_IMAGE006
表示经过编码器变换之后的特征,根据这些特征及相应标签(标签依次记为
Figure 672128DEST_PATH_IMAGE007
)建立逻辑回归模型,即寻找合适的参数
Figure 518861DEST_PATH_IMAGE008
和b使得
Figure 57290DEST_PATH_IMAGE009
输出其为负样本的概率。其中f为Sigmoid函数,即
Figure 238741DEST_PATH_IMAGE010
其中,
Figure 520818DEST_PATH_IMAGE011
那么,逻辑回归模型的表达式实质上是
Figure 487637DEST_PATH_IMAGE012
或者说
Figure 210349DEST_PATH_IMAGE013
在本发明实施例中,
Figure 364250DEST_PATH_IMAGE014
表示的是降维后的特征,
Figure 699285DEST_PATH_IMAGE015
是模型参数。
结合已知的观测样本,使用极大似然估计方法来估计以上参数。
具体来说,假定有标签数据记为
Figure 520611DEST_PATH_IMAGE016
和大量无标签数据(包括历史未鉴权通过的用户)记为
Figure 666421DEST_PATH_IMAGE017
其中X的上标表示不同的特征,下标表示不同的观测数据。总共N个观测数据,其中编号1至l的为有标签数据,编号l+1至N的为无标签数据, l<<N, y为这些特征对应的标签,取值为0或1,0表示用户为优质客户,1表示不良客户。
提取出以上有标签数据
Figure 58350DEST_PATH_IMAGE018
,使用训练好的自编码器对这些特征
Figure 682230DEST_PATH_IMAGE019
进行降维变换,得到
Figure 92483DEST_PATH_IMAGE020
建立逻辑回归模型:令
Figure 658462DEST_PATH_IMAGE021
Figure 786955DEST_PATH_IMAGE022
,其中
Figure 425310DEST_PATH_IMAGE023
是模型参数。我们通过以上标签数据来进行参数估计。
逻辑回归模型的表达式实质上是通过
Figure 690069DEST_PATH_IMAGE024
Figure 426950DEST_PATH_IMAGE025
来输出用户违约的概率,并使得该违约概率最大可能对应我们观测数据的标签。也就是说我们采用极大似然法来估计参数,即我们的目标是最小化
Figure 308318DEST_PATH_IMAGE026
在一个应用场景中,本发明实施例总共拥有65000条用户数据,其中有标签数据8500条,无标签数据56500条;具有包括个人属性、资产状况等11个特征。即l=8500, N=65000, m=11;
构建一个自编码器,其将11维特征降为3维的Z;
通过训练自编码器得到对应的3维的Z的参数值,分别为(0.63,0.12,…,0.72)、(0.33,-0.54,…,3.6)和(2.3,0.44,…,0.35)。其中,训练自编码器即通过最小化L(X, G(F(X)))得到,其中的F为编码器,本质是一个神经网络;G是解码器,本质是另一个神经网络。F这个神经网络的本质是线性变换之后通过激活函数来实现变换,参数(0.63,0.12,…,0.72)、(0.33,-0.54,…,3.6)和(2.3,0.44,…,0.35)是这些线性变换的参数,而1/(1+e^(-x))是激活函数,使用该激活函数的目的是为了实现非线性变换。
具体而言,对于每个样本X, 编码器降维过程具体如下
Figure 274000DEST_PATH_IMAGE027
Figure 675157DEST_PATH_IMAGE028
Figure 68092DEST_PATH_IMAGE029
随后构建逻辑回归模型,经过训练得到了模型参数
Figure 171177DEST_PATH_IMAGE030
的值:
Figure 455397DEST_PATH_IMAGE031
那么模型输出用户为风险用户的概率
Figure 960328DEST_PATH_IMAGE032
在估计出上述参数之后,使用所述逻辑回归模型对每一个实时请求的客户依次使用降维和逻辑回归模型计算其可能为负样本的概率p,如果p>0.5则认为该用户是风险用户,不能给予授权,反之则给予用户授权。
实施例三、
在业务过程中积累了大量的用户数据,构成历史数据集,用于建立模型。对于每个用户,我们收集了包括用户的性别、年龄、职业信息、教育背景、居住地区等信息,手机关联的信息,比如IP地址、手机APP数量、手机品牌等,并在用户的授权下查询用户的第三方数据,比如通信数据等。
这些用户中我们之前使用过某种或某一类APP,具有良好信誉的用户或者优质用户,定义为标签用户,即是否是好用户,值为0 或1。这部分占比较少。
而鉴权未通过或者未使用过相应APP,没有相应鉴权信息的用户,就没有他们的标签数据,但是这些没有标签的特征数据仍然可以为我们所用。
上述少量有标签数据记为
Figure 789744DEST_PATH_IMAGE033
和大量无标签数据(历史拒绝用户)记为
Figure 127928DEST_PATH_IMAGE034
其中X的上标表示不同的特征,下标表示不同的观测数据。总共n个观测数据,其中编号1至l的为有标签数据, 编号l+1至n的为无标签数据, l<<n, y为这些特征对应的标签,取值为0或1,0表示用户为好客户,1表示坏客户。
实施例四、
在本发明中,自编码网络本质上是一类无监督学习,通过降维提取变量的主特征,以减弱相关变量之间的两两影响。通过自编码网络提取用户数据的主要特征,并基于提取的用户特征进行聚类,结合用户是否欺诈的标签对这些类别进行判定。对于任意一个申请用户,通过其与这些类别之间的距离关系判定其属于那个类别,并作为对其是否是欺诈用户的判定。
具体地,自编码网络的过程为:
将输入变量的集合记作X,设定编码函数
Figure 700991DEST_PATH_IMAGE035
以及解码函数
Figure 794849DEST_PATH_IMAGE036
其中f和g为神经网络且f输出的维数远远小于X的维数,使得
Figure 44434DEST_PATH_IMAGE037
最小。
Figure 856532DEST_PATH_IMAGE038
,则H即为对X提取出的特征。如图5所示,h1, h2, h3即为通过编码器算法捕捉到的降维的特征表示,实现了对变量x1,x2,...,x7的关键信息提取。
另外,一个自编码器实际上是由一个编码器和一个解码器两部分组成。编码器和解码器的结构都各自是一个神经网络。
从训练好的自编码器中抽取出编码器部分,就可以实现降维的效果。
通过自编码器的降维优于PCA在于其使用的是神经网络的结构。如果让神经网络中的激活函数蜕化为恒等函数,则该自编码器则就是一个PCA过程。由于激活函数的存在,自编码器能够实现非线性的降维。
神经网络是这样的一个映射f,它接受一组输入向量X,通过
Figure 498866DEST_PATH_IMAGE039
输出另一组向量。其中X为N维的向量,W为一个M*N维的矩阵,b为M维的向量,f(X)的输出为一个M维的向量。
假设X为我们的观测变量,编码器网络接受X的输入,通过上述神经网络变成一个低维特征Z,记Z的维度为M,则N>>M。
Z也可以称做隐变量,因为Z并不是直接通过观测得到的变量。
解码器网络则接受低维特征Z的输入,通过另一个神经网络变成高维特征X1,X1的维度和X相同。
自编码器将原始观测变量X经过编码器后转变为低维向量Z,Z再经过解码器生成高维向量
Figure 463542DEST_PATH_IMAGE040
(和X相同维度),自编码器的的训练目标是使得
Figure 634760DEST_PATH_IMAGE040
和原始的高维特征X尽可能相同,也即其损失函数就是这两个高维特征的差。观测变量依次经过一个解码器和一个编码器能实现最大程度的复原,说明X经过编码器生成的中间层Z携带了X中绝大多数信息。换句话说,如果降维后的Z丢失了X中的信息较多,则不太可能从Z通过解码器还原出X的几乎所有信息。所以Z可以近似作为X的替代。由于Z的维度远小于X,所以实现了降维。
实施例五、
如图6所示,本发明还提出了一种终端用户鉴权系统,其包括:
信息获取模块,其基于当前用户请求,获取用户信息;
数据预处理模块,其用于将所述用户信息预处理为第一数据类型用户信息;
特征降维处理模块,其使用编码器对所述第一数据类型用户信息进行特征降维处理;
鉴权模块,其用于基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权。
其中,所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 934155DEST_PATH_IMAGE041
其中f为Sigmoid函数,x为基于特征降维后的数据的加权和。
如图7所示,其中,所述系统还包括:
历史信息获取模块,其用于获取数据库中的全部历史用户信息;
自编码器构建模块,其基于所述全部历史用户信息构建自编码器;
标签信息获取模块,其用于获取数据库中的标签用户信息;
模型建立模块,其基于所述编码器和标签用户信息建立逻辑回归模型。
实施例六、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (6)

1.一种终端用户鉴权方法,其特征在于,包括以下步骤:
步骤S101、基于当前用户请求,获取用户信息;
步骤S103、将所述用户信息预处理为第一数据类型用户信息;
步骤S105、使用编码器对所述第一数据类型用户信息进行特征降维处理,所述编码器为自编码器的一部分,其中所述自编码器包括编码器和解码器;
步骤S107、基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权;
所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 268505DEST_PATH_IMAGE001
,其中f为Sigmoid函数,x为基于特征降维后的数据的加权和;
所述逻辑回归模型通过如下步骤建立:
获取数据库中的全部历史用户信息;
基于所述全部历史用户信息构建自编码器,其包括:
-对所述全部历史用户信息进行预处理;
-对预处理后的全部历史用户信息提取特征变量,构建第一特征变量集合;
-基于所述第一特征变量集合,构建自编码器;
获取数据库中的标签用户信息;
基于所述编码器和标签用户信息建立逻辑回归模型,其包括:
-对所述标签用户信息进行预处理,得到第一标签用户数据;
-使用编码器对所述第一标签用户数据进行降维处理,得到第二标签用户数据;
-基于所述第一标签用户数据和第二标签用户数据建立逻辑回归模型。
2.如权利要求1所述方法,其特征在于,其中所述第一数据类型为数值型。
3.如权利要求2所述方法,其特征在于,其中所述步骤103包括将文本型数据处理为数值型数据。
4.如权利要求1所述方法,其特征在于,其中步骤107包括:使用所述第一模型对每一个实时请求的客户计算其为负样本的概率p,如果p>0.5则认为该用户存在风险,鉴权不能通过,否则,鉴权通过。
5.如权利要求1所述方法,其特征在于,其中所述逻辑回归模型的表达式为:
Figure 123329DEST_PATH_IMAGE002
式中,
Figure 90017DEST_PATH_IMAGE003
表示的是降维后的特征,
Figure DEST_PATH_IMAGE004
为模型参数。
6.一种终端用户鉴权装置,其特征在于,其包括:
信息获取模块,其基于当前用户请求,获取用户信息;
数据预处理模块,其用于将所述用户信息预处理为第一数据类型用户信息;
特征降维处理模块,其使用编码器对所述第一数据类型用户信息进行特征降维处理,所述编码器为自编码器的一部分,其中所述自编码器包括编码器和解码器;
鉴权模块,其用于基于第一模型,对特征降维处理后的用户信息进行分析,以对所述用户进行鉴权;
所述第一模型为逻辑回归模型,所述逻辑回归模型使用下式表示:
Figure 845745DEST_PATH_IMAGE005
,其中f为Sigmoid函数,x为基于特征降维后的数据的加权和;
所述装置还包括:
历史信息获取模块,其用于获取数据库中的全部历史用户信息;
自编码器构建模块,其基于所述全部历史用户信息构建自编码器,并实施以下步骤:
-对所述全部历史用户信息进行预处理;
-对预处理后的全部历史用户信息提取特征变量,构建第一特征变量集合;
-基于所述第一特征变量集合,构建自编码器;
标签信息获取模块,其用于获取数据库中的标签用户信息;
模型建立模块,其基于所述编码器和标签用户信息建立逻辑回归模型,并实施以下步骤:
-对所述标签用户信息进行预处理,得到第一标签用户数据;
-使用编码器对所述第一标签用户数据进行降维处理,得到第二标签用户数据;
-基于所述第一标签用户数据和第二标签用户数据建立逻辑回归模型。
CN202011296941.6A 2020-11-19 2020-11-19 一种终端用户鉴权方法及系统 Active CN112115443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011296941.6A CN112115443B (zh) 2020-11-19 2020-11-19 一种终端用户鉴权方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011296941.6A CN112115443B (zh) 2020-11-19 2020-11-19 一种终端用户鉴权方法及系统

Publications (2)

Publication Number Publication Date
CN112115443A CN112115443A (zh) 2020-12-22
CN112115443B true CN112115443B (zh) 2021-02-12

Family

ID=73794968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011296941.6A Active CN112115443B (zh) 2020-11-19 2020-11-19 一种终端用户鉴权方法及系统

Country Status (1)

Country Link
CN (1) CN112115443B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048992A (zh) * 2021-11-09 2022-02-15 上海旭荣网络科技有限公司 一种风控模型预测结果的评估方法和装置
CN114386067B (zh) * 2022-01-06 2022-08-23 承德石油高等专科学校 一种基于人工智能的设备生产数据安全传输方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236068A (zh) * 2013-05-14 2013-08-07 中国科学院自动化研究所 一种局部图像匹配方法
CN103795540A (zh) * 2013-11-14 2014-05-14 深圳光启创新技术有限公司 移动设备、鉴权设备和鉴权系统
CN104050677A (zh) * 2014-06-30 2014-09-17 南京理工大学 一种基于多层神经网络的超光谱图像分割方法
CN104298973A (zh) * 2014-10-09 2015-01-21 北京工业大学 基于自编码器的人脸图像旋转方法
CN105913025A (zh) * 2016-04-12 2016-08-31 湖北工业大学 一种基于多特征融合的深度学习人脸识别方法
CN105930796A (zh) * 2016-04-21 2016-09-07 中国人民解放军信息工程大学 一种基于深度自编码器的单样本人脸图像识别方法
CN108459955A (zh) * 2017-09-29 2018-08-28 重庆大学 基于深度自编码网络的软件缺陷预测方法
CN110162957A (zh) * 2018-09-11 2019-08-23 腾讯科技(深圳)有限公司 智能设备的鉴权方法和装置、存储介质、电子装置
CN111368795A (zh) * 2020-03-19 2020-07-03 支付宝(杭州)信息技术有限公司 一种人脸特征提取方法、装置及设备
CN111866877A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于记忆的5g物理层安全鉴权方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848566B2 (en) * 2004-10-22 2010-12-07 Carnegie Mellon University Object recognizer and detector for two-dimensional images using bayesian network based classifier
KR101645087B1 (ko) * 2014-07-10 2016-08-02 아이리텍 잉크 홍채인식용 착용 감지 기능을 가진 손 부착형 웨어러블 장치를 이용한 보안강화세트 및 그 제어방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103236068A (zh) * 2013-05-14 2013-08-07 中国科学院自动化研究所 一种局部图像匹配方法
CN103795540A (zh) * 2013-11-14 2014-05-14 深圳光启创新技术有限公司 移动设备、鉴权设备和鉴权系统
CN104050677A (zh) * 2014-06-30 2014-09-17 南京理工大学 一种基于多层神经网络的超光谱图像分割方法
CN104298973A (zh) * 2014-10-09 2015-01-21 北京工业大学 基于自编码器的人脸图像旋转方法
CN105913025A (zh) * 2016-04-12 2016-08-31 湖北工业大学 一种基于多特征融合的深度学习人脸识别方法
CN105930796A (zh) * 2016-04-21 2016-09-07 中国人民解放军信息工程大学 一种基于深度自编码器的单样本人脸图像识别方法
CN108459955A (zh) * 2017-09-29 2018-08-28 重庆大学 基于深度自编码网络的软件缺陷预测方法
CN110162957A (zh) * 2018-09-11 2019-08-23 腾讯科技(深圳)有限公司 智能设备的鉴权方法和装置、存储介质、电子装置
CN111368795A (zh) * 2020-03-19 2020-07-03 支付宝(杭州)信息技术有限公司 一种人脸特征提取方法、装置及设备
CN111866877A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于记忆的5g物理层安全鉴权方法

Also Published As

Publication number Publication date
CN112115443A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN111860674B (zh) 样本类别识别方法、装置、计算机设备及存储介质
CN109165840B (zh) 风险预测处理方法、装置、计算机设备和介质
CN112307472B (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
CN112732911A (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN109063921B (zh) 客户风险预警的优化处理方法、装置、计算机设备和介质
CN112115443B (zh) 一种终端用户鉴权方法及系统
US20240185080A1 (en) Self-supervised data obfuscation in foundation models
CN113240505B (zh) 图数据的处理方法、装置、设备、存储介质及程序产品
CN116992299B (zh) 区块链交易异常检测模型的训练方法、检测方法及装置
CN110909224A (zh) 一种基于人工智能的敏感数据自动分类识别方法及系统
CN114090401B (zh) 处理用户行为序列的方法及装置
CN113887214B (zh) 基于人工智能的意愿推测方法、及其相关设备
CN110659997B (zh) 数据聚类识别方法、装置、计算机系统及可读存储介质
CN116823428A (zh) 一种反欺诈检测方法、装置、设备及存储介质
CN115314268A (zh) 基于流量指纹和行为的恶意加密流量检测方法和系统
CN112818868A (zh) 基于行为序列特征数据的违规用户识别方法和装置
Rajeev et al. An insightful analysis of digital forensics effects on networks and multimedia applications
CN110502552B (zh) 一种基于微调条件概率的分类数据转换方法
CN116611895A (zh) 交易异常识别方法、装置、计算机设备和存储介质
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN111786937A (zh) 用于识别恶意请求的方法和装置
CN112905987A (zh) 账号识别方法、装置、服务器及存储介质
CN112188487B (zh) 一种提高用户鉴权准确性的方法与系统
CN114418767A (zh) 一种交易意图识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant