CN110135681B - 风险用户识别方法、装置、可读存储介质及终端设备 - Google Patents
风险用户识别方法、装置、可读存储介质及终端设备 Download PDFInfo
- Publication number
- CN110135681B CN110135681B CN201910264886.3A CN201910264886A CN110135681B CN 110135681 B CN110135681 B CN 110135681B CN 201910264886 A CN201910264886 A CN 201910264886A CN 110135681 B CN110135681 B CN 110135681B
- Authority
- CN
- China
- Prior art keywords
- user
- identification
- identified
- model
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于计算机技术领域,尤其涉及一种风险用户识别方法、装置、计算机可读存储介质及终端设备。所述方法获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;计算所述待识别用户在各个识别维度上的风险概率;根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果。通过本发明实施例,充分考虑到用户关系网络中的特征信息,大大提高了识别结果的准确率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种风险用户识别方法、装置、计算机可读存储介质及终端设备。
背景技术
现有技术中在进行风险用户识别时,采用的方式一般都是尽可能多的获取待识别用户的个人特征信息,并将这些个人特征信息输入到特定的算法模型中,经过一系列的计算过程从而得到识别结果。但是,在实际中,存在风险的用户往往不是孤立存在的,而是处于一个由众多的风险用户所构成的关系网络中,现有技术中未能充分考虑到这种用户关系网络中的特征信息,导致识别结果的准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种风险用户识别方法、装置、计算机可读存储介质及终端设备,以解决现有的风险用户识别方法未能充分考虑到用户关系网络中的特征信息,识别结果的准确率较低的问题。
本发明实施例的第一方面提供了一种风险用户识别方法,可以包括:
获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数;
根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型。
本发明实施例的第二方面提供了一种风险用户识别装置,可以包括:
关联用户数获取模块,用于获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
风险概率计算模块,用于计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数;
风险概率向量构造模块,用于根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
用户识别模块,用于使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如下步骤:
获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数;
根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数;
根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例首先获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,其中,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数,然后据此计算所述待识别用户在各个识别维度上的风险概率,并根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量,最后使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果。通过本发明实施例,充分考虑到用户关系网络中的特征信息,将待识别用户与其他用户之间的关联关系作为对该用户进行识别的依据,即并非仅从用户个体的角度进行分析,而是从群体关系的角度进行分析,从而大大提高了识别结果的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种风险用户识别方法的一个实施例流程图;
图2为对识别模型进行训练的示意流程图;
图3为使用样本集合对识别模型进行训练的具体过程的示意流程图;
图4为本发明实施例中一种风险用户识别装置的一个实施例结构图;
图5为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
目前运行的风控系统中,利用常规规则对存在风险的用户进行识别,这种识别方案中没有充分利用用户关系网络中各个个体的关系,同时,必须要等到新增的用户在触发风控规则之后才能认定其为存在风险的用户,这存在一定的滞后性,同时也放过了新增用户在触发风控规则之前的风险。因此,本实施例提供了一种基于各个用户之间的关联关系,通过统计分析来识别新增用户是否存在风险的方法。
请参阅图1,本发明实施例中一种风险用户识别方法的一个实施例可以包括:
步骤S101、获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数。
所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数。
本实施例中的识别维度包括但不限于:设备维度、IP维度以及业务员维度等等,若两个用户之间在某一识别维度上具有某种关系,则这两个用户即互为关联用户。
例如:若两个用户使用过同一个终端设备登录过系统,则这两个用户在设备维度上互为关联用户;若两个用户使用过同一个IP地址登录过系统,则这两个用户在IP维度上互为关联用户;若两个用户绑定过同一位业务员,则这两个用户在业务员维度上互为关联用户。
对于所述待识别用户,可以首先在历史记录中查询其登录系统所使用过的终端设备、IP地址以及绑定过的业务员等信息,然后可以通过这些信息在预设的数据库中查找其各个识别维度上的关联用户数,也即所述第一关联用户数。需要注意的是,在该数据库中记录的各个用户均为已经进行过风险识别的用户,所述第一关联用户数中既包括识别结果为不存在风险的关联用户数,也包括识别结果为存在风险的关联用户数,也即所述第二关联用户数。
步骤S102、计算所述待识别用户在各个识别维度上的风险概率。
其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数。
在本实施例的一种具体实现中,可以根据下式计算所述待识别用户在第dn个识别维度上的风险概率:
其中,FstRelNumdn为所述待识别用户在第dn个识别维度上的第一关联用户数,SndRelNumdn为所述待识别用户在第dn个识别维度上的第二关联用户数,FtValdn为所述待识别用户在第dn个识别维度上的风险概率。
步骤S103、根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量。
在本实施例的一种具体实现中,可以根据下式构造所述待识别用户的风险概率向量:
FtVec=(FtVal1,FtVal2,...,FtValdn,...,FtValDN)
其中,FtVec为所述待识别用户的风险概率向量。
步骤S104、使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果。
所述识别模型为经过预设的样本集合训练的机器学习模型。所述识别模型的构建过程包括如下过程:
首先,构建逻辑回归分析模型。
本实施例中使用机器学习中逻辑回归(Logistic Regression,LR)分类算法对样本集合进行训练,逻辑回归是一种广义的线性回归分析模型,属于监督学习算法,可以用在回归、二分类和多分类等问题上。
逻辑回归的最终结果是一组特征的系数,每个特征有一个系数相乘,在本实施例中,可以根据下式构建逻辑回归分析模型:
LinResult=Wt1×FtVal1+Wt2×FtVal2+...+Wtdn×FtValdn+...+WtDN×FtValDN+C其中,(Wt1,Wt2,...,Wtdn,...,WtDN)为待求解的模型系数向量,Wtdn为第dn个识别维度上的权重系数,C为常数项,LinResult为所述逻辑回归分析模型的输出值。
然后,根据下式构建所述识别模型:
其中,Sigmoid为S型生长曲线函数,可以把结果区间均匀地表示在(0,1)的范围中,RecResult为所述识别模型的输出值,且0<RecResult<1。
在构造出所述识别模型之后,可以通过如图2所示的过程对所述识别模型进行训练:
步骤S201、从预设的数据库中获取用户黑名单以及用户白名单。
所述用户黑名单中记录了已识别出的存在风险的各个用户,所述用户白名单中记录了已识别出的不存在风险的各个用户。
步骤S202、根据所述用户黑名单和所述用户白名单构造所述样本集合。
其中,所述样本集合中的正样本集为根据所述用户黑名单构造而成,所述样本集合中的负样本集为根据所述用户白名单构造而成。
通常情况下,存在风险的用户的数量远小于正常用户的数量,因此,在本实施例中,将存在风险的用户的数据作为正样本,将正常用户的数据作为负样本。为了保证结果的准确性,应尽量增加所述样本集合中的样本数目,例如,可以将样本数目设置为5000、10000、50000或者其它取值。
所述样本集合中的正样本的数目与负样本的数目应满足一定的限制条件,例如:
其中,PN为所述样本集合中的正样本的总数,NgN为所述样本集合中的负样本的总数,Thresh为预设的阈值,该阈值可以根据实际情况进行设置,例如,可以将其设置为0.1、0.01、0.001或者其它取值。
特殊地,可以保持正样本的数目与负样本的数目一致。例如,若共选取10000个样本,则其中正样本和负样本各5000个,以此保证分析结果的平衡性。
所述样本集合中的任一样本均包括风险概率向量和识别结果这两部分,其中,该样本的风险概率向量的计算过程与步骤S103中所述过程类似,具体可参照上述详细描述,此处不再赘述。该样本的识别结果的具体取值可以根据实际情况进行设置,一般地,可以将正样本的识别结果设置为1,将负样本的识别结果设置为0。
步骤S203、使用所述样本集合对所述识别模型进行训练,直至满足预设的收敛条件为止。
如图3所示,步骤S203具体可以包括如下过程:
步骤S2031、构造样本矩阵。
在本实施例中,可以构造如下所示的样本矩阵:
其中,sn为所述样本集合中的样本序号,1≤sn≤SN,SN为所述样本集合中的样本总数,SampleVecsn为第sn个样本的风险概率向量,且SampleVecsn=(SpEmsn,1,SpEmsn,2,...,SpEmsn,dn,...,SpEmsn,DN),SpEmsn,dn为第sn个样本的风险概率向量在第dn个识别维度上的风险概率,SpMatrix为所述样本矩阵。
步骤S2032、计算对所述识别模型进行第t次训练的误差向量。
在本实施例中,可以根据下式计算对所述识别模型进行第t次训练的误差向量:
Errort=SpResultVec-Sigmoid(SpMatrix×WtVect T+C)
其中,WtVect为第t次训练的模型系数向量,且WtVect=(Wtt,1,Wtt,2,...,Wtt,dn,...,Wtt,DN),Wtt,dn为第dn个识别维度上的权重系数在第t次训练中的取值,特殊地,在初始状态下(也即在第1次训练时),可以将所述模型系数向量设置为取值为全1的向量,即:WtVec1=(1,1,...,1,...,1),T为转置符号,SpResultVec为目标结果向量,且SpResultVec=(SpVal1,SpVal2,...,SpValsn,...,SpValSN)T,SpValsn为第sn个样本的识别结果,Errort为对所述识别模型进行第t次训练的误差向量,且Errort=(ErrEmt,1,ErrEmt,2,...,ErrEmt,sn,...,ErrEmt,SN)T,ErrEmt,sn为第sn个样本在第t次训练中的误差值。
步骤S2033、对所述模型系数向量进行迭代更新。
在本实施例中,可以根据下式对所述模型系数向量进行迭代更新:
其中,为预设的迭代步长,迭代步长是指机器学习过程中每次学习的速率,就相当于爬山中每步的跨度,如果步长太长,在训练过程中可能一下子就迈过了最合适的点,失去了最优解,如果步长太短,则会发现达到终点的速率会非常慢,容易造成过拟合。在本实施例中,可以根据实际情况对迭代步长进行设置,例如,可以将其设置为0.1、0.01、0.001或者其它取值。
步骤S2034、计算第t次训练的模型系数向量距离。
在本实施例中,可以根据下式计算第t次训练的模型系数向量距离:
其中,Dist为第t次训练的模型系数向量距离。
若收敛条件尚未得到满足,则继续执行步骤S2035,对所述识别模型进行第t+1次训练。
收敛条件就是设置一个条件来判断什么情况下达到了最优解,失去这个收敛条件后函数就会一直迭代,没有终点。在本实施例中,将每次训练的模型系数向量距离作为判定收敛条件是否得到满足的依据,若第t次训练的模型系数向量距离大于预设的距离阈值,则判定收敛条件尚未得到满足,所述误差阈值可以根据实际情况进行设置,例如,可以将其设置为5、10、20或者其它取值。
若收敛条件得到满足,也即第t次训练的模型系数向量距离小于或等于所述距离阈值,则执行步骤S2036,结束对所述识别模型的训练。
在识别模型训练完成之后,即可使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果。具体地,首先将所述使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的输出值:
如上式所示,y即为所述待识别用户的输出值。
若所述待识别用户的输出值小于预设的识别阈值,则判定所述待识别用户为不存在风险的用户,若所述待识别用户的输出值大于所述识别阈值,则判定所述待识别用户为存在风险的用户。所述识别阈值可以根据实际情况进行设置,例如,可以将其设置为0.4、0.5、0.6或者其它取值,在本实施例中,优选将其设置为0.5。
综上所述,本发明实施例首先获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,其中,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数,然后据此计算所述待识别用户在各个识别维度上的风险概率,并根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量,最后使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果。通过本发明实施例,充分考虑到用户关系网络中的特征信息,将待识别用户与其他用户之间的关联关系作为对该用户进行识别的依据,即并非仅从用户个体的角度进行分析,而是从群体关系的角度进行分析,从而大大提高了识别结果的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种风险用户识别方法,图4示出了本发明实施例提供的一种风险用户识别装置的一个实施例结构图。
本实施例中,一种风险用户识别装置可以包括:
关联用户数获取模块401,用于获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
风险概率计算模块402,用于计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率由第dn个识别维度上的所述第一关联用户数以及所述第二关联用户数计算得到,1≤dn≤DN,DN为识别维度的总数;
风险概率向量构造模块403,用于根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
用户识别模块404,用于使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型。
进一步地,所述风险用户识别装置还可以包括:
逻辑回归分析模型构建模块,用于根据下式构建逻辑回归分析模型:
LinResult=Wt1×FtVal1+Wt2×FtVal2+...+Wtdn×FtValdn+...+WtDN×FtValDN+C其中,(FtVal1,FtVal2,...,FtValdn,...,FtValDN)为用户的风险概率向量,FtValdn为用户在第dn个识别维度上的风险概率,(Wt1,Wt2,...,Wtdn,...,WtDN)为待求解的模型系数向量,Wtdn为第dn个识别维度上的权重系数,C为常数项,LinResult为所述逻辑回归分析模型的输出值;
识别模型构建模块,用于根据下式构建所述识别模型:
其中,Sigmoid为S型生长曲线函数,RecResult为所述识别模型的输出值。
进一步地,所述风险用户识别装置还可以包括:
用户名单获取模块,用于从预设的数据库中获取用户黑名单以及用户白名单,所述用户黑名单中记录了已识别出的存在风险的各个用户,所述用户白名单中记录了已识别出的不存在风险的各个用户;
样本集合构造模块,用于根据所述用户黑名单和所述用户白名单构造所述样本集合,其中,所述样本集合中的正样本集为根据所述用户黑名单构造而成,所述样本集合中的负样本集为根据所述用户白名单构造而成,所述样本集合中的任一样本均包括风险概率向量和识别结果;
模型训练模块,用于使用所述样本集合对所述识别模型进行训练,直至满足预设的收敛条件为止。
进一步地,所述模型训练模块可以包括:
样本矩阵构造单元,用于构造如下所示的样本矩阵:
其中,sn为所述样本集合中的样本序号,1≤sn≤SN,SN为所述样本集合中的样本总数,SampleVecsn为第sn个样本的风险概率向量,且SampleVecsn=(SpEmsn,1,SpEmsn,2,...,SpEmsn,dn,...,SpEmsn,DN),SpEmsn,dn为第sn个样本的风险概率向量在第dn个识别维度上的风险概率,SpMatrix为所述样本矩阵;
误差向量计算单元,用于根据下式计算对所述识别模型进行第t次训练的误差向量:
Errort=SpResultVec-Sigmoid(SpMatrix×WtVect T+C)
其中,WtVect为第t次训练的模型系数向量,且WtVect=(Wtt,1,Wtt,2,...,Wtt,dn,...,Wtt,DN),Wtt,dn为第dn个识别维度上的权重系数在第t次训练中的取值,T为转置符号,SpResultVec为目标结果向量,且SpResultVec=(SpVal1,SpVal2,...,SpValsn,...,SpValSN)T,SpValsn为第sn个样本的识别结果,Errort为对所述识别模型进行第t次训练的误差向量,且Errort=(ErrEmt,1,ErrEmt,2,...,ErrEmt,sn,...,ErrEmt,SN)T,ErrEmt,sn为第sn个样本在第t次训练中的误差值;
系数向量更新单元,用于根据下式对所述模型系数向量进行迭代更新:
其中,为预设的迭代步长;
距离计算单元,用于根据下式计算第t次训练的模型系数向量距离:
其中,Dist为第t次训练的模型系数向量距离;
迭代训练单元,用于若第t次训练的模型系数向量距离大于预设的距离阈值,则对所述识别模型进行第t+1次训练;
结束训练单元,用于若第t次训练的模型系数向量距离小于或等于所述距离阈值,则结束对所述识别模型的训练。
进一步地,所述用户识别模块可以包括:
模型计算单元,用于将所述使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的输出值;
第一判定单元,用于若所述待识别用户的输出值小于预设的识别阈值,则判定所述待识别用户为不存在风险的用户;
第二判定单元,用于若所述待识别用户的输出值大于所述识别阈值,则判定所述待识别用户为存在风险的用户。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述的风险用户识别方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个风险用户识别方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至404的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种风险用户识别方法,其特征在于,包括:
获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率为第dn个识别维度上的所述第一关联用户数与所述第二关联用户数的比值,1≤dn≤DN,DN为识别维度的总数;
根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型;
所述识别模型的构建过程包括:
根据下式构建逻辑回归分析模型:
LinResult=Wt1×FtVal1+Wt2×FtVal2+...+Wtdn×FtValdn+...+WtDN×FtValDN+C
其中,(FtVal1,FtVal2,...,FtValdn,...,FtValDN)为用户的风险概率向量,FtValdn为用户在第dn个识别维度上的风险概率,(Wt1,Wt2,...,Wtdn,...,WtDN)为待求解的模型系数向量,Wtdn为第dn个识别维度上的权重系数,C为常数项,LinResult为所述逻辑回归分析模型的输出值;
根据下式构建所述识别模型:
其中,Sigmoid为S型生长曲线函数,RecResult为所述识别模型的输出值。
2.根据权利要求1所述的风险用户识别方法,其特征在于,所述识别模型的训练过程包括:
从预设的数据库中获取用户黑名单以及用户白名单,所述用户黑名单中记录了已识别出的存在风险的各个用户,所述用户白名单中记录了已识别出的不存在风险的各个用户;
根据所述用户黑名单和所述用户白名单构造所述样本集合,其中,所述样本集合中的正样本集为根据所述用户黑名单构造而成,所述样本集合中的负样本集为根据所述用户白名单构造而成,所述样本集合中的任一样本均包括风险概率向量和识别结果;
使用所述样本集合对所述识别模型进行训练,直至满足预设的收敛条件为止。
3.根据权利要求2所述的风险用户识别方法,其特征在于,所述使用所述样本集合对所述识别模型进行训练包括:
构造如下所示的样本矩阵:
其中,sn为所述样本集合中的样本序号,1≤sn≤SN,SN为所述样本集合中的样本总数,SampleVecsn为第sn个样本的风险概率向量,且SampleVecsn=(SpEmsn,1,SpEmsn,2,...,SpEmsn,dn,...,SpEmsn,DN),SpEmsn,dn为第sn个样本的风险概率向量在第dn个识别维度上的风险概率,SpMatrix为所述样本矩阵;
根据下式计算对所述识别模型进行第t次训练的误差向量:
Errort=SpResultVec-Sigmoid(SpMatrix×WtVect T+C)
其中,WtVect为第t次训练的模型系数向量,且WtVect=(Wtt,1,Wtt,2,...,Wtt,dn,...,Wtt,DN),Wtt,dn为第dn个识别维度上的权重系数在第t次训练中的取值,T为转置符号,SpResultVec为目标结果向量,且SpResultVec=(SpVal1,SpVal2,...,SpValsn,...,SpValSN)T,SpValsn为第sn个样本的识别结果,Errort为对所述识别模型进行第t次训练的误差向量,且Errort=(ErrEmt,1,ErrEmt,2,...,ErrEmt,sn,...,ErrEmt,SN)T,ErrEmt,sn为第sn个样本在第t次训练中的误差值;
根据下式对所述模型系数向量进行迭代更新:
其中,为预设的迭代步长;
根据下式计算第t次训练的模型系数向量距离:
其中,Dist为第t次训练的模型系数向量距离;
若第t次训练的模型系数向量距离大于预设的距离阈值,则对所述识别模型进行第t+1次训练;
若第t次训练的模型系数向量距离小于或等于所述距离阈值,则结束对所述识别模型的训练。
4.根据权利要求1至3中任一项所述的风险用户识别方法,其特征在于,所述使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果包括:
将所述使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的输出值;
若所述待识别用户的输出值小于预设的识别阈值,则判定所述待识别用户为不存在风险的用户;
若所述待识别用户的输出值大于所述识别阈值,则判定所述待识别用户为存在风险的用户。
5.一种风险用户识别装置,其特征在于,包括:
关联用户数获取模块,用于获取待识别用户在预设的各个识别维度上的第一关联用户数以及第二关联用户数,所述第一关联用户数为与所述待识别用户对应的关联用户总数,所述第二关联用户数为与所述待识别用户对应的存在风险的关联用户总数;
风险概率计算模块,用于计算所述待识别用户在各个识别维度上的风险概率,其中,第dn个识别维度上的风险概率为第dn个识别维度上的所述第一关联用户数与所述第二关联用户数的比值,1≤dn≤DN,DN为识别维度的总数;
风险概率向量构造模块,用于根据各个识别维度上的风险概率构造所述待识别用户的风险概率向量;
用户识别模块,用于使用预设的识别模型对所述待识别用户的风险概率向量进行计算,得到所述待识别用户的识别结果,所述识别模型为经过预设的样本集合训练的机器学习模型;
逻辑回归分析模型构建模块,用于根据下式构建逻辑回归分析模型:
LinResult=Wt1×FtVal1+Wt2×FtVal2+...+Wtdn×FtValdn+...+WtDN×FtValDN+C
其中,(FtVal1,FtVal2,...,FtValdn,...,FtValDN)为用户的风险概率向量,FtValdn为用户在第dn个识别维度上的风险概率,(Wt1,Wt2,...,Wtdn,...,WtDN)为待求解的模型系数向量,Wtdn为第dn个识别维度上的权重系数,C为常数项,LinResult为所述逻辑回归分析模型的输出值;
识别模型构建模块,用于根据下式构建所述识别模型:
其中,Sigmoid为S型生长曲线函数,RecResult为所述识别模型的输出值。
6.根据权利要求5所述的风险用户识别装置,其特征在于,还包括:
用户名单获取模块,用于从预设的数据库中获取用户黑名单以及用户白名单,所述用户黑名单中记录了已识别出的存在风险的各个用户,所述用户白名单中记录了已识别出的不存在风险的各个用户;
样本集合构造模块,用于根据所述用户黑名单和所述用户白名单构造所述样本集合,其中,所述样本集合中的正样本集为根据所述用户黑名单构造而成,所述样本集合中的负样本集为根据所述用户白名单构造而成,所述样本集合中的任一样本均包括风险概率向量和识别结果;
模型训练模块,用于使用所述样本集合对所述识别模型进行训练,直至满足预设的收敛条件为止。
7.根据权利要求6所述的风险用户识别装置,其特征在于,所述模型训练模块包括:
样本矩阵构造单元,用于构造如下所示的样本矩阵:
其中,sn为所述样本集合中的样本序号,1≤sn≤SN,SN为所述样本集合中的样本总数,SampleVecsn为第sn个样本的风险概率向量,且SampleVecsn=(SpEmsn,1,SpEmsn,2,...,SpEmsn,dn,...,SpEmsn,DN),SpEmsn,dn为第sn个样本的风险概率向量在第dn个识别维度上的风险概率,SpMatrix为所述样本矩阵;
误差向量计算单元,用于根据下式计算对所述识别模型进行第t次训练的误差向量:
Errort=SpResultVec-Sigmoid(SpMatrix×WtVect T+C)
其中,WtVect为第t次训练的模型系数向量,且WtVect=(Wtt,1,Wtt,2,...,Wtt,dn,...,Wtt,DN),Wtt,dn为第dn个识别维度上的权重系数在第t次训练中的取值,T为转置符号,SpResultVec为目标结果向量,且SpResultVec=(SpVal1,SpVal2,...,SpValsn,...,SpValSN)T,SpValsn为第sn个样本的识别结果,Errort为对所述识别模型进行第t次训练的误差向量,且Errort=(ErrEmt,1,ErrEmt,2,...,ErrEmt,sn,...,ErrEmt,SN)T,ErrEmt,sn为第sn个样本在第t次训练中的误差值;
系数向量更新单元,用于根据下式对所述模型系数向量进行迭代更新:
其中,为预设的迭代步长;
距离计算单元,用于根据下式计算第t次训练的模型系数向量距离:
其中,Dist为第t次训练的模型系数向量距离;
迭代训练单元,用于若第t次训练的模型系数向量距离大于预设的距离阈值,则对所述识别模型进行第t+1次训练;
结束训练单元,用于若第t次训练的模型系数向量距离小于或等于所述距离阈值,则结束对所述识别模型的训练。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的风险用户识别方法的步骤。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至4中任一项所述的风险用户识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910264886.3A CN110135681B (zh) | 2019-04-03 | 2019-04-03 | 风险用户识别方法、装置、可读存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910264886.3A CN110135681B (zh) | 2019-04-03 | 2019-04-03 | 风险用户识别方法、装置、可读存储介质及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135681A CN110135681A (zh) | 2019-08-16 |
CN110135681B true CN110135681B (zh) | 2023-08-22 |
Family
ID=67569225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910264886.3A Active CN110135681B (zh) | 2019-04-03 | 2019-04-03 | 风险用户识别方法、装置、可读存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135681B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400677A (zh) * | 2020-03-06 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 一种用户检测方法及装置 |
CN111400678A (zh) * | 2020-03-06 | 2020-07-10 | 北京奇艺世纪科技有限公司 | 一种用户检测方法及装置 |
CN111368131B (zh) * | 2020-03-06 | 2023-08-18 | 咪咕音乐有限公司 | 用户关系识别方法、装置、电子设备及存储介质 |
CN111459780B (zh) * | 2020-04-01 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 用户识别方法、装置、可读介质及电子设备 |
CN111476510B (zh) * | 2020-06-23 | 2020-10-16 | 武汉斗鱼鱼乐网络科技有限公司 | 一种风险用户识别的方法及系统、存储介质、设备 |
CN113723522B (zh) * | 2021-08-31 | 2023-06-16 | 平安科技(深圳)有限公司 | 异常用户的识别方法、装置、电子设备以及存储介质 |
CN116578877B (zh) * | 2023-07-14 | 2023-12-26 | 之江实验室 | 一种模型训练及二次优化打标的风险识别的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
WO2017107794A1 (zh) * | 2015-12-22 | 2017-06-29 | 阿里巴巴集团控股有限公司 | 风险识别方法及装置 |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108520343A (zh) * | 2018-03-26 | 2018-09-11 | 平安科技(深圳)有限公司 | 风险模型训练方法、风险识别方法、装置、设备及介质 |
CN109544166A (zh) * | 2018-11-05 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种风险识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8132259B2 (en) * | 2007-01-04 | 2012-03-06 | International Business Machines Corporation | System and method for security planning with soft security constraints |
-
2019
- 2019-04-03 CN CN201910264886.3A patent/CN110135681B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577987A (zh) * | 2012-07-20 | 2014-02-12 | 阿里巴巴集团控股有限公司 | 一种风险用户的识别方法和装置 |
WO2017107794A1 (zh) * | 2015-12-22 | 2017-06-29 | 阿里巴巴集团控股有限公司 | 风险识别方法及装置 |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108520343A (zh) * | 2018-03-26 | 2018-09-11 | 平安科技(深圳)有限公司 | 风险模型训练方法、风险识别方法、装置、设备及介质 |
CN109544166A (zh) * | 2018-11-05 | 2019-03-29 | 阿里巴巴集团控股有限公司 | 一种风险识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110135681A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135681B (zh) | 风险用户识别方法、装置、可读存储介质及终端设备 | |
US10713597B2 (en) | Systems and methods for preparing data for use by machine learning algorithms | |
WO2021204269A1 (zh) | 分类模型的训练、对象分类 | |
CN107944559B (zh) | 一种实体关系自动识别方法及系统 | |
WO2021056710A1 (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
KR102250728B1 (ko) | 샘플 처리 방법, 장치, 기기 및 저장 매체 | |
CN109388634B (zh) | 地址信息的处理方法、终端设备及计算机可读存储介质 | |
CN111125658B (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN109918498B (zh) | 一种问题入库方法和装置 | |
US20200364216A1 (en) | Method, apparatus and storage medium for updating model parameter | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN113963205A (zh) | 基于特征融合的分类模型训练方法、装置、设备及介质 | |
CN113065525A (zh) | 年龄识别模型训练方法、人脸年龄识别方法及相关装置 | |
US11409958B2 (en) | Polar word embedding | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN113705589A (zh) | 数据处理方法、装置及设备 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN114090401B (zh) | 处理用户行为序列的方法及装置 | |
CN116432608A (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN116720009A (zh) | 一种社交机器人检测方法、装置、设备及存储介质 | |
CN116030502A (zh) | 一种基于无监督学习的行人重识别方法和装置 | |
CN114238611B (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN114970732A (zh) | 分类模型的后验校准方法、装置、计算机设备及介质 | |
CN110362831B (zh) | 目标用户识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |