CN108961019A - 一种用户账户的检测方法和装置 - Google Patents

一种用户账户的检测方法和装置 Download PDF

Info

Publication number
CN108961019A
CN108961019A CN201710347925.7A CN201710347925A CN108961019A CN 108961019 A CN108961019 A CN 108961019A CN 201710347925 A CN201710347925 A CN 201710347925A CN 108961019 A CN108961019 A CN 108961019A
Authority
CN
China
Prior art keywords
label
sample
account
training
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710347925.7A
Other languages
English (en)
Other versions
CN108961019B (zh
Inventor
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710347925.7A priority Critical patent/CN108961019B/zh
Publication of CN108961019A publication Critical patent/CN108961019A/zh
Application granted granted Critical
Publication of CN108961019B publication Critical patent/CN108961019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开一种用户账户的检测方法和装置,用于有效检测核实产业人员。在该识别方法中,从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,第一样本账户是用于训练学习模型的用户样本数据,第二样本账户包括:与第一样本账户存在关联关系的多个用户样本数据;在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,第二特征空间包括:第一标签和第二标签,第一标签包括:第一样本账户的至少一个标签,第二标签是第二样本账户的标签统计值;使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型;使用训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。

Description

一种用户账户的检测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户账户的检测方法和装置。
背景技术
随着互联网技术的发展,人们之间的沟通交流带来了极大的便利,但与此同时,也给一些恶意用户从事非法活动提供了便利条件。目前将恶意用户从事破坏活动的集合称为黑色产业,简称黑产,而从事黑色产业的人员则称为黑色产业人员。黑色产业包括故意制作与传播计算机病毒、倒卖公民个人信息、架设钓鱼网站、电话诈骗以及短信诈骗等。
黑色产业是荼毒正常市场的主要危害之一,而互联网上的黑色产业,更是层出不穷,成为扰乱正常业务生态的较大因素。比如洗钱,对于国家正常的金融体系监管是一种极大的威胁;从事身份证、银行卡买卖的人,对于正常的金融生态,也是一种荼毒。因此银行在贷款的时候会避免贷款给从事身份证银行卡买卖的人,也就是一种自然而然的逻辑。
目前考虑到黑色产业人员需要通过互联网来传播黑色产业技术,并拓展自己的业务,因此可以通过查找关键词的方式来检测黑色产业人员。但这种方式检测黑色产业人员的准确率主要依赖于关键词是否准确以及关键词覆盖是否全面,黑色产业人员可以通过改换名称这样简单的方式就可以轻易避开关键词检测。
因此,目前通过查找关键词的方式来检测黑色产业人员的方式并不能够有效地检测出黑色产业人员。
发明内容
本发明实施例提供了一种用户账户的检测方法和装置,用于有效检测核实产业人员。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种用户账户的检测方法,包括:
从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;
在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;
使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;
使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
第二方面,本发明实施例还提供一种用户账户的检测装置,包括:
关联账户获取模块,用于从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;
特征空间扩充模块,用于在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;
模型训练模块,用于使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;
账户检测模块,用于使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
本申请的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,首先从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,第一样本账户是用于训练学习模型的用户样本数据,第二样本账户包括:与第一样本账户存在关联关系的多个用户样本数据。然后在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,第二特征空间包括:第一标签和第二标签,第一标签包括:第一样本账户的至少一个标签,第二标签是第二样本账户的标签统计值。接下来使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型。最后使用训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。由于本发明实施例中用于学习模型训练的第二特征空间具有多个标签,训练输出后的学习模型具有更精确的账户识别能力,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1-a为本发明实施例提供的一种用户账户的检测方法的流程方框示意图;
图1-b为本发明实施例提供的另一种用户账户的检测方法的流程方框示意图;
图1-c为本发明实施例提供的另一种用户账户的检测方法的流程方框示意图;
图2为本发明实施例中用户账户之间的关联关系图的示意图;
图3-a为本发明实施例提供的一种用户账户的检测装置的组成结构示意图;
图3-b为本发明实施例提供的模型训练模块的组成结构示意图;
图3-c为本发明实施例提供的另一种用户账户的检测装置的组成结构示意图;
图4为本发明实施例提供的用户账户的检测方法应用于服务器的组成结构示意图。
具体实施方式
本发明实施例提供了一种用户账户的检测方法和装置,用于有效检测核实产业人员。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
以下分别进行详细说明。
本发明用户账户的检测方法的一个实施例,具体可以应用于对黑色产业人员的有效识别中,可检测出从事黑色产业的黑色产业人员。在其他实施例中,该用户账户的检测方法还可以检测具有其他用户特征的用户账户,比如游戏玩爱好者等。请参阅图1-a所示,本发明一个实施例提供的用户账户的检测方法,可以包括如下步骤:
101、从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,第一样本账户是用于训练学习模型的用户样本数据,第二样本账户包括:与第一样本账户存在关联关系的多个用户样本数据。
在本发明实施例中,样本账户集合中包括有多个用户样本数据,用户样本数据中有些用户样本携带有标签,标签是用户账户的画像,是用户账户一种属性。有些用户样本可以没有标签,在样本账户集合中用户样本之间有些用户具有关联关系,有些没有关联关系。举例说明,请参阅图2所示,为本发明实施例中用户账户之间的关联关系图的示意图。用户账户分别为A、B、C、D,该用户账户A具有的标签为银行卡和洗钱,用户账户B具有的标签为木马和泄漏库,用户账户C具有的标签为身份证和银行卡,用户账户D具有的标签为洗钱。其中图2中的银行卡指的是从事银行卡买卖的黑色产业人员的标签,身份证指的是从事身份证买卖的黑色产业人员的标签,木马指的是从事木马开发、木马买卖、使用木马的黑色产业人员的标签,泄漏库指的是从事泄漏库开发、泄漏库买卖的黑色产业人员的标签。图2中A和B之间具有虚线连接,可以表示A和B之间具有关联关系,同样的,A和C之间具有关联关系,C和D之间具有关联关系。
在本发明实施例中,首先确定第一样本账户是用于训练学习模型的用户样本数据,该第一样本账户可以指的是样本账户集合中的一个样本账户或者一种类型的样本账户,本发明实施例中针对该第一样本账户,通过样本账户集合可以获取到第二样本账户,本发明实施例中的“第二样本账户”定义为与第一样本账户存在关联关系的多个用户样本数据,即第二样本账户可以通过步骤101确定的一个样本账户,也可以是多个样本账户,该第二样本账户的个数由样本账户集合中样本账户之间的关联关系来确定。
需要说明的是,第二样本账户的标签可以与第一样本账户的标签相同,也可以不相同。举例说明如下,如图2所示,第一样本账户为样本账户A,第二样本账户可以是样本账户B和样本账户C,则样本账户C可以与样本账户A具有相同的标签,比如都是银行卡买卖的标签。样本账户B可以与样本账户A具有不相同的标签,比如样本账户B具有木马标签,而样本账户A无此标签。
在本发明的一些实施例中,关联关系包括:一度关系;或,关联关系包括:一度关系和二度关系。其中,一度关系是指发生直接关联的两个用户账户,例如用户账户A和用户账户B之间进行过银行卡交易,用户账户A和用户账户B之间为一度关系,用户账户A和用户账户C之间为一度关系,用户账户A和用户账户D具有二度关系。在步骤101中获取到的第二样本账户可以只包括:与第一样本账户具有一度关系的样本账户,该第二样本账户也可以包括:与第一样本账户具有一度关系的样本账户、以及与第一样本账户具有二度关系的样本账户,具体实现场景取决于数据处理能力。
在本发明的一些实施例中,步骤101从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,包括:
A1、使用聚合函数计算在样本账户集合中满足关联关系的第二样本账户。
其中,聚合函数是指对一组值执行计算并返回单一的值,聚合函数忽略空值,所有聚合函数都具有确定性。通过聚合函数可以从样本账户集合中获取到第二样本账户,通过聚合函数算出一个统计信息,这样能够保证每个样本空间的大小是一致的。举例说明,在特征工程中,可以利用聚合函数算出每个样本账户一度关系以内的各个标签统计值。在实际应用中,聚合函数的选择可以为count和count/一度关系总数。
其中,count作用为简单统计集合中符合某种条件的样本账户数量。使用方式:db.collection.count(<query>)或者db.collection.find(<query>).count()。其中<query>是用于查询的目标条件。如果出了想限定查出来的最大文档数,或者想统计后跳过指定条数的文档,则还需要借助于limit,skip。举例:db.collection.find(<query>).limit();db.collection.find(<query>).skip()。
需要说明的是,在本发明实施例中,不仅选择第一样本用户用于学习模型的训练,还可以选择与该第一样本账户存在关联关系的第二样本账户用于学习模型的训练,该第二样本账户具有多个用户样本数据,因此本发明实施例中可以使用多个样本用户共同用于学习模型的训练,从而提高学习模型的训练效果,更能够准确的识别待检测的用户账户。另外本发明实施例中采用的学习模型可以有多种,例如,逻辑回归(英文全称:LogistRegression,英文简称:LR)模型,也可以是随机森林回归(英文全称:Random FrorestRegressor,英文简称:RFReg)模型,随机梯度下降(英文全称:Stochastic GradientDescent Regressor,英文简称:SGD Reg),支持向量回归(英文全称:Support VectorRegression,英文简称:SVR)模型等,具体实现方式不做限定。
102、在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,第二特征空间包括:第一标签和第二标签,第一标签包括:第一样本账户的至少一个标签,第二标签是第二样本账户的标签统计值。
在本发明实施例中,通过步骤101的方式确定出第二样本账户之后,可以将该第二样本账户的第二标签加入到第一样本账户的第一标签的特征空间中,将第一标签对应的特征空间定义为“第一特征空间”,将加入第二标签的统计值后的第一特征空间定义为“第二特征空间”,则第二特征空间包括:第一标签和第二标签,从而第二特征空间中不仅具有第一样本账户原有的标签(即第一标签),并且还加入有与第一样本账户有关联关系的第二样本账户的第二标签,从而第二特征空间具有多个标签。
在本发明的一些实施例中,请参阅图1-b所示,步骤102在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间之前,本发明一个实施例提供的用户账户的检测方法,还可以包括如下步骤:
B1、获取第二样本账户中每个用户样本数据对应的标签统计值;
B2、从第二样本账户中每个用户样本数据对应的标签统计值中筛选出与第一标签之间满足预置的关联条件的标签作为第二标签。
其中,在将第二标签加入到第一特征空间之前,还可以进行多标签集合的选择,可以通过预处理的步骤或者先验经验,第二样本账户中每个用户样本数据对应的标签统计值中筛选出与第一标签之间满足关联条件的标签,例如判断出哪些标签之间的关联度比较高从而筛选出作为第二标签,这样可以有效压缩特征空间,从而减小计算量。
103、使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型。
在本发明实施例中,通过前述步骤103得到第二特征空间之后,该第二特征空间可用于对学习模型进行迭代训练,并输出训练完成后的学习模型。第二特征空间包括:第一标签和第二标签,从而第二特征空间中不仅具有第一样本账户原有的标签(即第一标签),并且还加入有与第一样本账户有关联关系的第二样本账户的第二标签,从而第二特征空间具有多个标签,本发明实施例中考虑到了多标签之间的关联性,从而通过多个标签对学习模型的训练,从而提高学习模型的训练效果。
在本发明实施例中,训练出来的学习模型可以用于检测用户是否是银行卡交易用户。标签之间的检测并非独立,举例来讲,洗钱用户同时是银行卡交易的可能性很高,因此在检测之初统一考虑是很有必要的,通过多标签学习(multi-label learning)的方式可以实现基于多标签的机器学习。另外样本用户与其它样本用户之间也并非独立,举例来讲,一个做银行卡交易的人一度关系的用户做银行卡交易的概率会远远高于随机选择的样本用户,本发明实施例中可以通过集体分类(collective classification)的方式实现基于多标签的机器学习。另外样本用户之间不同标签之间也并非独立,举例来讲,由于洗钱和银行卡交易之间的上下游关系,因此一个洗钱用户的一度关系用户是银行卡交易的概率也比随机来的大。本发明实例中可以把第二样本用户的第二标签的得分加入到特定的第一标签的特征空间中,然后通过迭代,得出最后的稳定分数,这种办法不需要特别多的样本用户个数,同时也考虑到了标签之间的关联性。
在本发明的一些实施例中,请参阅图1-c所示,步骤103使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型,包括:
C1、从第二特征空间中获取目标标签,目标标签包括:第一标签或第二标签;
C2、使用迭代分类算法(Iterative Classification Algorithm,ICA)对学习模型中的目标标签进行迭代训练,当学习模型中的目标标签对应的统计值达到稳定状态时,输出训练完成后的学习模型。
具体的,在处理样本用户之间关联性的时候,可以将样本数据之间的关联性处理成独立的特征,追加到单个样本的训练当中,考虑到每个样本用户在一个大图的局部信息异构,因此简单的办法是只处理一度或者二度以内的信息,然后通过聚合函数算出一个统计信息,这样能够保证每个样本空间的大小是一致的。
前述内容对特征工程部分进行了说明,接下来对本发明实施例中采用的训练算法进行举例说明,本发明实施例中可以采用迭代的思路进行ICA算法,首先运用已知节点的标签信息,给每个节点一个初始分值,然后开始迭代,迭代的原因是在图中有很多的节点的标签信息是已知的,还有很多节点的标签是未知的,因此初始分值实际是有偏差的,通过迭代的方式,每一轮的输入是上一轮每个节点标签的一个分数,到整个结构稳定。其中,节点标签的初始分值是利用行为如洗钱额度、窗口时间内的次数、高危商户次数等以及文本信息,利用逻辑回归分类器训练出来一个0-1的概率值,已知节点是利用对大盘扫描的结果,节点是样本账户,标签是样本账户的画像,迭代的节点也是样本账户,关联关系是图的一度关系。
在本发明的一些实施例中,前述步骤C2中学习模型中的目标标签对应的统计值达到稳定状态,包括:迭代训练的迭代次数大于或等于预置的次数阈值,或者前后两次迭代训练后的统计值之间的差值总和小于预置的差值门限。举例说明,对于结构稳定问题,迭代可以终止于一个特定的迭代次数,例如10次,或者前后两次迭代分值的差总和小于一个差值门限,具体可以根据应用场景配置次数阈值和差值门限。
104、使用训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
在本发明实施例中,待检测的用户账户是指需要检测其是否具有某一特定标签。用户账号是指能够唯一标识出用户身份的字符串,可以包括数字、字母或者指定符号中的至少一种,本发明实施例中用户账户的名称即使由用户自由更改,但是通过前述训练完成的学习模型仍能够准确识别出该用户账户的标签,输出的检测结果可以包括:待检测的用户账户是否具有目标标签。举例说明,该目标标签为银行卡交易,则通过本发明实施例提供的学习模型,可以输出该用户账户是否为银行卡交易的账户,从而确定用户账户是否为黑色产业人员使用。
通过以上实施例对本发明实施例的描述可知,首先从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,第一样本账户是用于训练学习模型的用户样本数据,第二样本账户包括:与第一样本账户存在关联关系的多个用户样本数据。然后在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,第二特征空间包括:第一标签和第二标签,第一标签包括:第一样本账户的至少一个标签,第二标签是第二样本账户的标签统计值。接下来使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型。最后使用训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。由于本发明实施例中用于学习模型训练的第二特征空间具有多个标签,训练输出后的学习模型具有更精确的账户识别能力,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
为便于更好的理解和实施本发明实施例的上述方案,下面举例相应的应用场景来进行具体说明。
在特征工程中,本发明实施例可以利用聚合函数算出每个样本用户一度关系以内的各个标签统计值,同时将得到的其他标签的得分也纳入每个样本用户每个标签的特征空间,假设只挖银行卡交易和洗钱,根据如下表1的信息,本次训练目标为银行卡交易,则特征如下:
根据上述所得特征,利用简单的分类器例如支持向量机(Support VectorMachine,SVM)、逻辑回归计算,然后进行迭代算法。其中,SVM是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。SVM针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
本发明实施例中采用的迭代算法中,关于迭代次数的影响,实际上跟整个研究对象中有标签和没标签的比值有关,如果标签数据比重较高,实际迭代的次数基本在5次以内就能够稳定。关于多标签集合的选择,实际上这里有一个预处理的步骤或者先验经验,需要判断哪些标签之间的关联度比较高,这样可以有效压缩特征空间,减小计算量。
本发明实施例中通过对学习模型进行多标签的迭代训练,该学习模型能有效挖掘黑产尤其是线上洗钱团伙的信息,尤其很多时候人工标注的数据比较少的时候,能够有效发掘团伙中更多的作恶势力。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3-a所示,本发明实施例提供的一种用户账户的检测装置300,可以包括:关联账户获取模块301、特征空间扩充模块302、模型训练模块303、账户检测模块304,其中,
关联账户获取模块301,用于从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;
特征空间扩充模块302,用于在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;
模型训练模块303,用于使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;
账户检测模块304,用于使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
在本发明的一些实施例中,所述关联账户获取模块301,具体用于使用聚合函数计算在所述样本账户集合中满足所述关联关系的第二样本账户。
在本发明的一些实施例中,所述关联关系包括:一度关系;或,
所述关联关系包括:一度关系和二度关系。
在本发明的一些实施例中,请参阅图3-b所示,所述模型训练模块303,包括:
目标标签确定模块3031,用于从所述第二特征空间中获取目标标签,所述目标标签包括:所述第一标签或所述第二标签;
迭代计算模块3032,用于使用迭代分类算法ICA对所述学习模型中的目标标签进行迭代训练,当所述学习模型中的目标标签对应的统计值达到稳定状态时,输出训练完成后的学习模型。
在本发明的一些实施例中,所述学习模型中的目标标签对应的统计值达到稳定状态,包括:迭代训练的迭代次数大于或等于预置的次数阈值,或者前后两次迭代训练后的统计值之间的差值总和小于预置的差值门限。
在本发明的一些实施例中,请参阅图3-c所示,相对于图3-a所示,所述用户账户的检测装置300还包括:
标签预处理模块305,用于所述特征空间扩充模块302在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间之前,获取所述第二样本账户中每个用户样本数据对应的标签统计值;从所述第二样本账户中每个用户样本数据对应的标签统计值中筛选出与所述第一标签之间满足预置的关联条件的标签作为所述第二标签。
通过以上实施例对本发明实施例的描述可知,首先从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,第一样本账户是用于训练学习模型的用户样本数据,第二样本账户包括:与第一样本账户存在关联关系的多个用户样本数据。然后在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,第二特征空间包括:第一标签和第二标签,第一标签包括:第一样本账户的至少一个标签,第二标签是第二样本账户的标签统计值。接下来使用第二特征空间对学习模型进行迭代训练,并输出训练完成后的学习模型。最后使用训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。由于本发明实施例中用于学习模型训练的第二特征空间具有多个标签,训练输出后的学习模型具有更精确的账户识别能力,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
图4是本发明实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的用户账户的检测方法步骤可以基于该图4所示的服务器结构。具体的,本发明实施例提供的CPU1122,用于执行如下步骤:从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
在本发明的一些实施例中,CPU1122,具体用于执行如下步骤:使用聚合函数计算在所述样本账户集合中满足所述关联关系的第二样本账户。
在本发明的一些实施例中,存储介质1130存储的所述关联关系包括:一度关系;或,所述关联关系包括:一度关系和二度关系。
在本发明的一些实施例中,CPU1122,具体用于执行如下步骤:从所述第二特征空间中获取目标标签,所述目标标签包括:所述第一标签或所述第二标签;
使用迭代分类算法ICA对所述学习模型中的目标标签进行迭代训练,当所述学习模型中的目标标签对应的统计值达到稳定状态时,输出训练完成后的学习模型。
在本发明的一些实施例中,存储介质1130存储的学习模型中的目标标签对应的统计值达到稳定状态,包括:迭代训练的迭代次数大于或等于预置的次数阈值,或者前后两次迭代训练后的统计值之间的差值总和小于预置的差值门限。
在本发明的一些实施例中,CPU1122,还用于执行如下步骤:在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间之前,获取所述第二样本账户中每个用户样本数据对应的标签统计值;从所述第二样本账户中每个用户样本数据对应的标签统计值中筛选出与所述第一标签之间满足预置的关联条件的标签作为所述第二标签。
需要说的是,CPU1122所执行的步骤以及存储介质1130中所存储的数据以及程序,都可以参阅前述实施例中对方法步骤的举例说明,此处不再赘述。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种用户账户的检测方法,其特征在于,包括:
从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;
在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;
使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;
使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
2.根据权利要求1所述的方法,其特征在于,所述从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,包括:
使用聚合函数计算在所述样本账户集合中满足所述关联关系的第二样本账户。
3.根据权利要求1或2所述的方法,其特征在于,所述关联关系包括:一度关系;或,
所述关联关系包括:一度关系和二度关系。
4.根据权利要求1所述的方法,其特征在于,所述使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型,包括:
从所述第二特征空间中获取目标标签,所述目标标签包括:所述第一标签或所述第二标签;
使用迭代分类算法ICA对所述学习模型中的目标标签进行迭代训练,当所述学习模型中的目标标签对应的统计值达到稳定状态时,输出训练完成后的学习模型。
5.根据权利要求4所述的方法,其特征在于,所述学习模型中的目标标签对应的统计值达到稳定状态,包括:迭代训练的迭代次数大于或等于预置的次数阈值,或者前后两次迭代训练后的统计值之间的差值总和小于预置的差值门限。
6.根据权利要求1所述的方法,其特征在于,所述在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间之前,所述方法还包括:
获取所述第二样本账户中每个用户样本数据对应的标签统计值;
从所述第二样本账户中每个用户样本数据对应的标签统计值中筛选出与所述第一标签之间满足预置的关联条件的标签作为所述第二标签。
7.一种用户账户的检测装置,其特征在于,包括:
关联账户获取模块,用于从样本账户集合中获取与第一样本账户存在关联关系的第二样本账户,所述第一样本账户是用于训练学习模型的用户样本数据,所述第二样本账户包括:与所述第一样本账户存在关联关系的多个用户样本数据;
特征空间扩充模块,用于在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间,所述第二特征空间包括:所述第一标签和所述第二标签,所述第一标签包括:所述第一样本账户的至少一个标签,所述第二标签是所述第二样本账户的标签统计值;
模型训练模块,用于使用所述第二特征空间对所述学习模型进行迭代训练,并输出训练完成后的学习模型;
账户检测模块,用于使用所述训练完成后的学习模型对待检测的用户账户进行检测识别,并输出检测结果。
8.根据权利要求7所述的装置,其特征在于,所述关联账户获取模块,具体用于使用聚合函数计算在所述样本账户集合中满足所述关联关系的第二样本账户。
9.根据权利要求7或8所述的装置,其特征在于,所述关联关系包括:一度关系;或,
所述关联关系包括:一度关系和二度关系。
10.根据权利要求7所述的装置,其特征在于,所述模型训练模块,包括:
目标标签确定模块,用于从所述第二特征空间中获取目标标签,所述目标标签包括:所述第一标签或所述第二标签;
迭代计算模块,用于使用迭代分类算法ICA对所述学习模型中的目标标签进行迭代训练,当所述学习模型中的目标标签对应的统计值达到稳定状态时,输出训练完成后的学习模型。
11.根据权利要求10所述的装置,其特征在于,所述学习模型中的目标标签对应的统计值达到稳定状态,包括:迭代训练的迭代次数大于或等于预置的次数阈值,或者前后两次迭代训练后的统计值之间的差值总和小于预置的差值门限。
12.根据权利要求7所述的装置,其特征在于,所述用户账户的检测装置还包括:
标签预处理模块,用于所述特征空间扩充模块在第一标签对应的第一特征空间中加入第二标签的统计值得到第二特征空间之前,获取所述第二样本账户中每个用户样本数据对应的标签统计值;从所述第二样本账户中每个用户样本数据对应的标签统计值中筛选出与所述第一标签之间满足预置的关联条件的标签作为所述第二标签。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的方法。
CN201710347925.7A 2017-05-17 2017-05-17 一种用户账户的检测方法和装置 Active CN108961019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710347925.7A CN108961019B (zh) 2017-05-17 2017-05-17 一种用户账户的检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710347925.7A CN108961019B (zh) 2017-05-17 2017-05-17 一种用户账户的检测方法和装置

Publications (2)

Publication Number Publication Date
CN108961019A true CN108961019A (zh) 2018-12-07
CN108961019B CN108961019B (zh) 2022-12-16

Family

ID=64461427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710347925.7A Active CN108961019B (zh) 2017-05-17 2017-05-17 一种用户账户的检测方法和装置

Country Status (1)

Country Link
CN (1) CN108961019B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767327A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于反洗钱的客户信息采集及其使用方法
CN110458394A (zh) * 2019-07-05 2019-11-15 阿里巴巴集团控股有限公司 一种基于对象关联度的指标测算方法及装置
CN112463577A (zh) * 2019-09-09 2021-03-09 北京达佳互联信息技术有限公司 一种用于样本数据的处理方法、装置及电子设备
CN112862493A (zh) * 2021-01-27 2021-05-28 中山大学 一种智能庞氏骗局检测方法、装置、终端及存储介质
CN113538020A (zh) * 2021-07-05 2021-10-22 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
WO2015085360A1 (en) * 2013-12-11 2015-06-18 Osborne Brendan Robert Golf accessory and system including same
CN105378744A (zh) * 2013-05-03 2016-03-02 思杰系统有限公司 在企业系统中的用户和设备认证
CN105653561A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 数据的处理方法及装置
CN106251137A (zh) * 2015-06-05 2016-12-21 苹果公司 用于忠诚度账户和自有品牌账户的用户界面

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其系统
CN105378744A (zh) * 2013-05-03 2016-03-02 思杰系统有限公司 在企业系统中的用户和设备认证
CN104657369A (zh) * 2013-11-19 2015-05-27 深圳市腾讯计算机系统有限公司 用户属性信息的生成方法及系统
WO2015085360A1 (en) * 2013-12-11 2015-06-18 Osborne Brendan Robert Golf accessory and system including same
CN103729785A (zh) * 2014-01-26 2014-04-16 合一信息技术(北京)有限公司 一种视频用户性别分类方法及其装置
CN105653561A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 数据的处理方法及装置
CN106251137A (zh) * 2015-06-05 2016-12-21 苹果公司 用于忠诚度账户和自有品牌账户的用户界面

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄宇: "基于隐性语义挖掘的社区划分算法", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767327A (zh) * 2018-12-20 2019-05-17 平安科技(深圳)有限公司 基于反洗钱的客户信息采集及其使用方法
CN110458394A (zh) * 2019-07-05 2019-11-15 阿里巴巴集团控股有限公司 一种基于对象关联度的指标测算方法及装置
CN110458394B (zh) * 2019-07-05 2023-08-22 创新先进技术有限公司 一种基于对象关联度的指标测算方法及装置
CN112463577A (zh) * 2019-09-09 2021-03-09 北京达佳互联信息技术有限公司 一种用于样本数据的处理方法、装置及电子设备
CN112862493A (zh) * 2021-01-27 2021-05-28 中山大学 一种智能庞氏骗局检测方法、装置、终端及存储介质
CN113538020A (zh) * 2021-07-05 2021-10-22 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置
CN113538020B (zh) * 2021-07-05 2024-03-26 深圳索信达数据技术有限公司 获取客群特征关联度方法、装置、存储介质和电子装置

Also Published As

Publication number Publication date
CN108961019B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
Shi et al. H2-fdetector: A gnn-based fraud detector with homophilic and heterophilic connections
CN108961019A (zh) 一种用户账户的检测方法和装置
Pacheco et al. Uncovering coordinated networks on social media
US20210021616A1 (en) Method and system for classifying data objects based on their network footprint
WO2018103456A1 (zh) 一种基于特征匹配网络的社团划分方法、装置及电子设备
Ceschin et al. The need for speed: An analysis of brazilian malware classifiers
CN109672674A (zh) 一种网络威胁情报可信度识别方法
Shen et al. Identity inference on blockchain using graph neural network
CN113723440B (zh) 一种云平台上加密tls应用流量分类方法及系统
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN112115326B (zh) 一种以太坊智能合约的多标签分类和漏洞检测方法
WO2022183041A1 (en) Method and system for securely deploying an artificial intelligence model
CN112699375A (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
CN108667678A (zh) 一种基于大数据的运维日志安全检测方法及装置
CN109313541A (zh) 用于显示和比较攻击遥测资源的用户界面
CN110992194A (zh) 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法
Fan et al. Smart contract scams detection with topological data analysis on account interaction
Altman et al. Realistic synthetic financial transactions for anti-money laundering models
Wang et al. Fraud detection on multi-relation graphs via imbalanced and interactive learning
Irofti et al. Fraud detection in networks
Ying et al. PFrauDetector: a parallelized graph mining approach for efficient fraudulent phone call detection
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
Lee et al. Camp2Vec: Embedding cyber campaign with ATT&CK framework for attack group analysis
CN113435900A (zh) 交易风险确定方法、装置和服务器
Ampel et al. Disrupting Ransomware Actors on the Bitcoin Blockchain: A Graph Embedding Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant