CN108470253A - 一种用户识别方法、装置及存储设备 - Google Patents
一种用户识别方法、装置及存储设备 Download PDFInfo
- Publication number
- CN108470253A CN108470253A CN201810283462.7A CN201810283462A CN108470253A CN 108470253 A CN108470253 A CN 108470253A CN 201810283462 A CN201810283462 A CN 201810283462A CN 108470253 A CN108470253 A CN 108470253A
- Authority
- CN
- China
- Prior art keywords
- sample
- service platform
- user
- users
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000006870 function Effects 0.000 claims description 99
- 238000012549 training Methods 0.000 claims description 45
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种用户识别方法、装置及存储设备,其中,用户识别方法包括:根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户,采集每个样本用户的多维特征信息作为样本,构建样本集,对所述样本集进行训练,得到用户识别模型,利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。本发明实施例能够提高模型的泛化能力,较少开发、迭代的成本,提高识别的准确度。
Description
技术领域
本发明实施例涉及互联网技术领域,特别是涉及一种用户识别方法、装置及存储设备。
背景技术
由于不同的业务平台所提供的业务不同,使得不同的业务平台所面对的不良用户(坏用户)形态各异,例如:交易平台的不良用户可能为欺诈用户、广告用户,金融平台的不良用户可能为违约用户,游戏平台的不良用户可能为作弊用户等等。
基于自身业务需求的考虑,不同业务平台会根据各自平台不良用户的特点,构建和使用不同的风控模型,以打击各自平台上的不良用户。现有的风控模型,大都采用单任务学习方法进行建模,如图1所示,即把每个任务看成独立的个体进行单独训练,一般针对不同的打击对象,会有不同的模型。在建模和应用的过程中,经常会遇到以下问题:
样本不充足:一般每个业务平台的坏样率会控制在较低的水平,单独一个平台的不良样本一般较少;
风控模型迭代间隔短,工作量大:不良用户变化发展迅速,形态多样,团队经常需要更新模型应对新型不良用户,成本较高;
异质性样本:模型对于异质性样本的敏感性高,难以推广和应用。
发明内容
本发明实施例提供了一种用户识别方法、装置及存储设备,能够提高模型的泛化能力,较少开发、迭代的成本,提高识别的准确度。
本发明实施例提供的用户识别方法,包括:
根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集每个样本用户的多维特征信息作为样本,构建样本集;
对所述样本集进行训练,得到用户识别模型;
利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
本发明实施例提供的用户识别装置,包括:
确定单元,用于根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集单元,用于采集每个样本用户的多维特征信息作为样本,构建样本集;
训练单元,用于对所述样本集进行训练,得到用户识别模型;
识别单元,用于利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
本发明实施例还提供了一种存储设备,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行本发明施例提供的用户识别方法。
本发明实施例中,会根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户,采集每个样本用户的多维特征信息作为样本,构建样本集,对所述样本集进行训练,得到用户识别模型,利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。即本发明实施例中,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中单任务学习过程示意图。
图2是本发明实施例所提供的用户识别系统的场景示意图。
图3是本发明实施例所提供的用户识别方法的流程示意图。
图4是本发明实施例的多任务学习过程示意图。
图5是本发明实施例所提供的用户识别方法的另一流程示意图。
图6是本发明实施例所提供的用户识别方法的又一流程示意图。
图7是本发明实施例所提供的用户识别装置的结构示意图。
图8是本发明实施例所提供的用户识别装置的另一结构示意图。
图9是本发明实施例所提供的服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图2,图2是本发明实施例的用户识别系统的场景示意图,该用户识别系统中可以包括用户识别装置,该用户识别装置具体可以集成在服务器中。具体在本发明实施例中,服务器可以根据多个业务平台(例如:二手交易平台、电商交易平台、团购平台等等)中每个业务平台的学习任务,确定每个业务平台的样本用户;比如,每个业务平台的学习任务可以是识别对应业务平台的不良用户,则可以将每个业务平台的不良用户作为该业务平台的正样本用户,并从该业务平台选取等量的非不良用户,作为该业务平台的负样本用户。以二手交易平台为例,二手交易平台上的广告用户、欺诈用户、作弊用户为不良用户,则二手交易平台的学习任务可以是识别出二手交易平台上的这些不良用户,则可以将二手交易平台上的这些不良用户,确定为该平台的正样本用户,另外,可以从二手交易平台随机选取等量的非不良用户,作为二手交易平台的负样本用户,以此类推,可以得到每个业务平台的样本用户。
在确定每个业务平台的样本用户之后,服务器可以采集每个业务平台的每个样本用户的多维特征信息作为样本,构建样本集;该多维特征信息可以是样本用户使用的终端(比如,手机、平板电脑、计算机)信息,以及样本用户在对应终端上的行为信息(比如:社交平台使用信息、兴趣信息、交易信息、业务平台的使用信息,注册的基础信息等);服务器对所述样本集进行训练,得到用户识别模型,利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。比如,服务器可以利用该用户识别模型识别不同业务平台上的不良用户。
此外,用户识别系统中还可以包括终端,该终端可以包括平板电脑、手机、笔记本电脑、以及台式电脑等具备存储单元并安装有处理器而具有运算能力的终端,该终端主要用于为服务器提供样本数据,并接收服务器反馈的用户识别结果。
需要说明的是,图2所示的用户识别系统的场景示意图仅仅是一个示例,本发明实施例描述的用户识别系统及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着用户识别系统的演变和新业务平台的出现,本发明实施例的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。
本实施例将从用户识别装置的角度进行描述,该用户识别装置具体可以集成在服务器中。
一种用户识别方法,包括:根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;采集每个样本用户的多维特征信息作为样本,构建样本集;对所述样本集进行训练,得到用户识别模型;利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
请参阅图3,图3是本发明实施例用户识别方法的一个流程示意图,该用户识别方法包括以下步骤:
步骤101、根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户。
本实施例中,所述多个业务平台,可以是有关联的学习任务的多个业务平台,关联的学习任务,可以是相同的学习任务,也可以是不同但相关的多个学习任务(例如识别用户的性别,识别用户的兴趣)。该多个业务平台例如:二手交易平台、电商交易平台、团购平台、共享出行平台,出行购票平台等;这些业务平台上关联的学习任务,例如,识别各自平台上的不良用户,该多个业务平台上的不良用户,虽然形态各异,但性质相近,具有某些相同的特征。
以该多个业务平台包括二手交易平台、电商交易平台、团购平台、共享出行平台,出行购票平台为例,该多个业务平台上的不良用户可如下:
二手交易平台的不良用户可以为:广告用户、欺诈用户、作弊用户(如红包套现用户)、被举报用户等。
电商交易平台的不良用户可以为:盗号用户、刷单用户、欺诈用户、恶意退款用户等。
团购平台的不良用户可以为:作弊用户(如假冒新用户)、刷单用户等。
共享出行平台的不良用户可以为:乱停车用户、不锁车用户、欠费用户等。
出行购票平台的不良用户可以为:恶意下单用户,恶意退款用户等。
具体实现中,可以将识别出每个业务平台的不良用户作为对应业务平台的学习任务,每个业务平台的样本用户可以包括正样本用户和负样本用户,可以将每个业务平台的不良用户作为该业务平台的正样本用户,并从该业务平台随机选取等量的活跃的非不良用户,作为该业务平台的负样本用户。
以电商交易平台为例,电商交易平台上的盗号用户、刷单用户、欺诈用户、恶意退款用户等不良用户,可以为电商交易平台的正样本用户,在确定正样本用户之后,可以从电商交易平台的非不良用户中,选取与正样本用户等量的活跃用户,作为电商交易平台的负样本用户。
步骤102、采集每个样本用户的多维特征信息作为样本,构建样本集。
样本用户的多维特征信息具有一定长度的维度,其每个维度上的数据均对应表征样本用户的一种特征信息,即该多维特征信息由多个特征信息构成。该多个特征信息可以包括样本用户在历史时间段内所使用的终端信息,以及样本用户在历史时间段内在对应终端上的行为信息;历史时间段,例如最近一个月,最近三个月等。
样本用户所使用的终端信息,例如,终端的型号、类型,终端更换频率等。
样本用户在对应终端上的行为信息,包括但不限于如下信息:
社交平台使用信息,例如:登录信息、社交好友数量、聊天信息、评论点赞、表情头像、游戏等。
兴趣信息,例如:公众号阅读信息、朋友圈、社交兴趣群、社交兴趣部落等。
交易信息,例如:消费、转账、收款记录等。
各业务平台使用信息,例如:使用的业务平台的名称,登录次数,登陆天数,页面浏览记录,页面交互记录等。
注册的基础信息,例如:性别、年龄、学历、职业、地区、婚姻状况等。
具体地,可以以样本用户使用的终端为纽带,采集样本用户的多维特征信息。比如:淘宝上的某用户由于被举报而被确定为正样本用户,则可以找到该样本用户登陆淘宝所使用终端,采集该用户在该终端上的各种行为信息,从而得到该样本用户的多维特征信息。
在一个具体实施例中,所采集的某个样本用户的多维特征信息可如表1所示:
维度 | 特征信息 |
1 | 终端的型号 |
2 | 终端的更换频率 |
3 | 社交平台的登陆信息 |
4 | 消费记录 |
5 | 职业 |
6 | 学历 |
…… | …… |
表1
需要说明的是,表1所示的多维特征信息仅为举例,实际中,一个样本所包含的特征信息的维数,可以多于表1所示信息的数量,也可以少于表1所示信息的数量,所取的具体特征信息也可以与表1所示不同,此处不作具体限定。
在采集得到每个样本用户的多维特征信息之后,可以对采集得到的信息进行预处理,该预处理包括但不限于:真实性考查、异常值剔除、缺失值填补、去重等,以得到符合要求的特征信息。
另外,为便于计算,可以将样本用户的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如,针对学历这个特征信息,可以用数值的大小表示学历的高低,学历越高,数值表示越大(反之亦可)。
具体地,所采集的一个样本用户的多维特征信息,可以构成一个样本,所有的样本,构成所述样本集。
比如,用t表示第t个业务平台,i表示第i个样本用户,x表示样本,其中,t∈[1,T],T表示所述多个业务平台的数量,i∈[1,N],N表示每个业务平台中样本用户数量,M表示每个样本中包含的特征信息的维数,则样本集及每个样本构成可如下表2所示,其中,表示第T个业务平台的第N个样本用户的第M维度的特征信息。
表2
从表2可以看出,样本集是由多个业务平台中每个业务平台的样本构成的,在表2中,即表示业务平台1的N个样本,以此类推, 即表示业务平台T的N个样本。
在得到样本集之后,可以对样本集中的每个样本进行标记,生成每个样本的样本标签。具体地,可以根据每个业务平台的学习任务对对应业务平台的样本进行标记。具体在本实施例中,多个业务平台的学习任务相同,都是识别平台上的不良用户,则所生成的业务标签可以包括“不良”和“良”,在前面的例子中,由于将每个业务平台的不良用户作为每个业务平台的正样本用户,则可以将正样本用户的样本,标记为“不良”,将负样本用户的样本标记为“良”,具体地,可以用数值“1”表示“不良”,用数值“0”表示“良”,反之亦可。
在一个具体的实施例中,样本集及样本标签可如下表3所示:
表3
步骤103、对所述样本集进行训练,得到用户识别模型。
本实施例中,即基于多个业务平台的学习任务对样本集进行训练,训练得到的用户识别模型为多任务模型。该多任务训练的过程如图4所示,即利用多个学习任务之间的相关性采用相同的方法同时对样本集进行训练学习,得到各个业务平台通用的用户识别模型,得到的用户识别模型可以识别出多个业务平台中每个业务平台的不良用户。
在一个具体的实施例中,具体的训练方法可如下:
(1)为每个业务平台设置多维特征权重初始值。
由于不同维度的特征信息对识别不同业务平台的用户起到的作用可能不同,因此,可以为每个业务平台在每个特征维度设置特征权重,即为每个业务平台设置多维特征权重。例如,每个样本包含的多维特征信息的维数为M,则需要为每个业务平台分别设置M个维度的特征权重。在一个具体的实施例中,比如,每个样本包括年龄、性别、学历这三个维度的特征信息,则需要为每个业务平台分别设置年龄、性别、学历这三个维度的特征权重。
初始时,可以任意为每个业务平台设置多维特征权重初始值,该特征权重初始值一般在(0,1)之间取值,初始时为每个业务平台设置的多个特征权重初始值可以相同,也可以不同,后续会经过迭代得到每个业务平台设置多维特征权重目标值。
用w表示特征权重,当业务平台的数量为T,每个业务平台的每个样本中包含的多维特征信息的维数为M时,为每个业务平台设置的多维特征权重初始值可如下:
第一个业务平台的多维特征权重初始值:
第二个业务平台的多维特征权重初始值:
……
第T个业务平台的多维特征权重初始值:
(2)根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数。
具体地,可以从样本集中找出每个业务平台的样本(即每个业务平台的训练数据),可以基于第一预设公式对每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本进行处理,得到所述目标函数,所述第一预设公式为:
其中,i∈[1,N],N表示每个业务平台的样本用户的数量,t∈[1,T],T表示所述多个业务平台的数量,M表示每个样本中包含的特征信息的维数,表示第t个业务平台的第M维度的特征权重初始值,表示第t个业务平台的第i个样本用户的第M维度的特征信息,为所述目标函数,表示第t个业务平台的第i个样本用户的样本在训练过程中的识别结果,该识别结果通常为样本用户为正样本(不良用户)的概率。
当业务平台的数量为T时,每个业务平台对应的目标函数可如下:
第一个业务平台对应的目标函数:
第二个业务平台对应的目标函数:
……
第T个业务平台对应的目标函数:
(3)根据所述目标函数及每个样本的样本标签建立损失函数。
具体地,可以基于第二预设公式对所述目标函数及每个样本的样本标签进行处理,得到所述损失函数,所述第二预设公式为:
其中,为所述损失函数,表示第t个业务平台的第i个样本用户的样本的样本标签。
具体地,当业务平台的数量为T时,可以按照第二预设公式建立T个损失函数。
(4)最小化所述损失函数,得到每个业务平台的多维特征权重目标值。
具体地,可以采用梯度下降算法最小化每个损失函数,例如,可以从为每个业务平台设置的多维特征权重初始值开始,采用预设步长进行迭代计算,直至对应业务平台的损失函数最小(例如为0,或者小于预设数值),对应业务平台的损失函数最小时,该损失函数中的多维特征权重值即为对应业务平台的多维特征权重目标值,以此类推,可以得到每个业务平台的多维特征权重目标值。
当业务平台的数量为T时,得到的每个业务平台的多维特征权重目标值可如下:
第一个业务平台的多维特征权重目标值:
第二个业务平台的多维特征权重目标值:
……
第T个业务平台的多维特征权重目标值:
(5)将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
在一个具体的实施例中,所述用户识别模型可以为:其中表示第t个业务平台的第M维度的特征权重目标值。
需要说明的是,以上具体描述的目标函数、损失函数仅为举例说明,实际中,还可以构建其他形式的目标函数或损失函数,此处不做具体限定。
在另一具体的实施例中,具体的训练方法还可如下:
基于机器学习算法对所述样本集进行训练,得到所述用户识别模型。机器学习算法,例如,决策树算法、随机森林算法、梯度提升树(Gradient Boosting Decision Tree,GBDT)、支持向量机(Support Vector Machine,SVM)等。
步骤104、利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
具体地,可以获取需要识别的用户的多维特征信息,将需要识别的用户的多维特征信息输入训练好的用户识别模型,模型输出即为该用户的识别结果,识别结果可以为该用户为不良用户的概率,根据该概率判断该用户是否为不良用户,例如可以判断该概率大于预设的概率阈值,若大于,则可以认为该用户为对应业务平台的不良用户。
识别出对应业务平台的不良用户之后,可以对该不良用户采取对应的控制措施,比如,限制、禁止该不良用户的某些操作等。
本实施例中,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
针对上述实施例描述的方法,下面两个实施例将做进一步的描述,首先,请参阅图5,本实施例的方法包括:
步骤201、根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户。
本实施例以多个业务平台包括二手交易平台、电商交易平台、团购平台、共享出行平台,出行购票平台这五个平台为例,每个业务平台的学习任务均可以是识别平台的不良用户,则可以将每个业务平台的不良用户作为每个业务平台的正样本用户,并从每个业务平台随机选取与正样本用户等量的活跃的非不良用户,作为每个业务平台的负样本用户。
上述五个业务平台上的不良用户可如下:
二手交易平台的不良用户可以为:广告用户、欺诈用户、作弊用户(如红包套现用户)、被举报用户等。
电商交易平台的不良用户可以为:盗号用户、刷单用户、欺诈用户、恶意退款用户等。
团购平台的不良用户可以为:作弊用户(如假冒新用户)、刷单用户等。
共享出行平台的不良用户可以为:乱停车用户、不锁车用户、欠费用户等。
出行购票平台的不良用户可以为:恶意下单用户,恶意退款用户等。
以团购平台为例,团购平台上的作弊用户、刷单用户等不良用户,可以为团购平台的正样本用户,在确定正样本用户之后,可以从团购平台的非不良用户中,选取与正样本用户等量的活跃用户,作为团购平台的负样本用户。
步骤202、采集每个样本用户的多维特征信息作为样本,构建样本集。
该多维特征信息可以包括样本用户在历史时间段内所使用的终端信息,以及样本用户在历史时间段内在对应终端上的行为信息;历史时间段,例如最近一个月,最近三个月等。
样本用户所使用的终端信息,例如,终端的型号、类型,终端更换频率等。
样本用户在对应终端上的行为信息,包括但不限于如下信息:
社交平台使用信息,例如:登录信息、社交好友数量、聊天信息、评论点赞、表情头像、游戏等。
兴趣信息,例如:公众号阅读信息、朋友圈、社交兴趣群、社交兴趣部落等。
交易信息,例如:消费、转账、收款记录等。
各业务平台使用信息,例如:使用的业务平台的名称,登录次数,登陆天数,页面浏览记录,页面交互记录等。
注册的基础信息,例如:性别、年龄、学历、职业、地区、婚姻状况等。
在采集得到每个样本用户的多维特征信息之后,可以对采集得到的信息进行预处理,该预处理包括但不限于:真实性考查、异常值剔除、缺失值填补、去重等,以得到符合要求的特征信息。
另外,为便于计算,可以将样本用户的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如,针对学历这个特征信息,可以用数值的大小表示学历的高低,学历越高,数值表示越大(反之亦可)。
具体地,所采集的一个样本用户的多维特征信息,可以构成一个样本,所有的样本,构成所述样本集。
步骤203、对所述样本集中的每个样本进行标记,生成样本标签。
具体在本实施例中,要识别这五个业务平台的不良用户,所生成的业务标签可以包括“不良”和“良”,在前面的例子中,由于将每个业务平台的不良用户作为每个业务平台的正样本用户,则可以将正样本用户的样本,标记为“不良”,将负样本用户的样本标记为“良”,具体地,可以用数值“1”表示“不良”,用数值“0”表示“良”,反之亦可。
步骤204、为每个业务平台设置多维特征权重初始值
初始时,可以任意为每个业务平台设置多维特征权重初始值,该特征权重初始值一般在(0,1)之间取值,初始时为每个业务平台设置的多个特征权重初始值可以相同,也可以不同,后续会经过迭代得到每个业务平台设置多维特征权重目标值。
具体在本实施例中,业务平台的数量为5,假如每个业务平台的每个样本中包含的多维特征信息的维数为M,则为每个业务平台设置的多维特征权重初始值可如下:
第一个业务平台的多维特征权重初始值:
第二个业务平台的多维特征权重初始值:
……
第5个业务平台的多维特征权重初始值:
步骤205、根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数。
具体地,可以先从样本集中找出每个业务平台的样本(即每个业务平台的训练数据),每个业务平台的样本可如下:
第一个业务平台的样本:
第二个业务平台的样本:
……
第5个业务平台的样本:
在一个具体的实施例中,所建立的目标函数可如下:
第一个业务平台对应的目标函数:
第二个业务平台对应的目标函数:
……
第5个业务平台对应的目标函数:
步骤206、根据所述目标函数及每个样本的样本标签建立损失函数。
在一个具体的实施例中,所建立的损失函数有5个,具体可如下:
……
步骤207、最小化所述损失函数,得到每个业务平台的多维特征权重目标值。
即最小化上述五个损失函数,每个损失函数最小时,该损失函数中的多维特征权重值即为对应业务平台的多维特征权重目标值。
在一个具体的实施例中,得到的每个业务平台的多维特征权重目标值可如下:
第一个业务平台的多维特征权重目标值:
第二个业务平台的多维特征权重目标值:
……
第5个业务平台的多维特征权重目标值:
步骤208、将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
在一个具体的实施例中,所述用户识别模型可以为:其中表示第t个业务平台的第M维度的特征权重目标值。
步骤209、利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
比如,要识别团购平台的某用户是否为不良用户,则可以采集该用户的多维特征信息,将该用户的多维特征信息输入至训练好的用户识别模型,输出结果即为该用户为不良用户的概率,根据该概率判断该用户是否为不良用户,例如可以判断该概率大于预设的概率阈值,若大于,则可以认为该用户为团购平台的不良用户。
例如,团购平台为第2个业务平台,则可以将团购平台上的待识别用户的多维特征信息输入用户识别模型:其中表示该团购平台上的待识别用户,表示该团购平台的多维特征权重目标值,表示该团购平台上的待识别用户的多维特征信息。
本实施例中,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
请参阅图6,本实施例的方法包括:
步骤301、根据多个业务平台中每个业务平台的识别任务,确定每个业务平台的样本用户。
以多个业务平台包括二手交易平台、电商交易平台、团购平台、共享出行平台,出行购票平台这五个平台为例,每个业务平台的学习任务均可以是识别平台的不良用户,则可以将每个业务平台的不良用户作为每个业务平台的正样本用户,并从每个业务平台随机选取与正样本用户等量的活跃的非不良用户,作为每个业务平台的负样本用户。
上述五个业务平台上的不良用户可如下:
二手交易平台的不良用户可以为:广告用户、欺诈用户、作弊用户(如红包套现用户)、被举报用户等。
电商交易平台的不良用户可以为:盗号用户、刷单用户、欺诈用户、恶意退款用户等。
团购平台的不良用户可以为:作弊用户(如假冒新用户)、刷单用户等。
共享出行平台的不良用户可以为:乱停车用户、不锁车用户、欠费用户等。
出行购票平台的不良用户可以为:恶意下单用户,恶意退款用户等。
步骤302、采集每个样本用户的多维特征信息作为样本,构建样本集。
该多维特征信息可以包括样本用户在历史时间段内所使用的终端信息,以及样本用户在历史时间段内在对应终端上的行为信息;历史时间段,例如最近一个月,最近三个月等。
样本用户所使用的终端信息,例如,终端的型号、类型,终端更换频率等。
样本用户在对应终端上的行为信息,包括但不限于如下信息:
社交平台使用信息,例如:登录信息、社交好友数量、聊天信息、评论点赞、表情头像、游戏等。
兴趣信息,例如:公众号阅读信息、朋友圈、社交兴趣群、社交兴趣部落等。
交易信息,例如:消费、转账、收款记录等。
各业务平台使用信息,例如:使用的业务平台的名称,登录次数,登陆天数,页面浏览记录,页面交互记录等。
注册的基础信息,例如:性别、年龄、学历、职业、地区、婚姻状况等。
在采集得到每个样本用户的多维特征信息之后,可以对采集得到的信息进行预处理,该预处理包括但不限于:真实性考查、异常值剔除、缺失值填补、去重等,以得到符合要求的特征信息。
另外,为便于计算,可以将样本用户的多维特征信息中,未用数值直接表示的特征信息用具体的数值量化出来,例如,针对学历这个特征信息,可以用数值的大小表示学历的高低,学历越高,数值表示越大(反之亦可)。
具体地,所采集的一个样本用户的多维特征信息,可以构成一个样本,所有的样本,构成所述样本集。
步骤303、对所述样本集中的每个样本进行标记,生成样本标签。
具体在本实施例中,要识别这五个业务平台的不良用户,所生成的业务标签可以包括“不良”和“良”,在前面的例子中,由于将每个业务平台的不良用户作为每个业务平台的正样本用户,则可以将正样本用户的样本,标记为“不良”,将负样本用户的样本标记为“良”,具体地,可以用数值“1”表示“不良”,用数值“0”表示“良”,反之亦可。
步骤304、基于机器学习算法对所述样本集进行训练,得到所述用户识别模型。
机器学习算法,例如,决策树算法、随机森林算法、梯度提升树(GradientBoosting Decision Tree,GBDT)、支持向量机(Support Vector Machine,SVM)等。
以采用决策树算法为例,可以根据构成样本的所述多维特征信息及样本标签,计算每个特征信息的信息增益,在得到每个特征信息的信息增益之后,可以将信息增益最大的特征信息作为根节点的特征信息,将其余特征信息按照信息增益从大到小的顺序依次作为叶子节点的特征信息,生成所述用户识别模型,生成的所述用户识别模型为决策树模型。
步骤305、利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
以生成的所述用户识别模型为决策树模型为例,可以获取需要识别的用户的多维特征信息,将该用户的多维特征信息输入所述决策树模型,根据所述决策树模型的节点分裂条件进行遍历判断,最终得到该用户的识别结果。
本实施例中,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
下面描述本发明实施例提供的用户识别装置,如图7所示,本实施例的用户识别装置包括:确定单元401、采集单元402、训练单元403,以及识别单元404,如下:
确定单元401,用于根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集单元402,用于采集每个样本用户的多维特征信息作为样本,构建样本集;
训练单元403,用于对所述样本集进行训练,得到用户识别模型;
识别单元404,用于利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
在某些实施方式中,如图8所示,所述装置还包括:
标记单元405,用于对所述样本集中的每个样本进行标记,生成每个样本的样本标签。
在某些实施方式中,如图8所示,所述训练单元403包括:
设置子单元4031,用于为每个业务平台设置多维特征权重初始值;
第一建立子单元4032,用于根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数;
第二建立子单元4033,用于根据所述目标函数及每个样本的样本标签建立损失函数;
最小化子单元4034,用于最小化所述损失函数,得到每个业务平台的多维特征权重目标值;
更新子单元4035,用于将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
在某些实施方式中,所述第一建立子单元4032具体用于:
基于第一预设公式对每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本进行处理,得到所述目标函数,所述第一预设公式为:
其中,i∈[1,N],N表示每个业务平台的样本用户的数量,t∈[1,T],T表示所述多个业务平台的数量,M表示每个样本中包含的特征信息的维数,表示第t个业务平台的第M维度的特征权重初始值,表示第t个业务平台的第i个样本用户的第M维度的特征信息,为所述目标函数,表示第t个业务平台的第i个样本用户的样本在训练过程中的识别结果。
在某些实施方式中,所述第二建立子单元4033具体用于:
基于第二预设公式对所述目标函数及每个样本的样本标签进行处理,得到所述损失函数,所述第二预设公式为:
其中,为所述损失函数,表示第t个业务平台的第i个样本用户的样本的样本标签。
在某些实施方式中,最小化子单元4034具体用于:
采用梯度下降算法最小化所述损失函数,得到每个业务平台的多维特征权重目标值。
在某些实施方式中,所述用户识别模型为:其中表示第t个业务平台的第M维度的特征权重目标值。
在某些实施方式中,所述采集单元402具体用于:
采集每个样本用户所使用的终端信息,以及每个样本用户在对应终端上的行为信息作为对应样本用户的样本,所有样本用户的样本构成所述样本集。
在某些实施方式中,所述训练单元403还用于:
基于机器学习算法对所述样本集进行训练,得到所述用户识别模型,所述机器学习算法包括以下任意一种:决策树算法、随机森林算法、梯度提升树GBDT算法、支持向量机SVM算法。
需要说明的是,上述实施例提供的用户识别装置在实现用户识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户识别装置与用户识别方法属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
本实施例中,由确定单元根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户,采集单元采集每个样本用户的多维特征信息作为样本,构建样本集,训练单元对所述样本集进行训练,得到用户识别模型,最后识别单元利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。即本实施例的装置,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
本发明实施例还提供一种服务器,如图9所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储设备的存储器502、射频(Radio Frequency,RF)电路503、电源504、输入单元505、以及显示单元506等部件。本领域技术人员可以理解,图9中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
RF电路503可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器501处理;另外,将涉及上行的数据发送给基站。通常,RF电路503包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路503还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源504(比如电池),优选的,电源504可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元505,该输入单元505可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元505可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接服务器。可选的,触敏表面可包括触摸检测服务器和触摸控制器两个部分。其中,触摸检测服务器检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测服务器上接收触摸信息,并将它转换成触点坐标,再送给处理器501,并能接收处理器501发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元505还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该服务器还可包括显示单元506,该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元506可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器501以确定触摸事件的类型,随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集每个样本用户的多维特征信息作为样本,构建样本集;
对所述样本集进行训练,得到用户识别模型;
利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
一实施例中,在采集每个样本用户的多维特征信息作为样本,构建样本集之后,处理器501还用于执行以下步骤:
对所述样本集中的每个样本进行标记,生成每个样本的样本标签。
一实施例中,在对所述样本集进行训练,得到用户识别模型时,处理器501具体用于执行以下步骤:
为每个业务平台设置多维特征权重初始值;
根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数;
根据所述目标函数及每个样本的样本标签建立损失函数;
最小化所述损失函数,得到每个业务平台的多维特征权重目标值;
将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
一实施例中,在根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数时,处理器501具体用于执行以下步骤:
基于第一预设公式对每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本进行处理,得到所述目标函数,所述第一预设公式为:
其中,i∈[1,N],N表示每个业务平台的样本用户的数量,t∈[1,T],T表示所述多个业务平台的数量,M表示每个样本中包含的特征信息的维数,表示第t个业务平台的第M维度的特征权重初始值,表示第t个业务平台的第i个样本用户的第M维度的特征信息,为所述目标函数,表示第t个业务平台的第i个样本用户的样本在训练过程中的识别结果。
一实施例中,在根据所述目标函数及每个样本的样本标签建立损失函数时,处理器501具体用于执行以下步骤:
基于第二预设公式对所述目标函数及每个样本的样本标签进行处理,得到所述损失函数,所述第二预设公式为:
其中,为所述损失函数,表示第t个业务平台的第i个样本用户的样本的样本标签。
一实施例中,在最小化所述损失函数,得到每个业务平台的多维特征权重目标值时,处理器501具体用于执行以下步骤:
采用梯度下降算法最小化所述损失函数,得到每个业务平台的多维特征权重目标值。
一实施例中,所述用户识别模型为:其中表示第t个业务平台的第M维度的特征权重目标值。
一实施例中,在采集每个样本用户的多维特征信息作为样本,构建样本集时,处理器501具体用于执行以下步骤:
采集每个样本用户所使用的终端信息,以及每个样本用户在对应终端上的行为信息作为对应样本用户的样本,所有样本用户的样本构成所述样本集。
一实施例中,在对所述样本集进行训练,得到用户识别模型时,处理器501具体用于执行以下步骤:
基于机器学习算法对所述样本集进行训练,得到所述用户识别模型,所述机器学习算法包括以下任意一种:决策树算法、随机森林算法、梯度提升树GBDT算法、支持向量机SVM算法。
本实施例中,会联合多个业务平台确定样本用户,相当于变相增加了样本的数量;基于不同业务平台的学习任务对样本集进行训练,充分利用了多个学习任务之间的关联,训练得到的用户识别模型为各个业务平台通用的、多任务模型,提高了模型的泛化能力和稳健性;利用训练得到的用户识别模型对各个业务平台中的用户进行识别,提高了识别的准确度,同时降低了模型开发、迭代的成本。
本申请实施例还提供一种存储设备,所述存储设备存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一实施例中的项目推荐方法,比如:根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;采集每个样本用户的多维特征信息作为样本,构建样本集;对所述样本集进行训练,得到用户识别模型;利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
在本申请实施例中,存储设备可以是磁碟、光盘、只读存储器(Read Only Memory,ROM,)、或者随机存取记忆体(Random Access Memory,RAM)等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
需要说明的是,对本申请实施例的用户识别方法而言,本领域普通决策人员可以理解实现本申请实施例的用户识别方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储设备中,如存储在电子设备的存储器中,并被该电子设备内的至少一个处理器执行,在执行过程中可包括如用户识别方法的实施例的流程。其中,所述的存储设备可为磁碟、光盘、只读存储器、随机存取记忆体等。
对本申请实施例的用户识别装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储设备中,所述存储设备譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种用户识别方法、装置及存储设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (15)
1.一种用户识别方法,其特征在于,包括:
根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集每个样本用户的多维特征信息作为样本,构建样本集;
对所述样本集进行训练,得到用户识别模型;
利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
2.根据权利要求1所述的用户识别方法,其特征在于,在采集每个样本用户的多维特征信息作为样本,构建样本集之后,还包括:
对所述样本集中的每个样本进行标记,生成每个样本的样本标签。
3.根据权利要求2所述的用户识别方法,其特征在于,对所述样本集进行训练,得到用户识别模型,包括:
为每个业务平台设置多维特征权重初始值;
根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数;
根据所述目标函数及每个样本的样本标签建立损失函数;
最小化所述损失函数,得到每个业务平台的多维特征权重目标值;
将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
4.根据权利要求3所述的用户识别方法,其特征在于,根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数,包括:
基于第一预设公式对每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本进行处理,得到所述目标函数,所述第一预设公式为:
其中,i∈[1,N],N表示每个业务平台的样本用户的数量,t∈[1,T],T表示所述多个业务平台的数量,M表示每个样本中包含的特征信息的维数,表示第t个业务平台的第M维度的特征权重初始值,表示第t个业务平台的第i个样本用户的第M维度的特征信息,为所述目标函数,表示第t个业务平台的第i个样本用户的样本在训练过程中的识别结果。
5.根据权利要求4所述的用户识别方法,其特征在于,所述根据所述目标函数及每个样本的样本标签建立损失函数,包括:
基于第二预设公式对所述目标函数及每个样本的样本标签进行处理,得到所述损失函数,所述第二预设公式为:
其中,为所述损失函数,表示第t个业务平台的第i个样本用户的样本的样本标签。
6.根据权利要求5所述的用户识别方法,其特征在于,所述最小化所述损失函数,得到每个业务平台的多维特征权重目标值,包括:
采用梯度下降算法最小化所述损失函数,得到每个业务平台的多维特征权重目标值。
7.根据权利要求6所述的用户识别方法,其特征在于,所述用户识别模型为:其中表示第t个业务平台的第M维度的特征权重目标值。
8.根据权利要求1至7任意一项所述的用户识别方法,其特征在于,所述采集每个样本用户的多维特征信息作为样本,构建样本集,包括:
采集每个样本用户所使用的终端信息,以及每个样本用户在对应终端上的行为信息作为对应样本用户的样本,所有样本用户的样本构成所述样本集。
9.根据权利要求1所述的用户识别方法,其特征在于,所述对所述样本集进行训练,得到用户识别模型,包括:
基于机器学习算法对所述样本集进行训练,得到所述用户识别模型,所述机器学习算法包括以下任意一种:决策树算法、随机森林算法、梯度提升树GBDT算法、支持向量机SVM算法。
10.一种用户识别装置,其特征在于,包括:
确定单元,用于根据多个业务平台中每个业务平台的学习任务,确定每个业务平台的样本用户;
采集单元,用于采集每个样本用户的多维特征信息作为样本,构建样本集;
训练单元,用于对所述样本集进行训练,得到用户识别模型;
识别单元,用于利用所述用户识别模型对所述多个业务平台中的用户进行识别,并输出识别结果。
11.根据权利要求10所述的用户识别装置,其特征在于,所述装置还包括:
标记单元,用于对所述样本集中的每个样本进行标记,生成每个样本的样本标签。
12.根据权利要求11所述的用户识别装置,其特征在于,所述训练单元包括:
设置子单元,用于为每个业务平台设置多维特征权重初始值;
第一建立子单元,用于根据每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本建立目标函数;
第二建立子单元,用于根据所述目标函数及每个样本的样本标签建立损失函数;
最小化子单元,用于最小化所述损失函数,得到每个业务平台的多维特征权重目标值;
更新子单元,用于将所述目标函数中每个业务平台的多维特征权重初始值,更新为对应业务平台的多维特征权重目标值,得到所述用户识别模型。
13.根据权利要求12所述的用户识别装置,其特征在于,所述第一建立子单元具体用于:
基于第一预设公式对每个业务平台的多维特征权重初始值及所述样本集中对应业务平台的样本进行处理,得到所述目标函数,所述第一预设公式为:
其中,i∈[1,N],N表示每个业务平台的样本用户的数量,t∈[1,T],T表示所述多个业务平台的数量,M表示每个样本中包含的特征信息的维数,表示第t个业务平台的第M维度的特征权重初始值,表示第t个业务平台的第i个样本用户的第M维度的特征信息,为所述目标函数,表示第t个业务平台的第i个样本用户的样本在训练过程中的识别结果。
14.根据权利要求13所述的用户识别装置,其特征在于,所述第二建立子单元具体用于:
基于第二预设公式对所述目标函数及每个样本的样本标签进行处理,得到所述损失函数,所述第二预设公式为:
其中,为所述损失函数,表示第t个业务平台的第i个样本用户的样本的样本标签。
15.一种存储设备,其特征在于,所述存储设备用于储存多条指令,所述指令适于由处理器加载并执行如权利要求1至9任一项所述的用户识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810283462.7A CN108470253B (zh) | 2018-04-02 | 2018-04-02 | 一种用户识别方法、装置及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810283462.7A CN108470253B (zh) | 2018-04-02 | 2018-04-02 | 一种用户识别方法、装置及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108470253A true CN108470253A (zh) | 2018-08-31 |
CN108470253B CN108470253B (zh) | 2021-08-03 |
Family
ID=63262421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810283462.7A Active CN108470253B (zh) | 2018-04-02 | 2018-04-02 | 一种用户识别方法、装置及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108470253B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165691A (zh) * | 2018-09-05 | 2019-01-08 | 北京奇艺世纪科技有限公司 | 用于识别作弊用户的模型的训练方法、装置及电子设备 |
CN109255391A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种识别恶意用户的方法、装置及存储介质 |
CN109561069A (zh) * | 2018-10-25 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种识别模型的生成方法及装置、一种识别方法及装置 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN110111131A (zh) * | 2019-04-08 | 2019-08-09 | 浙江口碑网络技术有限公司 | 虚假客资信息的确定方法及装置 |
CN110633423A (zh) * | 2019-09-20 | 2019-12-31 | 北京字节跳动网络技术有限公司 | 目标账号识别方法、装置、设备及存储介质 |
CN111104628A (zh) * | 2018-10-29 | 2020-05-05 | 北京奇虎科技有限公司 | 一种用户识别方法、装置、电子设备和存储介质 |
CN111105259A (zh) * | 2018-10-29 | 2020-05-05 | 北京奇虎科技有限公司 | 一种用户识别方法、装置、电子设备和存储介质 |
CN112580085A (zh) * | 2021-02-22 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法及装置 |
CN113055208A (zh) * | 2019-12-27 | 2021-06-29 | 中移信息技术有限公司 | 基于迁移学习的信息识别模型的识别方法、装置、设备 |
CN113396414A (zh) * | 2019-06-24 | 2021-09-14 | 深圳市欢太科技有限公司 | 刷量用户识别方法及相关产品 |
CN114004356A (zh) * | 2021-11-05 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 反洗钱模型训练方法、反洗钱方法以及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955714A (zh) * | 2014-04-09 | 2014-07-30 | 中国科学院信息工程研究所 | 基于水军检测模型构建方法和系统及水军检测方法 |
CN106022834A (zh) * | 2016-05-24 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 广告反作弊方法及装置 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
-
2018
- 2018-04-02 CN CN201810283462.7A patent/CN108470253B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955714A (zh) * | 2014-04-09 | 2014-07-30 | 中国科学院信息工程研究所 | 基于水军检测模型构建方法和系统及水军检测方法 |
US9659248B1 (en) * | 2016-01-19 | 2017-05-23 | International Business Machines Corporation | Machine learning and training a computer-implemented neural network to retrieve semantically equivalent questions using hybrid in-memory representations |
CN106022834A (zh) * | 2016-05-24 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 广告反作弊方法及装置 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165691A (zh) * | 2018-09-05 | 2019-01-08 | 北京奇艺世纪科技有限公司 | 用于识别作弊用户的模型的训练方法、装置及电子设备 |
CN109165691B (zh) * | 2018-09-05 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 用于识别作弊用户的模型的训练方法、装置及电子设备 |
CN109255391A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种识别恶意用户的方法、装置及存储介质 |
CN109255391B (zh) * | 2018-09-30 | 2021-07-23 | 武汉斗鱼网络科技有限公司 | 一种识别恶意用户的方法、装置及存储介质 |
CN109561069A (zh) * | 2018-10-25 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种识别模型的生成方法及装置、一种识别方法及装置 |
CN111105259B (zh) * | 2018-10-29 | 2024-04-02 | 北京奇虎科技有限公司 | 一种用户识别方法、装置、电子设备和存储介质 |
CN111104628A (zh) * | 2018-10-29 | 2020-05-05 | 北京奇虎科技有限公司 | 一种用户识别方法、装置、电子设备和存储介质 |
CN111105259A (zh) * | 2018-10-29 | 2020-05-05 | 北京奇虎科技有限公司 | 一种用户识别方法、装置、电子设备和存储介质 |
CN110009364A (zh) * | 2019-01-08 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种行业识别模型确定方法和装置 |
CN110111131A (zh) * | 2019-04-08 | 2019-08-09 | 浙江口碑网络技术有限公司 | 虚假客资信息的确定方法及装置 |
CN113396414A (zh) * | 2019-06-24 | 2021-09-14 | 深圳市欢太科技有限公司 | 刷量用户识别方法及相关产品 |
CN110633423A (zh) * | 2019-09-20 | 2019-12-31 | 北京字节跳动网络技术有限公司 | 目标账号识别方法、装置、设备及存储介质 |
CN113055208A (zh) * | 2019-12-27 | 2021-06-29 | 中移信息技术有限公司 | 基于迁移学习的信息识别模型的识别方法、装置、设备 |
CN113055208B (zh) * | 2019-12-27 | 2023-01-13 | 中移信息技术有限公司 | 基于迁移学习的信息识别模型的识别方法、装置、设备 |
CN112580085A (zh) * | 2021-02-22 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法及装置 |
CN114004356A (zh) * | 2021-11-05 | 2022-02-01 | 支付宝(杭州)信息技术有限公司 | 反洗钱模型训练方法、反洗钱方法以及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108470253B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108470253B (zh) | 一种用户识别方法、装置及存储设备 | |
CN109002490B (zh) | 用户画像生成方法、装置、服务器及存储介质 | |
CN107947951A (zh) | 用户群组推荐方法、装置及存储介质和服务器 | |
CN107437189B (zh) | 一种推广信息的投放方法、装置及系统 | |
CN107862596A (zh) | 记账方法、终端及存储介质 | |
CN105009024A (zh) | 节省电池和数据使用 | |
CN105103105A (zh) | 社交封面信息流界面 | |
CN110503409B (zh) | 信息处理的方法以及相关装置 | |
JP7177896B2 (ja) | 行動情報収集システム | |
US20190155851A1 (en) | Information filtering | |
US20230020864A1 (en) | Social network for merchants | |
CN108205568A (zh) | 基于标签选择数据的方法及装置 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN111080429A (zh) | 一种虚拟资源获取方法、装置和存储介质 | |
CN111951021B (zh) | 一种可疑社团的发现方法和装置、存储介质及计算机设备 | |
CN115578138A (zh) | 营销方法、装置、介质和计算设备 | |
CN115345464A (zh) | 业务订单的派单方法、装置、计算机设备及存储介质 | |
CN107368998A (zh) | 日程管理方法及相关产品 | |
CN106790915A (zh) | 号码识别控制方法、装置及相应的服务器和移动终端 | |
CN110197375A (zh) | 一种相似用户识别方法、装置、相似用户识别设备和介质 | |
CN107807940B (zh) | 信息推荐方法和装置 | |
CN109688175A (zh) | 资源包发放方法、资源包获取方法、装置及存储介质 | |
CN115496609A (zh) | 基于理财产品的数据处理方法、装置、设备及存储介质 | |
CN111359210B (zh) | 一种数据处理方法、装置、电子设备以及存储介质 | |
CN113922998A (zh) | 一种漏洞风险评估方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |