CN109858965A - 一种用户识别方法和系统 - Google Patents
一种用户识别方法和系统 Download PDFInfo
- Publication number
- CN109858965A CN109858965A CN201910070928.XA CN201910070928A CN109858965A CN 109858965 A CN109858965 A CN 109858965A CN 201910070928 A CN201910070928 A CN 201910070928A CN 109858965 A CN109858965 A CN 109858965A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- machine learning
- information
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及用户识别方法和系统。所述用户识别方法包括:收集用户在使用应用时的用户数据;对收集到的用户数据进行预处理,生成由多个特征组成的用户信息;以及根据所述用户信息,利用机器学习模型,确定用户的可疑程度;其中所述用户的可疑程度至少部分基于当前用户数据之间及其和历史对应数据之间的关联和/或用户行为模式稀有性的增加。所述用户识别系统包括:应用接口;用于接收客户端的用户数据或用户信息;和计算核心;计算核心经配置以利用用户数据或用户信息,利用机器学习模型,确定用户的可疑程度。本发明可洞察可疑的用户及其作弊状态,及时预警,也可以结合业务手段和策略,对作弊用户进行相应的处理,从而保护守法用户的正当权益,减少应用平台的损失。
Description
技术领域
本发明涉及一种网络应用技术领或,特别地涉及一种用户识别方法和系统。
背景技术
随着网络应用,尤其是各类移动应用的发展,各类应用为人们提供了越来越便利的生活。然而,目前在网络社交媒体应用中频繁出现的水军、为了获取应用提供的优惠而出现的欺骗行为,,从用户的角度来说,影响了真正用户应获取的优惠和利益;从应用提供者的角度而言,既被恶意用户套取了利益,也没有达到鼓励用户提高应用使用率的目的。因而,对于这些恶意用户的识别成为了目前网络应用领域中的一项难题。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种用户识别方法和系统,用于识别当前各类应用的恶意用户。
为解决上述技术问题,本发明提供了一种用户识别方法,其中包括:
收集用户在使用应用时的用户数据;
对收集到的用户数据进行预处理,生成由多个特征组成的用户信息;以及
根据所述用户信息,利用机器学习模型,确定用户的可疑程度;
其中所述用户的可疑程度至少部分基于当前用户数据之间及其和历史对应数据之间的关联和/或用户行为模式稀有性的增加。
优选地,所述用户数据包括以下中的一者或多者:
用户的个人信息;
用户行为和行为时间;
用户行为来源以及数字指纹;
用户行为产生的数据;
用户业务数据;以及
与用户账户相关联的帐户信息。
优选地,所述用户数据进行预处理包括:
将收集到的用户数据进行格式和/或类型的转化;
将转化后的用户数据进行特征分割、合并和/或重组,获得多个特征值;以及
将所述多个特征值写入用户信息中对应的多个特征字段。
优选地,所述特征为用户设备特征、用户行为特征和用户业务特征中的一种或多种。
优选地,所述机器学习模型包括以下中的一者或者多者的联用或组合:
分类机器学习模型;
回归机器学习模型;以及
无监督机器学习模型。
优选地,确定用户的可疑程度包括确定用户可疑程度的评分分数。
优选地,所述的方法进一步地包括:利用机器学习模型根据多个用户的用户信息,将用户分组为一个或多个用户群组;获得所述一个或多个用户群组的共性参数及其值。
优选地,所述的方法进一步包括:根据一个或多个用户群组的共性参数及其值确定对应的用户群组是否为可疑用户群组。
优选地,其中用户数据之间的关联包括用户设备之间的关联,所述用户设备之间的关联包括以下的一者或多者:
多个用户设备属于同一用户;
多个用户设备属于与同一用户有关联的多个用户;以及
多个用户设备属于与多个用户有关联的多个用户。
优选地,其中用户行为模式稀有性的增加包括以下的一者或多者:
识别出批量用户的稀有性行为模式;
行为模式稀有性增加超过预定的阈值;
行为模式稀有性增加的时间段小于预定时间段;以及
行为模式稀有性增加与一个用户或多个关联用户有关。
为解决上述技术问题,本发明还提供了一种客户端设备,包括:
显示器,用于向用户提供应用操作界面;
通信单元;以及
处理器,其与显示器和通信单元连接;
其中,所述处理器经配置包括:
埋点数据采集单元,经配置用以采集页面埋点获得用户数据;和
系统广播监控单元,经配置用以采用第三方SDK监控用户设备的系统广播消息以获得用户数据;
所述通信单元经配置以将收集到的用户数据提供给服务端。
优选地,所述处理器经进一步配置,以将收集到的用户数据进行预处理,生成由多个特征组成的用户信息,并通过所述通信单元将所述用户信息提供给服务端。
优选地,所述处理器经进一步配置,包括:
格式转化单元,经配置用以将收集到的用户数据进行格式和/或类型的转化;
特征值获取单元,经配置用以将转化后的用户数据进行特征分割、合并或重组,获得多个与预定规则中的特征对应的特征值;以及
用户信息生成单元,经配置用以将所述特征值写入用户信息中对应的特征字段,以生成所述用户的用户信息。
为解决上述技术问题,本发明还提供了一种用户识别系统,其中包括:
应用接口;用于接收客户端的用户数据或用户信息;
计算核心,其与应用接口连接;
其中,计算核心经配置以利用用户数据或用户信息,利用机器学习模型,确定用户的可疑程度;其中所述用户的可疑程度至少部分基于当前用户数据之间及其与历史对应数据之间的关联和/或用户行为模式稀有性的增加。
优选地,所述计算核心进一步包括:
用户分析模块,经配置以将从应用接口接收到的用户数据进行预处理,生成由多个特征组成的用户信息;以及
机器学习引擎,经配置用以根据所述用户信息,利用机器学习模型,确定用户的可疑程度。
优选地,所述计算核心进一步包括:数据请求模块,经配置用以从应用服务器和/或用户数据库获取对应用户的业务数据和/或历史数据,并提供给所述用户分析模块。
优选地,所述机器学习引擎进一步配置为,按照训练好的机器学习模型为用户评分,并输出所述用户可疑程度的评分分数。
优选地,所述机器学习引擎进一步配置为根据多个用户的用户信息,按照相应的机器学习模型将用户分组为一个或多个用户群组;获得所述一个或多个用户群组的共性参数及其值。
优选地,所述机器学习引擎进一步配置为根据一个或多个用户群组的共性参数及其值确定对应的用户群组是否为可疑用户群组。
利用可视化监控平台,通过本系统和方法可洞察可疑的用户及其作弊状态,及时预警,也可以结合业务手段和策略,对作弊用户进行相应的处理,从而保护守法用户的正当权益,减少应用平台的损失。
附图说明
下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1是根据本发明的一个实施例的应用环境示意图;
图2是根据本发明的一个实施例的识别系统的服务器的示意图;
图3是根据本发明的一个实施例的客户端设备的示意图;
图4是根据本发明的一个实施例的用户识别系统的示意图;
图5是根据本发明的一个实施例的客户端处理器的示意图;
图6是根据本发明一个实施例的用户识别方法流程图;以及
图7是根据本发明另一个实施例的用户识别方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。
本发明提供了一种用于识别应用(Application)恶意用户的系统和方法,其中,如图1所示,图1是根据本发明的一个实施例的应用环境示意图。如图所示,本发明的应用环境包括一个或多个在通信网络上的客户端设备102、应用服务器104(其可为一个服务器集群,其中包括业务服务器,用于为应用提供内容等业务方面的管理。)、网页服务器106、服务器负载平衡器108、云负载平衡器110。应用服务器104、网页服务器106、服务器负载平衡器108、云负载平衡器110通信地耦合到一个或多个数据库112。
通信网络能够是覆盖行政区、国家、大陆或其组合的任意多级网络。通信网络的示例能够包括:蜂窝网络,诸如3G网络、4G网络、长期演进(LTE)网络;声波通信网络;卫星网络;广域网,诸如因特网;或它们的组合。应用服务器104、网页服务器106、服务器负载平衡器108、云负载平衡器110能够通过连接114被通信地耦合到通信网络。连接114能够是有线连接、无线连接或它们的组合。
本发明提供的识别系统或其中的一部分能够包括由计算云(诸如,阿里云、腾讯云、百度云、Windows AzureTM云、亚马逊弹性计算云(Amazon EC2)TM、Google App EngineTM或它们的组合)作为主机管理(host)的网页和/或移动应用。例如,识别系统100能够包括在一个或多个应用服务器104、网页服务器106或它们的组合作为主机管理的虚拟机器上运行的网页和/或移动应用。在一种变型中,计算云能够包括一个或多个应用服务器104、网页服务器106、数据库112、服务器负载平衡器108、云负载平衡器110、其中的部分或它们的组合。
云负载平衡器110能够在多个网页服务器106之间提供流量负载平衡和分配客户请求。网页服务器106能够包括HTTP服务器或者依赖计算云来处理HTTP请求。网页服务器106还能够由计算云实例化和管理。
服务器负载平衡器108能够平衡网页服务器106和一个或多个应用服务器104之间的互动。应用服务器104能够处理应用逻辑并且与数据库112互动以存储数据和应用状态。网页服务器106、应用服务器104或它们的组合能够包括机架式服务器、集群服务器、刀片服务器、主机、专用台式电脑或笔记本电脑,或它们的组合。
数据库112能够是一个或多个SQL数据库。应用服务器104能够与管理SQL数据库的一个或多个SQL服务器交互。应用数据和应用状态能够被存储在云管理的SQL数据库中。在另一些变型中,数据库112能够是面向文档型数据库,包括诸如数据库的NoSQL数据库。
客户端设备102能够包括便携式计算设备,诸如智能手机、平板电脑、笔记本电脑、智能手表、个人娱乐设备或它们的组合。在另一些变型中,客户端设备102还能够包括台式计算机。
图2是根据本发明一个实施例的识别系统的服务器200的示意图。如图所示,服务器200能够具有一个或多个处理器202、存储器204和通信接口206。处理器202能够通过高速总线被耦合到存储器204和通信接口206。服务器200能够表示图1中的网页服务器112、应用服务器110或它们的组合中的任意一种。
处理器202能够包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或它们的组合。处理器202能够执行存储在存储器204中的软件或计算机可读指令以执行本文描述的方法或操作。处理器202能够以若干不同的方式来实施。例如,处理器202能够包括一个或多个嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件有限状态机(FSM)、数字信号处理器(DSP)或它们的组合。例如,处理器202能够是64位处理器。
存储器204能够存储软件、数据、日志或它们的组合。存储器204能够是内部存储器。替代地,存储器204能够是外部存储器,诸如驻留在存储节点、云服务器或存储服务器上的存储器。存储器204能够是易失性存储器或非易失性存储器。例如,存储器204能够是诸如非易失性随机存取存储器(NVRAM)、闪存、磁盘存储器的非易失性存储器,或者是诸如静态随机存取存储器(SRAM)的易失性存储器。存储器204能够是用于服务器200的主存储单元。
通信接口206能够包括一个或多个有线或无线通信接口。例如,通信接口206能够是服务器200的网络接口卡。通信接口206能够是无线调制解调器或有线调制解调器。在一种变型中,通信接口206能够是WiFi调制解调器。在另一些变型中,通信接口206能够是3G调制解调器、4G调制解调器、LTE调制解调器、蓝牙组件、射频接收器、天线或它们的组合。服务器200能够使用通信接口206连接到通信网络或者与通信网络通信地耦合。服务器200能够使用通信接口206传输或者接收包或消息。
图3是根据本发明一个实施例的客户端设备的示意图。客户端设备300能够具有客户端处理器312、客户端存储器314、客户端通信接口316以及显示器318。客户端处理器312能够通过高速总线被耦合到客户端存储器314和客户端通信接口316。
客户端处理器312能够包括一个或多个CPU、GPU、ASIC、FPGA或它们的组合。客户端处理器312能够执行存储在客户端存储器314中的软件以执行本文描述的方法。客户端处理器312能够以若干不同的方式来实施。例如,客户端处理器312能够是嵌入式处理器、处理器核心、微型处理器、逻辑电路、硬件FSM、DSP或它们的组合。作为一个具体的示例,客户端处理器312能够是32位处理器,诸如处理器。
客户端存储器314能够存储软件、数据、日志或它们的组合。在一种变型中,客户端存储器314能够是内部存储器。在另一种变型中,客户端存储器314能够是外部存储单元。客户端存储器314能够是易失性存储器或非易失性存储器。例如,客户端存储器314能够是诸如NVRAM、闪存、磁盘存储器的非易失性存储器,或者是诸如SRAM的易失性存储器。客户端存储器314能够是用于客户端设备300的主存储单元。
客户端通信接口316能够是有线或无线通信接口。例如,客户端通信接口316能够是客户端设备的网络接口卡。客户端通信接口316能够是无线调制解调器或有线调制解调器。在一种变型中,客户端通信接口316能够是WiFi调制解调器。在另一些变型中,客户端通信接口316能够是3G调制解调器、4G调制解调器、LTE调制解调器、蓝牙组件、射频接收器、天线或它们的组合。客户端设备能够使用客户端通信接口316连接到通信网络或者与通信网络通信地耦合。客户端设备300能够使用客户端通信接口316传输或者接收包或消息。
显示器318能够是诸如液晶显示器(LCD)的触摸屏显示器、薄膜晶体管(TFT)显示器、有机发光二极管(OLED)显示器或者有源矩阵有机发光二极管(AMOLED)显示器。在某些变型中,显示器318能够是视网膜显示器、触觉触摸屏或它们的组合。例如,当客户端设备300是智能手机时,显示器318能够是智能手机的触摸屏显示器。
客户端设备300通过显示器318展示的图形用户界面(GUI)与用户交互。GUI能够向用户展示内容,用户能够根据展示的内容将用户输入应用到GUI上的按钮、文本框、或链接。响应于将用户输入应用到按钮、文本框、或链接,客户端设备300根据处理器执行的软件或者经过与服务器400通信后向用户展示新的内容。
客户端设备300还可以包括输入装置,例如键盘、触摸屏等。如本领域技术人员所了解的,客户端设备300还可以包括其他功能的装置,以满足客户的需要。
图4是根据本发明一个实施例的用户识别系统的示意图。如图所示,本发明的用户识别系统400包括客户端410和服务器端420。在一些实施例中,客户端410可以运行在客户端设备300上;服务器端420可以运行在服务器200上。
在一些实施例中,客户端410包括但不限于运行于IOS系统、Android系统、Window系统或者其他系统的APP、网页(Web)端、微信客户端或微信小程序、嵌入其他第三方应用程序的独立或非独立的程序等。客户端410向用户提供图形交互界面(GUI),向用户展示内容和结果。客户端410通过客户端设备300中的客户端处理器312收集用户数据。在一些实施例中,如图5所示,为客户端处理器312的示意图。客户端处理器312包括埋点数据采集单元3121和系统广播监控单元3122,埋点数据采集单元3121能够采集页面埋点数据,系统广播监控单元3122能够采用第三方SDK监控用户设备的系统广播消息,从而收集用户在使用应用时的用户原始数据。例如,与个人信息相关的数据:账户名称、昵称、年龄、性别和手机号等;与用户行为和活动相关的数据:账户执行了什么操作、何时执行,例如操作执行的时间标记、获取金币、提现数额及方法等事件信息;用户数据来源信息和设备的数字指纹:描述账户访问方法的信息,例如设备类型及版本、浏览器信息、IP地址和地理位置信息等;与内容和元数据相关的数据:账户生成的文本和/或图片,例如注释留言、档案照片和手机通话记录等。
在一些实施例中,客户端处理器312将收集到的用户数据预处理成为包括多个特征的用户信息。其中,所述特征可以为用户行为特征、用户设备特征和用户业务特征中的一者或多者。其中,客户端处理器312进一步包括:格式转化单元3123、特征值获取单元3124和用户信息生成单元3125。其中,格式转化单元3123用以将收集到的用户数据进行格式和/或类型的转化。例如,当收集的用户登录时间是“2018年10月20日”,需将时间格式转化为xx(month)xx(day)xxxx(year)的格式,即转化后的对应数据是“Oct 20 2018”。特征值获取单元3124将转化后的用户数据进行特征分割、合并或重组,获得多个与用户信息中预置特征字段对应的特征值。例如从收集到用户的帐户信息息中分割出用户帐户名称、昵称、手机号,而用户信息的预置特征字段中有手机号和帐户名称的特征字段,没有昵称特征字段,因而,保留手机号,合并帐户名称和昵称,将合并后的名称作为用户信息中预置“帐户名称”这一特征的特征值。又例如将时间数据与用户操作的内容联合起来组成一个特征。关于特征重组,根据用户信息中设置的特征的不同有不同的重组方法。例如,当用户信息中设有年龄、性别特征时,但是采集到的用户数据并没有这两个数据,特征值获取单元3124通过某些算法,根据当前用户数据和历史用户数据计算得到对应的特征值。例如采用性别算法模型、年龄算法模型等从采集到的原始用户数据,如帐户名称、昵称、使用应用时点击的页面内容、点击时间等和该用户的历史数据计算分析得到当前用户的性别、年龄或年龄段等特征值。又例如,在用户信息中的特征字段中设置了一些可以表现用户可疑身份的特征,例如“phoneip”,在获取“phoneip”特征字段的特征值时,需要将当前得到的用户电话归属地与注册时的电话归属地进行比较,当二者一致时,将“1”作为“phoneip”特征字段的特征值,如果二者不一致,将“0”作为“phoneip”特征字段的特征值。通过特征值获取单元3124,根据收集到的用户数据得到了用户信息中预置特征的特征值,而后,由用户信息生成单元3125将所述特征值写入用户信息中对应的特征字段,没有对应特征值的,空位或采用预定标记表明此特征字段为空,从而生成了所述用户的用户信息。
在一个实施例中,对应的用户信息如下表1所示:
表1
在另一个实施例中,对应的用户信息如下表2所示:
表2
客户端处理器312将得到的这些用户信息或用户数据通过客户端通信接口316发送给服务器端420。
在一些实施例中,如图所示,服务器端420包括应用接口430、计算核心440、用户数据库450以及规则库460。
应用接口430用于客户端410和计算核心440之间的通信。客户端通信接口316与应用接口430连接,应用接口430将来自客户端410的用户原始数据或经过转化的用户信息转发到计算核心440,以及将来自计算核心440的各种指令转发到客户端410。
在一些实施例中,应用接口430具有负载均衡的功能,以保证客户端410与计算核心440之间通信的高效。例如应用接口430可以包括云负载平衡器和一个或多个接入服务器。
根据本发明的一个实施例,所述计算核心440进一步包括用户分析模块4401和评价模块4402。在客户端没有对用户数据进行预处理时或者客户端处理的数据不充足时,用户分析模块4401进行用户数据的预处理,如表1和表2所示。用户分析模块4401通过大量的数据准备工作,从多个维度为评价模块4402提供了丰富而适用的特征,为评价模块4402的准确评价提供了数据支持。
在一些实施例中,所述计算核心440进一步包括数据请求模块4403,用于与经配置用以从应用服务器(包括业务服务器)获取业务数据,或从用户数据库450中获取用户信息。例如从用户数据库450中获取用户原始注册信息,包括注册电话号码及对应的归属地、邮件地址、与该用户相关联的其他帐户,如其子帐户信息、父帐户信息等数据。从业务服务器中获取包括用户生命周期内的所有数据,包括app不同操作的行为日志,例如阅读的文章、视频,以及金币的获取、提现、广告收入、留存等数据。这些业务数据及用户信息输入给所述用户分析模块4401,用以得到更多维度、更加适用的特征值。其中,用户信息中的特征字段可以根据需要填加、改变或删除,用以向评价模块4402提供更加适用的特征。对应地,用户分析模块4401根据新的特征字段来分割、合并或重组用户数据,以获得到对应的特征值。
在一些实施例中,所述的评价模块4402为机器学习引擎,其以所述用户信息作为输入,利用机器学习模型从多个维度评价用户,从而确定用户的可疑程度。
规则库460中设置了机器学习模型用以评价用户、获取用户可疑程度的各种判断规则,其中使用的判断指标包括当前用户数据之间的关联,例如:多个用户设备属于同一用户;多个用户设备属于与同一用户有关联的多个用户;以及多个用户设备属于与多个用户有关联的多个用户。
例如:当前用户数据与历史对应数据的关联,例如:关于用户对某一活动的参与时间这一指标,通过该用户的历史数据可以得知,用户从前参加该活动的参与时间发生在一个固定时间段内,但是最近几次的参与时间很跳跃,当前采集的活动参与时间仍然不在从前的时间段时,根据这些数据,可计算出关于活动参与时间之间的关联度。
例如:用户行为模式稀有性的增加。例如:通过机器学习模型计算出用户的某些行为模式,对于一些小众、稀有性行为模式,突然有大批量的用户出现这种行为模式;或者对于个人用户,行为模式稀有性增加超过预定的阈值;或者行为模式稀有性增加的时间段小于预定时间段;以及行为模式稀有性增加与一个用户或多个关联用户有关。
通过上述判断规则中的指标判断用户是否可疑。并根据评分规则获取可疑程度。其中,可通过评分分数来衡量所述可疑程度。
所述评分规则,在前述判断规则的基础上,在不维度设置不同指标的分数级别,所述级别可按高、中、低级别划分,或按照1-10级、1-100级等级别划分。机器学习引擎利用用户信息中的特征或特征组合通过计算得到判断规则中的指标,例如用户参与某个活动的频次,通过与历史记录进行对比,得到该频次的异常度,并与评分规则中的级别作对比,确定所在的级别,例如2级或8级,或高级或低级等,从而得到当前评价指标的分数。又例如,根据多个用户设备的数字指纹及其业务数据、用户行为模式之间的关联程度,划分这些帐户对应的用户为同一用户的可能性的级别。根据当前计算得到关联程度与规则中的级别对比,可以确定具体的级别,并得到对应的分数。计算完所有指标的分数,按照一定的学习算法,最后得到总的用于衡量可疑程度的分数。
在一些具体的实施例中,机器学习引擎按照训练好的计算模型基于前述规则为个人用户评分,并输出所述用户的评分分数。其中,输出的分数可以为0-1之间的概率值。在一些实施例中,将所述概率值映射成为一个数值区间的数,如1-100区间的一个数。工作人员根据当前分数在给定数值区间的分布情况,可以确定该用户的可疑程度。例如,设定在1-100这个数据区间段内,当用户的分数越接近100,则该用户的可疑性越小,返之,当用户的分数越接近1,则用户的可疑性越大。如果当前一个用户的分数在映射之后为25,显然该用户的可疑程度很高。在本实施例中,事先采用样本训练好计算模型,在实时输入用户信息时,机器学习引擎可以按照训练好的计算模型,通过有监督学习获得用户的分数。
在另一些实施例中,机器学习引擎按照给定的无监督(Unsupervised Learning)机器学习算法评价所述多个用户,将输入的批量用户分成多个具有各自共性的用户群组,并根据前述判断规则和评分规则输出每个用户群组的共性参数及其分数值,还可以输出该用户群组的用户列表。其中,所述的无监督机器学习算法基于传统的各种聚类(clustering)算法的衍生,如K均值(K-Means)算法,自编码器(Auto-Encoder)和主成分分析(Principal Component Analysis)等中的一种,学习引擎将输入的多个用户分成一个或一个以上的具有共性的用户群组,并且,通过用户群组内的共同参数值,尤其是用户信息中的可以表明用户是否可疑的特征值,如“phoneip”这一特征的特征值“0”,可以判断出该用户群组是否可疑。例如,经过机器学习引擎计算输出的一个用户群组cluster002的参数及其值为100%ip相同,100%同一师傅,100%虚拟号(不是真实的手机号码)时,根据判断规则可以确定该用户群组为可疑群组。
如图6所示,为根据本发明一个实施例的一种用户识别方法流程图,所述方法包括:
步骤S100a,在客户端设备上收集用户在使用应用时的用户数据。其中,在客户端设备上可以收集到的用户数据,例如:与个人信息相关的数据:账户名称、昵称、年龄、性别和手机号等;与用户行为和活动相关的数据:账户执行了什么操作、何时执行,例如操作执行的时间标记、获取金币、提现数额及方法等事件信息;数据来源信息和设备指纹:描述账户访问方法的信息,例如设备类型及版本、浏览器信息、IP地址和地理位置信息等;与内容和元数据相关的数据:账户生成的文本和图片,例如注释留言、档案照片和手机通话记录;与账户关联信息相关的数据:不同账户之间的交互关系,例如收徒,徒孙之类的阶梯式关系,还有所述用户在其生命周期内的所有业务数据:如不同操作的行为日志,例如阅读的文章、视频,以及金币的获取、提现、广告收入、留存等数据。上述的部分数据自用户客户端设备收集而来,部分数据从服务端收集而来,例如从服务端的用户数据库、应用服务器或网页服务器等收集而来。
步骤S200a,在服务器端将收集到的用户数据进行格式、类型等转化。例如时间格式的统一、数据类型的转化。
步骤S300a,根据用户信息中的预置特征字段,将转化后的用户数据进行特征分割、合并或重组,获得多个与预置特征字段对应的特征值。例如从用户的帐户信息中分割出用户帐户名称、昵称和手机号,而用户信息的预置特征字段中包括“手机号”和“帐户名称”,没有“昵称”这一特征字段,因而,保留手机号,合并帐户名称和昵称,将合并后的名称作为用户信息中预置的“帐户名称”这一特征的特征值。或者采用性别算法模型、年龄算法模型等从采集到的原始数据,如帐户名称、昵称、使用应用时点击的页面内容、点击时间等计算分析得到当前用户的性别、年龄或年龄段,或者根据特征值的实际要求进行对比等操作来确定具体的特征值,如前述的特征“phoneip”的特征值的获取过程,又例如“用户设备版本号”这一特征的特征值,在经过比较用户当前的用户设备版本号和原始版本号后,如果当前的用户设备版本号和原始版本号一致,则将该特征值设为“1”,否则为“0”。
步骤S400a,生成用户信息。具体地,将前述得到的特征值写入用户信息中对应的特征字段,没有对应特征值的,采用空位或预定标记表明此特征字段为空,从而生成了所述用户的用户信息。
经过前述的处理,得到的用户信息中包括用户行为特征、用户设备特征和用户业务特征中的一种或多种。例如,用户行为特征包括用户个人信息、与用户的行为和活动相关的事件信息,如“日均阅读时长”;所述用户设备特征包括数据来源信息和设备指纹信息,如“打开usb调试”;所述用户业务特征包括内容和元数据信息及帐户关联信息,如“广告曝光率”。所述帐户关联信息是指帐户之间收徒、徒孙之类的阶梯式关系。
步骤S500a,以所述用户信息作为机器学习引擎的输入,由机器学习引擎按照样本、规则训练好的计算模型,如DNN等模型进行计算,得到所述用户的分数。
本实施例通过对单个用户进行打分,采用不同的分数代表不同的可疑程度。根据不同的可疑程度采取封号、断链、清零、动态金币奖励上限等措施,打击恶意用户、鼓励积极合法的用户。
如图7所示,为根据本发明另一个实施例的一种用户识别方法流程图,所述方法包括:
步骤S100b,在客户端设备上收集用户在使用应用时的用户数据。其中,在客户端设备上可以收集到的用户数据与图6所示的实施例相同,在此不再重复。
步骤S200b,在服务器端或客户端将收集到的用户数据进行格式、类型等转化。例如时间格式的统一、数据类型的转化。
步骤S300b,根据用户信息中的预置特征字段,将转化后的用户数据进行特征分割、合并或重组,获得多个与预置特征字段对应的特征值。
步骤S400b,生成用户信息。具体地,将前述得到的特征值写入用户信息中对应的特征字段,没有对应特征值的,采用空位或预定标记表明此特征字段为空,从而生成了所述用户的用户信息。经过前述的处理,得到的用户信息中包括用户行为特征、用户设备特征和用户业务特征中的一种或多种。
步骤S500b,利用多条用户信息,按照给定的机器学习算法将输入的多个用户分为多个用户群组。在一些实施例中,采用机器学习引擎来完成对批量用户的评价。具体地,所述机器学习引擎采用无监督机器学习算法,如各种聚类算法,对当前输入的多个用户的用户信息进行计算,从而得到多个具有各自共性的用户群组。
步骤S600b,判断用户群组的共性参数及其分数值来确定所述用户群组是否为可疑用户群组。例如,当输出一个用户群组cluster002时,共性参数及其分数值为:100%ip相同,100%同一师傅,100%虚拟号。这个用户群组中的用户具有同一个师傅(对于某项活动的推荐人的称呼),具有相同的ip地址,使用的手机号码为不存在的手机号,通过这些信息可以得知,该群体中的用户实质上是同一个用户,判断该用户群组的用户为恶意用户。其为了获取活动的奖励而注册了多个虚假帐户。因而,通过本实施例,可以准确地识别出这类用户。
关于其他的欺诈行为,例如一个用户通过不同设备注册了不同的帐户以此来骗取话动奖励的行为,本发明通过检测设备之间的关系以及某些小众指标的大批量用户行为模式,同样可以很准确地识别出来。
本发明中的各种规则,如用户信息中特征的设置、判断规则和评分规则的设置、有监督学习模型的训练、无监督学习算法中的聚类算法等,还有数据准备时的特征值的获取等可以按需修改,因而本发明的扩张性强、维护方便;通过采用有监督机器学习法和无监督机器学习法从不同的角度识别出恶意用户,识别精度高,速度快,效率高。
上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变型,因此,所有等同的技术方案也应属于本发明公开的范畴。
Claims (19)
1.一种可疑用户识别方法,其中包括:
收集用户在使用应用时的用户数据;
对收集到的用户数据进行预处理,生成由多个特征组成的用户信息;以及
根据所述用户信息,利用机器学习模型,确定用户的可疑程度;
其中所述用户的可疑程度至少部分基于当前用户数据之间及其和历史对应数据之间的关联和/或用户行为模式稀有性的增加。
2.根据权利要求1所述的方法,其中所述用户数据包括以下中的一者或多者:
用户的个人信息;
用户行为和行为时间;
用户行为来源以及数字指纹;
用户行为产生的数据;
用户业务数据;以及
与用户账户相关联的帐户信息。
3.根据权利要求1所述的方法,其中所述用户数据进行预处理包括:
将收集到的用户数据进行格式和/或类型的转化;
将转化后的用户数据进行特征分割、合并和/或重组,获得多个特征值;以及
将所述多个特征值写入用户信息中对应的多个特征字段。
4.根据权利要求1或3所述的用户识别方法,其中所述特征为用户设备特征、用户行为特征和用户业务特征中的一种或多种。
5.根据权利要求1所述的方法,其中所述机器学习模型包括以下中的一者或者多者的联用或组合:
分类机器学习模型;
回归机器学习模型;以及
无监督机器学习模型。
6.根据权利要求1所述的方法,其中确定用户的可疑程度包括确定用户可疑程度的评分分数。
7.根据权利要求1所述的方法,进一步地包括:利用机器学习模型根据多个用户的用户信息,将用户分组为一个或多个用户群组;获得所述一个或多个用户群组的共性参数及其值。
8.根据权利要求7所述的方法,进一步包括:根据一个或多个用户群组的共性参数及其值确定对应的用户群组是否为可疑用户群组。
9.根据权利要求1所述的方法,其中用户数据之间的关联包括用户设备之间的关联,所述用户设备之间的关联包括以下的一者或多者:
多个用户设备属于同一用户;
多个用户设备属于与同一用户有关联的多个用户;以及
多个用户设备属于与多个用户有关联的多个用户。
10.根据权利要求1所述的方法,其中用户行为模式稀有性的增加包括以下的一者或多者:
识别出批量用户的稀有性行为模式;
行为模式稀有性增加超过预定的阈值;
行为模式稀有性增加的时间段小于预定时间段;以及
行为模式稀有性增加与一个用户或多个关联用户有关。
11.一种客户端设备,包括:
显示器,用于向用户提供应用操作界面;
通信单元;以及
处理器,其与显示器和通信单元连接;
其中,所述处理器经配置包括:
埋点数据采集单元,经配置用以采集页面埋点获得用户数据;和
系统广播监控单元,经配置用以采用第三方SDK监控用户设备的系统广播消息以获得用户数据;
所述通信单元经配置以将收集到的用户数据提供给服务端。
12.根据权利要求11所述的客户端设备,其中所述处理器经进一步配置,以将收集到的用户数据进行预处理,生成由多个特征组成的用户信息,并通过所述通信单元将所述用户信息提供给服务端。
13.根据权利要求12所述的客户端设备,其中所述处理器经进一步配置,包括:
格式转化单元,经配置用以将收集到的用户数据进行格式和/或类型的转化;
特征值获取单元,经配置用以将转化后的用户数据进行特征分割、合并或重组,获得多个与预定规则中的特征对应的特征值;以及
用户信息生成单元,经配置用以将所述特征值写入用户信息中对应的特征字段,以生成所述用户的用户信息。
14.一种用户识别系统,其中包括:
应用接口;用于接收客户端的用户数据或用户信息;
计算核心,其与应用接口连接;
其中,计算核心经配置以利用用户数据或用户信息,利用机器学习模型,确定用户的可疑程度;其中所述用户的可疑程度至少部分基于当前用户数据之间及其与历史对应数据之间的关联和/或用户行为模式稀有性的增加。
15.根据权利要求14所述的用户识别系统,其中所述计算核心进一步包括:
用户分析模块,经配置以将从应用接口接收到的用户数据进行预处理,生成由多个特征组成的用户信息;以及
机器学习引擎,经配置用以根据所述用户信息,利用机器学习模型,确定用户的可疑程度。
16.根据权利要求15所述的用户识别系统,其中,所述计算核心进一步包括:数据请求模块,经配置用以从应用服务器和/或用户数据库获取对应用户的业务数据和/或历史数据,并提供给所述用户分析模块。
17.根据权利要求15所述的用户识别系统,其中所述机器学习引擎进一步配置为,按照训练好的机器学习模型为用户评分,并输出所述用户可疑程度的评分分数。
18.根据权利要求15所述的用户识别系统,其中所述机器学习引擎进一步配置为根据多个用户的用户信息,按照相应的机器学习模型将用户分组为一个或多个用户群组;获得所述一个或多个用户群组的共性参数及其值。
19.根据权利要求18所述的用户识别系统,其中,其中所述机器学习引擎进一步配置为根据一个或多个用户群组的共性参数及其值确定对应的用户群组是否为可疑用户群组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070928.XA CN109858965A (zh) | 2019-01-25 | 2019-01-25 | 一种用户识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910070928.XA CN109858965A (zh) | 2019-01-25 | 2019-01-25 | 一种用户识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109858965A true CN109858965A (zh) | 2019-06-07 |
Family
ID=66896079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910070928.XA Pending CN109858965A (zh) | 2019-01-25 | 2019-01-25 | 一种用户识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109858965A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544151A (zh) * | 2019-08-20 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 确定用户是否为网约车司机的方法及设备 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110866241A (zh) * | 2019-10-08 | 2020-03-06 | 北京百度网讯科技有限公司 | 评估模型生成及设备关联方法、装置及存储介质 |
CN111274439A (zh) * | 2020-01-16 | 2020-06-12 | 王得为 | 一种信息处理方法和装置 |
CN111553487A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种业务对象识别方法及装置 |
CN113127767A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120163670A1 (en) * | 2007-02-08 | 2012-06-28 | Behavioral Recognition Systems, Inc. | Behavioral recognition system |
CN107426231A (zh) * | 2017-08-03 | 2017-12-01 | 北京奇安信科技有限公司 | 一种识别用户行为的方法及装置 |
CN108322473A (zh) * | 2018-02-12 | 2018-07-24 | 北京京东金融科技控股有限公司 | 用户行为分析方法与装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
-
2019
- 2019-01-25 CN CN201910070928.XA patent/CN109858965A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120163670A1 (en) * | 2007-02-08 | 2012-06-28 | Behavioral Recognition Systems, Inc. | Behavioral recognition system |
CN107426231A (zh) * | 2017-08-03 | 2017-12-01 | 北京奇安信科技有限公司 | 一种识别用户行为的方法及装置 |
CN108322473A (zh) * | 2018-02-12 | 2018-07-24 | 北京京东金融科技控股有限公司 | 用户行为分析方法与装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
谢邦昌 著: "《大数据概论》", 30 November 2016, 厦门大学出版社 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544151A (zh) * | 2019-08-20 | 2019-12-06 | 北京市天元网络技术股份有限公司 | 确定用户是否为网约车司机的方法及设备 |
CN110557447A (zh) * | 2019-08-26 | 2019-12-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110557447B (zh) * | 2019-08-26 | 2022-06-10 | 腾讯科技(武汉)有限公司 | 一种用户行为识别方法、装置及存储介质和服务器 |
CN110866241A (zh) * | 2019-10-08 | 2020-03-06 | 北京百度网讯科技有限公司 | 评估模型生成及设备关联方法、装置及存储介质 |
CN113127767A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
CN113127767B (zh) * | 2019-12-31 | 2023-02-10 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
CN111274439A (zh) * | 2020-01-16 | 2020-06-12 | 王得为 | 一种信息处理方法和装置 |
CN111553487A (zh) * | 2020-05-25 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种业务对象识别方法及装置 |
CN111553487B (zh) * | 2020-05-25 | 2021-04-27 | 支付宝(杭州)信息技术有限公司 | 一种业务对象识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858965A (zh) | 一种用户识别方法和系统 | |
US10038968B2 (en) | Branching mobile-device to system-namespace identifier mappings | |
US10409852B2 (en) | Method, apparatus, and computer program product for user-specific contextual integration for a searchable enterprise platform | |
US11436430B2 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
CN108681970A (zh) | 基于大数据的理财产品推送方法、系统及计算机存储介质 | |
US20160203211A1 (en) | Geolocation data analytics on multi-group populations of user computing devices | |
WO2019149145A1 (zh) | 投诉举报类别的排序方法和装置 | |
US11954577B2 (en) | Deep neural network based user segmentation | |
JP6846390B2 (ja) | ドメイン間の文法スロットによる分類 | |
US20180276543A1 (en) | Intelligent visual object management system | |
Sen et al. | A total error framework for digital traces of humans | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN103176982A (zh) | 一种电子图书推荐的方法及系统 | |
CN106682686A (zh) | 一种基于手机上网行为的用户性别预测方法 | |
EP2812856A1 (en) | Tools and methods for determining relationship values | |
US20150324844A1 (en) | Advertising marketplace systems and methods | |
US20180040059A1 (en) | Social network data processing and profiling | |
CN115002200A (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
CN108665513B (zh) | 基于用户行为数据的绘图方法和装置 | |
CN112686717B (zh) | 一种广告召回的数据处理方法及系统 | |
CN107766470A (zh) | 一种数据分享的智能统计方法、智能统计显示方法及装置 | |
CN114398560B (zh) | 基于web平台的营销界面设置方法、装置、设备及介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Kotzias et al. | Addressing the Sparsity of Location Information on Twitter. | |
CN109195154A (zh) | 物联网窜卡用户识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200311 Address after: 201802 room jt6668, building 2, No. 4268, Zhennan Road, Jiading District, Shanghai Applicant after: Shanghai quyun Network Technology Co., Ltd Address before: 200120 Shanghai Pudong New Area Shenjiang Road 5005 Nongxing Creation Science and Technology Plaza C Building 11 Floors Applicant before: Shanghai Jifen Cultural Communication Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |
|
RJ01 | Rejection of invention patent application after publication |