CN111259952A - 异常用户识别方法、装置、计算机设备及存储介质 - Google Patents
异常用户识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111259952A CN111259952A CN202010037643.9A CN202010037643A CN111259952A CN 111259952 A CN111259952 A CN 111259952A CN 202010037643 A CN202010037643 A CN 202010037643A CN 111259952 A CN111259952 A CN 111259952A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- abnormal
- preset
- user data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000006399 behavior Effects 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000010801 machine learning Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000007635 classification algorithm Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 210000002268 wool Anatomy 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异常用户识别方法、装置、计算机设备及存储介质。该异常用户识别方法包括:获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度;将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;采用预设的数据评分表获取每一群体数据的风险评分;将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
Description
技术领域
本发明涉及网络领域,尤其涉及一种异常用户识别方法、装置、计算机设备及存储介质。
背景技术
随着移动互联网的快速发展,消费者注意力从传统的PC转移到移动端,商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯。但高额的补贴、优惠的同时也催生了“羊毛党”(以获取利益为目的非正常用户)。这些非正常用户的存在严重破坏了活动的目的,侵占了活动的资源,使得正常的用户享受不到活动的直接好处,存在一定的风险,也造成企业成本损失。
目前业内很多企业已经搭建了自己的风控系统,虽然拦截了部分的非正常用户,但是由于拦截形式单一,过于简单,效果并不是很好。企业依旧是损失惨重,风控系统并没有对这些非正常用户进行全方位拦截,没有深入分析非正常用户的特性,导致风控系统未能有效拦截大部分非正常用户。因此,现在亟需一种针对非正常用户的识别方法。
发明内容
本发明实施例提供一种异常用户识别方法、装置、计算机设备及存储介质,以解决风控系统拦截形式单一、异常用户难以识别的问题。
第一方面,本发明实施例提供一种异常用户识别方法,包括:
获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;
采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
采用预设的数据评分表获取每一群体数据的风险评分;
将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
第二方面,本发明实施例提供一种异常用户识别装置,包括:
第一获取模块,用于获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
筛选模块,用于解析所述数据采集请求,得到数据采集信息,所述数据采集信息包括采集设备标识;
计算模块,用于采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
确定模块,用于将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
第二获取模块,用于采用预设的数据评分表获取每一群体数据的风险评分;
识别模块,用于将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述异常用户识别方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述异常用户识别方法的步骤。
本发明提供的异常用户识别方法、装置、计算机设备及存储介质中,通过复杂网络对用户数据进行分析计算,将用户数据分为二类数据,即群体数据和个体数据,分别采用对应的方法计算风险度,从而提高了对异常用户的识别效率。另外,将识别出来的异常用户组成黑名单数据数据库,从而后续只需要将新增的用户数据与该黑名单数据库中的用户进行比对,加快了异常用户识别的速度。对于个体数据中的个体用户,采用基于机器学习的二分类算法进行分类判断,充分利用了该算法分类准确简单高效的特点,大大提高了异常用户识别的准确率和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中异常用户识别方法的一应用环境示意图;
图2是本发明一实施例异常用户识别方法的一流程图;
图3是图2中步骤S12的一具体实施方式的一流程图;
图4是图2中步骤S13并列的另一实施方式流程图;
图5是本发明一实施例中异常用户识别装置的一原理框图;
图6是本发明一实施例中提供的计算机设备的一结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的异常用户识别方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务器进行通信。服务器获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;采用预设的数据评分表获取每一群体数据的风险评分;最终将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。监控端实时监测采集设备标识对应的会话锁状态,并通过网络与服务器进行通信。
在一实施例中,如图2所示,提供一种异常用户识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取N个用户数据,每一用户数据包括行为数据和属性数据,其中,N为正整数。
其中,用户数据是指能够在应用程序中能够反映用户意图的数据,用户数据包括行为数据和属性数据,行为数据为用户在应用程序中的操作数据,一般正常用户操作时,点击页面不会过于频繁,而且正常用户的操作行为通常不会像异常用户那样,目的性很强,示例性地,异常用户可能会是直接执行和领取奖品相关的举动。此外,还有的大量用户的GPS定位一样,或者使用同一个网络,操作数据也很相似等,这些都可能是异常用户的行为数据。属性数据为和用户相关的数据,属性数据可以包括用户的手机号、账号、车牌号、身份找骂、年龄、性别等。行为数据可以包括用户在参与活动中的操作数据,例如:用户登录时间,用户点击参与活动页面时间,用户进行抽奖时间等。可以理解地,用户通过账号(手机号)登录APP或网站,通过匹配到的账号做标记,对其在APP或网站参与活动的具体操作行为进行监控和采集。在用户操作过程中,收集用户的行为轨迹。例如:用户登录的时间与频次、点击了哪些页面、在各个页面停留时间等,对于上述行为的埋点数据,可以获取到很多相关的数据信息,在其中,通过用户行为轨迹分析用户的意图。具体地,可以通过用户在APP上的操作行为来收集获取用户数据,用户每一次的点击行为都会产生一条埋点数据记录在后台中,因此,可以直接通过记录在后台的埋点数据中获取到用户数据,以便后续基于该用户数据进行处理分析,提高对用户数据的处理效率。
S11:将属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N。
其中,预设的数据库中的黑名单数据是指存在高风险的用户的属性数据,示例性,不正常的属性数据,用户填写的手机号为:13333333333、车牌号是:粤B-88888等。具体地,将属性数据与预设的数据库中的黑名单数据进行一一比对,当用户数据中的属性数据与数据库中的黑名单数据一致时,删除该用户数据。可以理解地,数据库中的黑名单数据为异常用户,因此将便于识别的用户通过初步处理的方式进行剔除,且剔除方法高效快速,大大减少了对冗余数据的处理,提高了数据处理效率。具体地,该黑名单数据可以通过历史数据标记或者记录得到,或者通过第三方终端导入得到。例如,将征信数据中失信人员的信息导入到黑名单数据中。
需要说明的是,用于进行后续处理的用户数据为M个,且该用户数据的数量小于或者等于获取的用户数据的数量,也即M≤N,一方面通过简单方便的方法进行了初步筛选,另一方面,减少了对冗余用户数据的处理数量,从而大大提高了后续对用户数据的进一步处理效率。
S12:采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M。
其中,复杂网络(Complex Network)是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络,其特征包括小世界、集群即集聚程度的概念、幂律的度分布概念。关联度是指用户数据中用于对行为数据分析后所得到的用于反映M个用户之间相关程度的指标。示例性地:很多个用户同一时间都关联到一个GPS位置,或者是共用同一个WIFI,可以确定该多个用户的关联度较高。具体地,复杂网络是通过对用户数据之间的关系进行关联,利用图论相关理论对数据之间的关系形成的网络进行分析,每个用户是一个点,其属性数据:如IP地址、WiFi名称、中奖时间都是一个点,且与用户相连。如果不同用户有同样的中奖时间,则这两个用户都与该中奖时间相连。通过这种方法可以织出一张大网,然后通过相关的切网算法将网络进行切分,使得切分后群体内部相关性大,群体间相关性小,可以有效的将用户数据进行聚类,形成很多社团(K个),再计算每一社团的关联度。
S13:将关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据。
其中,群体数据是指至少2个用户数据进行合并得到的用户数据。群体数据中用户数据的个数根据社团中的用户数据个数来确定。可以理解地,当一个社团中关联度大于或者等于预设的关联度阈值时,即可以确定该社团中的用户数据对应的用户为团体用户,由于团体用户的用户数据关联度较高,因此,该社团中包含的用户数据存在异常风险的概率越高,因此,将该社团确定为群体数据。所以通过确定群体数据以便后续从该群体数据中高效准确获取到对应的能够表征异常用户的风险信息。
S14:采用预设的数据评分表获取每一群体数据的风险评分。
其中,预设的数据评分表是指预先设置的对数据进行打分的表格。用于映射数据的风险程度。在数据评分表中,分值越高,代表数据风险程度越高。特征评分是根据数据的敏感程度进行评价得到的分值,用于反映数据的敏感程度。示例性地,其中,如:同一用户车牌号五连号30分,手机号9连号40分,若设置超过60分为高风险,则该用户就是高风险用户,该数据评分表用于对群体数据中的用户数据进行评分,以便后续对用户的异常与否进行判断。具体地,可以在预设的数据评分中,以用户数据作为查询条件,查询与用户数据对应的分值,即为群体数据的风险评分。可以理解地,通过对群体数据进行评分,实现了对用户数据存在风险程度的量化,从而更加直观地反映了用户数据的风险程度和对应用户本身的异常与否。
需要说明的是,当群体数据含多个行为数据和属性数据时,可以采用预设的数据评分表对每一行为数据和属性数据进行评分,然后对评分进行汇总,即可得到群体数据的风险评分。其中的汇总方式可以是将每一行为数据和属性数据评分进行叠加后求取平均值的汇总方式,也可以是对每一行为数据和属性数据赋予相应的权值,进行加权求和的汇总方式。具体的权值设置可根据实际需要进行选择,此处不作限制。
S15:将风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
其中,异常用户是指风险程度较大的用户。具体地,当群体数据的风险评分大于预设的风险评分阈值时,表明该群体数据对应的用户数据风险程度较大,因此,该群体数据对应的用户即为异常用户。本步骤中,通过将风险评分与预设的风险评分阈值进行比较后,将风险评分较大的群体数据对应的用户确定为异常用户,由步骤S13中的群体数据的定义可知,该群体数据至少包含2个用户数据,即对应至少2个用户,因此,通过对群体数据进行风险评分并且比较判断,可以至少识别出2个异常用户,大大提高了异常用户的识别效率。
本实施例通过复杂网络对用户数据进行分析计算,将用户数据分为群体数据和个体数据,分别采用对应的方法计算风险度,提高了对异常用户的识别效率。另外,将识别出来的异常用户组成黑名单数据数据库,从而后续只需要将新增的用户数据与该黑名单数据库中的用户进行比对,加快了异常用户识别的速度。对于个体数据中的个体用户,采用基于机器学习的二分类算法进行分类判断,充分利用了该算法分类准确简单高效的特点,大大提高了异常用户识别的准确率和效率。
在一实施例中,如图3所示,步骤S12,即采用复杂网络计算M个所述用户数据的关联度,包括:
S120:获取K个预设的初始中心点。
S121:将用户数据中的每一属性数据和每一行为数据分配到与预设的初始中心点距离最近的社团,计算得到目标中心点。
S122:若目标中心点与所述初始中心点一致,则将社团内的用户数据和目标中心点的平均距离作为关联度。
S123:若目标中心点与初始中心点不一致,则通过迭代的方式对用户数据中的每一属性数据和每一行为数据进行重新分配社团,并计算目标中心点,直至达到预设的终止条件,将社团内的用户数据和目标中心点的平均距离作为关联度。
具体地,本实施例中是通过复杂网络中图论的思想,将用户数据中的每一属性数据和每一行为数据作为图中的一个点,采用K-Means聚类算法,首先获取K个预设的初始中心点,其中,K的个数可以根据用户数据的数量来确定,可以理解地,用户数据的数量越多,对应的K的数值就越高,可选地K可以为5、10、15、20或者50等。以K个初始中心点构建K个社团,然后就近分配每个顶点,把每个点分配到最近的中心点所在的社团,重新计算目标中心点,如果目标中心点不变,将社团内的用户数据和目标中心点的平均距离作为关联度;若目标中心点与初始中心点不一致,则通过迭代的方式对用户数据中的每一属性数据和每一行为数据进行重新分配社团,并计算目标中心点,直至达到预设的终止条件,将社团内的用户数据和目标中心点的平均距离作为关联度。该预设的终止条件可以为目标中心点和初始中心点的距离符合预设阈值,或者达到预设的迭代次数。这样可以通过用户的行为分析用户的意图,从而分析出羊毛党共有的特性。与此同时,采用了团体欺诈与个案欺诈两个方面来分析用户的风险程度,能够更加综合的、准确的进行判断。用户数据和目标中心点的平均距离可以通过计算社团内每一用户数据和目标中心点的距离之后去向量平均值即可。
可选地,通过距离算法计算图中两个点之间的距离。距离算法是指估算不同样本之间的相似性度量的算法。在一个实施方式中,可以采用曼哈顿距离、闵可夫斯基距离、余弦相似度或欧氏距离等算法来计算每一原始语音数据与目标中心点的距离。
在一个实施方式中,采用欧氏距离算法来计算每一原始语音数据与目标中心点的欧氏距离。
欧氏距离算法是指在m维空间中两个点之间的真实距离,或向量的自然长度(即该点到原点的距离)。任意两个n维向量a(Xi1,Xi2,...,Xin)与b(Xj1,Xj2,...,Xjn)的欧氏距离为对图中的两个顶点,通过欧式距离算法计算两个顶点间的欧氏距离。
在一实施例中,如图4所示,在采用复杂网络计算M个用户数据的关联度之后,还包括:
S16:若关联度小于预设的关联度阈值,则对M个用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率。
S17:将异常用户的概率大于预设的概率阈值的用户数据对应的用户确认为异常用户。
在本实施例中,当关联度小于预设的关联度阈值时,能够确定M个用户数据均为个体用户,即M个用户数据对应M个用户数据。因此需要对每一个体用户进行一一识别。进一步地,本实施例中,通过基于机器学习的二分类算法进行计算,根据计算的分类概率对该M个用户数据对应的用户进行识别。其中的机器学习的二分类算法是一种深度学习的分类方法,包括但不限于逻辑回归、GBDT、XGBOOST、LGBM、RF等算法,通过对用户数据进行建模,从而输出每个用户为异常用户的概率,大大提高了异常用户识别的准确率和效率。
在一实施例中,对M个用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率,包括:将用户数据中包含的每一行为数据和每一属性数据作为自变量,输入到所述二分类逻辑回归模型中,计算自变量的发生概率作为异常用户的概率。
具体地,具体地,进一步地,针对每一自变量,使用二分类逻辑回归模型中的Sigmoid函数计算该自变量的发生概率。
其中,Sigmoid函数可表示为:
其中,g(z)为自变量的发生概率,z为自变量,T为根据实际需要预设的参数,θ为自变因子,z∈(-∞,+∞),g(z)∈(0,1),自变因子为对该用户风险信息有影响的因子,q为用户标签,q=1表示为异常用户,q=0表示为正常用户。在q=1时,即计算该用户为异常用户的发生概率,在q=0时,即计算该用户为正常用户的发生概率。发生概率是指当前自变量能够使预设用户数据存在风险的概率。对于个体数据中的个体用户,采用基于机器学习的二分类算法进行分类判断,能够充分利用该算法分类准确简单高效的特点,大大提高异常用户识别的准确率和效率。
在一实施例中,将风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户之后,包括:将异常用户进行标记,并组成黑名单数据库。
其中,黑名单数据库是指所有异常用户组成的数据库,用于作为异常用户判断的标准。具体地,通过将每一将异常用户进行标记组成黑名单数据库,提高了对异常用户的识别效率,以便后续根据直接对用户数据进行识别,确定异常用户,丰富了黑名单数据库的数据,以便后续快速识别出异常用户。
在一实施例中,提供了一种异常用户识别装置,该异常用户识别装置与上述实施例中异常用户识别方法一一对应。如图5所示,该异常用户识别装置包括第一获取模块20、筛选模块21、计算模块22、确定模块23、第二获取模块24和识别模块25,各功能模块详细说明如下:
第一获取模块20,用于获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数。
筛选模块21,用于解析所述数据采集请求,得到数据采集信息,所述数据采集信息包括采集设备标识。
计算模块22,用于采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M。
确定模块23,用于将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据。
第二获取模块24,用于采用预设的数据评分表获取每一群体数据的风险评分。
识别模块25,用于将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
优选地,所述计算模块22包括初始中心点获取单元、目标中心点计算单元和关联度确定单元。
初始中心点获取单元,用于获取K个预设的初始中心点;
目标中心点计算单元,用于将所述用户数据中的每一属性数据和每一行为数据分配到与所述预设的初始中心点距离最近的社团,计算得到目标中心点;
关联度确定单元,用于若所述目标中心点与所述初始中心点一致,则将所述社团内的用户数据和目标中心点的平均距离作为关联度;若所述目标中心点与所述初始中心点不一致,则通过迭代的方式对用户数据中的每一属性数据和每一行为数据进行重新分配社团,并计算目标中心点,直至达到预设的终止条件,将社团内的用户数据和目标中心点的平均距离作为关联度。
优选地,该异常用户识别装置还包括异常概率计算模块和异常用户确定模块。
异常概率计算模块,用于若所述关联度小于预设的关联度阈值,则对M个所述用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率。
异常用户确定模块,用于将所述异常用户的概率大于预设的概率阈值的用户数据对应的用户确认为异常用户。
优选地,异常概率计算模块还用于将所述用户数据中包含的每一行为数据和每一属性数据作为自变量,输入到所述二分类逻辑回归模型中,计算所述自变量的发生概率作为所述异常用户的概率。
优选地,异常概率计算模块还用于使用二分类逻辑回归模型中的Sigmoid函数计算该自变量的发生概率g(z),其中,所述Sigmoid函数为:
其中,g(z)为自变量的发生概率,z为自变量,T为根据实际需要预设的参数,θ为自变因子,z∈(-∞,+∞),g(z)∈(0,1),自变因子为对该用户风险信息有影响的因子,q为用户标签,q=1表示为异常用户,q=0表示为正常用户。
优选地,该异常用户识别装置还用于将所述异常用户进行标记,并组成黑名单数据库。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
关于异常用户识别装置的具体限定可以参考上文中对于异常用户识别方法的限定,在此不再赘述。上述异常用户识别装置中的各个模块可以全部或部分通过软件或硬件及其组合来实现。上述个模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种异常用户识别访问方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;
采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
采用预设的数据评分表获取每一群体数据的风险评分;
将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;
采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
采用预设的数据评分表获取每一群体数据的风险评分;
将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种异常用户识别方法,其特征在于,包括:
获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
将所述属性数据与预设的数据库中的黑名单数据进行比对,删除与黑名单数据一致的用户数据,得到M个用户数据,其中,M为正整数,且M≤N;
采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
采用预设的数据评分表获取每一群体数据的风险评分;
将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
2.如权利要求1所述的异常用户识别方法,其特征在于,所述采用复杂网络计算M个所述用户数据的关联度,包括:
获取K个预设的初始中心点;
将所述用户数据中的每一属性数据和每一行为数据分配到与所述预设的初始中心点距离最近的社团,计算得到目标中心点;
若所述目标中心点与所述初始中心点一致,则将社团内的用户数据和目标中心点的平均距离作为关联度;
若所述目标中心点与所述初始中心点不一致,则通过迭代的方式对用户数据中的每一属性数据和每一行为数据进行重新分配社团,并计算目标中心点,直至达到预设的终止条件,将社团内的用户数据和目标中心点的平均距离作为关联度。
3.如权利要求1所述的异常用户识别方法,其特征在于,在所述采用复杂网络计算M个所述用户数据的关联度之后,还包括:
若所述关联度小于预设的关联度阈值,则对M个所述用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率;
将所述异常用户的概率大于预设的概率阈值的用户数据对应的用户确认为异常用户。
4.如权利要求3所述的异常用户识别方法,其特征在于,所述对M个所述用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率,包括:
将所述用户数据中包含的每一行为数据和每一属性数据作为自变量,输入到所述二分类逻辑回归模型中,计算所述自变量的发生概率作为所述异常用户的概率。
6.一种异常用户识别装置,其特征在于,包括:
第一获取模块,用于获取N个用户数据,每一所述用户数据包括行为数据和属性数据,其中,N为正整数;
筛选模块,用于解析所述数据采集请求,得到数据采集信息,所述数据采集信息包括采集设备标识;
计算模块,用于采用复杂网络对M个所述用户数据进行划分,得到K个社团,计算每一所述社团的关联度,K≤M;
确定模块,用于将所述关联度大于或者等于预设的关联度阈值对应的每一所述社团作为一个群体数据;
第二获取模块:用于采用预设的数据评分表获取每一群体数据的风险评分;
识别模块:用于将所述风险评分大于预设的风险评分阈值对应的群体数据中的用户识别为异常用户。
7.如权利要求6所述的异常用户识别装置,其特征在于,所述采用复杂网络计算M个所述用户数据的关联度,包括:
获取K个预设的初始中心点;
将所述用户数据中的每一属性数据和每一行为数据分配到与所述预设的初始中心点距离最近的社团,计算得到目标中心点;
若所述目标中心点与所述初始中心点一致,则社团内的用户数据和目标中心点的平均距离作为关联度;
若所述目标中心点与所述初始中心点不一致,则通过迭代的方式对用户数据中的每一属性数据和每一行为数据进行重新分配社团,并计算目标中心点,直至达到预设的终止条件,将社团内的用户数据和目标中心点的平均距离作为关联度。
8.如权利要求6所述的异常用户识别装置,其特征在于,在所述采用复杂网络计算M个所述用户数据的关联度之后,还包括:
若所述关联度小于预设的关联度阈值,则对M个所述用户数据中的每一用户数据采用基于机器学习的二分类算法进行计算,输出异常用户的概率;
将所述异常用户的概率大于预设的概率阈值的用户数据对应的用户确认为异常用户。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述异常用户识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述异常用户识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010037643.9A CN111259952B (zh) | 2020-01-14 | 2020-01-14 | 异常用户识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010037643.9A CN111259952B (zh) | 2020-01-14 | 2020-01-14 | 异常用户识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259952A true CN111259952A (zh) | 2020-06-09 |
CN111259952B CN111259952B (zh) | 2024-06-28 |
Family
ID=70954030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010037643.9A Active CN111259952B (zh) | 2020-01-14 | 2020-01-14 | 异常用户识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259952B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638422A (zh) * | 2020-06-11 | 2020-09-08 | 国家电网有限公司 | 基于电力大数据配电网故障的快速定位方法 |
CN112245930A (zh) * | 2020-09-11 | 2021-01-22 | 杭州浮云网络科技有限公司 | 一种风险行为识别方法、装置和计算机设备 |
CN113420941A (zh) * | 2021-07-16 | 2021-09-21 | 湖南快乐阳光互动娱乐传媒有限公司 | 用户行为的风险预测方法及装置 |
CN113870021A (zh) * | 2021-12-03 | 2021-12-31 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
CN114693179A (zh) * | 2022-05-25 | 2022-07-01 | 中国平安财产保险股份有限公司 | 风险客群划分评估方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324677A1 (en) * | 2008-05-19 | 2014-10-30 | Jpmorgan Chase Bank, N.A. | Method and system for detecting, monitoring and investigating first party fraud |
CN105117731A (zh) * | 2015-07-17 | 2015-12-02 | 常州大学 | 一种大脑功能网络的社团划分方法 |
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN108764323A (zh) * | 2018-05-22 | 2018-11-06 | 安徽大学 | 一种赛博平台经济网络中用户影响力检测方法 |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN109635298A (zh) * | 2018-12-11 | 2019-04-16 | 平安科技(深圳)有限公司 | 团体状态识别方法、装置、计算机设备及存储介质 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-01-14 CN CN202010037643.9A patent/CN111259952B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324677A1 (en) * | 2008-05-19 | 2014-10-30 | Jpmorgan Chase Bank, N.A. | Method and system for detecting, monitoring and investigating first party fraud |
CN105117731A (zh) * | 2015-07-17 | 2015-12-02 | 常州大学 | 一种大脑功能网络的社团划分方法 |
CN108733631A (zh) * | 2018-04-09 | 2018-11-02 | 中国平安人寿保险股份有限公司 | 一种数据评估方法、装置、终端设备及存储介质 |
CN108764323A (zh) * | 2018-05-22 | 2018-11-06 | 安徽大学 | 一种赛博平台经济网络中用户影响力检测方法 |
CN109450920A (zh) * | 2018-11-29 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种异常账号检测方法及装置 |
CN109635298A (zh) * | 2018-12-11 | 2019-04-16 | 平安科技(深圳)有限公司 | 团体状态识别方法、装置、计算机设备及存储介质 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111638422A (zh) * | 2020-06-11 | 2020-09-08 | 国家电网有限公司 | 基于电力大数据配电网故障的快速定位方法 |
CN112245930A (zh) * | 2020-09-11 | 2021-01-22 | 杭州浮云网络科技有限公司 | 一种风险行为识别方法、装置和计算机设备 |
CN112245930B (zh) * | 2020-09-11 | 2024-08-27 | 杭州浮云网络科技有限公司 | 一种风险行为识别方法、装置和计算机设备 |
CN113420941A (zh) * | 2021-07-16 | 2021-09-21 | 湖南快乐阳光互动娱乐传媒有限公司 | 用户行为的风险预测方法及装置 |
CN113870021A (zh) * | 2021-12-03 | 2021-12-31 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
CN113870021B (zh) * | 2021-12-03 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
CN114693179A (zh) * | 2022-05-25 | 2022-07-01 | 中国平安财产保险股份有限公司 | 风险客群划分评估方法、装置、设备及存储介质 |
CN114693179B (zh) * | 2022-05-25 | 2022-08-30 | 中国平安财产保险股份有限公司 | 风险客群划分评估方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111259952B (zh) | 2024-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259952B (zh) | 异常用户识别方法、装置、计算机设备及存储介质 | |
CN110245165B (zh) | 风险传导关联图谱优化方法、装置和计算机设备 | |
CN110415107B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN109949154B (zh) | 客户信息分类方法、装置、计算机设备和存储介质 | |
CN108268624B (zh) | 用户数据可视化方法及系统 | |
CN110781379A (zh) | 信息推荐方法、装置、计算机设备和存储介质 | |
CN105590055A (zh) | 用于在网络交互系统中识别用户可信行为的方法及装置 | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
KR102086936B1 (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
CN108280644B (zh) | 群组成员关系数据可视化方法及系统 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN112733045B (zh) | 用户行为的分析方法、装置及电子设备 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN112163096A (zh) | 一种恶意团体确定方法、装置、电子设备及存储介质 | |
CN112949914A (zh) | 一种产业集群的识别方法、装置、存储介质及电子设备 | |
CN113987182A (zh) | 基于安全情报的欺诈实体识别方法、装置及相关设备 | |
CN115618415A (zh) | 敏感数据识别方法、装置、电子设备和存储介质 | |
EP3451611B1 (en) | Method and apparatus for setting mobile device identifier | |
CN113065748A (zh) | 业务风险评估方法、装置、设备及存储介质 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110457600B (zh) | 查找目标群体的方法、装置、存储介质和计算机设备 | |
CN111339317A (zh) | 用户注册识别方法、装置、计算机设备和存储介质 | |
CN111427883A (zh) | 基于AeroSpike的数据处理方法、装置、计算机设备及存储介质 | |
CN115879819A (zh) | 企业信用评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |