CN111078969B - 一种基于ai的异常人群识别方法 - Google Patents

一种基于ai的异常人群识别方法 Download PDF

Info

Publication number
CN111078969B
CN111078969B CN201911077196.3A CN201911077196A CN111078969B CN 111078969 B CN111078969 B CN 111078969B CN 201911077196 A CN201911077196 A CN 201911077196A CN 111078969 B CN111078969 B CN 111078969B
Authority
CN
China
Prior art keywords
equipment
information
collecting
graph
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911077196.3A
Other languages
English (en)
Other versions
CN111078969A (zh
Inventor
颜晨帆
陈勇华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lizhi Network Technology Co ltd
Original Assignee
Guangzhou Lizhi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lizhi Network Technology Co ltd filed Critical Guangzhou Lizhi Network Technology Co ltd
Priority to CN201911077196.3A priority Critical patent/CN111078969B/zh
Publication of CN111078969A publication Critical patent/CN111078969A/zh
Application granted granted Critical
Publication of CN111078969B publication Critical patent/CN111078969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于AI的异常人群识别方法,包括如下步骤:步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。本发明解决了需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性的技术问题。

Description

一种基于AI的异常人群识别方法
技术领域
本发明属于人工智能算法领域,具体涉及一种基于AI的异常人群识别方法。
背景技术
伴随着直播和游戏等行业在互联网中的快速发展,在企业为了拉新和刺激用户活跃和留存而投入的各项活动里,潜伏着越来越多的黑产团伙,伪装成正常用户,通过批量化智能化的手段从中牟利。
黑产团伙往往拥有一批固定的硬件设备(手机墙和猫池等)和黑产人员,通过刷机和脚本变换各项参数,从而利用少量真实硬件设备“制造”无限虚拟账号,降低获利成本。
传统的黑产发现方法,是当黑产在平台产生具体异常行为(如批量异常注册,批量异常登陆,批量异常充值等)时,才会锁定该批用户为同一批黑产团伙。这样的发现方法,需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性。同时,黑产可轻松改变软件信息,继续注册新账号。
有鉴于此,本申请人提供一种基于AI的异常人群识别方法,本案由此产生。
发明内容
为了解决以上问题,提出了预见性的,无监督与有监督方法相结合的,可解释性更强的一种基于AI的异常人群识别方法。
为实现上述目的,本发明具体提供的技术方案为:一种基于AI的异常人群识别方法,包括如下步骤:
步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;
步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;
步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。
进一步,搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息。
进一步,搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征。
进一步,所述步骤二具体为:一、以设备为节点,以存在相同的设备信息和相似的交互行为和相似的设备自身行为为边;遍历所有节点和属性,生成网络中所有边;二、有关联边的节点形成一个子图,同个子图内的节点在一个或多个属性上关联关系;三、绘制成图,计算每个子图的聚类系数,计算每个子图的节点个数;四、任意汇总历史上一段时间内的设备信息,分析出该段时间内的设备团伙;五、不同时间段内若存在相同的设备,合并两个团伙,形成更大规模的团伙。
进一步,合并两个团伙,形成更大规模的团伙,以此类推,团伙可以累积扩大。
进一步,所述步骤三具体为:一、构建特征,步骤二的数据结构图构建后,得到每个图的共性;二、设计分类目标值,账号是否曾被人工标记违规为目标,建立分类预测模型;三、采用随机森林分类算法,构建模型;四、构建模型评价指标,作为账号处罚依据。
本发明的有益效果:本发明通过搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息,搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征,解决了需要用户有实际的批量异常行为,对于养号很久,仿真度高,一夜获利并消失的黑产作案模式,有明显的滞后性的技术问题。
附图说明
图1为根据一示例性实施例示出的一种基于AI的异常人群识别方法的流程图。
图2为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建原理图。
图3为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建图。
图4为根据一示例性实施例示出的一种基于AI的异常人群识别方法的混淆矩阵图。
图5为根据一示例性实施例示出的一种基于AI的异常人群识别方法的ROC曲线图。
实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
如图1所示,本实施例揭示的是一种基于AI的异常人群识别方法,包括如下步骤,
S100步骤一:搜集信息,以设备为研究对象,搜集设备在平台出现的所有设备信息;搜集信息时机,不论设备是否注册成功,设备在平台出现,开始搜集允许范围内的设备信息和账号信息;搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征。
S200步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示;
S300步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型。
结合图2-5所示,对上述步骤具体展开如下:
(一)搜集信息
搜集的时机:以设备为研究对象,搜集设备在平台出现的所有设备信息,即不论设备是否注册成功,只要该设备在平台出现,就开始搜集允许范围内的设备信息/账号信息。
搜集的内容:
a.首先搜集强设备信息,如硬件唯一标识等。
b.然后搜集设备间的交互行为。
在如荔枝/喜马拉雅等音频APP中,用户可以播放节目/对节目进行评论/对主播进行点赞/互发私信一对一聊天/开语音房间群聊。这些就是用户间产生的诸多种交互。这类平台也变为黑产掘金的宝地,有的成为水军乱发评论扰乱秩序,有的冒充官方低价金币买卖。分析用户的历史交互行为,可以从中发现用户交互的特征(如曾经在设备A登陆的账号,在设备B上进行了登陆,并完成充值后,交还设备A进行登陆消费;或者设备A从来只有充值行为,没有与任何一个主播有着该有的浏览收听等使用行为。这类行为与正常的使用行为有明显不同,有低价代充金币的嫌疑0p)。
c.设备自身行为特征
除了交互,设备本身的维度也可以产生很多特征,如:1分钟内发送的评论记录数/1分钟内发送的去重评论记录数
(二)无监督算法实现
本发明将以上搜集到的数据用数据结构图来表示,具体实现如下:
a.以设备为节点,以存在相同的设备信息/相似的交互行为/相似的设备自身行为为边。比如,设备A与设备B,在硬件唯一标识上相同,就在图中节点A和节点B之间生成的一条边。遍历所有节点和属性,生成网络中所有边。
b.有关联边的节点可以形成一个子图。同个子图内的节点在一个或多个属性上存在关联关系。因此,所有子图的集合反映了整个设备网络中的关联关系。
c.绘制成图后,可以计算每个子图的聚类系数,即团伙紧凑程度。可以计算每个子图的节点个数,即团伙大小。
d.任意汇总历史上一段时间内的设备信息,都可以分析出该段时间内的设备团伙。
e.不同时间段内若存在相同的设备,即可合并两个团伙,形成更大规模的团伙。以此类推。团伙可以累积扩大。
(三)有监督算法实现
本发明接着构建二分类的预测模型,具体实现方法如下:
a.构建特征
步骤②的图构建后,我们就可以得到每个图的共性,如都是拥有同批设备,同样的行为轨迹(同一天注册且同一天为某账号充值且同一天消失),同样的交互手段(账号在设备A退出后立即在设备B登陆,且充值后在充值页必截图,充值后必退出,再由设备A登陆进行消费)。此为算法输入。
b.设计分类目标值
账号在平台中会有诸多监管,如相关审核人员的巡检/用户的日常举报/公司审核人员的人工审核。本发明即以账号是否曾被人工标记违规为目标,建立分类预测模型。此为算法目标与预测输出。
c.构建模型
考虑到本模型特征个数极多(用户在不同时间维度内会产生非常多的行为信息),且行为相互影响复杂,与目标并不存在明显大量的共线性,部分自变量不相互独立,且预测耗时要求在0.1-1毫秒内的响应速度,这里采用随机森林分类算法。
d.构建模型评价指标
由于模型结果会作为账号的处罚依据(封禁/禁止发言),对用户有明显的感知。因此要求有极高的准确率,召回率为较高要求。因而这里需要计算混淆矩阵/准确率/精确率/召回率/F1值,综合评价。
从设备在全平台的任何一个场景中出现开始,搜集其硬件设备信息。用设备作为节点,用设备存在共同设备属性作为连边,构建图网络。
构建完成后,每个子网络即为一个团伙,子网络所包含的节点即为该团伙中的设备集合,网络的节点个数作为网络的规模。同时计算每个子图的聚类系数,即为子图的紧密度。
将图ID/图节点ID/图紧密度,作为输入源,提供给风控系统进行团伙标记,并由风控系统实施统一拦截。预见性强,无监督,可解释性强。
从硬件维度锁定了10大团伙,245个账号。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (2)

1.一种基于AI的异常人群识别方法,其特征在于,包括如下步骤:
步骤一:搜集信息:以设备为研究对象,搜集设备在平台出现的所有设备信息;搜集信息时机,不论设备是否注册成功,设备在平台出现时,开始搜集允许范围内的设备信息和账号信息;搜集内容,首先搜集强设备信息,然后搜集设备间的交互行为,再搜集设备自身行为特征;
步骤二:无监督算法实现,将以上搜集到的数据用数据结构图表示,所述步骤二具体为:一、以设备为节点,以存在相同的设备信息和相似的交互行为和相似的设备自身行为为边;遍历所有节点和属性,生成网络中所有边;二、有关联边的节点形成一个子图,同一个子图内的节点在一个或多个属性上存在关联关系;三、绘制成图,计算每个子图的聚类系数,计算每个子图的节点个数;四、任意汇总历史上一段时间内的设备信息,分析出该段时间内的设备团伙;五、不同时间段内若存在相同的设备,合并两个设备团伙,形成更大规模的设备团伙;
步骤三:有监督算法实现,通过步骤二中的数据结构图构建二分类的预测模型,所述步骤三具体为:一、构建特征,步骤二的数据结构图构建后,得到每个图的共性;二、设计分类目标值,账号是否曾被人工标记违规为目标,建立分类预测模型;三、采用随机森林分类算法,构建模型;四、构建模型评价指标,作为账号处罚依据。
2.根据权利要求1所述的一种基于AI的异常人群识别方法,其特征在于:合并两个设备团伙,形成更大规模的设备团伙,以此类推,团伙累积扩大。
CN201911077196.3A 2019-11-06 2019-11-06 一种基于ai的异常人群识别方法 Active CN111078969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911077196.3A CN111078969B (zh) 2019-11-06 2019-11-06 一种基于ai的异常人群识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911077196.3A CN111078969B (zh) 2019-11-06 2019-11-06 一种基于ai的异常人群识别方法

Publications (2)

Publication Number Publication Date
CN111078969A CN111078969A (zh) 2020-04-28
CN111078969B true CN111078969B (zh) 2023-06-09

Family

ID=70310662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911077196.3A Active CN111078969B (zh) 2019-11-06 2019-11-06 一种基于ai的异常人群识别方法

Country Status (1)

Country Link
CN (1) CN111078969B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115037790B (zh) * 2022-05-30 2023-04-28 平安银行股份有限公司 异常注册识别方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038778A (zh) * 2017-12-05 2018-05-15 深圳信用宝金融服务有限公司 互联网金融小微贷款的团伙欺诈识别方法及装置
CN110032583A (zh) * 2019-03-12 2019-07-19 平安科技(深圳)有限公司 一种欺诈团伙识别方法、装置、可读存储介质及终端设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038778A (zh) * 2017-12-05 2018-05-15 深圳信用宝金融服务有限公司 互联网金融小微贷款的团伙欺诈识别方法及装置
CN110032583A (zh) * 2019-03-12 2019-07-19 平安科技(深圳)有限公司 一种欺诈团伙识别方法、装置、可读存储介质及终端设备

Also Published As

Publication number Publication date
CN111078969A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
Blondel et al. A survey of results on mobile phone datasets analysis
Nejat et al. Agent‐based modeling of behavioral housing recovery following disasters
CN103024017B (zh) 一种社交网络重要目标及社区群体识别方法
CN110198310A (zh) 一种网络行为反作弊方法、装置及存储介质
CN109325691A (zh) 异常行为分析方法、电子设备及计算机程序产品
CN110837963A (zh) 一种基于数据、模型及策略的风险控制平台建设方法
Tardelli et al. Characterizing social bots spreading financial disinformation
Ajdani et al. Introduced a new method for enhancement of intrusion detection with random forest and PSO algorithm
CN111401447A (zh) 一种基于人工智能的流量作弊识别方法、装置、电子设备
CN112926941B (zh) 财务稽核规则的管理方法、装置、存储介质及服务器
CN113486584B (zh) 设备故障的预测方法、装置、计算机设备及计算机可读存储介质
CN105096057A (zh) 权力运行与预防腐败的监察模型系统
CN110009416A (zh) 一种基于大数据清洗和ai精准营销的系统
CN107357858B (zh) 一种基于地理位置的网络重构方法
CN111078969B (zh) 一种基于ai的异常人群识别方法
CN105117477B (zh) 一种自适应自反馈的虚拟资产异常发现系统及实现方法
CN112435034A (zh) 一种基于多网络图聚合的营销套利黑产的识别方法
Tsvetovat et al. On effectiveness of wiretap programs in mapping social networks
Mohelska et al. The creation of the qualitative scenarios in the virtual three-dimensional environment second life
Meyer et al. The importance of dynamic networks within a model of politics
Мазурок et al. An incentive system for decentralized DAG-based platforms
Song et al. Agricultural Internet of Things Application in the Construction of Regional Smart Cities
Shi et al. Analysis and research of the campus network user's behavior based on k-means clustering algorithm
Jegadeesan et al. Blockchain based lightweight and secure aggregation scheme for smart farming
Black et al. Clustering spatio-temporal bi-partite graphs for finding crowdsourcing communities in IoMT networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant