CN113254672A - 异常账号的识别方法、系统、设备及可读存储介质 - Google Patents

异常账号的识别方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN113254672A
CN113254672A CN202110695063.3A CN202110695063A CN113254672A CN 113254672 A CN113254672 A CN 113254672A CN 202110695063 A CN202110695063 A CN 202110695063A CN 113254672 A CN113254672 A CN 113254672A
Authority
CN
China
Prior art keywords
account
abnormal
accounts
node
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110695063.3A
Other languages
English (en)
Other versions
CN113254672B (zh
Inventor
成杰峰
彭奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110695063.3A priority Critical patent/CN113254672B/zh
Publication of CN113254672A publication Critical patent/CN113254672A/zh
Application granted granted Critical
Publication of CN113254672B publication Critical patent/CN113254672B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种异常账号的识别方法,包括,根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;根据各个节点关联的边的值,更新所述各个节点的警戒值;对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;及根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号;本发明在对账号进行警戒值排序的基础上,通过聚类分析对账号进行了二次检测,提高了异常账号的检测效率和检测准确率。

Description

异常账号的识别方法、系统、设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及异常账号的识别方法、系统、设备及可读存储介质。
背景技术
羊毛党通常通过网站或者APP等互联网渠道的促销活动,注册多个账号,恶意拼抢代金券、优惠券、抢红包等优惠活动,以低成本的手段获取物质实惠。羊毛党扰乱了购物秩序并增加了后台性能消耗。因此,有必要识别羊毛党并对羊毛党的行为进行一定的限制。本发明人所了解的是,可以通过社区检测方法识别羊毛党,类似SybilRank之类的检测系统会借鉴社交图谱来判断某个账户是否为羊毛党账号,而聪明的羊毛党用户会模仿正常用户的社交网络中的社交结构,通过这种方式,单纯依赖于社区检测就难以发现这些伪装为正常用户的羊毛党,识别效率低下且准确率较低。
发明内容
本发明的目的是提供一种异常账号的识别方法、系统、计算机设备及计算机可读存储介质,用于解决以下问题:用于提高异常账号(即羊毛党账号)检测的效率和准确率。
本发明实施例的一个方面提供了一种异常账号的识别方法,所述方法包括:根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性;根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号;对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;及根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号。
可选的,所述根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱的步骤,包括,抽取多个账号以及各个账号的账号属性;根据所述各个账号的账号属性,确定各个账号之间的关联关系;将所述各个账号之间的关联关系、所述多个账号及各个账号的账号属性以三元组数据格式存储,以构建反映所述各个账号之间的关联关系的知识图谱。
可选的,所述根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值的步骤,包括:获取第i个账号和各个其他账号之间的相同的账号属性的数量,以得到综合数量;所述第i个账号为所述多个账号中的任意一个账号,i为正整数;及根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值,所述第j个账号为所述各个其他账号中的任意一个账号,j为正整数。
可选的,所述根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值的步骤,包括,σi→j=linkout/linkall;其中,σi→j表示所述第i个节点与所述第j个节点之间的边的值,linkout代表所述第i个节点与所述第j个节点之间相同的账号属性的数量,linkall代表所述综合数量,所述综合数量表示所述第i个节点与所述各个其他账号之间相同的账号属性的总数量。相同的账号属性。
可选的,所述根据各个节点关联的边的值,更新所述各个节点的警戒值的步骤,包括:获取所述第i个节点与所述其他各个节点之间的边的值以及所述其他各个节点的初始警戒值,计算所述第i个节点的警戒值;其中,计算公式如下所示:
Figure BDA0003127911820000031
其中i表示第i个节点,m表示第m个节点,n表示第n个节点,所述其他各个节点包括所述第m个节点以及所述第n个节点,i、m、n均为正整数;σi→m表示所述第i个节点到所述第m个节点之间的边的值,PR(i)表示第i个节点的警戒值,PR(m)表示所述第m个节点的初始警戒值;q为阻尼系数。
可选的,所述根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号的步骤,包括,选取预定时间窗口以及所述若干个羊毛党账号中的第k个账号,根据所述第k个账号的账号属性,对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号,将所述多个目标账号以及所述若干个异常账号确定为目标异常账号;所述第k个账号为所述若干个异常账号之一,k为正整数;所述预定时间窗口是指优惠活动期间的一段时间;所述多个在线账号是指与所述若干个异常账号不相同的其他账号。
可选的,选取预定时间窗口以及所述若干个异常账号中的第k个账号,根据所述第k个账号的账号属性,对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号,将所述多个目标账号确定为目标异常账号;所述第k个账号为所述若干个异常账号之一,k为正整数;所述预定时间窗口是指优惠活动期间的一段时间;所述多个在线账号是指与所述若干个异常账号不相同的其他账号。
本发明实施例的一个方面又提供了异常账号的识别系统,所述异常账号的识别系统包括:
图谱构建模块,用于根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性;
计算模块,用于根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;
更新模块,用于根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号;
排序模块,对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;
选取模块,用于根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号,所述目标异常账号表示伪装成正常用户的异常账号。
本发明实施例的一个方面又提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述异常账号的识别方法的步骤。
本发明实施例的一个方面又提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述异常账号的识别方法的步骤。
本发明实施例提供的异常账号的识别方法、系统、设备及计算机可读存储介质,首先构建知识图谱,从知识图谱中获取边的值,通过边的值计算账号的警戒值,通过对警戒值排序找到异常账号,再对找出的异常账号进行聚类分析,在多个在线账号中选取与异常账号的距离小于预定阀值的多个目标账号作为目标异常账号,目标异常账号即为伪装为正常用户的羊毛党;本发明在对账号进行警戒值排序的基础上,通过聚类分析对账号进行了二次检测,提高了异常账号的检测效率和检测准确率。
附图说明
图1示意性示出了根据本发明实施例一的异常账号的识别方法的流程图;
图2示意性示出了根据本发明实施例二的异常账号的识别系统的框图;及
图3示意性示出了根据本发明实施例三的适于实现异常账号的识别方法的计算机设备的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不标识执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面为本发明涉及的术语解释:
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。在本发明实施例中,知识图谱是指多关系图(Multi-relational Graph),包含多种类型的节点和多种类型的边,通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物,在本实施例中实体为用户账号,关系则用来表达不同实体之间的某种联系。
警戒值(Vigilance),用于表示需要引起注意的值,在本发明中用于表示账号为羊毛党账号的注意值。
聚类中心(Cluster Center),将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类;聚类中心用来代表某一类的中心,其他样本通过与它计算距离来决定是否属于该类。
下面将以计算机设备为执行主体对本发明提供的伪装羊毛党的识别方案进行示例性描述。
实施例一
图1示意性示出了根据本发明实施例一的异常账号的识别方法的流程图。
如图1所示,该异常账号的识别方法可以包括步骤S101~S105,其中:
步骤S101,根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性。
作为优选方案,所述账号属性用于反映账号注册登录信息,账号注册登录信息可以包括账号的注册时间、登录时间以及登录的IP地址,地区,设备名称以及序列码,历史购买信息;具有相同的账号属性可以包括两个账号之间处于同一网关、互为好友、共用一台设备、或共用一个IP、历史购买同一件商品。判定两个账号之间是否具有相同的账号属性可以不受时间维度的限制,例如:如果两个账号具有在相同时间节点或不同时间节点共用同一台设备的记录,均可以认定为这两个账号之间具有相同的账号属性。
为了获取多组关联账号,在所述根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱的步骤,包括,
步骤S101-1,抽取多个账号以及各个账号的账号属性;
步骤S101-2,根据所述各个账号的账号属性,确定各个账号之间的关联关系;
步骤S101-3,将所述各个账号之间的关联关系、所述多个账号及各个账号的账号属性以三元组数据格式存储,以构建反映所述各个账号之间的关联关系的知识图谱。
在步骤S101中,可通过后台服务器提取多个账号的多个账号属性,计算机设备6通过分析各个账号中的账号属性,以判断两账号之间是否存在相同的账号属性,根据两账号是否存在相同的账号属性,从而判断两账号是否相互关联,根据两账号之间的关联关系,构建知识图谱中的边,其中所述多个账号可以包括通过网站或者APP等互联网注册的账号。
作为优选方案,所述多个账号中的一个账号对应于所述多个节点中的一个节点,两节点之间存在相同的账号属性,则在两节点之间构建一条边,知识图谱的构建过程包括实体抽取、关系抽取、属性抽取,在本实施例中,账号属于结构化数据,可从集成在APP后台的数据库中按照某一规则直接抽取,若账号属性属于非结构化文本,可通过远程监督和强化学习的方法对账号属性进行抽取;然后通过账号的账号属性,确定账号之间的关联关系(即账号之间的相同的账号属性),然后将所述各个账号之间的关联关系、所述多个账号及各个账号属性存储到现有技术中的RDF三元组数据中,从而构建出反映账号关联关系的知识图谱;可通过所述知识图谱查询账号的属性信息。
三元组数据是指形如((x,y),z)的集合,其中x代表一个账号,y代表与x有关联关系的另一账号,z表示x与y之间的关联关系,RDF是一种描述资源的方式,每一条资源的描述都是一个由上述三元组构成的短句;本实施例的资源表示账号。
为了利用构建后的知识图谱,本实施例还包括步骤S102,根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值。
作为优选方案,为了进一步确定知识图谱中节点与节点之间的关联关系,以筛选出伪装为正常用户的异常账号,本实施例根据每个账号与其他账号之间的相同的账号属性的数量,对知识图谱上的每条边赋值,从而得到每条边的值,其中确定每条边的值的步骤具体包括:
步骤S102-1:获取第i个账号和各个其他账号之间的相同的账号属性的数量,以得到综合数量;所述第i个账号为所述多个账号中的任意一个账号,i为正整数。
作为优选方案,可通过计算机设备的后台服务器获取第i个账号的若干个羊毛党账号属性,监听与所述第i个账号具有相同的账号属性的各个其他账号,统计所述第i个账号和各个其他账号之间的相同的账号属性的总数量作为综合数量。
步骤S102-2:根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值,所述第j个账号为所述各个其他账号中的任意一个账号,j为正整数。
作为优选方案,本实施例提供一种计算所述第i个节点和所述第j个节点之间的边的值的方法,具体包括:
步骤S102-2A:σi→j=linkout/linkall;其中,σi→j表示所述第i个节点与所述第j个节点之间的边的值,linkout代表所述第i个节点与所述第j个节点之间相同的账号属性的数量,linkall代表所述综合数量,所述综合数量表示所述第i个节点与所述各个其他账号之间相同的账号属性的总数量。
示例性的,假设第i个账号和第j个账号以及第p个账号都存在相同的账号属性,且第i个账号、第j个账号以及第p个账号分别对应第i个节点、第j个节点以及第p个节点,第i个节点与第j个节点之间相同的账号属性的数量为3,第i个节点与第k个节点之间相同的账号属性的数量为2,则第i个节点与第j个节点之间的边的值为
Figure BDA0003127911820000091
步骤S103,根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号。
本实施例中的异常账号可以是羊毛党账号,目标异常账号可以是伪装成正常用户的羊毛党账号。
通过步骤S103获取到的警戒值用于表示对应账号为异常账号的几率,警戒值越高,相应的节点对应的账号为异常账号的几率越大;下面对如何获取警戒值的步骤具体阐述。
作为优选方案,所述根据各个节点关联的边的值,更新所述各个节点的警戒值的步骤,包括:
S103-1获取所述第i个节点与所述其他各个节点之间的边的值以及所述其他各个节点的初始警戒值,计算所述第i个节点的警戒值;其中,计算公式如下所示:
Figure BDA0003127911820000101
其中i表示第i个节点,m表示第m个节点,n表示第n个节点,所述其他各个节点包括所述第m个节点以及所述第n个节点,i、m、n均为正整数;σi→m表示所述第i个节点到所述第m个节点之间的边的值,PR(i)表示第i个节点的警戒值,PR(m)表示所述第m个节点的初始警戒值;q为阻尼系数;q的值优选为0.85。
示例性的,本实施例主要目的是为了找出伪装为正常用户的异常账号,所以对已经找出的异常账号,系统会给定一个更高的初始警戒值,在本实施例的优选方案中,可通过现有技术手段在多组账号中识别到异常账号;而现有技术手段可以通过现有的社区检测工具、通过身份信息建立用户画像、或者众包检测策略找出异常账号;假设将已识别为异常账号的警戒值的初始值为1;其他未被识别的账号的警戒值的初始值为0.5;
假设第i个节点与第m个节点以及所述第n个节点存在边的值,其中第i个节点与第m个节点的边的值
Figure BDA0003127911820000111
所述第i个节点与所述第n个节点的边的值为1/2,则根据上述公式计算后的
Figure BDA0003127911820000112
通过上述计算结果更新第i个节点的警戒值。
作为优选方案,异常账号被限制行为后,通常会与原限制的异常账号在同一台设备或者同一IP上注册新的账号或者使用其他账号,因此异常账号与异常账号的交互行为比正常账号之间的交互行为更多,根据上述分析可知,通过步骤S103-1对各个账号的警戒值的计算后,异常账号的警戒值会比正常账号的警戒值更高。
步骤S104:对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号。
作为优选方案,相比于正常账号,异常账号的警戒值会比正常账号的警戒值更高,所以在本实施例中,通过对各个账号的警戒值进行降序排列,截取位于序列前10%~15%的警戒值对应的账号作为挑选出的若干个异常账号;通过以上方法筛选出若干个节点作为异常账号相比于只是通过SynchroTrap算法对全体账号进行k均值聚类,计算量会显著减少,同时也会提高筛选出异常账号的准确率。
由于警戒值的高低并不是判断异常账号的唯一条件,上述方法会依赖于两账号之间的相同的账号属性的选择,而聪明的用户会伪装彼此的社交关系(即与异常账号在正常时间段不存在相同的账号属性),以此看上去与活跃合法用户的社交关系图(即账号关联关系的图谱)并无二致,所以只是通过以上方法筛选出的账号存在局限性,为了提高进一步筛选出这一类伪装为正常用户的异常账号的准确性,本申请引入了如下方法获取伪装为正常用户的异常账号。
步骤S105:根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号。
示例性的,伪装的羊毛党账号在特定时间窗口(例如红包刚开始发放的时期),具有与羊毛党账号的爆发性聚集行为,通过这一特性,本实施例筛选与若干个异常账号具有爆发性聚集行为(即相邻)的多个账号;所述根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号的步骤,具体包括:
步骤S105-1:选取预定时间窗口以及所述若干个异常账号中的第k个账号,根据所述第k个账号的账号属性,对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号,将所述多个目标账号确定为目标异常账号;所述第k个账号为所述若干个羊毛党账号之一,k为正整数;所述预定时间窗口是指优惠活动期间的一段时间;所述多个在线账号是指与所述若干个异常账号不相同的其他账号。
为了筛选出目标异常账号,本实施例可根据与所述第k个账号具有相同属性的若干个账号,找出与所述第k个账号关联性最高的多个目标账号,本实施例公开了一种优选方法用于计算所述第k个账号与所述多个在线账号的相似度,对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号的步骤,包括:
步骤S105-1A:将所述第k个账号作为一个聚类中心,分析所述聚类中心相邻的多个在线账号与所述聚类中心的距离,在所述多个在线账号中选取与所述聚类中心的距离小于预定阈值的多个目标账号。
为了计算所述多个在线账号与所述聚类中心的距离,本实施例还提供了一种相似度的计算公式,其中所述计算公式如下:
Figure BDA0003127911820000121
其中,d(I,J)表示所述第k个账号与第j个账号的距离,I表示所述第k个账号与外部具有相同的账号属性的所有账号的集合,J表示第j个账号与外部具有相同的账号属性的集合,其中所述k、j均为正整数。
示例性的,假设所述第k个账号与a账号、b账号、c账号、d账号具有相同的账号属性,所述第j个账号与所述b账号、m账号、l账号、d账号具有相同的账号属性,则所述第k个账号与所述第j个账号的距离
Figure BDA0003127911820000131
假设预定阀值为3/5,则2/3大于3/5,即所述第j个账号不为所述多个目标账号中的一个,即所述第j个账号不为目标异常账号。
作为优选方案,本实施例通过Jaccad相似度函数,找出了在当前时间窗口下与异常账号具有高度相似的账号集,通过新的账号集作为伪装成正常用户的异常账号;为了提高利用上述公式计算出的账号集的可信度,时间窗口的选择尤为重要,异常账号之间在某一时间窗口存在着聚集性行为,这里指的聚集性行为与所述相同的账号属性的解释类似,但加上时间维度作为限制条件。
作为优选方案,异常账号相比于普通的用户会更加关注优惠活动,优惠活动一般存在着数量和时间限制,所以为了抢到此优惠,异常账号的上线时间或者发生购买行为的时间节点,多数是在优惠或者红包刚上线的时期,而在这一时期的异常账号的活跃度会高于正常用户,而且具有反复批量的行为;
作为优选方案,在活动开始的初始时间点,截取T时间段作为时间窗口,在T时间段上获取的在线账号对应步骤S105中的在线账号,通过所述在线账号与所述第k个账号进行相似度计算;并将获取的多个目标账号作为本实施例筛选出的伪装为正常用户的异常账号。
与现有的检测技术相比,本申请使用的有监督算法和无监督算法的混合模型,首先通过对异常账号的行为特征进行分析,从而挑选出几组账号属性,通过步骤S100~步骤S104找到的若干组节点作为若干个异常账号,由于高级的异常账号平时会伪装自己的社交网络,只有在某一时间维度才会与其他账号具有相同的账号属性,所以为了筛选出这一部分账号;本实施例通过选取特定的时间窗口,通过计算在这一时间窗口在线账号与若干个异常账号之间的相似度,从而可匹配出与目标账号集行为相似度较高的账号,作为伪装为正常用户的异常账号,通过本实施例筛选出的账号相比于现有技术手段查全率更高,可应用于对更加高级的羊毛党机器人的系统检测工程中。
实施例二
图2示意性示出了根据本发明的异常账号的识别系统的框图,该训练系统可以被分割成程序模块,一个或者多个程序模块被存储于存储介质中,并由处理器所执行,以完成本发明实施例。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,以下描述将具体介绍本实施例中各程序模块的功能。
如图2所示,该异常账号的识别系统130可以包括图谱构建模块131、计算模块132、更新模块133、排序模块134、选取模块135。其中:
图谱构建模块131,用于根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性;
计算模块132,用于根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;
更新模块133,用于根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号;
排序模块134,对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;
选取模块135,根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号,所述目标异常账号表示伪装成正常用户的异常账号。
作为优选方案,所述图谱构建模块131还用于抽取多个账号以及各个账号的账号属性;并根据所述各个账号的账号属性,确定各个账号之间的关联关系;将所述各个账号之间的关联关系、所述多个账号及各个账号的账号属性以三元组数据格式存储,以构建反映所述各个账号之间的关联关系的知识图谱。
作为优选方案,所述计算模块132还用于获取第i个账号和各个其他账号之间的相同的账号属性的数量,以得到综合数量;所述第i个账号为所述多个账号中的任意一个账号,i为正整数;及
根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值,所述第j个账号为所述各个其他账号中的任意一个账号,j为正整数。
作为优选方案,所述计算模块132还用于通过σi→j=linkout/linkall计算所述第i个节点与所述第j个节点之间的边的值;
其中,σi→j表示所述第i个节点与所述第j个节点之间的边的值,linkout代表所述第i个节点与所述第j个节点之间相同的账号属性的数量,linkall代表所述综合数量,所述综合数量表示所述第i个节点与所述各个其他账号之间相同的账号属性的总数量。
作为优选方案,所述更新模块133还用于获取所述第i个节点与所述其他各个节点之间的边的值以及所述其他各个节点预设的初始警戒值,计算所述第i个节点的警戒值;其中,计算公式如下所示:
Figure BDA0003127911820000161
其中,i表示第i个节点,m表示第m个节点,n表示第n个节点,所述其他各个节点包括所述第m个节点以及所述第n个节点,i、m、n均为正整数;σi→m表示所述第i个节点到所述第m个节点之间的边的值,PR(i)表示第i个节点的警戒值,PR(m)表示所述第m个节点的初始警戒值;q为阻尼系数。
作为优选方案,所述选取模块135还用于选取预定时间窗口以及所述若干个异常账号中的第k个账号;根据所述第k个账号的账号属性,对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号,将所述多个目标账号确定为目标异常账号;所述第k个账号为所述若干个异常账号之一,k为正整数;所述预定时间窗口是指优惠活动期间的一段时间;所述多个在线账号是指与所述若干个异常账号不相同的其他账号。
作为优选方案,所述选取模块135还用于将所述第k个账号作为一个聚类中心,分析所述聚类中心相邻的多个在线账号与所述聚类中心的距离,在所述多个在线账号中选取与所述聚类中心的距离小于预定阈值的多个目标账号。
实施例三
图3示意性示出了根据本发明实施例三的适于实现异常账号的识别方法的计算机设备6的硬件架构示意图。本实施例中,计算机设备6是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。例如,可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)、网关等。如图3所示,计算机设备6至少包括但不限于:可通过系统总线相互通信链接存储器141、处理器142、网络接口143。其中:
存储器141至少包括一种类型的计算机可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器141可以是计算机设备6的内部存储模块,例如该计算机设备6的硬盘或内存。在另一些实施例中,存储器141也可以是计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(SmartMedia Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,存储器141还可以既包括计算机设备6的内部存储模块也包括其外部存储设备。本实施例中,存储器141通常用于存储安装于计算机设备6的操作系统和各类应用软件,例如异常账号的识别方法的程序代码等。此外,存储器141还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器142在一些实施例中可以是中央处理器(Central Processing Unit,简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器142通常用于控制计算机设备6的总体操作,例如执行与计算机设备6进行数据交互或者通信相关的控制和处理等。本实施例中,处理器142用于运行存储器141中存储的程序代码或者处理数据。
网络接口143可包括无线网络接口或有线网络接口,该网络接口143通常用于在计算机设备6与其他计算机设备之间建立通信链接。例如,网络接口143用于通过网络将计算机设备6与外部终端相连,在计算机设备6与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication,简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access,简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件141-143的计算机设备,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器141中的异常账号的识别方法还可以被分割为一个或者多个程序模块,并由处理器(本实施例为处理器142)所执行,以完成本发明实施例。
实施例四
本发明还提供一种计算机可读存储介质,计算机可读存储介质其上存储有计算机程序,计算机程序被处理器执行时实现实施例中的异常账号的识别方法的步骤。
本实施例中,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,计算机可读存储介质可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,计算机可读存储介质也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,简称为SMC),安全数字(Secure Digital,简称为SD)卡,闪存卡(Flash Card)等。当然,计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例中异常账号的识别方法的程序代码等。此外,计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种异常账号的识别方法,其特征在于,所述方法包括:
根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性;
根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;
根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号;
对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;及
根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号,所述目标异常账号表示伪装成正常用户的异常账号。
2.根据权利要求1所述的异常账号的识别方法,其特征在于,所述根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱的步骤,包括:
抽取多个账号以及各个账号的账号属性;
根据所述各个账号的账号属性,确定各个账号之间的关联关系;
将所述各个账号之间的关联关系、所述多个账号及各个账号的账号属性以三元组数据格式存储,以构建反映所述各个账号之间的关联关系的知识图谱。
3.根据权利要求1所述的异常账号的识别方法,其特征在于,所述根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值的步骤,包括:
获取第i个账号和各个其他账号之间的相同的账号属性的数量,以得到综合数量;所述第i个账号为所述多个账号中的任意一个账号,i为正整数;及
根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值,所述第j个账号为所述各个其他账号中的任意一个账号,j为正整数。
4.根据权利要求3所述的异常账号的识别方法,其特征在于,所述根据所述第i个账号和第j个账号之间的相同的账号属性的数量和所述综合数量,计算得到对应于所述第i个账号的第i个节点和对应于所述第j个账号的第j个节点之间的边的值的步骤,包括:
σi→j=linkout/linkall;
其中,σi→j表示所述第i个节点与所述第j个节点之间的边的值,linkout代表所述第i个节点与所述第j个节点之间相同的账号属性的数量,linkall代表所述综合数量,所述综合数量表示所述第i个节点与所述各个其他账号之间相同的账号属性的总数量。
5.根据权利要求4所述的异常账号的识别方法,其特征在于,所述根据各个节点关联的边的值,更新所述各个节点的警戒值的步骤,包括:
获取所述第i个节点与所述其他各个节点之间的边的值以及所述其他各个节点预设的初始警戒值,计算所述第i个节点的警戒值;其中,计算公式如下所示:
Figure FDA0003127911810000021
其中,i表示第i个节点,m表示第m个节点,n表示第n个节点,所述其他各个节点包括所述第m个节点以及所述第n个节点,i、m、n均为正整数;σi→m表示所述第i个节点到所述第m个节点之间的边的值,PR(i)表示第i个节点的警戒值,PR(m)表示所述第m个节点的初始警戒值;q为阻尼系数。
6.根据权利要求1-5任一项所述的异常账号的识别方法,其特征在于,所述根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号的步骤,包括,
选取预定时间窗口以及所述若干个异常账号中的第k个账号;
根据所述第k个账号的账号属性,对与所述第k个账号同时在线的多个在线账号聚类;
在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号,将所述多个目标账号确定为目标异常账号;所述第k个账号为所述若干个羊毛党账号之一,k为正整数;所述预定时间窗口是指优惠活动期间的一段时间;所述多个在线账号是指与所述若干个异常账号不相同的其他账号。
7.根据权利要求6所述的异常账号的识别方法,其特征在于,所述对与所述第k个账号同时在线的多个在线账号聚类;在所述多个在线账号中选取与所述第k个账号相邻的多个目标账号的步骤,包括:
将所述第k个账号作为一个聚类中心,分析所述聚类中心相邻的多个在线账号与所述聚类中心的距离,在所述多个在线账号中选取与所述聚类中心的距离小于预定阈值的多个目标账号。
8.一种异常账号的识别系统,其特征在于,还包括:
图谱构建模块,用于根据多个账号和各个账号的账号属性,构建反映各个账号之间的关联关系的知识图谱;其中,所述知识图谱包括多个节点和多条边,所述多个节点一一对应所述多个账号,位于每条边的两端的节点对应的账号之间具有相同的账号属性;
计算模块,用于根据每个账号与其他账号之间的相同的账号属性的数量,确定每条边的值;
更新模块,用于根据各个节点关联的边的值,更新所述各个节点的警戒值,所述警戒值用于判定异常账号;
排序模块,用于对所述各个节点的警戒值排序,根据排序结果筛选出若干个节点,所述若干个节点对应若干个异常账号;
选取模块,用于根据所述若干个异常账号,将与任意一个异常账号相邻的账号确定为目标异常账号,所述目标异常账号表示伪装成正常用户的异常账号。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时用于实现权利要求1~7中任一项所述的异常账号的识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,其内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行权利要求1~7中任一项所述的异常账号的识别方法的步骤。
CN202110695063.3A 2021-06-23 2021-06-23 异常账号的识别方法、系统、设备及可读存储介质 Active CN113254672B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110695063.3A CN113254672B (zh) 2021-06-23 2021-06-23 异常账号的识别方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110695063.3A CN113254672B (zh) 2021-06-23 2021-06-23 异常账号的识别方法、系统、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113254672A true CN113254672A (zh) 2021-08-13
CN113254672B CN113254672B (zh) 2023-07-18

Family

ID=77189241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110695063.3A Active CN113254672B (zh) 2021-06-23 2021-06-23 异常账号的识别方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113254672B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235654A (zh) * 2023-11-15 2023-12-15 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
US10938853B1 (en) * 2018-08-29 2021-03-02 Amazon Technologies, Inc. Real-time detection and clustering of emerging fraud patterns
CN112860951A (zh) * 2019-11-28 2021-05-28 武汉斗鱼鱼乐网络科技有限公司 一种识别目标账号的方法及系统
CN113010896A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 确定异常对象的方法、装置、设备、介质和程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10938853B1 (en) * 2018-08-29 2021-03-02 Amazon Technologies, Inc. Real-time detection and clustering of emerging fraud patterns
CN112860951A (zh) * 2019-11-28 2021-05-28 武汉斗鱼鱼乐网络科技有限公司 一种识别目标账号的方法及系统
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置
CN113010896A (zh) * 2021-03-17 2021-06-22 北京百度网讯科技有限公司 确定异常对象的方法、装置、设备、介质和程序产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235654A (zh) * 2023-11-15 2023-12-15 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及系统
CN117235654B (zh) * 2023-11-15 2024-03-22 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及系统

Also Published As

Publication number Publication date
CN113254672B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US12041064B2 (en) Method and system for classifying data objects based on their network footprint
CN111698247B (zh) 异常账号检测方法、装置、设备及存储介质
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN110610196B (zh) 脱敏方法、系统、计算机设备和计算机可读存储介质
CN106469276B (zh) 数据样本的类型识别方法及装置
CN116305168B (zh) 一种多维度信息安全风险评估方法、系统及存储介质
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN110855648A (zh) 一种网络攻击的预警控制方法及装置
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN112860808B (zh) 基于数据标签的用户画像分析方法、装置、介质和设备
CN111800292A (zh) 基于历史流量的预警方法、装置、计算机设备及存储介质
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN112347474A (zh) 一种安全威胁情报的构建方法、装置、设备和存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN115632874A (zh) 一种实体对象的威胁检测方法、装置、设备及存储介质
CN113254672B (zh) 异常账号的识别方法、系统、设备及可读存储介质
CN113472860A (zh) 大数据和数字化环境下的业务资源分配方法及服务器
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN114495137B (zh) 票据异常检测模型生成方法与票据异常检测方法
CN110781410A (zh) 一种社群检测方法及装置
CN112699934B (zh) 一种告警分类方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant