CN114861163A - 异常帐号的识别方法、装置、设备、存储介质及程序产品 - Google Patents
异常帐号的识别方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114861163A CN114861163A CN202210472268.XA CN202210472268A CN114861163A CN 114861163 A CN114861163 A CN 114861163A CN 202210472268 A CN202210472268 A CN 202210472268A CN 114861163 A CN114861163 A CN 114861163A
- Authority
- CN
- China
- Prior art keywords
- account
- accounts
- relation
- matrix
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000011159 matrix material Substances 0.000 claims abstract description 145
- 238000009792 diffusion process Methods 0.000 claims abstract description 119
- 230000004927 fusion Effects 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 28
- 230000006399 behavior Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 230000002547 anomalous effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 238000012550 audit Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/45—Structures or tools for the administration of authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种异常帐号的识别方法、装置、设备、存储介质及程序产品,属于人工智能领域。所述方法包括:获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;基于至少两个帐号关系矩阵生成目标扩散核,目标扩散核用于表征帐号之间的关联关系的扩散情况;基于目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,已标注帐号和未标注帐号为帐号关系矩阵中的帐号。由于异常帐号之间的通常存在关联性,因此在进行异常帐号识别时基于帐号关系矩阵挖掘帐号间的关系,并以已标注帐号作为锚点能够挖掘出潜在的异常帐号,有助于提高异常帐号的识别准确率。
Description
技术领域
本申请实施例涉及人工智能领域,特别涉及一种异常帐号的识别方法、装置、设备、存储介质及程序产品。
背景技术
平台中的异常帐号会对平台在成严重危害,因此如何识别出异常帐号成为平台维护的重要课题。
相关技术中,通过收集帐号的大量帐号信息,从而基于帐号自身的帐号特征进行异常帐号识别。然而,上述方案中将各个帐号作为独立个体进行识别,识别的准确率较低。
发明内容
本申请实施例提供了一种异常帐号的识别方法、装置、设备、存储介质及程序产品。所述技术方案如下:
一方面,本申请实施例提供了一种异常帐号的识别方法,所述方法包括:
获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且所述帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;
基于至少两个所述帐号关系矩阵生成目标扩散核,所述目标扩散核用于表征帐号之间的关联关系的扩散情况;
基于所述目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,所述已标注帐号和所述未标注帐号为所述帐号关系矩阵中的帐号。
另一方面,本申请实施例提供了一种异常帐号的识别装置,所述装置包括:
获取模块,用于获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且所述帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;
生成模块,用于基于至少两个所述帐号关系矩阵生成目标扩散核,所述目标扩散核用于表征帐号之间的关联关系的扩散情况;
识别模块,用于基于所述目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,所述已标注帐号和所述未标注帐号为所述帐号关系矩阵中的帐号。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的异常帐号的识别方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上述方面所述的异常帐号的识别方法。
另一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现上述方面所述的异常帐号的识别方法。
本申请实施例中,计算机设备通过获取至少两个表征不同帐号间关联关系的帐号关系矩阵,并基于至少两个帐号关系矩阵生成表征帐号间关联关系扩散情况的目标扩散核,从而基于该目标扩散核以及帐号关系矩阵中的已标注帐号,识别出未标注帐号中的异常帐号;由于异常帐号之间的通常存在关联性,因此在进行异常帐号识别时基于帐号关系矩阵挖掘帐号间的关系,并以已标注帐号作为锚点能够挖掘出潜在的异常帐号,有助于提高异常帐号的识别准确率。
附图说明
为了更清楚地介绍本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请一个示例性实施例提供的实施环境的示意图;
图2示出了本申请一个示例性实施例提供的异常帐号的识别方法的流程图;
图3示出了本申请另一个示例性实施例提供的异常帐号的识别方法的流程图;
图4是本申请一个示例性实施例示出的参数训练过程的流程图;
图5是本申请一个示例性实施例示出的参数训练以及异常帐号识别过程的实施示意图;
图6示出了本申请一个示例性实施例提供的异常帐号的识别装置的结构框图。
具体实施方式
图1是本申请一个示例性实施例提供的实施环境的示意图,该实施环境中包括终端110以及服务器120。
终端110是用于设置异常帐号识别任务的电子设备,该电子设备可以是智能手机、平板电脑、个人计算机或个人工作站等等。图1中以终端110为个人计算机为例进行说明,但并不对此构成限定。
可选的,终端110用于向服务器120发布异常帐号识别任务,该异常帐号识别任务可以包括异常帐号的识别范围,以及异常帐号类型。其中,该异常帐号的识别范围可以基于帐号归属地、帐号等级、帐号注册时间等等进行划分,该异常帐号类型可以包括灰产帐号、水军帐号、外挂帐号等等,本申请实施例并不对异常帐号识别任务的具体内容进行限定。
服务器120是用于执行异常帐号识别任务的服务器,其可以是单独的一台服务器,也可以是多台服务器组成的服务器组;可以是物理服务器,也可以是云服务器,本申请实施例对此不做限定。可选的,服务器120是应用程序、网站或论坛的后台服务器,用于对应用程序、网站或论坛中的注册帐号进行异常帐号识别。
本申请实施例中,由于进行异常帐号识别时需要使用帐号关系矩阵,因此在一种可能的实施方式中,服务器120还与其他服务器相连,用于从其他服务器处获取用于构建帐号关系矩阵的数据。此外,由于需要以已标注帐号为锚点进行异常帐号识别,因此服务器120还需要获取经过人工标注的正常帐号和异常帐号。比如,人工标注的帐号由终端110提供。
在一种可能的实施方式中,对于识别出的异常帐号,服务器120直接对异常帐号进行处理,比如,对帐号进行封禁、警告等等;在另一种可能的实施方式中,服务器120将识别出的异常帐号反馈给终端110,由终端110对异常帐号进行人工审核,进而对通过审核的异常帐号进行处理。
上述实施例仅以服务器进行异常帐号识别为例进行说明,在其他可能的实施方式中,也可以由终端进行异常帐号识别,或者,由终端和服务器配合实现异常帐号识别,本实施例并不对此构成限定。为了方便表述,下述各个实施例中,以异常帐号的识别方法由计算机设备执行为例进行说明。
需要说明的是,本申请实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的社交关系链以及历史线上行为都是在充分授权的情况下获取的。
请参考图2,其示出了本申请一个示例性实施例提供的异常帐号的识别方法的流程图,该方法可以包括如下步骤。
步骤201,获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系。
在一种可能的实施方式中,计算机设备获取帐号在不同关系维度下的关联关系,从而基于该关联关系生成不同的帐号关系矩阵。其中,该关系维度可以包括社交关系、线上行为关系、交互关系等等,本申请实施例并不对关系维度的具体类型进行限定。
需要说明的是,不同帐号关系矩阵所对应的帐号相同,即不同帐号关系矩阵用于表征同一批帐号在不同关系维度下的关联关系。比如,帐号关系矩阵为n×n矩阵,n为帐号数量。
步骤202,基于至少两个帐号关系矩阵生成目标扩散核,目标扩散核用于表征帐号之间的关联关系的扩散情况。
核函数(kernel function)是一种通过非线性变换,将输入空间映射到高维特征空间的函数,而扩散核(diffusion kernel)则是一种用于表征对象间关系扩散情况的核函数。
由于帐号关系矩阵能够表征帐号之间关系网络,因此为了挖掘帐号关系矩阵所表征帐号之间的相似程度,计算机设备基于至少两个帐号关系矩阵所表征的帐号关联关系,生成目标扩散核,该目标扩散核即用于表征帐号关系矩阵对应帐号之间的关联关系的扩散情况。
由于目标扩散核基于不同关系维度下的帐号关系矩阵生成,因此该目标扩散核所表征关联关系的扩散情况也更加准确,进而提高后续利用目标扩散核进行异常帐号识别的准确率。关于目标扩散核的具体生成方式,下述实施例中将进行详述。
步骤203,基于目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,已标注帐号和未标注帐号为帐号关系矩阵中的帐号。
本申请实施例中,帐号关系矩阵对应的帐号中包含部分已标注帐号和部分未标注帐号,其中,已标注帐号包含对应的标签,用于表征帐号为异常帐号或正常帐号。
在识别未标注帐号中的异常帐号时,计算机设备以已标注帐号为锚点,通过目标扩散核从未标注帐号中识别出异常帐号。在一些实施例中,该目标扩散核能够确定不同帐号之间的距离,其中,距离越大,表明帐号之间的相似程度越低,距离越小,表明帐号之间的相似程度越高。
在一种可能的实施方式中,计算机设备在目标扩散核后接分类算法,由分类算法基于未标注帐号与已标注帐号之间的距离,对未标注帐号进行分类。比如,若未标注帐号与已标注的异常帐号之间的距离小于距离阈值,则确定该未标注帐号为异常帐号。
需要说明的是,上述异常帐号的识别准确率与已标注帐号所占的比例相关。已标注帐号占总帐号(已标注帐号+未标注帐号)的比例越高,异常帐号的识别准确率越高;已标注帐号占总帐号的比例越低,异常帐号的识别准确率越低。
综上所述,本申请实施例中,计算机设备通过获取至少两个表征不同帐号间关联关系的帐号关系矩阵,并基于至少两个帐号关系矩阵生成表征帐号间关联关系扩散情况的目标扩散核,从而基于该目标扩散核以及帐号关系矩阵中的已标注帐号,识别出未标注帐号中的异常帐号;由于异常帐号之间的通常存在关联性,因此在进行异常帐号识别时基于帐号关系矩阵挖掘帐号间的关系,并以已标注帐号作为锚点能够挖掘出潜在的异常帐号,有助于提高异常帐号的识别准确率。
在一种可能的实施方式中,帐号关系矩阵均为邻接矩阵,基于至少两个帐号关系矩阵生成目标扩散核时,需要对各个帐号关系矩阵进行融合,即对帐号间不同关系维度的关联关系进行融合,以便基于融合后的关系矩阵生成目标扩散核。下面采用示例性的实施例进行说明。
请参考图3,其示出了本申请另一个示例性实施例提供的异常帐号的识别方法的流程图,该方法可以包括如下步骤。
步骤301,基于各个帐号对应的社交关系链,生成第一帐号关系矩阵,第一帐号关系矩阵中的矩阵元素用于表征帐号之间是否建立有社交关系。
在一种可能的实施方式中,计算机设备基于社交关系链所表征帐号之间的社交关系,生成第一帐号关系矩阵。其中,当获取到n个帐号的社交关系链时,该第一帐号关系矩阵即为n×n的邻接矩阵。
可选的,针对表征不同社交关系的社交关系链,计算机设备可以生成不同社交关系对应的多个第一帐号关系矩阵。其中,该社交关系链所表征的社交关系可以包括好友关系、关注关系、同事关系、公会关系等等,本申请实施例对此不作限定。
在一个示意性的例子中,以好友关系为例,基于帐号对应的好友关系链生成的第一帐号关系矩阵可以表示为:
步骤302,基于各个帐号的历史线上行为,生成第二帐号关系矩阵,第二帐号关系矩阵中的矩阵元素用于表征帐号的历史线上行为之间是否存在交集。
针对不同的应用场景,该历史线上行为的类型可能不同。可选的,当用于识别视频平台中的异常帐号时,该历史线上行为可以包括对视频的评论行为;当用于识别游戏平台的异常帐号时,该历史线上行为可以包括组队行为;当用于识别直播平台中的异常帐号时,该历史线上行为可以包括对直播观看行为;当用于识别社交平台中的异常帐号时,该历史线上行为可以包括聊天房间的匹配行为等等,本申请实施例并不对历史线上行为的类型进行限定。
由于具有相似或相同线上行为的帐号之间通常具有关联性,因此在一种可能的实施方式中,计算机设备通过比较不同帐号对应的历史线上行为,从而根据历史线上行为之间的交集情况,生成第二帐号关系矩阵。其中,当获取到n个帐号的历史线上行为时,该第二帐号关系矩阵即为n×n的邻接矩阵。
可选的,针对表征不同类型的历史线上行为,计算机设备可以生成多个第二帐号关系矩阵。
在一个示意性的例子中,计算机设备基于帐号对应的历史视频评论记录生成的第二帐号关系矩阵可以表示为:
在另一个示意性的例子中,计算机设备基于帐号对应的历史游戏组队记录生成的第二帐号关系矩阵可以表示为:
需要说明的是,上述帐号关系矩阵仅用于示意性说明,计算机设备可以根据实际获取到的社交关系链或历史线上行为构成其他类型的帐号关系矩阵,本申请实施例并不对此构成限定。
步骤303,对至少两个帐号关系矩阵进行融合,得到目标关系矩阵。
进一步的,计算机设备对至少两个帐号之间的关系矩阵进行融合,从而得到融合多维度关联关系的目标关系矩阵,其中,目标关系矩阵与各个帐号关系矩阵的尺寸一致。比如,当帐号关系矩阵为n×n矩阵时,目标关系矩阵同样为n×n矩阵。
在进行矩阵融合时,考虑到不同关系维度所表征关联关系的重要程度不同,因此在一种可能的实施方式中,计算机设备基于各个帐号关系矩阵对应的目标融合权重,对至少两个帐号关系矩阵进行融合,得到目标关系矩阵。
在一个示意性的例子中,当获取到三个帐号关系矩阵A1、A2和A3时,融合得到的目标关系矩阵可以表示为:
A=αA1+βA2+γA3
在一种可能的实施方式中,各个帐号关系矩阵对应的目标融合权重通过预先训练得到。下述实施例将对目标融合权重的确定过程进行具体说明。
步骤304,基于目标关系矩阵生成目标扩散核。
关于基于目标关系矩阵生成目标扩散核的具体方式,在一种可能的实施方式中,计算机设备首先确定目标关系矩阵对应的目标拉普拉斯矩阵,然后基于目标拉普拉斯矩阵和目标扩散核计算参数生成(计算)目标扩散核。
目标关系矩阵对应的目标拉普拉斯矩阵可以表示为:
L=D-A
其中,D为目标关系矩阵对应的度矩阵。
基于目标拉普拉斯矩阵和目标扩散核计算参数计算目标扩散核可以表示为:
Kτ=exp(-τL)
其中,τ为目标扩散核计算参数(常数参数),exp()为矩阵指数运算。
在一种可能的实施方式中,目标扩散核计算参数通过预先训练得到。下述实施例将对目标扩散核计算参数的确定过程进行具体说明。
步骤305,基于目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,已标注帐号和未标注帐号为帐号关系矩阵中的帐号。
本步骤的实施方式可以参考上述步骤201,本实施例在此不再赘述。
从上述实施例可以看出,目标融合权重以及目标扩散核计算参数的设置将直接影响到生成的目标扩散核,进而影响到利用目标扩散核进行异常帐号识别的准确性。为了提高帐号识别的准确性,在一种可能的实施方式中,计算机设备通过逻辑回归算法,基于已标注帐号确定目标融合权重以及目标扩散核计算参数。其中,参数训练过程中使用的已标注帐号与实际异常帐号识别过程中所使用的已标注帐号相同。
在一种可能的实施方式中,如图4所示,参数训练过程可以包括如下步骤。
步骤401,获取至少两个样本帐号关系矩阵,样本帐号关系矩阵用于表征已标注帐号之间存在的关联关系。
其中,该样本帐号关系矩阵与实际帐号识别过程中所使用的帐号关系矩阵对应相同关系维度。并且,由于样本帐号关系矩阵中仅包含已标注帐号之间的关联关系,因此该样本帐号关系矩阵的尺寸小于帐号关系矩阵的尺寸。比如,帐号关系矩阵为n×n矩阵,样本帐号关系矩阵为m×m矩阵,m小于n。
步骤402,基于各个样本帐号关系矩阵对应的融合权重,对至少两个样本帐号关系矩阵进行融合,得到样本关系矩阵。
在一种可能的实施方式中,计算机设备为各个样本帐号关系矩阵设置初始融合权重,在每一轮训练过程中,计算机设备基于上一轮训练后得到的融合权重,对各个样本帐号关系矩阵进行加权融合,得到样本关系矩阵。其中,该样本关系矩阵的尺寸与样本帐号关系矩阵的尺寸一致。
步骤403,确定样本关系矩阵对应的样本拉普拉斯矩阵。
可选的,基于样本关系矩阵对应的度矩阵,确定样本关系矩阵对应的样本拉普拉斯矩阵。
步骤404,基于样本拉普拉斯矩阵和扩散核计算参数生成样本扩散核。
在一种可能的实施方式中,计算机设备设置初始扩散核计算参数,在每一轮训练过程中,计算机设备基于样本拉普拉斯矩阵以及上一轮训练后得到的扩散核计算参数计算样本扩散核。
步骤405,通过逻辑回归算法,基于样本扩散核以及第一标注帐号,确定第二标注帐号的预测标注,第一标注帐号和第二标注帐号属于已标注帐号。
在一种可能的实施方式中,计算机设备将已标注帐号划分为第一标注帐号和第二标注帐号,其中,第一标注帐号为训练过程中已知类型的帐号,第二标注帐号为训练过程中待预测的帐号。
在一个示意性的例子中,计算机设备按照9:1的比例将已标注帐号划分为第一标注帐号和第二标注帐号。
训练过程中,计算机设备以第一标注帐号为锚点,通过样本扩散核对第二标注帐号进行异常帐号识别,得到第二标注帐号的预测标注,该预测标注用于表征第二标注帐号属于异常帐号或正常帐号。
步骤406,基于第二标注帐号的真值标注与预测标注,优化融合权重以及扩散核计算参数。
在一种可能的实施方式中,计算机设备基于第二标注帐号的预测标注与真值标注(用于表征第二标注帐号实际为异常帐号或正常帐号),确定预测损失,从而基于该预测损失优化当前的融合权重以及扩散核计算参数,其中,该预测损失用于表征预测结果与实际结果之间的差异程度。可选的,该预测损失可以是预测标注与真值标注之间的交叉熵损失。
关于优化融合权重以及扩散核计算参数的方式,在一些实施例中,计算机设备采用梯度下降算法对调整融合权重以及扩散核计算参数,从而利用调整后的融合权重以及扩散核计算参数进行下一轮训练。
在异常帐号识别场景下,针对不同类型的异常帐号,计算机设备所期望的识别目标不同。比如,对于开挂帐号,由于错封开挂帐号会造成较大损失,因此识别开挂帐号时准确率的重要程度高于召回率;对于黑产帐号,由于黑产帐号对平台造成的危害较大,因此识别黑产帐号时召回率的重要程度高于准确率。
基于上述特征,为了进一步提高不同异常帐号识别场景下的识别质量,在一种可能的实施方式中,本步骤可以包括如下子步骤:
1、基于异常帐号的帐号类型确定评估指标,评估指标包括准确性和召回率中的至少一种。
在一种可能的实施方式中,计算机设备设置有异常帐号的帐号类型与评估指标之间的对应关系。获取到参数训练任务后,计算机设备即根据待识别异常帐号的帐号类型,从上述对应关系中确定评估指标。
可选的,评估指标与异常帐号的风险等级相关,其中,异常帐号的风险等级越高,识别过程中对异常帐号的召回全面性要求越高,异常帐号的风险等级越低,识别过程中对异常帐号的召回准确性要求越高(减少误识别正常帐号)。因此,在一些实施例中,计算机设备基于风险等级对帐号类型进行划分,并设置相应的评估指标。
可选的,在异常帐号属于第一帐号类型的情况下,计算机设备确定评估指标为召回率;在异常帐号属于第二帐号类型的情况下,计算机设备确定评估指标为准确率。其中,属于第一帐号类型的帐号的风险等级高于属于第一帐号类型的帐号的风险等级。
在一个示意性的例子中,帐号类型、风险等级与评估指标之间的对应关系如表一所示。
表一
帐号类型 | 评估指标 | 风险等级 |
黑产帐号、非法帐号 | 召回率 | 高 |
外挂帐号、水军帐号 | 准确率 | 低 |
2、基于第二标注帐号的真值标注与预测标注,确定评估指标下的预测损失。
在一种可能的实施方式中,在不同评估指标下,计算机设备基于真值标注与预测标注确定得到的预测损失不同。
可选的,该预测损失由识别损失以及指标损失两部分构成。其中,不同评价指标下,预测损失中包含的识别损失相同(比如交叉熵损失),但指标损失不同。比如,当评价指标为准确率时,计算机设备基于预测标注和真值标注计算准确率,从而基于准确率确定指标损失,指标损失与准确率呈正相关关系;当价指标为召回率时,计算机设备基于预测标注和真值标注计算召回率,从而基于召回率确定指标损失,指标损失与召回率呈正相关关系。
其中,识别异常帐号的准确率可以表示为(正确标注的数量)/预测标注中异常帐号的数量,识别异常帐号的召回率可以表示为(正确标注的数量)/真值标注中异常帐号的数量。
3、基于预测损失优化融合权重以及扩散核计算参数。
进一步的,计算机设备基于确定出的预测损失对融合权重以及扩散核计算参数进行联合优化。
步骤407,在满足优化结束条件的情况下,将优化后的融合权重确定为目标融合权重,将优化后的扩散核计算参数确定为目标扩散核计算参数。
在一种可能的实施方式中,计算机设备采用十折交叉验证的方式进行训练,并在满足优化结束条件时结束训练,从而将最后一轮训练得到的融合权重确定为目标融合权重,将最后一轮训练得到的扩散核计算参数确定为目标扩散核计算参数。其中,该优化结束条件可以包括训练轮数条件和损失收敛条件中的至少一种,本实施例对此不作限定。
需要说明的是,在评估指标为召回率的情况下,在实际应用阶段,为了进一步降低后续对异常帐号处理的准确性,在一种可能的实施方式中,计算机设备将识别出的异常帐号推送至人工审核平台,以便人工审核平台对异常帐号进行人工审核。
可选的,计算机设备可以获取人工审核平台反馈的审核结果,进而基于该审核结果生成真值标注,用于后续模型的更新训练,本实施例在此不作赘述。
本实施例中,计算机设备基于预测标注和真值标注进行参数优化时,结合待识别的异常帐号的帐号类型确定评估指标,进而基于预测标注和真值标注确定在该评估指标下的预测损失,有助于提高后续识别高风险异常帐号时的召回率,以及识别低风险异常帐号时的准确率,提高不同异常帐号识别场景下的适用性。
结合上述实施例,计算机设备进行参数训练以及异常帐号的完整过程如图5所示。
参数训练阶段,计算机设备基于已标注帐号501对应的第一关联关系图502以及第二关联关系图503,分别生成第一样本关系矩阵504和第二样本关系矩阵505。计算机设备基于第一样本关系矩阵504对应的第一融合权重α以及第二样本关系矩阵504对应的第二融合权重β,加权融合得到样本关系矩阵506。计算机设备基于样本关系矩阵506生成样本拉普拉斯矩阵507,并基于样本扩散核计算参数τ,计算得到样本扩散核508。
已标注帐号501按照9:1的比例划分为第一标注帐号和第二标注帐号,第一标注帐号作为识别锚点输入样本扩散核508,得到第二样本帐号对应的预测标注509。计算机设备基于第二样本帐号对应的真值标注510以及预测标注509,确定预测损失511,从而基于预测损失511对α、β以及τ进行参数优化。
应用阶段,计算机设备在已标注帐号501的基础上添加未标注帐号,从而基于对应的第三关联关系图512以及第四关联关系图513,分别生成第一关系矩阵514和第二关系矩阵515。计算机设备基于最终优化得到的第一融合权重α以及第二融合权重β,对第一关系矩阵514和第二关系矩阵515进行加权融合,得到目标关系矩阵516。计算机设备基于目标关系矩阵516生成目标拉普拉斯矩阵517,并基于最终优化得到的目标扩散核计算参数τ,计算得到目标扩散核518。
已标注帐号501作为识别锚点输入目标扩散核518,得到未标注帐号对应的帐号标注,最终以及帐号标注确定出其中包含的异常帐号519。
请参考图6,其示出了本申请一个示例性实施例提供的异常帐号的识别装置的结构框图。该装置包括:
获取模块601,用于获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且所述帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;
生成模块602,用于基于至少两个所述帐号关系矩阵生成目标扩散核,所述目标扩散核用于表征帐号之间的关联关系的扩散情况;
识别模块603,用于基于所述目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,所述已标注帐号和所述未标注帐号为所述帐号关系矩阵中的帐号。
可选的,所述生成模块602,用于:
对至少两个所述帐号关系矩阵进行融合,得到目标关系矩阵;
基于所述目标关系矩阵生成目标扩散核。
可选的,对至少两个所述帐号关系矩阵进行融合,得到目标关系矩阵过程,所述生成模块602,用于:
基于各个所述帐号关系矩阵对应的目标融合权重,对至少两个所述帐号关系矩阵进行融合,得到所述目标关系矩阵;
可选的,基于所述目标关系矩阵生成目标扩散核的过程中,所述生成模块602,用于:
确定所述目标关系矩阵对应的目标拉普拉斯矩阵;
基于所述目标拉普拉斯矩阵和目标扩散核计算参数生成所述目标扩散核。
可选的,所述装置还包括:
训练模块,用于通过逻辑回归算法,基于所述已标注帐号确定所述目标融合权重以及所述目标扩散核计算参数。
可选的,所述训练模块,用于:
获取至少两个样本帐号关系矩阵,所述样本帐号关系矩阵用于表征所述已标注帐号之间存在的关联关系;
基于各个所述样本帐号关系矩阵对应的融合权重,对至少两个所述样本帐号关系矩阵进行融合,得到样本关系矩阵;
确定所述样本关系矩阵对应的样本拉普拉斯矩阵;
基于所述样本拉普拉斯矩阵和扩散核计算参数生成样本扩散核;
通过逻辑回归算法,基于所述样本扩散核以及第一标注帐号,确定第二标注帐号的预测标注,所述第一标注帐号和所述第二标注帐号属于所述已标注帐号;
基于所述第二标注帐号的真值标注与所述预测标注,优化所述融合权重以及所述扩散核计算参数;
在满足优化结束条件的情况下,将优化后的所述融合权重确定为所述目标融合权重,将优化后的所述扩散核计算参数确定为所述目标扩散核计算参数。
可选的,基于所述第二标注帐号的真值标注与所述预测标注,优化所述融合权重以及所述扩散核计算参数的过程中,所述训练模块,用于:
基于所述异常帐号的帐号类型确定评估指标,所述评估指标包括准确性和召回率中的至少一种;
基于所述第二标注帐号的所述真值标注与所述预测标注,确定所述评估指标下的预测损失;
基于所述预测损失优化所述融合权重以及所述扩散核计算参数。
可选的,基于所述异常帐号的帐号类型确定评估指标的过程中,所述训练模块,用于:
在所述异常帐号属于第一帐号类型的情况下,确定所述评估指标为召回率;
在所述异常帐号属于第二帐号类型的情况下,确定所述评估指标为准确率;
其中,属于所述第一帐号类型的帐号的风险等级高于属于第一帐号类型的帐号的风险等级。
可选的,在所述评估指标为召回率的情况下,所述装置还包括:
推送模块,用于将识别出的所述异常帐号推送至人工审核平台,以便所述人工审核平台对所述异常帐号进行人工审核。
可选的,所述获取模块601,用于:
基于各个帐号对应的社交关系链,生成第一帐号关系矩阵,所述第一帐号关系矩阵中的矩阵元素用于表征帐号之间是否建立有社交关系;和/或,
基于各个帐号的历史线上行为,生成第二帐号关系矩阵,所述第二帐号关系矩阵中的矩阵元素用于表征帐号的历史线上行为之间是否存在交集。
综上所述,本申请实施例中,计算机设备通过获取至少两个表征不同帐号间关联关系的帐号关系矩阵,并基于至少两个帐号关系矩阵生成表征帐号间关联关系扩散情况的目标扩散核,从而基于该目标扩散核以及帐号关系矩阵中的已标注帐号,识别出未标注帐号中的异常帐号;由于异常帐号之间的通常存在关联性,因此在进行异常帐号识别时基于帐号关系矩阵挖掘帐号间的关系,并以已标注帐号作为锚点能够挖掘出潜在的异常帐号,有助于提高异常帐号的识别准确率。
在示例性的实施例中,本申请实施例还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述各个实施例中提供的异常帐号的识别方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上各个实施例所述的异常帐号的识别方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的异常帐号的识别方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种异常帐号的识别方法,其特征在于,所述方法包括:
获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且所述帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;
基于至少两个所述帐号关系矩阵生成目标扩散核,所述目标扩散核用于表征帐号之间的关联关系的扩散情况;
基于所述目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,所述已标注帐号和所述未标注帐号为所述帐号关系矩阵中的帐号。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述帐号关系矩阵生成目标扩散核,包括:
对至少两个所述帐号关系矩阵进行融合,得到目标关系矩阵;
基于所述目标关系矩阵生成目标扩散核。
3.根据权利要求2所述的方法,其特征在于,所述对至少两个所述帐号关系矩阵进行融合,得到目标关系矩阵,包括:
基于各个所述帐号关系矩阵对应的目标融合权重,对至少两个所述帐号关系矩阵进行融合,得到所述目标关系矩阵;
所述基于所述目标关系矩阵生成目标扩散核,包括:
确定所述目标关系矩阵对应的目标拉普拉斯矩阵;
基于所述目标拉普拉斯矩阵和目标扩散核计算参数生成所述目标扩散核。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
通过逻辑回归算法,基于所述已标注帐号确定所述目标融合权重以及所述目标扩散核计算参数。
5.根据权利要求4所述的方法,其特征在于,所述通过逻辑回归算法,基于所述已标注帐号确定所述目标融合权重以及所述目标扩散核计算参数,包括:
获取至少两个样本帐号关系矩阵,所述样本帐号关系矩阵用于表征所述已标注帐号之间存在的关联关系;
基于各个所述样本帐号关系矩阵对应的融合权重,对至少两个所述样本帐号关系矩阵进行融合,得到样本关系矩阵;
确定所述样本关系矩阵对应的样本拉普拉斯矩阵;
基于所述样本拉普拉斯矩阵和扩散核计算参数生成样本扩散核;
通过逻辑回归算法,基于所述样本扩散核以及第一标注帐号,确定第二标注帐号的预测标注,所述第一标注帐号和所述第二标注帐号属于所述已标注帐号;
基于所述第二标注帐号的真值标注与所述预测标注,优化所述融合权重以及所述扩散核计算参数;
在满足优化结束条件的情况下,将优化后的所述融合权重确定为所述目标融合权重,将优化后的所述扩散核计算参数确定为所述目标扩散核计算参数。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二标注帐号的真值标注与所述预测标注,优化所述融合权重以及所述扩散核计算参数,包括:
基于所述异常帐号的帐号类型确定评估指标,所述评估指标包括准确性和召回率中的至少一种;
基于所述第二标注帐号的所述真值标注与所述预测标注,确定所述评估指标下的预测损失;
基于所述预测损失优化所述融合权重以及所述扩散核计算参数。
7.根据权利要求6所述的方法,其特征在于,所述基于所述异常帐号的帐号类型确定评估指标,包括:
在所述异常帐号属于第一帐号类型的情况下,确定所述评估指标为召回率;
在所述异常帐号属于第二帐号类型的情况下,确定所述评估指标为准确率;
其中,属于所述第一帐号类型的帐号的风险等级高于属于第一帐号类型的帐号的风险等级。
8.根据权利要求6所述的方法,其特征在于,在所述评估指标为召回率的情况下,所述方法还包括:
将识别出的所述异常帐号推送至人工审核平台,以便所述人工审核平台对所述异常帐号进行人工审核。
9.根据权利要求1至8任一所述的方法,其特征在于,所述帐号关系矩阵为邻接矩阵,所述获取至少两个帐号关系矩阵,包括:
基于各个帐号对应的社交关系链,生成第一帐号关系矩阵,所述第一帐号关系矩阵中的矩阵元素用于表征帐号之间是否建立有社交关系;和/或,
基于各个帐号的历史线上行为,生成第二帐号关系矩阵,所述第二帐号关系矩阵中的矩阵元素用于表征帐号的历史线上行为之间是否存在交集。
10.一种异常帐号的识别装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个帐号关系矩阵,不同帐号关系矩阵对应不同关系维度,且所述帐号关系矩阵用于表征对应关系维度下不同帐号之间存在的关联关系;
生成模块,用于基于至少两个所述帐号关系矩阵生成目标扩散核,所述目标扩散核用于表征帐号之间的关联关系的扩散情况;
识别模块,用于基于所述目标扩散核以及已标注帐号,从未标注帐号中识别异常帐号,所述已标注帐号和所述未标注帐号为所述帐号关系矩阵中的帐号。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的异常帐号的识别方法。
12.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的异常帐号的识别方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至9任一所述的异常帐号的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210472268.XA CN114861163A (zh) | 2022-04-29 | 2022-04-29 | 异常帐号的识别方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210472268.XA CN114861163A (zh) | 2022-04-29 | 2022-04-29 | 异常帐号的识别方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114861163A true CN114861163A (zh) | 2022-08-05 |
Family
ID=82636156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210472268.XA Pending CN114861163A (zh) | 2022-04-29 | 2022-04-29 | 异常帐号的识别方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861163A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574362A (zh) * | 2024-01-15 | 2024-02-20 | 广东茉莉数字科技集团股份有限公司 | 一种达人帐号数据异常分辩方法及系统 |
-
2022
- 2022-04-29 CN CN202210472268.XA patent/CN114861163A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574362A (zh) * | 2024-01-15 | 2024-02-20 | 广东茉莉数字科技集团股份有限公司 | 一种达人帐号数据异常分辩方法及系统 |
CN117574362B (zh) * | 2024-01-15 | 2024-04-30 | 广东茉莉数字科技集团股份有限公司 | 一种达人账号数据异常分辨方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110417721B (zh) | 安全风险评估方法、装置、设备及计算机可读存储介质 | |
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN115982765A (zh) | 数据脱敏方法、装置、设备及计算机可读存储介质 | |
CN111783875A (zh) | 基于聚类分析的异常用户检测方法、装置、设备及介质 | |
CN106656996B (zh) | 一种信息安全风险评估方法 | |
CN116305168B (zh) | 一种多维度信息安全风险评估方法、系统及存储介质 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
CN111176953B (zh) | 一种异常检测及其模型训练方法、计算机设备和存储介质 | |
CN112422574A (zh) | 风险账号的识别方法、装置、介质及电子设备 | |
CN114693192A (zh) | 风控决策方法、装置、计算机设备和存储介质 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN114861163A (zh) | 异常帐号的识别方法、装置、设备、存储介质及程序产品 | |
CN113011893B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN115879826B (zh) | 一种基于大数据的精细化工工艺质检方法、系统及介质 | |
CN115455457B (zh) | 基于智慧大数据的链数据管理方法、系统和存储介质 | |
CN111831817A (zh) | 问卷生成分析方法、装置、计算机设备及可读存储介质 | |
CN117575595A (zh) | 支付风险识别方法、装置、计算机设备及存储介质 | |
CN116627781A (zh) | 目标模型验证方法以及装置 | |
CN114581251A (zh) | 数据校验方法、装置、计算机设备及计算机可读存储介质 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN111582722B (zh) | 风险识别方法、装置、电子设备及可读存储介质 | |
CN113946703A (zh) | 一种图片漏检处理方法及其相关装置 | |
CN114723239A (zh) | 一种多方协同建模方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |