CN113297840A - 恶意流量账号检测方法、装置、设备和存储介质 - Google Patents

恶意流量账号检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113297840A
CN113297840A CN202110470331.1A CN202110470331A CN113297840A CN 113297840 A CN113297840 A CN 113297840A CN 202110470331 A CN202110470331 A CN 202110470331A CN 113297840 A CN113297840 A CN 113297840A
Authority
CN
China
Prior art keywords
account
behavior
accounts
similarity
account behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110470331.1A
Other languages
English (en)
Other versions
CN113297840B (zh
Inventor
黄群
钟清华
曹轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202110470331.1A priority Critical patent/CN113297840B/zh
Publication of CN113297840A publication Critical patent/CN113297840A/zh
Priority to PCT/CN2022/088944 priority patent/WO2022228371A1/zh
Application granted granted Critical
Publication of CN113297840B publication Critical patent/CN113297840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种恶意流量账号检测方法、装置、设备和存储介质。该方法包括:根据每个账号各自的关联信息生成对应的账号行为节点后,根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量,并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度,再根据账号行为序列相似度确定恶意流量账号。该方案基于账号行为序列相似度对恶意流量账号进行识别,在识别的过程中不依赖账号登录设备的设备信息,从而能够识别出群控、箱控等恶意流量账号,提高了对恶意流量账号的识别效率以及准确性。

Description

恶意流量账号检测方法、装置、设备和存储介质
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种恶意流量账号检测方法、装置、设备和存储介质。
背景技术
随着网络技术以及通信技术的发展,网络直播逐渐走进了大众的生活之中,然而,网络直播行业中恶意流量账号的存在,阻碍了网络直播行业的健康发展。恶意流量账号是指,黑灰产业在互联网从事薅羊毛、引流、刷单等行为的账号,恶意流量账号在网络直播的过程中进行刷关注、刷房间人气、恶意引流等风险行为,使得网络直播行业存在着生态虚假繁荣、主播套取佣金、竞品挖走付费用户等情况。
目前对恶意流量账号进行聚集性检测的方式,主要依赖账号在设备标识、国际移动设备识别码、MAC地址、广告标识等节点注册登录环节的聚集性进行检测。然而,上述检测内容的全面性较差,检测效率和准确率均较低,不能合理挖掘利用更多的有用信息。同时,恶意流量账号除了登录设备聚集的特征外,还存在模拟器登录修改设备标识、群控、箱控等登录特征,其无法利用一台登录设备的聚集性进行检测,需要改进。
发明内容
本发明实施例提供了一种恶意流量账号检测方法、装置、设备和存储介质,通过账号行为序列、关联账号数量以及账号总量计算每个账号之间的账号行为序列相似度,之后根据账号行为序列相似度确定出恶意流量账号,在对恶意流量账号的识别过程中不依赖登录设备的设备信息,能够识别出群控、箱控等恶意流量账号,提高识别效率以及准确性。
第一方面,本发明实施例提供了一种恶意流量账号检测方法,包括以下步骤:
根据每个账号各自的关联信息生成对应的账号行为节点;
根据所述账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量;
根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
根据所述账号行为序列相似度确定恶意流量账号。
第二方面,本发明实施例提供了一种恶意流量账号检测装置,所述装置包括:
行为节点生成模块,用于根据每个账号各自的关联信息生成对应的账号行为节点;
序列确定模块,用于根据所述账号行为节点确定每个账号对应的账号行为序列;
关联账号确定模块,用于根据所述账号行为节点确定每个账号行为节点的关联账号数量;
相似度确定模块,用于根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
恶意账号确定模块,用于根据所述账号行为序列相似度确定恶意流量账号。
第三方面,本发明实施例提供了一种恶意流量账号检测设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的恶意流量账号检测方法。
第四方面,本发明实施例提供了一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的恶意流量账号检测方法。
本发明实施例中,首先根据每个账号各自的关联信息生成对应的账号行为节点,之后根据账号行为节点确定每个账号对应的账号行为序列以及每个账号行为节点的关联账号数量,并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度,再根据账号行为序列相似度确定恶意流量账号。该方案基于账号行为序列相似度对恶意流量账号进行识别,在识别的过程中不依赖账号登录设备的设备信息,从而能够识别出群控、箱控等恶意流量账号,提高了对恶意流量账号的识别效率以及准确性。
附图说明
图1为本发明实施例提供的一种恶意流量账号检测方法的流程图;
图2为本发明实施例提供的另一种恶意流量账号检测方法的流程图;
图3为本发明实施例提供的另一种恶意流量账号检测方法的流程图;
图4为本发明实施例提供的一个示例性的有向图;
图5为本发明实施例提供的一个示例性的强连通分量效果图;
图6为本发明实施例提供的一种基于账号的强连通分量分布图;
图7为本发明实施例提供的一种恶意流量账号检测装置的结构框图;
图8为本发明实施例提供的一种恶意流量账号检测设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
图1为本发明实施例提供的一种恶意流量账号检测方法的流程图,本实施例可适用于对恶意流量账号进行检测,该方法可以由计算设备如服务器来执行,具体包括如下步骤:
步骤S101、根据每个账号各自的关联信息生成对应的账号行为节点。
在一个实施例中,账号的关联信息是指与账号具体操作、行为相关联的信息,示例性的,账号的关联信息包括账号的动作执行内容,通过获取账号的动作执行内容即可得到账号的关联信息。账号行为节点,是指记录有账号每一个动作执行内容的节点。示例性的,若一个账号在某一个时间段内的动作包括关注账号、观看直播、充值以及打赏,则在该时间段内,对于该账号,则存在四个账号行为节点,每个账号行为节点分别记录有该账号关注账号、观看直播、充值以及打赏的动作执行内容,其中,在账号行为节点中记录账号动作执行内容的方式可以是直接以文字记录账号的动作执行内容,也可以是以特定代码记录账号的动作执行内容。记录的具体方式可以根据实际需要设置,本方案不做限定。
举例而言,账号A的动作执行内容是观看账号C的直播,账号B的动作执行内容是打赏账号D,则在生成账号行为节点时,根据账号A观看账号C的直播的动作执行内容以及账号B打赏账号D的动作执行内容,分别生成账号A的账号行为节点以及账号B的动作执行内容节点,其中账号A的账号行为节点中记录有观看账号C的直播的动作执行内容,账号B的账号行为节点中记录有打赏账号D的动作执行内容。
在一个实施例中,步骤S101具体包括:
根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。
通过获取每个账号的动作发生时间、动作发生节点以及动作执行内容,来生成每个账号的账号行为节点。示例性的,若某一账号在3点关注账号A,则该账号生成的一个行为节点中记录有“在3点关注账号A”的内容,若该账号在5点观看账号B的直播,则该账号生成的另一个行为节点中记录有“在5点观看账号B的直播”的内容。
在一个实施例中,通过查表确定动作索引的方式来记录动作执行内容,如表1所示,每一个动作索引对应一种动作执行内容。
表1
动作索引 动作执行内容 动作索引 动作执行内容
1 注册IP 7 充值IP
2 登录IP 8 关注UID
3 改密设备ID 9 观看UID
4 该手机设备ID 10 打赏UID
5 绑定账号openid 11 陌生人私信UID
对于每一个账号n的任意一个行为节点m,将每个账号的每一个动作节点记录为:anm=动作发生时间_动作发生节点_动作索引。示例性的,若某一账号在3点关注账号A,则生成的动作节点为:03_账号A_编码8;若某一账号在在5点观看账号B的直播,则生成的动作节点为:05_账号B_编码9。
步骤S102、根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量。
账号行为序列指包含有同一个账号多个账号行为节点的序列,在得到每个账号对应的账号行为节点后,可根据每个账号的账号行为节点确定每个账号的账号行为序列。示例性的,账号A的账号行为节点有3个,则根据账号A的3个账号行为节点,即可确定账号A的账号行为序列。其中,根据账号行为节点生成账号行为序列的方式可以是根据动作执行内容的发生时间对账号行为节点进行排序生成账号行为序列,也可以是根据随机对账号行为节点进行排序生成账号行为序列。
在根据账号行为节点确定每个账号对应的账号行为序列的同时,相应的确定每个账号行为节点的关联账号数量,每个账号行为节点的关联账号数量即与每个账号行为节点存在一定联系或相同特征的账号,通过获取每个账号行为节点的关联账号的数量,从而便于后续对账号行为序列之间的序列相似度进行计算。
在一个实施例中,确定每个账号行为节点的关联账号数量的方式具体为:确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。具体的,确定每个账号行为节点的关联账号的方式,可以是确定和每个账号行为节点中动作执行内容一致的其他账号,例如,若某一账号行为节点中动作执行内容是打赏账号D,则将动作执行内容同样为打赏账号D的其他账号作为该账号行为节点的关联账号,并获取关联账号的数量。
步骤103、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度。
账号行为序列相似度即每个账号行为序列之间的相似度,若两个账号行为序列相似度越高,则说明这两个账号行为序列中的动作节点越相似,若两个账号行为序列中的动作执行内容总是相同的,则说明这两个账号行为序列所对应的账号很可能是由同一个人员在操控,这两个账号是恶意流量账号的可能性越高。
在根据账号行为节点确定每个账号对应的账号行为序列以及每个账号行为节点的关联账号数量后,获取账号的总量,之后根据账号行为序列、关联账号数量以及账号总量进行计算,从而得到每个账号之间的账号行为序列相似度。
步骤S104、根据账号行为序列相似度确定恶意流量账号。
在得到每个账号之间的账号行为序列相似度后,即可根据每个账号之间的账号行为序列相似度确定出恶意账号。示例性的,在一个实施例中,预先设置好相似度阈值,在计算出每个账号之间的账号行为序列相似度后,根据相似度阈值对账号进行过滤,保留账号行为序列相似度比较高的账号,之后在从保留的账号中确定出恶意流量账号。
由上述方案可知,为了对恶意流量账号进行检测,首先根据每个账号各自的关联信息生成对应的账号行为节点,之后根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量,并根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度,再根据账号行为序列相似度确定恶意流量账号。该方案通过确定每个账号的账号行为序列,并通过计算每个账号之间的账号行为序列相似度对恶意流量账号进行识别,在识别的过程中不依赖账号登录设备的设备信息,从而能够识别出群控、箱控等恶意流量账号,提高了对恶意流量账号的识别效率以及准确性。
图2为本发明实施例提供的另一种恶意流量账号检测方法的流程图,给出了根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度的方法。如图2所示,技术方案具体如下:
步骤S201、根据每个账号各自的关联信息生成对应的账号行为节点。
步骤S202、根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量。
步骤S203、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的频率值。
在一个实施例中,频率值可以是TF-IDF值,TF-IDF值是一种数字统计,用于反映单词对集合或者是语料库中的文档的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF×IDF,TF表示词条t在文档d中出现的频率,IDF的主要思想是:如果包含词条t的文档d越少,IDF越大,则说明词条t具有很好的类别区分能力。在一个实施例中,根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的TF-IDF值,根据TD-IDF值来衡量每个账号行为节点出现的频率。
在一个实施例中,步骤S203具体可由步骤S2031-步骤S2033实现,具体如下:
步骤S2031、确定每个账号对应的账号行为序列中账号行为节点的个数,根据所述账号行为节点的个数确定每个账号的行为频率值。
确定每个账号的行为频率值,即确定每个账号TF值,在TF-IDF方法中,TF值的计算公式为:
Figure BDA0003045210300000071
在一个实施例中,获取每个账号对应的账号行为序列中账号行为节点的个数,并将每个账号行为节点作为一个词,将账号行为序列中账号行为节点的个数作为文章的总词数,根据TF值的计算公式计算出每个账号的行为频率值。示例性的,账号A的账号行为序列中账号行为节点的个数为5个,则据所述账号行为节点的个数确定账号A的行为频率值的计算公式为:
Figure BDA0003045210300000072
步骤S2032、根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数。
计算每个账号行为节点的逆行为频率指数,即计算每个账号行为节点的IDF值,在TF-IDF方法中,IDF值的计算公式为:
Figure BDA0003045210300000073
在一个实施例中,将每个账号下每个账号行为节点的关联账号数量作为包含某个词的文档总数,将账号总量作为语料库的文档总数,根据IDF值的计算公式,从而计算出每个账号行为节点的IDF值。示例性的,若某个账号行为节点的关联账号数量为80,账号总量为500,则此时计算每个账号行为节点的逆行为频率指数的公式为:
Figure BDA0003045210300000081
步骤S2033、根据行为频率值以及逆行为频率指数计算得到每个账号行为节点的频率值。
在计算出TF值以及IDF值后,在TF-IDF方法中,根据公式
TF-IDF=TF×IDF
即可计算出TF-IDF值,即每个账号行为节点的频率值。示例性的,在一个实施例中,若一个账号行为节点的行为频率值为0.2,即TF为0.2,逆行为频率指数为5.2,即IDF为5.2,则TF-IDF=0.2×5.2=1.04,从而计算得到该账号行为节点的频率值。
在一个实施例中,账号A的账号行为序列的长度为7,则其每个行为节点的TF值为1/7=0.143;账号总量为100万,账号A的账号行为序列的7个行为节点[19_账号编码1_9、20_账号编码1_9、05_账号编码2_9、06_账号编码2_9、06_账号编码3_9、12_账号编码4_9、07_账号编码5_9]关联账号总量分别为[9,13,360,761,115,1445,1582],则其IDF值分别为[11.6,11.3,7.9,7.2,6.8,6.5,6.4];将TF值与IDF值相乘即得到账号A每个账号行为节点的TF-IDF值。
步骤S204、根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
在计算出每个账号行为节点的频率值后,即可根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。在一个实施例中,采用LSI来计算每个账号之间的账号行为序列相似度,LSI即为潜在语义索引,LSI算法是基于是基于奇异值分解(SVD)的方法来得到文本的主题的,将SVD降维到k维后,SVD的分解可以近似写成以下形式:
Figure BDA0003045210300000082
对于输入的m个词,对应n个文本,Aij对应第i个文本的第j个词的特征值,一般常用的是基于预处理后的标准化TF-IDF值,k为假设的主题数,主题数一般小于文本数。在进行SVD分解后,Uil对应第i词和第l个词义的相关度,Vjm对应第j个文本和第m个主题的相关度,∑lm对应第l个词义和第m个主题的相关度。
在一个实施例中,在设置了主题数目后,将账号行为节点作为词,账号行为序列作为文本,对每个账号行为节点的TF-IDF值采用LSI进行分解,可计算出账号行为序列与主题的相关度,并在此基础上,对每个账号之间的账号行为序列相似度进行计算。
在一个实施例中,步骤S204具体可由步骤S2041以及步骤S2043实现,具体如下:
步骤S2041、通过矩阵分解公式对频率值矩阵进行降维,得到每个账户行为序列和行为主题的相关度矩阵;
行为主题,是指账户行为序列之间相似的类型,行为主题的数目可根据实际需要进行设置。例如,将行为主题数目设置为4个。在计算出每个账号行为节点的频率值后,根据每个账号行为节点的频率值生成频率值矩阵,即TF-IDF矩阵,之后,根据矩阵分解公式,即SVD分解公式,将TF-IDF矩阵降低到k维,得到每个账号行为序列和行为主题的相关度矩阵。
在一个实施例中,TF-IDF数值矩阵如表2所示,对表2的TF-IDF数值矩阵采用LSI降低至4维,分解公式为A=U·Sigma·V,其中,Sigma表示主题,分解结果如表3所示,表3中V.T表示V的转置,即每个账号行为序列和行为主题的相关度矩阵。
表2
Figure BDA0003045210300000091
表3
Figure BDA0003045210300000101
步骤S2043、基于相关度矩阵计算每个账号之间的账号行为序列相似度。
在得到TF-IDF数值矩阵的分解结果中的相关度矩阵V.T之后,即可基于相关度矩阵V.T计算每个账号之间的账号行为序列相似度。在一个实施例中,可计算相关度矩阵V.T中行向量之间的相似度作为账号行为序列相似度。
在一个实施例中,步骤S2043具体为:通过相似度计算公式对相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。
其中,需要说明的是,相似度计算公式为:
Figure BDA0003045210300000102
其中,Vi-和Vj-分别表示相关度矩阵V.T中的行向量。
示例性的,以表3为例,采用相似度计算公式计算账号编码10和账号编码11之间的行为序列相似度,在表3的V.T中选取出第三行数据的以及第四行数据,第三行数据为[0.0000、-0.8394、0.0000、-0.2797],第四行数据为[-0.0004、-0.3658、0.0000、0.1048],将第三行数据和第四行数据进行四舍五入,保留小数点后的两位小数,之后根据余弦相似度公式对进行计算,可以得到:
Figure BDA0003045210300000111
因此,通过相似度计算公式对相关度矩阵的两两行向量进行计算,从而能够得到每个账号之间的账号行为序列相似度,根据表3中的数据,可以得到账号行为序列相似度的计算结果如表4所示。
表4
Figure BDA0003045210300000112
步骤S205、根据账号行为序列相似度确定恶意流量账号。
在滤除掉不符合计算要求的账号以及账号行为节点后,根据保留下来账号行为节点的频率值,计算每个账号之间的账号行为序列相似度。在一个实施例中,将账号行为序列的长度小于1的账号行为序列以及频率值小于0.5的账号行为节点进行剔除后,剩余P个账号行为节点、Q个账号,根据每个账号的每个账号行为节点组成一个P×Q的TF-IDF数值矩阵,将TF-IDF数值矩阵进行降维后,获得用户行为序列和行为主题的相关度矩阵,之后对相关度矩阵的行向量两两进行计算,从而得到每个账号之间的账号行为序列相似度。
由上述方案可知,在根据LSI计算出的每个账号的行为频率值以及每个账号行为节点的逆行为频率指数的基础上,计算出每个账号行为节点的频率值,并根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。由于LSI中具有降维的过程,因此LSI适用于大规模计算,从而即使在账号总量比较大的情况下,本方案也能够准确计算出每个账号之间的账号行为序列相似度,提高了对恶意流量账号的识别效率以及准确性。
在上述实施例的基础上,进一步包括了数据滤除的处理,以优化恶意账号的整体处理流程。具体的,步骤S204可由步骤S2044以及步骤S2045实现,如下:
步骤S2044、根据账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除。
由于计算资源的限制,对于一些不符合计算要求的账号以及账号行为节点可以将其剔除,以减少后续计算账号行为序列相似度的计算量。例如,将账号行为序列的长度没有达到长度预设值的账号进行剔除,将账号行为节点的频率值小于频率预设值的账号行为节点进行剔除。在一个实施例中。当账号行为序列的长度等于1时,不足以计算账号两两之间的行为序列相似度,因此将账号行为序列的长度小于1的账号进行剔除;由于一些热门主播、公用IP的频率值相对来说较小,因此将频率值小于0.5的账号行为节点进行剔除。
步骤S2045、根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
图3为本发明实施例提供的另一种恶意流量账号检测方法的流程图,给出了利用连通子图算法计算强连通分量,根据强连通分量筛选出恶意流量账号的方法。如图3所示,技术方案具体如下:
步骤S301、根据每个账号各自的关联信息生成对应的账号行为节点。
步骤S302、根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量。
步骤S303、根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度。
步骤S304、根据每个账号之间的账号行为序列相似度,筛选出强关联的账号关系对。
由于账号行为序列相似度表示账号动作节点相似的程度,两个账号之间的账号行为序列相似度越高,则这两个账号之间的关联性越强。在一个实施例中,可预先设置账号行为序列相似度阈值,根据账号行为序列相似度阈值筛选出强关联的账号关系对。示例性的,因为账号行为序列节点选取的较多为弱关联节点,因此采用余弦相似度公式计算账号行为序列相似度时,可选取夹角比较小的值作为账号行为序列相似度的过滤阈值,如30°。在对账号行为序列相似度进行过滤后,可获得强关联的账号关系对。示例性的,对于强关联的账号关系对账号A和账号B,可以将强关联的账号关系对表示为(账号A编码,账号B编码,账号A与账号B的行为序列相似度),代表账号节点A和账号节点B相连且连接权重为账号之间的行为相似度。
步骤S305、将强关联的账号关系对输入到连通子图中,基于预设相似度阈值计算连通子图的强连通分量。
在得到强关联的账号关系对后,将强关联的账号关系对代入连通子图算法就可以获得强连通分量。对于连通子图算法,如图4所示,图4为本发明实施例提供的一个示例性的有向图,在有向图G中,如果两个顶点间至少存在一条路径,称两个顶点强连通。如果有向图G的每两个顶点都强连通,称G是一个强连通图。非强连通图有向图的极大强连通子图,称为强连通分量。例如,图4中,子图{1,2,3,4}为一个强连通分量,因为顶点1,2,3,4两两可达,{5},{6}也分别是两个强连通分量,对于强连通分量,一般的求解算法为Tarjan算法,时间复杂度为O(N+M)。
在一个实施例中,将强关联的账号关系对输入到连通子图后,根据基于预设相似度阈值对筛选出连通子图的强连通分量。示例性的,将账号行为序列相似度阈值设置为0.8,筛选出连通子图的强连通分量。例如,对于表4中的数据,按照账号行为序列相似度阈值为0.8进行过滤,筛选出的强关联的账号关系对有(账号编码10,账号编码11,0.82)、(账号编码10,账号编码14,0.82)、(账号编码11,账号编码14,1),强连通分量大小为3,对应的强连通分量的效果图如图5所示,图5为本发明实施例提供的一个示例性的强连通分量效果图。
步骤S306、将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。
在得到连通子图的强连通分量后,根据强连通分量的个数,筛选出恶意流量账号,强连通分量的个数越多,则账号聚集性越强,账号风险也就越高。在一个实施例中,可根据预先设置的强连通分量阈值对筛选出恶意流量账号,可理解,强连通分量阈值可根据实际需要进行设置,在本实施例中不对强连通分量阈值的大小进行具体限定。示例性的,将强连通分量阈值设置为8,抽取实际4个账号所对应的强连通分量见如表5所示,账号1-4风险随着强连通分量的个数逐渐增加,因为账号1的强连通分量的个数小于强连通分量阈值,即批量聚集行为不明显,所以不识别为恶意流量账号。
表5
强连通分量编码 账号编码 强连通分量的个数
A 1 5
B 2 10
C 3 31
D 4 423
具体实例及测试数据示例性如下:
首先,随机抽取5个账号关系对,计算每个账号关系对的账号行为序列相似度,计算结果如表6所示。
表6
Figure BDA0003045210300000141
Figure BDA0003045210300000151
随机挑选最小的一个强连通分量,如表7所示,账号之间的账号行为序列相似度很高。
表7
Figure BDA0003045210300000152
Figure BDA0003045210300000161
抽取某一个小时监测出的团伙账号,分布情况如图6所示,图6为本发明实施例提供的一种基于账号的强连通分量分布图,图6中横坐标为强连通分量大小,主纵坐标为强连通分量个数,次纵坐标为当前强连通分量大小对应的账号总量,S1为强连通分量个数的曲线,S2为账号量曲线。图6中8220个账号分布在193个团伙中,强连通分量个数大于100的3059个账号分布在19个强连通分量中,没有出现1个强连通分量关联大部分账号的情况,说明边关系选取合理。
由上述方案可知,在确定恶意流量账号的过程中,通过连通子图算法计算出连通子图的强连通分量,并根据强连通分量的数目筛选出恶意流量账号,从而能够准确筛选出恶意流量账号,在此过程中不依赖账号登录设备的设备信息,提高了对恶意流量账号的识别效率以及准确性。
如图7为本发明实施例提供的一种恶意流量账号检测装置的结构框图,该装置用于执行上述实施例提供的恶意流量账号检测方法,具备执行方法相应的功能模块和有益效果。如图7所示,该装置具体包括:行为节点生成模块401、序列确定模块402、关联账号确定模块403、相似度确定模块404以及恶意账号确定模块405,其中,
行为节点生成模块401,用于根据每个账号各自的关联信息生成对应的账号行为节点;
序列确定模块402,用于根据账号行为节点确定每个账号对应的账号行为序列;
关联账号确定模块403,用于根据账号行为节点确定每个账号行为节点的关联账号数量;
相似度确定模块404,用于根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
恶意账号确定模块405,用于根据账号行为序列相似度确定恶意流量账号。
在一个实施例中,相似度确定模块404包括频率值计算子模块以及相似度计算子模块,其中,
频率值计算子模块用于根据账号行为序列、关联账号数量以及账号总量计算得到每个账号行为节点的频率值;
相似度计算子模块用于根据每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
在一个实施例中,频率值计算子模块包括行为频率值计算单元,逆行为频率指数计算单元以及频率值计算单元,其中,
频率值计算单元用于确定每个账号对应的账号行为序列中账号行为节点的个数,根据账号行为节点的个数确定每个账号的行为频率值;
逆行为频率指数计算单元用于根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数;
频率值计算单元用于根据行为频率值以及逆行为频率指数计算得到每个账号行为节点的频率值。
在一个实施例中,相似度计算子模块还包括频率值矩阵构建单元、降维单元以及账号行为序列相似度计算单元,其中,
频率值矩阵构建单元用于根据每个账号行为节点的频率值以及账号行为序列,构建频率值矩阵;
降维单元用于通过矩阵分解公式对频率值矩阵进行降维,得到每个账户行为序列和行为主题的相关度矩阵;
账号行为序列相似度计算单元用于基于相关度矩阵计算每个账号之间的账号行为序列相似度。
在一个实施例中,账号行为序列相似度计算单元具体用于通过相似度计算公式对相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。
在一个实施例中,相似度计算子模块还包括;过滤单元以及计算单元,其中,
过滤单元用于根据账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除;
计算单元用于根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
在一个实施例中,恶意账号确定模块405包括筛选子模块、强连通分量计算子模块以及恶意流量账号确定子模块,其中,
筛选子模块用于根据每个账号之间的账号行为序列相似度,筛选出强关联的账号关系对;
强连通分量计算子模块用于将强关联的账号关系对输入到连通子图中,基于预设相似度阈值计算连通子图的强连通分量;
恶意流量账号确定子模块用于将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。
在一个实施例中,行为节点生成模块401用于根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。
在一个实施例中,行为节点生成模块401用于确定每个账号行为节点的关联账号数量的方式为:确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。
图8为本发明实施例提供的一种恶意流量账号检测设备的结构示意图,如图8所示,该设备包括处理器501、存储器502、输入装置503和输出装置504;设备中处理器501的数量可以是一个或多个,图5中以一个处理器501为例;设备中的处理器501、存储器502、输入装置503和输出装置504可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器502作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的恶意流量账号检测方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的恶意流量账号检测方法。输入装置503可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置504可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行恶意流量账号检测方法,该方法包括:
根据每个账号各自的关联信息生成对应的账号行为节点;
根据账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量;
根据账号行为序列、关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
根据账号行为序列相似度确定恶意流量账号。
注意,上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明实施例不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此,虽然通过以上实施例对本发明实施例进行了较为详细的说明,但是本发明实施例不仅仅限于以上实施例,在不脱离本发明实施例构思的情况下,还可以包括更多其他等效实施例,而本发明实施例的范围由所附的权利要求范围决定。

Claims (12)

1.恶意流量账号检测方法,其特征在于,包括:
根据每个账号各自的关联信息生成对应的账号行为节点;
根据所述账号行为节点确定每个账号对应的账号行为序列,以及每个账号行为节点的关联账号数量;
根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
根据所述账号行为序列相似度确定恶意流量账号。
2.根据权利要求1所述的恶意流量账号检测方法,其特征在于,所述根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度,包括:
根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号行为节点的频率值;
根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
3.根据权利要求2所述的恶意流量账号检测方法,其特征在于,所述根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号行为节点的频率值,包括:
确定每个账号对应的账号行为序列中账号行为节点的个数,根据所述账号行为节点的个数确定每个账号的行为频率值;
根据每个账号下每个账号行为节点的关联账号数量以及账号总量计算得到每个账号行为节点的逆行为频率指数;
根据所述行为频率值以及所述逆行为频率指数计算得到每个账号行为节点的频率值。
4.根据权利要求2所述的恶意流量账号检测方法,其特征在于,所述根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度,包括:
根据所述每个账号行为节点的频率值以及账号行为序列,构建频率值矩阵;
通过矩阵分解公式对所述频率值矩阵进行降维,得到每个账户行为序列和行为主题的相关度矩阵;
基于所述相关度矩阵计算每个账号之间的账号行为序列相似度。
5.根据权利要求4所述的恶意流量账号检测方法,其特征在于,所述基于所述相关度矩阵计算每个账号之间的账号行为序列相似度,包括:
通过相似度计算公式对所述相关度矩阵的两两行向量进行计算得到每个账号之间的账号行为序列相似度。
6.根据权利要求2所述的恶意流量账号检测方法,其特征在于,所述根据所述每个账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度,包括:
根据所述账号行为序列的长度以及每个账号行为节点的频率值进行账号以及账号行为节点的滤除;
根据滤除后的账号行为节点的频率值计算得到每个账号之间的账号行为序列相似度。
7.根据权利要求1-6中任一项所述的恶意流量账号检测方法,其特征在于,所述根据所述账号行为序列相似度确定恶意流量账号,包括:
根据所述每个账号之间的账号行为序列相似度,筛选出强关联的账号关系对;
将所述强关联的账号关系对输入到连通子图中,基于预设相似度阈值计算所述连通子图的强连通分量;
将强连通分量个数大于强连通分量阈值的强连通分量对应的账号确定为恶意流量账号。
8.根据权利要求1-6中任一项所述的恶意流量账号检测方法,其特征在于,所述根据每个账号各自的关联信息生成对应的账号行为节点,包括:
根据每个账号对应记录的动作发生时间、动作发生节点以及动作执行内容生成对应的账号行为节点。
9.根据权利要求8所述的恶意流量账号检测方法,其特征在于,确定每个账号行为节点的关联账号数量的方式包括:
确定包含和每个账号行为节点中动作执行内容一致的其他账号的数量。
10.恶意流量账号检测装置,其特征在于,所述装置包括:
行为节点生成模块,用于根据每个账号各自的关联信息生成对应的账号行为节点;
序列确定模块,用于根据所述账号行为节点确定每个账号对应的账号行为序列;
关联账号确定模块,用于根据所述账号行为节点确定每个账号行为节点的关联账号数量;
相似度确定模块,用于根据所述账号行为序列、所述关联账号数量以及账号总量计算得到每个账号之间的账号行为序列相似度;
恶意账号确定模块,用于根据所述账号行为序列相似度确定恶意流量账号。
11.一种恶意流量账号检测设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的恶意流量账号检测方法。
12.一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一项所述的恶意流量账号检测方法。
CN202110470331.1A 2021-04-28 2021-04-28 恶意流量账号检测方法、装置、设备和存储介质 Active CN113297840B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110470331.1A CN113297840B (zh) 2021-04-28 2021-04-28 恶意流量账号检测方法、装置、设备和存储介质
PCT/CN2022/088944 WO2022228371A1 (zh) 2021-04-28 2022-04-25 恶意流量账号检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110470331.1A CN113297840B (zh) 2021-04-28 2021-04-28 恶意流量账号检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113297840A true CN113297840A (zh) 2021-08-24
CN113297840B CN113297840B (zh) 2024-05-24

Family

ID=77320443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110470331.1A Active CN113297840B (zh) 2021-04-28 2021-04-28 恶意流量账号检测方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN113297840B (zh)
WO (1) WO2022228371A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022228371A1 (zh) * 2021-04-28 2022-11-03 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117061254B (zh) * 2023-10-12 2024-01-23 之江实验室 异常流量检测方法、装置和计算机设备
CN117235654B (zh) * 2023-11-15 2024-03-22 中译文娱科技(青岛)有限公司 一种人工智能的数据智能处理方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917643A (zh) * 2014-03-11 2015-09-16 腾讯科技(深圳)有限公司 异常账号检测方法及装置
CN105373614A (zh) * 2015-11-24 2016-03-02 中国科学院深圳先进技术研究院 一种基于用户账号的子用户识别方法及系统
CN108984721A (zh) * 2018-07-10 2018-12-11 阿里巴巴集团控股有限公司 垃圾账号的识别方法和装置
CN109376354A (zh) * 2018-09-26 2019-02-22 出门问问信息科技有限公司 欺诈行为识别方法、装置、电子设备及可读存储介质
US20190266325A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Automatic malicious session detection
CN110427999A (zh) * 2019-07-26 2019-11-08 武汉斗鱼网络科技有限公司 一种账号相关性评估方法、装置、设备及介质
CN111031017A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 一种异常业务账号识别方法、装置、服务器及存储介质
CN111371767A (zh) * 2020-02-20 2020-07-03 深圳市腾讯计算机系统有限公司 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN111695019A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种识别关联账号的方法及装置
CN111865925A (zh) * 2020-06-24 2020-10-30 国家计算机网络与信息安全管理中心 基于网络流量的诈骗团伙识别方法、控制器和介质
CN112116007A (zh) * 2020-09-18 2020-12-22 四川长虹电器股份有限公司 基于图算法和聚类算法的批量注册账号检测方法
CN112182520A (zh) * 2019-07-03 2021-01-05 腾讯科技(深圳)有限公司 非法账号的识别方法、装置、可读介质及电子设备
CN112468523A (zh) * 2021-02-02 2021-03-09 北京明略昭辉科技有限公司 异常流量检测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
CN113297840B (zh) * 2021-04-28 2024-05-24 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104917643A (zh) * 2014-03-11 2015-09-16 腾讯科技(深圳)有限公司 异常账号检测方法及装置
CN105373614A (zh) * 2015-11-24 2016-03-02 中国科学院深圳先进技术研究院 一种基于用户账号的子用户识别方法及系统
US20190266325A1 (en) * 2018-02-28 2019-08-29 Microsoft Technology Licensing, Llc Automatic malicious session detection
CN108984721A (zh) * 2018-07-10 2018-12-11 阿里巴巴集团控股有限公司 垃圾账号的识别方法和装置
CN109376354A (zh) * 2018-09-26 2019-02-22 出门问问信息科技有限公司 欺诈行为识别方法、装置、电子设备及可读存储介质
CN112182520A (zh) * 2019-07-03 2021-01-05 腾讯科技(深圳)有限公司 非法账号的识别方法、装置、可读介质及电子设备
CN110427999A (zh) * 2019-07-26 2019-11-08 武汉斗鱼网络科技有限公司 一种账号相关性评估方法、装置、设备及介质
CN111031017A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 一种异常业务账号识别方法、装置、服务器及存储介质
CN111371767A (zh) * 2020-02-20 2020-07-03 深圳市腾讯计算机系统有限公司 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN111695019A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 一种识别关联账号的方法及装置
CN111865925A (zh) * 2020-06-24 2020-10-30 国家计算机网络与信息安全管理中心 基于网络流量的诈骗团伙识别方法、控制器和介质
CN112116007A (zh) * 2020-09-18 2020-12-22 四川长虹电器股份有限公司 基于图算法和聚类算法的批量注册账号检测方法
CN112468523A (zh) * 2021-02-02 2021-03-09 北京明略昭辉科技有限公司 异常流量检测方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘金岭;宋连友;范玉虹;: "基于语义信息的中文短信文本相似度研究", 计算机工程, no. 13, 5 July 2012 (2012-07-05), pages 64 - 66 *
吴铮: "跨社交网络用户多重身份识别算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 6, 15 June 2018 (2018-06-15), pages 138 - 1 *
樊茜;许洪波;梁英;: "社交网络账号的马甲关系辨识方法", 中文信息学报, no. 06, 15 November 2014 (2014-11-15), pages 166 - 172 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022228371A1 (zh) * 2021-04-28 2022-11-03 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
WO2022228371A1 (zh) 2022-11-03
CN113297840B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
CN113297840B (zh) 恶意流量账号检测方法、装置、设备和存储介质
US8370278B2 (en) Ontological categorization of question concepts from document summaries
CN106874253A (zh) 识别敏感信息的方法及装置
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
Zhao et al. Chinese underground market jargon analysis based on unsupervised learning
CN108961019B (zh) 一种用户账户的检测方法和装置
Hsu et al. Integrating machine learning and open data into social Chatbot for filtering information rumor
Han et al. Towards stalkerware detection with precise warnings
Pritom et al. Data-driven characterization and detection of covid-19 themed malicious websites
CN109271495B (zh) 问答识别效果检测方法、装置、设备及可读存储介质
Murdock et al. Identifying cross-platform user relationships in 2020 us election fraud and protest discussions
Li et al. Structure-Aware Language Model Pretraining Improves Dense Retrieval on Structured Data
CN112492606B (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN114417883B (zh) 一种数据处理方法、装置及设备
Chen et al. Fraud analysis and detection for real-time messaging communications on social networks
Layton et al. Determining provenance in phishing websites using automated conceptual analysis
Chen et al. Retrieving potential cybersecurity information from hacker forums
Canelón et al. Unstructured data for cybersecurity and internal control
CN109740344B (zh) 威胁情报模型建立方法、装置、电子设备及存储介质
Kang et al. Hetero-labeled LDA: A partially supervised topic model with heterogeneous labels
Cao et al. Finding Shilling Attack in Recommender System based on Dynamic Feature Selection.
Chiu et al. Using an Efficient Detection Method to Prevent Personal Data Leakage for Web-Based Smart City Platforms
Muhindi Detection of Visual Similarity Snooping Attacks in Emails using an Extended Client Based Technique

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant