CN110019567B - 发现未知风险模式的方法、装置、电子设备及存储介质 - Google Patents
发现未知风险模式的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110019567B CN110019567B CN201910287221.4A CN201910287221A CN110019567B CN 110019567 B CN110019567 B CN 110019567B CN 201910287221 A CN201910287221 A CN 201910287221A CN 110019567 B CN110019567 B CN 110019567B
- Authority
- CN
- China
- Prior art keywords
- community
- risk
- sub
- graph
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种发现未知风险模式的方法,应用于大数据风控领域,包括:建立种子社区,将种子社区划分为多个子图社区,子图社区包括多个风险实体;基于风险实体在预设特征上的取值,计算种子社区内的所有风险实体两两之间的相似度;基于相似度,计算种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据紧密度贡献值,更新各子图社区,直至种子社区稳定不变;计算稳定后的各子图社区内的风险实体的预设特征的信息熵;基于信息熵,确定各子图社区的风险模式。本公开还提供了一种发现未知风险模式的计算装置、电子设备及存储介质。以上过程,有效解决了现有技术中使用普通聚类算法难以对特征进行降维处理并使聚类结果具有解释性的问题。
Description
技术领域
本公开涉及大数据风控领域,尤其涉及一种发现未知风险模式的方法、装置及存储介质。
背景技术
随着信息化时代的到来,经由计算机网络来实现资源共享越来越普遍。但随着网络开放性的不断发展,其中所产生的巨大利润被不法分子所觊觎。不法分子利用网络漏洞在网络中传播恶意程序,借此牟取暴利。这些恶意程序在消耗网络资源的同时,导致信息网络系统在实际运行过程中存在严重的安全隐患。这些安全隐患使计算机网络存在服务质量严重受损、数据信息安全难以得到保障等风险。因此,需要对网络进行监控,发现其中存在的风险模式,对这些风险模式加以应对。
在网络反作弊和反欺诈领域中,技术人员可通过经验发现一些固有的风险模式,并针对这些风险模式定制防控规则。但是,由于不法分子也会根据防控规则不断更新自己的对抗策略,从而导致产生新的风险模式。如何发现未知风险的模式是一个非常重要的研究问题。
现有技术对未知风险模式的发现往往通过聚类的算法进行,但是由于风险控制对象数量庞大,仅使用聚类算法处理这些对象数据计算非常困难,如何对风控对象的高维特征进行降维处理并且使得聚类结果具有解释性是普通聚类算法难以解决的问题。
发明内容
本发明根据能从风险实体中发现未知的风险模式,并能解决现有技术中存在的普通聚类算法难以对风险实体的高维特征进行降维处理和使聚类结果具有解释性的问题。
本公开的一个方面提供了一种发现未知风险模式的方法,包括:建立种子社区,将所述种子社区划分为多个子图社区,所述子图社区包括多个风险实体;基于所述风险实体在预设特征上的取值,计算所述种子社区内的所有风险实体两两之间的相似度;基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据所述紧密度贡献值,更新所述种子社区内的各所述子图社区,直至所述种子社区稳定不变;计算稳定后的所述种子社区内的各所述子图社区内的风险实体的预设特征的信息熵;基于所述信息熵,确定各所述子图社区的风险模式。
可选地,所述基于所述信息熵,确定各所述子图社区的风险模式包括:判断所述信息熵是否大于预设的信息熵阈值;当所述信息熵大于所述预设的信息熵阈值时,判断所述子图社区内的风险实体在所述预设特征上取预设值的概率是否大于预设阈值;当所述子图社区内的风险实体在所述预设特征上取预设值的概率大于所述预设阈值,则所述预设特征为风险模式特征;根据所述风险模式特征集合,确定所述子图社区的风险模式。
可选地,所述基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值包括:
基于所述相似度,通过预置的紧密度计算公式,计算各所述子图社区的第一类紧密度,以及,各所述子图社区外的风险实体加入各自对应的子图社区后各所述子图社区的第二类紧密度;
根据各所述子图社区的第一类紧密度和第二类紧密度,通过预置的紧密度贡献值计算公式,确定各所述子图社区外的风险实体对各所述子图社区的紧密度贡献值;
将各所述子图社区外紧密度贡献值最高的风险实体加入对应的子图社区内,形成对应的新的子图社区;
基于所述相似度,通过预置的紧密度计算公式,计算各所述新的子图社区的第一类紧密度,以及,各所述新的子图社区内的风险实体移出对应的子图社区后各所述新的子图社区的第三类紧密度;
根据各所述新的子图社区的第一类紧密度和第三类紧密度,通过所述预置的紧密度贡献值计算公式,确定各所述新的子图社区内的风险实体对各自对应的所述新的子图社区的紧密度贡献值;
将各所述新的子图社区内的紧密度贡献值小于零的风险实体从各自对应的新的子图社区中删除;
可选地,所述预置的紧密度计算公式:
其中,所述子图社区为G,fG为所述子图社区G的紧密度,pn(G)为所述子图社区G内部的风险实体两两之间的相似度之和,pout(G)为所述子图社区内部的风险实体和所述子图社区外部的风险实体两两之间的相似度之和,δ为权重系数,0≤δ≤1。
可选地,所述预置的紧密度贡献值计算公式包括:
令所述子图社区为G,A为所述种子社区内的风险实体,fG(+A)表示所述第二类紧密度或所述第三类紧密度,fG(-A)表示所述第一类紧密度,fG(A)为A对所述子图社区G的紧密度贡献值,则:
fG(A)=fG(+A)-fG(-A)。
可选地,所述计算稳定后的所述种子社区内的各所述子图社区内的风险实体的预设特征的信息熵包括:
令所述子图社区为G,x为任一所述预设特征,R为所述子图社区G内的风险实体在预设特征x上取值的集合,r为所述预设特征x取值的集合R中的任一值,p(x=r)为所述子图社区G内的风险实体在预设特征x上取值为r的概率,Entropy(G,x)为所述子图社区G内的风险实体的预设特征x的信息熵,则;
可选地,所述基于所述风险实体在预设特征上的取值,计算所述种子社区内的所有风险实体两两之间的相似度包括:
令两个所述风险实体分别为i和j,x表示任一所述预设特征,X为所述预设特征的集合,xi表示所述风险实体i在所述特征x上的取值,xj表示所述风险实体j在所述特征x上的取值,wx表示所述特征x对所述相似度的贡献值,Fx表示所述特征x对应的相似度计算公式,p(i,j)表示所述风险实体i和j之间的相似度,则:
本公开的另一个方面提供了一种发现未知风险模式的计算装置,包括:
第一处理模块,用于建立种子社区,将所述种子社区划分为多个子图社区,所述子图社区包括多个风险实体;
第二处理模块,用于基于风险实体在预设特征上的取值,计算种子社区内所有所述风险实体两两之间的相似度;
第三处理模块,用于基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据所述紧密度贡献值,更新所述种子社区内的各所述子图社区,直至所述种子社区稳定不变;
第四处理模块,用于计算稳定后的所述种子社区内的各所述子图社区内的风险实体的预设特征的信息熵;
第五处理模块,用于基于所述信息熵,确定各所述子图社区的风险模式。
本公开的另一个方面提供了一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中的任一项所述的发现未知风险模式的方法中的各个步骤。
本公开的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面中的任一项所述的发现未知风险模式的方法中的各个步骤。
在本公开实施例采用的上述至少一个技术方案能够达到以下有益效果:
在本公开的实施例中,通过计算种子社区内的风险实体对子图社区的紧密度贡献值来更新种子社区中的各子图社区,在不断更新各子图社区的过程中逐渐增强各子图社区内部的紧密度,即使各子图社区内部的风险实体的特征越来越相似,当种子社区内部更新稳定后,计算各子图社区的特征的信息熵,根据得到的信息熵确定各子图社区所具有的特征模式,即为各子图社区的风险模式。该方法考虑了风险实体的所有特征,不需要对特征进行降维处理,且能够通过计算信息熵直接提取子图社区的风险模式,解决了现有技术中使用普通聚类算法难以对特征进行降维处理并使聚类结果具有解释性的问题。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了本公开实施例提供的一种发现未知风险模式的方法的流程图;
图2示意性示出了本公开实施例提供的一种发现未知风险模式的方法中步骤103更新种子社区内的子图社区的流程图;
图3示意性示出了本公开实施例提供的一种发现未知风险模式的方法中步骤105基于信息熵确定子图社区的风险模式的流程图;
图4示意性示出了本公开实施例提供的一种发现未知风险模式的计算装置的结构框图;
图5示意性示出了本公开实施例提供的一种电子设备的结构框图;
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
图1示意性示出了本公开实施例提供的一种发现未知风险模式的方法的流程图。
具体的,如图1所示,本公开实施例的一种发现未知风险模式的方法包括以下操作:
步骤101,建立种子社区,将该种子社区划分为多个子图社区,所述子图社区包括多个风险实体。
该种子社区划分子图社区时,可根据历史经验,按照一定的特征模式将风险实体划分进子图社区,即子图社区内的风险实体都具有一定相似的模式。
在本实施例中,假设风险实体为某网站注册用户,根据注册用户的注册时间、IP地址、用户名、发布状态的时间及内容等特征,可将风险实体划分进与其有相似特征的风险实体所在的子图社区中。通过这种方式,种子社区内的子图社区都具有一定的特征模式。
步骤102,基于该风险实体在预设特征上的取值,计算该种子社区内的所有风险实体两两之间的相似度。
令两个该风险实体分别为i和j,x表示任一该预设特征,X为该预设特征的集合,xi表示该风险实体i在该特征x上的取值,xj表示该风险实体j在该特征x上的取值,wx表示该特征x对该相似度的贡献值,Fx表示该特征x对应的相似度计算公式,p(i,j)表示该风险实体i和j之间的相似度,则:
其中,在本实施例中,假设风险实体为为某网站注册用户,注册用户的注册时间、IP地址、用户名、发布状态的时间及内容等特征就是注册用户预设特征,为了计算两个风险实体之间的相似度,需考虑该两个风险实体在每个预设特征上的相似程度。
例如,假设预设特征x是用户注册时间距当前时间的分钟数,该特征x对应的相似度计算公式为:
其中,xi表示该风险实体i在该特征x上的取值,xj表示该风险实体j在该特征x上的取值,如果该特征x对该风险实体i和风险实体j的相似度的贡献值wx=0.1,根据上述该特征x对应的相似度计算公式,可计算该风险实体i和风险实体j在该特征x对应的相似度。
步骤103,基于该相似度,计算该种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据该紧密度贡献值,更新该种子社区内的各该子图社区,直至该种子社区稳定不变。
通过计算风险实体两两之间的相似度,可以根据预置的紧密度计算公式计算各子图社区的紧密度,由此可以计算种子社区内的风险实体对各子图社区的紧密度贡献值。根据计算出的紧密度贡献值,将对各自对应的子图社区的紧密度贡献值最高的风险实体加入各自对应的子图社区,并将各子图社区内紧密度贡献值小于零的风险实体从各子图社区中删除,通过这种方式,可使各子图社区进行一次更新,使得各子图社区内的紧密度提高,即使各子图社区内的风险实体相似程度变高。在完成对子图社区的一次更新后,重复上述步骤,不断的更新子图社区,直到种子社区内的所有子图社区都不再有风险实体加入,也不再有风险实体被删除,说明种子社区内的所有子图社区都更新完毕了。
步骤104,计算稳定后的该种子社区内的各该子图社区内的风险实体的预设特征的信息熵。
稳定后的该种子社区内的各子图社区的紧密度达到最高值,各子图社区内的风险实体的预设特征有极高的相似度,即各子图社区中的风险实体在一个或多个特征的取值上是一样的。因此,通过计算各子图社区内的风险实体的预设特征的信息熵,以此作为依据可提取各子图社区内有聚集性的特征。
令该子图社区为G,x为任一该预设特征,R为该子图社区G内的风险实体在预设特征x上取值的集合,r为该预设特征x取值的集合R中的任一值,p(x=r)为该子图社区G内的风险实体在预设特征x上取值为r的概率,Entropy(G,x)为该子图社区G内的风险实体的预设特征x的信息熵,则;
步骤105,基于该信息熵,确定各该子图社区的风险模式。
基于计算得到的信息熵,提取各该子图社区的风险模式的风险模式特征,根据该风险模式特征的集合,确定该子图社区的风险模式。
图2示意性示出了本公开实施例提供的一种发现未知风险模式的方法中步骤103更新种子社区内的子图社区的流程图。
具体的,如图2所示,本公开实施例的一种发现未知风险模式的方法中步骤103更新种子社区内的子图社区包括以下操作:
步骤1031,基于该相似度,通过预置的紧密度计算公式,计算各该子图社区的第一类紧密度,以及,各该子图社区外的风险实体加入各自对应的子图社区后各该子图社区的第二类紧密度;
步骤1032,根据各该子图社区的第一类紧密度和第二类紧密度,通过预置的紧密度贡献值计算公式,确定各该子图社区外的风险实体对各该子图社区的紧密度贡献值;
步骤1033,将各该子图社区外紧密度贡献值最高的风险实体加入对应的子图社区内,形成对应的新的子图社区;
步骤1034,基于该相似度,通过预置的紧密度计算公式,计算各该新的子图社区的第一类紧密度,以及,各该新的子图社区内的风险实体移出对应的子图社区后各该新的子图社区的第三类紧密度;
步骤1035,根据各该新的子图社区的第一类紧密度和第三类紧密度,通过该预置的紧密度贡献值计算公式,确定各该新的子图社区内的风险实体对各自对应的该新的子图社区的紧密度贡献值;
步骤1036,将各该新的子图社区内的紧密度贡献值小于零的风险实体从各自对应的新的子图社区中删除;
该预置的紧密度计算公式包括:
其中,该子图社区为G,fG为该子图社区G的紧密度,pin(G)为该子图社区G内部的风险实体两两之间的相似度之和,pout(G)为该子图社区内部的风险实体和该子图社区外部的风险实体两两之间的相似度之和,δ为权重系数,0≤δ≤1。
令该子图社区为G,A为该种子社区内的风险实体,fG(+A)表示该第二类紧密度或该第三类紧密度,fG(-A)表示该第一类紧密度,fG(A)为A对该子图社区G的紧密度贡献值,则:
fG(A)=fG(+A)-fG(-A)
在步骤1302中各该子图社区外的风险实体对各该子图社区的紧密度贡献值时,A表示的是该子图社区外部的风险实体。在步骤1305中各该新的子图社区内的风险实体对各该新的子图社区的紧密度贡献值时,A表示的是各该新的子图社区内部的风险实体。
图3示意性示出了本公开实施例提供的一种发现未知风险模式的方法中步骤105基于信息熵确定子图社区的风险模式的流程图。
具体的,如图3所示,本公开实施例的一种发现未知风险模式的方法中步骤105基于信息熵确定子图社区的风险模式包括以下操作:
步骤1051,判断该信息熵是否大于预设的信息熵阈值。
令α为该预设特征x的信息熵的阈值,其中,0≤α≤1。
判断该信息熵Entropy(G,x)是否大于该阈值α,如果Entropy(G,x)≥α,则说明该子图社区内的风险实体在预设特征x上具有聚集性,可以从预设特征x中提取风险模式。
步骤1052,当该信息熵大于该预设的信息熵阈值时,判断该子图社区内的风险实体在该预设特征上取预设值的概率是否大于预设阈值。
令β为该子图社区G在预设特征x上存在未知风险的概率阈值,其中,0.5≤β≤0.8。
步骤1053,当该子图社区内的风险实体在该预设特征上取预设值的概率大于该预设阈值,则该预设特征为风险模式特征
如果p(x=r)≥β,则提取x=r为该子图社区的风险模式的一个风险模式特征,反之,说明该预设特征x=r并不能作为风险模式特征。
步骤1054,根据该风险模式特征的集合,确定该子图社区的风险模式。
通过步骤1051至1053,可从该子图社区中提取到至少一个一个风险模式特征组成的集合,假设从该子图社区中提取到了A=a和B=b这两个风险模式特征,其中A和B分别表示该子图社区中的风险实体的两个预设特征,a和b分别为A和B的取值,那么,该子图社区的风险模式即为A=a和B=b。
在本公开的实施例中,通过计算种子社区内的风险实体对子图社区的紧密度贡献值来更新种子社区中的各子图社区,在不断更新各子图社区的过程中逐渐增强各子图社区内部的紧密度,即使各子图社区内部的风险实体的特征越来越相似,当种子社区内部更新稳定后,计算各子图社区的特征的信息熵,根据得到的信息熵确定各子图社区所具有的特征模式,即为各子图社区的风险模式。该方法考虑了风险实体的所有特征,不需要对特征进行降维处理,且能够通过计算信息熵直接提取子图社区的风险模式,解决了现有技术中使用普通聚类算法难以对特征进行降维处理并使聚类结果具有解释性的问题。
图4本公开实施例提供的一种文本相似度的计算装置的结构框图。
如图4所示,文本相似度的计算装置包括:第一处理模块210、第二处理模块220、第三处理模块230、第四处理模块240及第五处理模块250。
具体地,第一处理模块210,用于建立种子社区,将该种子社区划分为多个子图社区,该子图社区包括多个风险实体,
第二处理模块220,用于基于风险实体在预设特征上的取值,计算种子社区内所有该风险实体两两之间的相似度;
第三处理模块230,用于计算该种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据该紧密度贡献值,更新该种子社区内的各该子图社区,直至该种子社区稳定不变。
第四处理模块240,用于计算稳定后的该种子社区内的各该子图社区内的风险实体的预设特征的信息熵;
第五处理模块250,用于基于该信息熵,确定各该子图社区的风险模式。
可以理解的是,第一处理模块210、第二处理模块220、第三处理模块230、第四处理模块240及第五处理模块250可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,第一处理模块210、第二处理模块220、第三处理模块230、第四处理模块240及第五处理模块250中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,第一处理模块210、第二处理模块220、第三处理模块230、第四处理模块240及第五处理模块250中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图5示意性示出了本公开实施例提供的一种电子设备的结构框图。
请参见图5,图5示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器51、处理器52及存储在存储器51上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的一种发现未知风险模式的方法。
进一步地,该电子设备还包括:
至少一个输入设备53;至少一个输出设备54。
上述存储器51、处理器52输入设备53和输出设备54通过总线55连接。
其中,输入设备53具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备54具体可为显示屏。
存储器51可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器51用于存储一组可执行程序代码,处理器52与存储器51耦合。
本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (8)
1.一种发现未知风险模式的方法,其特征在于,包括:
建立种子社区,将所述种子社区划分为多个子图社区,所述子图社区包括多个风险实体,所述风险实体为某网站注册用户;
基于所述风险实体在多个预设特征上的取值,计算所述种子社区内的所有风险实体两两之间的相似度,所述预设特征为注册用户的注册时间、IP地址、用户名、发布状态的时间及内容;
基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据所述紧密度贡献值,更新所述种子社区内的各所述子图社区,直至所述种子社区稳定不变;
计算稳定后的所述种子社区内的各所述子图社区内的风险实体的多个预设特征的信息熵;
所述计算稳定后的所述种子社区内的各所述子图社区内的风险实体的多个预设特征的信息熵包括:
令所述子图社区为G,x为所述多个预设特征,R为所述子图社区G内的风险实体在所述多个预设特征x上取值的集合,r为所述预设特征x取值的集合R中的任一值,p(x=r)为所述子图社区G内的风险实体在预设特征x上取值为r的概率,Entropy(G,x)为所述子图社区G内的风险实体的预设特征x的信息熵,则;
基于所述信息熵,确定各所述子图社区的风险模式;
其中,所述基于所述信息熵,确定各所述子图社区的风险模式包括:
判断所述信息熵是否大于预设的信息熵阈值;
当所述信息熵大于所述预设的信息熵阈值时,判断所述子图社区内的风险实体在所述预设特征上取预设值的概率是否大于预设阈值;
当所述子图社区内的风险实体在所述预设特征上取预设值的概率大于所述预设阈值,则所述预设特征为风险模式特征;
根据所述风险模式特征的集合,确定所述子图社区的风险模式;
假设从所述子图社区中提取到了A和B这两个风险模式特征,a和b分别为A和B的取值,那么,该子图社区的风险模式即为A=a和B=b。
2.根据权利要求1所述的方法,其特征在于,所述基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值包括:
基于所述相似度,通过预置的紧密度计算公式,计算各所述子图社区的第一类紧密度,以及,各所述子图社区外的风险实体加入各自对应的子图社区后各所述子图社区的第二类紧密度;
根据各所述子图社区的第一类紧密度和第二类紧密度,通过预置的紧密度贡献值计算公式,确定各所述子图社区外的风险实体对各所述子图社区的紧密度贡献值;
将各所述子图社区外紧密度贡献值最高的风险实体加入对应的子图社区内,形成对应的新的子图社区;
基于所述相似度,通过预置的紧密度计算公式,计算各所述新的子图社区的第一类紧密度,以及,各所述新的子图社区内的风险实体移出对应的子图社区后各所述新的子图社区的第三类紧密度;
根据各所述新的子图社区的第一类紧密度和第三类紧密度,通过所述预置的紧密度贡献值计算公式,确定各所述新的子图社区内的风险实体对各自对应的所述新的子图社区的紧密度贡献值;
将各所述新的子图社区内的紧密度贡献值小于零的风险实体从各自对应的新的子图社区中删除。
4.根据权利要求2所述的方法,其特征在于,所述预置的紧密度贡献值计算公式包括:
令所述子图社区为G,A为所述种子社区内的风险实体,fG(+A)表示所述第二类紧密度或所述第三类紧密度,fG(-A)表示所述第一类紧密度,fG(A)为A对所述子图社区G的紧密度贡献值,则:
fG(A)=fG(+A)-fG(-A)。
6.一种发现未知风险模式的计算装置,其特征在于,包括:
第一处理模块,用于建立种子社区,将所述种子社区划分为多个子图社区,所述子图社区包括多个风险实体,所述风险实体为某网站注册用户;
第二处理模块,用于基于风险实体在多个预设特征上的取值,计算种子社区内所有所述风险实体两两之间的相似度,所述预设特征为注册用户的注册时间、IP地址、用户名、发布状态的时间及内容;
第三处理模块,用于基于所述相似度,计算所述种子社区内的风险实体对各自对应的子图社区的紧密度贡献值,根据所述紧密度贡献值,更新所述种子社区内的各所述子图社区,直至所述种子社区稳定不变;
第四处理模块,用于计算稳定后的所述种子社区内的各所述子图社区内的风险实体的多个预设特征的信息熵;
所述计算稳定后的所述种子社区内的各所述子图社区内的风险实体的多个预设特征的信息熵包括:
令所述子图社区为G,x为所述多个预设特征,R为所述子图社区G内的风险实体在所述多个预设特征x上取值的集合,r为所述预设特征x取值的集合R中的任一值,p(x=r)为所述子图社区G内的风险实体在预设特征x上取值为r的概率,Entropy(G,x)为所述子图社区G内的风险实体的预设特征x的信息熵,则;
第五处理模块,用于基于所述信息熵,确定各所述子图社区的风险模式;
其中,所述基于所述信息熵,确定各所述子图社区的风险模式包括:
判断所述信息熵是否大于预设的信息熵阈值;
当所述信息熵大于所述预设的信息熵阈值时,判断所述子图社区内的风险实体在所述预设特征上取预设值的概率是否大于预设阈值;
当所述子图社区内的风险实体在所述预设特征上取预设值的概率大于所述预设阈值,则所述预设特征为风险模式特征;
根据所述风险模式特征的集合,确定所述子图社区的风险模式;
假设从所述子图社区中提取到了A和B这两个风险模式特征,a和b分别为A和B的取值,那么,该子图社区的风险模式即为A=a和B=b。
7.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至5中的任一项所述的发现未知风险模式的方法中的各个步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至5中的任一项所述的发现未知风险模式的方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910287221.4A CN110019567B (zh) | 2019-04-10 | 2019-04-10 | 发现未知风险模式的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910287221.4A CN110019567B (zh) | 2019-04-10 | 2019-04-10 | 发现未知风险模式的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019567A CN110019567A (zh) | 2019-07-16 |
CN110019567B true CN110019567B (zh) | 2021-07-23 |
Family
ID=67191080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910287221.4A Active CN110019567B (zh) | 2019-04-10 | 2019-04-10 | 发现未知风险模式的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019567B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880644A (zh) * | 2012-08-24 | 2013-01-16 | 电子科技大学 | 社区发现方法 |
CN104199832A (zh) * | 2014-08-01 | 2014-12-10 | 西安理工大学 | 基于信息熵的金融网络异常交易社区发现方法 |
US9336381B1 (en) * | 2013-04-08 | 2016-05-10 | Amazon Technologies, Inc. | Entropy-based detection of sensitive information in code |
CN105574541A (zh) * | 2015-12-14 | 2016-05-11 | 天云融创数据科技(北京)有限公司 | 一种基于紧密度排序的网络社区发现方法 |
CN105931046A (zh) * | 2015-12-16 | 2016-09-07 | 中国银联股份有限公司 | 一种可疑交易节点集合侦测方法及装置 |
CN108243191A (zh) * | 2018-01-10 | 2018-07-03 | 武汉斗鱼网络科技有限公司 | 风险行为识别方法、存储介质、设备及系统 |
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105933223B (zh) * | 2015-12-16 | 2018-12-28 | 中国银联股份有限公司 | 一种可疑洗钱路径侦测方法及装置 |
CN107194623B (zh) * | 2017-07-20 | 2021-01-05 | 深圳市分期乐网络科技有限公司 | 一种团伙欺诈的发现方法及装置 |
CN109064049A (zh) * | 2018-08-17 | 2018-12-21 | 深圳市中电数通智慧安全科技股份有限公司 | 一种动态划分风险区域的方法、装置及终端设备 |
-
2019
- 2019-04-10 CN CN201910287221.4A patent/CN110019567B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880644A (zh) * | 2012-08-24 | 2013-01-16 | 电子科技大学 | 社区发现方法 |
US9336381B1 (en) * | 2013-04-08 | 2016-05-10 | Amazon Technologies, Inc. | Entropy-based detection of sensitive information in code |
CN104199832A (zh) * | 2014-08-01 | 2014-12-10 | 西安理工大学 | 基于信息熵的金融网络异常交易社区发现方法 |
CN105574541A (zh) * | 2015-12-14 | 2016-05-11 | 天云融创数据科技(北京)有限公司 | 一种基于紧密度排序的网络社区发现方法 |
CN105931046A (zh) * | 2015-12-16 | 2016-09-07 | 中国银联股份有限公司 | 一种可疑交易节点集合侦测方法及装置 |
CN108243191A (zh) * | 2018-01-10 | 2018-07-03 | 武汉斗鱼网络科技有限公司 | 风险行为识别方法、存储介质、设备及系统 |
CN108876166A (zh) * | 2018-06-27 | 2018-11-23 | 平安科技(深圳)有限公司 | 财务风险验证处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
"基于节点相似性的LFM社团发现算法";杨晓波等;《复杂系统与复杂性科学》;20170930;第14卷(第3期);第87-90页,图4 * |
Also Published As
Publication number | Publication date |
---|---|
CN110019567A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062215B2 (en) | Using different data sources for a predictive model | |
CN108885713B (zh) | 图像分类神经网络 | |
WO2021051561A1 (zh) | 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质 | |
WO2022141869A1 (zh) | 模型训练方法、调用方法、装置、计算机设备和存储介质 | |
US20240095538A1 (en) | Privacy-preserving graphical model training methods, apparatuses, and devices | |
JP6212217B2 (ja) | 機械学習における重みの生成 | |
BR112019008055A2 (pt) | método implementado por computador, meio não transitório, legível por computador e sistema implementado por computador | |
CN111400504B (zh) | 企业关键人的识别方法和装置 | |
US11537770B2 (en) | Quantum circuit embedding by simulated annealing | |
US11803657B2 (en) | Generation of representative data to preserve membership privacy | |
Gao et al. | Android malware detection via graphlet sampling | |
WO2017181866A1 (en) | Making graph pattern queries bounded in big graphs | |
WO2022110640A1 (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
CN112214775A (zh) | 对图数据的注入式攻击方法、装置、介质及电子设备 | |
CN111198967B (zh) | 基于关系图谱的用户分组方法、装置及电子设备 | |
EP4343616A1 (en) | Image classification method, model training method, device, storage medium, and computer program | |
US20150381629A1 (en) | Crowd Sourced Access Approvals | |
CN113837260A (zh) | 模型训练方法、对象匹配方法、装置及电子设备 | |
CN110019567B (zh) | 发现未知风险模式的方法、装置、电子设备及存储介质 | |
US20180129916A1 (en) | Statistical max pooling with deep learning | |
CN115099875A (zh) | 基于决策树模型的数据分类方法及相关设备 | |
CN111582456B (zh) | 用于生成网络模型信息的方法、装置、设备和介质 | |
US20220374325A1 (en) | Goal seek analysis based on status models | |
US11676050B2 (en) | Systems and methods for neighbor frequency aggregation of parametric probability distributions with decision trees using leaf nodes | |
CN114422277A (zh) | 防御网络攻击的方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |