CN113468437A - 一种社群挖掘方法、装置、电子设备及存储介质 - Google Patents
一种社群挖掘方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113468437A CN113468437A CN202111023658.0A CN202111023658A CN113468437A CN 113468437 A CN113468437 A CN 113468437A CN 202111023658 A CN202111023658 A CN 202111023658A CN 113468437 A CN113468437 A CN 113468437A
- Authority
- CN
- China
- Prior art keywords
- community
- data
- node
- data set
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008859 change Effects 0.000 claims abstract description 15
- 230000015654 memory Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种社群挖掘方法,包括:获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果;本申请还提供一种社群挖掘装置、电子设备和存储介质,通过本申请提供的社群挖掘方法、装置、电子设备和存储介质,可以高效地进行社群挖掘。
Description
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种社群挖掘方法、装置、电子设备及存储介质。
背景技术
近年来随着学术界与工业界对人工智能(Artificial Intelligence,AI)领域探索的不断加深,各大银行通过互联网在增进金融服务效率、降低业务成本方面的优势逐渐显现。但是在给客户带来方便和优惠的同时,也吸引了以诱骗用户资金、攫取优惠补贴为目的的恶意分子。
社群挖掘是从复杂的网络结构中,通过识别具有特种规律的社区或数据,进而对复杂网络进行划分,找出节点潜在联系规律的一种技术,在对抗网络黑产社群的过程中起到至关重要的作用,因此,如何高效地进行社群挖掘是需要解决的技术问题。
发明内容
本申请提供一种社群挖掘方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
本申请一方面提供一种社群挖掘方法,包括:
获取第一数据集中与标注数据集关联的第一数据子集;
基于所述第一数据子集构建第一社群;
将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;
输出所述社群结果。
上述方案中,所述以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群,包括:
针对每个节点执行下述操作:
确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;
基于所述第二数据子集构建第二社群。
上述方案中,所述基于所述第一数据子集构建第一社群包括:
基于所述第一数据子集构建网络结构拓扑图;
确定所述网络结构拓扑图中每一个节点对应的模块度;
基于所述每一个节点对应的模块度,构建所述第一社群。
上述方案中,所述将所述第一社群包括的每个社区压缩为一个节点之前,所述方法还包括:
删除所述至少一个社区中不满足第一条件的社区和/或所述社区对应的至少一个节点。
上述方案中,所述将所述第一社群包括的每个社区压缩为一个节点包括:
针对每个社区执行下述操作:
确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;
确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
上述方案中,所述输出所述社群结果之后,所述方法还包括:
对所述社群结果中各社群进行风险性排序;
确定风险性最高的至少一个社群为目标社群。
上述方案中,所述对所述社群结果中各社群进行风险性排序,包括:
基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
上述方案中,所述各所述社群的社群标签覆盖比包括:各所述社群包括的数据与所述标注数据集中标注标签数据的并集对应的数量,与全部社群包括的全部数据的数量之商;
所述各社群的时间跨越度包括:各所述社群包括的数据的触发时间与当前时间之差的平均值;
所述各所述对应的分值包括:各所述社群包括的数据满足第二条件时,分配至所述社群的分值。
本申请第二方面提供一种社群挖掘装置,包括:获取单元,用于获取第一数据集中与标注数据集关联的第一数据子集;构建单元,用于基于所述第一数据子集构建第一社群;处理单元,用于将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出单元,用于输出所述社群结果。
本申请第三方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述社群挖掘方法所述的方法步骤。
本申请第四方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述社群挖掘方法所述的方法步骤。
通过本申请提供的社群挖掘方法,获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果,可以高效地进行社群挖掘。
附图说明
图1示出了本申请实施例提供的社群挖掘系统的架构示意图;
图2示出了本申请实施例提供的电子设备的结构示意图;
图3示出了本申请实施例提供的社群挖掘方法的一种可选流程示意图;
图4示出了本申请实施例提供的社群挖掘方法的另一种可选流程示意图;
图5示出了本申请实施例提供的社群挖掘装置的一种可选结构示意图;
图6示出了本申请实施例提供的社群挖掘方法的再一种可选流程示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
近年来随着学术界与工业界对人工智能(Artificial Intelligence,AI)领域探索的不断加深,各大银行通过互联网在增进金融服务效率、降低业务成本方面的优势逐渐显现。但是在给客户带来方便和优惠的同时,也吸引了以诱骗用户资金、攫取优惠补贴为目的的恶意分子。
据《数字金融反欺诈白皮书》显示,以欺诈为目标的恶意分子已经逐渐形成了目标精准、分工明确、技术先进的网络黑色产业团队(网络黑产社群)。估计造成的损失规模高达千亿元级别,现阶段,如何对抗网络黑产社群已经成为银行研究的核心问题。
目前银行行业在应对黑产社群的风控方法主要是依靠业务专家对用户的消费行为记录进行直接人工审核或者根据卡片和商户的交易特征,构建专家规则进行识别。业务专家直接进行审核,一方面不同专家的评判标准不同,导致审核结果的主观性太大,审核结果的稳定性太差;另一方面还因为审核量往往较大,会导致效率审核效率非常的低下,完全不适应于当下电子或电子银行大规模记录的业务场景需求。简单的专家规则由于形式简单,而且规则的制定又非常依赖于专家的经验,很难应对黑产团伙多种多样的欺诈模式,因此会造成比较大的漏报率。
因此,针对应对黑产社群中存在的缺陷,本申请提供一种检测方法,能够克服现有技术的部分或全部缺点。
参见图1,图1是本申请实施例提供的社群挖掘系统100的架构示意图,为实现支撑一个示例性应用,电子设备400通过网络300连接服务器200,其中,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
在一些实施例中,本申请实施例提供的社群挖掘方法可以由电子设备400实现。例如,电子设备400运行客户端,客户端410可以是用于社群挖掘的客户端。客户端可以采集原始数据集(第一数据集),并将所述第一数据集通过网络300传输至服务器200。
在需要进行社群挖掘时,客户端获取包括第一数据集。
在一些实施例中,以电子设备是服务器为例,本申请实施例提供的社群挖掘方法可以由服务器和电子设备协同实现。
在需要进行社群挖掘时,客户端获取第一数据集。然后,服务器200基于所述第一数据集,获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果。
在一些实施例中,电子设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的社群挖掘方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(Application,APP),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在实际应用中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以本申请实施例提供的电子设备为例说明,可以理解的,对于电子设备是服务器的情况,图2中示出的结构中的部分模块或接口可以缺省。参见图2,图2是本申请实施例提供的电子设备400的结构示意图,图2所示的电子设备400包括:至少一个处理器460、存储器450和至少一个网络接口420;可选的,所述电子设备400还可以包括用户接口430。电子设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器460可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(Digital Signal Processor,DSP),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器460的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(Read Only Memory,ROM),易失性存储器可以是随机存取存储器(Random Access Memory,RAM)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(Universal Serial Bus,USB)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的社群挖掘装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取单元4551、构建单元4552、处理单元4553、输出单元4554以及排序单元4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的社群挖掘装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的社群挖掘装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的社群挖掘方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(Application Specific IntegratedCircuit,ASIC)、DSP、可编程逻辑器件(Programmable Logic Device,PLD)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或其他电子元件。
基于上述对本申请实施例提供的社群挖掘系统及电子设备的说明,下面说明本申请实施例提供的社群挖掘方法。在一些实施例中,本申请实施例提供的社群挖掘方法可由服务器或电子设备单独实施,或由服务器及电子设备协同实施,下面以电子设备实施为例说明本申请实施例提供的社群挖掘方法。参见图3示出了本申请实施例提供的社群挖掘方法的一种可选流程示意图,将根据各个步骤进行说明。
步骤S301,获取第一数据集中与标注数据集关联的第一数据子集。
在一些实施例中,社群挖掘装置(以下简称装置)获取第一数据集中,与标注数据集中的数据相关联的第一数据子集。其中,所述第一数据集中的数据未被标注数据类型;所述标注数据集中的数据均被标注数据类型。
具体实施时,所述装置以所述标注数据集中数据的特征为粒度,获取所述第一数据集中,与所述标注数据集的特征相同的数据,为第一数据子集。
例如,标注数据集中包括第一互联网协议地址(Internet Protocol Address,IP)、第一主体、第一客体、第一媒体访问控制地址(Media Access Control Address,MAC地址)、第一账户和第一用户信息,确定所述第一数据集中,与第一IP地址、第一主体、第一客体、第一MAC地址、第一账户和第一用户信息中至少之一相同的第一数据集中的数据为第一数据子集。
在一些实施例中,所述装置在步骤S301之前,还可以删除所述第一数据集中与其他数据无法关联的数据。
步骤S302,基于第一数据子集构建第一社群。
在一些实施例中,所述装置基于所述第一数据子集构建网络结构拓扑图;确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第一社群。
模块度是评估一个社群网络划分好坏的度量方法,它的物理含义是社群内节点的连边的权重之和与随机情况下的连边的权重之和的差距,它的取值范围是 [−1/2,1),具体实施时,所述装置可以通过式(1)确定所述网络结构拓扑图中每一个节点对应的模块度。
其中,其中是节点i和节点j之间边的权重,网络不是带权图时,所有边的权重
可以看做是1; 表示所有与节点i相连的边的权重之和(度数);表示节点i所
属的社区;表示网络结构拓扑图中所有边的权重之和(边的数目)。
在一些实施例中,所述装置构建所述第一社群之后,还可以对所述第一社群进行剪枝,删除所述第一社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。所述第一条件可以至少包括以下之一:社区中节点数量大于第一阈值和社区中属性值之和大于第二阈值。
步骤S303,将第一社群包括的每个社区压缩为一个节点,以第一数据集中数据的特征为粒度获取第一数据集中与节点关联的第二数据子集,基于第二数据子集构建第二社群;直至第一数据集中的数据无法与节点关联,或基于第一数据集构建的社群结果不再变化。
在一些实施例中,所述装置针对每个社区执行下述操作:确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
在一些实施例中,所述装置以第一数据集中数据的特征为粒度获取第一数据集中与节点关联的第二数据子集,基于第二数据子集构建第二社群;直至第一数据集中的数据无法与节点关联,或基于第一数据集构建的社群结果不再变化。
具体实施时,所述装置针对每个节点执行下述操作:确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;基于所述第二数据子集构建第二社群。
例如,第一数据集中第一数据包括参数1、参数2和参数3;标注数据集中包括参数3,在步骤S301中,有语音第一数据包括的参数3与标注数据集中的参数3相同,因此第一数据与标注数据集关联,为所述第一数据子集中的数据。第一数据集中第二数据包括参数2、参数4和参数5,其中参数2、参数4和参数5不在标注数据集中;在步骤S303中,由于第一数据中包括的参数2与第二数据中包括的参数2相同,因此,第二数据与第一数据子集关联,为所述第二数据子集中的数据。其中,数据包括的参数可以是所述数据的特征,如IP地址、MAC地址、主体、客体、账户、用户信息等。
在一些实施例中,所述装置基于所述第二数据子集构建第二社群可以包括:所述装置基于所述第二数据子集构建网络结构拓扑图,确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第二社群。
在一些实施例中,所述装置构建所述第二社群之后,还可以对所述第二社群进行剪枝,删除所述第二社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。
在一些实施例中,所述装置构建所述第二社群后,重复执行步骤S303,直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化。
步骤S304,输出社群结果。
在一些实施例中,所述装置基于步骤S303迭代后,所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化,输出社群结果。
如此,通过本申请实施例提供的社群挖掘方法,通过获取第一数据集中与标注数据集关联的第一数据子集;基于所述第一数据子集构建第一社群;可以在第一数据集(原始数据)的数据量非常庞大、构造的网络极其复杂的情况下,通过匹配标注数据集筛选目标数据(第一数据子集),缩短计算时长,提升效率。此外,将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出所述社群结果;通过半监督场景下社区迭代的方法,不断横向拓展标注样本(标注数据集)关联的数据子集,通过迭代的方式一步步挖掘最终得到多个社群结果,避免了无监督场景的无序计算,对社群的挖掘更加深入。
在一些实施例中,步骤S301至步骤S304之后,所述方法还可以包括步骤S401至步骤S402。
图4示出了本申请实施例提供的社群挖掘方法的另一种可选流程示意图,将根据各个步骤进行说明。
步骤S401,对所述社群结果中各社群进行风险性排序。
在一些实施例中,所述装置基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
其中,所述各所述社群的社群标签覆盖比包括:各所述社群包括的数据与所述标注数据集中标注标签数据的并集对应的数量,与全部社群包括的全部数据的数量之商;所述各社群的时间跨越度包括:各所述社群包括的数据的触发时间与当前时间之差的平均值;所述各所述对应的分值包括:各所述社群包括的数据满足第二条件时,分配至所述社群的分值。所述第二条件可以是银行的先验知识,所述社群包括的数据满足银行的某一先验知识的情况下,将对应分值分配至所述社群。
具体实施时,所述装置基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度、各所述社群对应的分值、第一系数、第二系数和第三系数,对社群挖掘结果中各社群进行风险性排序。
各社群的风险性评分可以为:
其中,α为第一系数、β为第二系数、γ为第三系数,且α+β+γ=1,可根据情况分配各部分比例。可选的,还可以对各所述社群的社群标签覆盖比、各所述社群的时间跨越度、各所述社群对应的分值进行归一化处理,基于归一化处理后的参数,确定各社群的风险性评分。
步骤S402,确定风险性最高的至少一个社群为目标社群。
在一些实施例中,所述装置基于各社群的风险性评分对所述各社群进行排序,确定风险性最高的至少一个社群为目标社群。
在一些实施例中,所述装置对不同社群进行风险评分判判定,使得每个社群获得一个固定的风险评分值,风险评分值越大,则代表社群的危险性越大,越需要尽快使用风控手段,防止造成更大的危害。
如此,通过本申请实施例提供的社群挖掘方法,多指标的风险评分排序方法。通过定义三个指标:社群标注标签覆盖比,时间跨越度和各所述社群对应的分值。融合了银行的先验知识,通过对挖掘得到的社群进行风险评定,可以在社群挖掘结果的基础上,以业务的角度,使其对结果有更为直观、清晰的认识。
图5示出了本申请实施例提供的社群挖掘装置的一种可选结构示意图,将根据各个部分进行说明。
在一些是实施例中,社群挖掘装置500包括:数据筛选模块501、半监督社群探索模块502和风险性排序模块503。
在一些实施例中,所述原始数据集中的数据未被标注数据类型,社群挖掘装置的目的是从所述原始数据集中挖掘出异常社群。标注数据集中的数据是原始数据中被判定为异常的数据集合。
所述数据筛选模块501是半监督社群探索模块502的前置模块。用于对原始数据进行初步筛选,剔除原始数据中的孤立点,即筛除原始数据中所有与除自身外其余数据均无关联(如相关IP地址、交易、Mac地址等)数据。经过筛选后数据(第一数据集)与标注数据(标注数据集)一同输入到半监督社群探索模块502中。
半监督社群探索模块502,用于基于第一数据集和标注数据集挖掘社群(实现步骤S301至步骤S304的流程)。
风险性排序模块503,用于将社群挖掘方法结果,利用设定的条件打分机制,对结果进行结果重排优化,从而得到最终的输出结果(实现步骤S401至步骤S402的流程)。风险评分排序模块503的主要功能是对不同社群进行风险评分判判定,使得每个社群获得一个固定的风险评分值,风险评分值越大,则代表社群的危险性越大,越需要尽快使用风控手段,防止造成更大的危害。
图6示出了本申请实施例提供的社群挖掘方法的再一种可选流程示意图,将根据各个步骤进行说明。
步骤S601,获取第一数据集中与标注数据集关联的第一数据子集。
在一些实施例中,所述装置将经过数据筛选模块501处理后的第一数据集与标注数据集中的数据进行关联,将第一数据集中与标注数据集中数据有关的所有数据进行提取,如:相同的IP地址、相同的主客体、相同的Mac地址、相同的账户或客户身份等,提取后的数据未第一数据子集。
步骤S602,基于第一数据子集构建第一社群。
在一些实施例中,所述装置基于第一数据子集构造网络结构拓扑图,计算每个节点的模块度,并基于所述每个节点的模块度对整个网络进行社群挖掘。
步骤S603,对第一社群进行剪枝。
在一些实施例中,所述装置删除所述第一社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。所述第一条件可以至少包括以下之一:社区中节点数量大于第一阈值和社区中属性值之和大于第二阈值。
在一些实施例中,若被删除的社区或社区对应的至少一个节点中包括与标注数据关联的数据,则放弃删除所述社区或所述社区对应的至少一个节点。
步骤S604,将剪枝后的第一社群包括的每个社区压缩为一个节点。
在一些实施例中,所述装置针对每个社区执行下述操作:确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
步骤S605,以第一数据集中数据的特征为粒度获取第一数据集中与节点关联的第二数据子集,基于第二数据子集构建第二社群。
在一些实施例中,所述装置针对每个节点执行下述操作:确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;基于所述第二数据子集构建第二社群。
在一些实施例中,所述装置基于所述第二数据子集构建第二社群可以包括:所述装置基于所述第二数据子集构建网络结构拓扑图,确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第二社群。
在一些实施例中,所述装置构建所述第二社群之后,还可以对所述第二社群进行剪枝,删除所述第二社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。
在一些实施例中,所述装置构建所述第二社群后,重复执行步骤S605,直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化。
步骤S606,输出社群结果。
在一些实施例中,所述装置基于步骤S605迭代后,所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化,输出社群结果。
表1 社群挖掘结果
步骤S607,对所述社群结果中各社群进行风险性排序。
在一些实施例中,所述装置基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
在一些实施例中,对挖掘出的社群计算风险评分RiskScore,三个指标组成:社群标签覆盖比,时间跨越度和社群对应的分值得分。计算公式如下:
阈值触发得分则是根据相关从业人员人工经验所定制的阈值,计算社群挖掘结果中每个社群的满足情况,最终的到的分数之和,其中触发条件的总数量为n。
最终的风险性评分为:
其中α、β、γ为系数参数,且α+β+γ=1,可根据情况分配各部分比例。norm代表各所述社群的社群标签覆盖比、各所述社群的时间跨越度、各所述社群对应的分值进行归一化的结果。
通过风险评分计算公式后,按照风险评分将社群降序排列,得到最终的社群风险性评价表,如表2所示,并将其作为最终结果输出。
表2 社群风险性评价表示例
如此,本申请实施例提供的社群挖掘方法,利用了自动化的模型判定机制,避免了出现不同专家判定尺度不同的情况,在处理大规模数据上的效率得到提升,并且社群的判定上,考虑情况更为全面,具有良好的可解释性。此外,本申请实施例提供的半监督场景下的社群挖掘方法与无监督场景相比,从小数据集入手一步步扩充的方式,缩短了每次算法的运行时间,并利用剪枝的方法,提升了整体效率。从效果上看,改进后的算法从标注数据出发,对标注数据的链式挖掘,从而避免了无监督场景的无序计算,对社群的挖掘更加深入。通过定义三个指标:社群标注标签覆盖比,时间跨越度和社群阈值触发得分。融合了银行的先验知识,通过对挖掘得到的社群进行风险评定。由于不同的社群对银行造成的影响各不相同,故增加该模块,可以在社群挖掘结果的基础上,以业务的角度,使其对结果有更为直观、清晰的认识。
下面继续说明本申请实施例提供的社群挖掘装置455实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的社群挖掘装置455中的软件模块可以包括:获取单元4551,用于获取第一数据集中与标注数据集关联的第一数据子集;构建单元4552,用于基于所述第一数据子集构建第一社群;处理单元4553,用于将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;输出单元4554,用于输出所述社群结果。
处理单元4553,具体用于针对每个节点执行下述操作:确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;基于所述第二数据子集构建第二社群。
所述构建单元4552,具体用于基于所述第一数据子集构建网络结构拓扑图;确定所述网络结构拓扑图中每一个节点对应的模块度;基于所述每一个节点对应的模块度,构建所述第一社群。
所述处理单元4553,还用于删除所述第一社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。
处理单元4553,具体用于针对每个社区执行下述操作:确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
所述社群挖掘装置455还可以包括排序单元4555。
所述排序单元4555,用于对所述社群结果中各社群进行风险性排序;确定风险性最高的至少一个社群为目标社群。
所述排序单元4555,具体用于基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
在一些实施例中,所述各所述社群的社群标签覆盖比包括:各所述社群包括的数据与所述标注数据集中标注标签数据的并集对应的数量,与全部社群包括的全部数据的数量之商;所述各社群的时间跨越度包括:各所述社群包括的数据的触发时间与当前时间之差的平均值;所述各所述对应的分值包括:各所述社群包括的数据满足第二条件时,分配至所述社群的分值。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的社群挖掘方法。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的社群挖掘方法。
本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本申请实施例提供的社群挖掘方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(Hyper Text MarkupLanguage,HTML)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (11)
1.一种社群挖掘方法,其特征在于,所述方法包括:
获取第一数据集中与标注数据集关联的第一数据子集;
基于所述第一数据子集构建第一社群;
将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;
输出所述社群结果。
2.根据权利要求1所述的方法,其特征在于,所述以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群,包括:
针对每个节点执行下述操作:
确认所述第一数据集中与所述节点包括的参数相同的数据构成第二数据子集;
基于所述第二数据子集构建第二社群。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据子集构建第一社群包括:
基于所述第一数据子集构建网络结构拓扑图;
确定所述网络结构拓扑图中每一个节点对应的模块度;
基于所述每一个节点对应的模块度,构建所述第一社群。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一社群包括的每个社区压缩为一个节点之前,所述方法还包括:
删除所述第一社群中不满足第一条件的社区和/或所述社区对应的至少一个节点。
5.根据权利要求1或4所述的方法,其特征在于,所述将所述第一社群包括的每个社区压缩为一个节点包括:
针对每个社区执行下述操作:
确定所述社区对应的网络架构中各节点之间的边的权重,为所述社区对应的节点的环的权重;
确定所述社区与其相邻的社区之间的边的权重,为所述社区对应节点与其相邻节点之间的边的权重。
6.根据权利要求1所述的方法,其特征在于,所述输出所述社群结果之后,所述方法还包括:
对所述社群结果中各社群进行风险性排序;
确定风险性最高的至少一个社群为目标社群。
7.根据权利要求6所述的方法,其特征在于,所述对所述社群结果中各社群进行风险性排序,包括:
基于各所述社群的社群标签覆盖比、各所述社群的时间跨越度和各所述社群对应的分值,对社群挖掘结果中各社群进行风险性排序。
8.根据权利要求7所述的方法,其特征在于,
所述各所述社群的社群标签覆盖比包括:各所述社群包括的数据与所述标注数据集中标注标签数据的并集对应的数量,与全部社群包括的全部数据的数量之商;
所述各社群的时间跨越度包括:各所述社群包括的数据的触发时间与当前时间之差的平均值;
所述各所述对应的分值包括:各所述社群包括的数据满足第二条件时,分配至所述社群的分值。
9.一种社群挖掘装置,其特征在于,所述装置包括:
获取单元,用于获取第一数据集中与标注数据集关联的第一数据子集;
构建单元,用于基于所述第一数据子集构建第一社群;
处理单元,用于将所述第一社群包括的每个社区压缩为一个节点,以所述第一数据集中数据的特征为粒度获取所述第一数据集中与所述节点关联的第二数据子集,基于所述第二数据子集构建第二社群;直至所述第一数据集中的数据无法与所述节点关联,或基于所述第一数据集构建的社群结果不再变化;
输出单元,用于输出所述社群结果。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一项所述的方法步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023658.0A CN113468437A (zh) | 2021-09-02 | 2021-09-02 | 一种社群挖掘方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023658.0A CN113468437A (zh) | 2021-09-02 | 2021-09-02 | 一种社群挖掘方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468437A true CN113468437A (zh) | 2021-10-01 |
Family
ID=77867409
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111023658.0A Pending CN113468437A (zh) | 2021-09-02 | 2021-09-02 | 一种社群挖掘方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468437A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741433A (zh) * | 2022-06-09 | 2022-07-12 | 北京芯盾时代科技有限公司 | 一种社群挖掘方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887441A (zh) * | 2009-05-15 | 2010-11-17 | 华为技术有限公司 | 一种社会网络建立方法和系统及网络社区挖掘方法和系统 |
CN108829769A (zh) * | 2018-05-29 | 2018-11-16 | 阿里巴巴集团控股有限公司 | 一种可疑群组发现方法和装置 |
CN110019188A (zh) * | 2017-09-15 | 2019-07-16 | 上海诺悦智能科技有限公司 | 一种基于交易网络节点的可疑特征发现方法 |
WO2019196545A1 (zh) * | 2018-04-12 | 2019-10-17 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
CN111445320A (zh) * | 2020-03-30 | 2020-07-24 | 深圳市华云中盛科技股份有限公司 | 目标社群识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-09-02 CN CN202111023658.0A patent/CN113468437A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101887441A (zh) * | 2009-05-15 | 2010-11-17 | 华为技术有限公司 | 一种社会网络建立方法和系统及网络社区挖掘方法和系统 |
CN110019188A (zh) * | 2017-09-15 | 2019-07-16 | 上海诺悦智能科技有限公司 | 一种基于交易网络节点的可疑特征发现方法 |
WO2019196545A1 (zh) * | 2018-04-12 | 2019-10-17 | 阿里巴巴集团控股有限公司 | 保险欺诈识别的数据处理方法、装置、设备及服务器 |
CN108829769A (zh) * | 2018-05-29 | 2018-11-16 | 阿里巴巴集团控股有限公司 | 一种可疑群组发现方法和装置 |
CN111445320A (zh) * | 2020-03-30 | 2020-07-24 | 深圳市华云中盛科技股份有限公司 | 目标社群识别方法、装置、计算机设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741433A (zh) * | 2022-06-09 | 2022-07-12 | 北京芯盾时代科技有限公司 | 一种社群挖掘方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bartunov et al. | Joint link-attribute user identity resolution in online social networks | |
CN107730389A (zh) | 电子装置、保险产品推荐方法及计算机可读存储介质 | |
US9720912B2 (en) | Document management system, document management method, and document management program | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN112148987A (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN109241412A (zh) | 一种基于网络表示学习的推荐方法、系统及电子设备 | |
CN110674144A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN111199474A (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN107368499B (zh) | 一种客户标签建模及推荐方法及装置 | |
CN111898675A (zh) | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 | |
CN112328909A (zh) | 信息推荐方法、装置、计算机设备及介质 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN113569162A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN104731937A (zh) | 用户行为数据的处理方法及装置 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN113468437A (zh) | 一种社群挖掘方法、装置、电子设备及存储介质 | |
CN109478219A (zh) | 用于显示网络分析的用户界面 | |
CN114092230A (zh) | 一种数据处理方法、装置、电子设备及计算机可读介质 | |
CN110457603B (zh) | 用户关系抽取方法、装置、电子设备及可读存储介质 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
CN115982654A (zh) | 一种基于自监督图神经网络的节点分类方法及装置 | |
CN111489134B (zh) | 数据模型的构建方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |