CN115237601A - 基于多线程与环算法的信用卡套现关系网挖掘方法 - Google Patents
基于多线程与环算法的信用卡套现关系网挖掘方法 Download PDFInfo
- Publication number
- CN115237601A CN115237601A CN202210913187.9A CN202210913187A CN115237601A CN 115237601 A CN115237601 A CN 115237601A CN 202210913187 A CN202210913187 A CN 202210913187A CN 115237601 A CN115237601 A CN 115237601A
- Authority
- CN
- China
- Prior art keywords
- reachable
- nodes
- edges
- edge
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005065 mining Methods 0.000 title claims description 10
- 230000007704 transition Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5018—Thread allocation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多线程与环算法的信用卡套现关系网挖掘方法,将信用卡借贷人的转账关系网转化为有向图,并将同时间下的重复边捆绑为一条;基于环算法计算处理后的图模型图的可达节点和可达边,然后多个线程基于深度优先遍历算法双向搜索符合条件的可达边并加入环形子图中,最终所得完整环形子图即为套现涉及到的所有人和转账关系网。本发明采用上述信用卡套现关系网挖掘方法,可扩展、易于复用、运行速度快、运行成本低。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是涉及基于多线程与环算法的信用卡套现关系网挖掘方法。
背景技术
在金融领域,需要检测的很重要的一类异常交易是信用卡套现,这一类违规交易的特征是信用卡的资金通过一个或者多个账户的中间交易,资金最后回到信用卡持有人的账户。如果我们将账户之间的交易关系表示为图结构,那么这个问题就可以转化为在图中找到“环”的模式。
目前,较为广泛使用的方法有:1)单机单线程的节点式计算方法,该算法首先从查询节点进行DFS遍历图上其他节点,找到符合条件的所有环。这种方法好处是简单,易于部署,但是计算机能够处理的图数据规模受限于CPU单核心的处理能力,故不适合在需要处理大图的工业场景中应用;2)使用现有的图分布式处理引擎,这种方法的好处是可以使用简单的接口对图进行分布式处理,但是由于分布式引擎自身和计算机网络带来的消耗,效率会比较低。同时,由于分布式引擎提供的接口不够灵活,限制了算法的实现,无法选择效率更高的算法。而且,由于图数据的特点,无法通过简单的方法对图数据进行相对完美的分割,这进一步加大了分布式系统的开销。在很多情况下,分布式算法的计算速度比不上单机单线程算法的计算速度。
发明内容
针对上述问题,本发明提出对转账关系图模型按边进行遍历的方法,并利用CPU的多核性对处理方法并行化加速,从而解决单机单线程的图模型挖掘效率低、图分布式处理引擎计算开销大等问题。
为实现上述目的,本发明提供了如下技术方案,
基于多线程与环算法的信用卡套现关系网挖掘方法,包括:
S1、建立图模型;以借贷人为起始节点,依次向下挖掘与其直接或间接发生转账关系的用户,将所有关联用户视为节点,并以资金走向建立节点间的有向边;
S2、捆绑边;若相邻节点用户在相同时间内发生多起转账,则将该用户节点间的重复边捆绑为一条边,并标注重复边的数量;
S3、环计算;基于环算法计算处理后的图模型中的可达节点和可达边;
S4、分配边;将所有可达边平均分配给多核CPU中的多个线程;
S5、挖掘关系网;设定前后两边的时间差值、环长度,每个线程基于深度优先遍历算法双向搜索可达边,找到所有符合上述条件的可达边并添加到环形子图中,最终所得环形子图即为套现涉及到的所有人和转账关系网。
进一步的,S3步骤具体为:
S31、确定可达节点和可达边方程;
可达节点:dp[i][j]?True:False,dp[i][j]=True表示与节点i距离为j的节点可达,否则为不可达;
可达边:dpe[i][j]?True:False,dpe[i][j]=True表示与边编号i距离为j的边可达,否则不可达。
S32、依据可达节点和可达边方程过滤不可回到起始节点的节点及边;
S33、归纳出关于可达节点的基于动态规划的状态转移方程;
dp[i][j]=dp[i的邻居][j-1]?True:False;
S34、归纳出关于可达边的基于动态规划的状态转移方程;
dpe[i][j]=dpe[i的后继边][j-1]?True:False。
本发明采用上述信用卡套现关系网挖掘方法,具备如下优势:
1、本发明充分利用了多核CPU的并行性,克服了单线程算法的性能瓶颈,以及避免了分布式系统带来的巨大开销。
2、本发明采用按边遍历方式,比传统的按顶点遍历快至少一个数量级。
3、本发明在找环的过程中利用双向DFS算法快速搜索,极大的增加单机的计算速度和可以处理图数据规模的上限。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中图模型G及其最终生成的环形子图;
图3为本发明实施例中环形子图的图存储结构;
图4为本发明实施例中双向DFS搜索的示意图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
基于多线程与环算法的信用卡套现关系网挖掘方法,包括如下步骤:
S1、建立图模型;以借贷人1为起始节点,依次向下挖掘与其直接或间接发生转账关系的用户(2、3、4、5、6),将所有关联用户视为节点,并以资金走向建立节点间的有向边,得到图模型G。
S2、捆绑边;任何两个固定节点之间可能存在多条时间一样的边,如果不做处理,在找环过程中将产生不必要的重复访问,所以将时间一样的边捆绑为一条边,但要标清重复边的数量。比如节点3和节点4之间,在同一天内,节点4分三次转账给节点3,暂时捆绑为一条边,同时在有向边上标注数量为3。
S3、环计算;基于环算法计算处理后的图模型中的可达节点和可达边。
S4、分配边;将可达边平均分配给多核CPU中的多线程。多核CPU并行运算,克服了单线程算法的性能瓶颈,降低了系统运算开销。
S5、挖掘关系网;设定前后两边的时间差值为2、环长度为[2,5],每个线程基于深度优先遍历算法DFS双向搜索可达边,找到所有符合上述条件的有向边并添加到环形子图中,最终所得环形子图即为套现涉及到的所有人和转账关系网。最后,将挖掘所得关系网进行存储,其存储模型如图4所示。
其中,S3步骤具体实现方式如下:
S31、确定可达节点和可达边方程;
可达节点dp[i][j]?True:False,dp[i][j]=True表示与节点i距离为j的节点可达,dp[i][j]=False表示与节点i距离为j的节点不可达。
可达边:dpe[i][j]?True:False,dpe[i][j]=True表示与边编号i距离为j的边可达,否则不可达。
S32、依据可达节点和可达边方程过滤不可到达起始节点的节点及边。
节点1的入度邻居为3、5,那么从节点1向外扩展一层,实现dp[3][1],dp[5][1]为True,不断向外扩展。由于节点6不能回到起始节点1,则节点6被过滤掉了。
S33、归纳出关于可达节点的基于动态规划的状态转移方程。
dp[i][j]=dp[i的邻居][j-1]?True:False
S34、归纳出关于可达边的基于动态规划的状态转移方程。
dpe[i][j]=dpe[i的后继边][j-1]?True:False
其中,S5步骤中DFS从正反两个方向确定有向边的位置,具体方式如下:
S51、由于每一条边可能存在不同长度环上的各个位置,因此从该位置正向搜索到查询节点q,也要反向搜索到查询节点q。比如<2,4>这条边,既要从节点2反向搜索到节点1,也要从节点4正向搜索到节点1.
S52、过程中通过利用预处理求出的dp和dpe数据结构,避免无效节点和无效边,可以快速完成搜索过程,时间复杂度接近线性。
S53、当判断正向和反向搜索均符合条件时,此边加入结果集,最终挖掘出从节点1这个人开始套现的所有关系网,如图1的下半部分所示。
此外,本方案还可应用于商业银行审计中的循环担保检测。循环担保是商业银行贷款中一类比较常见的问题,循环担保有两家企业之间相互担保(即A为B担保,B又为A担保)、三家企业之间循环担保(A为B担保,B为C担保,C为A担保)以及三家以上企业互相循环担保的情况,循环担保的最终结果是担保落空,形成事实上的信用放款,企业一旦无力偿还贷款,贷款风险全部由银行承担,因此是商业银行信贷义务审计中必须要审查的一个风险点。对循环担保的问题进行分析,使用图论中的有向图模型对担保关系进行建模,再使用有向图的环查找算法实现了可扩展且能查找任意多家企业循环担保问题的方法。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。
Claims (2)
1.基于多线程与环算法的信用卡套现关系网挖掘方法,其特征在于,包括:
S1、建立图模型;以借贷人为起始节点,依次向下挖掘与其直接或间接发生转账关系的用户,将所有关联用户视为节点,并以资金走向建立节点间的有向边;
S2、捆绑边;若相邻节点用户在相同时间内发生多起转账,则将该用户节点间的重复边捆绑为一条边,并标注重复边的数量;
S3、环计算;基于环算法计算处理后的图模型中的可达节点和可达边;
S4、分配边;将所有可达边平均分配给多核CPU中的多线程;
S5、挖掘关系网;设定前后两边的时间差值、环长度,每个线程基于深度优先遍历算法双向搜索可达边,找到所有符合上述条件的可达边并添加到环形子图中,最终所得环形子图即为套现涉及到的所有人和转账关系网。
2.根据权利要求1所述的信用卡套现关系网挖掘方法,其特征在于,S3步骤具体为:
S31、确定可达节点和可达边方程;
可达节点:dp[i][j]?True:False,dp[i][j]=True表示与节点i距离为j的节点可达,否则为不可达;
可达边:dpe[i][j]?True:False,dpe[i][j]=True表示与边编号i距离为j的边可达,否则不可达。
S32、依据可达节点和可达边方程过滤不可回到起始节点的节点及边;
S33、归纳出关于可达节点的基于动态规划的状态转移方程;
dp[i][j]=dp[i的邻居][j-1]?True:False;
S34、归纳出关于可达边的基于动态规划的状态转移方程;
dpe[i][j]=dpe[i的后继边][j-1]?True:False。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913187.9A CN115237601A (zh) | 2022-08-01 | 2022-08-01 | 基于多线程与环算法的信用卡套现关系网挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210913187.9A CN115237601A (zh) | 2022-08-01 | 2022-08-01 | 基于多线程与环算法的信用卡套现关系网挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115237601A true CN115237601A (zh) | 2022-10-25 |
Family
ID=83677502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210913187.9A Pending CN115237601A (zh) | 2022-08-01 | 2022-08-01 | 基于多线程与环算法的信用卡套现关系网挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115237601A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115689761A (zh) * | 2023-01-03 | 2023-02-03 | 华侨大学 | 一种电子商务流向路径多线程并行检测方法及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085586A (zh) * | 2020-08-10 | 2020-12-15 | 北京中亦安图科技股份有限公司 | 一种基于密集子图的银行信用卡反套现方法 |
CN112256769A (zh) * | 2020-11-13 | 2021-01-22 | 北京海致星图科技有限公司 | 一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法 |
CN113506113A (zh) * | 2021-06-02 | 2021-10-15 | 北京顶象技术有限公司 | 一种基于关联网络的信用卡套现团伙挖掘方法及系统 |
CN113792089A (zh) * | 2021-09-16 | 2021-12-14 | 平安银行股份有限公司 | 基于人工智能的非法行为检测方法、装置、设备及介质 |
-
2022
- 2022-08-01 CN CN202210913187.9A patent/CN115237601A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085586A (zh) * | 2020-08-10 | 2020-12-15 | 北京中亦安图科技股份有限公司 | 一种基于密集子图的银行信用卡反套现方法 |
CN112256769A (zh) * | 2020-11-13 | 2021-01-22 | 北京海致星图科技有限公司 | 一种基于Pregel的实现挖掘商业银行交易数据的资金圈分布的方法 |
CN113506113A (zh) * | 2021-06-02 | 2021-10-15 | 北京顶象技术有限公司 | 一种基于关联网络的信用卡套现团伙挖掘方法及系统 |
CN113792089A (zh) * | 2021-09-16 | 2021-12-14 | 平安银行股份有限公司 | 基于人工智能的非法行为检测方法、装置、设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115689761A (zh) * | 2023-01-03 | 2023-02-03 | 华侨大学 | 一种电子商务流向路径多线程并行检测方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI759562B (zh) | 用於識別異常交易社團的方法和裝置 | |
US20190130116A1 (en) | Method and device for controlling data risk | |
TWI662421B (zh) | 一種基於特徵匹配網路的社團劃分方法和裝置 | |
US11055792B2 (en) | Blockchain-based service source tracing method, apparatus, and electronic device | |
CN109840837B (zh) | 财务数据的处理方法、装置、计算机可读介质及电子设备 | |
CN110659973B (zh) | 资金追踪方法、装置及设备 | |
EP3887920A1 (en) | Graph decomposition for fraudulent transaction analysis | |
CN115237601A (zh) | 基于多线程与环算法的信用卡套现关系网挖掘方法 | |
CN109299334A (zh) | 一种知识图谱的数据处理方法及装置 | |
CN110458688A (zh) | 一种业务处理方法、装置及设备 | |
CN112465637B (zh) | 反洗钱智能自动导侦的方法、计算机可读存储介质 | |
CN113537960A (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN113506113B (zh) | 一种基于关联网络的信用卡套现团伙挖掘方法及系统 | |
CN112598510B (zh) | 资源数据处理方法和装置 | |
CN114663221A (zh) | 基于多维区块链的金融机构间账务处理方法和装置 | |
US20200202437A1 (en) | Blockchain-based settlement method, apparatus, and electronic device | |
Chen et al. | Heavy nodes in a small neighborhood: Algorithms and applications | |
CN101034411A (zh) | 一种计算机数据处理系统及其处理方法和应用 | |
CN111652718A (zh) | 基于关系网络图的价值流向监控方法、装置、设备和介质 | |
CN112233153A (zh) | 图像匹配方法、装置、电子设备及存储介质 | |
WO2020130868A1 (ru) | Способ и система поиска мошеннических транзакций | |
Meng et al. | In-depth analysis of financial market based on iris recognition algorithm of MATLAB GUI | |
CN115982207B (zh) | 银行交易资金回流多线程并行检测方法及系统 | |
CN108009099A (zh) | 一种应用于K-Mean聚类算法中的加速方法及其装置 | |
RU2769084C2 (ru) | Способ и система нахождения схожих мошеннических групп по графовым моделям |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221025 |
|
RJ01 | Rejection of invention patent application after publication |