CN112308630B - 一种基于大数据技术应用的资金交易圈识别方法 - Google Patents
一种基于大数据技术应用的资金交易圈识别方法 Download PDFInfo
- Publication number
- CN112308630B CN112308630B CN202011282135.3A CN202011282135A CN112308630B CN 112308630 B CN112308630 B CN 112308630B CN 202011282135 A CN202011282135 A CN 202011282135A CN 112308630 B CN112308630 B CN 112308630B
- Authority
- CN
- China
- Prior art keywords
- degree
- neighbor
- degree neighbor
- neighbor table
- tables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005516 engineering process Methods 0.000 title claims abstract description 12
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于大数据技术应用的资金交易圈识别方法,主要包括以下几个步骤:分表步骤、定义步骤和识别步骤;本发明有效解决在百亿量级数据上快速定位两交易者在K层内的所有路径,有效识别两交易者所属的资金交易圈,进而可深入挖掘两交易者之间可能存在的某种利益关系及其所在交易圈其他成员情况,在深度优先或者广度优先遍历的方式下,通过一端交易者查询K度邻居方式去发现与另一端交易者的所有交易路径,因此,本发明的查询方法显著优于直接采用遍历的查询方式。
Description
技术领域
本发明涉及金融科技领域,具体是一种基于大数据技术应用的资金交易圈识别方法。
背景技术
随着信息技术与互联网金融的快速发展,网上移动转账与支付数据急剧增长,资金交易的收款方与付款方之间的关系日趋复杂。现有资金交易流水数据中隐藏的诸多有价值的信息有待挖掘,基于交易者之间的转账记录,可以刻画出交易者之间的资金交易关系,构建以交易者为节点的资金交易圈。
在百亿量级的资金交易数据中,通过快速查询两交易者之间K层内的所有资金交易路径,能够及时发现两交易者所属的资金交易圈,进而能够有效分析出两交易者之间可能存在的关系。
目前,对于少量数据查询两交易者的资金交易路径是较为容易,通常将资金交易数据转换成图结构,图中的节点表示交易者,边表示交易,借助深度优先或者广度优先遍历算法查找在K层内查找任意两节点之间所有资金交易路径。但是,对于百亿量级的交易数据查询两交易者之间的所有资金交易路径,存在一定的局限性,直接使用遍历方式效率较差甚至无法查询出。如何利用大数据技术,从百亿量级的数据中快速定位两交易者之间K层内所有资金交易路径(即:长度小于等于K的所有路径),对挖掘两交易者所属的资金交易圈及其之间可能存在的某种关系尤为重要。
发明内容
本发明的目的在于提供一种基于大数据技术应用的资金交易圈识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据技术应用的资金交易圈识别方法,包括:分表步骤、定义步骤和识别步骤。
分表步骤:全量百亿量级资金数据分表成M张较小数据量的子表,并标号为1~M。针对某一笔转账行为,定义收款方甲和付款方乙分别为两位交易者,则收款方甲的一度邻居有付款方乙,付款方乙的一度邻居有收款甲。
对于第一张表,以其内任意交易者为出发点,分别存储该交易者1度邻居、2度邻居、3度邻居表,直至度邻居表,即将由任意交易者出发生成的层路径分别存储在第一张表对应的各度邻居表中。
对于第二张表,类似第一张表的中的所述方式,将层路径分别存储在第二张表对应的各度邻居表中。
以增量的方式,将第一张表对应的1度邻居表与第二张表中的1度邻居表去重、汇总成新的2张1度邻居表;将第一张表对应的2度邻居表、第二张表对应的2度邻居表以及第二张表对应的1度邻居表与第一张表对应的1度邻居表分别进行左右join形成2度邻居表,4张2度邻居表去重后、汇总成新的4张2度邻居表;将第一张表对应的3度邻居表、第二张表对应的3度邻居表、第一张表对应的2度邻居表和第二张表对应的1度邻居表分别进行左右join形成3度邻居表以及第一张表对应的1度邻居表和第二张表对应的2度邻居表分别进行左右join形成3度邻居表,6张3度邻居表去重后、汇总成新的6张3度邻居表,依此类推,分别找出增量后的邻居表集合。
对于第i直至M张表,先生成其对应的各度邻居表,再以类似的增量方式,与已获得到的邻居表集合进行左右join、去重、汇总成新的各度邻居表集合。
对于待分析K层内所有路径的两个交易者,基于百亿量级资金交易数据生成的任意交易者的各度邻居表集合,分别查找以两者为出发点的度邻居表集合与度邻居表集合,找到与两交易者相关的路径,判断各条路径的邻居是否是为对端或者是否存在公共邻居,据此定位到两交易者在K层内的所有路径,即为两交易者所属的资金交易圈。
定义步骤:首先定义邻居节点表的具体实现方式:
以资金交易的收款方银行卡号与付款方银行卡号作为两位交易者的标识,生成第一张表的一度邻居表,该一度邻居表利用第一张表的付款方银行卡号、收款方银行卡号与第一张表的收款方银行卡号、付款方银行卡号进行union,该表中存储的字段有交易者account及其对应的一度邻居neighbor1。
生成二度邻居表的过程中,将生成的一度邻居表的交易者account与一度邻居表的一度邻居neighbor1作为连接条件进行join,即可得到二度邻居表,该表中存储的字段为交易者account、一度邻居n1和二度邻居neighbor2。
生成三度邻居表的过程中,将一度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,将一度邻居表的一度邻居neighbor1、二度邻居表的交易者account作为连接条件进行join,对两次join生成的新表进行合并、去重,得到三度邻居表,该表中存储字段有交易者account、一度邻居n1、二度邻居n2和三度邻居neighbor3。
生成四度邻居表的过程中,将一度邻居表的交易者account、三度邻居表的三度邻居neighbor3作为连接条件进行join,将一度邻居表的一度邻居neighbor1、三度邻居表的交易者account作为连接条件进行join,将二度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,对三次join生成的新表进行合并、去重,得到四度邻居表,该表存储字段有交易者account、一度邻居n1、二度邻居n2、三度邻居n3和四度邻居neighbor4。
以此类推,基于第一张表可生成度邻居表,每张邻居表中存储着对应的层交易路径。
根据上述方法可生成第一张子表至第M张子表各自对应的度邻居表,将第二张表看作是在第一张表上的增量表,第三张表看作是第一、二张表的增量表,以此类推,将第M张表看作是前(M-1)张表的增量表,则可以增量的方式生成M张表的 度邻居表集合,即为全量百亿量级资金数据的层交易路径。
识别步骤:以增量方式生成的度邻居表集合以及查询K层内所有交易路径,具体实现方式:
以M=2为例,设第i张表对应的1度邻居表TBi1中有Ni1条记录,第i张表对应的2度邻居表TBi2中有Ni2条记录,以此类推,第i张表对应的k度邻居表TBik中有Nik条记录。
生成1度邻居表集合的过程中,将TB21中的第j条记录删除,即TB21←TB21-(TB11∩TB21),则在M=2时的1度邻居表集合为{TB11∪TB21}。
生成2度邻居表集合的过程中,(1)将TB22中的第j条记录删除,即TB22←TB22-(TB12∩TB22);(2)将TB11的交易者account与TB21的一度邻居neighbor1作为连接条件进行join,记为表TB11_21;(3)将TB11的一度邻居neighbor1与TB21的交易者account作为连接条件进行join,记为表TB21_11,由此可得到在M=2时,2度邻居表集合为{TB12∪TB22∪TB11_21∪TB21_11}。
生成3度邻居表集合的过程中,(1)将TB23中的第j条记录删除,即TB23←TB23-(TB13∩TB23);(2)将TB12的交易者account与TB21的一度邻居neighbor1作为连接条件进行join得到表TB12_21,将TB12的二度邻居neighbor2与TB21的交易者account作为连接条件进行join得到表TB21_12;(3)将TB11的交易者account与TB22的二度邻居neighbor2作为连接条件进行join得到表TB11_22,将TB11的一度邻居neighbor1与TB22的交易者account作为连接条件进行join得到表TB22_11。
由此可得到在M=2时,3度邻居表集合为{TB13∪TB23∪TB12_21∪TB21_12∪TB11_22∪TB22_11}。
依此类推,分别得到在M=2时的度邻居表集合,根据得到的邻居表集合,即可快速查询K层内两交易者的所有交易路径,具体实现方式如下:
从交易者两端同时来寻求K层内所有交易路径,设待查询的两交易者分别为甲和乙两人。
从1度邻居表集合中查询交易者为甲、一度邻居为乙的路径。
从2度邻居表集合中查询交易者为甲、二度邻居为乙的路径。
以此类推,从度邻居表集合中查询交易者为甲、度邻居为乙的路径。
设从k度邻居表集合中查询交易者为甲的所有记录记为PJk,从k度邻居表集合中查询交易者为乙的所有记录记为PYk,其中
以甲乙为核心查询者,分别取与判断的度邻居与的度邻居是否相同,若具有相同邻居节点,图5(a)中的虚线表示两个端点相等可合并,即可得到长度为h的交易路径,其中
由上所述得到的第1层交易路径至第K层交易路径的所有集合,即为基于百亿量级资金数据快速定位到的甲、乙两交易者在K层内的所有交易路径,由此识别出两交易者所属的资金交易圈。
与现有技术相比,本发明的有益效果是:本发明在处理亿量级数据时,将数据分成M张较小数据量的子表,借助子表生成的度邻居表,间接地存储了可能的路径,有效解决在百亿量级数据上快速定位两交易者在K层内的所有路径,有效识别两交易者所属的资金交易圈,进而可深入挖掘两交易者之间可能存在的某种利益关系及其所在交易圈其他成员情况。
在深度优先或者广度优先遍历的方式下,通过一端交易者查询K度邻居方式去发现与另一端交易者的所有交易路径,因此,本发明的查询方法显著优于直接采用遍历的查询方式。
附图说明
图1为本发明实施例的总体流程图。
图2为本发明实施例的资金交易数据核心字段示意。
图3为本发明实施例的基于单张资金交易表生成各度邻居表示意图。
图4为本发明实施例的增量方式下生成各度邻居表的示意图。
图5为本发明实施例的定位两交易者在K层内所有交易路径方法的对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参阅图1,本发明实施例中,一种基于大数据技术应用的资金交易圈识别方法,包括:分表步骤、定义步骤、识别步骤。
分表步骤:全量百亿量级资金数据分表成M张较小数据量的子表(本实施例中每张表中约存储十亿量级数据),并标号为1~M。针对某一笔转账行为,定义收款方甲和付款方乙分别为两位交易者,则收款方甲的一度邻居有付款方乙,付款方乙的一度邻居有收款甲。
如图2,对于第一张表,以其内任意交易者为出发点,分别存储该交易者1度邻居、2度邻居、3度邻居表,直至度邻居表,即将由任意交易者出发生成的层路径分别存储在第一张表对应的各度邻居表中。
对于第二张表,类似第一张表的中的所述方式,将层路径分别存储在第二张表对应的各度邻居表中。
以增量的方式,将第一张表对应的1度邻居表与第二张表中的1度邻居表去重、汇总成新的2张1度邻居表;将第一张表对应的2度邻居表、第二张表对应的2度邻居表以及第二张表对应的1度邻居表与第一张表对应的1度邻居表分别进行左右join形成2度邻居表,4张2度邻居表去重后、汇总成新的4张2度邻居表;将第一张表对应的3度邻居表、第二张表对应的3度邻居表、第一张表对应的2度邻居表和第二张表对应的1度邻居表分别进行左右join形成3度邻居表以及第一张表对应的1度邻居表和第二张表对应的2度邻居表分别进行左右join形成3度邻居表,6张3度邻居表去重后、汇总成新的6张3度邻居表。依此类推,分别找出增量后的度邻居表集合。
对于第i直至M张表,先生成其对应的各度邻居表,再以类似的增量方式,与已获得到的邻居表集合进行左右join、去重、汇总成新的各度邻居表集合。
对于待分析K层内所有路径的两个交易者,基于百亿量级资金交易数据生成的任意交易者的各度邻居表集合,分别查找以两者为出发点的度邻居表集合与度邻居表集合,找到与两交易者相关的路径,判断各条路径的邻居是否是为对端或者是否存在公共邻居,据此定位到两交易者在K层内的所有路径,即为两交易者所属的资金交易圈。
定义步骤:定义邻居节点表的具体实现方式:
以资金交易的收款方银行卡号与付款方银行卡号作为两位交易者的标识,如图3(a)生成第一张表的一度邻居表,该一度邻居表利用第一张表的付款方银行卡号、收款方银行卡号与第一张表的收款方银行卡号、付款方银行卡号进行union(union拼接不重复的记录),该表中存储的字段有交易者account及其对应的一度邻居neighbor1。
图3(b)为生成二度邻居表的过程,将生成的一度邻居表的交易者account与一度邻居表的一度邻居neighbor1作为连接条件进行join,即可得到二度邻居表,该表中存储的字段为交易者account、一度邻居n1和二度邻居neighbor2。
图3(c)为生成三度邻居表的过程,将一度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,将一度邻居表的一度邻居neighbor1、二度邻居表的交易者account作为连接条件进行join,对两次join生成的新表进行合并、去重,得到三度邻居表,该表中存储字段有交易者account、一度邻居n1、二度邻居n2和三度邻居neighbor3。
图3(d)为生成四度邻居表的过程,将一度邻居表的交易者account、三度邻居表的三度邻居neighbor3作为连接条件进行join,将一度邻居表的一度邻居neighbor1、三度邻居表的交易者account作为连接条件进行join,将二度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,对三次join生成的新表进行合并、去重,得到四度邻居表,该表存储字段有交易者account、一度邻居n1、二度邻居n2、三度邻居n3和四度邻居neighbor4。
以此类推,基于第一张表可生成度邻居表,每张邻居表中存储着对应的层交易路径。
全量百亿量级资金数据分表成M张较小数据量的子表,根据上述方法,则可生成第一张子表至第M张子表各自对应的度邻居表,将第二张表看作是在第一张表上的增量表,第三张表看作是第一、二张表的增量表,以此类推,将第M张表看作是前(M-1)张表的增量表,则可以增量的方式生成M张表的度邻居表集合,即为全量百亿量级资金数据的层交易路径。
识别步骤:下面以M=2为例来说明以增量方式生成的度邻居表集合以及查询K层内所有交易路径的具体实现方式:
设第i(i=1,…,M)张表对应的1度邻居表TBi1中有Ni1条记录,第i张表对应的2度邻居表TBi2中有Ni2条记录,以此类推,第i张表对应的k度邻居表TBik中有Nik条记录。
图4中非黑色阴影表表示由第一张表产生相应的表,黑色阴影表表示由第2张表产生相应的表。
图4(a)为生成1度邻居表集合的过程,将TB21中的第j条记录(j的可能取值有{1,2,…,N21},该记录也存在于TB11中)删除,即TB21←TB21-(TB11∩TB21),则在M=2时的1度邻居表集合为{TB11∪TB21},TB11用图3(a)中非黑色阴影表来表示,TB21用图3(a)中黑色阴影表来表示。
图4(b)为生成2度邻居表集合的过程,(1)将TB22中的第j条记录(j的可能取值有{1,2,…,N22},该记录也存在于TB12中)删除,即TB22←TB22-(TB12∩TB22);(2)将TB11的交易者account与TB21的一度邻居neighbor1作为连接条件进行join,记为表TB11_21;(3)将TB11的一度邻居neighbor1与TB21的交易者account作为连接条件进行join,记为表TB21_11。由此可得到在M=2时,2度邻居表集合为{TB12∪TB22∪TB11_21∪TB21_11}。
图4(c)为生成3度邻居表集合的过程,(1)将TB23中的第j条记录(j的可能取值有{1,2,…,N23},该记录也存在于TB13中)删除,即TB23←TB23-(TB13∩TB23);(2)将TB12的交易者account与TB21的一度邻居neighbor1作为连接条件进行join得到表TB12_21,将TB12的二度邻居neighbor2与TB21的交易者account作为连接条件进行join得到表TB21_12;(3)将TB11的交易者account与TB22的二度邻居neighbor2作为连接条件进行join得到表TB11_22,将TB11的一度邻居neighbor1与TB22的交易者account作为连接条件进行join得到表TB22_11。
由此可得到在M=2时,3度邻居表集合为{TB13∪TB23∪TB12_21∪TB21_12∪TB11_22∪TB22_11}。
依此类推,分别得到在M=2时的度邻居表集合。根据得到的邻居表集合,即可快速查询K层内两交易者的所有交易路径,具体实现方式如下:
本发明查询路径方法如图5(a),其核心思想是从交易者两端同时来寻求K层内所有交易路径,设待查询的两交易者分别为甲和乙两人。
从1度邻居表集合中查询交易者为甲、一度邻居为乙的路径。
从2度邻居表集合中查询交易者为甲、二度邻居为乙的路径。
以此类推,从度邻居表集合中查询交易者为甲、度邻居为乙的路径。
设从k度邻居表集合中查询交易者为甲的所有记录记为PJk,从k度邻居表集合中查询交易者为乙的所有记录记为PYk,其中
以甲乙为核心查询者,分别取与判断的度邻居与的度邻居是否相同,若具有相同邻居节点,图5(a)中的虚线表示两个端点相等可合并,即可得到长度为h的交易路径,其中
由上所述得到的第1层交易路径至第K层交易路径的所有集合,即为基于百亿量级资金数据快速定位到的甲、乙两交易者在K层内的所有交易路径,由此识别出两交易者所属的资金交易圈。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (1)
1.一种基于大数据技术应用的资金交易圈识别方法,其特征在于,包括以下几个步骤:分表步骤、定义步骤和识别步骤;
其中,分表步骤:全量百亿量级资金数据分表成M张较小数据量的子表,并标号为1~M;针对某一笔转账行为,定义收款方甲和付款方乙分别为两位交易者,则收款方甲的一度邻居有付款方乙,付款方乙的一度邻居有收款方甲,对于第一张表,以其内任意交易者为出发点,分别存储该交易者1度邻居、2度邻居、3度邻居表,直至度邻居表,即将由任意交易者出发生成的层路径分别存储在第一张表对应的各度邻居表中;
对于第二张表,类似第一张表的中的所述方式,将层路径分别存储在第二张表对应的各度邻居表中;
以增量的方式,将第一张表对应的1度邻居表与第二张表中的1度邻居表去重、汇总成新的2张1度邻居表;将第一张表对应的2度邻居表、第二张表对应的2度邻居表以及第二张表对应的1度邻居表与第一张表对应的1度邻居表分别进行左右join形成2度邻居表,4张2度邻居表去重后、汇总成新的4张2度邻居表;将第一张表对应的3度邻居表、第二张表对应的3度邻居表、第一张表对应的2度邻居表和第二张表对应的1度邻居表分别进行左右join形成3度邻居表以及第一张表对应的1度邻居表和第二张表对应的2度邻居表分别进行左右join形成3度邻居表,6张3度邻居表去重后、汇总成新的6张3度邻居表,以此类推,分别找出增量后的1度邻居表集合~度邻居表集合;
对于第i直至M张表,先生成其对应的各度邻居表,再以类似的增量方式,与已获得到的邻居表集合进行左右join、去重、汇总成新的各度邻居表集合;
对于待分析K层内所有路径的两个交易者,基于百亿量级资金交易数据生成的任意交易者的各度邻居表集合,分别查找以两者为出发点的度邻居表集合与度邻居表集合,找到与两交易者相关的路径,判断各条路径的邻居是否是为对端或者是否存在公共邻居,据此定位到两交易者在K层内的所有路径,即为两交易者所属的资金交易圈;
定义步骤:首先定义邻居节点表,再以增量的方式生成M张表的1度邻居表集合~度邻居表集合,具体为:以资金交易的收款方银行卡号与付款方银行卡号作为两位交易者的标识,生成第一张表的一度邻居表,该一度邻居表利用第一张表的付款方银行卡号、收款方银行卡号与第一张表的收款方银行卡号、付款方银行卡号进行union,该表中存储的字段有交易者account及其对应的一度邻居neighbor1;
生成二度邻居表的过程中,将生成的一度邻居表的交易者account与一度邻居表的一度邻居neighbor1作为连接条件进行join,即可得到二度邻居表,该表中存储的字段为交易者account、一度邻居n1和二度邻居neighbor2;
生成三度邻居表的过程中,将一度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,将一度邻居表的一度邻居neighbor1、二度邻居表的交易者account作为连接条件进行join,对两次join生成的新表进行合并、去重,得到三度邻居表,该表中存储字段有交易者account、一度邻居n1、二度邻居n2和三度邻居neighbor3;
生成四度邻居表的过程中,将一度邻居表的交易者account、三度邻居表的三度邻居neighbor3作为连接条件进行join,将一度邻居表的一度邻居neighbor1、三度邻居表的交易者account作为连接条件进行join,将二度邻居表的交易者account、二度邻居表的二度邻居neighbor2作为连接条件进行join,对三次join生成的新表进行合并、去重,得到四度邻居表,该表存储字段有交易者account、一度邻居n1、二度邻居n2、三度邻居n3和四度邻居neighbor4;
以此类推,基于第一张表可生成度邻居表,每张邻居表中存储着对应的层交易路径;
根据上述方法可生成第一张子表至第M张子表各自对应的度邻居表,将第二张表看作是在第一张表上的增量表,第三张表看作是第一、二张表的增量表,以此类推,将第M张表看作是前(M-1)张表的增量表,则可以增量的方式生成M张表的1度邻居表集合~度邻居表集合,即为全量百亿量级资金数据的层交易路径;
识别步骤:通过以增量方式生成的1度邻居表集合~度邻居表集合以及查询K层内所有交易路径,以M=2为例,设第i张表对应的1度邻居表TBi1中有Ni1条记录,第i张表对应的2度邻居表TBi2中有Ni2条记录,以此类推,第i张表对应的k度邻居表TBik中有Nik条记录;
生成1度邻居表集合的过程中,将TB21中的第j条记录删除,即TB21←TB21-(TB11∩TB21),则在M=2时的1度邻居表集合为{TB11∪TB21};
生成2度邻居表集合的过程中,(1)将TB22中的第j条记录删除,即TB22←TB22-(TB12∩TB22);(2)将TB11的交易者account与TB21的一度邻居neighbor1作为连接条件进行join,记为表TB11_21;(3)将TB11的一度邻居neighbor1与TB21的交易者account作为连接条件进行join,记为表TB21_11,由此可得到在M=2时,2度邻居表集合为{TB12∪TB22∪TB11_21∪TB21_11};
生成3度邻居表集合的过程中,(1)将TB23中的第j条记录删除,即TB23←TB23-(TB13∩TB23);(2)将TB12的交易者account与TB21的一度邻居neighbor1作为连接条件进行join得到表TB12_21,将TB12的二度邻居neighbor2与TB21的交易者account作为连接条件进行join得到表TB21_12;(3)将TB11的交易者account与TB22的二度邻居neighbor2作为连接条件进行join得到表TB11_22,将TB11的一度邻居neighbor1与TB22的交易者account作为连接条件进行join得到表TB22_11;
由此可得到在M=2时,3度邻居表集合为{TB13∪TB23∪TB12_21∪TB21_12∪TB11_22∪TB22_11};
以此类推,分别得到在M=2时的1度邻居表集合~度邻居表集合,根据得到的邻居表集合,即可快速查询K层内两交易者的所有交易路径:即从交易者两端同时来寻求K层内所有交易路径,设待查询的两交易者分别为甲和乙两人;
从1度邻居表集合中查询交易者为甲、一度邻居为乙的路径;
从2度邻居表集合中查询交易者为甲、二度邻居为乙的路径;
以此类推,从度邻居表集合中查询交易者为甲、度邻居为乙的路径;
设从k度邻居表集合中查询交易者为甲的所有记录记为PJk,从k度邻居表集合中查询交易者为乙的所有记录记为PYk,其中k=1,…,
以甲乙为核心查询者,分别取与判断的度邻居与的度邻居是否相同,若具有相同邻居节点,即可得到长度为h的交易路径,其中
由上所述得到的第1层交易路径至第K层交易路径的所有集合,即为基于百亿量级资金数据快速定位到的甲、乙两交易者在K层内的所有交易路径,由此识别出两交易者所属的资金交易圈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282135.3A CN112308630B (zh) | 2020-11-16 | 2020-11-16 | 一种基于大数据技术应用的资金交易圈识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282135.3A CN112308630B (zh) | 2020-11-16 | 2020-11-16 | 一种基于大数据技术应用的资金交易圈识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112308630A CN112308630A (zh) | 2021-02-02 |
CN112308630B true CN112308630B (zh) | 2024-07-09 |
Family
ID=74334776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011282135.3A Active CN112308630B (zh) | 2020-11-16 | 2020-11-16 | 一种基于大数据技术应用的资金交易圈识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308630B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984828A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种邻居节点检索方法和装置 |
AU2020102905A4 (en) * | 2020-01-20 | 2020-12-17 | Yunnan University | A method to measure social network influence |
CN113204716A (zh) * | 2021-05-26 | 2021-08-03 | 中国光大银行股份有限公司 | 可疑洗钱用户交易关系确定方法及装置 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5881243A (en) * | 1997-05-07 | 1999-03-09 | Zaumen; William T. | System for maintaining multiple loop free paths between source node and destination node in computer network |
US8799138B2 (en) * | 2000-04-10 | 2014-08-05 | Stikine Technology, Llc | Routing control for orders eligible for multiple markets |
US8995446B2 (en) * | 2009-12-21 | 2015-03-31 | Cisco Technology, Inc. | Efficient generation of VPN-based BGP updates |
CN102271421A (zh) * | 2011-07-19 | 2011-12-07 | 杭州华三通信技术有限公司 | 一种Mesh链路的建立方法和设备 |
US10521473B2 (en) * | 2012-05-21 | 2019-12-31 | Kent State University | Shortest path computation in large networks |
US8867785B2 (en) * | 2012-08-10 | 2014-10-21 | Nokia Corporation | Method and apparatus for detecting proximate interface elements |
CN104123340B (zh) * | 2014-06-25 | 2018-04-20 | 世纪禾光科技发展(北京)有限公司 | 一种数据库分表分页查询方法及系统 |
CN105704025B (zh) * | 2014-12-12 | 2019-02-15 | 华北电力大学 | 基于混沌搜索和人工免疫算法的路由优化方法 |
KR101808954B1 (ko) * | 2016-08-19 | 2017-12-13 | 주식회사 페이게이트 | 거래 원장에 기반한 계정의 가중 중심성 척도 계산 방법 및 그 장치 |
CN106372127B (zh) * | 2016-08-24 | 2019-05-03 | 云南大学 | 基于Spark的大规模图数据的多样性图排序方法 |
CN106682986A (zh) * | 2016-12-27 | 2017-05-17 | 南京搜文信息技术有限公司 | 一种基于大数据的复杂金融交易网络活动图的构造方法 |
CN108876607B (zh) * | 2018-05-29 | 2021-03-23 | 创新先进技术有限公司 | 资产转移方法及装置、电子设备 |
CN109150972B (zh) * | 2018-07-17 | 2021-07-23 | 湖南宸瀚信息科技有限责任公司 | 一种双层分片的高效区块链的共识机制的工作方法 |
CN109344326B (zh) * | 2018-09-11 | 2021-09-24 | 创新先进技术有限公司 | 一种社交圈的挖掘方法和装置 |
US11487791B2 (en) * | 2019-03-29 | 2022-11-01 | Microsoft Technology Licensing, Llc | Latent feature extraction from a network graph |
CN110704434B (zh) * | 2019-09-24 | 2022-09-13 | 北京百度网讯科技有限公司 | 图谱最短路径的查询方法、装置、电子设备和存储介质 |
CN111260462B (zh) * | 2020-01-16 | 2022-05-27 | 东华大学 | 一种基于异质关系网络注意力机制的交易欺诈检测方法 |
CN111651517A (zh) * | 2020-04-21 | 2020-09-11 | 李引 | 一种基于区块链的数据采集、挖掘、交易、推送的系统 |
-
2020
- 2020-11-16 CN CN202011282135.3A patent/CN112308630B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020102905A4 (en) * | 2020-01-20 | 2020-12-17 | Yunnan University | A method to measure social network influence |
CN111984828A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种邻居节点检索方法和装置 |
CN113204716A (zh) * | 2021-05-26 | 2021-08-03 | 中国光大银行股份有限公司 | 可疑洗钱用户交易关系确定方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112308630A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170124645A1 (en) | Trust based transaction system | |
Gilson et al. | From web data to visualization via ontology mapping | |
CN110781246A (zh) | 一种企业关联关系构建方法及系统 | |
CN109299334B (zh) | 一种知识图谱的数据处理方法及装置 | |
CN111382279B (zh) | 审单方法和装置 | |
CN102195899B (zh) | 通信网络的信息挖掘方法与系统 | |
CN105183767A (zh) | 一种基于企业网络的企业业务相似度计算方法与系统 | |
US20180181625A1 (en) | Systems and Methods for Intelligent Prospect Identification Using Online Resources and Neural Network Processing to Classify Organizations based on Published Materials | |
US20190392065A1 (en) | Systems and methods for providing flexible data access | |
CN114357000A (zh) | 一种区块链交易数据检索系统、方法、设备及存储介质 | |
CN112308630B (zh) | 一种基于大数据技术应用的资金交易圈识别方法 | |
Cai et al. | Research on multi-source POI data fusion based on ontology and clustering algorithms | |
Yang et al. | K-truss community most favorites query based on top-t | |
CN112766385B (zh) | 一种众源矢量线数据几何匹配与属性融合方法 | |
US11922497B1 (en) | System, method and apparatus for generating credit scores | |
CN110263108A (zh) | 一种基于道路网的关键词Skyline模糊查询方法及系统 | |
CN117217929A (zh) | 注册对象风险识别方法、装置、计算机设备和存储介质 | |
Pang et al. | Generalized neighborhood systems-based pessimistic rough sets and their applications in incomplete information systems | |
Kang et al. | Ensemble mapper | |
CN113674081A (zh) | 一种基于图数据库的中小企业风控管理系统及方法 | |
Liu et al. | An improved Apriori algorithm | |
CN110675254A (zh) | 一种基于大数据的智慧金融交易系统 | |
Tang et al. | Enabling Graph Neural Networks for Semi-Supervised Risk Prediction in Online Credit Loan Services | |
CN112115141B (zh) | 一种基于图数据库的数据血统分析的方法 | |
Lubeck | Winners and losers in the Asia-Pacific |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |