CN116051287A - 一种数据的分析方法、装置、电子设备及存储介质 - Google Patents
一种数据的分析方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116051287A CN116051287A CN202310309305.XA CN202310309305A CN116051287A CN 116051287 A CN116051287 A CN 116051287A CN 202310309305 A CN202310309305 A CN 202310309305A CN 116051287 A CN116051287 A CN 116051287A
- Authority
- CN
- China
- Prior art keywords
- transaction
- node
- network
- nodes
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007405 data analysis Methods 0.000 title abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 15
- 238000010276 construction Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000003999 initiator Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Engineering & Computer Science (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本公开提供了一种数据的分析方法、装置、电子设备及存储介质,涉及数据处理技术领域,方法主要包括:获取多个时间段的交易记录,交易记录包括交易账号和交易信息,交易信息包括交易金额和位置信息;根据每个时间段的交易记录构建对应的交易网络;通过社区发现算法对交易网络中的节点进行聚类,得到多个节点社区;根据交易信息确定节点间的节点相似度,根据节点相似度对节点社区进行聚类,得到交易网络的多个子网络;将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。应用本方法可以得到节点之间更加深入的联系,使节点的聚类结果更准确,提高数据分析的准确率。
Description
技术领域
本公开涉及数据处理领域,尤其涉及一种数据的分析方法、装置、电子设备及存储介质。
背景技术
随着互联网的不断发展,电子银行已经成为银行业务渠道和市场营销的主要竞争手段之一,网络电子银行给我们带来便利的同时,也为不法分子非法交易提供了新的渠道。
目前银行行业对于异常交易行为的识别和分析主要是依靠业务专家对账号的消费行为记录并对交易特征进行分析,再通过专家进行人工审核,或者根据异常交易的特征构建专家规则进行识别。由于异常交易行为的形式具有多样化、复杂化的特点,通过人工审核的方式进行分析,一方面易受专家主观影响,会由于不同专家的评判标准的差异,导致审核结果稳定性较差,另一方面由于审核量较大,人工审核的方式导致审核效率低下,不适应于现阶段电子银行大规模记录的业务场景需求;而简单的专家规则由于形式简单难以应对多样的异常交易行为,会造成较大的漏报率。
发明内容
本公开提供了一种数据的分析方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种数据的分析方法,所述方法包括:获取多个时间段的交易记录,所述交易记录包括交易账号和交易信息,所述交易信息包括交易金额和位置信息;根据每个所述时间段的交易记录构建对应的交易网络,所述交易网络的节点为所述交易账号,所述交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为;通过社区发现算法对所述交易网络中的节点进行聚类,得到多个节点社区;根据所述交易信息确定节点间的节点相似度,根据所述节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络;将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
在一可实施方式中,所述根据所述交易信息确定节点间的节点相似度,包括:根据所述节点的位置信息,确定两个节点之间的位置相似度;根据所述节点的交易金额,确定两个节点之间的金额相似度,所述节点的交易金额为所述节点的转出金额和转入金额的差值;根据所述位置相似度和所述金额相似度确定所述两个节点之间的节点相似度。
在一可实施方式中,该方法还包括:确定节点社区之间的相似度,包括:分别从两个节点社区中任选一个节点,根据所述交易信息确定所选择的两个节点之间的节点相似度,若存在相似度满足阈值的两个节点,则两个节点社区的相似度满足阈值。
在一可实施方式中,根据所述节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络,包括:遍历所述交易网络中的节点社区,确定当前节点社区与所述交易网络中的其他每个节点社区的相似度,得到当前节点社区对应的集合,所述集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区;将所有的集合组成集合池;从所述集合池中任选一个集合,将该集合与集合池中其他每个集合进行比较,若不存在满足条件的其他集合,则将该集合作为子网络,并将该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;若存在满足条件的其他集合,则将满足条件的其他集合与该集合进行合并后,得到合并集合,将所述合并集合添加进所述集合池中,并将满足条件的其他集合与该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;所述满足条件的其他集合为:与所选择的集合具有相同节点社区的集合。
在一可实施方式中,获取多个时间段的交易记录,根据每个所述时间段的交易记录构建对应的交易网络,包括:根据所有时间段的交易记录,构建全局网络;将所述全局网络按照时间窗口进行划分,得到每个所述时间段对应的交易网络。
在一可实施方式中,所述将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络,包括:将所有时间段的子网络形成子网络池;遍历全局网络中的节点,将所述子网络池中包含当前节点的子网络进行合并后得到新的子网络,从所述子网络池中删除包含当前节点的子网络,并将所述新的子网络添加进所述子网络池后,遍历下一个节点;直至遍历完全局网络中的节点后,将所述子网络池中的各子网络作为目标网络。
在一可实施方式中,该方法还包括:根据多个预设条件和每个预设条件对应的权重,确定每个目标网络的分值;所述预设条件至少包括所述目标网络中每个节点对应的标注数据,所述标注数据用于指示所述节点对应的交易账户的类型。
根据本公开的第二方面,提供了一种数据的分析装置,所述装置包括:获取模块,用于获取多个时间段的交易记录,所述交易记录包括交易账号和交易信息,所述交易信息包括交易金额和位置信息;构建模块,用于根据每个所述时间段的交易记录构建对应的交易网络,所述交易网络的节点为所述交易账号,所述交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为;第一聚类模块,通过社区发现算法对所述交易网络中的节点进行聚类,得到多个节点社区;第二聚类模块,用于根据所述交易信息确定节点间的节点相似度,根据节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络;合并模块,用于将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
在一可实施方式中,所述第二聚类模块,包括:第一确定模块,用于根据所述节点的位置信息,确定两个节点之间的位置相似度;所述第一确定模块,还用于根据所述节点的交易金额,确定两个节点之间的金额相似度,所述节点的交易金额为所述节点的转出金额和转入金额的差值;所述第一确定模块,还用于根据所述位置相似度和所述金额相似度确定所述两个节点之间的节点相似度。
在一可实施方式中,所述第二聚类模块,还包括:第二确定模块,用于分别从两个节点社区中任选一个节点,根据所述交易信息确定所选择的两个节点之间的节点相似度,若存在相似度满足阈值的两个节点,则两个节点社区的相似度满足阈值。
在一可实施方式中,所述第二聚类模块,还包括:第一处理模块,用于遍历所述交易网络中的节点社区,确定当前节点社区与所述交易网络中的其他每个节点社区的相似度,得到当前节点社区对应的集合,所述集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区;第一生成模块,用于将所有的集合组成集合池;所述第一处理模块,还用于从所述集合池中任选一个集合,将该集合与集合池中其他每个集合进行比较,若不存在满足条件的其他集合,则将该集合作为子网络,并将该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;若存在满足条件的其他集合,则将满足条件的其他集合与该集合进行合并后,得到合并集合,将所述合并集合添加进所述集合池中,并将满足条件的其他集合与该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;所述满足条件的其他集合为:与所选择的集合具有相同节点社区的集合。
在一可实施方式中,所述构建模块,包括:网络构建模块,用于根据所有时间段的交易记录,构建全局网络;网络划分模块,用于将所述全局网络按照时间窗口进行划分,得到每个所述时间段对应的交易网络。
在一可实施方式中,所述合并模块,包括:第二生成模块,用于将所有时间段的子网络形成子网络池;第二处理模块,用于遍历全局网络中的节点,将所述子网络池中包含当前节点的子网络进行合并后得到新的子网络,从所述子网络池中删除包含当前节点的子网络,并将所述新的子网络添加进所述子网络池后,遍历下一个节点;直至遍历完全局网络中的节点后,将所述子网络池中的各子网络作为目标网络。
在一可实施方式中,所述装置还包括:分析模块,用于根据多个预设条件和每个预设条件对应的权重,确定每个目标网络的分值;所述预设条件至少包括所述目标网络中每个节点对应的标注数据,所述标注数据用于指示所述节点对应的交易账户的类型。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的一种数据的分析方法、装置、电子设备及存储介质,获取多个时间段的交易记录,交易记录包括交易账号和交易信息,交易信息包括交易金额和位置信息;根据每个时间段的交易记录构建对应的交易网络;通过社区发现算法对交易网络中的节点进行聚类,得到多个节点社区;根据交易信息确定节点间的节点相似度,根据节点相似度对节点社区进行聚类,得到交易网络的多个子网络;将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。应用本方法在通过社区发现算法对交易网络中的节点进行第一次聚类生成节点社区的基础上,再根据节点之间的交易金额和地址信息进一步对节点社区进行聚类,可以得到节点之间更加深入的联系,使节点的聚类结果更准确,得到的交易账号群中各交易账号之间的相似度更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开实施例一种数据的分析方法的实现流程示意图;
图2示出了本公开实施例确定节点间的节点相似度的实现流程示意图;
图3示出了本公开实施例得到交易网络的多个子网络的实现流程示意图;
图4示出了本公开实施例根据每个时间段的交易记录构建对应的交易网络的实现流程示意图;
图5示出了本公开实施例一种数据的分析装置的模块示意图;
图6示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1示出了本公开实施例一种数据的分析方法的实现流程示意图,包括:
步骤101,获取多个时间段的交易记录,交易记录包括交易账号和交易信息,交易信息包括交易金额和位置信息。
交易记录用于记录交易账号之间的交易行为,每个时间段包括多条交易记录,每条交易记录中包括交易账号和交易信息,交易账号包括交易发起方的账号和交易接受方的账号,交易账号具有唯一性。交易信息至少包含交易金额和交易账号的位置信息,位置信息可以为发生交易行为时交易账号的地理位置信息,经纬度信息或IP地址信息等;此外还可以包括交易账号对应的用户名以及交易时间等信息,例如一条交易记录为:账号1在位置A向位置B处的账号2转账xx元,那么账号A和账号B均为交易账号,账号A为交易发起方的账号,账号B为交易接收方的账号。
在一可实施方式中,交易账号可以优选为银行卡号。
步骤102,根据每个时间段的交易记录构建对应的交易网络,交易网络的节点为交易账号,交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为。
获取到多个时间段的交易记录之后,针对每个时间段的交易记录构建对应的交易网络,其中,在每个交易网络中,以交易账号作为交易网络的节点,用于连接两个节点的边表示两个交易账号之间存在交易行为。
可以理解的是,所构建的交易网络可以是无向的,也可以是有向的,当构建的交易网络为无向交易网络时,连接两个节点的边仅表示节点之间存在交易行为;当构建的交易网络为有向交易网络时,连接两个节点的边可以为带箭头的线段,箭头指向交易接受方的账号。例如,交易记录为交易账号1向交易账号2转账,如果构建无向的交易网络,那么直接用线段将交易账号1和交易账号2连接,如果构建有向的交易网络,那么用带箭头的线段将交易账号1和交易账号2连接,箭头指向交易账号2。
同样的,所构建的交易网络可以是无权的,也可以是有权的,当构建的交易网络为无权交易网络时,每条边的权重均为1,当构建的交易网络为有权交易网络时,边的权重可以为在当前时间段内两个节点之间的交易次数。
由于交易网络中的节点为交易账号,因此交易网络中的节点也具有唯一性。
通过构建交易网络,交易账号之间的交易行为以交易网络的形式进行展示,根据节点和节点之间的关系有利于从庞大的交易网络中分析出交易账号和交易账号之间的联系。
步骤103,通过社区发现算法对交易网络中的节点进行聚类,得到多个节点社区。
根据得到的交易网络,通过社区发现算法对交易网络中的节点进行聚类。社区发现算法是根据节点关联的紧密程度将交易网络拆分成多个节点社区,使节点社区内部关联紧密,节点社区之间无关联或关联微弱。
在一可实施方式中,采用Louvain社区发现算法对交易网络中的节点进行聚类。可以理解的是,除Louvain社区发现算法外,其他可用于对节点进行聚类的社区发现算法均可用于实现本方案,如基于标签传播的社团发现算法、FN算法、GN算法等,只要可将节点根据一定的规则进行聚类即可。
步骤104,根据交易信息确定节点间的节点相似度,根据节点相似度对节点社区进行聚类,得到交易网络的多个子网络。
在对交易网络中节点进行聚类得到节点社区后,根据节点的交易信息确定节点之间的节点相似度,依据节点相似度对节点社区进行聚类,也就是在对节点进行聚类得到节点社区的基础上,再对节点社区进行聚类,节点社区之间聚类之后,形成多个子网络。
在该示例中,通过节点的交易信息确定节点间的节点相似度,可以确定节点社区之间更加深入的联系。
步骤105,将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
初始时,根据每个时间段的交易记录构建对应的交易网络,对每个交易网络中的节点分别通过社区发现算法以及交易信息进行聚类得到多个子网络。例如,初始时获得2个24小时的交易记录,根据每个24小时的交易记录构建对应的交易网络,经过聚类后最终得到每个交易网络的多个子网络。由于多个时间段的交易记录中可能存在相同的交易账号,如第一个24小时的交易记录中存在一条交易记录为交易账号1与交易账号2之间存在交易行为,第二个24小时的交易记录中存在一条交易记录为交易账号1与交易账号3之间存在交易行为,当交易账号1用节点1表示时,两个交易网络的子网络中都必然存在包含节点1的子网络,因此根据子网络中是否存在相同的节点对子网络进行合并,得到目标网络。
本公开实施例提供的一种数据的分析方法,获取多个时间段的交易记录,根据每个时间段的交易记录构建对应的交易网络,通过社区发现算法对交易网络中的节点进行聚类,得到多个节点社区,再根据节点社区中节点的交易信息对节点社区进行聚类,得到多个子网络,最后将多个时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
应用本方法,在社区发现算法进行聚类的基础上,再通过交易信息进一步将聚类结果二次聚类,可以得到节点之间更加深入的联系,使节点的聚类结果更准确。在异常交易行为的分析领域,通过本公开的方法可以快速准确地识别出关联紧密的多个异常交易行为的账号。
在一可实施方式中,如图2所示,根据交易信息确定节点间的节点相似度,包括:
步骤201,根据节点的位置信息,确定两个节点之间的位置相似度。
节点的位置信息可以为节点的地理位置信息,可以为节点的经纬度信息还可以是节点的IP地址信息等可以标识节点位置的信息。根据如下公式计算得到两个节点之间的位置相似度:
;
其中,d为两个节点之间的距离,为常数;当节点的位置信息为节点的地理位置时,d为根据节点的地理位置确定的两个节点之间的距离。在一可实施方式中,节点的地理位置可以用xx省xx市xx县xx街表示,可以为不同的省、市、县、街设置不同的数值用于计算节点之间的距离。
步骤202,根据节点的交易金额,确定两个节点之间的金额相似度,节点的交易金额为节点的转出金额和转入金额的差值。
节点的交易金额为与该节点对应的转出金额与转入金额的差值,在得到两个节点的交易金额的基础上,根据如下公式计算得到两个节点之间的金额相似度:
其中,为节点1的转出金额与转入金额的差值的绝对值,为节点2的转出金额与转入金额的差值的绝对值,为常数,。
步骤203,根据位置相似度和金额相似度确定两个节点之间的节点相似度。
根据位置相似度和金额相似度确定的节点相似度可以表征节点之间的时空交易相似性的程度,可以将位置相似度和金额相似度直接相加得到节点相似度,也可以为位置相似度和金额相似度设置不同的权重,计算得到节点相似度。
在一个示例中,若位置信息为IP地址时,根据节点的IP地址,确定两个节点之间的IP相似度,IP地址一般表示为xxx.xxx.xxx.xxx,将IP地址按照顺序分为四段,从左到右分别代表了网络类型、网络范围、网络位和主机位,确定两个节点之间的IP相似度时,可分别计算两个节点IP地址中每一段的距离,通过公式计算得到两个节点的IP相似性:
其中,为常数,d1、d2、d3和d4分别为两个IP地址的对应的四段数字之间的差值,即两个IP地址中每一段的距离;、、和分别为每一段IP地址对应的权重,可以根据对结果的影响程度确定、、和的具体取值,在一可实施方式中可以设置>>>。例如两个节点的IP地址分别为192.168.1.1和192.168.1.3,那么这两个IP地址的四段之间的距离分别为0、0、0和2,根据每一段的距离和权重,可得到两个节点的IP相似性。
更进一步地,在确定节点之间的IP相似度之前,可判断两个节点的IP地址是否在同一子网内。当在同一子网内时,可认为节点之间存在时空交易相似性,再根据节点的IP地址计算节点之间的IP相似性;当判断IP地址不在同一子网内时,认为节点之间不存在时空交易相似性,不需要再计算IP相似性。
在一可实施方式中,在得到交易网络的多个节点社区后,可以确定节点社区之间的相似度,以对节点社区进行聚类。分别从两个节点社区中任选一个节点,根据交易信息确定所选择的两个节点之间的节点相似度,若存在节点相似度满足阈值的两个节点,则两个节点社区的相似度满足阈值。其中,根据交易信息确定所选择的两个节点之间的节点相似度如图2所示,此处不再赘述。
具体的,节点社区中包含至少一个节点,分别从两个节点社区中任选一个节点,例如节点社区A包括节点1,节点2和节点3,节点社区B包含节点4、节点5和节点6,从节点社区A的三个节点中任选一个节点,从节点社区B的三个节点中任选一个节点,这样就有9种选取结果。针对每种选取结果中的两个节点,根据两个节点的位置信息和交易金额确定两个节点的节点相似度,这样针对节点社区A和节点社区B就可得到9个节点相似度,若9个节点相似度中至少存在1个节点相似度满足阈值,那么就认为节点社区A和节点社区B之间的相似度满足阈值。阈值可根据节点的位置信息和交易信息的实际情况确定,这里不对阈值的具体取值进行限定。
在一可实施方式中,根据节点相似度对节点社区进行聚类,得到交易网络的多个子网络,如图3所示,包括:
步骤301,遍历交易网络中的节点社区,确定当前节点社区与交易网络中其他每个节点社区的相似度,得到当前节点社区对应的集合,集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区。
具体的,对交易网络中的节点聚类得到多个节点社区后,针对每个节点社区,计算得到当前节点社区与其他节点社区之间的相似度,确定交易网络中与当前节点社区的相似度满足阈值的节点社区,生成与当前节点社区对应的集合,集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区,如此,每个节点社区都有对应的集合。
例如,在通过社区发现算法对交易网络中的节点进行聚类后,得到5个节点社区,分别为节点社区A、节点社区B、节点社区C、节点社区D和节点社区E。针对节点社区A,分别计算得到节点社区A和节点社区B、节点社区C、节点社区D、节点社区E之间的相似度,如果节点社区A和节点社区B之间的相似度满足阈值,节点社区A和节点社区C之间的相似度也满足阈值,那么与节点社区A对应的集合为{节点社区A,节点社区B,节点社区C},同样的,可以得到上述其他四个节点社区对应的集合。
步骤302,将所有的集合组成集合池。
将所有节点社区对应的集合形成集合池,即集合池包含每个节点社区对应的集合。初始时,集合池中的集合个数与节点社区的个数相等,有几个节点社区,集合池中就有几个集合。
步骤303,从集合池中任选一个集合。
步骤304,将该集合与集合池中其他每个集合进行比较,判断是否存在满足条件的其他集合,若不存在满足条件的其他集合,执行步骤305,若存在满足条件的其他集合,执行步骤306。
步骤305,将该集合作为子网络,并将该集合从集合池中删除。
步骤306,将满足条件的其他集合与该集合进行合并得到合并后的集合,将合并后的集合加入到集合池,将满足条件的其他集合与该集合从集合池中删除。
步骤307,判断集合池是否为空,若为空,则流程结束,若不为空,则返回步骤303。
其中,满足条件的其他集合为:与所选择的集合具有相同节点社区的集合。
对于步骤303-307,在一个实施场景中,通过社区发现算法对交易网络中的节点进行聚类后得到8个节点社区,分别为节点社区A、B、C、D、E、F、G和、H,假如:
节点社区A对应的集合1为{A,B};
节点社区B对应的集合2为{A,B,D,E};
节点社区C对应的集合3为{C,E};
节点社区D对应的集合4为{B,D};
节点社区E对应的集合5为{B,C,E};
节点社区F对应的集合6为{F,G};
节点社区G对应的集合7为{F,G};
节点社区H对应的集合8为{H}。
初始时,集合池中为上述8个集合。执行步骤303,从集合池中任选一个集合,假如所选择的集合为集合1;执行步骤304,将集合池中剩下7个集合分别与集合1进行比较,可知集合2、集合4和集合5与集合1具有相同的节点社区,那么集合2、集合4和集合5即为满足条件的集合;执行步骤306,对集合1、集合2、集合4和集合5求并集得到合并集合{A,B,C,D,E},记为集合9,将集合9加入集合池中,并将集合1,集合2,集合4和集合5从集合池中删除,此时集合池中的集合为集合3、集合6,集合7,集合8,集合9;集合池不为空,返回执行步骤303,再从集合池中任选一个集合,假如所选的集合为集合8,执行步骤304,将集合池中剩下4个集合与集合8进行比较,可知集合池中剩下的4个集合没有与集合8有相同节点社区的集合,即不存在满足条件的集合,那么集合8即被确定为一个子网络,该子网络包含节点社区H,将集合8从集合池中删除,返回执行步骤303,继续从集合池中任选一个集合,重复执行303-307的过程,直到集合池中不存在集合。在该实时场景中,最终确定的子网络有3个,分别为子网络W1即{H},子网络W2即{F,G},子网络W3即{A,B,C,D,E}。
在一可实施方式中,获取多个时间段的交易记录,根据每个时间段的交易记录构建对应的交易网络,如图4所示,包括:
步骤401,根据所有时间段的交易记录,构建全局网络;
步骤402,将全局网络按照时间窗口进行划分,得到每个时间段对应的交易网络。
具体的,在获取多个时间段的交易记录后,根据多个时间段的交易记录构建全局网络,其中,全局网络中节点为所有时间段的交易记录包含的交易账号,全局网络中用于连接两个节点的边表示两个交易账号之间存在交易行为。例如若时间段为1天,可以获取一周即7个1天的交易记录,根据这7天所有的交易记录构建全局网络,交易账号1对应节点1,交易账号2对应节点2,交易账号3对应节点3,假如在这一周中第一天交易账号1与交易账号2之间发生了交易行为,在这一周中的第二天,交易账号1与交易账号3之间发生了交易行为,那么节点1、节点2和节点3都是全局网络的节点,连接节点1和节点2的边以及连接节点1和节点3的边都是全局网络内的边。
将得到的全局网络按照时间窗口进行划分,一般情况下,时间窗口即为时间段,得到每个时间段对应的交易网络。每个时间段对应的交易网络的节点为交易时间在该时间段内的交易记录对应的交易账号。也就是说将上述7天的交易记录得到的全局网络以1天作为时间窗口进行划分,得到每个时间段对应的交易网络,那么节点1和节点2为第一天对应的交易网络中的节点,连接节点1和节点2的边为第一天对应的交易网络内的边;并且节点1和节点3为第二天对应的交易网络中的节点,连接节点1和节点3的边为第二天对应的交易网络中的节点。
交易账号在不同时间段的交易行为可能是不同的,但是一些异常交易行为会呈现出集中转入-分散转出、分散转入-集中转出、特殊时段小额尝试等特点,因此对交易账号进行聚类得到的子网络在不同时间的规律可能是不断变化的,一个时间段可能是分散转入,集中转出,具有异常交易行为的特征,而下一个时间窗口交易账号可能进入冷却期,保持为正常交易行为。如果对全局网络中的交易账号进行聚类,其中一个时间段的异常交易行为就极有可能被忽略,因此将交易记录按照时间窗口进行分解,更容易发现异常交易行为,避免某些异常交易账号被误判为正常交易账号。
可以理解的是,时间窗口的设置与时间段可以相同也可以不同,将全局网络按照时间窗口进行划分,可以得到与时间窗口对应的交易网络。例如在一个实时场景中,时间段定义为1日-10日,可以获取1年中12个月每个月1日-10日的交易记录,根据这12个1日-10日的交易记录可以得到全局网络,将全局网络按照时间窗口进行划分时,如果时间窗口设置为与时间段一样即每个月1日-10日,就可以得到12个交易网络,时间窗口为与时间段不一样,例如可以以季度设置,那么就可以得到4个交易网络。
相应的,将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络,包括:
将所有时间段的子网络形成子网络池;
遍历全局网络中的节点,将子网络池中包含当前节点的子网络进行合并后得到新的子网络,从子网络池中删除包含当前节点的子网络,并将新的子网络添加进子网络池后,遍历下一个节点;直至遍历完全局网络中的节点后,将子网络池中的各子网络作为目标网络。
具体的,根据每个时间段的交易记录构建对应的交易网络,对每个交易网络中的节点分别通过社区发现算法以及节点信息进行聚类得到多个子网络,将所有时间段的子网络组合起来形成子网络池。
例如,在一实施场景中,获得3个1天的交易记录,根据这三天的交易记录,构建全局网络,将全局网络按照每一天进行划分,得到每天对应的交易网络。
假如,对全局网络划分后,得到的第一天的交易网络包含节点1-10,经过聚类后,得到第一天的交易网络对应的3个子网络,分别为子网络X1(节点1,节点2,节点3)子网络X2(节点4,节点5,节点6),子网络X3(节点7,节点8,节点9,节点10);得到的第二天的交易网络包含节点1,节点3,节点12,节点13,节点14,节点15,节点16,节点17,节点9,节点20,共10个节点,经过聚类后,得到第二天的交易网络对应的3个子网络,分别为子网络Y1(节点1,节点3,节点12),子网络Y2(节点13,节点14,节点15),子网络Y3(节点16,节点17,节点9,节点20);得到的第三天的交易网络包含节点11,节点18,节点21,节点19,节点4,节点6,节点9,节点10,节点10,节点22,节点23,共10个节点,经过聚类后,得到第三天的交易网络对应的3个子网络,分别为子网络Z1(节点11,节点18,节点21),子网络Z2(节点19,节点4,节点6),子网络Z3(节点9,节点10,节点22,节点23)。
那么形成的子网络池中包含上述9个子网络。全局网络中的节点为多个时间段中包含的所有节点,在本实施例中全局网络中的节点为节点1-节点23,遍历全局网络中的节点,如针对节点1,将子网络池中包含节点1的子网络进行合并得到新的子网络,上述实施例中包含节点1的子网络为子网络X1和子网络Y1,将子网络X1和子网络Y1进行合并,得到新的子网络P1(节点1,节点2,节点3,节点12),将子网络P1加入节点池中,并将子网络X1和子网络Y1从子网络池中删除,子网络池中此时包含的子网络有:子网络X2,子网络X3,子网络Y2,子网络Y3,子网络Z1,子网络Z2,子网络Z3,子网络P1。之后继续遍历下一个节点,直到将节点1-节点23都遍历之后,最终节点池中剩下的子网络即为目标网络。
本实施例,最终形成的目标网络包括目标网络1(节点1,节点2,节点3,节点12),目标网络2(节点4,节点5,节点6,节点19),目标网络3(节点7,节点8,节点9,节点10,节点16,节点17,节点20,节点22,节点23),目标网络4(节点13,节点14,节点15),目标网络5(节点11,节点18,节点21)。
在一可实施方式中,还可以根据多个预设条件和每个预设条件对应的权重,确定每个目标网络的分值;预设条件至少包括目标网络中每个节点对应的标注数据,标注数据用于指示节点对应的交易账号的类型。
具体的,在得到目标网络后,还可以通过多个预设条件对目标网络的风险性进行分析,可以为每个预设条件设置一个与预设条件对应一个权重,根据每个预设条件对目标网络进行分析,确定与该预设条件对应的风险分数,之后根据与每个预设条件对应的分数和每个预设条件对应的权重,确定目标网络的最终风险分值,最终风险分值用于指示目标网络的风险程度,最终风险分值越高表明目标网络中的异常交易行为越多,目标网络的风险程度越高。
可以通过公式,计算得到目标网络的最终风险分值,其中为与第i个预设条件对应的风险分数,为第i个预设条件对应的权重,其中每个设定条件对应的权重可以相同也可以不同,具体可根据预设条件的重要程度确定权重的大小。
其中,预设条件至少包括目标网络中每个节点对应的标注数据,标注数据用于指示节点对应的交易账号的类型。在一可实施方式中,与节点对应的交易账号的类型为正常和异常两种情况,其中,交易账号的类型为正常还是异常可以通过专家分析确定或者通过该账号先前的交易记录分析确定;可以将正常的交易账号的标注数据确定为0,将异常的交易账号的标注数据确定为1,通过确定目标网络中节点对应的标注数据为1的数量,确定目标网络的风险分数。
此外,除目标网络中包含的标注数据为1的节点的数量外,还可以获得目标网络中与标注数据为1的节点相关联的交易记录的数量。
在一可实施方式中,由于目标网络是由所有时间段的子网络合并形成的,因此预设条件还可以包括目标网络的节点对应的系数大于预设系数的节点的数量,目标网络的节点对应的系数为合成目标网络的子网络中节点出现的次数,系数用于表征节点的交易行为的活跃程度,节点的系数越大,代表该节点越活跃;如子网络M(节点100,节点101,节点102),子网络N(节点100,节点101,节点105),那么子网络M和子网络N合并后形成目标网络(节点100,节点101,节点102,节点105),其中节点100和节点101的系数为2,节点102和节点105的系数为1,预设系数可以根据实际情况进行设置,其中一种情况可以为,预设系数为目标网络包含的节点对应的系数的平均值。
此外,预设条件还可以包括目标网络包含的时间窗口的数量、目标网络中包含的节点的总数量、目标网络中所有节点的交易数量、目标网络中所有节点的总转入金额或总转出金额等等。
由于目标网络中包含的节点完全不同,因此目标网络的各项得分相差较大,为避免最终的风险分值过于依赖某些预设条件对应的分值,可将不同目标网络的相同预设条件的得分进行归一化处理,再由归一化处理后的结果计算得到最终风险分值。具体的,可通过公式进行归一化处理,其中,为与第i个预设条件对应的风险分数,为所有目标网络的第i项预设条件的得分平均值,为所有目标网络的第i项预设条件的得分方差,为与第i个预设条件对应的归一化后的风险分数,通过归一化处理可以降低不同目标网络之间预设条件分值的方差,提升了计算的精度,从而使得根据得分对目标网络的风险程度进行分析更有意义。
通过多个预设条件对目标网络的风险性进行分析,可以对目标网络的风险性进行量化,不需要专家以人工的方式进行判断,减少专家的主观性对结果的影响,并且在处理大规模数据上效率高。
图5示出了本公开实施例一种数据的分析装置的模块示意图。
参见图5,根据本公开实施例的第二方面,提供一种数据的分析装置,装置包括:获取模块501,用于获取多个时间段的交易记录,交易记录包括交易账号和交易信息,交易信息包括交易金额和位置信息;构建模块502,用于根据每个时间段的交易记录构建对应的交易网络,交易网络的节点为交易账号,交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为;第一聚类模块503,通过社区发现算法对交易网络中的节点进行聚类,得到多个节点社区;第二聚类模块504,用于根据交易信息确定节点间的节点相似度,根据节点相似度对节点社区进行聚类,得到交易网络的多个子网络;合并模块505,用于将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
在一可实施方式中,第二聚类模块504,包括:第一确定模块5041,用于根据节点的位置信息,确定两个节点之间的位置相似度;第一确定模块5041,还用于根据节点的交易金额,确定两个节点之间的金额相似度,节点的交易金额为节点的转出金额和转入金额的差值;第一确定模块5041,还用于根据位置相似度和金额相似度确定两个节点之间的节点相似度。
在一可实施方式中,第二聚类模块504,还包括:第二确定模块5042,用于分别从两个节点社区中任选一个节点,根据交易信息确定所选择的两个节点之间的节点相似度,若存在相似度满足阈值的两个节点,则两个节点社区的相似度满足阈值。
在一可实施方式中,第二聚类模块504,还包括:第一处理模块5043,用于遍历交易网络中的节点社区,确定当前节点社区与交易网络中的其他每个节点社区的相似度,得到当前节点社区对应的集合,集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区;第一生成模块5044,用于将所有的集合组成集合池;第一处理模块5043,还用于从集合池中任选一个集合,将该集合与集合池中其他每个集合进行比较,若不存在满足条件的其他集合,则将该集合作为子网络,并将该集合从集合池中删除后,返回从集合池中任选一个集合的操作,直至集合池中不存在集合;若存在满足条件的其他集合,则将满足条件的其他集合与该集合进行合并后,得到合并集合,将合并集合添加进集合池中,并将满足条件的其他集合与该集合从集合池中删除后,返回从集合池中任选一个集合的操作,直至集合池中不存在集合;满足条件的其他集合为:与所选择的集合具有相同节点社区的集合。
在一可实施方式中,构建模块502,包括:网络构建模块5021,用于根据所有时间段的交易记录,构建全局网络;网络划分模块5022,用于将全局网络按照时间窗口进行划分,得到每个时间段对应的交易网络。
在一可实施方式中,合并模块505,包括:第二生成模块5051,用于将所有时间段的子网络形成子网络池;第二处理模块5052,用于遍历全局网络中的节点,将子网络池中包含当前节点的子网络进行合并后得到新的子网络,从子网络池中删除包含当前节点的子网络,并将新的子网络添加进子网络池后,遍历下一个节点;直至遍历完全局网络中的节点后,将子网络池中的各子网络作为目标网络。
在一可实施方式中,装置还包括:分析模块506,用于根据多个预设条件和每个预设条件对应的权重,确定每个目标网络的分值;预设条件至少包括目标网络中每个节点对应的标注数据,标注数据用于指示节点对应的交易账户的类型。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如一种数据的分析方法。例如,在一些实施例中,一种数据的分析方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的一种数据的分析方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种数据的分析方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据的分析方法,其特征在于,所述方法包括:
获取多个时间段的交易记录,所述交易记录包括交易账号和交易信息,所述交易信息包括交易金额和位置信息;
根据每个所述时间段的交易记录构建对应的交易网络,所述交易网络的节点为所述交易账号,所述交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为;
通过社区发现算法对所述交易网络中的节点进行聚类,得到多个节点社区;
根据所述交易信息确定节点间的节点相似度,根据所述节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络;
将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
2.根据权利要求1所述的方法,其特征在于,所述根据所述交易信息确定节点间的节点相似度,包括:
根据所述节点的位置信息,确定两个节点之间的位置相似度;
根据所述节点的交易金额,确定两个节点之间的金额相似度,所述节点的交易金额为所述节点的转出金额和转入金额的差值;
根据所述位置相似度和所述金额相似度确定所述两个节点之间的节点相似度。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:确定节点社区之间的相似度,包括:
分别从两个节点社区中任选一个节点,根据所述交易信息确定所选择的两个节点之间的节点相似度,若存在相似度满足阈值的两个节点,则两个节点社区的相似度满足阈值。
4.根据权利要求3所述的方法,其特征在于,根据所述节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络,包括:
遍历所述交易网络中的节点社区,确定当前节点社区与所述交易网络中的其他每个节点社区的相似度,得到当前节点社区对应的集合,所述集合包含当前节点社区和与当前节点社区的相似度满足阈值的其他节点社区;
将所有的集合组成集合池;
从所述集合池中任选一个集合,将该集合与集合池中其他每个集合进行比较,若不存在满足条件的其他集合,则将该集合作为子网络,并将该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;若存在满足条件的其他集合,则将满足条件的其他集合与该集合进行合并后,得到合并集合,将所述合并集合添加进所述集合池中,并将满足条件的其他集合与该集合从集合池中删除后,返回从所述集合池中任选一个集合的操作,直至所述集合池中不存在集合;
所述满足条件的其他集合为:与所选择的集合具有相同节点社区的集合。
5.根据权利要求1所述的方法,其特征在于,获取多个时间段的交易记录,根据每个所述时间段的交易记录构建对应的交易网络,包括:
根据所有时间段的交易记录,构建全局网络;
将所述全局网络按照时间窗口进行划分,得到每个所述时间段对应的交易网络。
6.根据权利要求5所述的方法,其特征在于,所述将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络,包括:
将所有时间段的子网络形成子网络池;
遍历全局网络中的节点,将所述子网络池中包含当前节点的子网络进行合并后得到新的子网络,从所述子网络池中删除包含当前节点的子网络,并将所述新的子网络添加进所述子网络池后,遍历下一个节点;
直至遍历完全局网络中的节点后,将所述子网络池中的各子网络作为目标网络。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
根据多个预设条件和每个预设条件对应的权重,确定每个目标网络的分值;
所述预设条件至少包括所述目标网络中每个节点对应的标注数据,所述标注数据用于指示所述节点对应的交易账户的类型。
8.一种数据的分析装置,其特征在于,所述装置包括:
获取模块,用于获取多个时间段的交易记录,所述交易记录包括交易账号和交易信息,所述交易信息包括交易金额和位置信息;
构建模块,用于根据每个所述时间段的交易记录构建对应的交易网络,所述交易网络的节点为所述交易账号,所述交易网络中用于连接两个节点的边表示两个交易账号之间存在交易行为;
第一聚类模块,通过社区发现算法对所述交易网络中的节点进行聚类,得到多个节点社区;
第二聚类模块,用于根据所述交易信息确定节点间的节点相似度,根据节点相似度对所述节点社区进行聚类,得到所述交易网络的多个子网络;
合并模块,用于将所有时间段的子网络中包含相同节点的子网络进行合并得到目标网络。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309305.XA CN116051287B (zh) | 2023-03-28 | 2023-03-28 | 一种数据的分析方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309305.XA CN116051287B (zh) | 2023-03-28 | 2023-03-28 | 一种数据的分析方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116051287A true CN116051287A (zh) | 2023-05-02 |
CN116051287B CN116051287B (zh) | 2023-08-29 |
Family
ID=86124071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310309305.XA Active CN116051287B (zh) | 2023-03-28 | 2023-03-28 | 一种数据的分析方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051287B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016022720A2 (en) * | 2014-08-06 | 2016-02-11 | Alibaba Group Holding Limited | Method and apparatus of identifying a transaction risk |
CN111951021A (zh) * | 2019-05-15 | 2020-11-17 | 财付通支付科技有限公司 | 一种可疑社团的发现方法和装置、存储介质及计算机设备 |
CN113870021A (zh) * | 2021-12-03 | 2021-12-31 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
CN114971635A (zh) * | 2021-02-25 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种交易风险的管理方法以及相关装置 |
-
2023
- 2023-03-28 CN CN202310309305.XA patent/CN116051287B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016022720A2 (en) * | 2014-08-06 | 2016-02-11 | Alibaba Group Holding Limited | Method and apparatus of identifying a transaction risk |
CN111951021A (zh) * | 2019-05-15 | 2020-11-17 | 财付通支付科技有限公司 | 一种可疑社团的发现方法和装置、存储介质及计算机设备 |
CN114971635A (zh) * | 2021-02-25 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种交易风险的管理方法以及相关装置 |
CN113870021A (zh) * | 2021-12-03 | 2021-12-31 | 北京芯盾时代科技有限公司 | 一种数据的分析方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116051287B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113360580A (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN116225769B (zh) | 一种系统故障根因的确定方法、装置、设备及介质 | |
WO2024098699A1 (zh) | 实体对象的威胁检测方法、装置、设备及存储介质 | |
CN110502697B (zh) | 一种目标用户识别方法、装置及电子设备 | |
CN116340548A (zh) | 一种数据处理方法、装置、电子设备和存储介质 | |
CN116051287B (zh) | 一种数据的分析方法、装置、电子设备及存储介质 | |
CN113010782B (zh) | 需求量获取方法、装置、电子设备以及计算机可读介质 | |
CN114741433A (zh) | 一种社群挖掘方法、装置、设备及存储介质 | |
CN114969444A (zh) | 数据的处理方法、装置、电子设备和存储介质 | |
CN114331540A (zh) | 训练模型的方法、确定资产估值的方法和装置 | |
CN115964549B (zh) | 一种社群挖掘方法、装置、设备及存储介质 | |
CN113344621B (zh) | 异常账户的确定方法、装置和电子设备 | |
CN113360798B (zh) | 泛滥数据识别方法、装置、设备和介质 | |
CN114757304B (zh) | 一种数据识别方法、装置、设备及存储介质 | |
CN117522614B (zh) | 一种数据的处理方法、装置、电子设备及存储介质 | |
CN114844889B (zh) | 视频处理模型的更新方法、装置、电子设备及存储介质 | |
CN116991693B (zh) | 一种测试方法、装置、设备及存储介质 | |
CN114547448B (zh) | 数据处理、模型训练方法、装置、设备、存储介质及程序 | |
CN115221339B (zh) | 一种区域知识图谱的构建方法、装置、设备及介质 | |
CN116308455A (zh) | 一种贸易网络中枢纽区域的识别方法和装置 | |
CN118333620A (zh) | 一种数据的处理方法、装置、电子设备及存储介质 | |
CN114942996A (zh) | 垂直行业数据的三元组构建方法、装置、电子设备及介质 | |
CN117687816A (zh) | 一种业务可靠性评价方法、装置、设备及存储介质 | |
CN116049335A (zh) | Poi分类及模型训练方法、装置、设备和存储介质 | |
CN117093627A (zh) | 信息挖掘的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |