CN114022283A - 一种基于银行交易流水企业上下游数据挖掘方法 - Google Patents

一种基于银行交易流水企业上下游数据挖掘方法 Download PDF

Info

Publication number
CN114022283A
CN114022283A CN202111324641.9A CN202111324641A CN114022283A CN 114022283 A CN114022283 A CN 114022283A CN 202111324641 A CN202111324641 A CN 202111324641A CN 114022283 A CN114022283 A CN 114022283A
Authority
CN
China
Prior art keywords
transaction
year
calculating
data
days
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111324641.9A
Other languages
English (en)
Inventor
张宪录
谢国亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiyin Financial Technology Co ltd
Original Assignee
Beiyin Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiyin Financial Technology Co ltd filed Critical Beiyin Financial Technology Co ltd
Priority to CN202111324641.9A priority Critical patent/CN114022283A/zh
Publication of CN114022283A publication Critical patent/CN114022283A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;计算最近两次相邻转账间隔天数;计算1年内交易相邻转账间隔天数平均值和标准差;计算1年内交易转账金额平均金额;计算上下游关系可信度得分;计算当前关系强弱变化,包含渐强、减弱、不变。精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。

Description

一种基于银行交易流水企业上下游数据挖掘方法
技术领域
本发明涉及金融技术领域,尤其涉及一种基于银行交易流水企业上下游数据挖掘方法。
背景技术
数据挖掘技术已经应用到各个行业,充分挖掘了数据的价值。对企业上下游关系的提取和挖掘方法也是数据挖掘技术的领域的范畴。
目前现有的技术方案主要围绕企业的招投标数据,基于招投标的信息构建交易网络图,基于图神经网络算法计算企业之间的上下游关系的置信度。
基于企业招投标数据获取成本较大,另外招投标数据反应的企业行为数据粒度比较粗糙,时间跨度参差不齐。
基于图神经网络模型的上下游关系确定,需要准备大量的标注数据作为训练,成本较高,另外结果的可解释性低。
发明内容
鉴于上述问题,提出了本发明一种基于银行交易流水企业上下游数据挖掘方法。
根据本发明的一个方面,提供了一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:
定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;
数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;
计算最近两次相邻转账间隔天数;
计算1年内交易相邻转账间隔天数平均值和标准差;
计算1年内交易转账金额平均金额;
计算上下游关系可信度得分;
计算当前关系强弱变化,包含渐强、减弱、不变。
可选的,所述计算最近两次相邻转账间隔天数具体包括:
1年内交易时间序列如下:
date1,date2,date3,…,daten
1年内相邻转账间隔天数序列如下:
dn-1=daten-daten-1
得到转账间隔天数序列:
d1,d2,d3,…,dn-1
计算最近两次相邻转账间隔天数,相邻转账间隔序列最后一个值dn-1
可选的,所述计算1年内交易相邻转账间隔天数平均值和标准差具体包括:
1年内相邻转账间隔天数平均值dm:
Figure BDA0003346530820000021
1年内相邻转账间隔天数标准差ds:
Figure BDA0003346530820000022
可选的,所述计算1年内交易转账金额平均金额具体包括:
1年内交易转账金额序列如下:
m1,m2,m3,…,mn
1年内交易转账金额平均金额mm:
Figure BDA0003346530820000023
1年交易金额中最近两笔转账平均金额mml:
Figure BDA0003346530820000031
可选的,所述计算上下游关系可信度得分具体包括:
可信度得分计算公式:
Figure BDA0003346530820000032
其中,ds为1年内相邻转账间隔天数标准差,dm为1年内相邻转账间隔天数均值。
可选的,所述计算当前关系强弱变化具体包括:
计算当前关系强弱变化值:
Figure BDA0003346530820000033
其中,dn-1为最近两次相邻转账间隔天数,dm为1年内相邻转账间隔天数均值,mml为1年交易金额中最近两笔转账平均金额。
本发明提供的一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;计算最近两次相邻转账间隔天数;计算1年内交易相邻转账间隔天数平均值和标准差;计算1年内交易转账金额平均金额;计算上下游关系可信度得分;计算当前关系强弱变化,包含渐强、减弱、不变。精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于银行交易流水企业上下游数据挖掘方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示,步骤S1:通过ETL作业从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据。
具体就是通过时间筛选条件,选出周期为1年的交易流水数据以及客户类型限制对公账户,具体数据形式如表一。
表一
Figure BDA0003346530820000041
Figure BDA0003346530820000051
步骤S2:通过数据清洗程序对数据进行清洗,规范账户名称字段,保证每个账户名称的唯一性,另外保留满足交易双方交易次数大于等于4次的数据。
具体操作,将选择的数据进行账户名称字段进行简单的两端去空格,以及对数据缺失数据进行删除。其次通过以交易双方账户名称作为维度聚合统计,筛选出相同的交易账户贡献频次大于等于4次的数据集,比如企业2和企业3在近一年内交易次数只有一次,需要删除,整理完的结果如表二。
表二
Figure BDA0003346530820000052
步骤S3:构建评价指标,计算最近两次相邻转账间隔天数。
具体操作,以交易双方账户名称作为维度整合交易时间,并将时间从小到到大排序后整合成一个序列,具体见表3.1,并对序列中的值进行计算相邻两项的天数差,形成间隔天数序列,具体见表3.2。最后提取间隔天数序列的最后的值为最近两次相邻转账间隔天数,详情见表3.3。
表3.1
Figure BDA0003346530820000053
表3.2
Figure BDA0003346530820000054
Figure BDA0003346530820000061
表3.3
Figure BDA0003346530820000062
步骤S4:构建评价指标,计算1年内交易相邻转账间隔天数平均值和标准差;
具体对S3的计算结果中每一行的中间隔天数序列d1,d2,d3,…,dn-1,进行求平均值和标准差。具体公式为:
相邻转账间隔天数平均值dm:
Figure BDA0003346530820000063
相邻转账间隔天数标准差ds:
Figure BDA0003346530820000064
具体结果详见表4。
表4:
Figure BDA0003346530820000065
Figure BDA0003346530820000071
步骤S5:构建评价指标,计算1年内交易转账金额平均金额;
具体方式是以交易双方账户名称作为维度整合交易金额,按照时间顺序将交易金额整合为一个序列m1,m2,m3,…,mn,详见表5.1;
表5.1
Figure BDA0003346530820000072
对金额序列求均值,具体公式
Figure BDA0003346530820000073
表5.2
Figure BDA0003346530820000074
然后再提取金额序列的后两项,计算最近两笔转账平均金额,再通过公式,
Figure BDA0003346530820000075
具体详见表5.3.
表5.3
Figure BDA0003346530820000081
步骤S6:计算上下游关系可信度得分。具体操作是将S4和S5表进行按照账户名称和对方账户名称作为主键进行表合并,得到的结果如表6.1
表6.1
Figure BDA0003346530820000082
通过上下游关系可信度得分计算公式
Figure BDA0003346530820000083
计算每行的得分,结果如表6.2
Figure BDA0003346530820000084
步骤S7:计算当前关系强弱变化,包含渐强、减弱、不变。
具体方法,根据当前关系强弱变化值计算公式
Figure BDA0003346530820000091
计算出所有的当前关系强弱指标,通过S6和S7的结果
结果如表7。
表7
Figure BDA0003346530820000092
有益效果:基于银行交易数据对银行来讲,属于银行的数据资产,获取成本低,并且精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
基于银行交易数据,挖掘能反应的企业上下游关系的特征指标,并用特征指标构建评价体系,能够减少数据标注成本,可解释性较强。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述数据挖掘方法包括:
定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;
数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;
计算最近两次相邻转账间隔天数;
计算1年内交易相邻转账间隔天数平均值和标准差;
计算1年内交易转账金额平均金额;
计算上下游关系可信度得分;
计算当前关系强弱变化,包含渐强、减弱、不变。
2.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算最近两次相邻转账间隔天数具体包括:
1年内交易时间序列如下:
date1,date2,date3,…,daten
1年内相邻转账间隔天数序列如下:
dn-1=daten-daten-1
得到转账间隔天数序列:
d1,d2,d3,…,dn-1
计算最近两次相邻转账间隔天数,相邻转账间隔序列最后一个值dn-1
3.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算1年内交易相邻转账间隔天数平均值和标准差具体包括:
1年内相邻转账间隔天数平均值dm:
Figure FDA0003346530810000021
1年内相邻转账间隔天数标准差ds:
Figure FDA0003346530810000022
4.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算1年内交易转账金额平均金额具体包括:
1年内交易转账金额序列如下:
m1,m2,m3,…,mn
1年内交易转账金额平均金额mm:
Figure FDA0003346530810000023
1年交易金额中最近两笔转账平均金额mml:
Figure FDA0003346530810000024
5.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算上下游关系可信度得分具体包括:
可信度得分计算公式:
Figure FDA0003346530810000025
其中,ds为1年内相邻转账间隔天数标准差,dm为1年内相邻转账间隔天数均值。
6.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算当前关系强弱变化具体包括:
计算当前关系强弱变化值:
Figure FDA0003346530810000031
其中,dn-1为最近两次相邻转账间隔天数,dm为1年内相邻转账间隔天数均值,mml为1年交易金额中最近两笔转账平均金额。
CN202111324641.9A 2021-11-10 2021-11-10 一种基于银行交易流水企业上下游数据挖掘方法 Pending CN114022283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111324641.9A CN114022283A (zh) 2021-11-10 2021-11-10 一种基于银行交易流水企业上下游数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111324641.9A CN114022283A (zh) 2021-11-10 2021-11-10 一种基于银行交易流水企业上下游数据挖掘方法

Publications (1)

Publication Number Publication Date
CN114022283A true CN114022283A (zh) 2022-02-08

Family

ID=80063025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111324641.9A Pending CN114022283A (zh) 2021-11-10 2021-11-10 一种基于银行交易流水企业上下游数据挖掘方法

Country Status (1)

Country Link
CN (1) CN114022283A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993506A (zh) * 2023-06-25 2023-11-03 浙江宁银消费金融股份有限公司 一种消费金融业务交易处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993506A (zh) * 2023-06-25 2023-11-03 浙江宁银消费金融股份有限公司 一种消费金融业务交易处理系统
CN116993506B (zh) * 2023-06-25 2024-04-02 浙江宁银消费金融股份有限公司 一种消费金融业务交易处理系统

Similar Documents

Publication Publication Date Title
CN110490729B (zh) 一种基于用户画像模型的金融用户分类方法
US9104960B2 (en) Click prediction using bin counting
CN108596750B (zh) 一种基于并行关联规则挖掘的发票虚开识别方法
US7587330B1 (en) Method and system for constructing prediction interval based on historical forecast errors
US20100010870A1 (en) System and Method for Tuning Demand Coefficients
JP2000357204A (ja) 消費者の財政的挙動の予測モデル化方法及びシステム
US10049155B2 (en) System for mending through automated processes
US20210117995A1 (en) Proactively predicting transaction quantity based on sparse transaction data
CN109285038A (zh) 一种通过bp神经网络预测银行客户流失的方法
Agerton Learning where to drill: Drilling decisions and geological quality in the haynesville shale
CN114022283A (zh) 一种基于银行交易流水企业上下游数据挖掘方法
CN115456745A (zh) 小微企业画像构建方法及装置
US20220398604A1 (en) Systems and methods for dynamic cash flow modeling
Ferrara et al. GDP nowcasting with ragged‐edge data: a semi‐parametric modeling
CN117217634A (zh) 一种基于复杂网络的企业合作社区发现方法
CN115689713A (zh) 异常风险数据处理方法、装置、计算机设备和存储介质
CN202093568U (zh) 一种银行目标客户识别系统
CN114331463A (zh) 基于线性回归模型的风险识别方法及其相关设备
CN112560433A (zh) 一种信息处理的方法及装置
Corblet Education expansion, sorting, and the decreasing education wage premium
CN113592140A (zh) 电费缴纳预测模型训练系统和电费缴纳预测模型
Nagashima et al. Data Imputation Method based on Programming by Example: APREP-S
Latif et al. A smart technique to forecast karachi stock market share-values using ARIMA model
CN113094407B (zh) 一种基于横向联邦学习的反洗钱识别方法、装置及系统
WO2022014094A1 (ja) 企業評価システム及び方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination