CN114022283A - 一种基于银行交易流水企业上下游数据挖掘方法 - Google Patents
一种基于银行交易流水企业上下游数据挖掘方法 Download PDFInfo
- Publication number
- CN114022283A CN114022283A CN202111324641.9A CN202111324641A CN114022283A CN 114022283 A CN114022283 A CN 114022283A CN 202111324641 A CN202111324641 A CN 202111324641A CN 114022283 A CN114022283 A CN 114022283A
- Authority
- CN
- China
- Prior art keywords
- transaction
- year
- calculating
- data
- days
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;计算最近两次相邻转账间隔天数;计算1年内交易相邻转账间隔天数平均值和标准差;计算1年内交易转账金额平均金额;计算上下游关系可信度得分;计算当前关系强弱变化,包含渐强、减弱、不变。精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
Description
技术领域
本发明涉及金融技术领域,尤其涉及一种基于银行交易流水企业上下游数据挖掘方法。
背景技术
数据挖掘技术已经应用到各个行业,充分挖掘了数据的价值。对企业上下游关系的提取和挖掘方法也是数据挖掘技术的领域的范畴。
目前现有的技术方案主要围绕企业的招投标数据,基于招投标的信息构建交易网络图,基于图神经网络算法计算企业之间的上下游关系的置信度。
基于企业招投标数据获取成本较大,另外招投标数据反应的企业行为数据粒度比较粗糙,时间跨度参差不齐。
基于图神经网络模型的上下游关系确定,需要准备大量的标注数据作为训练,成本较高,另外结果的可解释性低。
发明内容
鉴于上述问题,提出了本发明一种基于银行交易流水企业上下游数据挖掘方法。
根据本发明的一个方面,提供了一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:
定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;
数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;
计算最近两次相邻转账间隔天数;
计算1年内交易相邻转账间隔天数平均值和标准差;
计算1年内交易转账金额平均金额;
计算上下游关系可信度得分;
计算当前关系强弱变化,包含渐强、减弱、不变。
可选的,所述计算最近两次相邻转账间隔天数具体包括:
1年内交易时间序列如下:
date1,date2,date3,…,daten
1年内相邻转账间隔天数序列如下:
dn-1=daten-daten-1
得到转账间隔天数序列:
d1,d2,d3,…,dn-1
计算最近两次相邻转账间隔天数,相邻转账间隔序列最后一个值dn-1。
可选的,所述计算1年内交易相邻转账间隔天数平均值和标准差具体包括:
1年内相邻转账间隔天数平均值dm:
1年内相邻转账间隔天数标准差ds:
可选的,所述计算1年内交易转账金额平均金额具体包括:
1年内交易转账金额序列如下:
m1,m2,m3,…,mn
1年内交易转账金额平均金额mm:
1年交易金额中最近两笔转账平均金额mml:
可选的,所述计算上下游关系可信度得分具体包括:
可信度得分计算公式:
其中,ds为1年内相邻转账间隔天数标准差,dm为1年内相邻转账间隔天数均值。
可选的,所述计算当前关系强弱变化具体包括:
计算当前关系强弱变化值:
其中,dn-1为最近两次相邻转账间隔天数,dm为1年内相邻转账间隔天数均值,mml为1年交易金额中最近两笔转账平均金额。
本发明提供的一种基于银行交易流水企业上下游数据挖掘方法,所述数据挖掘方法包括:定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;计算最近两次相邻转账间隔天数;计算1年内交易相邻转账间隔天数平均值和标准差;计算1年内交易转账金额平均金额;计算上下游关系可信度得分;计算当前关系强弱变化,包含渐强、减弱、不变。精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于银行交易流水企业上下游数据挖掘方法的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
下面结合附图和实施例,对本发明的技术方案做进一步的详细描述。
如图1所示,步骤S1:通过ETL作业从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据。
具体就是通过时间筛选条件,选出周期为1年的交易流水数据以及客户类型限制对公账户,具体数据形式如表一。
表一
步骤S2:通过数据清洗程序对数据进行清洗,规范账户名称字段,保证每个账户名称的唯一性,另外保留满足交易双方交易次数大于等于4次的数据。
具体操作,将选择的数据进行账户名称字段进行简单的两端去空格,以及对数据缺失数据进行删除。其次通过以交易双方账户名称作为维度聚合统计,筛选出相同的交易账户贡献频次大于等于4次的数据集,比如企业2和企业3在近一年内交易次数只有一次,需要删除,整理完的结果如表二。
表二
步骤S3:构建评价指标,计算最近两次相邻转账间隔天数。
具体操作,以交易双方账户名称作为维度整合交易时间,并将时间从小到到大排序后整合成一个序列,具体见表3.1,并对序列中的值进行计算相邻两项的天数差,形成间隔天数序列,具体见表3.2。最后提取间隔天数序列的最后的值为最近两次相邻转账间隔天数,详情见表3.3。
表3.1
表3.2
表3.3
步骤S4:构建评价指标,计算1年内交易相邻转账间隔天数平均值和标准差;
具体对S3的计算结果中每一行的中间隔天数序列d1,d2,d3,…,dn-1,进行求平均值和标准差。具体公式为:
相邻转账间隔天数平均值dm:
相邻转账间隔天数标准差ds:
具体结果详见表4。
表4:
步骤S5:构建评价指标,计算1年内交易转账金额平均金额;
具体方式是以交易双方账户名称作为维度整合交易金额,按照时间顺序将交易金额整合为一个序列m1,m2,m3,…,mn,详见表5.1;
表5.1
对金额序列求均值,具体公式
表5.2
然后再提取金额序列的后两项,计算最近两笔转账平均金额,再通过公式,
具体详见表5.3.
表5.3
步骤S6:计算上下游关系可信度得分。具体操作是将S4和S5表进行按照账户名称和对方账户名称作为主键进行表合并,得到的结果如表6.1
表6.1
通过上下游关系可信度得分计算公式
计算每行的得分,结果如表6.2
步骤S7:计算当前关系强弱变化,包含渐强、减弱、不变。
具体方法,根据当前关系强弱变化值计算公式
计算出所有的当前关系强弱指标,通过S6和S7的结果
结果如表7。
表7
有益效果:基于银行交易数据对银行来讲,属于银行的数据资产,获取成本低,并且精准的记录了不同企业当前和历史的真实交易情况。提高了数据的准确度。
基于银行交易数据,挖掘能反应的企业上下游关系的特征指标,并用特征指标构建评价体系,能够减少数据标注成本,可解释性较强。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述数据挖掘方法包括:
定期从数仓平台采集对公客户交易流水数据的事件表,获取近一年的交易数据;
数据清洗程序对数据进行清洗,规范客户名称字段,保证每个客户的唯一性,另外保留满足交易双方交易次数大于等于4次的数据;
计算最近两次相邻转账间隔天数;
计算1年内交易相邻转账间隔天数平均值和标准差;
计算1年内交易转账金额平均金额;
计算上下游关系可信度得分;
计算当前关系强弱变化,包含渐强、减弱、不变。
2.根据权利要求1所述的一种基于银行交易流水企业上下游数据挖掘方法,其特征在于,所述计算最近两次相邻转账间隔天数具体包括:
1年内交易时间序列如下:
date1,date2,date3,…,daten
1年内相邻转账间隔天数序列如下:
dn-1=daten-daten-1
得到转账间隔天数序列:
d1,d2,d3,…,dn-1
计算最近两次相邻转账间隔天数,相邻转账间隔序列最后一个值dn-1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324641.9A CN114022283A (zh) | 2021-11-10 | 2021-11-10 | 一种基于银行交易流水企业上下游数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111324641.9A CN114022283A (zh) | 2021-11-10 | 2021-11-10 | 一种基于银行交易流水企业上下游数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022283A true CN114022283A (zh) | 2022-02-08 |
Family
ID=80063025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111324641.9A Pending CN114022283A (zh) | 2021-11-10 | 2021-11-10 | 一种基于银行交易流水企业上下游数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022283A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993506A (zh) * | 2023-06-25 | 2023-11-03 | 浙江宁银消费金融股份有限公司 | 一种消费金融业务交易处理系统 |
-
2021
- 2021-11-10 CN CN202111324641.9A patent/CN114022283A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993506A (zh) * | 2023-06-25 | 2023-11-03 | 浙江宁银消费金融股份有限公司 | 一种消费金融业务交易处理系统 |
CN116993506B (zh) * | 2023-06-25 | 2024-04-02 | 浙江宁银消费金融股份有限公司 | 一种消费金融业务交易处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490729B (zh) | 一种基于用户画像模型的金融用户分类方法 | |
US9104960B2 (en) | Click prediction using bin counting | |
CN108596750B (zh) | 一种基于并行关联规则挖掘的发票虚开识别方法 | |
US7587330B1 (en) | Method and system for constructing prediction interval based on historical forecast errors | |
US20100010870A1 (en) | System and Method for Tuning Demand Coefficients | |
JP2000357204A (ja) | 消費者の財政的挙動の予測モデル化方法及びシステム | |
US10049155B2 (en) | System for mending through automated processes | |
US20210117995A1 (en) | Proactively predicting transaction quantity based on sparse transaction data | |
CN109285038A (zh) | 一种通过bp神经网络预测银行客户流失的方法 | |
Agerton | Learning where to drill: Drilling decisions and geological quality in the haynesville shale | |
CN114022283A (zh) | 一种基于银行交易流水企业上下游数据挖掘方法 | |
CN115456745A (zh) | 小微企业画像构建方法及装置 | |
US20220398604A1 (en) | Systems and methods for dynamic cash flow modeling | |
Ferrara et al. | GDP nowcasting with ragged‐edge data: a semi‐parametric modeling | |
CN117217634A (zh) | 一种基于复杂网络的企业合作社区发现方法 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN202093568U (zh) | 一种银行目标客户识别系统 | |
CN114331463A (zh) | 基于线性回归模型的风险识别方法及其相关设备 | |
CN112560433A (zh) | 一种信息处理的方法及装置 | |
Corblet | Education expansion, sorting, and the decreasing education wage premium | |
CN113592140A (zh) | 电费缴纳预测模型训练系统和电费缴纳预测模型 | |
Nagashima et al. | Data Imputation Method based on Programming by Example: APREP-S | |
Latif et al. | A smart technique to forecast karachi stock market share-values using ARIMA model | |
CN113094407B (zh) | 一种基于横向联邦学习的反洗钱识别方法、装置及系统 | |
WO2022014094A1 (ja) | 企業評価システム及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |