CN117076537A - 一种交易流水数据的特征衍生方法、装置和电子设备 - Google Patents
一种交易流水数据的特征衍生方法、装置和电子设备 Download PDFInfo
- Publication number
- CN117076537A CN117076537A CN202311038897.2A CN202311038897A CN117076537A CN 117076537 A CN117076537 A CN 117076537A CN 202311038897 A CN202311038897 A CN 202311038897A CN 117076537 A CN117076537 A CN 117076537A
- Authority
- CN
- China
- Prior art keywords
- transaction
- data
- transaction data
- feature
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000009795 derivation Methods 0.000 title claims abstract description 70
- 238000012216 screening Methods 0.000 claims abstract description 38
- 230000015654 memory Effects 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 23
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 15
- 238000010801 machine learning Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000001212 derivatisation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请提供一种交易流水数据的特征衍生方法、装置和电子设备,属于特征数据衍生技术领域,包括:基于历史交易流水数据中的各项交易数据,构建第一交易数据集;根据目标应用场景的应用需求,对第一交易数据集中的各项交易数据进行筛选,得到第二交易数据集;采用不同的特征衍生方法,对第二交易数据集中的各项交易特征数据进行特征衍生,得到第三交易数据集;将第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集。本申请实现了对多字段、多类别数据的衍生,同时针对不同种类的数据采用不同的方法进行衍生,数据处理的针对性更强,应用范围更广;不仅更全面的挖掘出数据中显隐性信息,也丰富了特征变量的广度。
Description
技术领域
本申请涉及特征数据衍生技术领域,具体而言,涉及一种交易流水数据的特征衍生方法、装置和电子设备。
背景技术
银行等金融机构依赖服务系统提供金融相关服务导致后台累计了大量的交易数据;这些交易流水数据隐含了多种信息,具备较高的数据价值。同时,随着技术的进一步发展,银行等金融机构开始采用针对不同的金融业务构建不同的机器学习模型的方式进行数据分析、业务处理等,取代原先的专家规则类模型,从而进一步提高效率、准确性与客观性。
然而,可应用于实际金融业务的机器学习模型需要大量的特征变量作为输入量进行训练,才能保证模型的精准度,而实际金融领域产生的针对某一特定业务的特征数据的规模却远远达不到机器学习模型训练所需的量。因此,需要针对现有的少量的特征数据进行衍生,从而提高数据的规模。
现有技术通常采用关键字匹配或业务归纳经验或人工进行特征转换或聚合等方式进行特征数据的衍生;然而上述特征数据的衍生方法其特征指向性比较明确,一方面缺乏了对数据中有效隐性信息的拾取,另一方面在单特征本身的类别分布上较为单一,大部分特征只有是或否两种状态;同时上述衍生方法缺少针对性,仅会对一项数据中的一个字段进行衍生或是多个字段采用一种衍生方法的方式进行衍生;其得到的衍生数据的规模、特征的丰富程度较差,有效性不足,不具备针对性,无法满足机器学习模型的要求;同时上述特征衍生的方法无法针对性的交易流水等数量庞大且涉及到的字段范围较为广泛的金融数据。
综上,现有的特征数据衍生方法无法针对性的处理交易流水等金融数据,无法对多类别、多字段的特征数据进行有效的针对性的衍生;且衍生数据量不足,无法提取数据中的隐含信息、衍生数据特征丰富度不足、业务解释性较差、数据质量差、不具备针对性。
发明内容
本申请实施例的目的在于提供一种交易流水数据的特征衍生方法、装置和电子设备,用以解决了现有技术无法针对性的处理交易流水等金融数据,无法对多类别、多字段的特征数据进行有效的针对性的衍生;且衍生数据量不足,无法提取数据中的隐含信息、衍生数据特征丰富度不足、业务解释性较差、数据质量差、不具备针对性的问题,可获取到具备业务解释性、规模量大、质量高、特征丰富度高、具备针对性的金融特征衍生数据集。
第一方面,提供了一种交易流水数据的特征衍生方法,该方法可以包括:
基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,所述交易数据包括交易流水号和交易特征数据;
根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
将所述第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,所述对应的客户属性数据史基于相应交易数据中的交易流水号确定的。
在一个可选的实现中,根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集,包括:
根据目标应用场景的应用需求,确定所述目标应用场景下配置的至少一个目标交易特征数据的筛选标准;
获取所述第一交易数据集中满足所述筛选标准的目标交易特征数据对应的交易数据;
基于获取的交易数据构建第二数据集。
在一个可选的实现中,不同的特征衍生方法,包括:时间切片结合特征表示方法、动态排序结合OneHot编码方法、属性聚合的方法以及词袋模型结合关键字判断方法;
所述交易特征数据包括交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注;
所述采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生包括:
采用时间切片结合特征表示方法,对交易时间数据进行特征衍生;
采用动态排序结合OneHot编码方法,对交易用途数据进行特征衍生;
采用属性聚合方法,对交易对手数据进行特征衍生;
采用词袋模型结合关键字判断方法,对交易备注数据进行特征衍生。
在一个可选的实现中,采用时间切片结合特征表示的方法,对交易时间数据进行特征衍生,包括:
设定时间切片的粒度,根据所述时间切片的粒度对所述第二交易数据集中各项交易数据进行切片;
按照时间顺序先后对切片后的各项交易数据进行排序,确定对各个切片内的交易数据的变化趋势;
在显示设备上,利用箭头符号显示所述变化趋势。
在一个可选的实现中,采用动态排序结合OneHot编码的方法,对交易用途数据进行特征衍生,包括:
按照各个交易用途的占比从大到小进行交易数据的排序;
根据目标应用场景的应用条件选择前n项交易用途对应的交易数据进行单列,其余交易用途对应的交易数据归集为一类;其中,n表示不为0的正整数;
采用OneHot编码方法对各个交易数据的交易用途数据进行特征衍生。
在一个可选的实现中,采用属性聚合的方法,对交易对手数据进行特征衍生,包括:
根据所述第二交易数据集中各项交易数据的交易对手数据对所述各项交易数据进行分类;
根据目标应用场景的应用条件对所述交易对手数据进行属性分析;
根据属性分析结果将交易对手类别不同的交易数据进行部分合并,得到t种交易对手类别不同的交易数据;其中,t为小于10且大于0的整数;
其中,所述交易对手数据包括交易对手的银行账号、银行归属、银行费项。
在一个可选的实现中,采用词袋模型结合关键字判断的方法,对交易备注数据进行特征衍生,包括:
采用词袋模型根据所述第二交易数据集中的交易备注数据进行第二交易数据集中各项交易数据的归类;其中,交易备注数据为空的交易数据作为一类;
利用关键字判断不同种类的交易备注对应的交易数据的交易目的,根据所述交易目的进行交易数据的衍生。
第二方面,提供了一种交易流水数据的特征衍生装置,该装置可以包括:
数据提取单元,用于基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,所述交易数据包括交易流水号和交易特征数据;
数据筛选单元,用于根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
数据衍生单元,用于采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
数据拼接单元,用于将所述第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,所述对应的客户属性数据史基于相应交易数据中的交易流水号确定的。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
通过采用以上技术方案,通过对原始交易流水数据的字段进行拆分提取多项交易特征数据,有效减少原始交易流水数据量的同时还保留了原始交易流水数据表征的各项信息;同时根据期望应用场景或目标应用方向,参考业务意见,对交易数据进行二次筛选,筛选针对特定业务场景的交易数据,提高数据的针对性,从而提高后续衍生数据的有效性。
本申请通过对筛选后的不同交易特征数据采用不同的方法进行衍生,不仅实现了对多字段、多类别数据的衍生,同时还能够针对不同种类的交易特征数据采用不同的方法进行衍生,数据处理的针对性更强,应用范围更广;且能够将少量的特征数据呈几何倍数的扩展,不仅可以更全面的挖掘出数据中显隐性信息,也丰富了特征变量的广度;将衍生后的交易数据与客户属性信息进行拼接融合,能够保证交易数据在具备较强的业务解释性的前提下,还大幅度提高了交易数据的特征丰富度,得到针对性强、业务解释性强、规模大、特征丰富度高的衍生数据集;为之后应用在金融特征工程及金融特征筛选中完成铺垫,实现交易流水数据价值的最大化。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种交易流水数据的特征衍生方法流程图;
图2为本申请实施例提供的一种交易流水数据的特征衍生方法装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
交易流水数据,主要指银行等金融系统中因资金往来产生的一系列交易记录。每一条原始交易流水数据均包括交易流水号、交易双方的姓名、交易金额、交易账号、交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注等多项数据;其中,交易流水号是交易流水数据的唯一标识;交易用途以用途代码的形式表示;交易双方的姓名以及其他相关信息都可由交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注等交易特征数据衍生得到,交易特征数据基本涵盖了交易流水数据所包含的各类信息。
特征衍生,指将现有的具备一定特征的数据通过某种组合或处理,生成具备新的含义的特征数据。机器学习模型需要大量的特征数据作为训练集或是测试集进行模型训练或测试的输入量,然而在实际应用的过程中,作为模型输入量的特征数据数量远达不到模型所需,因此需要对现有的特征数据进行扩展,且扩展过程得到的数据也需要具备丰富的特征、较强的业务解释性。
现有技术主要依赖关键字匹配或者业务归纳经验提取的方式进行特征变量衍生,上述衍生方法衍生的特征变量特征指向性比较明确,无法提取数据中包含的隐性信息,且在单特征本身的类别分布上较为单一,大部分特征只有是或否两种状态,衍生的特征变量特征不丰富且衍生后特征变量的数量较少;同时上述方法衍生得到的特征变量虽然可以作为专家规则类模型的数据集,但是并不足以作为机器学习模型的特征变量;更重要的是,上述衍生方法无法处理金融领域数据量庞大且字段范围广泛的数据源,不能针对性的进行金融类数据的挖掘、处理与衍生。
基于此,本申请的交易流水数据的特征衍生方法中,针对交易流水数据等数据量庞大且涉及到的字段范围广泛的原始数据源,首先,根据数据表征或隐含信息的多少与重要程度先进行交易特征数据的选择,并基于选择的交易特征数据以及交易特征数据对应的交易流水号得到交易数据;然后,根据选择的交易特征数据,基于不同的业务场景,参考业务意见,进行不同交易特征数据的筛选标准的设定;并根据设定的筛选标准进行交易数据的筛选,筛选得到业务逻辑上可解释性强且包含较多有效信息的交易数据;最后,采用不同的特征衍生方法,对筛选后的交易数据中不同交易特征数据进行特征衍生,进一步扩大交易数据的数据量;最后,将衍生后的交易数据与对应的客户属性数据进行拼接,从而使得交易数据不仅具备较强的业务解释性的还具备较好的特征丰富度,从而有助于交易数据后续应用于特征工程及特征筛选中,实现交易流水数据价值的最大化。
本申请实施例提供的交易流水数据的特征衍生方法,可以应用在服务器中,也可以应用在具有较强计算能力的终端中。该服务器可以是物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile Station,MS)、移动终端(MobileTerminal)等。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为本申请实施例提供的一种交易流水数据的特征衍生方法的流程示意图。如图1所示,该方法可以包括:
步骤S110、基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,交易数据包括交易流水号和交易特征数据。
具体的,交易特征数据包括交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注。
本申请实施例根据交易特征数据表征信息的重要程度,将交易特征数据划分为第一类交易特征数据与第二类交易特征数据;第一类交易特征数据包括:交易时间、资金方向、交易对手和货币种类;第二类交易特征数据包括交易方式、交易用途、交易渠道和交易备注;第一类交易特征数据表征信息的重要程度大于第二类交易特征数据。
在实际应用中,获取原始交易流水数据时,系统会自动进行一次数据的筛选,排除交易流水号、交易时间、资金方向和交易对手中任意一项为空的交易流水数据。
具体的,基于历史交易流水数据中的各项交易数据,构建第一交易数据集包括:
针对金融系统的历史交易流水数据,提取不同交易流水号,以及各交易流水号对应的交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注的交易特征数据,每个交易流水号和相应的交易特征数据组成一条交易数据,从而得到包含多条交易数据的第一交易数据集。
步骤S120、根据目标应用场景的应用需求,对第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集。
具体的,根据目标应用场景的应用需求,确定目标应用场景下配置的至少一个目标交易特征数据的筛选标准;获取第一交易数据集中满足筛选标准的目标交易特征数据对应的交易数据;基于获取的交易数据构建第二数据集。
在本申请实施例中,可针对一项或多项交易特征数据设定筛选标准,具体的,可只针对第一类交易特征数据中的一项或多项交易特征数据设定筛选标准;也可只针对第二类交易特征数据中的一项或多项交易特征数据设定筛选标准;也可分别从第一类交易特征数据与第二类交易特征特征数据中任意选取一个或多个交易特征数据设定筛选标准。每一项交易特征数据的筛选标准是不同的,且是不固定的,可根据目标应用场景的业务需要或应用条件进行设定。
在实际应用过程中,因第一类交易特征数据所表征的信息比第二类交易特征数据所表征的信息重要,因此主要针对第一类交易特征数据中的交易特征数据设定筛选标准,从而从第一交易数据集包含的多项交易数据中筛选符合筛选标准的一条或多条交易数据,构成第二交易数据集。
在本申请的一些实施例中,当衍生数据集的目标应用场景为分析近期内的企业资金流动情况时,则设定交易时间的筛选标准为近1个月或近3个月,从第一交易数据集中筛选近1个月或近3个月的交易数据,构建第二交易数据集。
在本申请的一些实施例中,当衍生数据集的目标应用场景为分析代发类业务时,则设定资金方向的筛选标准为转出,并设定交易对手的筛选标准为企业内部人员,从第一交易数据集中筛选得到企业代发类的交易数据,构建第二交易数据集。
在本申请的一些实施例中,当衍生数据集的期望应用方向为分析一段时间内企业资金异动情况时,则可根据待分析的时间段,设定交易时间的筛选标准,并设定交易对手或资金方向的筛选标准,从第一交易数据集中筛选得到符合标准的一条或多条交易数据,构建第二交易数据集。
基于此,不仅能够充分考虑业务意见,从海量的交易流水数据中针对性的筛选更加符合当前业务场景具备实际业务解释性的交易数据,增强交易数据有效性,方便后续特征建模;同时还能够减小交易数据的规模,提高交易数据加工的效率。
步骤S130、采用不同的特征衍生方法,对第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集。
具体的,对第二交易数据集中的交易特征数据分别采用不同的特征衍生方法进行衍生,得到第三交易数据集;其中,数据衍生方法包括交叉特征衍生方法、多项式特征衍生方法、指数特征衍生方法、OneHot编码方法、时间切片结合特征表示方法、动态排序结合OneHot编码方法、属性聚合方法和词袋模型结合关键字判断方法等多种。
具体的,采用不同的衍生方法对不同的特征数据进行衍生包括:
采用时间切片结合特征表示方法,对交易时间数据进行特征衍生:
设定时间切片的粒度,根据时间切片的粒度对第二交易数据集中各项交易数据进行切片;按照时间顺序先后对切片后的各项交易数据进行排序,确定对各个切片内的交易数据的变化趋势;并在显示设备上,利用箭头符号显示变化趋势。其中,时间粒度可设置为3m/6m/1y/3y,涵盖从远期到近期的阶段数据;其中,m表示月,y表示年;3m表示3个月;1y表示1年。
采用动态排序结合OneHot编码方法,对交易用途数据进行衍生:按照各个交易用途的占比从大到小进行交易数据的排序;根据目标应用场景的应用条件选择前n项交易用途对应的交易数据进行单列,其余交易用途对应的交易数据归集为一类;采用OneHot编码方法对各个交易数据的交易用途数据进行特征衍生;其中,n表示不为0的正整数,取值范围为1-20。
在实际应用的过程中,若前5类交易用途对应的交易数据已经占交易数据中全部交易用途的95%,则可选择前5项交易用途对应的交易数据进行单列,其余交易用途的交易流水数据归为一类;若前10类交易用途对应的交易数据占交易数据中全部交易用途的80%,也可选择前10项交易用途的交易数据进行单列,其他交易用途的交易数据归为一类;也可根据实际业务的需要直接设定n的数值。
采用属性聚合方法,对交易对手进行特征衍生:因交易对手数据本身不适合直接使用,因此根据第二交易数据集中各项交易数据的交易对手数据对各项交易数据进行分类;根据目标应用场景的应用条件对交易对手数据进行属性分析;根据属性分析结果将交易对手类别不同的交易数据进行部分合并,得到t种交易对手类别不同的交易数据;其中,t为小于10且大于0的整数;交易对手数据包括交易对手的银行账号、银行归属和银行费项。
在本申请实施例中,将交易对手的类别最终类别限定为10种以内,能够有效减少数据的处理量,同时还能够提高业务针对性。在具体应用中,先按照交易对手进行交易数据的初步分类;再利用企业预留花名册及法人信息判断每一类交易对手是否为企业内部人员,并根据是否为企业内部的属性进行初步分类后的交易数据的合并与划分,得到第三交易数据集。
采用词袋模型结合关键字判断方法,对交易备注数据进行特征衍生,包括:
采用词袋模型根据第二交易数据集中的交易备注数据进行第二交易数据集中各项交易数据的归类;其中,交易备注数据为空的交易数据作为一类;利用关键字,判断不同种类的交易备注对应的交易数据的交易目的,根据交易目的进行交易数据的衍生。
具体的,词袋模型属于自然语言处理和信息检索中的一种简单的文档表示方法,通过词袋模型可以统计所有单词出现的数目,在使用词袋模型进行单词数据统计时,不考虑语法和单词出现的先后顺序。
利用词袋模型对交易备注数据进行处理可以采用以下方法:首先,对交易备注中出现的句子或短语进行分词,然后构建词袋(将分词得到的每一个单词都加入词袋中);给每一个词添加一个位置索引,并统计该单词出现的次数,从而将交易备注中的句子或短语转换为向量模型;然后,通过关键词对词袋模型的分词结果进行语义匹配,确定各个单词表征的含义,从而确定交易备注中的短语或单词的含义,并进而确定交易的目的。
例如,交易备注中填写“代发工资”,通过词袋模型将“代发工资”划分为“代发”与“工资”两个单词,并通过词袋模型统计在所有第二交易数据集中同时出现“代发”与“工资”两个单词的交易数据的条数;再通过关键词匹配确定“代发工资”为企业内部的薪酬代发类业务数据,基于此,进行交易数据的衍生。
在本申请的实施例中,为进一步挖掘交易数据的隐含信息,还可对交易流水数据的金额、笔数、客户数以及对应占比进行聚合;同时为了保证能够获取到动态信息,也可对交易流水数据中的一项或多项交易行为持续时长,交易流水数据中的一项或多项交易类型的环比、同比增减情况进行聚合;也可综合以上方式进行交易流水数据中多种变量的矩阵组合,最终衍生得到大量特征。
步骤S140、将第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,对应的客户属性数据史基于相应交易数据中的交易流水号确定。
在本申请实施例中,客户属性数据包括工商属性、账户信息和开户信息等。
具体的,将第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集,包括:
根据第三交易数据集中的交易流水号或其他信息从数据库中确定对应的客户的属性数据,将客户的属性信息与第三交易数据集中的各项交易数据进行融合,生成包含客户各项属性信息的交易数据,得到衍生数据集。
在实际应用中,将本申请实施例得到的衍生数据集,作为训练数据集输入到预先构建的机器学习模型中,进行各类机器学习模型的训练,能够提高模型训练的精准程度;同时将衍生数据集作为测试数据集用于评估机器学习模型的性能,可提高机器学习模型评估的准确性、全面性。
本申请的交易流水数据的特征衍生方法也可应用于处理其他金融数据或流水数据,并不局限于银行交易流水数据,也可扩展到其他数据量大且字段多的数据衍生。
与上述方法对应的,本申请实施例还提供一种交易流水数据的特征衍生装置,如图2所示,该交易流水数据的特征衍生装置包括:
数据提取单元210,用于基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,交易数据包括交易流水号和交易特征数据;
数据筛选单元220,用于根据目标应用场景的应用需求,对第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
数据衍生单元230,用于采用不同的特征衍生方法,对第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
数据拼接单元240,用于将第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,对应的客户属性数据史基于相应交易数据中的交易流水号确定。
本申请上述实施例提供的交易流水数据的特征衍生装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的交易流水数据的特征衍生装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本申请实施例还提供了一种电子设备,如图3所示,包括处理器310、通信接口320、存储器330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。
存储器330,用于存放计算机程序;
处理器310,用于执行存储器330上所存放的程序时,实现如下步骤:
基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,交易数据包括交易流水号和交易特征数据;
根据目标应用场景的应用需求,对第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
采用不同的特征衍生方法,对第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
将所述第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,对应的客户属性数据史基于相应交易数据中的交易流水号确定。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
具体地,上述存储器330和处理器310能够为通用的存储器和处理器,这里不做具体限定,当处理器310运行存储器330存储的计算机程序时,能够执行上述交易流水数据的特征衍生方法。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
处理器310可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器310中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器310可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器330,处理器310读取存储器330中的信息,结合其硬件完成上述方法的步骤。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
对应于上述交易流水数据的特征衍生方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述交易流水数据的特征衍生方法的步骤。
对应于上述交易流水数据的特征衍生方法,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的交易流水数据的特征衍生方法。
本申请实施例所提供的交易流水数据的特征衍生的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述车辆标记方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种交易流水数据的特征衍生方法,其特征在于,所述方法包括:
基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,所述交易数据包括交易流水号和交易特征数据;
根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
将所述第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,所述对应的客户属性数据史基于相应交易数据中的交易流水号确定。
2.如权利要求1所述的方法,其特征在于,根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集,包括:
根据目标应用场景的应用需求,确定所述目标应用场景下配置的至少一个目标交易特征数据的筛选标准;
获取所述第一交易数据集中满足所述筛选标准的目标交易特征数据对应的交易数据;
基于获取的交易数据构建第二数据集。
3.如权利要求1所述的方法,其特征在于,不同的特征衍生方法,包括:时间切片结合特征表示方法、动态排序结合OneHot编码方法、属性聚合方法以及词袋模型结合关键字判断方法;
所述交易特征数据包括交易时间、资金方向、交易对手、货币种类、交易方式、交易用途、交易渠道和交易备注;
所述采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生包括:
采用时间切片结合特征表示方法,对交易时间数据进行特征衍生;
采用动态排序结合OneHot编码方法,对交易用途数据进行特征衍生;
采用属性聚合方法,对交易对手数据进行特征衍生;
采用词袋模型结合关键字判断方法,对交易备注数据进行特征衍生。
4.如权利要求3所述的方法,其特征在于,采用时间切片结合特征表示的方法,对交易时间数据进行特征衍生,包括:
设定时间切片的粒度,根据所述时间切片的粒度对所述第二交易数据集中各项交易数据进行切片;
按照时间顺序先后对切片后的各项交易数据进行排序,确定对各个切片内的交易数据的变化趋势;
在显示设备上,利用箭头符号显示所述变化趋势。
5.如权利要求3所述的方法,其特征在于,采用动态排序结合OneHot编码的方法,对交易用途数据进行特征衍生,包括:
按照各个交易用途的占比从大到小进行交易数据的排序;
根据目标应用场景的应用条件选择前n项交易用途对应的交易数据进行单列,其余交易用途对应的交易数据归集为一类;其中,n表示不为0的正整数;
采用OneHot编码方法对各个交易数据的交易用途数据进行特征衍生。
6.如权利要求3所述的方法,其特征在于,采用属性聚合的方法,对交易对手数据进行特征衍生,包括:
根据所述第二交易数据集中各项交易数据的交易对手数据对所述各项交易数据进行分类;
根据目标应用场景的应用条件对所述交易对手数据进行属性分析;
根据属性分析结果将交易对手类别不同的交易数据进行部分合并,得到t种交易对手类别不同的交易数据;其中,t为小于10且大于0的整数;
其中,所述交易对手数据包括交易对手的银行账号、银行归属、银行费项。
7.如权利要求3所述的方法,其特征在于,采用词袋模型结合关键字判断的方法,对交易备注数据进行特征衍生,包括:
采用词袋模型根据所述第二交易数据集中的交易备注数据进行第二交易数据集中各项交易数据的归类;其中,交易备注数据为空的交易数据作为一类;
利用关键字判断不同种类的交易备注对应的交易数据的交易目的,根据所述交易目的进行交易数据的衍生。
8.一种交易流水数据的特征衍生装置,其特征在于,所述装置包括:
数据提取单元,用于基于历史交易流水数据中的各项交易数据,构建第一交易数据集;其中,所述交易数据包括交易流水号和交易特征数据;
数据筛选单元,用于根据目标应用场景的应用需求,对所述第一交易数据集中的各项交易数据进行筛选,得到包含筛选后的交易数据的第二交易数据集;
数据衍生单元,用于采用不同的特征衍生方法,对所述第二交易数据集中的各项交易特征数据进行特征衍生,得到包含交易流水号和相应衍生后的交易特征数据的第三交易数据集;
数据拼接单元,用于将所述第三交易数据集中的各项交易数据与对应的客户属性数据进行拼接,得到衍生数据集;其中,所述对应的客户属性数据史基于相应交易数据中的交易流水号确定。
9.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038897.2A CN117076537A (zh) | 2023-08-16 | 2023-08-16 | 一种交易流水数据的特征衍生方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311038897.2A CN117076537A (zh) | 2023-08-16 | 2023-08-16 | 一种交易流水数据的特征衍生方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076537A true CN117076537A (zh) | 2023-11-17 |
Family
ID=88718939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311038897.2A Pending CN117076537A (zh) | 2023-08-16 | 2023-08-16 | 一种交易流水数据的特征衍生方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076537A (zh) |
-
2023
- 2023-08-16 CN CN202311038897.2A patent/CN117076537A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN113383362B (zh) | 用户识别方法及相关产品 | |
CN108427667B (zh) | 一种法律文书的分段方法及装置 | |
CN111027832A (zh) | 一种税务风险确定方法、装置及存储介质 | |
EP3901789A1 (en) | Method and apparatus for outputting information | |
CN110972086A (zh) | 短信息处理方法、装置、电子设备及计算机可读存储介质 | |
CN116089732B (zh) | 基于广告点击数据的用户偏好识别方法及系统 | |
CN115495498B (zh) | 数据关联方法、系统、电子设备及存储介质 | |
CN117076537A (zh) | 一种交易流水数据的特征衍生方法、装置和电子设备 | |
CN115470279A (zh) | 基于企业数据的数源转换方法、装置、设备及介质 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
GB2608112A (en) | System and method for providing media content | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN108664497B (zh) | 数据匹配的方法和装置 | |
CN112632284A (zh) | 用于未标注文本数据集的信息抽取方法及系统 | |
CN111125345A (zh) | 数据应用方法和装置 | |
CN112287186B (zh) | 一种用于城市管理的智能分类方法及其系统 | |
CN113362151B (zh) | 金融业务的数据处理方法、装置、电子设备及存储介质 | |
KR20190100533A (ko) | 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법 | |
CN111259209B (zh) | 基于人工智能的用户意图预测方法、电子装置及存储介质 | |
CN110782342B (zh) | 基于二分类模型验证新渠道特征工程正确性的方法及装置 | |
CN111090744A (zh) | 股市运行风险信息挖掘方法及装置 | |
CN112163088A (zh) | 基于DenseNet的电信网短信用户信息挖掘方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |