CN110415119B - 模型训练、票据交易预测方法、装置、存储介质及设备 - Google Patents

模型训练、票据交易预测方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN110415119B
CN110415119B CN201910694619.XA CN201910694619A CN110415119B CN 110415119 B CN110415119 B CN 110415119B CN 201910694619 A CN201910694619 A CN 201910694619A CN 110415119 B CN110415119 B CN 110415119B
Authority
CN
China
Prior art keywords
data
bill
transaction
historical
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910694619.XA
Other languages
English (en)
Other versions
CN110415119A (zh
Inventor
过军军
赵杰
桑捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910694619.XA priority Critical patent/CN110415119B/zh
Publication of CN110415119A publication Critical patent/CN110415119A/zh
Application granted granted Critical
Publication of CN110415119B publication Critical patent/CN110415119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了模型训练、票据交易预测方法、装置、存储介质及设备。模型训练方法包括:获取票据的历史交易数据、属性数据,预设指标的历史数据;将历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;从预设指标的历史数据中,提取从第一类样本的开票时间至发生目标交易区间内的历史数据,以及从第二类样本的开票时间持续预设时长区间内的历史数据;基于提取出的预设指标的历史数据,构造时间序列特征;根据时间序列特征与票据的历史交易数据、属性数据,生成每个样本的特征数据;将每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。本申请可以提高机器学习模型的预测精度。

Description

模型训练、票据交易预测方法、装置、存储介质及设备
技术领域
本申请涉及机器学习技术领域,特别涉及模型训练、票据交易预测方法、装置、存储介质及设备。
背景技术
随着计算机技术的发展,在预测某个事件发生的概率时,通常会借助机器学习模型来进行预测。在通过机器学习模型对事件进行预测之前,需要预先训练出用于预测该事件的机器学习模型。
在实现本申请过程中,发明人发现在现有技术中至少存在如下问题:
在传统的机器学习模型训练过程中,以逻辑回归为例。预测函数可以由如下函数表示:f(x1,x2,x3,...xi,...xn)=σ(λ1x12x23x3+...+λixi+...+λnxn),其中,x1~xn代表模型的n个特征,λ1~λn代表了模型的权重,σ代表了一个非线性函数,f(x1,x2,x3,...xi,...xn)是模型x1~xn的函数,代表了模型的预测值,可以看出,只要λ1~λn这些权重确定了,模型也就确定了。传统的专家规则会根据专家经验,由人工定义各个特征的权重,导致模型的准确性较差,难以准确地对事件发生的概率进行预测。
发明内容
本申请实施例的目的是提供模型训练、票据交易预测方法、装置、存储介质及设备,以提高机器学习模型的预测精度。
为达到上述目的,本申请实施例提供一种票据交易行为预测模型的训练方法,包括:
获取票据的历史交易数据、属性数据,及预设指标的历史数据;
将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;
从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据;
基于提取出的预设指标的历史数据,构造时间序列特征;
根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
优选的,所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生目标交易的票据。
优选的,所述票据为汇票,所述目标交易为贴现。
优选的,票据交易行为预测模型的训练方法还包括:
在所述获取票据的历史交易数据、属性数据,及预设指标的时间序列之后,对所述票据的历史交易数据、属性数据,及预设指标的时间序列进行数据清洗。
本申请实施例提供一种票据交易行为预测模型的训练装置,包括:
历史数据获取模块,用于获取票据的历史交易数据、属性数据,及预设指标的历史数据;
样本类别标记模块,用于将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;
数据提取模块,用于从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据;
时间序列特征构造模块,用于基于提取出的预设指标的历史数据,构造时间序列特征;
特征数据生成模块,用于根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
预测模型生成模块,用于将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
本申请实施例还提供一种票据交易行为的预测方法,包括:
获取待预测票据的交易数据、属性数据,及预设指标的历史数据;
根据所述待预测票据的交易数据、属性数据,及预设指标的历史数据,生成所述待预测票据的特征数据;
调用预测模型;
将所述待预测票据的特征数据输入所述预测模型,获得在所述开票时间后的预设时长内,所述待预测票据发生目标交易的概率;
其中,所述预测模型预先通过以下方式获得:
获取票据的历史交易数据、属性数据,及预设指标的历史数据;
将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;
从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据;
基于提取出的预设指标的历史数据,构造时间序列特征;
根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
本申请实施例还提供一种票据交易行为的预测装置,包括:
待预测票据数据获取模块,用于获取待预测票据的交易数据、属性数据,及预设指标的历史数据;
待预测票据的特征数据生成模块,用于根据所述待预测票据的交易数据、属性数据,及预设指标在所述待遇测票据开票时间后的历史数据,生成所述待预测票据的特征数据;
预测模型调用模块,用于从模型训练装置调用预测模型;
预测结果获取模块,用于将所述待预测票据的特征数据输入所述预测模型,获得在所述开票时间后的预设时长内,所述待预测票据发生目标交易的概率;
其中,所述模型训练装置包括:
历史数据获取模块,用于获取票据的历史交易数据、属性数据,及预设指标的历史数据;
样本类别标记模块,用于将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;
数据提取模块,用于从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据;
时间序列特征构造模块,用于基于提取出的预设指标的历史数据,构造时间序列特征;
特征数据生成模块,用于根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
预测模型生成模块,用于将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
本申请实施例提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时可以实现上述方法的步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。
由以上本申请实施例提供的技术方案可见,本申请实施例中,通过将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;分别从所述预设指标的历史数据中提取对应的数据,并构造时间序列特征,再根据每个样本的属性数据和时间序列特征,生成特征数据,最终将每个样本的特征数据及样本类别标记输入预设机器学习模型中进行训练,得到票据交易行为预测模型,从而使机器学习模型自动获取特征权重,避免由人工定义特征权重;此外,业务数据库还可以将带有标记的增量数据传输到模型训练系统,供预测模型更新迭代使用,以持续地更新预测模型的权重,从而进一步提高了预测模型的预测精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的票据交易行为预测模型的训练方法的流程图;
图2是本申请实施例提供的样本的特征数据的生成方法示意图;
图3是本申请实施例提供的票据交易行为预测模型的训练装置的模块结构示意图;
图4是本申请实施例提供的票据交易行为的预测方法的流程图;
图5是本申请实施例提供的票据交易行为的预测装置的模块结构示意图;
图6是本申请实施例提供的系统框架图;
图7是本申请实施例提供的计算机设备的示意图。
具体实施方式
本申请实施方式提供一种模型训练、票据交易预测方法、装置、存储介质及设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都应当属于本申请保护的范围。
在金融领域中,票据是指出票人依法签发的由自己或者指示他人无条件支付一定金额给收款人的有价证券,在达到票据的兑换日期时,持票人可以到出票人处兑换指定金额的资金。但在现实情况中,持票人经常由于资金压力,在还未到达兑换日期时就急需一定的资金,因此,持票人往往会采取将票据交银行贴现以筹措资金,银行将票据的到期价值,扣除按照贴现利率计算的从贴现日至到期日的利息(贴现折价)后的余款付给持票人。由上述介绍可知,票据业务对拓宽企业融资渠道和缓解中小企业融资难问题,发挥着重要而积极的作用,可以拓宽企业融资渠道,缓解中小企业融资难的问题,同时,发展票据业务已成为商业银行调整资产结构,改善金融服务,提高竞争力的重要手段。但是,确定持有票据的客户有贴现需求,往往依靠从业人员的经验以及各种交易渠道,难以精确地识别客户的票据贴现需求,因此,亟需一种精准预测票据客户是否有贴现需要的方法。
本申请所提供的票据交易行为预测模型的训练方法可以得到用于预测客户贴现需求的预测模型,利用该预测模型可以获得用户在开票后的预设时长内进行贴现的概率,参考图1所示,本申请实施方式的模型训练方法可以包括如下步骤:
S101:获取票据的历史交易数据、属性数据,及预设指标的历史数据。
预设指标的历史数据可以是按照时间发生先后顺序进行排列的历史数据序列,通常一个指标的历史数据序列的时间间隔为一恒定值,因此,可以作为离散时间数据进行分析处理。预设指标可以包括金融资金市场指标数据,具体的,可以包括:中证指数800、沪深300、中国A股WIND行业指数日行情、中国债券指数日行情、隔夜银行间拆借利率shibor、hibor、libor、利率互换收益率、银行间本币货币市场日行情、中国商品期货日行情(选取钢铁等大宗商品)、中国黄金现货日行情、外汇市场汇率(选取主要货币交易利率)等信息。
历史数据不限定开始时间,自有数据起即可,例如,可以设置为5年内的历史数据;历史数据的结束时间是贴现之后,或者票据到期之后。历史数据的产生对象包括票据(时间在票据有效区间内)和持票人(时间不限制开始时间,到票据贴现或者票据到期承兑之后)
票据的历史交易数据可以包括:票号、交易日期、票据种类、票据形态、金额、承兑日期、到期日、出票人、出票人开户行、承兑人、付息人、付息人开户行、付息人账号、收款人、收款人账号、买入返售到期日、计算到期日、直贴利率、买入利息、计息天数等信息。
票据的属性信息可以包括:客户名称、持票人经济性质、持票人信用等级、持票人融资投向、付息方式、持票人所属行业、持票人的交易次数等信息。
在一些实施方式中,获取的数据往往存在各种问题,特别是脏数据。而数据清洗则是发现并纠正数据文件中可识别错误的一道程序,实际应用中,可以采用一些数学统计工具,数据可视化工具增强对数据的全貌的了解,修正一些数据中明显的错误,去掉数据中的无效值和缺失值。
例如,一些地名信息,“上海”和“上海市”这两个名词,其意义一致,但是表示方式是不同的字符,为了保证信息的一致性,可以将其统一为两个词中的任意一个。同理,公司名称也有类似的情况,名称缩写可以统一成一个保持数据的一致性。另外,由于有时间序列数据或历史快照信息,需要过滤掉生效时间相同,但是失效时间更晚的样本,这些样本可以定义为噪声或者脏数据。除此之外,表结构定义中,有时会存在冗余的字段,比如是否生效字段,此时需要将其舍弃。
S102:将历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本。
在一些实施方式中,所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生第二交易的票据;其中,该目标交易包括贴现。
S103:从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据。
时间 上证指数
…… ……
2019年6月26日 2976.28
2019年6月27日 2996.79
2019年6月28日 2978.88
2019年7月1日 3044.90
2019年7月2日 3043.94
2019年7月3日 3015.26
…… ……
表1
在一个具体的实施方式中,表1为上证指数的部分数据,若某个第一类样本的开票时间为2019年6月6日,贴现的时间为2019年7月1日,则提取上证指数(预设指标)从6月6日至7月1日的数据。
S104:基于提取出的预设指标的历史数据,构造时间序列特征。
在一些实施方式中,参考图2所示,提取出的预设指标的历史数据无法直接作为样本的特征,还需要利用特征工程对数据进行加工,将机器学习模型无法直接学习或者难以学习的信息构造出来,通常可以在样本的列上扩充,构造新的特征列,例如,通过表1的数据,构造上证指数最近1天、7天、15天的最高值、最低值、增长率等,从而得到时间序列特征,参考下面的表2所示:
Figure BDA0002148981870000071
表2
在一些实施方式中,还可以根据持票人的交易次数构造时间序列特征。例如,可以提取持票人最近1天的交易次数,最近3天的交易次数,最近7天的交易次数,最近2个星期的交易金额,最近一个月的交易总金额等特征。
在一些实施方式中,还可以根据中国商品期货行情来构造时间序列特征。例如,可以提取最近1、3、7、15、30、120、180、270、365天等时间段的最高值、最低值、增长率、波动的幅度等信息,从而得到9x4=36个时间序列特征。
在一些实施方式中,还可以根据持票人的持票数量构造时间序列特征。例如,可以提取持票人最近1、3、7、15、30、120、180、270、365天等时间段的最高持票量、最低持票量、持票数量增长率、持票数量波动的幅度、票面最高金额、票面最低金额、票面总金额、票面平均金额等信息,从而得到9x8=72个时间序列特征。
S105:根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据。
在一个具体的实施例中,以持票人名称为例:根据票据从业人员的经验,当持票人企业名称含有某些字段,客户的贴现需求的可能性会更大。将企业名称进行中文分词拆分。将拆分得到的词,分别构成特征。
在一些实施方式中,还可以将多个特征的值相乘形成组合特征,进而得到各个特征对应的数据。将得到的各个特征对应的数据,构成输入向量,输入预设机器学习模型中。
最终生成的特征涵盖市场(历史票据融资业务市场、利率市场及周边市场)、信用(交易对手,包括企业和银行同业、承兑行)、流动性(企业融资情况等企业资金流动性、利率市场波动等资金市场流动性)等内容,包括:持票人的交易日期拆分值、持票人多段时间的交易次数、持票人贴现价格的最大值,最小值,平均值等、交易对手的经济成分,注册资本、客户行业代码、客户资产余额、客户负债余额、隔夜银行间拆借利率shibor、hibor、libor、中国商品期货行情、中证指数大宗(钢期货、黄金期货)等的日,周,月,季,年等变化率、承兑行、票面金额、企业行业、企业地域、企业规模、出票人、票面余期、是否参与其它票据其它产品、企业注册资本、企业评级、参与其它票据其它产品交易总额、参与其它票据产品交易次数等。
下面举一个具体的例子,如下面的表3所示,共有4个样本,样本特征包括持票人名称、持票人信用等级、中证指数变化率、汇率的变化率,具体数据如下:
Figure BDA0002148981870000081
表3
S106:将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
在一些实施方式中,可以将第一类样本的样本作为正样本,并将类别标记设为1,将第二类样本作为负样本,并将样本类别标记设为0。
在进行模型训练之前,还需要将数据集拆分成训练集、测试集、验证集等,根据实际情况决定是否需要验证集。可以采用传统的留出法将数据进行拆分,拆分比例可以设置为1:9、2:8等,在拆分后具有随机性以保证样本标签结构与原始数据中的结构比例一致。如果存在正负样本不均匀现象,可以使用重采样的具体方法。
预设机器学习模型可以为逻辑回归、随机森林、贝叶斯、XGBoost、深度神经网络等算法,对此本申请不作限定。
在模型训练完毕后,利用所述测试集对所述预测模型进行验证,获得多个模型指标;并根据所述模型指标,对所述预测模型中的超参数进行调整。其中,模型指标可以是模型的AUC曲线、查全率、查准率等表现模型质量的指标,以得到模型的泛化能力。
以下介绍本申请实施例提供的票据交易行为预测模型的训练装置,如图3所示为本申请实施例提供的票据交易行为预测模型的训练装置的模块结构示意图,该装置包括:
历史数据获取模块311,用于获取票据的历史交易数据、属性数据,及预设指标的历史数据;
样本类别标记模块312,用于将所述历史交易数据中的第一类票据和第二类票据分别标记为第一类样本和第二类样本;
数据提取模块313,用于从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续所述预设时长区间内的历史数据;
时间序列特征构造模块314,用于基于提取出的预设指标的历史数据,构造时间序列特征;
特征数据生成模块315,用于根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
预测模型生成模块316,用于将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
参考图4所示,本申请实施方式的票据交易行为的预测方法可以包括如下步骤:
S201:获取待预测票据的交易数据、属性数据,及预设指标的历史数据。
S202:根据所述待预测票据的交易数据、属性数据,及预设指标在所述待遇测票据开票时间后的历史数据,生成所述待预测票据的特征数据。
S203:调用预测模型。
该预测模型由上述票据交易行为预测模型的训练方法得到。
S204:将所述待预测票据的特征数据输入所述预测模型,获得在所述开票时间后的预设时长内,所述待预测票据发生目标交易的概率。
预测数据的信息维度与训练和测试的数据维度一致,最终输出的每一个样本都会预测出来一个0~1之间的打分,打分值为该模型预测的概率值,值越大的,代表持票人可能的贴现意愿越大。在实际应用中,还可以根据准确度和实际需要的查全率和查准率指标,自定义一个值。以该阈值为0.5为例:对任意样本,若该值大于阈值0.5时,预测为有贴现需求;样本预测值小于0.5,则预测该样本为没有贴现意愿。把被预测为有贴现意愿的客户生成一个列表,作为该批数据模型输出的结果。
经过模型的训练和调优,得到了一个在测试集和训练集都表现较好的模型。此时就可以投放模型了。模型的投放调用方法不是确定的,可以是每日将数据送入模型内,进行批量预估,再存入数据库中;也可以是通过网络API接口调用模型,进行预估。用户需要通过终端操作就可以预知有哪一些有贴现需求的客户。终端可以但不仅限于web界面和可执行程序界面。
在测试集和训练集的数据不一定就能代表全部的数据。同时,票据系统的运行势必会带来新的情况,新的样本,这些新的样本和新的情况随着时间不断变化。这就势必需要使用新的模型,而此时,就需要将新的数据再次采集,再次迭代更新训练新的模型,以保持模型学习最新的情况、适应最新的形势。
参考图5所示,为本申请实施方式的票据交易行为的预测装置的模块结构示意图,该装置包括:
待预测票据数据获取模块411,用于获取待预测票据的交易数据、属性数据,及预设指标的历史数据。
待预测票据的特征数据生成模块412,用于根据所述待预测票据的交易数据、属性数据,及预设指标在所述待遇测票据开票时间后的历史数据,生成所述待预测票据的特征数据。
预测模型调用模块413,用于从模型训练装置调用预测模型。
预测结果获取模块414,用于将所述待预测票据的特征数据输入所述预测模型,获得在所述开票时间后的预设时长内,所述待预测票据发生目标交易的概率
参考图6所示,为本申请实施方式提供的系统框架图,具体的,可以包括模型训练系统与业务系统。
模型训练系统可以包括数据湖、数据加工节点以及机器学习平台。
数据湖:数据湖是各类数据的集合,用户可以对数据湖中的数据进行加工。数据湖可以是一个Hadoop分布式的数据库,使用该分布式数据库有利于提高数据的吞吐量,也提高了数据的可靠性。
数据加工节点:数据加工节点提供了处理数据的软件工具,硬件设备。数据加工节点对数据的处理方式包括Hive sql脚本、spark程序,将数据湖中的数据使用批量调度程序,调用shell脚本或者hive sql或者spark将数据湖中的数据进行数据加工,并将加工好的数据存储在数据湖的自建目录中,传输到机器学习平台进行批量模型的训练。
机器学习平台:负责对数据进行预处理、特征提取和模型训练等,提供了数据到模型到调用的全部流程软件和硬件设备。
业务系统可以产生待预测数据,并通过机器学习平台API接口实时调用预测模型对所述待预测数据进行预测,当然,也可以通过批量调度的方式进行批量预测。业务数据库可以存储机器学习平台传输的预测数据,并且业务系统可以调用业务数据库中的预测数据,并通过网络接口、web服务和网络传输设备等方式,将预测数据展现在用户终端或APP中。此外,业务数据库还可以将带有标记的新增数据传输到模型训练系统的数据湖中,供预测模型更新迭代使用。
如图7所示,本申请实施方式还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的装置、模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。该计算机软件产品可以包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。该计算机软件产品可以存储在内存中,内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括短暂电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (10)

1.一种票据交易行为预测模型的训练方法,其特征在于,包括:
获取票据的历史交易数据、属性数据,及预设指标的历史数据;
将所述历史交易数据中的第一类票据标记为第一类样本,并将所述历史交易数据中的第二类票据标记为第二类样本;
从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续预设时长区间内的历史数据;所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生目标交易的票据;
基于提取出的预设指标的历史数据,构造时间序列特征;
根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
2.根据权利要求1所述的方法,其特征在于,所述票据为汇票,所述目标交易为贴现。
3.根据权利要求1所述的方法,其特征在于,还包括:
在所述获取票据的历史交易数据、属性数据,及预设指标的时间序列之后,对所述票据的历史交易数据、属性数据,及预设指标的时间序列进行数据清洗。
4.一种票据交易行为预测模型的训练装置,其特征在于,包括:
历史数据获取模块,用于获取票据的历史交易数据、属性数据,及预设指标的历史数据;
样本类别标记模块,用于将所述历史交易数据中的第一类票据标记为第一类样本,并将所述历史交易数据中的第二类票据标记为第二类样本;所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生目标交易的票据;
数据提取模块,用于从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续预设时长区间内的历史数据;
时间序列特征构造模块,用于基于提取出的预设指标的历史数据,构造时间序列特征;
特征数据生成模块,用于根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
预测模型生成模块,用于将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
5.一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至3中任一项所述方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至3中任一项所述方法的步骤。
7.一种票据交易行为的预测方法,其特征在于,包括:
获取待预测票据的交易数据、属性数据,及预设指标的历史数据;
根据所述待预测票据的交易数据、属性数据,及预设指标的历史数据,生成所述待预测票据的特征数据;
调用预测模型;
将所述待预测票据的特征数据输入所述预测模型,获得在开票时间后的预设时长内,所述待预测票据发生目标交易的概率;
其中,所述预测模型预先通过以下方式获得:
获取票据的历史交易数据、属性数据,及预设指标的历史数据;
将所述历史交易数据中的第一类票据标记为第一类样本,并将所述历史交易数据中的第二类票据标记为第二类样本;所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生目标交易的票据;
从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续预设时长区间内的历史数据;
基于提取出的预设指标的历史数据,构造时间序列特征;
根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
8.一种票据交易行为的预测装置,其特征在于,包括:
待预测票据数据获取模块,用于获取待预测票据的交易数据、属性数据,及预设指标的历史数据;
待预测票据的特征数据生成模块,用于根据所述待预测票据的交易数据、属性数据,及预设指标的历史数据,生成所述待预测票据的特征数据;
预测模型调用模块,用于从模型训练装置调用预测模型;
预测结果获取模块,用于将所述待预测票据的特征数据输入所述预测模型,获得在开票时间后的预设时长内,所述待预测票据发生目标交易的概率;
其中,所述模型训练装置包括:
历史数据获取模块,用于获取票据的历史交易数据、属性数据,及预设指标的历史数据;
样本类别标记模块,用于将所述历史交易数据中的第一类票据标记为第一类样本,并将所述历史交易数据中的第二类票据标记为第二类样本;所述第一类样本包括:开票时间与发生目标交易的交易时间的差值未超出预设时长的票据;所述第二类样本包括:开票时间与发生目标交易的交易时间的差值超出预设时长的票据,及未发生目标交易的票据;
数据提取模块,用于从所述预设指标的历史数据中,提取从所述第一类样本的开票时间至发生目标交易区间内的历史数据,以及从所述第二类样本的开票时间持续预设时长区间内的历史数据;
时间序列特征构造模块,用于基于提取出的预设指标的历史数据,构造时间序列特征;
特征数据生成模块,用于根据时间序列特征与所述票据的历史交易数据、属性数据,生成每个样本的特征数据;
预测模型生成模块,用于将所述每个样本的特征数据及样本类别标记输入预设机器学习算法中进行训练,得到票据交易行为预测模型。
9.一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求7中所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求7中所述方法的步骤。
CN201910694619.XA 2019-07-30 2019-07-30 模型训练、票据交易预测方法、装置、存储介质及设备 Active CN110415119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910694619.XA CN110415119B (zh) 2019-07-30 2019-07-30 模型训练、票据交易预测方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910694619.XA CN110415119B (zh) 2019-07-30 2019-07-30 模型训练、票据交易预测方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN110415119A CN110415119A (zh) 2019-11-05
CN110415119B true CN110415119B (zh) 2022-03-25

Family

ID=68364075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910694619.XA Active CN110415119B (zh) 2019-07-30 2019-07-30 模型训练、票据交易预测方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN110415119B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178219A (zh) * 2019-12-24 2020-05-19 泰康保险集团股份有限公司 票据识别管理方法、装置、存储介质及电子设备
CN113052358A (zh) * 2019-12-28 2021-06-29 南方电网科学研究院有限责任公司 一种专利交易预测方法及系统、专利交易平台
CN111429242B (zh) * 2020-03-18 2023-04-28 中国工商银行股份有限公司 转贴现票据组合推送方法及装置
CN111581242A (zh) * 2020-04-30 2020-08-25 北京贝禾无忧科技有限公司 识别企业票据用途的方法和系统
CN111709532B (zh) * 2020-05-26 2023-09-22 重庆大学 基于与模型无关局部解释的在线购物代表性样本选择系统
CN111709825B (zh) * 2020-06-10 2023-09-08 中国工商银行股份有限公司 异常产品识别方法及系统
CN111798274B (zh) * 2020-07-03 2022-01-11 中国烟草总公司湖南省公司 零售户识别方法、终端及可读存储介质
CN111860865B (zh) * 2020-07-23 2022-07-19 中国工商银行股份有限公司 模型构建和分析的方法、装置、电子设备和介质
CN111967395A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 银行票据识别方法及装置
CN112348261A (zh) * 2020-11-09 2021-02-09 招商银行股份有限公司 一种交易量预测方法、设备、装置及存储介质
CN112633916A (zh) * 2020-12-09 2021-04-09 深圳前海微众银行股份有限公司 一种需求预测方法及装置、设备、存储介质
CN113643115A (zh) * 2021-08-19 2021-11-12 四川川投云链科技有限公司 基于期权定价模型的商业承兑汇票信用评分方法及系统
CN113807403B (zh) * 2021-08-23 2023-06-16 网易(杭州)网络有限公司 模型训练的方法、装置、计算机设备及存储介质
CN114491168B (zh) * 2022-01-27 2022-12-13 中国电力科学研究院有限公司 调控云样本数据共享方法、系统、计算机设备及存储介质
CN116959696B (zh) * 2023-09-20 2023-12-08 武汉光盾科技有限公司 一种基于激光治疗仪的数据处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976247A (zh) * 2016-04-29 2016-09-28 上海顺陆金融信息服务有限公司 一种基于b2b的金融票据交易信息撮合平台
CN106845681A (zh) * 2016-12-21 2017-06-13 广东工业大学 一种应用深度学习技术的股票趋势预测方法
CN108376301A (zh) * 2018-04-03 2018-08-07 平安科技(深圳)有限公司 股票走势预测装置、方法及可读存储介质
CN109360097A (zh) * 2018-09-28 2019-02-19 中山大学 基于深度学习的股票预测方法、装置、设备及存储介质
CN109426891A (zh) * 2018-05-31 2019-03-05 国信优易数据有限公司 一种高送转电子金融产品的预测系统及方法
CN109584045A (zh) * 2018-11-19 2019-04-05 平安科技(深圳)有限公司 授信额度配置方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161762A1 (en) * 2015-12-08 2017-06-08 Formula Technologies, Inc. Financial Monitoring and Forecasting Systems and Methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976247A (zh) * 2016-04-29 2016-09-28 上海顺陆金融信息服务有限公司 一种基于b2b的金融票据交易信息撮合平台
CN106845681A (zh) * 2016-12-21 2017-06-13 广东工业大学 一种应用深度学习技术的股票趋势预测方法
CN108376301A (zh) * 2018-04-03 2018-08-07 平安科技(深圳)有限公司 股票走势预测装置、方法及可读存储介质
CN109426891A (zh) * 2018-05-31 2019-03-05 国信优易数据有限公司 一种高送转电子金融产品的预测系统及方法
CN109360097A (zh) * 2018-09-28 2019-02-19 中山大学 基于深度学习的股票预测方法、装置、设备及存储介质
CN109584045A (zh) * 2018-11-19 2019-04-05 平安科技(深圳)有限公司 授信额度配置方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
浅析票据转贴现利率变动及其风险防范;熊远等;《四川农业大学学报》;20070615(第02期);第154-159页 *
银行承兑汇票业务运营风险特征及应对策略;熊建刚等;《中国金融电脑》;20150507(第05期);第74-78页 *

Also Published As

Publication number Publication date
CN110415119A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110415119B (zh) 模型训练、票据交易预测方法、装置、存储介质及设备
Florysiak et al. The information content of ico white papers
Green Economic news and the impact of trading on bond prices
US8706599B1 (en) System and method of generating investment criteria for an investment vehicle that includes a pool of escrow deposits from a plurality of merger and acquisition transactions
Onan et al. Impact of macroeconomic announcements on implied volatility slope of SPX options and VIX
CN106910129B (zh) 资产数据的处理方法、客户端及服务器
US20230206333A1 (en) Systems and methods for measurement of data to provide decision support
Myšková et al. The effect of managerial sentiment on market-to-book ratio
Barone-Adesi et al. Estimating the joint tail risk under the filtered historical simulation: An application to the CCP’s default and waterfall fund
JP6794431B2 (ja) 当初証拠金標準モデルに基づいて当初証拠金を計算及び提供する方法及びシステム
Liu et al. The productivity effect of digital financial reporting
Tran Uncertainty and Investment: Evidence from A ustralian Firm Panel Data
US8468080B2 (en) System and method for administering invested funds
Gruszczyński et al. Modeling financial distress and bankruptcy
Boubaker et al. The trade-off frontier for ESG and Sharpe ratio: a bootstrapped double-frontier data envelopment analysis
Hurcan et al. How to Set Up A Cash Buffer: A Practical Guide to Developing and Implementing a Cash Buffer Policy
Gallagher et al. Style factor timing: An application to the portfolio holdings of US fund managers
KR20210004786A (ko) 파생금융상품 매매시스템 및 파생금융상품 매매시스템에서 헤지수량을 계산하는 방법
Ramaube The profitability of technical analysis during volatile periods in the South African Financial Markets
US20230117941A1 (en) System and Process For Tracking Liquidity Pool Tokens
Ruttiens Decision Making with Quantitative Financial Market Data: Applications, Precautions and Pitfalls
Zou Exploring whether ROA has a positive impact on the stock price of clothing companies
Dolati et al. ICOs Underpricing
Zhou et al. How Much Can Machines Learn Finance From Chinese Text Data?
Mareeswaran et al. New methods of structural break detection and an ensemble approach to analyse exchange rate volatility of Indian rupee during coronavirus pandemic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant