发明内容
有鉴于此,本申请提供一种业务数据处理方法、装置和系统,可以解决现有的业务数据处理效率低的问题。
为了解决上述技术问题,本申请第一方面提供一种业务数据处理方法,包括:
根据输入的待处理业务,获取所述待处理业务的元数据;
根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;
根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
可选地,所述的方法还包括:
检测每一个输入业务的元数据,建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
检测每一个输入业务在业务处理过程中实际使用的各指标数据,建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
可选地,所述的方法还包括:
将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;
将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
可选地,所述的方法还包括:
将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
本申请第二方面提供一种业务数据处理装置,包括:
确定模块,用于根据输入的待处理业务,获取所述待处理业务的元数据;根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
预处理模块,用于根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
业务处理模块,用于根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
可选地,所述的装置还包括:
检测模块,用于检测每一个输入业务的元数据;
建立模块,用于建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
所述检测模块,还用于检测每一个输入业务在业务处理过程中实际使用的各指标数据;
所述建立模块,还用于建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
可选地,所述的装置还包括:
聚类分析模块,用于将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
可选地,所述的装置还包括:
保存模块,用于将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
本申请第三方面提供一种业务数据处理系统,包括:业务系统和模型训练平台;所述业务系统包括元数据快照模块和数据统计模块;
其中,元数据快照模块用于获取每一次业务输入的元数据;
数据统计模块用于检测每一次业务输入对应的决策实际使用的指标数据;
其中,模型训练平台包括数据整合模块、聚类分析建模模块和准实时回流模块;
数据整合模块用于将元数据快照模块获取的元数据和数据统计模块检测的实际使用的指标数据进行数据整合;
聚类分析建模模块用于将数据整合模块整合后的数据进行聚类分析计算,得到业务的元数据类型以及对应的指标数据集合;
准实时回流模块用于将聚类分析建模中得到业务的元数据类型以及对应的指标数据集合通过发送给业务系统对输入的待处理业务匹配指标数据集合,并预先计算指标数据集合的各指标数据,从而利用预先计算的各指标数据进行业务决策的输出,并根据业务决策进行业务处理。
其中,所述业务系统还包括业务输入模块、预处理计算模块、业务决策引擎模块、决策输出模块;
所述业务输入模块,用于输入待处理业务;
所述预处理计算模块,用于对所述准实时回流模块发送的聚类分析建模分析得到的业务的元数据类型以及对应的指标数据集合,对所述待处理业务匹配指标数据集合,并预先计算指标数据集合中的各指标数据;
所述业务决策引擎模块,用于直接利用所述预处理计算模块预先计算的各指标数据对所述待处理业务进行业务决策;
所述决策输出模块,用于根据所述业务决策引擎模块的业务决策进行业务决策的输出和处理。
本发明实施例中采用对业务元数据库和指标数据库进行聚类分析,将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合,从而在待处理业务输入时,可以直接根据待处理业务的元数据类型直接匹配到对应的指标数据集合,只需要计算指标数据集合中的各指标数据,不用计算所有的指标数据,通过减少指标数据量提高指标数据的计算效率,从而可以提高整个业务处理的效率。
进一步地,本发明实施例能自动根据线上实际使用情况会动态调整元数据的分类以及对应的指标数据集合,从而能实现随着业务的变化而持续的保持业务元数据的分类以及对应的指标数据集合的最优性能。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在现有技术中,一般使用工作流/规则引擎等的业务系统,对数据计算进行预处理主要是基于常规的数据统计。一般而言,一个业务来,基于规则引擎/工作流的业务会通过决策树/工作流等得出不同的业务决策,图1为一种决策树/工作流的示意图,如图1所示,一个业务过来,最古老的方式是没有预处理计算的,那么整个系统运行就是串行执行,如A决策过程就需要一次串行计算a、c、e、i指标,B决策就需要依次串行a、b、d、h指标,那么随着决策路径加长,那么整个决策过程的计算耗时就非常大。
现有的预处理方案就是:在业务来之前,并发的提前计算完这个业务所有可能用到的指标,如图1所示的就是a-l这12个指标,这样在决策过程中只需要做简单指标比对即可得到业务决策,同时保证了系统性能。但随着带来的就是带来了大量的数据指标计算浪费,实际一次决策真正使用的指标可能就只有4个。
而现有的优化方法就是,每次业务来后,统计每次指标的使用情况,当指标的使用概率大于设定的阈值后,才能加入到预处理计算中,这样就只是把使用概率较大的指标进行提前的预处理并发计算,减少数据指标的计算浪费。尽管使用统计的方式提升了预处理的效能,但是实际上因为只是基于较大场景的统计,还是会产生一定的计算浪费。
本发明的技术方案就是利用数据分析建模的方式自动聚类,把相似的计算归类聚合,自动的把一个大场景按照线上使用情况拆分成多个细分小场景,让计算资源达到更优化,能有效的提升计算利用效率和计算效能。
本发明下文中采用的技术术语:
指标数据是指参与业务计算或者业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额等参数;例如:用户一段时间手机支付频率,手机支付所在区域,本次涉及的交易金额等。
元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,其中,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付等参数;所述元数据类型包括所述元数据的具体值的不同组合,以现在的一笔业务为例:用户的支付渠道(网银、快捷),环境信息(PC,无线),业务类型(缴费、充值、当面付)等都作为元数据的具体值进行输入,而通过这些元数据的具体值可以得到不同的组合的元数据类型,如:网银+PC+充值、快捷+无线+缴费等。
图2为本发明实施例提供的一种业务数据处理方法的流程图;如图2所示,包括:
201、根据输入的待处理业务,确定与所述待处理业务匹配的指标数据集合;
其中,所述指标数据集合中包括所述待处理业务需要计算的各指标数据的标识;
图3为本发明图2所示实施例中步骤201的具体实现方法的流程图,如图3所示,具体包括:
2010、检测每一个输入业务的元数据,建立业务的元数据库;
其中,每一个输入业务的元数据为每一个输入业务的相关信息,例如包括用户的操作环境,进行的业务来源,操作的相关信息等;
本发明实施例中,对每一个处理的业务都可以检测到该业务的元数据,并将该业务的元数据保存到建立的业务元数据库中与该业务标识对应的元数据表项中。其中,所述元数据库中包括每一个输入业务的标识与元数据之间的对应关系,如表1所示:
业务标识 |
元数据 |
业务1 |
元数据1 |
业务2 |
元数据2 |
业务3 |
元数据3 |
本发明实施例的元数据库的表现形式不限于上述表1所示的举例。
2011、检测每一个输入业务在业务处理过程中实际使用的各指标数据,建立业务的实际使用指标数据库;
本发明实施例中,对每一个处理的业务都可以检测到该业务处理过程中实际使用的指标数据的标识,并将检测到的该业务处理过程中实际使用的指标数据的标识保存到建立的实际使用指标数据库;如图1所示的决策树/工作流的示意图,假设检测到某一个业务处理过程中使用决策A,决策A对应的指标数据的标识包括a、c、e、i标识,则该业务处理过程中实际使用的指标数据的标识为a、c、e、i,将实际使用的指标数据的标识为a、c、e、i保存到实际使用指标数据库;
其中,所述实际使用指标数据库中包括每一个输入业务的标识与实际使用的各指标数据的标识之间的对应关系;如表2所示:
业务标识 |
实际使用的指标数据的标识 |
业务1 |
业务1实际使用的指标数据的标识 |
业务2 |
业务2实际使用的指标数据的标识 |
业务3 |
业务3实际使用的指标数据的标识 |
以线下扫码支付的业务来举例,第一笔支付,用户使用的是ios手机,在联华超市支付,整个业务决策的时候使用到了a、b、c标识对应的指标数据,第二笔支付,用户使用的是三星的android手机,在喜士多支付,整个业务决策的时候使用到了a、b、g、f标识对应的指标数据,第三笔支付,是用户阿姨奶茶店,使用魅族手机通过扫码转账支付,整个业务决策的时候使用了a、g、h、i标识对应的指标数据。因此,就线下扫码支付的业务来说,实际使用的指标数据的可能包括a、b、c,也可能包括a、b、g、f,也可能包括a、g、h、i,因此,需要将每一次的线下扫码支付的业务实际使用的指标数据的标识都保存在建立的指标数据库中,且与线下扫码支付的业务标识相对应。
本发明实施例的指标数据库的表现形式不限于上述表2所示的举例。
2012、将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联聚类分析;
本发明实施例中采用的聚类分析,是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
本发明对聚类分析算法的具体显示方式不做任何限定,本发明所要保护的是采用聚类分析算法将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据的标识进行关联聚类分析得到业务的元数据类型以及对应的指标数据集合。
2013、将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合;
本发明实施例中预设有指标数据的使用概率相近的阈值,假设第一个输入业务和第二个输入业务使用相同的指标数据的概率为85%,大于预设的阈值,则可以认为第一个输入业务和第二个输入业务为相同类型的业务,进一步可以对第一个输入业务和第二个输入业务的元数据进行聚类,得到该类业务的元数据类型,并得到对应的指标数据集合。如表3所示:
元数据类型 |
指标数据集合 |
元数据类型1 |
a、b、c、 |
元数据类型2 |
d、f、g |
元数据类型3 |
h、i、j |
本发明实施例的元数据类型以及对应的指标数据集合的表现形式不限于上述表3所示的举例。
2014、根据输入的待处理业务,获取所述待处理业务的元数据;
2015、根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型,并根据所述元数据类型确定对应的指标数据集合。
基于上述步骤2013中得到的业务的元数据类型与指标数据集合之间的对应关系,根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型,并根据所述元数据类型确定对应的指标数据集合。
202、根据所述指标数据集合中的各指标数据,预计算各指标数据;
203、根据预计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
在实际应用中,业务的种类很多,业务的元数据也很多,为了在提高业务数据处理的效率同时,提高业务处理的正确性,本发明实施例中,步骤203之后,还包括:
将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据的标识,并保存到所述实际使用指标数据库中;之后,重新对更新后的元数据库和指标数据库进行关联聚类分析,从而实现可以不断地动态调整业务的元数据类型以及对应的指标数据集合。
本发明实施例中采用对业务元数据库和指标数据库进行聚类分析,将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合,从而在待处理业务输入时,可以直接根据待处理业务的元数据类型直接匹配到对应的指标数据集合,只需要计算指标数据集合中的各指标数据,不用计算所有的指标数据,通过减少指标数据量提高指标数据的计算效率,从而可以提高整个业务处理的效率。
进一步地,本发明实施例能自动根据线上实际使用情况会动态调整元数据的分类以及对应的指标数据集合,从而能实现随着业务的变化而持续的保持业务元数据的分类以及对应的指标数据集合的最优性能。
图4为本发明实施例提供的一种业务数据处理系统的架构图;如图4所示,包括业务系统和模型训练平台,其中,业务系统包括业务输入模块、预处理计算模块、业务决策引擎模块和决策输出模块,还包括元数据快照模块和数据统计模块;其中,业务输入模块用于输入待处理的业务;元数据快照模块用于获取每一次业务输入的元数据;数据统计模块用于检测每一次业务输入对应的决策实际使用的指标数据的标识;
将元数据快照模块获取的元数据和数据统计模块检测的实际使用的指标数据的标识发送到模型训练平台中数据整合模块进行数据整合,将整合后的数据发送到聚类分析建模模块中进行聚类分析计算,在聚类分析建模中得到业务的元数据类型以及对应的指标数据集合;将聚类分析建模中得到业务的元数据类型以及对应的指标数据集合通过准实时回流模块发送给预处理计算模块对输入的待处理业务匹配指标数据集合,并预先计算指标数据集合的各指标数据,从而在业务决策引擎模块中直接利用预先计算的各指标数据进行业务决策,最后在决策输出模块根据业务决策进行业务决策的输出和处理。
图5为本发明实施例中聚类分析建模优化前后的对比示意图,如图5所示,以当面付支付业务为例进行说明,在聚类分析建模优化前(即现有技术中),当面付支付业务需要预先计算的指标数据包括指标a-i的大批指标数据,在利用本发明实施例的聚类分析建模优化之后,可以将当面付支付业务场景分为多个更小的业务场景,也就是说,将当面付支付业务聚类分析之后得到多个元数据类型;如图5所示,其中,一种元数据类型包括ios操作系统、安全大卖家和小额,其对应的指标数据集合包括指标a和b;另一种元数据类型包括安卓系统、三星、大连锁点和常用设备,其对应的指标数据集合包括指标f和g;另一种元数据类型包括安卓系统、魅族手机、地区连锁和小额,其对应的指标数据集合包括指标h和b;当某一次当面付支付时,用户使用苹果手机,在京东(大卖家),支付19元(小额),根据该次业务数据的元数据确定对应的元数据类型,结合训练好的聚类分析建模直接找到需要计算指标数据为指标a和b,之后对该指标数据a和b进行预处理即可达到最大化的提升计算利用率的目的,同时也达到提升系统响应时间的目的。
在实际应用中,因为业务的场景、用户的环境、用户的行为、业务来源等都会不一样,如果基于这些元数据特性,再结合每次使用的指标数据的数据统计样本做一个聚类分析,这样就能把一个大的业务场景拆分成多个小的业务场景的指标数据模型(如买家付款场景可能会被算法拆分成更细分的情况,如购买的虚拟物品+银行卡支付+来自淘宝),这样就能根据简单的业务输入得到该次业务最有可能需要的数据指标,这样既能非常大的提升数据预处理计算的利用率,减少计算的浪费。
图6为本发明实施例提供的一种业务数据处理装置的结构图,如图6所示,包括:
确定模块61,用于根据输入的待处理业务,获取所述待处理业务的元数据;根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
预处理模块62,用于根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
业务处理模块63,用于根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
其中,所述的装置还包括:
检测模块64,用于检测每一个输入业务的元数据;
建立模块65,用于建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
所述检测模块64,还用于检测每一个输入业务在业务处理过程中实际使用的各指标数据;
所述建立模块65,还用于建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
其中,所述的装置还包括:
聚类分析模块66,用于将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
保存模块67,用于将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
图6所示装置可以执行图2和图3所示实施例所述方法,其实现原理和技术效果不再赘述。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。