CN107122369A - 一种业务数据处理方法、装置和系统 - Google Patents

一种业务数据处理方法、装置和系统 Download PDF

Info

Publication number
CN107122369A
CN107122369A CN201610105141.9A CN201610105141A CN107122369A CN 107122369 A CN107122369 A CN 107122369A CN 201610105141 A CN201610105141 A CN 201610105141A CN 107122369 A CN107122369 A CN 107122369A
Authority
CN
China
Prior art keywords
business
achievement data
metadata
module
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610105141.9A
Other languages
English (en)
Other versions
CN107122369B (zh
Inventor
陈锣斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610105141.9A priority Critical patent/CN107122369B/zh
Publication of CN107122369A publication Critical patent/CN107122369A/zh
Application granted granted Critical
Publication of CN107122369B publication Critical patent/CN107122369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种业务数据处理方法、装置和系统,包括:根据输入的待处理业务,确定所述待处理业务匹配的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据的标识;根据所述指标数据集合中的各指标数据的标识,预先计算各指标数据;根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。

Description

一种业务数据处理方法、装置和系统
技术领域
本申请涉及大数据处理的技术领域,具体地说,涉及一种业务数据处理方法、装置和系统。
背景技术
在目前很多应用场景中,一般使用工作流/规则引擎等的业务系统,在进行业务之前都需要准备很多数据,例如在风控、营销等场景。通过准备好的数据指标,业务可以根据相关数据进行比对决策,决定该业务的走向(例如:是否发放红包、优惠,是否允许该账户付款等)。
常规而言,一次业务过来涉及到数据计算可能会非常多,考虑用户体验和系统响应时间,因此一般都会做一个提前的计算准备,例如把付款场景需要的数据指标都计算完毕,待业务按需使用,业务根据数据按照设定好的规则条件计算最终业务走向。因为业务是按照规则条件来判断计算,实际上计算一个完整的业务逻辑可能并不需要把该场景的所有相关数据都计算出来,例如当该笔业务的用户属于黑名单用户,则完全不需要用到其他的数就会直接结束本次业务逻辑计算,因此会造成很多数据计算的浪费。
发明内容
有鉴于此,本申请提供一种业务数据处理方法、装置和系统,可以解决现有的业务数据处理效率低的问题。
为了解决上述技术问题,本申请第一方面提供一种业务数据处理方法,包括:
根据输入的待处理业务,获取所述待处理业务的元数据;
根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;
根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
可选地,所述的方法还包括:
检测每一个输入业务的元数据,建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
检测每一个输入业务在业务处理过程中实际使用的各指标数据,建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
可选地,所述的方法还包括:
将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;
将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
可选地,所述的方法还包括:
将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
本申请第二方面提供一种业务数据处理装置,包括:
确定模块,用于根据输入的待处理业务,获取所述待处理业务的元数据;根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
预处理模块,用于根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
业务处理模块,用于根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
可选地,所述的装置还包括:
检测模块,用于检测每一个输入业务的元数据;
建立模块,用于建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
所述检测模块,还用于检测每一个输入业务在业务处理过程中实际使用的各指标数据;
所述建立模块,还用于建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
可选地,所述的装置还包括:
聚类分析模块,用于将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
可选地,所述的装置还包括:
保存模块,用于将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
本申请第三方面提供一种业务数据处理系统,包括:业务系统和模型训练平台;所述业务系统包括元数据快照模块和数据统计模块;
其中,元数据快照模块用于获取每一次业务输入的元数据;
数据统计模块用于检测每一次业务输入对应的决策实际使用的指标数据;
其中,模型训练平台包括数据整合模块、聚类分析建模模块和准实时回流模块;
数据整合模块用于将元数据快照模块获取的元数据和数据统计模块检测的实际使用的指标数据进行数据整合;
聚类分析建模模块用于将数据整合模块整合后的数据进行聚类分析计算,得到业务的元数据类型以及对应的指标数据集合;
准实时回流模块用于将聚类分析建模中得到业务的元数据类型以及对应的指标数据集合通过发送给业务系统对输入的待处理业务匹配指标数据集合,并预先计算指标数据集合的各指标数据,从而利用预先计算的各指标数据进行业务决策的输出,并根据业务决策进行业务处理。
其中,所述业务系统还包括业务输入模块、预处理计算模块、业务决策引擎模块、决策输出模块;
所述业务输入模块,用于输入待处理业务;
所述预处理计算模块,用于对所述准实时回流模块发送的聚类分析建模分析得到的业务的元数据类型以及对应的指标数据集合,对所述待处理业务匹配指标数据集合,并预先计算指标数据集合中的各指标数据;
所述业务决策引擎模块,用于直接利用所述预处理计算模块预先计算的各指标数据对所述待处理业务进行业务决策;
所述决策输出模块,用于根据所述业务决策引擎模块的业务决策进行业务决策的输出和处理。
本发明实施例中采用对业务元数据库和指标数据库进行聚类分析,将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合,从而在待处理业务输入时,可以直接根据待处理业务的元数据类型直接匹配到对应的指标数据集合,只需要计算指标数据集合中的各指标数据,不用计算所有的指标数据,通过减少指标数据量提高指标数据的计算效率,从而可以提高整个业务处理的效率。
进一步地,本发明实施例能自动根据线上实际使用情况会动态调整元数据的分类以及对应的指标数据集合,从而能实现随着业务的变化而持续的保持业务元数据的分类以及对应的指标数据集合的最优性能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为一种决策树/工作流的示意图;
图2为本发明实施例提供的一种业务数据处理方法的流程图;
图3为本发明图2所示实施例中步骤201的具体实现方法的流程图;
图4为本发明实施例提供的一种业务数据处理系统的架构图;
图5为本发明实施例中聚类分析建模优化前后的对比示意图;
图6为本发明实施例提供的一种业务数据处理装置的结构图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在现有技术中,一般使用工作流/规则引擎等的业务系统,对数据计算进行预处理主要是基于常规的数据统计。一般而言,一个业务来,基于规则引擎/工作流的业务会通过决策树/工作流等得出不同的业务决策,图1为一种决策树/工作流的示意图,如图1所示,一个业务过来,最古老的方式是没有预处理计算的,那么整个系统运行就是串行执行,如A决策过程就需要一次串行计算a、c、e、i指标,B决策就需要依次串行a、b、d、h指标,那么随着决策路径加长,那么整个决策过程的计算耗时就非常大。
现有的预处理方案就是:在业务来之前,并发的提前计算完这个业务所有可能用到的指标,如图1所示的就是a-l这12个指标,这样在决策过程中只需要做简单指标比对即可得到业务决策,同时保证了系统性能。但随着带来的就是带来了大量的数据指标计算浪费,实际一次决策真正使用的指标可能就只有4个。
而现有的优化方法就是,每次业务来后,统计每次指标的使用情况,当指标的使用概率大于设定的阈值后,才能加入到预处理计算中,这样就只是把使用概率较大的指标进行提前的预处理并发计算,减少数据指标的计算浪费。尽管使用统计的方式提升了预处理的效能,但是实际上因为只是基于较大场景的统计,还是会产生一定的计算浪费。
本发明的技术方案就是利用数据分析建模的方式自动聚类,把相似的计算归类聚合,自动的把一个大场景按照线上使用情况拆分成多个细分小场景,让计算资源达到更优化,能有效的提升计算利用效率和计算效能。
本发明下文中采用的技术术语:
指标数据是指参与业务计算或者业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额等参数;例如:用户一段时间手机支付频率,手机支付所在区域,本次涉及的交易金额等。
元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,其中,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付等参数;所述元数据类型包括所述元数据的具体值的不同组合,以现在的一笔业务为例:用户的支付渠道(网银、快捷),环境信息(PC,无线),业务类型(缴费、充值、当面付)等都作为元数据的具体值进行输入,而通过这些元数据的具体值可以得到不同的组合的元数据类型,如:网银+PC+充值、快捷+无线+缴费等。
图2为本发明实施例提供的一种业务数据处理方法的流程图;如图2所示,包括:
201、根据输入的待处理业务,确定与所述待处理业务匹配的指标数据集合;
其中,所述指标数据集合中包括所述待处理业务需要计算的各指标数据的标识;
图3为本发明图2所示实施例中步骤201的具体实现方法的流程图,如图3所示,具体包括:
2010、检测每一个输入业务的元数据,建立业务的元数据库;
其中,每一个输入业务的元数据为每一个输入业务的相关信息,例如包括用户的操作环境,进行的业务来源,操作的相关信息等;
本发明实施例中,对每一个处理的业务都可以检测到该业务的元数据,并将该业务的元数据保存到建立的业务元数据库中与该业务标识对应的元数据表项中。其中,所述元数据库中包括每一个输入业务的标识与元数据之间的对应关系,如表1所示:
业务标识 元数据
业务1 元数据1
业务2 元数据2
业务3 元数据3
本发明实施例的元数据库的表现形式不限于上述表1所示的举例。
2011、检测每一个输入业务在业务处理过程中实际使用的各指标数据,建立业务的实际使用指标数据库;
本发明实施例中,对每一个处理的业务都可以检测到该业务处理过程中实际使用的指标数据的标识,并将检测到的该业务处理过程中实际使用的指标数据的标识保存到建立的实际使用指标数据库;如图1所示的决策树/工作流的示意图,假设检测到某一个业务处理过程中使用决策A,决策A对应的指标数据的标识包括a、c、e、i标识,则该业务处理过程中实际使用的指标数据的标识为a、c、e、i,将实际使用的指标数据的标识为a、c、e、i保存到实际使用指标数据库;
其中,所述实际使用指标数据库中包括每一个输入业务的标识与实际使用的各指标数据的标识之间的对应关系;如表2所示:
业务标识 实际使用的指标数据的标识
业务1 业务1实际使用的指标数据的标识
业务2 业务2实际使用的指标数据的标识
业务3 业务3实际使用的指标数据的标识
以线下扫码支付的业务来举例,第一笔支付,用户使用的是ios手机,在联华超市支付,整个业务决策的时候使用到了a、b、c标识对应的指标数据,第二笔支付,用户使用的是三星的android手机,在喜士多支付,整个业务决策的时候使用到了a、b、g、f标识对应的指标数据,第三笔支付,是用户阿姨奶茶店,使用魅族手机通过扫码转账支付,整个业务决策的时候使用了a、g、h、i标识对应的指标数据。因此,就线下扫码支付的业务来说,实际使用的指标数据的可能包括a、b、c,也可能包括a、b、g、f,也可能包括a、g、h、i,因此,需要将每一次的线下扫码支付的业务实际使用的指标数据的标识都保存在建立的指标数据库中,且与线下扫码支付的业务标识相对应。
本发明实施例的指标数据库的表现形式不限于上述表2所示的举例。
2012、将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联聚类分析;
本发明实施例中采用的聚类分析,是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的,通常,模式是一个度量的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
本发明对聚类分析算法的具体显示方式不做任何限定,本发明所要保护的是采用聚类分析算法将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据的标识进行关联聚类分析得到业务的元数据类型以及对应的指标数据集合。
2013、将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合;
本发明实施例中预设有指标数据的使用概率相近的阈值,假设第一个输入业务和第二个输入业务使用相同的指标数据的概率为85%,大于预设的阈值,则可以认为第一个输入业务和第二个输入业务为相同类型的业务,进一步可以对第一个输入业务和第二个输入业务的元数据进行聚类,得到该类业务的元数据类型,并得到对应的指标数据集合。如表3所示:
元数据类型 指标数据集合
元数据类型1 a、b、c、
元数据类型2 d、f、g
元数据类型3 h、i、j
本发明实施例的元数据类型以及对应的指标数据集合的表现形式不限于上述表3所示的举例。
2014、根据输入的待处理业务,获取所述待处理业务的元数据;
2015、根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型,并根据所述元数据类型确定对应的指标数据集合。
基于上述步骤2013中得到的业务的元数据类型与指标数据集合之间的对应关系,根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型,并根据所述元数据类型确定对应的指标数据集合。
202、根据所述指标数据集合中的各指标数据,预计算各指标数据;
203、根据预计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
在实际应用中,业务的种类很多,业务的元数据也很多,为了在提高业务数据处理的效率同时,提高业务处理的正确性,本发明实施例中,步骤203之后,还包括:
将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据的标识,并保存到所述实际使用指标数据库中;之后,重新对更新后的元数据库和指标数据库进行关联聚类分析,从而实现可以不断地动态调整业务的元数据类型以及对应的指标数据集合。
本发明实施例中采用对业务元数据库和指标数据库进行聚类分析,将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合,从而在待处理业务输入时,可以直接根据待处理业务的元数据类型直接匹配到对应的指标数据集合,只需要计算指标数据集合中的各指标数据,不用计算所有的指标数据,通过减少指标数据量提高指标数据的计算效率,从而可以提高整个业务处理的效率。
进一步地,本发明实施例能自动根据线上实际使用情况会动态调整元数据的分类以及对应的指标数据集合,从而能实现随着业务的变化而持续的保持业务元数据的分类以及对应的指标数据集合的最优性能。
图4为本发明实施例提供的一种业务数据处理系统的架构图;如图4所示,包括业务系统和模型训练平台,其中,业务系统包括业务输入模块、预处理计算模块、业务决策引擎模块和决策输出模块,还包括元数据快照模块和数据统计模块;其中,业务输入模块用于输入待处理的业务;元数据快照模块用于获取每一次业务输入的元数据;数据统计模块用于检测每一次业务输入对应的决策实际使用的指标数据的标识;
将元数据快照模块获取的元数据和数据统计模块检测的实际使用的指标数据的标识发送到模型训练平台中数据整合模块进行数据整合,将整合后的数据发送到聚类分析建模模块中进行聚类分析计算,在聚类分析建模中得到业务的元数据类型以及对应的指标数据集合;将聚类分析建模中得到业务的元数据类型以及对应的指标数据集合通过准实时回流模块发送给预处理计算模块对输入的待处理业务匹配指标数据集合,并预先计算指标数据集合的各指标数据,从而在业务决策引擎模块中直接利用预先计算的各指标数据进行业务决策,最后在决策输出模块根据业务决策进行业务决策的输出和处理。
图5为本发明实施例中聚类分析建模优化前后的对比示意图,如图5所示,以当面付支付业务为例进行说明,在聚类分析建模优化前(即现有技术中),当面付支付业务需要预先计算的指标数据包括指标a-i的大批指标数据,在利用本发明实施例的聚类分析建模优化之后,可以将当面付支付业务场景分为多个更小的业务场景,也就是说,将当面付支付业务聚类分析之后得到多个元数据类型;如图5所示,其中,一种元数据类型包括ios操作系统、安全大卖家和小额,其对应的指标数据集合包括指标a和b;另一种元数据类型包括安卓系统、三星、大连锁点和常用设备,其对应的指标数据集合包括指标f和g;另一种元数据类型包括安卓系统、魅族手机、地区连锁和小额,其对应的指标数据集合包括指标h和b;当某一次当面付支付时,用户使用苹果手机,在京东(大卖家),支付19元(小额),根据该次业务数据的元数据确定对应的元数据类型,结合训练好的聚类分析建模直接找到需要计算指标数据为指标a和b,之后对该指标数据a和b进行预处理即可达到最大化的提升计算利用率的目的,同时也达到提升系统响应时间的目的。
在实际应用中,因为业务的场景、用户的环境、用户的行为、业务来源等都会不一样,如果基于这些元数据特性,再结合每次使用的指标数据的数据统计样本做一个聚类分析,这样就能把一个大的业务场景拆分成多个小的业务场景的指标数据模型(如买家付款场景可能会被算法拆分成更细分的情况,如购买的虚拟物品+银行卡支付+来自淘宝),这样就能根据简单的业务输入得到该次业务最有可能需要的数据指标,这样既能非常大的提升数据预处理计算的利用率,减少计算的浪费。
图6为本发明实施例提供的一种业务数据处理装置的结构图,如图6所示,包括:
确定模块61,用于根据输入的待处理业务,获取所述待处理业务的元数据;根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
预处理模块62,用于根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
业务处理模块63,用于根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
其中,所述的装置还包括:
检测模块64,用于检测每一个输入业务的元数据;
建立模块65,用于建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
所述检测模块64,还用于检测每一个输入业务在业务处理过程中实际使用的各指标数据;
所述建立模块65,还用于建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
其中,所述的装置还包括:
聚类分析模块66,用于将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
保存模块67,用于将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
其中,所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
图6所示装置可以执行图2和图3所示实施例所述方法,其实现原理和技术效果不再赘述。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (12)

1.一种业务数据处理方法,其特征在于,包括:
根据输入的待处理业务,获取所述待处理业务的元数据;
根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;
根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
2.根据权利要求1所述的方法,其特征在于,还包括:
检测每一个输入业务的元数据,建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
检测每一个输入业务在业务处理过程中实际使用的各指标数据,建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;
将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
4.根据权利要求1所述的方法,其特征在于,还包括:
将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
5.根据权利要求1-4中任一项所述的方法,其特征在于:
所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
6.一种业务数据处理装置,其特征在于,包括:
确定模块,用于根据输入的待处理业务,获取所述待处理业务的元数据;根据所述待处理业务的元数据,确定与所述待处理业务的元数据对应的元数据类型;根据所述元数据类型确定对应的指标数据集合,所述指标数据集合中包括所述待处理业务需要计算的各指标数据;
预处理模块,用于根据所述指标数据集合中包括的所述待处理业务需要计算的各指标数据,预先计算各指标数据;
业务处理模块,用于根据预先计算的各指标数据,确定所述待处理业务的处理决策,并根据所述处理决策对所述待处理业务进行业务处理。
7.根据权利要求6所述的装置,其特征在于,还包括:
检测模块,用于检测每一个输入业务的元数据;
建立模块,用于建立业务的元数据库,所述元数据库中包括每一个输入业务与元数据之间的对应关系;
所述检测模块,还用于检测每一个输入业务在业务处理过程中实际使用的各指标数据;
所述建立模块,还用于建立业务的实际使用指标数据库,所述实际使用指标数据库中包括每一个输入业务与实际使用的各指标数据之间的对应关系。
8.根据权利要求7所述的装置,其特征在于,还包括:
聚类分析模块,用于将所述元数据库中每一个输入业务的元数据与所述实际使用指标数据库中每一个输入业务实际使用的各指标数据进行关联和聚类分析;将指标数据的使用概率相近的输入业务的元数据进行聚类,得到业务的元数据类型以及对应的指标数据集合。
9.根据权利要求6所述的装置,其特征在于,还包括:
保存模块,用于将所述待处理业务的元数据保存到所述元数据库中;检测对所述待处理业务进行业务处理时实际使用的各指标数据,并保存到所述实际使用指标数据库中;以便重新进行关联和聚类分析,从而动态调整业务的元数据类型以及对应的指标数据集合。
10.根据权利要求6所述的装置,其特征在于:
所述指标数据是指参与业务处理过程中,需要计算的带有一定业务含义的数据,包括支付终端、支付频率、支付所在区域和/或交易金额;
所述元数据类型是把业务输入的元数据的具体值做出的不同分类,通过所述元数据的具体值得到不同组合的元数据类型,所述元数据的具体值包括网银、快捷、终端、无线、缴费、充值和/或当面付;所述元数据类型包括所述元数据的具体值的不同组合。
11.一种业务数据处理系统,其特征在于,包括:业务系统和模型训练平台;所述业务系统包括元数据快照模块和数据统计模块;
其中,元数据快照模块用于获取每一次业务输入的元数据;
数据统计模块用于检测每一次业务输入对应的决策实际使用的指标数据;
其中,模型训练平台包括数据整合模块、聚类分析建模模块和准实时回流模块;
数据整合模块用于将元数据快照模块获取的元数据和数据统计模块检测的实际使用的指标数据进行数据整合;
聚类分析建模模块用于将数据整合模块整合后的数据进行聚类分析计算,得到业务的元数据类型以及对应的指标数据集合;
准实时回流模块用于将聚类分析建模中得到业务的元数据类型以及对应的指标数据集合通过发送给业务系统对输入的待处理业务匹配指标数据集合,并预先计算指标数据集合的各指标数据,从而利用预先计算的各指标数据进行业务决策的输出,并根据业务决策进行业务处理。
12.根据权利要求11所述的系统,其特征在于,所述业务系统还包括业务输入模块、预处理计算模块、业务决策引擎模块、决策输出模块;
所述业务输入模块,用于输入待处理业务;
所述预处理计算模块,用于对所述准实时回流模块发送的聚类分析建模分析得到的业务的元数据类型以及对应的指标数据集合,对所述待处理业务匹配指标数据集合,并预先计算指标数据集合中的各指标数据;
所述业务决策引擎模块,用于直接利用所述预处理计算模块预先计算的各指标数据对所述待处理业务进行业务决策;
所述决策输出模块,用于根据所述业务决策引擎模块的业务决策进行业务决策的输出和处理。
CN201610105141.9A 2016-02-25 2016-02-25 一种业务数据处理方法、装置和系统 Active CN107122369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610105141.9A CN107122369B (zh) 2016-02-25 2016-02-25 一种业务数据处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610105141.9A CN107122369B (zh) 2016-02-25 2016-02-25 一种业务数据处理方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107122369A true CN107122369A (zh) 2017-09-01
CN107122369B CN107122369B (zh) 2021-05-11

Family

ID=59717771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610105141.9A Active CN107122369B (zh) 2016-02-25 2016-02-25 一种业务数据处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN107122369B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334452A (zh) * 2018-02-08 2018-07-27 深圳壹账通智能科技有限公司 规则数据移交测试方法、装置、计算机设备和存储介质
CN109118353A (zh) * 2018-07-20 2019-01-01 中国邮政储蓄银行股份有限公司 风控模型的数据处理方法和装置
CN109271430A (zh) * 2018-08-03 2019-01-25 上海你我贷互联网金融信息服务有限公司 一种风控策略自定义数据源接入的方法以及装置
CN109376981A (zh) * 2018-08-31 2019-02-22 阿里巴巴集团控股有限公司 数据处理方式的确定方法、装置、服务器和数据处理方法
CN109635029A (zh) * 2018-12-07 2019-04-16 深圳前海微众银行股份有限公司 基于标签指标体系的数据处理方法、装置、设备及介质
CN109858868A (zh) * 2018-12-17 2019-06-07 中体彩科技发展有限公司 体彩业务风险监控系统
CN110175113A (zh) * 2019-04-18 2019-08-27 阿里巴巴集团控股有限公司 业务场景确定方法和装置
CN110781165A (zh) * 2019-10-10 2020-02-11 支付宝(杭州)信息技术有限公司 一种业务数据的处理方法、装置和设备
CN110968581A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据存储方法及装置
CN111522868A (zh) * 2020-03-24 2020-08-11 北京三快在线科技有限公司 数据规则的处理方法、装置、电子设备及存储介质
CN112148779A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 确定业务指标的方法、装置及存储介质
CN112286879A (zh) * 2020-07-15 2021-01-29 上海柯林布瑞信息技术有限公司 基于元数据的数据资产构建方法及装置
CN112486955A (zh) * 2020-12-04 2021-03-12 高慧军 基于大数据和人工智能的数据维护方法及大数据平台
CN112579581A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN116431742A (zh) * 2023-06-09 2023-07-14 合肥青谷信息科技有限公司 一种大数据量的业务数据加工方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027971A1 (en) * 2006-07-28 2008-01-31 Craig Statchuk Method and system for populating an index corpus to a search engine
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
CN102521706A (zh) * 2011-12-16 2012-06-27 北京斯泰威网络科技有限公司 Kpi 数据的分析方法及装置
CN103593376A (zh) * 2012-08-17 2014-02-19 阿里巴巴集团控股有限公司 一种采集用户行为数据的方法及装置
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027971A1 (en) * 2006-07-28 2008-01-31 Craig Statchuk Method and system for populating an index corpus to a search engine
CN102117306A (zh) * 2010-01-04 2011-07-06 阿里巴巴集团控股有限公司 Etl数据处理过程的监控方法及其系统
CN102521706A (zh) * 2011-12-16 2012-06-27 北京斯泰威网络科技有限公司 Kpi 数据的分析方法及装置
CN103593376A (zh) * 2012-08-17 2014-02-19 阿里巴巴集团控股有限公司 一种采集用户行为数据的方法及装置
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334452A (zh) * 2018-02-08 2018-07-27 深圳壹账通智能科技有限公司 规则数据移交测试方法、装置、计算机设备和存储介质
CN109118353A (zh) * 2018-07-20 2019-01-01 中国邮政储蓄银行股份有限公司 风控模型的数据处理方法和装置
CN109118353B (zh) * 2018-07-20 2022-03-15 中国邮政储蓄银行股份有限公司 风控模型的数据处理方法和装置
CN109271430A (zh) * 2018-08-03 2019-01-25 上海你我贷互联网金融信息服务有限公司 一种风控策略自定义数据源接入的方法以及装置
CN109376981A (zh) * 2018-08-31 2019-02-22 阿里巴巴集团控股有限公司 数据处理方式的确定方法、装置、服务器和数据处理方法
CN110968581A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据存储方法及装置
CN109635029A (zh) * 2018-12-07 2019-04-16 深圳前海微众银行股份有限公司 基于标签指标体系的数据处理方法、装置、设备及介质
CN109635029B (zh) * 2018-12-07 2023-10-13 深圳前海微众银行股份有限公司 基于标签指标体系的数据处理方法、装置、设备及介质
CN109858868A (zh) * 2018-12-17 2019-06-07 中体彩科技发展有限公司 体彩业务风险监控系统
CN109858868B (zh) * 2018-12-17 2022-02-25 中体彩科技发展有限公司 体彩业务风险监控系统
CN110175113B (zh) * 2019-04-18 2023-07-14 创新先进技术有限公司 业务场景确定方法和装置
CN110175113A (zh) * 2019-04-18 2019-08-27 阿里巴巴集团控股有限公司 业务场景确定方法和装置
CN112148779A (zh) * 2019-06-28 2020-12-29 京东数字科技控股有限公司 确定业务指标的方法、装置及存储介质
CN110781165A (zh) * 2019-10-10 2020-02-11 支付宝(杭州)信息技术有限公司 一种业务数据的处理方法、装置和设备
CN111522868A (zh) * 2020-03-24 2020-08-11 北京三快在线科技有限公司 数据规则的处理方法、装置、电子设备及存储介质
CN112286879A (zh) * 2020-07-15 2021-01-29 上海柯林布瑞信息技术有限公司 基于元数据的数据资产构建方法及装置
CN112579581A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112486955A (zh) * 2020-12-04 2021-03-12 高慧军 基于大数据和人工智能的数据维护方法及大数据平台
CN116431742A (zh) * 2023-06-09 2023-07-14 合肥青谷信息科技有限公司 一种大数据量的业务数据加工方法、装置及电子设备

Also Published As

Publication number Publication date
CN107122369B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN107122369A (zh) 一种业务数据处理方法、装置和系统
CN107563757B (zh) 数据风险识别的方法及装置
CN104750674B (zh) 一种人机会话满意度预测方法及系统
KR102249712B1 (ko) 리스크 제어 이벤트 자동 처리 방법 및 장치
CN105468742A (zh) 恶意订单识别方法及装置
CN110264038A (zh) 一种产品测评模型的生成方法及设备
CN109190007A (zh) 数据分析方法及装置
CN108830443A (zh) 一种合同审阅方法及装置
CN110472695A (zh) 一种工业生产过程的异常工况检测和分类方法
CN109542956A (zh) 报表生成方法、装置、计算机设备和存储介质
CN108572988A (zh) 一种房产评估数据生成方法和装置
CN109118316A (zh) 线上店铺真实性的识别方法和装置
CN108197177A (zh) 业务对象的监测方法、装置、存储介质和计算机设备
CN107622413A (zh) 一种价格敏感度计算方法、装置及其设备
CN110119353A (zh) 测试数据生成方法、装置以及控制器和介质
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN111626767A (zh) 资源数据的发放方法、装置及设备
CN109582834B (zh) 数据风险预测方法及装置
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN113630495B (zh) 涉诈订单预测模型训练方法和装置,订单预测方法和装置
CN117688155A (zh) 业务问题的回复方法、装置、存储介质以及电子设备
US20150073902A1 (en) Financial Transaction Analytics
CN110796178B (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN106294115A (zh) 一种应用系统迁移性的测试方法及装置
CN114611850A (zh) 业务分析方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant