CN116383201A - 一种基于流批一体的多维数据处理方法及系统 - Google Patents
一种基于流批一体的多维数据处理方法及系统 Download PDFInfo
- Publication number
- CN116383201A CN116383201A CN202310230850.XA CN202310230850A CN116383201A CN 116383201 A CN116383201 A CN 116383201A CN 202310230850 A CN202310230850 A CN 202310230850A CN 116383201 A CN116383201 A CN 116383201A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- flow configuration
- preset
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000000875 corresponding effect Effects 0.000 claims description 93
- 230000008569 process Effects 0.000 claims description 36
- 238000013524 data verification Methods 0.000 claims description 12
- 238000007726 management method Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44505—Configuring for program initiating, e.g. using registry, configuration files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请涉及数据处理技术领域,具体公开了一种基于流批一体的多维数据处理方法及系统,所述方法包括:获取业务需求信息,所述业务需求信息包括所属业务场景;对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑;基于数据字段,从预设组件库中提取数据源和数据宿;基于数据处理逻辑,从预设组件库中匹配出相应算子;对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。通过将业务相关进程进行组件化,然后根据业务需求可选取相关组件,以进行流程式串联配置,从而达到快速部署实施的目的。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种基于流批一体的多维数据处理方法及系统。
背景技术
由于目前对于市场响应时效的要求越来越高,实时营销、精准营销、实时分析等所带来的实时数据价值,日益明显且占据重要地位,实时数据的实时处理、分析的技术与方法,也层出不穷。
现有的实时数据处理框架往往通过构建实时批量多维数据处理模型,或者借助主流消息队列及流数据处理技术来建立实时多维数据模型,但这些方法所需的建模时间过长,导致业务时效延迟,影响了对最终基于数据驱动的决策和预分析,并且模块之间的依赖性较高,导致可复用性低。
发明内容
本申请的目的是提供一种流批一体组件化高时效数据处理和高效实施的方法,对金融行业信用卡业务涉及的相关进程进行拆解,并形成相关组件,以流程式串联配置并形成场景模板,通过快速检索及配置调整,即可达到快速部署实施的目的。
第一方面,本申请提供一种基于流批一体的多维数据处理方法,采用如下的技术方案:
获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑;
基于数据字段,从预设组件库中提取数据源和数据宿;
基于数据处理逻辑,从预设组件库中匹配出相应算子;
对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
通过上述技术方案,可以通过对业务需求信息进行解析,获取与业务关联的组件,然后进行组件的流程串联配置,从而实现快速部署实施,无需对业务需求进行人工梳理,降低了业务数据处理所需时间,并且流程配置组件并非固定连接,可根据实际业务需求进行重组,增加了可复用性。
可选的,所述业务需求信息还包括数据执行条件,对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑,包括:
对业务需求信息,通过预设的自然语言处理模型提取关键词;
基于关键词,通过预设的数据关联规则模型生成关联数据信息;
基于数据执行条件,通过预设的算子规则进行匹配,获取数据处理逻辑;
基于关联数据信息和数据处理逻辑,获取数据字段。
可选的,所述基于关联数据信息和数据处理逻辑,获取数据字段,包括:
基于关联数据信息和数据处理逻辑,确认数据生产者和数据消费者;
若数据生产者不止一个,则根据多个数据生产者,获取数据联合处理逻辑,以作为补充数据处理逻辑;
将补充数据处理逻辑添加到数据处理逻辑中,以形成新的数据处理逻辑;
基于关联数据信息和新的数据处理逻辑,获取数据字段。
可选的,所述基于数据字段,从预设组件库中提取数据源和数据宿,包括:
根据数据生产者和数据消费者,确定业务涉及的数据类型;
基于数据字段,获取数据传输通道信息;
根据数据传输通道信息和数据类型,从预设的组件库中匹配出对应的数据源和数据宿。
可选的,所述数据源包括属性配置项,数据宿包括配置字段名称,所述对数据源、算子和数据宿进行流程化拼接,获取流程配置信息,包括:
基于属性配置项,构建数据参数字段;
根据数据参数字段和算子,获取数据输出信息;
将数据输出信息同配置字段名称,通过预设的方法进行匹配,获取匹配结果;
判断匹配结果是否达到预设的阈值,
若是,则根据当前的数据源、算子以及数据宿,按照预设的方式进行流程连接,并添加相应的属性配置,以获取流程配置信息;
若否,则获取未能成功匹配的字段名称,并输入第一提示信息,所述第一提示信息表征的是流程配置失败,需进行相应调整。
可选的,所述业务需求信息包括所属业务场景,所述获取流程配置信息之后,还包括:
对流程配置信息通过预设的验证方法进行数据校验,并获取数据校验结果;
判断校验结果中是否包含有异常信息,
若是,则获取异常信息,并输出第二提示信息,所属第二提示信息表征的是数据验证失败,需进行相应调整;
若否,则将流程配置信息保存为与所属场景对应的流程配置模板,并将该流程配置模板存储到预设流程配置管理库中。
可选的,将该流程配置模板存储到预设流程配置管理库中之后,还包括:
将流程配置模板所对应的业务需求信息作为所属场景的下级标签;
将流程配置模板与所对应的业务需求信息进行关联存储;
基于流程配置模板对应的业务需求信息,通过预设的方式进行重组,以获取重组业务需求信息;
根据重组业务信息,通过预设的方法进行解析,并获取对应的流程配置模板;
将获取的流程配置模板与所对应的重组业务需求信息进行关联存储。
可选的,所述获取业务需求信息之后,还包括:
基于所属业务场景,确认所属业务场景;
判断预设流程配置管理库中所属场景下是否存在流程配置模板;
若存在流程配置模板,则将当前业务需求信息同已有流程配置模板对应的业务需求信息进行相似度匹配,判断最高相似度是否达到预设阈值;
若最高相似度达到预设阈值,将相似度最高的业务需求信息对应的流程配置模板作为目标流程配置模板;
根据目标流程配置模板,获取对应流程配置信息;
若不存在流程配置模板或者最高相似度未达到预设阈值,则通过预设的方法对业务需求信息进行解析。
第二方面,本申请提供一种基于流批一体的多维数据处理系统,包括:
信息获取模块(101),用于获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑;
数据组件获取模块(102),用于基于数据字段,从预设组件库中提取数据源和数据宿;
算子组件获取模块(103),用于基于数据处理逻辑,从预设组件库中匹配出相应算子;
流程配置模块(104),用于对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
第三方面,本申请提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述一种基于流批一体的多维数据处理方法的计算机程序。
综上所述,本申请通过对业务涉及的相关进程进行拆解,也就是通过对业务需求进行解析,可以获取相关的组件,然后由组件形成流程式串联配置,达到快速部署实施的目的;另外,通过将新组成的流程配置信息保存为对应业务场景的模板,再针对相同或相似业务进程,可直接以已有的流程配置模板作为基准来进行快速部署并发布业务进程。此外一旦出现问题,可以针对问题所在组件进行优化调整,不会牵一发而动全身,即缩短了实施周期,又降低了试错成本。
附图说明
图1是本申请实施例所提供的一种基于流批一体的多维数据处理方法的流程图;
图2是本申请实施例所提供的根据业务需求信息,获取数据字段和数据处理逻辑的流程图;
图3是本申请实施例所提供的基于关联数据信息和数据处理逻辑,获取数据字段的流程图;
图4是本申请实施例所提供的对数据源、算子和数据宿进行流程化拼接,获取流程配置信息的流程图;
图5是本申请实施例所提供的对流程配置信息进行重组扩充的流程图;
图6是本申请实施例所提供的获取业务需求信息后,判断是否有可用模板的流程图;
图7是本申请实施例所提供的一种基于流批一体的多维数据处理系统的示意图。
具体实施方式
以下结合附图1-附图5,对本申请作进一步详细说明。
本申请所提供的方法应用在金融行业信用卡业务系统中,金融行业信用卡系统包括数据生产模块、数据处理中心和数据消费模块。
数据生产模块也就是数据来源,例如各渠道交易相关系统和卡申请系统,用户信息中心等。
数据处理中心用于对生产数据模块中的数据进行处理,包括消息处理中心和计算模块,并且根据业务场景可具体划分为营销类场景和交易事物场景,根据相关业务场景会有相应的数据处理操作。
数据消费模块,具体用于将经过数据处理中心反馈的数据进行实践应用,包括应用消费和业务应用两类,例如营销平台、消息推送、大数据处理,智能推荐等。
通过对金融行业的业务涉及的相关进程进行拆解,可形成相关组件,组件分为三个大类,分别为数据源、算子类和数据宿,也就是分别对应上述中的数据生产模块、数据处理中心以及数据消费模块。
其中,数据源,对应上述中的消费生产者,用于数据的接入,将外部数据接入,分为实时数据与批量数据。作为承载数据接入的容器,数据源支持多种数据源的接入,如 HDFS、Kafka消息队列、JDBC、HTTP 源等。不同的数据源根据不同的特性,会有对应的属性配置项,比如数据源类型、地址、账户密码等。
算子类,用于对数据进行处理,分为多个小类,包括聚合类、HTTP操作类、机器学习类、序列化操作类、统计类、流操作类、数据变换类、窗口、自定义类。
例如,聚合类,即执行窗口聚合操作,类似SQL语句中的GROUP BY。具体包括常用函数、聚合值、聚合键、水位线及业务窗口。
数据变换类,其中包括有属性关联、条件过滤器等。
其中,属性关联:通过相关字段属性来关联不同的交易事件,配置主键、字段名和字段值,字段名会与字段值进行配对,主键用来提取字段名的内容;条件过滤器:通过条件表达式进行筛选数据,满足条件的数据将会被保留。
数据宿,支持多种数据的接出方式,如HDFS、Kafka消息队列、JDBC、KV Store等。数据宿有与之对应的字段名,用来与数据输出字段名进行匹配,以便更好地实现数据在构建的流程配置中进行流转。
本申请提供一种基于流批一体的多维数据处理方法,参见图1,包括以下步骤:
S100、获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑。
其中,业务需求信息表征的是金融行业信用卡业务系统中涉及到的业务需求信息。业务需求信息以表单的形式进行发布,主要分为三个部分,分别是所属业务场景,数据执行条件以及数据执行方式。
例如,业务需求1:所属场景:实时营销场景(激活类);数据执行条件:从信用卡维度,用户首次激活信用卡;数据执行方式:实时推送对应活动信息。整个业务的需求表示当用户首次激活某一信用卡时,便向该用户推送对应活动信息,其中活动信息附带有对应的活动编号。
预设的方法表示的是自然语言处理算法以及根据历史业务数据训练得到的语义关联规则模型。其中自然语言处理算法,主要是针对业务需求信息进行关键词提取,也就是分词、按词性分词以及去虚词等操作。
语义关联规则模型表示的是通过对历史业务办理程序以及大数据分析而形式的与业务关联的数据处理方法架构,除了对一些常用关键词增加关联的附加属性外,还对不同关键词之间的语义关联进行建模,可提取不同关键词之间的数据关联,还可针对关键词的联合以得到新的关联规则信息。
在本申请实施例中,通过获取业务需求信息,通过预设的方式对业务需求信息进行解析,采用自动解析的方式来替代人工进行需求梳理,增加了业务数据处理的高效性。通过对业务需求信息进行解析可以获取到涉及的数据字段和相关数据处理逻辑。
具体地,对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑,参见图2,具体包括如下步骤:
S110、对业务需求信息,通过预设的自然语言处理模型提取关键词。
S120、基于关键词,通过预设的数据关联规则模型生成关联数据信息。
S130、基于数据执行条件,通过预设的算子规则进行匹配,获取数据处理逻辑。
S140、基于关联数据信息和数据处理逻辑,获取数据字段。
其中,数据字段表示的是业务进程中涉及到的数据名称,数据处理逻辑表示的是数据处理过程中所用到的算法规则。
由于通过将业务所涉及的进程进行拆解,形成了各个组件,并将所有生成的组件存储在组件库中。这样一来,当面临新的业务时,可根据实际业务需求获取所需要的组件,再将所需的组件进行流程拼接,以得到流程配置信息,最后根据流程配置信息实现快速部署并发布业务。所以,关键点在于如何根据实际业务需求来获取对应组件。
在本申请实施例中,首先对业务需求信息通过预设的自然语言处理模型可以提取到关键词。
例如,上述的业务需求1: 所属场景:实时营销场景(激活类);数据执行条件:从信用卡维度,用户首次激活信用卡;数据执行方式:实时推送对应活动信息。通过自然语言处理算法过对业务需求信息进行解析,可提取对应的关键词,如(用户、首次、激活、信用卡、实时推送、活动信息)。
然后基于关键词,通过预设的语义关联规则模型可以获取到关联数据信息。例如,关键词“用户”,与之关联属性有账号、密码、用户ID、用户行为等;关键词“信用卡”,与之关联属性有卡号、激活、注销、查询等;关键词“激活”,与之关联属性有“交易码”、关键词“激活”和“信用卡”相结合,还可得到关联规则:一张信用卡只能激活一次,即信用卡激活等同于信用卡首次激活等。
另外,根据数据执行条件,通过预设的算子规则可匹配出相应的数据处理逻辑,即条件过滤器(交易码=激活,激活次数=1),再由上述得到的关联数据信息,可舍弃掉“激活次数=1”,所以最后得到的数据处理逻辑为:条件过滤器(交易码=激活)。其中,预设的算子规则表示的是对算子库中每一个算子组件所生成的分类以及相关的规则描述。
接着由关联数据信息和数据处理逻辑,可以确认整个业务进程所涉及到的数据字段。
具体的,基于关联数据信息和数据处理逻辑,获取数据字段,参见图3,具体包括如下步骤:
S141、基于关联数据信息和数据处理逻辑,确认数据生产者和数据消费者。
S142、若数据生产者不止一个,则根据多个数据生产者,获取数据联合处理逻辑,以作为补充数据处理逻辑。
S143、将补充数据处理逻辑添加到数据处理逻辑中,以形成新的数据处理逻辑。
S144、基于关联数据信息和新的数据处理逻辑,获取数据字段。
在本申请实施例中,首先通过获取到的关联数据信息,可以确定所有涉及到的数据库信息,如“用户”对应有用户的信息数据库,记录有用户的个人身份信息,账户记录等,关键字段为用户ID;“信用卡”对应有信用卡的信息数据库,其内存储有信用卡的使用记录等信息,关键字段为信用卡号;“激活”作为交易系统中一种业务形式,通常会通过交易码来进行表现,在交易系统中,当交易码表示的是激活时,即用户首次激活信用卡;“实时推送活动消息”作为数据执行方式,与决策系统消息队列相关。
因为交易码作为数据处理逻辑的需求数据,且是由交易系统生成,所以业务需求的数据来源,即数据生产者为交易系统。因为数据执行方式与决策系统消息队列相关。所以数据的输出,即数据消费者为决策系统。
由于数据生产者只有交易系统,所以根据当前的数据处理逻辑,便能完成业务的数据处理进程,即只需对交易系统中的交易码进行条件筛选,判断交易码是否表示激活即可。
由此可以确认整个业务需求,所涉及到的数据字段为(用户ID、信用卡号、交易码)。
但若数据生产者不止一个时,还需要考虑到不同数据之间的关联性,例如,业务需求2:所属场景,实时营销场景(抽奖类);数据执行条件,根据当日日期,以卡号维度,累计当日消费金额达到预设值(如>=1000);数据执行方式,给予用户抽奖资格与推动活动消息。
同样地,通过对业务需求信息通过自然语言解析算法,可提取对应的关键字,如(累计、当日、消费金额、达到、用户、抽奖、推送活动消息),然后通过语义关联规则模型,进行进一步解析,可确定关联数据信息和数据处理逻辑,由关联数据信息可确认涉及到的数据库信息。
由于要计算累计消费金额,除了获取交易系统中的实时消费数据之外,还涉及到设定时间内的历史消费数据,所以还需要用户的历史数据作为支撑,也就是会与本地数据源对接,匹配存储用户的标签数据。因此最后确认的数据生产者为交易系统,以及存储客户标签数据的本地数据源。
由于数据生产者有了两个,并且两者之间存在数据关联,所以会需要进行数据间的联合,类似数据库联合,将两者数据库进行连接,然后添加属性关联,例如交易系统中的用户ID=本地数据源的用户ID,这样才能根据交易系统中的交易数据以及用户历史消费数据完成数据累加计算,实现数据处理过程中的逻辑判断。也就是增加了额外的数据处理逻辑,即联合和属性关联,将其记为补充数据处理逻辑作为添加。
所以当数据生产者不止一个时,还会通过对数据生产者的关联数据字段进行提取,并将该关联数据字段也作为最后获取的数据字段。因此,对整个业务需求2而言,最后获取的数据字段为(交易码、交易金额、交易日期、用户ID、信用卡号)。
S200、基于数据字段,从预设组件库中提取数据源和数据宿。
其中,预设组件库表示的存储各类业务进程所涉及到的组件,包括三个部分,数据源、数据宿和算子,每个数据源和数据宿都对应有相应的数据接入形式、数据接收形式或者数据存储方式等,相当添加了一个使用标签,并关联有历史的使用记录。其中算子对应有算子库,存储有各种数据处理过程用到的方法逻辑,并按照类别进行分类,且对每一个算子生成了对应的算法规则或者相应的表达形式。
在本申请实施例中,通过对业务需求进行解析,获取到了相应的数据字段,也就是整个业务需求所需要用到的数据,由此可以确认数据源和数据宿。也就是知道需要哪些数据,也知道这些数据用在何处,但如何将数据连通起来成了要解决的问题,即搭建数据传输桥梁。
由于数据整体可以大致分为两类:历史存量数据和实时流数据,历史存量数据是与业务相关的历史记录数据,通过调度的方式进行数据提取;实时流数据则是根据业务实时产生的数据导入消息队列,分析计算时从消息队列中进行获取。针对不同的数据类型,会给予不同的数据源配置。
因此,在本申请实施例中,会借助业务对应的数据数据类型,来帮助选取所需的数据源和数据宿。
具体地,基于数据字段,从预设组件库中提取数据源和数据宿,包括包括如下步骤:
S210、根据数据生产者和数据消费者,确定业务涉及的数据类型。
S220、基于数据字段,获取数据传输通道信息。
S230、根据数据传输通道信息和数据类型,从预设的组件库中匹配出对应的数据源和数据宿。
因此,在本申请实施例中,基于数据字段从预设组件库中提取数据源和数据宿时,首先会基于数据字段与之关联的数据生产者、数据消费者,确认数据类型,然后根据数据类型,获取对应的数据源和数据宿集合,再根据数据字段所对应的数据信息,获取数据接入接收形式或者传输通道信息。然后基于数据接入接收形式或者传输通道信息,从数据源和数据宿集合中匹配出所需的数据源和数据宿。
例如,上述示例中业务需求1中,数据生产者为实时交易系统,数据消费者为决策系统,涉及到的数据类型为实时流数据,最后匹配出的数据源为:Kafka 实时交易流数据,数据宿为:Kafka下发到消息队列。
上述示例中业务需求2中,数据生产者为实时交易系统、本地数据源存储的用户标签数据,数据消费者为决策系统,涉及到的数据类型有历史存量数据和实时流数据,最后匹配出的数据源为:Kafka 实时交易流数据,Redis累计消费金额缓存数据,数据宿为:Kafka下发到消息队列。
S300、基于数据处理逻辑,从预设组件库中匹配出相应算子。
S400、对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
在本申请实施例中,在获取到数据处理逻辑之后,会根据数据处理逻辑从预设的算子库中匹配出对应的算子。首先会根据数据处理逻辑确认数据处理逻辑所在分类,然后再有针对性进行匹配,以匹配出所需的算子。
在获取到数据源、数据宿以及算子后,则会进行流程化拼接,以形成流程配置信息。流程化的拼接相当于构建一个完整的数据处理体系,从数据的接入到中间的数据处理过程,再到数据的输出。也就是各组件的连接方向是确定的,即从数据源指向算子,由算子指向数据宿,或者由数据源直接指向数据宿。
另外,数据源包括属性配置项,数据宿包括配置字段名称,在完成组件的拼接之后,还会进行相应的数据配置,已实现数据在整个流程框架中的流转。
具体地,所述对数据源、算子和数据宿进行流程化拼接,获取流程配置信息,参见图4,具体包括如下步骤:
S410、基于属性配置项,构建数据参数字段。
S420、根据数据参数字段和算子,获取数据输出信息。
S430、将数据输出信息同配置字段名称,通过预设的方法进行匹配,获取匹配结果。
S440、判断匹配结果是否达到预设的阈值。
S450、若是,则根据当前的数据源、算子以及数据宿,按照预设的方式进行流程连接,并添加相应的属性配置,以获取流程配置信息。
S460、若否,则获取未能成功匹配的字段名称,并输入第一提示信息,所述第一提示信息表征的是流程配置失败,需进行相应调整。
其中,属性配置项表示的是数据源接入数据需要进行配置的参数填充项。例如地址数据、账户密码等,配置完成才能根据数据源实现数据的接入。配置字段名称表示的是数据宿对应的接收数据的匹配参数信息,也就是数据源接入数据到经过算子处理后的输出数据,要满足数据宿的需求,即输出数据要与配置字段名称匹配。
首先会根据数据源的属性配置项,构建数据参数字段,用来表示需要填充的数据信息,然后根据数据源和算子,会获取相应的输出数据,将输出数据同数据宿对应的配置字段名称进行匹配,可以获取到匹配结果。
因为考虑对字段参数名称进行匹配,更对地是以数据类型来作为匹配,可能会存在一定的不确定性,所以或设置相应的阈值来作为参考标准,即若匹配结果达到设定的阈值时,会认为匹配成功,则按照当前的连接方式完成流程化拼接,并获取流程配置信息。
若匹配结果未达到设定的阈值时,会认为匹配失败,此时,会获取未能成功匹配的字段名称,将其保存在日志中,并输入第一提示信息,用来提示流程配置失败,需进行相应调整。
由于获取流程配置信息之后,还需进行相应的数据验证,以确认数据流转过程不会出现异常,这样才能实现因业务需求,从而将获取的流程配置信息进行发布并部署实施。
因此,在本申请实施例中,获取流程配置信息之后,还包括如下步骤:
S510、对流程配置信息通过预设的验证方法进行数据校验,并获取数据校验结果。
S520、判断校验结果中是否包含有异常信息。
S530、若是,则获取异常信息,并输出第二提示信息,所属第二提示信息表征的是数据校验失败,需进行相应调整。
S540、若否,则将流程配置信息保存为与所属场景对应的流程配置模板,并将该流程配置模板存储到预设流程配置管理库中。
对流程配置信息进行数据校验,主要是验证数据在整个流程配置过程中是否能实现正常的数据流程,也就是检测是否会出现数据异常,例如,数据配置有误或者数据没有实现有效转化,导致出现数据缺失或者数据出错等异常。通过对数据进行埋点监测,可以捕获到数据异常信息,便将数据异常信息保存在校验结果中。
若校验结果中出现异常信息,则说明校验不通过,因此会将异常信息存入到日志中,并输出第二提示信息,用以提示数据校验失败,需进行相应的调整。
若校验结果中出现异常信息,则说明校验通过,因此会将当前的流程配置信息保存为与所属场景对应的流程配置模板,并将该流程配置模板存储到预设流程配置管理库中,以便于再有类似应用场景的业务需求,可直接根据已有的流程配置模板进行数据处理框架的搭建。
由于,业务需求所属业务场景所涵盖的范围较大,同一业务场景的业务需求可能会呈现出较大差异,这种情况下难以将一方的流程配置模板拿来给另一方使用,即便能用,需要修改调整的地方也可能会很多,也就起不到能够实现流程模板重复利用,极大地减少了构建流程框架所需时间的作用。
因此,在本申请实施例中,将该流程配置模板存储到预设流程配置管理库中之后,参见图5,还包括如下步骤:
S610、将流程配置模板所对应的业务需求信息作为所属场景的下级标签。
S620、将流程配置模板与所对应的业务需求信息进行关联存储。
S630、基于流程配置模板对应的业务需求信息,通过预设的方式进行重组,以获取重组业务需求信息。
S640、根据重组业务信息,通过预设的方法进行解析,并获取对应的流程配置模板。
S650、将获取的流程配置模板与所对应的重组业务需求信息进行关联存储。
在本申请实施例中,为了让已构建的流程配置模板可以更好地实现重复利用,会将场景作为一个大的分类,将新生成的流程配置模板同对应的业务需求进行关联存储,存储在所属业务场景分类下。
另外,考虑到当某一场景下的目标流程配置模板比较少,或者关联的业务需求并不是很常规,能被新的业务需求匹配到并使用的可能性比较低。所以在将该流程配置模板存储到预设流程配置管理库中之后,还会进行相应的扩充,即对流程配置模板对应的业务需求信息进行相应的重组,比如对相关执行条件进行变更,或者增加新的维度等。例如,业务需求信息中的数据执行条件是:信用卡首次激活,通过对数据执行条件进行变更,得到变更后的数据执行条件为:信用卡首次激活,并首次完成支付。进而重组得到重组业务需求信息。
再对重组业务需求信息通过按照上述的步骤S100…S400,可以获取到相应的流程配置信息,最后将获取的流程配置模板与所对应的重组业务需求信息进行关联存储。通过对业务需求进行重组,并获取对应的流程配置模板,可以扩充所属业务场景的可匹配模板数量,便于根据新的业务需求,能获取到适配度高的流程配置模板,从而加速业务数据处理的部署进程。
由于每次会获取到新的流程配置模板后,都会将其与对应业务需求信息关联存储到预设的流程配置管理库中,所以在获取到新的业务需求后,可以先判断是否有可使用的流程配置模板,如果有便可直接拿来使用,若没有,则再去通过预设的方式去选取组件,以获取相应的流程配置信息。
具体地,获取业务需求信息之后,参见图6,还包括如下步骤:
S710、基于所属业务场景,确认所属业务场景;
S720、判断预设流程配置管理库中所属场景下是否存在流程配置模板。
S730、若存在流程配置模板,则将当前业务需求信息同已有流程配置模板对应的业务需求信息进行相似度匹配,判断最高相似度是否达到预设阈值。
S740、若最高相似度达到预设阈值,将相似度最高的业务需求信息对应的流程配置模板作为目标流程配置模板。
S750、根据目标流程配置模板,获取对应流程配置信息。
S760、若不存在流程配置模板或者最高相似度未达到预设阈值,则通过预设的方法对业务需求信息进行解析。
在本申请实施例中,获取到业务需求信息后,会根据业务需求信息判断所属场景下是否已存有流程配置模板,若没有,则会按部就班地对业务需求进行解析并选取所需组件,以获取流程配置信息。
若所属场景下已存有流程配置模板,则会通过对业务需求信息同已有流程配置模板对应的业务需求信息进行相似度匹配,并获取相应的相似度结果,若最高相似度未能达到预设的阈值,同样地,会通过预设的方法对业务需求信息进行解析,以选取组件并获取相应的流程配置信息。
若最高相似度达到预设,则会将相似度最高的业务需求信息对应的流程配置模板作为目标流程配置模板,然后根据目标流程配模板来获取流程配置信息,以进行相应数据处理。
本申请实施例还提供了一种基于流批一体的多维数据处理系统,参见图7,该系统包括:信息获取模块101、数据组件获取模块102、算子组件获取模块103、流程配置模块104。
其中,信息获取模块101,用于获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑。
数据组件获取模块102,用于基于数据字段,从预设组件库中提取数据源和数据宿。
算子组件获取模块103,用于基于数据处理逻辑,从预设组件库中匹配出相应算子。
流程配置模块104,用于对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
在本申请实施例中,信息获取模块101具体用于获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取关键词以及数据关联规则等信息,然后确认所需的关键数据字段以及数据处理过程用到的算法逻辑获取。
数据组件获取模块102具体用于用于根据信息获取模块101获取到的数据字段,从预设组件库中选取相应的数据源和数据宿,以确定数据处理框架构建的数据来源以及数据的输出。
算子组件获取模块103具体用于根据信息获取模块101获取的数据处理逻辑,从预设组件库中匹配出相应算子,以确定数据处理过程需要对数据进行何种操作。
流程配置模块104具体用于将数据组件获取模块102获取的数据源和数据宿,以及算子组件获取模块103获取的算子进行流程化拼接,获取流程配置信息,相当于梳理数据的数入、数据的输出以及中间的数据处理过程,以构成一个完整的数据处理模型。
本申请实施例还提供一种计算机可读存储介质,存储有能够被处理器加载并执行上述一种基于流批一体的多维数据处理方法的计算机程序。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (10)
1.一种基于流批一体的多维数据处理方法,应用在金融行业信用卡业务中,其特征在于,包括:
获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑;
基于数据字段,从预设组件库中提取数据源和数据宿;
基于数据处理逻辑,从预设组件库中匹配出相应算子;
对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
2.根据权利要求1所述的一种基于流批一体的多维数据处理方法,其特征在于,所述业务需求信息还包括数据执行条件,对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑,包括:
对业务需求信息,通过预设的自然语言处理模型提取关键词;
基于关键词,通过预设的数据关联规则模型生成关联数据信息;
基于数据执行条件,通过预设的算子规则进行匹配,获取数据处理逻辑;
基于关联数据信息和数据处理逻辑,获取数据字段。
3.根据权利要求2所述的一种基于流批一体的多维数据处理方法,其特征在于,所述基于关联数据信息和数据处理逻辑,获取数据字段,包括:
基于关联数据信息和数据处理逻辑,确认数据生产者和数据消费者;
若数据生产者不止一个,则根据多个数据生产者,获取数据联合处理逻辑,以作为补充数据处理逻辑;
将补充数据处理逻辑添加到数据处理逻辑中,以形成新的数据处理逻辑;
基于关联数据信息和新的数据处理逻辑,获取数据字段。
4.根据权利要求3所述的一种基于流批一体的多维数据处理方法,其特征在于,所述基于数据字段,从预设组件库中提取数据源和数据宿,包括:
根据数据生产者和数据消费者,确定业务涉及的数据类型;
基于数据字段,获取数据传输通道信息;
根据数据传输通道信息和数据类型,从预设的组件库中匹配出对应的数据源和数据宿。
5.根据权利要求1所述的一种基于流批一体的多维数据处理方法,其特征在于,所述数据源包括属性配置项,数据宿包括配置字段名称,所述对数据源、算子和数据宿进行流程化拼接,获取流程配置信息,包括:
基于属性配置项,构建数据参数字段;
根据数据参数字段和算子,获取数据输出信息;
将数据输出信息同配置字段名称,通过预设的方法进行匹配,获取匹配结果;
判断匹配结果是否达到预设的阈值,
若是,则根据当前的数据源、算子以及数据宿,按照预设的方式进行流程连接,并添加相应的属性配置,以获取流程配置信息;
若否,则获取未能成功匹配的字段名称,并输入第一提示信息,所述第一提示信息表征的是流程配置失败,需进行相应调整。
6.根据权利要求1所述的一种基于流批一体的多维数据处理方法,其特征在于,所述业务需求信息包括所属业务场景,所述获取流程配置信息之后,还包括:
对流程配置信息通过预设的验证方法进行数据校验,并获取数据校验结果;
判断校验结果中是否包含有异常信息,
若是,则获取异常信息,并输出第二提示信息,所属第二提示信息表征的是数据验证失败,需进行相应调整;
若否,则将流程配置信息保存为与所属场景对应的流程配置模板,并将该流程配置模板存储到预设流程配置管理库中。
7.根据权利要求6所述的一种基于流批一体的多维数据处理方法,其特征在于,将该流程配置模板存储到预设流程配置管理库中之后,还包括:
将流程配置模板所对应的业务需求信息作为所属场景的下级标签;
将流程配置模板与所对应的业务需求信息进行关联存储;
基于流程配置模板对应的业务需求信息,通过预设的方式进行重组,以获取重组业务需求信息;
根据重组业务信息,通过预设的方法进行解析,并获取对应的流程配置模板;
将获取的流程配置模板与所对应的重组业务需求信息进行关联存储。
8.根据权利要求7所述的一种基于流批一体的多维数据处理方法,其特征在于,所述获取业务需求信息之后,还包括:
基于所属业务场景,确认所属业务场景;
判断预设流程配置管理库中所属场景下是否存在流程配置模板;
若存在流程配置模板,则将当前业务需求信息同已有流程配置模板对应的业务需求信息进行相似度匹配,判断最高相似度是否达到预设阈值;
若最高相似度达到预设阈值,将相似度最高的业务需求信息对应的流程配置模板作为目标流程配置模板;
根据目标流程配置模板,获取对应流程配置信息;
若不存在流程配置模板或者最高相似度未达到预设阈值,则通过预设的方法对业务需求信息进行解析。
9.一种基于流批一体的多维数据处理系统,其特征在于,包括:
信息获取模块(101),用于获取业务需求信息,并对业务需求信息通过预设的方法进行解析,获取数据字段和数据处理逻辑;
数据组件获取模块(102),用于基于数据字段,从预设组件库中提取数据源和数据宿;
算子组件获取模块(103),用于基于数据处理逻辑,从预设组件库中匹配出相应算子;
流程配置模块(104),用于对数据源、算子和数据宿进行流程化拼接,获取流程配置信息。
10.一种计算机可读存储介质,存储有能够被处理器加载并执行如权利要求1至8任一项所述的一种基于流批一体的多维数据处理方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230850.XA CN116383201A (zh) | 2023-03-11 | 2023-03-11 | 一种基于流批一体的多维数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310230850.XA CN116383201A (zh) | 2023-03-11 | 2023-03-11 | 一种基于流批一体的多维数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116383201A true CN116383201A (zh) | 2023-07-04 |
Family
ID=86972210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310230850.XA Pending CN116383201A (zh) | 2023-03-11 | 2023-03-11 | 一种基于流批一体的多维数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383201A (zh) |
-
2023
- 2023-03-11 CN CN202310230850.XA patent/CN116383201A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256074B (zh) | 校验处理的方法、装置、电子设备和存储介质 | |
CN111210842B (zh) | 语音质检方法、装置、终端及计算机可读存储介质 | |
CN109829629B (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN103294475A (zh) | 基于图形化业务场景和领域模板的业务自动生成系统和方法 | |
Baier et al. | Bridging abstraction layers in process mining by automated matching of events and activities | |
CN105979376A (zh) | 一种推荐方法和装置 | |
KR101679050B1 (ko) | 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법 | |
CN106681299A (zh) | 事件解析装置、事件解析系统、事件解析方法及事件解析程序 | |
CN108563734A (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
JP2004362223A (ja) | 情報マイニングシステム | |
US10679230B2 (en) | Associative memory-based project management system | |
CN115375380B (zh) | 一种基于属性分类的业务数据处理方法和处理装置 | |
CN111897528A (zh) | 一种面向企业在线教育的低代码平台 | |
US10956914B2 (en) | System and method for mapping a customer journey to a category | |
CN115600109A (zh) | 样本集优化方法及其装置、设备、介质、产品 | |
US20080059443A1 (en) | Method and system for the extraction of a data table from a data base, corresponding computer program product | |
US20150310011A1 (en) | Systems and methods for processing textual information to identify and/or name individual digital tracks or groups of digital tracks | |
CN117252186A (zh) | 基于xai的信息处理方法、装置、设备及存储介质 | |
CN115345600B (zh) | 一种rpa流程的生成方法和装置 | |
CN116383201A (zh) | 一种基于流批一体的多维数据处理方法及系统 | |
CN109710730B (zh) | 一种基于自然语言分析处理的巡视信息系统及分析方法 | |
CN111400187A (zh) | 基于定制数据源的参数动态化校验系统及方法 | |
CN116521158A (zh) | 一种联邦学习算法组件生成系统和装置 | |
CN113052544A (zh) | 工作流依用户行为智能适配方法、装置以及存储介质 | |
CN114662002A (zh) | 对象推荐方法、介质、装置和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |