CN113112333A - 一种数据流处理方法及系统 - Google Patents
一种数据流处理方法及系统 Download PDFInfo
- Publication number
- CN113112333A CN113112333A CN202110457514.XA CN202110457514A CN113112333A CN 113112333 A CN113112333 A CN 113112333A CN 202110457514 A CN202110457514 A CN 202110457514A CN 113112333 A CN113112333 A CN 113112333A
- Authority
- CN
- China
- Prior art keywords
- commodity
- recommendation
- data
- data stream
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims abstract description 62
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 13
- 230000005484 gravity Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000243 solution Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种数据流处理方法及系统,所述方法包括:拟定一项业务流程;将业务流程转换成对应的实体数据流程;通过数据流程设计器分别设定实体数据流程中各个功能模型;待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。通过本发明的技术方案能够快速构建企业应用,并将传统的应用代码开发重心转移到具体的业务流程、业务规则和业务逻辑上,进而有效提高企业应用的开发效率,降低开发成本。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据流处理方法及系统。
背景技术
随着现代科技的不断进步,利用应用软件来完成日常的事务已渐渐成为人们普遍的生活方式。因此,也需要软件开发人员能够快速的更新和设计出越来越多的业务应用软件以满足人们的需求。目前,市场上的开发业务应用软件都是依靠传统的手工编码来完成的,尤其针对电子商务的业务数据流和企业内部的审核业务工作流,为了满足各行各业的特定需求,需要自行设计适合于自身的数据流应用程序,如H5应用等。采用手工编码方式来完成一个业务应用开发需要耗费很长的时间,不仅开发效率低,而且开发成本高。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种数据流处理方法及系统。
为了实现上述目的,本发明第一方面提出一种数据流处理方法,所述方法包括:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
本方案中,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
本方案中,由推荐模型基于对应的推荐算法推送适配该用户的商品,具体包括:
通过Sparksession.read方法将业务数据由业务数据库读取至Spark,随后将业务数据结构转化成RDD模式,并作为训练数据trainData;
基于ALS算的其它参数rank、iterations和lambda,并根据RMSE的计算选取多组参数进行调参,选取RMSE中最小的一组参数值,即获取最终的训练的离线推荐模型;其中lambda为正则化参数,iterations为迭代次数,rank为隐语义模型中隐性特征的个数,RMSE为均方误差的算术平方根即预测值与真实值之间的误差;
待取得最终的离线推荐模型后,进行用户推荐矩阵的计算,将用户矩阵与物品矩阵进行笛卡尔积的计算得到用户对物品的预测评分数据;
将所述预测评分数据带入上述离线推荐模型进行训练,得到预测评分的矩阵;
将预测评分矩阵按照用户ID并采用Groupby函数进行分组分类以及降序排列,取前 n 个得到长度为 n的推荐矩阵列表,其中n取值范围为10-20;
将所述推荐矩阵列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
本方案中,由推荐模型基于对应的推荐算法推送适配该用户的商品,具体还包括:
计算得到商品的相似度推荐表,并根据相似度推荐表统计出用户当前操作的商品的相似商品,并作为备选商品,其中用户当前操作包括商品评分、商品加入购物车;
根据备选商品推荐优先级的计算方式对每一个备选商品分别计算推荐优先级评分;
按照推荐优先级评分进行降序排序,取前 m个备选商品形成推荐列表,其中m取值范围为10-20,并将所述推荐列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
本方案中,计算商品的相似度推荐表,具体包括:
根据商品的特征向量Productfeatures,计算每个商品特征向量的特征矩阵与另一个商品特征向量的特征矩阵进行笛卡尔积的计算;
将得到的笛卡尔积的计算结果根据相似度公式进行相似度计算,并输出相似度结果大于p的商品,即每一个商品跟一组相似度大于p的商品输出落入相似度推荐表中,其中p取值为0.8。
本方案中,根据备选商品推荐优先级的计算方式对每一个备选商品分别计算推荐优先级评分,具体包括:
获取该用户最近k次评分的商品,分别计算每个备选商品与k次评分的各个商品的相似度,
在首个备选商品的基础优先级评分上增加对应的奖励和惩罚偏移量,得出首个备选商品的最终推荐优先级分数;
重复上述步骤,依次计算得到每个备选商品的最终推荐优先级分数。
本方案中,在步骤4之后,所述方法还包括:
采集业务流程中产生的日志数据;
对采集的日志数据进行解析处理;
据不同的需求将解析的数据结果输出到相应的存储空间进行分类存储。
本方案中,对采集的日志数据进行解析处理,具体包括:
假设需要解析的数据流为data A,在现有需要解析的数据流data A中增加一个空的数据流temp,该数据流temp开始时不存储任何数据,同时增加一个内部类的变量用来存储解析的算子γ;
在实时的代码解析逻辑中,增加一个对数据流temp的解析,在需要更新解析逻辑时,通过注入的方式将最新的解析逻辑注入到数据流temp中;
通过解析数据流temp中的数据,获取针对当前数据流的解析逻辑,并更新为γ 的值;
在解析数据流data A 时,则使用最新的解析逻辑来处理数据,实现解析逻辑的实时控制。
本发明第二方面还提出一种数据流处理系统,所述数据流处理系统包括:存储器及处理器,所述存储器中包括一种数据流处理方法程序,所述数据流处理方法程序被所述处理器执行时实现如下步骤:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
本方案中,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
通过本发明的技术方案能够快速构建企业应用,并将传统的应用代码开发重心转移到具体的业务流程、业务规则和业务逻辑上,进而有效提高应用开发效率,降低开发成本。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种数据流处理方法的流程图;
图2示出了本发明一种业务操作流程图;
图3示出了本发明的业务操作流程对应的实体数据流程图;
图4示出了本发明的应用设计系统的技术架构图;
图5示出了本发明的业务日志数据流处理流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种数据流处理方法的流程图。
如图1所示,本发明第一方面提出一种数据流处理方法,所述方法包括:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
流程管理也称为数据流管理,数据流定义了一个业务的数据流转,如定义一个加入购物车的业务,业务操作流程如图2所示。
将上述业务流程中的操作对应成实体数据流转,则对应的实体数据流程如图3所示。转换完成后,即可在界面设计器中调用流程模块完成购物业务。
为了进一步方便开发人员进行应用开发,本发明还在设计器中预设有一些通用的流程模板以供开发人员进行引用,所谓的流程模板定义的是公共的业务流程,所有的应用均可使用。
另外为了满足不用开发人员以及不同应用开发的特殊需求,本发明的数据流程设计器还可以满足自定义流程设计。
具体操作过程中,当进入应用设计后台的应用界面后,点击业务建模-流程管理,选择我的流程或者流程模板TAB 页,点击新建流程,录入流程信息,流程信息中可选择手动创建或者引用模板,手动创建即自定义流程, 引用模板即引用流程模板中的流程。
引用流程模板,则可直接使用,例如在电商场景中,预定义了商品、订单、订单明细、物流等数据模型,用户在构建场景时,只需要快速根据模板创建即可,无需逐个模型手工创建;如果手动创建,则点击一个动作,即可在数据流程设计器中添加动作,并做设置。具体的动作以及功能说明如下:
查询数据:查询关联实体中的数据,可设置条件来指定需要查询的数据;
新建数据:往关联实体中新增数据,可设置各个字段的赋值规则;
更新数据:更新关联实体中数据,需要设置条件来指定需要更新的数据,通常是更新某一个或几个字段;
删除数据:删除关联实体中的数据,需要设置条件来指定需要删除的数据;
推送消息:根据设置的信息,流程执行到推送消息节点时,进行数据推送;
页面通知:根据设置的通知信息,流程执行到页面通知节点时,在对应页面弹出信息通知框(针对PC 页面和移动端H5 页面)。
可视化拖拽:让用户通过拖拽的方式,快速的构建复杂的业务流程。如商品入库流程,营销活动的代金券发放流程等。
提供API 的接入和接出能力,基于腾讯云API 网关整合应用设计系统本身的设计架构,实现将外部API 统一引入到万应工场,可以接入符合标准规范的外部API,同时将企业内部的API 按标准规范对外公开出去,可以将内部的任意数据流程公开为API,供外部的调用。
本发明的数据流程设计器也可以进行条件设置,则设置条件后,只有在满足条件下,才会查询出对应的数据,如果是查询当前用户的购物车信息,则需要查询数据的条件为:用户编号与当前登录用户编号相符;如果是加入购物车之前的查询购物车(判断当前购物车是否已经加入了该商品),则需要查询数据的条件为:用户编号与当前登录用户编号相符并且商品编号等于用户点击的商品编号。
另外,本发明的数据流程设计器设计的数据流程还可以进行计划任务的设定,所谓的计划任务用于设定需要指定时间执行的流程,如需求:待支付订单超过7 天,需要在晚上12 点将状态更新为已关闭。在实际操作过程中,则可以设计实体数据流程后,再设置计划任务并启用。
为了进一步解释本发明的技术方案,图4示出了应用设计系统的技术架构图。
所述应用设计系统包括数据层、基础框架层、具体应用层、界面展示层。
所述数据层由各种类型的数据组成统一的数据中心、为业务系统提供数据源和业务数据持久化支持。
基础框架层,包括运营和工具平台、PaaS(Platform as a Service),所述运营和工具平台包括各种运营管理模块(如应用管理、模板管理、流程管理等)以及各种设计器(如数据实体设计器、数据流程设计器、界面设计器等),所述运营和工具平台用于提供应用设计人员进行应用开发的平台环境。PaaS用于为所述运营和工具平台提供计算能力,如语音识别、图像识别、人脸识别、云函数等。
具体应用层,为应用设计人员根据运营和工具平台构建的各种应用,这些应用负责对具体业务逻辑处理、计算处理、数据驱动、业务协调等方面的工作。
界面展示层,负责信息展示和用户工作操作界面,具体的展示形态可以包括但不限于企业微信、微信小程序、微信公众号、PC应用。
基础框架层提供一个数据流程设计器,让用户通过拖拽的方式,快速的构建复杂的业务流程。如商品入库流程,营销活动的代金券发放流程等。数据流程设计器还可以支持大量动作节点,灵活扩展业务。具体可以支持对数据的增删改查、消息推送、手机验证码、订阅消息、Api 调用、支付回调、企业微信消息等多种流程动作,且动作本身支持插件式开发,可以快速扩展。
本发明的应用设计系统一方面将应用拆分为模块、界面、组件、事件、动作、计算单元等原子级的对象,便于灵活组合;另一方面将应用拆分为数据模型、业务模型、API 和界面,让应用基于模型驱动,实现数据和界面的解耦。因此上述应用设计系统具有很强的灵活性和业务沉淀能力。与此同时,上述应用设计系统还可以支持多种形态的应用构建,例如支持构建PC 管理后台、H5、企业微信、微信小程序、企业微信小程序、支付宝小程序等类型应用的构建。
根据本发明的具体实施例,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
需要说明的是,在业务流程运行之前,首先建立推荐模型,并设定所述推荐模型的推荐策略。
本发明构建了全新的数字一体化的推荐架构,其包含了离线推荐与实时推荐体系,下面对这两种推荐体系的实现原理进行说明。
如果采用离线推荐体系进行推荐,则由推荐模型基于对应的推荐算法推送适配该用户的商品,具体包括:
通过Sparksession.read方法将业务数据由业务数据库读取至Spark,随后将业务数据结构转化成RDD模式,并作为训练数据trainData;
基于ALS算的其它参数rank、iterations和lambda,并根据RMSE的计算选取多组参数进行调参,选取RMSE中最小的一组参数值,即获取最终的训练的离线推荐模型;其中lambda为正则化参数,iterations为迭代次数,rank为隐语义模型中隐性特征的个数,RMSE为均方误差的算术平方根即预测值与真实值之间的误差;
待取得最终的离线推荐模型后,进行用户推荐矩阵的计算,将用户矩阵与物品矩阵进行笛卡尔积的计算得到用户对物品的预测评分数据;
将所述预测评分数据带入上述离线推荐模型进行训练,得到预测评分的矩阵;
将预测评分矩阵按照用户ID并采用Groupby函数进行分组分类以及降序排列,取前 n 个得到长度为 n的推荐矩阵列表,其中n取值范围为10-20;
将所述推荐矩阵列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
可以理解,ALS(Alternating Least Square)为最小交替二乘法,通过将矩阵计算转化为另一个最优函数解的问题从而解决高低阶矩阵的计算困难,使用最小化误差的平方和计算方式完成函数的最佳匹配模式,ALS算法在每次迭代期间,保证一个因子矩阵恒定,另一个因子矩阵采用最小二乘法的方式求解。而在求解另一个因子矩阵时,保证新的求解的矩阵固定不变;Spark ALS的实现,在每次矩阵迭代的过程中为了减少相应的通讯消耗,仅不断传输两个因子矩阵(用户与物品)之一的矩阵进行计算。此做法实现通过预计算矩阵得出的元数据,从而得到一个meta矩阵。这样便可在用户和物品两个矩阵之间只传输一组特征向量,从而来更新矩阵的计算。
如果采用实时推荐体系进行推荐,则由推荐模型基于对应的推荐算法推送适配该用户的商品,具体包括:
计算得到商品的相似度推荐表,并根据相似度推荐表统计出用户当前操作的商品的相似商品,并作为备选商品,其中用户当前操作包括商品评分、商品加入购物车;
根据备选商品推荐优先级的计算方式对每一个备选商品分别计算推荐优先级评分;
按照推荐优先级评分进行降序排序,取前 m个备选商品形成推荐列表,其中m取值范围为10-20,并将所述推荐列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
进一步的,计算商品的相似度推荐表,具体包括:
根据商品的特征向量Productfeatures,计算每个商品特征向量的特征矩阵与另一个商品特征向量的特征矩阵进行笛卡尔积的计算;
将得到的笛卡尔积的计算结果根据相似度公式进行相似度计算,并输出相似度结果大于p的商品,即每一个商品跟一组相似度大于p的商品输出落入相似度推荐表中,其中p取值为0.8。
进一步的,根据备选商品推荐优先级的计算方式对每一个备选商品分别计算推荐优先级评分,具体包括:
获取该用户最近k次评分的商品,分别计算每个备选商品与k次评分的各个商品的相似度,
在首个备选商品的基础优先级评分上增加对应的奖励和惩罚偏移量,得出首个备选商品的最终推荐优先级分数;
重复上述步骤,依次计算得到每个备选商品的最终推荐优先级分数。
根据本发明的具体实施例在上述步骤4之后,所述方法还包括:
采集业务流程中产生的日志数据;
对采集的日志数据进行解析处理;
据不同的需求将解析的数据结果输出到相应的存储空间进行分类存储。
进一步的,对采集的日志数据进行解析处理,具体包括:
假设需要解析的数据流为data A,在现有需要解析的数据流data A中增加一个空的数据流temp,该数据流temp开始时不存储任何数据,同时增加一个内部类的变量用来存储解析的算子γ;
在实时的代码解析逻辑中,增加一个对数据流temp的解析,在需要更新解析逻辑时,通过注入的方式将最新的解析逻辑注入到数据流temp中;
通过解析数据流temp中的数据,获取针对当前数据流的解析逻辑,并更新为γ 的值;
在解析数据流data A 时,则使用最新的解析逻辑来处理数据,实现解析逻辑的实时控制。
日志解析算法的实现逻辑如图5所示,数据流处理主要分为数据的采集和解析,业务数据流主要是从各个业务系统实时采集对应的数,而逻辑数据流是在需要解析某个业务数据,传入业务流对应的解析逻辑;在数据解析环节首先获取解析逻辑的解析算子,从而实现对业务数据流解析的控制。
可以理解,程序的重新启动会中断正在运行的解析逻辑,有些数据实时性要求较高,中间重启程序会造成一些数据的缺失。上述解析方式设计了免更新、免重启的流控制算法。通过输入解析算子γ,算子γ 是可以实现数据流选择和各种解析业务逻辑的配置,里面通过设置一个参数source,实现对不同数据流的解析逻辑控制,并按照算子指定的执行逻辑输出结果。
本发明第二方面还提出一种数据流处理系统,所述数据流处理系统包括:存储器及处理器,所述存储器中包括一种数据流处理方法程序,所述数据流处理方法程序被所述处理器执行时实现如下步骤:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
需要说明的是,本发明的系统可以在PC、手机、PAD等终端设备中进行操作。
需要说明的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
根据本发明的具体实施例,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种数据流处理方法程序,所述数据流处理方法程序被处理器执行时,实现如上述的一种数据流处理方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据流处理方法,其特征在于,所述方法包括:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
2.根据权利要求1所述的数据流处理方法,其特征在于,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
3.根据权利要求2所述的数据流处理方法,其特征在于,由推荐模型基于对应的推荐算法推送适配该用户的商品,具体包括:
通过Sparksession.read方法将业务数据由业务数据库读取至Spark,随后将业务数据结构转化成RDD模式,并作为训练数据trainData;
基于ALS算的其它参数rank、iterations和lambda,并根据RMSE的计算选取多组参数进行调参,选取RMSE中最小的一组参数值,即获取最终的训练的离线推荐模型;其中lambda为正则化参数,iterations为迭代次数,rank为隐语义模型中隐性特征的个数,RMSE为均方误差的算术平方根即预测值与真实值之间的误差;
待取得最终的离线推荐模型后,进行用户推荐矩阵的计算,将用户矩阵与物品矩阵进行笛卡尔积的计算得到用户对物品的预测评分数据;
将所述预测评分数据带入上述离线推荐模型进行训练,得到预测评分的矩阵;
将预测评分矩阵按照用户ID并采用Groupby函数进行分组分类以及降序排列,取前 n个得到长度为 n的推荐矩阵列表,其中n取值范围为10-20;
将所述推荐矩阵列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
4.根据权利要求2所述的数据流处理方法,其特征在于,由推荐模型基于对应的推荐算法推送适配该用户的商品,具体还包括:
计算得到商品的相似度推荐表,并根据相似度推荐表统计出用户当前操作的商品的相似商品,并作为备选商品,其中用户当前操作包括商品评分、商品加入购物车;
根据备选商品推荐优先级的计算方式对每一个备选商品分别计算推荐优先级评分;
按照推荐优先级评分进行降序排序,取前 m个备选商品形成推荐列表,其中m取值范围为10-20,并将所述推荐列表返回至业务服务端,并通过业务客户端展现至对应的终端页面上。
5.根据权利要求4所述的数据流处理方法,其特征在于,计算商品的相似度推荐表,具体包括:
根据商品的特征向量Productfeatures,计算每个商品特征向量的特征矩阵与另一个商品特征向量的特征矩阵进行笛卡尔积的计算;
将得到的笛卡尔积的计算结果根据相似度公式进行相似度计算,并输出相似度结果大于p的商品,即每一个商品跟一组相似度大于p的商品输出落入相似度推荐表中,其中p取值为0.8。
7.根据权利要求1所述的数据流处理方法,其特征在于,在步骤4之后,所述方法还包括:
采集业务流程中产生的日志数据;
对采集的日志数据进行解析处理;
据不同的需求将解析的数据结果输出到相应的存储空间进行分类存储。
8.根据权利要求7所述的数据流处理方法,其特征在于,对采集的日志数据进行解析处理,具体包括:
假设需要解析的数据流为data A,在现有需要解析的数据流data A中增加一个空的数据流temp,该数据流temp开始时不存储任何数据,同时增加一个内部类的变量用来存储解析的算子γ;
在实时的代码解析逻辑中,增加一个对数据流temp的解析,在需要更新解析逻辑时,通过注入的方式将最新的解析逻辑注入到数据流temp中;
通过解析数据流temp中的数据,获取针对当前数据流的解析逻辑,并更新为γ 的值;
在解析数据流data A 时,则使用最新的解析逻辑来处理数据,实现解析逻辑的实时控制。
9.一种数据流处理系统,其特征在于,所述数据流处理系统包括:存储器及处理器,所述存储器中包括一种数据流处理方法程序,所述数据流处理方法程序被所述处理器执行时实现如下步骤:
步骤1,拟定一项业务流程;
步骤2,将业务流程转换成对应的实体数据流程;
步骤3,通过数据流程设计器分别设定实体数据流程中各个功能模型;
步骤4,待所述实体数据流程中的所有功能模型设计完成后,采用界面设计器中的调用流程模块完成该项业务。
10.根据权利要求9所述的数据流处理系统,其特征在于,所述业务流程为购物流程,所述购物流程包括如下步骤:
用户登录成功后,由推荐模型基于对应的推荐算法推送适配该用户的商品,并在商品推荐展示栏进行展示;
从商品推荐展示栏中选择一个商品,并将其加入到当前用户的购物车;
对购物车中的商品进行结算处理,并生成订单信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457514.XA CN113112333A (zh) | 2021-04-27 | 2021-04-27 | 一种数据流处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110457514.XA CN113112333A (zh) | 2021-04-27 | 2021-04-27 | 一种数据流处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113112333A true CN113112333A (zh) | 2021-07-13 |
Family
ID=76720192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110457514.XA Pending CN113112333A (zh) | 2021-04-27 | 2021-04-27 | 一种数据流处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112333A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296305A (zh) * | 2016-08-23 | 2017-01-04 | 上海海事大学 | 大数据环境下的电商网站实时推荐系统与方法 |
WO2020029401A1 (zh) * | 2018-08-09 | 2020-02-13 | 平安科技(深圳)有限公司 | 商品推荐方法、装置、计算机设备及计算机可读存储介质 |
CN110889046A (zh) * | 2019-11-27 | 2020-03-17 | 南京邮电大学 | 基于卷积神经网络的分布式实时推荐系统 |
CN112163163A (zh) * | 2020-10-14 | 2021-01-01 | 广州欢网科技有限责任公司 | 多算法融合的信息推荐方法、装置和设备 |
CN112348629A (zh) * | 2020-10-26 | 2021-02-09 | 邦道科技有限公司 | 一种商品信息推送方法和装置 |
CN112596997A (zh) * | 2020-12-29 | 2021-04-02 | 科技谷(厦门)信息技术有限公司 | 一种基于Flink实时计算的自动化流控制方法 |
-
2021
- 2021-04-27 CN CN202110457514.XA patent/CN113112333A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106296305A (zh) * | 2016-08-23 | 2017-01-04 | 上海海事大学 | 大数据环境下的电商网站实时推荐系统与方法 |
WO2020029401A1 (zh) * | 2018-08-09 | 2020-02-13 | 平安科技(深圳)有限公司 | 商品推荐方法、装置、计算机设备及计算机可读存储介质 |
CN110889046A (zh) * | 2019-11-27 | 2020-03-17 | 南京邮电大学 | 基于卷积神经网络的分布式实时推荐系统 |
CN112163163A (zh) * | 2020-10-14 | 2021-01-01 | 广州欢网科技有限责任公司 | 多算法融合的信息推荐方法、装置和设备 |
CN112348629A (zh) * | 2020-10-26 | 2021-02-09 | 邦道科技有限公司 | 一种商品信息推送方法和装置 |
CN112596997A (zh) * | 2020-12-29 | 2021-04-02 | 科技谷(厦门)信息技术有限公司 | 一种基于Flink实时计算的自动化流控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11038976B2 (en) | Utilizing a recommendation system approach to determine electronic communication send times | |
TW201822104A (zh) | 智能推薦方法及系統 | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN112115363A (zh) | 一种推荐方法、计算设备及存储介质 | |
CN110851699A (zh) | 基于深度强化学习的信息流推荐方法、装置、设备及介质 | |
WO2022100518A1 (zh) | 一种基于用户画像的物品推荐方法和装置 | |
CN101410864A (zh) | 行为瞄准系统 | |
CN105574051B (zh) | 更新用户所满足的规则的方法及处理系统 | |
KR102138843B1 (ko) | Ai 기반의 농축수산물 직거래 유통 서비스 시스템 및 방법 | |
CN108932625B (zh) | 用户行为数据的分析方法、装置、介质和电子设备 | |
CN112231533A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN107146095B (zh) | 一种邮件的展示信息处理方法、装置及邮件系统 | |
US9141708B2 (en) | Methods for generating selection structures, for making selections according to selection structures and for creating selection descriptions | |
CN115935185A (zh) | 一种推荐模型的训练方法及装置 | |
CN113658597B (zh) | 语音下单方法、装置、电子设备和计算机可读介质 | |
CN112150184A (zh) | 点击率预估方法及其系统、计算机系统及计算机可读介质 | |
CN113887783A (zh) | 仓储补货预测方法、装置、设备和存储介质 | |
CA2909957A1 (en) | Large-scale customer-product relationship mapping and contact scheduling | |
CN113112333A (zh) | 一种数据流处理方法及系统 | |
CN115599771A (zh) | 预计算模型生成方法、装置以及系统 | |
CN115169960A (zh) | 一种供应链风控处理方法及设备 | |
CN111460300B (zh) | 网络内容推送方法、装置及存储介质 | |
CN114385121A (zh) | 一种基于业务分层的软件设计建模方法及系统 | |
WO2018002664A1 (en) | Data aggregation and performance assessment | |
US20190392498A1 (en) | Recommendation engine and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |