CN109542985B - 一种通用流式数据分析模型及其构建方法 - Google Patents

一种通用流式数据分析模型及其构建方法 Download PDF

Info

Publication number
CN109542985B
CN109542985B CN201811422694.2A CN201811422694A CN109542985B CN 109542985 B CN109542985 B CN 109542985B CN 201811422694 A CN201811422694 A CN 201811422694A CN 109542985 B CN109542985 B CN 109542985B
Authority
CN
China
Prior art keywords
data
operator
analysis model
operators
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811422694.2A
Other languages
English (en)
Other versions
CN109542985A (zh
Inventor
辛颖梅
汪晓刚
郑雪原
赵熠
刁俊芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Skytech Technology Co ltd
Original Assignee
Nanjing Skytech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Skytech Technology Co ltd filed Critical Nanjing Skytech Technology Co ltd
Priority to CN201811422694.2A priority Critical patent/CN109542985B/zh
Publication of CN109542985A publication Critical patent/CN109542985A/zh
Application granted granted Critical
Publication of CN109542985B publication Critical patent/CN109542985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种通用流式数据分析模型及其构建方法,构建方法包括:1)通过算子抽象,建立业务模型的基础构件;2)通过数据源参数配置,实现与数据源解耦,对于不同场景中的不同数据源,均可通过参数配置,调整模型所用到的数据源;3)通过配置算子的参数值,建立每个算子的计算规则;4)将各个算子连接,将前一个算子的计算结果作为输出,传递给后一个算子作为输入数据源,供后一个算子进行计算;5)重复步骤2)~4),直到完成算法模型构建。本发明通过算子抽象,实现业务模型的灵活建立;通过参数设置,实现同一模型的灵活复用。

Description

一种通用流式数据分析模型及其构建方法
技术领域
本发明涉及流式数据处理技术,具体涉及一种通用流式数据分析模型及其构建方法。
背景技术
现阶段针对流式数据的处理,普遍将数据分析算法实例化于代码层面。如此方式,一则,可支持的分析算法有限,如需再加或者调整必须通过编码实现,消耗工作量较大;再则,与实际业务数据绑定,所实现的算法局限性较大。因此,该类实时数据的分析模型实现方式较为死板,无法应对灵活多变的业务需求,且如此创建的分析模型无法复用于其他业务不同的项目中。
发明内容
本发明的目的在于针对在流式数据处理或实时数据分析场景,提供一种通用流式数据分析模型及其构建方法,将分析算法模型的创建与具体业务逻辑抽离,以达到分析模型灵活建立的目的,解决现阶段针对实时数据,采用将数据分析算法实例化于代码层面的实现方式所带来的工作量较大,需求变更应对不灵活的问题。
实现本发明目的的技术方案为:一种通用流式数据分析模型,数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果;将数据源和运算抽象为算子,所述数据分析模型包括:
开始算子,用于表明数据起始的开端;
数据源算子,用于选择所需进行数据分析的实时数据的类别;
过滤运算算子,该类下的算子主要针对实时数据过滤的逻辑;
中间库碰撞算子,该类算子针对需要与积累数据进行碰撞的场景;
流向算子,针对算法中流程描述,抽象出流向算子,用于标记数据处理的流向;
分支算子,用于标记根据上一步算子的运算结果下一步数据处理的流向;
告警算子,标记为该数据符合算法逻辑;
结束算子,数据行至该算子,即表示处理结束。
一种通用流式数据分析模型的构建方法,所述数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果,数据分析模型的构建方法包括以下步骤:
1)通过算子抽象,建立业务模型的基础构件;
2)通过数据源参数配置,实现与数据源解耦,对于不同场景中的不同数据源,均可通过参数配置,调整模型所用到的数据源;
3)通过配置算子的参数值,建立每个算子的计算规则;
4)将各个算子连接,将前一个算子的计算结果作为输出,传递给后一个算子作为输入数据源,供后一个算子进行计算;
5)重复步骤2)~4),直到完成算法模型构建。
与现有技术相比,本发明的显著优点为:(1)通过数据源配置方式实现与数据源解耦,对于不同场景中的不同数据源,均可通过配置的调整模型所用到的数据源;(2)通过算子抽象,实现业务模型的灵活建立;(3)通过参数设置,实现同一模型的灵活复用;对于现有分析模型的调整,或者新增模型,无需改动代码,且应对迅速;与具体业务场景解耦,可复用于其他不同业务创建的项目中;(4)分析模型的创建,无需通过硬编码实现,节省大量开发工作。
附图说明
图1是特定数据采集模型示意图。
图2是特定数据采集模型中特定值判断逻辑设置示意图。
具体实施方式
现阶段针对数据的处理的需求层出不穷,各类分析模型也应运而生,而就实现方式而言,考虑到业务场景不同,有些通过硬编码实现,而另一些通过建模实现。本发明属于后者,采用模型搭建的方式设计出分析模型。与本发明相类似的有ETL工具,其创建的分析任务,均通过各类职责单一的算子按流程连接而成,从而形成完整的数据分析流程。
本发明中,一方面,将数据源格式作为配置参数实现可配置;另一方面,将分析算法化整为零,拆分为多个单一职责的分析算子,通过不同职责的算子排列组合和参数设置,实现完整的分析算法。最后,针对模型中的条件采用参数的方式取代具体的值,使用时针对具体业务设置相应的值,以实现模型的灵活复用。
算法的实现非直接整体实现,将整体算法模型化整为零,用粒度单一的各类算子,按算法执行逻辑搭建而成。以此类推,其他分析模型也可通过算子组装生成,而无需硬编码。
模型的复用是通过参数设置实现,同一场景针对不同的对象,可通过赋予不同的参数值来实现模型复用。
下面对本发明内容进行详细说明。
本发明提供一种通用流式数据分析模型,数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果;将数据源和运算抽象为算子,所述算子是指能够根据输入独立完成完整计算的功能模块,所述数据分析模型包括:
开始算子,用于表明数据起始的开端;
数据源算子,用于选择所需进行数据分析的实时数据的类别;
过滤运算算子,该类下的算子主要针对实时数据过滤的逻辑;
中间库碰撞算子,该类算子针对需要与积累数据进行碰撞的场景;
流向算子,针对算法中流程描述,抽象出流向算子,用于标记数据处理的流向;
分支算子,用于标记根据上一步算子的运算结果确定下一步数据处理的流向;
告警算子,标记为该数据符合算法逻辑;
结束算子,数据行至该算子,即表示处理结束。
本发明还提供一种通用流式数据分析模型的构建方法,所述数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果,数据分析模型的构建方法包括以下步骤:
1)通过算子抽象,建立业务模型的基础构件;
2)通过数据源参数配置,实现与数据源解耦,对于不同场景中的不同数据源,均可通过参数配置,调整模型所用到的数据源;具体过程为;
各类数据源通过以下信息进行描述,包括:数据源名称、数据源格式、数据字段名称、数据字段类型、数据字段长度、数据字段分割方式、数据记录分割方式,均录入到配置表中,软件层面以加载配置表中信息取代直接写入代码中。
3)通过配置算子的参数值,建立每个算子的计算规则;
4)将各个算子连接,将前一个算子的计算结果作为输出,传递给后一个算子作为输入数据源,供后一个算子进行计算;
5)重复步骤2)~4),直到完成算法模型构建。
其中,算子抽象的具体过程为;
将每步运算均进行抽象,按不同的功能抽象为如下几类:
开始类算子,用于表示数据起始的开端;
数据源算子,用于选择所需进行数据分析的实时数据的类别;
过滤运算算子,该类下的算子用于表示实时数据过滤的逻辑;过滤运算算子包含以下算子:等于、不等于、属于、不属于、前模糊等于、后模糊等于和全模糊等于。
中间库碰撞算子,该类算子用于需要与积累数据进行碰撞的场景;中间库碰撞算子包括数据总数查询、数据条件查询、数据更新、数据插入、数据删除。
流向算子,针对算法中流程描述,抽象出流向算子,用于标记数据处理的流向;
分支算子,用于标记根据上一步算子的运算结果确定下一步数据处理的流向;
告警算子,标记为该数据符合算法逻辑;
结束算子,数据行至该算子,即表示处理结束。
下面通过具体实施例和附图对本发明进行详细说明。
实施例
针对【特定数据采集】这一算法,如图1、图2所示,模型执行逻辑如下:
①实时流数据接入后,系统按数据源算子的设定,过滤去未被指定的数据源数据,随后执行步骤②。
②数据流经运算算子,执行字段比对判断:该条数据中的待判断字段值是否“等于”设置的特定值。接着执行步骤③。
③根据步骤②的执行结果,数据在分支算子,按设定的执行路径继续向下执行。如数据满足步骤②的执行条件,则执行步骤④;否则执行步骤⑥。
④数据流经“数据入中间库”这一中间库碰撞算子,系统按该算子设置的数据字段和数据库字段的映射关系,将该条数据插入到指定的中间库中。随后执行步骤⑤。
⑤系统根据“告警”算子中所设定的展示内容模板,对结果数据进行组装以服务展现的需要,随后执行步骤⑥。
⑥模型执行完毕,终止对该条数据的处理。

Claims (6)

1.一种通用流式数据分析模型的构建方法,其特征在于,所述数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果,数据分析模型的构建方法包括以下步骤:
1)通过算子抽象,建立业务模型的基础构件;算子抽象的具体过程为;
将每步运算均进行抽象,按不同的功能抽象为如下几类:
开始类算子,用于表示数据起始的开端;
数据源算子,用于选择所需进行数据分析的实时数据的类别;
过滤运算算子,该类下的算子用于表示实时数据过滤的逻辑;
中间库碰撞算子,该类算子用于需要与积累数据进行碰撞的场景;数据流经中间库碰撞算子,系统按该算子设置的数据字段和数据库字段的映射关系,将该条数据插入到指定的中间库中;
流向算子,针对算法中流程描述,抽象出流向算子,用于标记数据处理的流向;
分支算子,用于标记根据上一步算子的运算结果得到下一步数据处理的流向;
告警算子,标记为该数据符合算法逻辑;
结束算子,数据行至该算子,即表示处理结束;
2)通过数据源参数配置,实现与数据源解耦,对于不同场景中的不同数据源,通过参数配置,调整模型所用到的数据源;
各类数据源通过以下信息进行描述,包括:数据源名称、数据源格式、数据字段名称、数据字段类型、数据字段长度、数据字段分割方式、数据记录分割方式,上述信息均录入到配置表中,软件层面以加载配置表中信息取代直接写入代码中;
3)通过配置算子的参数值,建立每个算子的计算规则;
4)将各个算子连接,将前一个算子的计算结果作为输出,传递给后一个算子作为输入数据源,供后一个算子进行计算;
5)重复步骤2)~4),直至完成算法模型构建。
2.根据权利要求1所述的通用流式数据分析模型的构建方法,其特征在于,过滤运算算子包含以下算子:等于、不等于、属于、不属于、前模糊等于、后模糊等于和全模糊等于。
3.根据权利要求1所述的通用流式数据分析模型的构建方法,其特征在于,中间库碰撞算子包括数据总数查询、数据条件查询、数据更新、数据插入、数据删除。
4.一种构建通用流式数据分析模型的系统,其特征在于,数据分析模型由多步运算按序组成,从数据源流入,经数步运算后得出结果;将数据源和运算抽象为算子,所述数据分析模型包括:
开始算子,用于表示数据起始的开端;
数据源算子,用于选择所需进行数据分析的实时数据的类别;
过滤运算算子,该类下的算子用于表示实时数据过滤的逻辑;
中间库碰撞算子,该类算子针对需要与积累数据进行碰撞的场景;数据流经中间库碰撞算子,系统按该算子设置的数据字段和数据库字段的映射关系,将该条数据插入到指定的中间库中;
流向算子,用于算法中流程描述,抽象出流向算子,用于标记数据处理的流向;
分支算子,用于标记根据上一步算子的运算结果得到下一步数据处理的流向;
告警算子,标记为该数据符合算法逻辑;
结束算子,数据行至该算子,即表示处理结束;
数据分析模型的构建方法包括以下步骤:
1)通过算子抽象,建立业务模型的基础构件;
2)通过数据源参数配置,实现与数据源解耦,对于不同场景中的不同数据源,通过参数配置,调整模型所用到的数据源;
各类数据源通过以下信息进行描述,包括:数据源名称、数据源格式、数据字段名称、数据字段类型、数据字段长度、数据字段分割方式、数据记录分割方式,上述信息均录入到配置表中,软件层面以加载配置表中信息取代直接写入代码中;
3)通过配置算子的参数值,建立每个算子的计算规则;
4)将各个算子连接,将前一个算子的计算结果作为输出,传递给后一个算子作为输入数据源,供后一个算子进行计算;
5)重复步骤2)~4),直至完成算法模型构建。
5.根据权利要求4所述的构建通用流式数据分析模型的系统,其特征在于,过滤运算算子包含以下算子:等于、不等于、属于、不属于、前模糊等于、后模糊等于和全模糊等于。
6.根据权利要求4所述的构建通用流式数据分析模型的系统,其特征在于,中间库碰撞算子包括数据总数查询、数据条件查询、数据更新、数据插入、数据删除。
CN201811422694.2A 2018-11-27 2018-11-27 一种通用流式数据分析模型及其构建方法 Active CN109542985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811422694.2A CN109542985B (zh) 2018-11-27 2018-11-27 一种通用流式数据分析模型及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811422694.2A CN109542985B (zh) 2018-11-27 2018-11-27 一种通用流式数据分析模型及其构建方法

Publications (2)

Publication Number Publication Date
CN109542985A CN109542985A (zh) 2019-03-29
CN109542985B true CN109542985B (zh) 2023-09-19

Family

ID=65850327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811422694.2A Active CN109542985B (zh) 2018-11-27 2018-11-27 一种通用流式数据分析模型及其构建方法

Country Status (1)

Country Link
CN (1) CN109542985B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020720B (zh) * 2019-04-01 2021-05-11 中科寒武纪科技股份有限公司 算子拼接方法及装置
CN110609999B (zh) * 2019-08-07 2023-08-11 创新先进技术有限公司 舆情监控系统的冷启动方法及装置
CN114138257A (zh) * 2022-02-08 2022-03-04 中国电子科技集团公司第十五研究所 一种应用构建方法及计算机可读存储介质
CN114995876B (zh) * 2022-07-18 2022-10-28 浙江大华技术股份有限公司 算法方案的生成方法、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126643A (zh) * 2016-06-23 2016-11-16 北京百度网讯科技有限公司 流式数据的分布式处理方法和装置
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN108683560A (zh) * 2018-05-15 2018-10-19 中国科学院软件研究所 一种大数据流处理框架的性能基准测试系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2936626B1 (fr) * 2008-09-30 2011-03-25 Commissariat Energie Atomique Dispositif de traitement en parallele d'un flux de donnees

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126643A (zh) * 2016-06-23 2016-11-16 北京百度网讯科技有限公司 流式数据的分布式处理方法和装置
CN108628605A (zh) * 2018-04-28 2018-10-09 百度在线网络技术(北京)有限公司 流式数据处理方法、装置、服务器和介质
CN108683560A (zh) * 2018-05-15 2018-10-19 中国科学院软件研究所 一种大数据流处理框架的性能基准测试系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adaptive load shedding via fuzzy control in data stream management systems;Can Basaran等;《2012 Fifth IEEE International Conference on Service-Oriented Computing and Applications (SOCA)》;20130207;1-8 *
复杂事件模式检测与CEP测试数据生成算法研究;赵会群等;《计算机学报》;20160424;第40卷(第01期);256-272 *
大数据流查询框架与算子算法研究;蒋晨晨;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215(第02期);I138-2393 *

Also Published As

Publication number Publication date
CN109542985A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109542985B (zh) 一种通用流式数据分析模型及其构建方法
Persson et al. A characterization of integrated multi-view modeling in the context of embedded and cyber-physical systems
CN108829024B (zh) 一种plc程序生成方法及系统
CN105389402A (zh) 一种面向大数据的etl方法和装置
CN104331285A (zh) 一种代码自动生成方法及系统
CN105700888A (zh) 一种基于jbpm工作流引擎的可视化快速开发平台
CN104573063A (zh) 一种基于大数据的数据分析方法
JP2008532154A5 (zh)
CN106548326B (zh) 衔接受理场景和办理场景的工作流引擎的方法及其系统
WO2015094269A1 (en) Hybrid flows containing a continuous flow
US20100162203A1 (en) Project management device and method for architecture modeling tool of application software on autosar and computer readable recording medium therefor
Burd et al. Extracting reusable modules from legacy code: Considering the issues of module granularity
CN106557881B (zh) 一种基于业务活动执行顺序的业务流程系统构建方法
US5781454A (en) Process modeling technique
CN114385816A (zh) 对话流挖掘方法、装置、电子设备及计算机存储介质
CN108874395A (zh) 一种组件化流处理过程中的硬编译方法及装置
CN115130333B (zh) 一种数字孪生模型合并方法
CN108763127B (zh) 源数据与目标数据相互转换的Modbus适配器的实现方法
CN108399188B (zh) 一种基于类型元数据的强业务对象的通用建立和处理方法
CN114140047B (zh) 一种系统物料清单生成方法、系统、存储介质及设备
CN113001538B (zh) 一种命令解析方法及系统
CN110427370B (zh) 一种专家知识库及其平台的设计方法
CN112035169B (zh) 跳转处理方法及装置、计算机设备及计算机可读存储介质
CN113204811A (zh) 一种关联或追溯bim模型修改前后信息的方法
CN108171336B (zh) 机器数据模型演化的自动感知方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230815

Address after: No. 265 Tianpu Road, Jiangbei New District, Nanjing, Jiangsu Province, 211800

Applicant after: NANJING SKYTECH TECHNOLOGY CO.,LTD.

Address before: 211800 No.26 Tianpu Road, economic development zone, Jiangbei new district, Nanjing City, Jiangsu Province

Applicant before: JIANGSU SKYTECH INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant