CN106777243A - 一种流式数据分析的动态建模 - Google Patents

一种流式数据分析的动态建模 Download PDF

Info

Publication number
CN106777243A
CN106777243A CN201611226265.9A CN201611226265A CN106777243A CN 106777243 A CN106777243 A CN 106777243A CN 201611226265 A CN201611226265 A CN 201611226265A CN 106777243 A CN106777243 A CN 106777243A
Authority
CN
China
Prior art keywords
data
model
component
output
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611226265.9A
Other languages
English (en)
Inventor
李光学
张田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201611226265.9A priority Critical patent/CN106777243A/zh
Publication of CN106777243A publication Critical patent/CN106777243A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种流式数据分析的动态建模,属于大数据处理技术领域,本发明是在流式数据分析的过程动态构建计算模型。流式数据分析是指在进行多种数据来源的数据分析过程中,由数据产生驱动或者有秒级的定时调度驱动的数据分析过程,在这个过程中,由来源数据到分析结果之间的数据计算逻辑和数据转化关系在系统运行中可以进行变更,这种变更可以实时生效,在变更生效的这一刻起,流式数据分析已经按照新的数据计算逻辑和数据转化关系进行计算。

Description

一种流式数据分析的动态建模
技术领域
本发明涉及大数据处理技术,尤其涉及一种流式数据分析的动态建模。
背景技术
在大数据分析过程中或者大数据应用过程中,因为存在研究的过程或者对数据的关注点的变化,对数据常常要进行多次多维度分析,这是一个需求不断变化的过程,常用大数据分析手段,是提前构造好模型,再进一步观察分析结果,缺乏灵活性、时效性。
发明内容
为了解决以上问题,本发明提出了一种流式数据分析的动态建模。构建动态建模方法,为不断变化的需求提供数据支撑;解决大数据分析过程中模型的动态构建过程,而且把这一过程应用在流计算领域。
在流式数据分析的过程动态构建计算模型。流式数据分析是指在进行多种数据来源的数据分析过程中,由数据产生驱动或者有秒级的定时调度驱动的数据分析过程,在这个过程中,由来源数据到分析结果之间的数据计算逻辑和数据转化关系在系统运行中可以进行变更,这种变更可以实时生效,在变更生效的这一刻起,流式数据分析已经按照新的数据计算逻辑和数据转化关系进行计算。上述在系统运行中对数据计算逻辑和数据转化关系在系统运行中可以进行变更,这种变更可以实时生效,并实时影响流式数据分析为本发明的核心特征。
本发明的技术方案是
一种流式数据分析的动态建模,
主要包含三个组件:流数据接入组件、模型动态构建组件、数据输出组件,其中:
流数据接入组件:实现从多数据源导入数据到结构化的内存表中;
模型动态构建组件:实现模型描述文件的动态变更和读取,根据模型描述文件动态构建计算模型,并对结构化的内存表进行数据加工,加工后的数据调用数据输出组件输出;
数据输出组件:数据输出组件负责数据的输出,有三种方式:输出到内存、输出到数据库、输出到内存并定时持久化到数据库。
进一步的,
多数据源导入是预留了数据导入适配器开发接口,业务需要从哪种数据源导入数据,需要开发相应的适配器;结构化的内存表的结构是根据业务的特点定义的。
进一步的,
模型动态构建组件提供基于java的模型变更工具,在需要对模型进行变化时,负责读取模型数据、与操作者交互变更模型数据、保存模型数据到计算集群;动态构建计算模型的过程是实时在线,定时秒级调度的,每次调度首先拉取计算集群中的所有动态模型,并构建计算模型,之后对结构化的内存表数据,按照模型描述进行处理,处理过程输出到数据输出组件。
进一步的,
数据输出组件中的输出到内存是指流数据接入组件的结构以json形式保存在内存中,在其他系统需要数据结果时,能够直接读取结果;输出到内存并定时持久化到数据库数据的存储结果和读取方式都不变,只是定时调度结果保存到数据库中,防止数据丢失;输出到数据库并不管数据的读取,只是把数据持久化到数据库中。
本发明的有益效果是
在大数据分析过程中或者大数据应用过程中,更改模型重新进行计算往往带来巨大的成本,利用本发明可以直接节约掉这一块成本,并且在时效性、有效性等多个方面带来巨大的收益。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明包含三个主要组件:1、流数据接入组件、2、模型动态构建组件、3、数据输出组件,
各组件分别说明如下:
1、流数据接入组件:流数据接入组件,实现从多数据源导入数据到结构化的内存表中。
多数据源导入是预留了数据导入适配器开发接口,业务需要从哪种数据源导入数据,需要开发相应的适配器;结构化的内存表的结构是根据业务的特点定义的。需要注意的是数据来源是相对固定的,不会根据需求的变化,产生变化,所以流数据接入组件并不能动态构建,而且随着导入的业务数据种类的增多,进行增量更新
2、模型动态构建组件:此组件是本发明的核心组件,实现模型描述文件的动态变更和读取,根据模型描述文件动态构建计算模型,并对结构化的内存表进行数据加工,加工后的数据调用数据输出组件输出。
此组件提供基于java的模型变更工具,在需要对模型进行变化时,负责读取模型数据、与操作者交互变更模型数据、保存模型数据到计算集群;动态构建计算模型的过程是实时在线,定时秒级调度的,每次调度首先拉取计算集群中的所有动态模型,并构建计算模型,之后对结构化的内存表数据,按照模型描述进行处理,处理过程输出到数据输出组件。
3、数据输出组件:数据输出组件负责数据的输出,有三种方式:输出到内存、输出到数据库、输出到内存并定时持久化到数据库。
输出到内存是指流数据接入组件的结构仅仅以json形式保存在内存中,在其他系统需要数据结果时,能够直接读取结果;输出到内存并定时持久化到数据库数据的存储结果和读取方式都不变,只是定时调度结果保存到数据库中,防止数据丢失;输出到数据库并不管数据的读取,只是把数据持久化到数据库中。
本发明是在流式数据分析的过程动态构建计算模型。在这个过程中,由来源数据到分析结果之间的数据计算逻辑和数据转化关系在系统运行中可以进行变更。在变更生效的这一刻起,流式数据分析已经按照新的数据计算逻辑和数据转化关系进行计算。

Claims (4)

1.一种流式数据分析的动态建模,其特征在于,
主要包含三个组件:流数据接入组件、模型动态构建组件、数据输出组件,其中:
流数据接入组件:实现从多数据源导入数据到结构化的内存表中;
模型动态构建组件:实现模型描述文件的动态变更和读取,根据模型描述文件动态构建计算模型,并对结构化的内存表进行数据加工,加工后的数据调用数据输出组件输出;
数据输出组件:数据输出组件负责数据的输出,有三种方式:输出到内存、输出到数据库、输出到内存并定时持久化到数据库。
2.根据权利要求1所述的动态建模,其特征在于,
多数据源导入是预留了数据导入适配器开发接口,业务需要从哪种数据源导入数据,需要开发相应的适配器;结构化的内存表的结构是根据业务的特点定义的。
3.根据权利要求1所述的动态建模,其特征在于,
模型动态构建组件提供基于java的模型变更工具,在需要对模型进行变化时,负责读取模型数据、与操作者交互变更模型数据、保存模型数据到计算集群;动态构建计算模型的过程是实时在线,定时秒级调度的,每次调度首先拉取计算集群中的所有动态模型,并构建计算模型,之后对结构化的内存表数据,按照模型描述进行处理,处理过程输出到数据输出组件。
4.根据权利要求1所述的动态建模,其特征在于,
数据输出组件中的输出到内存是指流数据接入组件的结构以json形式保存在内存中,在其他系统需要数据结果时,能够直接读取结果;输出到内存并定时持久化到数据库数据的存储结果和读取方式都不变,只是定时调度结果保存到数据库中,防止数据丢失;输出到数据库并不管数据的读取,只是把数据持久化到数据库中。
CN201611226265.9A 2016-12-27 2016-12-27 一种流式数据分析的动态建模 Pending CN106777243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611226265.9A CN106777243A (zh) 2016-12-27 2016-12-27 一种流式数据分析的动态建模

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611226265.9A CN106777243A (zh) 2016-12-27 2016-12-27 一种流式数据分析的动态建模

Publications (1)

Publication Number Publication Date
CN106777243A true CN106777243A (zh) 2017-05-31

Family

ID=58921702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611226265.9A Pending CN106777243A (zh) 2016-12-27 2016-12-27 一种流式数据分析的动态建模

Country Status (1)

Country Link
CN (1) CN106777243A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609124A (zh) * 2017-09-15 2018-01-19 山东浪潮云服务信息科技有限公司 一种数据管理方法及数据管理平台
CN108681569A (zh) * 2018-05-04 2018-10-19 亚洲保理(深圳)有限公司 一种数据自动分析系统及其方法
CN110704480A (zh) * 2018-06-21 2020-01-17 马上消费金融股份有限公司 一种流式数据处理方法、系统及一种电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622418A (zh) * 2012-02-21 2012-08-01 北京联合大学 一种基于bp神经网络的预测装置及设备
CN105138665A (zh) * 2015-09-02 2015-12-09 东南大学 一种基于改进lda模型的互联网话题在线挖掘方法
CN105608758A (zh) * 2015-12-17 2016-05-25 山东鲁能软件技术有限公司 一种基于算法组态和分布式流计算的大数据分析平台装置及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622418A (zh) * 2012-02-21 2012-08-01 北京联合大学 一种基于bp神经网络的预测装置及设备
CN105138665A (zh) * 2015-09-02 2015-12-09 东南大学 一种基于改进lda模型的互联网话题在线挖掘方法
CN105608758A (zh) * 2015-12-17 2016-05-25 山东鲁能软件技术有限公司 一种基于算法组态和分布式流计算的大数据分析平台装置及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王德文等: "《电力用户侧大数据分析与并行负荷预测》", 《中国电机工程学报》 *
王继业等: "《智能配用电大数据需求分析与应用研究》", 《中国电机工程学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609124A (zh) * 2017-09-15 2018-01-19 山东浪潮云服务信息科技有限公司 一种数据管理方法及数据管理平台
CN108681569A (zh) * 2018-05-04 2018-10-19 亚洲保理(深圳)有限公司 一种数据自动分析系统及其方法
CN108681569B (zh) * 2018-05-04 2021-11-02 亚洲保理(深圳)有限公司 一种数据自动分析系统及其方法
CN110704480A (zh) * 2018-06-21 2020-01-17 马上消费金融股份有限公司 一种流式数据处理方法、系统及一种电子设备和存储介质

Similar Documents

Publication Publication Date Title
Costa et al. An industrial application of the SMED methodology and other lean production tools
CN106777243A (zh) 一种流式数据分析的动态建模
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
CN109657782A (zh) 运算方法、装置及相关产品
US11657302B2 (en) Model selection in a forecasting pipeline to optimize tradeoff between forecast accuracy and computational cost
CN111062472A (zh) 一种基于结构化剪枝的稀疏神经网络加速器及其加速方法
CN109685201A (zh) 运算方法、装置及相关产品
CN105094698A (zh) 一种基于历史监测数据的磁盘容量预测方法
CN110990121B (zh) 一种基于应用画像的Kubernetes调度策略
WO2021102891A1 (zh) 产品不良成因分析的系统和方法、计算机可读介质
CN102314336A (zh) 一种数据处理方法和系统
CN103678303A (zh) 用于数据库分组集查询的方法和系统
CN102685266B (zh) 区文件签名方法及系统
CN107169138B (zh) 一种面向分布式内存数据库查询引擎的数据分发方法
CN110019319B (zh) 数据查询方法及装置
CN103150157B (zh) 基于访存分歧的gpu核心程序重组优化方法
CN109784484A (zh) 神经网络加速方法、装置、神经网络加速芯片及存储介质
RU2016129653A (ru) Способ автоматизированного проектирования производства и эксплуатации прикладного программного обеспечения и система для его осуществления
US20200349433A1 (en) Streaming-based artificial intelligence convolution processing method and apparatus, readable storage medium and terminal
CN1289213A (zh) 无转置部件行列分离二维离散余弦变换/反变换vlsi结构及其方法
Pavlović et al. Synergy between Industry 4.0 and lean methodology
CN102455889B (zh) 一种获取进程输出日志的方法、装置及企业系统
CN112559514A (zh) 一种信息处理方法及系统
CN114998090A (zh) 一种光束法平差算法数字图像处理的加速方法及系统
WO2018228528A1 (zh) 一种批量化电路仿真方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531