CN105677691A - 巨量串流数据实时处理方法及其装置与应用系统 - Google Patents

巨量串流数据实时处理方法及其装置与应用系统 Download PDF

Info

Publication number
CN105677691A
CN105677691A CN201510411832.7A CN201510411832A CN105677691A CN 105677691 A CN105677691 A CN 105677691A CN 201510411832 A CN201510411832 A CN 201510411832A CN 105677691 A CN105677691 A CN 105677691A
Authority
CN
China
Prior art keywords
data
stream data
relational database
database
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510411832.7A
Other languages
English (en)
Inventor
王耀聪
叶宥琳
徐瑞兴
陈韋志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Etu Corp
Original Assignee
Etu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Etu Corp filed Critical Etu Corp
Publication of CN105677691A publication Critical patent/CN105677691A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/273Asynchronous replication or reconciliation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种巨量串流数据实时处理方法、执行该方法的串流数据处理引擎以及一种巨量串流数据实时处理系统,通过该方法可以将巨量串流数据进行实时性处理。作法上针对来自不同来源的关系数据库的各类数据进行实时处理,例如对各类数据进行判断与转换后存入另一非关系型数据中,以利后续实时查询或相关报表产生。进一步地,本发明亦依此为基础提出执行该方法所对应的装置架构,且更运用该方法与装置架构技术,为各产业增进产品、产线或服务的生命周期管理,例如在线游戏的绩效分析信息回馈,或例如半导体等制造业的阶段性制作过程合格率实时告警与对应处理建议。

Description

巨量串流数据实时处理方法及其装置与应用系统
技术领域
本发明涉及巨量数据实时处理与数据仓储技术领域,特别是关于一种巨量串流数据的实时处理方法及其装置与应用系统,以达到实时查询与实时告警等管理功效。
背景技术
企业以往利用数据分析辅助决策过程时,常面临一些问题,例如企业内部各个部门的信息系统在原始设计上常以达到该部门目标为主,各信息系统之间常个别独立且缺乏整合,导致各个数据孤井(datasilos)散落各地,造成企业“数据存得很多但真正具有情报价值的信息却不足”的情况。为了达到数据的统合与汇整,以提供必需信息协助决策者做成决策,企业常通过具有大量储存与快速分析等能力的“数据仓储(datawarehouse)”,将以往庞大、散落各地且无法深入整理分析的营运数据建立成为一个整合性数据库。通过数据仓储,企业可以灵活地分析、运用、探索各式数据,协助企业订定精准的营运决策。
数据仓储于产业界的运用,如图1所示。来自多个数据源10的数据,传统上会先汇整储存于一关系数据库11,之后这些数据以批次的方式经一ETL工具12进行萃取、转置与加载等前处理(pre-processing)后,汇入一数据仓储13,后续当有需要的时候,通过一批次分析运算工具14对数据仓储13中的数据进行进一步的分析以供查询(未显示)或产生一统计报表15。
上述数据仓储的运用,可执行于半导体领域的制造过程中(例如蚀刻、黄光等),或娱乐界的在线游戏生命周期管理等领域。若以半导体制造过程为例,该多个数据源10由多个生产机台构成,该多个生产机台持续产生的信息被传送至该关系数据库11,亦即该关系数据库11用以储存半导体制造过程中的数据,例如日志。在经验上,该关系数据库11其储存容量上限顶多为储存约14天左右的数据量,然而半导体业界多数制造过程的期间都长于14天,所以实际上的作法是,每天将关系数据库11中的数据经该ETL工具12进行数小时的前处理之后,转存至储存容量较大的该数据仓储13,经验上该资料仓储13的保存期限为约2年以上。当有需要的时候,存于该数据仓储13中的数据经该批次分析运算工具14进行进一步的处理,例如制造过程合格率的分析,之后分析结果可供第三方进行实时查询,甚至产出该统计报表15以作为决策之用。经验上该批次分析运算工具14的处理频率为每月执行一次,每次需时数小时以上。
上述传统作法存在一些缺点,例如从该多个数据源10至该关系数据库11这一段流程,因对半导体产业来说至关重要,所以实际上该段流程的设计非必要不会更动,在此情况下,该关系数据库11的容量不足以容纳整个完整制造过程的数据量,该关系数据库11也无法随意横向扩充。另外,汇存于关系数据库11的数据是以批次的方式,经该ETL工具12进行前处理,过程耗时,无法提供实时告警。此外,当该多个数据源10的数据量持续增加时,该数据仓储13亦需进行扩充,软件授权与硬件升级都将衍生庞大费用负担。以上情况皆不利半导体业达到“在合理成本管控下实时掌握制程状况”的目标。
类似的情况也发生在在线游戏领域。该多个数据源10的来源为多个玩家的装置端,例如手机、计算机或游戏机等,各玩家的游戏登入与付费等相关信息汇存于该关系数据库11,每天经该ETL工具12以批次的方式进行为时数小时的前处理后,转存入该数据仓储13。在线游戏运营商可根据一预设频率(例如每月),利用该批次分析运算工具14对存于数据仓储13的数据进行进一步的运算以供查询,或导出该统计报表15来协助在线游戏运营商管理产品的生命周期。由于在线游戏领域的产品生命周期越来越短,故亟需能“在合理成本条件下达成产品绩效实时分析”的方法与装置,以便优化产品组合,快速制订精准的市场营销策略。
有鉴于此,本案发明人感其目前的技术未臻完善而竭其心智苦心研究,并凭其从事该项产业多年的累积经验,提出全新的巨量串流数据实时处理方法与装置,以期改善上述传统技术存在的不足。
发明内容
鉴于上述问题,本发明的目的在于提供一种巨量串流数据实时处理方法及其系统架构,通过该方法可以将巨量串流数据进行实时性处理,同时还提出了执行该方法所对应的系统架构,且进一步地运用该方法与该系统架构,对来自各关系数据库的各式数据进行巨量串流数据的实时管理。
为了达到上述目的,本发明提出一种巨量串流数据实时处理方法,用于通过网络联机接收至少一关系数据库提供的多个串流数据并对其进行实时处理后,对应输出至至少一非关系数据库并储存,该方法包含以下步骤:根据网络联机的多个端口识别该关系数据库的数据种类;设定由该关系数据库传送的该多个串流数据的通讯模式为同步式模式或异步式模式;根据一主索引依序取得每笔递增的该多个串流数据;判断作为来源提供的该关系数据库与作为目的接收的该非关系数据库的数据型态是否一致,若一致则该多个串流数据无需转换;若不一致则将该多个串流数据转换成该非关系数据库的数据型态;及根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库。
在一较佳实施例中,为提高网络响应速度以及为降低系统各软件组件之间的耦合性,以利可独立发展及扩充部署架构,其中,在根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库步骤中,若该通讯模式为异步式,则将转换后或无须转换的该多个串流数据先暂存于一内存,直到该多个串流数据陆续于该内存存放至一预定数据状态时,一次性写入该非关系数据库。
为了达到前述目的,本发明亦提出一种可执行前述实时处理方法的串流数据处理引擎,包含:一端口识别模块,用于根据网络联机的多个端口识别该关系数据库的数据种类;一通讯模式设定模块,与该端口识别模块连接,通过该关系数据库的数据种类进一步分别设定由该关系数据库传送的该多个串流数据的通讯模式为同步式模式或异步式模式;一接收模块,与该通讯模式设定模块连接,并依序取得每笔递增的该多个串流数据;一转换模块,与该接收模块连接,用于判断作为来源提供的该关系数据库与作为目的接收的该非关系数据库的数据型态是否一致,若一致则该多个串流数据无需转换;若不一致则将该多个串流数据转换成该非关系数据库的数据型态;及一输出模块,与该接收模块连接,并根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库;其中,若该通讯模式为异步式,则将转换后或无须转换的该多个串流数据先暂存于一内存,直到该多个串流数据陆续于该内存存放为一预定数据状态时,一次性写入该非关系数据库。
进一步地,利用前述实时处理方法与串流数据处理引擎,本发明还提出一种巨量串流数据实时处理系统,其包含:一主数据库,为结构化数据库类型并含有多个串流数据;一从数据库,为结构化数据库;一备份器,与该主数据库和该从数据库连接,该备份器具有热备份功能,从而能够将该主数据库内的数据同步更新至该从数据库;一ETL工具,与该主数据库连接;一数据仓储,为结构化数据库类型并与该ETL工具连接,其中该主数据库提供的该多个串流数据经该ETL工具前处理后传送至该数据仓储储存;前述该串流数据处理引擎与该从数据库连接,其中该从数据库提供的该多个串流数据传送至该串流数据处理引擎;及一分布式数据库,为非结构化数据库类型并与该串流数据处理引擎连接供,以写入该串流数据处理引擎处理后的该多个串流数据。
于另一较佳实施例中为能供管理人员实时确认目标到达度、业绩管理程度、商业分析状况等报表,前述巨量串流数据实时处理系统还包含一实时提报单元,与该分布式数据库连接,用于实时提供该分布式数据库所存数据的一变异状态。在某些领域例如半导体制造过程中,为了达到更快速实时知悉晶圆制程合格率的目的,可先由数据仓储的该多个串流数据通过一批次分析运算工具处理后得一告警水平值,然后由该实时提报单元根据该告警水平值与上述该变异状态相互比对后,产生实时告警通知,以利后续管理人员进行相对应的实时处理。
本发明提出的巨量串流数据实时处理方法、装置与其系统,可达到秒速等级实时查询及实时告警等管理功效,同时因建构的是分布式的实时处理环境,亦可避免传统上须以高昂代价不断扩充软件授权与硬件升级来满足巨量数据处理的作法,进而大幅降低建置成本。
附图说明
图1为现有的运用数据仓储示意图;
图2为本发明较佳实施例的串流数据处理架构的方块示意图;
图3为本发明较佳实施例的串流数据处理引擎的方块示意图;
图4为本发明较佳实施例的巨量串流数据实时处理方法流程示意图(一);
图5A、5B为本发明较佳实施例的巨量串流数据实时处理方法流程示意图(二);
图6为本发明较佳实施例的巨量串流数据实时处理系统架构示意图。
附图标记说明:10-数据源;11-关系数据库;12-ETL工具;13-资料仓储;14-批次分析运算工具;15-统计报表;20、60-串流数据处理引擎;200-端口识别模块;201-通讯模式设定模块;202-接收模块;203-转换模块;204-输出模块;30-关系数据库;40-非关系数据库;61-主数据库;62-ETL工具;63-资料仓储;64-批次分析运算工具;65-统计报表;66-从数据库;67-备份器;68-分布式数据库;69-实时提报单元;S50、S51、S52、S53、S54、S530、S532、S540、S542、S5401、S5402、S5421、S5422-步骤。
具体实施方式
为使审查员能清楚了解本发明的内容,谨以下列说明搭配图式进行阐述。
如图2至图4所示,分别为本发明较佳实施例的串流数据处理架构的方块示意图、串流数据处理引擎的方块示意图及巨量串流数据实时处理方法流程示意图(一)。由如图4及图2所示,本发明提出一种巨量串流数据实时处理方法以及执行该方法的一种串流数据处理引擎20。其中该串流数据处理引擎20用于通过网络联机接收至少一关系数据库30提供的多个串流数据(图未标示)并对其进行实时数据转换后,对应输出至至少一非关系数据库40储存。由于该多个串流数据源源不绝产生大量数据,因此针对该多个串流数据以箭头表示其数据流动方向。与此不同的是,传统的关联数据处理为先将数据写入存在硬盘的表格中,并在应用程序发布查询要求时一并对硬盘内所有数据进行处理,再将查询结果暂存至内存。由于每次查询时皆需进行与此相同的运算处理,所以随着数据量的增加将导致运算效能降低,且在进行读写动作时会对硬盘进行存取,于是执行查询动作时将产生时间差而无法达到实时处理。所以,本发明提出的串流数据实时处理方法由于毋须将数据写入硬盘,因此可达到秒速等级的实时处理效果。其中,该关系数据库30为多个设置时,亦采用相同方式处理该多个串流数据。
如图2至图4所示,其中该巨量串流数据实时处理方法包含以下步骤,首先为了辨识由该多个关系数据库30传送的该多个串流数据种类,以利后续的转换处理及存入该非关系数据库40的对应设定,先根据网络联机的多个端口(图未标示)识别该多个关系数据库30的数据种类与格式。通过此方式可快速由常用或已经设定的端口确认该多个串流数据源属性,例如常用的FTP使用该端口21位置(port21),或HTTP使用该端口80位置(port80)等即为适例。又此部分关于该多个端口的概念为逻辑上存在而非实际硬件设置,故于图3的方块示意图中并未予以特别标示,上述说明即为步骤S50。
进一步地,为了提高网络响应速度,通过异步式作业为本发明接续选择的手段。所谓异步操作指业务间信息传递并非同时呼叫,而是将一个业务操作分成多个阶段,且每个阶段之间通过共享数据的方式异步进行协作。又,异步式作业亦可降低软件组件之间的耦合性,对于系统架构中各层的独立发展亦存在优点。所以,当前述利用该多个端口识别该多个关系数据库30的数据种类后,接续地进一步设定由该多个关系数据库30所传送的该多个串流数据的通讯模式为同步式模式或异步式模式,此即步骤S51。
再来即是根据一主索引依序取得每笔递增的该多个串流数据,此即步骤S52。由于该多个串流数据为由该多个关系数据库30提供的结构化数据,而鉴于该非关系数据库40可储存非结构化数据的特性与优点,例如以NoSQL数据库为说明,该种数据库以一个键(Key)对应到一个值(Value)的组合;或以一组键值(Key-Value)与追加键(ColumnFamily)来描述数据,因结构单纯,无需定义数据之间的关联性,且于初始亦无需对数据库结构事先定义而可弹性变更描述,故存在可储存数据量较大,扩充性较佳等优点。于是针对串流数据做转换,以存入非结构化数据为主的该非关系数据库40,为后续方法欲执行的步骤。
承前步骤,接续进一步判断作为来源提供的该多个关系数据库30与作为目的接收的该非关系数据库40的数据型态是否一致,即此步骤S53;若一致时则该多个串流数据无需转换,即此步骤S530;若不一致则将该多个串流数据转换成该非关系数据库40的数据型态,此即步骤S532。而当执行完该步骤S530及步骤S532后根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库40,此即步骤S54。
如图5A及图5B所示,为本发明较佳实施例的巨量串流数据实时处理方法流程示意图(二),此流程与图4架构相同,仅针对步骤S54再进一步为详细说明,因此针对相同的步骤内容,于此则不再赘述。首先,由于为满足企业组织型态中不同的信息系统,因此在该多个关系数据库中亦可能再细分为多个不同的异质类型的关系数据库,又针对不同的资安规范需求,以及对于后续引入整体系统架构时可增加其扩充性与网络响应速度,因此对于多数不同的异质类型的关系数据库所储存的数据,可再进一步针对该通讯模式设定为同步式或异步式。
经验上使用异步式通讯模式可改善网络的扩充性与系统效能,原理上可利用消息队列方式实现。亦即使用同步式通讯模式其数据将直接写入数据库中,当在高平行处理环境下,会对数据库造成极大负担,使得响应延迟加剧。但当采用消息队列方式后,对于外部请求或传送的数据发送给消息队列后将立即回传,再由消息队列的处理程序(通常情况下该处理程序系独立部署在专门的服务器群集上,可称之为消息队列服务器)取得数据并异步写入数据库中。由于该消息队列服务器处理速度远快于数据库,因此关于响应延迟部分可获得有效改善。由于该多个串流数据的处理并非将其写入硬盘中而直接在内存上做处理,同时对于前次所处理的结果将存成中期数据,下次便无须再重新全部处理,而只需对涌入内存的新数据与中期数据间差异(Diff)进行处理即可。是以,此种输入到结果输出间的延迟可控制在百万分之一秒的水平,进而实现每秒数十万至数百万笔数据的超高处理速度。
承前所述,关于步骤S54,根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库40。该步骤详细内容如下说明。首先需针对无须转换(步骤S530)或已转换(步骤S532)的该多个串流数据再进一步判断该通讯模式是否为同步式,此即步骤S540与步骤S542的判断式流程。后续于该步骤S540认定为同步式时,即将无须转换的该多个串流数据一次性写入该非关系数据库40,此即步骤S5401;反之,若该通讯模式为异步式,则将无须转换的该多个串流数据先暂存于一内存,并直到该多个串流数据陆续于该内存存放至对应的一预定数据状态时,一次性写入该非关系数据库40,此即步骤S5402。与此相同,对于经转换后的该多个串流数据于同步式与异步式的该通讯模式认定后,亦为相同的处理方式。即于该步骤S542认定为同步式时,即将转换后的该多个串流数据一次性写入该非关系数据库40,此即步骤S5421;反之,若该通讯模式为异步式,则将转换后的该多个串流数据先暂存于该内存,并直到该多个串流数据陆续于该内存存放至对应的该预定数据状态时,一次性写入该非关系数据库40,此即步骤S5422
如图3所示,该图所示的串流数据处理引擎即是用以执行如图4与图5A、图5B流程的装置。因此,以下仅对装置中各模块的连接关系为说明,至于执行的流程及运作方式与前示图4与图5A、图5B所述相同,故参阅前述说明内容而于此亦不再赘述。又该装置中的各该模块指例如计算机等计算器中的硬件设施以及与其协同运作的应用软件合并称之。
如图3所示,该串流数据处理引擎20包含一端口识别模块200、一通讯模式设定模块201、一接收模块202、一转换模块203及一输出模块204。其中该端口识别模块200用于根据网络联机的该多个端口识别该多个关系数据库30的数据种类与型态。该通讯模式设定模块201连接该端口识别模块200,并通过该多个关系数据库30的数据种类进一步分别设定由该多个关系数据库30传送的该多个串流数据的通讯模式为同步式模式或异步式模式。该接收模块202连接该通讯模式设定模块201,并依序取得每笔递增的该多个串流数据,以为后续实时性处理。亦即将该多个串流数据传送至该转换模块202,其中该转换模块202连接该接收模块202,用于判断作为来源提供的该多个关系数据库30与作为目的接收的该非关系数据库40的数据型态是否一致,若一致则该多个串流数据无需转换;若不一致则将该多个串流数据转换成该非关系数据库40的数据型态。最后,通过该输出模块204将数据传送至该非关联性数据库40。其中该输出模块204连接该接收模块202,并根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库40;进一步地,若该通讯模式为异步式,将转换后或无须转换的该多个串流数据先暂存于该内存,并直到该多个串流数据陆续于该内存存放为该预定数据状态时,一次性写入该非关系数据库40。
如图6所示为本发明较佳实施例的巨量串流数据的实时处理系统架构示意图。此架构结合如图2、图3所示的该串流数据处理引擎20,用以实现实时处理,因此执行方法亦包含如图4、图5A、图5B所示流程。如图所示,该巨量串流数据是实时处理系统包含:一主数据库61、一从数据库66、一备份器67、一ETL工具62、一数据仓储63、如前所述的一串流数据处理引擎60及一分布式数据库68。架构上其设置目的为欲将串流数据一分为两个相同内容的不同处理路径,以期实现实时处理目的并兼容传统数据仓储的管理功能,如此一来即可不破坏既有的架构又可具有独立扩充实时处理的功效。因此当该主数据库61设置为结构化数据库类型并提供多个串流数据时,该从数据库66亦设置为结构化数据库。接着通过该备份器67将二者进行数据同步化备份,该备份器67连接该主数据库61与该从数据库66,且该备份器67具有热备份功能,从而可将该主数据库61内的数据随时同步更新至该从数据库66,如此即可实现将两个相同内容分别为不同处理。
接续地,探究该主数据库61所提供的该多个串流数据,其传送路径为传送至该ETL工具62,且该ETL工具62连接该主数据库61,当该主数据库61提供的该多个串流数据经该ETL工具62前处理后再传送至该数据仓储63进行储存,且该数据仓储63亦为结构化数据库类型,而在一定周期下,该数据仓储所储存的信息可通过一批次分析运算工具64进行进一步处理,处理结果可选择性地呈现于一统计报表65。此部分系统架构与传统的架构兼容,但此架构无法达到实时警示或实时处理巨量该多个串流数据的功效。因此结合本发明前述所提出的该串流数据处理引擎60,针对该从数据库66所备份提供的该多个串流数据进行实时处理,而后再传送并写入该分布式数据库68。因此该串流数据处理引擎60亦连接该从数据库66,该分布式数据库68同为非结构化数据库类型并连接该串流数据处理引擎60,用于写入经该串流数据处理引擎60转换处理后的该多个串流数据。
进一步地,该巨量串流数据实时处理系统还包含有一实时提报单元69,该实时提报单元69连接该分布式数据库68,用于实时提供该分布式数据库68所存数据的一变异状态。其中所谓的该变异状态举例来说,例如于在线游戏领域中关于商业分析考虑所产出的玩家生命周期实时报表。又由于系统兼具有实时处理的功能,通过传统的系统架构可得知其管控的标准状态为何。所以,为了进行更有效率的监控与实时处理,可先通过该批次分析运算工具64与该数据仓储63连接,且该数据仓储63中的该多个串流数据通过该批次分析运算工具64进行处理后而得一告警水平值,该实时提报单元69再根据该告警水平值,与该变异状态相互比对后进行实时告警通知。以半导体制程为例,当蚀刻制程量测结果产生异常时,如发生过度蚀刻等状况,该系统可发出实时告警的主动性提示,而后续接收该实时告警通知的相关人员便可马上做出相对应的紧急处置与调整。
本发明的提出与其对应的功效主要针对现有技术所述架构存在的不足予以改善,以期得到较佳的实时性处理响应。严格来说,网络架构并非无中生有或毫无意义的独自存在,正确而言所有的网络架构与发展皆是为了解决及应对已不敷应对的实际状况,进而提出可资负荷的整体性架构。换言之,单就网络架构中的各软硬件概念予以细部拆解或许并非属新颖,但实际运作上将各基础概念结合并架构网络部署绝对是有其对应欲解决的目的而存在。所以,本发明的技术手段皆有其不可任意切割或随意拼装的完整性,否则将无法实现本发明所欲达到的功效。
以上所述仅为本发明的较佳实施例,并非用以限定本发明的保护范围,故该所属技术领域中具有通常知识者,或是熟悉此技术所作出的等效或轻易变化,例如为导入分布式应用服务、分布式静态资源、分布式数据储存与分布式计算等,而将系统架构为分层或分割并通过部署单一或多台服务器群集方式呈现,或操作流程的前后顺序调整等,在不脱离本发明范围下所作的均等置换与修饰,仍皆应涵盖于本发明的保护范围内。

Claims (6)

1.一种巨量串流数据实时处理方法,用于通过网络联机接收至少一关系数据库提供的多个串流数据并对其进行实时数据处理后,对应输出至至少一非关系数据库并储存,其特征在于,该方法包含以下步骤:
根据网络联机的多个端口识别该关系数据库的数据种类;
设定由该关系数据库传送的该多个串流数据的通讯模式为同步式模式或异步式模式;
根据一主索引依序取得每笔递增的该多个串流数据;
判断作为来源提供的该关系数据库与作为目的接收的该非关系数据库的数据型态是否一致,若一致则该多个串流数据无需转换,若不一致则将该多个串流数据转换成该非关系数据库的数据型态;及
根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库。
2.根据权利要求1所述的巨量串流数据实时处理方法,其特征在于,在根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库步骤中,若该通讯模式为异步式,则将转换后或无须转换的该多个串流数据先暂存于一内存,直到该多个串流数据陆续于该内存存放至一预定数据状态时,一次性写入该非关系数据库。
3.一种执行权利要求1或2所述方法的串流数据处理引擎,用于通过网络联机接收至少一关系数据库提供的多个串流数据并对其进行实时数据转换后,对应输出至至少一非关系数据库并储存,其特征在于,包含:
一端口识别模块,用于根据网络联机的多个端口识别该关系数据库的数据种类;
一通讯模式设定模块,与该端口识别模块连接,通过该关系数据库的数据种类进一步分别设定由该关系数据库传送的该多个串流数据的通讯模式为同步式模式或异步式模式;
一接收模块,与该通讯模式设定模块连接,并依序取得每笔递增的该多个串流数据;
一转换模块,与该接收模块连接,用于判断作为来源提供的该关系数据库与作为目的接收的该非关系数据库的数据型态是否一致,若一致则该多个串流数据无需转换,若不一致则将该多个串流数据转换成该非关系数据库的数据型态;及
一输出模块,与该接收模块连接,并根据该通讯模式将转换后或无须转换的该多个串流数据对应写入该非关系数据库;其中,若该通讯模式为异步式,则将转换后或无须转换的该多个串流数据先暂存于一内存,直到该多个串流数据陆续于该内存存放为一预定数据状态时,一次性写入该非关系数据库。
4.一种巨量串流数据实时处理系统,其特征在于,包含:
一主数据库,为结构化数据库类型并提供多个串流数据;
一从数据库,为结构化数据库;
一备份器,与该主数据库和该从数据库连接,该备份器具有热备份功能,从而能够将该主数据库内的数据同步更新至该从数据库;
一ETL工具,与该主数据库连接;
一数据仓储,为结构化数据库类型并与该ETL工具连接,其中该主数据库提供的该多个串流数据经该ETL工具前处理后传送至该数据仓储储存;
一根据权利要求3所述的串流数据处理引擎,与该从数据库连接,其中该从数据库提供的该多个串流数据传送至该串流数据处理引擎;及
一分布式数据库,为非结构化数据库类型并与该串流数据处理引擎连接,用于写入经该串流数据处理引擎处理后的该多个串流数据。
5.根据权利要求4所述的实时处理系统,其特征在于,还包含一实时提报单元,与该分布式数据库连接,用于实时提示该分布式数据库所存数据的一变异状态。
6.根据权利要求5所述的实时处理系统,其特征在于,该实时提报单元先将该数据仓储中的该多个串流数据通过一批次分析运算工具处理后得一告警水平值,再将该告警水平值与该变异状态相互比对后发出实时告警通知。
CN201510411832.7A 2014-12-05 2015-07-14 巨量串流数据实时处理方法及其装置与应用系统 Pending CN105677691A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103142344 2014-12-05
TW103142344A TWI550418B (zh) 2014-12-05 2014-12-05 Real - time processing method and device and application system of huge amount of streaming data

Publications (1)

Publication Number Publication Date
CN105677691A true CN105677691A (zh) 2016-06-15

Family

ID=56094523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510411832.7A Pending CN105677691A (zh) 2014-12-05 2015-07-14 巨量串流数据实时处理方法及其装置与应用系统

Country Status (5)

Country Link
US (1) US20160162550A1 (zh)
JP (1) JP6099712B2 (zh)
CN (1) CN105677691A (zh)
SG (1) SG10201509883TA (zh)
TW (1) TWI550418B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227791A (zh) * 2016-07-20 2016-12-14 广东电网有限责任公司 一种数据存储架构
CN107622062A (zh) * 2016-07-13 2018-01-23 天脉聚源(北京)科技有限公司 一种对大批量数据存储的方法和系统
CN111104441A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种数据采集方法及系统
CN111104416A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种分布式电力数据管理系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484691B (zh) * 2015-08-24 2019-12-10 阿里巴巴集团控股有限公司 移动终端的数据存储方法和装置
WO2017156624A1 (en) * 2016-03-14 2017-09-21 Rubikloud Technologies Inc. Method and system for persisting data
CN107341198B (zh) * 2017-06-16 2020-05-12 云南电网有限责任公司信息中心 一种基于主题实例的电力海量数据存储和查询方法
US10762109B2 (en) * 2018-07-27 2020-09-01 Salesforce.Com, Inc. Asynchronous deletion in non-relational databases
TWI681302B (zh) * 2018-10-01 2020-01-01 中華電信股份有限公司 用於服務資訊查詢之多層次快取查詢系統及方法
US12093316B2 (en) * 2019-01-31 2024-09-17 Hewlett Packard Enterprise Development Lp Partial file system instances
US11392541B2 (en) 2019-03-22 2022-07-19 Hewlett Packard Enterprise Development Lp Data transfer using snapshot differencing from edge system to core system
EP4071631A1 (en) * 2021-04-06 2022-10-12 Amadeus S.A.S. A system and method for exchanging and managing data stored in heterogeneous data sources

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049821A (en) * 1997-01-24 2000-04-11 Motorola, Inc. Proxy host computer and method for accessing and retrieving information between a browser and a proxy
CN1838771A (zh) * 2005-03-22 2006-09-27 联发科技股份有限公司 串流格式转换的系统、方法及数字电视记录装置
CN1904854A (zh) * 2005-07-28 2007-01-31 光宝科技股份有限公司 串流数据缓冲装置及其存取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179980A (ja) * 1994-12-26 1996-07-12 Hitachi Ltd 分散データベースシステム
US8108517B2 (en) * 2007-11-27 2012-01-31 Umber Systems System and method for collecting, reporting and analyzing data on application-level activity and other user information on a mobile data network
TW201102833A (en) * 2009-07-06 2011-01-16 Yi-Zhao Yang Method and system of website data sharing and updating among web servers
TW201220071A (en) * 2010-11-09 2012-05-16 Chunghwa Telecom Co Ltd for raising the treatment efficiency by using centralized management of resources stored in cloud platform space and cloud decentralization operation technique
WO2013069073A1 (ja) * 2011-11-07 2013-05-16 株式会社日立製作所 時系列データ管理システム、装置および方法
WO2014130392A1 (en) * 2013-02-21 2014-08-28 Net.Orange, Inc. System and method for visualizing patient treatment measures in a network environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049821A (en) * 1997-01-24 2000-04-11 Motorola, Inc. Proxy host computer and method for accessing and retrieving information between a browser and a proxy
CN1838771A (zh) * 2005-03-22 2006-09-27 联发科技股份有限公司 串流格式转换的系统、方法及数字电视记录装置
CN1904854A (zh) * 2005-07-28 2007-01-31 光宝科技股份有限公司 串流数据缓冲装置及其存取方法
CN100410896C (zh) * 2005-07-28 2008-08-13 光宝科技股份有限公司 串流数据缓冲装置及其存取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622062A (zh) * 2016-07-13 2018-01-23 天脉聚源(北京)科技有限公司 一种对大批量数据存储的方法和系统
CN106227791A (zh) * 2016-07-20 2016-12-14 广东电网有限责任公司 一种数据存储架构
CN106227791B (zh) * 2016-07-20 2020-02-07 广东电网有限责任公司 一种数据存储架构
CN111104441A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种数据采集方法及系统
CN111104416A (zh) * 2018-10-29 2020-05-05 中国电力科学研究院有限公司 一种分布式电力数据管理系统

Also Published As

Publication number Publication date
TWI550418B (zh) 2016-09-21
JP2016110620A (ja) 2016-06-20
SG10201509883TA (en) 2016-07-28
JP6099712B2 (ja) 2017-03-22
US20160162550A1 (en) 2016-06-09
TW201621711A (zh) 2016-06-16

Similar Documents

Publication Publication Date Title
CN105677691A (zh) 巨量串流数据实时处理方法及其装置与应用系统
Antonelli et al. Combining factory simulation with value stream mapping: a critical discussion
CN106649828B (zh) 一种数据查询方法及系统
CN110750650A (zh) 企业知识图谱的构建方法及装置
CN103955502A (zh) 一种可视化olap的应用实现方法及系统
CN111563130A (zh) 一种基于区块链技术的数据可信数据治理方法和系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN108415964A (zh) 数据表查询方法、装置、终端设备及存储介质
US20230067182A1 (en) Data Processing Device and Method, and Computer Readable Storage Medium
CN103218360A (zh) 工业实时数据库采用内存池技术实现动态内存管理的方法
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN107391611A (zh) 一种基于工作流的通用etl工具的过程模型生成方法
CN115098278B (zh) 一种基于微服务的数字孪生车间多场景交互方法
CN108446989B (zh) 手续费确定方法及终端设备
CN115080275A (zh) 一种基于实时数据模型的孪生服务组件及其方法
CN111177128B (zh) 基于改进的离群点检测算法的计量大数据批量处理方法及系统
Burduk et al. Simulation modeling in production effectiveness improvement–case study
Talib et al. A multi-agent framework for data extraction, transformation and loading in data warehouse
Liu et al. An approach based on improved grey model for predicting maintenance time of IPS2
CN109471892A (zh) 数据库集群数据处理方法及装置、存储介质和终端
CN113743695A (zh) 基于大数据的国际工程项目投标报价风险管理方法
Lu et al. Study of the shifting production bottleneck: possible causes and solutions
Siek Investigating inductive miner and fuzzy miner in automated business model generation
Long et al. Enterprise service remote assistance guidance system based on digital twin drive
CN112702376B (zh) 一种交易实时监控方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615