CN107305583B - 实时串流纪录数据分析系统与方法 - Google Patents

实时串流纪录数据分析系统与方法 Download PDF

Info

Publication number
CN107305583B
CN107305583B CN201610645282.XA CN201610645282A CN107305583B CN 107305583 B CN107305583 B CN 107305583B CN 201610645282 A CN201610645282 A CN 201610645282A CN 107305583 B CN107305583 B CN 107305583B
Authority
CN
China
Prior art keywords
data
module
exploration
distributed computing
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610645282.XA
Other languages
English (en)
Other versions
CN107305583A (zh
Inventor
陈志华
谢欣翰
林佳宏
官大胜
杨雅婷
谢佳珉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chunghwa Telecom Co Ltd
Original Assignee
Chunghwa Telecom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chunghwa Telecom Co Ltd filed Critical Chunghwa Telecom Co Ltd
Publication of CN107305583A publication Critical patent/CN107305583A/zh
Application granted granted Critical
Publication of CN107305583B publication Critical patent/CN107305583B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明有关于一种实时串流纪录数据分析系统与方法,是由多个使用者设备、多个在线网页服务器、多个在线数据库服务器以及多个管理者设备,以及系统内部的纪录数据搜集装置、多个分布式数据库、纪录数据分析模块、数据探勘主模块、分布式计算装置、快取数据库、以及组合节点装置构成;本发明可将纪录的串流数据加密或不加密再透过不同的探勘模块分布式的进行同步运算,并产制解密后的分析结果予管理者了解,更可将运算过程所得作为提升往后运算效率的系统与方法。

Description

实时串流纪录数据分析系统与方法
技术领域
本发明有关于一种实时串流纪录数据分析系统与方法。
背景技术
关于串流数据的纪录或分析系统与方法,已存在若干种现有技术,然而其各自有其力有未逮的短处。
首先,目前已存在一种跨层日志记录追踪系统与方法可以取得不同的日志数据源,纪录大量的日志数据和存取轨迹,并且作为犯罪追查的用途。然而,此方法虽然可可以纪录日志数据,但却无法对纪录进行分析,以及产制分析结果供管理者参考。
关于日志数据记录方法,是一种实时针对指定影像进行压缩和储存日志数据的方法;然而,其虽然可以纪录日志数据,也无法对纪录进行分析及产制分析结果。
最后,现存一种计量通讯网络流量方法,是可以侧录方式纪录封包,并适应不同种类的封包进行纪录,但相同的,分析及产制分析结果供管理者参考同样是无法透过此方法达成。
故应可知提供一种可以分析且产制结果,并非仅有纪录的实时串流数据系统,是此领域所急需的技术。
发明内容
本发明提供一种实时串流纪录数据分析系统,包含:
一纪录数据搜集装置,与外部在线网页服务器或外部在线数据库服务器连接,并依据格式解析被储存于外部在线网页服务器或外部在线数据库服务器中的外部多个使用者透过各自用户设备发出的网络服务要求以及被回复纪录;
多个分布式数据库,是用以储存经该纪录数据搜集装置解析后的用户网络服务要求与回复纪录;
一快取数据库,是用以提供快速先行暂存以加速运算进程的设备;
一数据探勘主模块,包含有多个探勘子模块且个别提供模块化的相异算法和演算逻辑用以进行运算和分析;
一纪录数据分析模块,与外部管理者设备连接,该纪录数据分析模块是由管理者操控或自主联机至该数据探勘主模块并选定合适的探勘子模块,并指派进行运算任务的设备;
至少一分布式计算装置,各该分布式计算装置自各该分布式数据库获取用户网络服务要求与回复纪录并依据被该纪录数据分析模块所选定的探勘子模块以及被指派的运算任务以分派给其内部运算模块分别执行,并将所获取的运算及分析计算结果暂存于该快取数据库;以及
一组合节点装置,自该分布式计算装置中的各节点设备以及各分布式计算模块撷取并整合产生一分析结果,再将该分析结果回传纪录数据分析模块。
其中,该纪录数据搜集装置将通过至少一私钥、一公钥以及一任意整数值来对网络服务要求以及回复纪录数据进行加密,而各该分布式计算装置则直接对密文状态的网络服务要求以及回复纪录数据进行计算并产生运算结果,该组合节点装置具备相对应的各该私钥、该公钥以及该任意整数值对该分析结果进行解密。
其中,该数据探勘主模块还包含:
一最近邻居探勘子模块,是以k最近邻居法(k-Nearest Neighbors Method)的逻辑进行演算的分布式计算模块;以及
一多元线性回归探勘子模块,是以多元线性回归(Multi Factor LineRegression Method)的逻辑进行演算的分布式计算模块。
其中,各该分布式计算装置还各自包含:
多个节点设备,依据该纪录数据分析模块选定的探勘子模块指派给多个分布式计算模块,多个节点设备并向各该分布式数据库获取纪录数据且进行分派,其中,各该分布式计算模块依据探勘子模块的运算进程进行运算及分析纪录数据。
本发明提出一种实时串流纪录数据分析系统是由系统外部的多个使用者设备、多个在线网页服务器、多个在线数据库服务器以及多个管理者设备,以及本发明的系统内部的一纪录数据搜集装置、多个分布式数据库、一纪录数据分析模块、一数据探勘主模块、一分布式计算装置、一快取数据库、以及一组合节点装置构成。
多个外部使用者设备,使用者可操作这些使用者设备联机至在线网页服务器,以向在线网页服务器要求网络服务和相关信息与应用。
多个外部在线网页服务器,主要依用户设备传送的网络服务要求向在线数据库服务器存取所需相关数据后提供网络服务和相关信息给外部用户设备,其也针对所有网络服务要求进行纪录并将网络服务使用纪录传送至纪录数据处理设备进行解析和储存。
多个外部在线数据库服务器设备:在线数据库服务器设备可接收在线网页服务器设备的数据库操作要求,并依其要求回复相关信息。并且针对每个数据库操作要求进行纪录,并可将数据库操作纪录传送至纪录数据搜集装置进行解析和储存。
一纪录数据搜集装置,用以解析来自在线网页服务器和在线数据库服务器的纪录并依其纪录的格式进行解析后分别储存至分布式数据库中,纪录数据搜集装置也可选择性的具备加密功能,其包含有至少一私钥、至少一公钥、至少一任意整数值,即是解析后再透过上述三者以对数据进行加密后再储存至分布式数据库中。
多个分布式数据库主要可储存经解析后的网络服务使用纪录和数据库操作纪录,当分布式计算装置进行分布式计算和纪录分析时,提供纪录数据供分布式计算装置运算。
多个外部管理者设备,管理者操作管理者设备联机至纪录数据分析模块,并经纪录数据分析模块联机至数据探勘主模块以选择适合的探勘子模块,再指派予分布式计算装置进行运算。
一纪录数据分析模块,由管理者手动或自动联机至数据主探勘模块并选择其下适合的探勘子模块,再指派予分布式计算装置进行运算,纪录数据分析模块并可向组合节点装置取得运算结果。
一数据主探勘模块,可包含多个探勘子模块以供分布式计算装置进行运算和分析。
多个分布式计算装置,可向分布式数据库取得纪录数据,并依选定的数据探勘模块进行指派任务给多个节点设备和分布式计算模块,分别进行运算和分析,分布式计算装置并可将计算结果暂存于快取数据库,分布式计算装置也可选择性的具有密文计算的功能,用以对密文数据进行运算。
多个快取数据库,用以储存分布式计算装置暂存各个纪录数据的要求分析运算结果或相关参数,以作日后加速运算应用。
一组合节点装置,用以撷取分布式计算装置各个运算结果以进行整合和分析,再将分析结果回传予纪录数据分析模块,相同地,组合节点装置也可额外配备解密功能,其具备有与纪录数据搜集装置相对应的各该私钥、该公钥以及该任意整数值,才可对经分布式计算装置密文计算得出的结果进行解密,解密后提供明文数据回传至纪录数据分析模块。
本发明的实时串流纪录数据分析方法,其主要步骤包含下述的六步骤。
纪录在线数据步骤:一纪录数据搜集装置将自外部在线网页服务器和外部在线数据库服务器中搜集并储存外部多个用户发出的网络服务要求以及回复纪录。
存入分布式数据库步骤:纪录数据搜集装置将前述网络服务要求以及回复纪录储存至多个分布式数据库。
选择数据探勘模块步骤:外部管理者与一纪录数据分析模块连接,以经由该纪录数据分析模块对一数据探勘主模块进行请求自多个探勘子模块中选择以使用。
指派工作予分布式计算装置步骤:该数据探勘主模块将按照外部管理者选择的探勘子模块以指派多个分布式计算装置对用户网络服务要求与回复纪录进行运算。
暂存至快取数据库装置步骤:各该分布式计算装置产出的运算结果将被暂存至一快取数据库,以备未来分析使用。
回传与显示运算结果:与各该分布式计算装置连接的一组合节点装置将运算结果整合成一分析结果,并透过该纪录数据分析模块传输至外部管理者设备以呈现该分析结果予外部使用者。
而本发明的实时串流纪录数据分析方法也具备加解密的功能,其中,该纪录数据搜集装置将通过至少一私钥、一公钥以及一任意整数值来对网络服务要求以及回复纪录数据进行加密,而各该分布式计算装置则直接对密文状态的网络服务要求以及回复纪录数据进行计算并产生运算结果,该组合节点装置具备相对应的各该私钥、该公钥以及该任意整数值对该分析结果进行解密提供给外部管理者。
综上所述,可知本发明的实时串流纪录数据分析系统与方法可实时纪录及解析在线网络服务要求纪录数据和数据库操作纪录数据,也可透过选择不同的数据探勘子模块以进行纪录数据分析。
本发明更结合分布式计算装置和分布式数据库,以实时进行分布式计算,而额外的快取数据库,则提供暂存分布式计算装置的运算结果和相关参数,以提升往后的分析效率。
且本发明可选择性的利用加解密方法,以将数据加密后再储存至分布式数据库,使数据安全性得以确保,并且也可以于资料处于密文状态下进行运算,令运算效率更提升。
附图说明
图1为本发明实时串流纪录数据分析系统架构图。
图2为本发明实时串流纪录数据含加解密分析方法的方法步骤图。
附图标记说明:
101 使用者设备
102 在线网页服务器
103 在线数据库服务器
104 管理者设备
105 纪录数据搜集装置
106 分布式数据库
107 纪录数据分析模块
108 数据探勘主模块
109 分布式计算装置
110 快取数据库
111 组合节点装置
1081 最近邻居探勘子模块
1082 多元加权线性回归探勘子模块
S201~S208 方法步骤。
具体实施方式
以下将以实施例结合图式对本发明进行进一步说明,有鉴于对实时而大量数据运算以及分析的需求提升,本发明即提供一种实时串流纪录数据分析系统,本发明的运作所需整体系统的架构如下,如图1所示:系统外部的多个使用者设备101、多个在线网页服务器102、多个在线数据库服务器103以及多个管理者设备104,以及本发明的系统内部的一纪录数据搜集装置105、多个分布式数据库106、一纪录数据分析模块107、一数据探勘主模块108、多个分布式计算装置109、一快取数据库110、以及一组合节点装置111组成,而数据探勘主模块108更可包含一最近邻居探勘子模块1081以及一多元加权线性回归探勘子模块1082。
其中,本发明的纪录数据搜集装置是可运用Splunk或Logstash等工具实施,其是用以收集在线网页服务器和在线数据库服务器传输而来的纪录数据。
而本发明的分布式数据库可结合NoSQL基础的HBase或MongoDB进行开发,其功能是为可较永久的储存纪录数据搜集装置传来的相关纪录数据。
而本发明分布式计算装置是运用Hadoop或MongoDB中的MapReduce开发模型以高效地将数据进行分割以及合并,可大幅提升运算分析速度。
另外,本发明更设置有快取数据库,用以因应实时大量数据运算的负载需求,可同时搜集各异类数据来源且进行实时分析和运算,并可避免重复运算并将数据回馈予外部管理者。
更详细来说,前述本发明的实时串流纪录数据分析系统各部分可解释如下:
外部多个使用者设备:所述用户设备得为个人计算机、平板、智能型手机、个人数字助理、车载设备等电子装置,该些装置可运用设置于其上的浏览器组件(如InternetExplorer、Chrome、Firefox、Safari等浏览器)或其他可与网络联机的应用程序以联机至在线网页服务器,并透过在线网页服务器提出网络服务要求和信息应用需求。
外部多个在线网页服务器:该些在线网页服务器可透过微软InternetInformation Services(IIS)、Apache等网页服务器组件进行开发,以架设提供多种网络服务功能的网页提供外部用户进行操作,在线网页服务器可依外部用户设备传送来的网络服务要求和信息应用需求以向在线数据库服务器获取被要求的数据后,再提供相对应的网络服务和信息至外部用户设备,而在线网页服务器也会纪录每个网络服务要求,可依据服务器组件分别储存网络服务使用纪录数据(如IIS Log或Apache Log)且将网络服务使用纪录数据传送至纪录数据搜集装置进行解析并储存。
多个在线数据库服务器:在线数据库服务器设备得运用微软SQL Server、MySQL、Oracle DB、IBM DB2、PostgreSQL等数据库服务器组件进行实作开发,并提供各种数据库操作方法(至少包含有新增、修改、删除、查询等)以令在线网页服务器得以存取;可接收在线网页服务器设备的数据库操作要求,并依其要求回复相关信息。并且针对每个数据库操作要求进行纪录,并可分别依不同的数据库组件产生数据库操作纪录,且将数据库操作纪录传送至纪录数据处理设备进行解析和储存。
一纪录数据搜集装置:纪录数据搜集装置得运用Splunk、Logstash等纪录和解析组件进行实作开发,并提供各种纪录数据解析模块(至少包含有网络服务使用纪录数据解析模块和数据库操作纪录数据解析模块)予用户使用;其中,网络服务使用纪录数据解析模块至少有IIS Log或Apache Log解析功能,以解析来自在线网页服务器的纪录;此外,数据库操作纪录数据解析模也包含有微软SQL Server Log等解析功能,可解析来自在线数据库服务器的纪录;当纪录数据搜集装置解析完成后再依其纪录格式进行解析后分别储存至分布式数据库中;举一实例来说,可如下表一所示的范例为一IIS Log纪录数据,纪录数据搜集装置解析此数据,以分别获取该纪录数据的纪录日期为2015-08-18、纪录时间为09:12:15、客户端IP为10.144.198.130、服务器端IP为10.144.192.1、连结埠号为80、要求的网络服务是为”/index.html”、响应状态代码则为200、客户端使用浏览器为Mozilla/4.0+(compatible;MSIE+5.5;+Windows+2000+Server),纪录数据搜集装置也可选择性的具备加密功能,其包含有至少一私钥、至少一公钥、至少一任意整数值,即是解析后再透过上述三者以对数据进行加密后再储存至分布式数据库中。
表一:
Figure GDA0002667298570000071
Figure GDA0002667298570000081
多个分布式数据库:分布式数据库得运用HBase、MongoDB等分布式数据库元作实作开发,用以储存及操作巨量数据并可具备丛集互相备援以支持纪录数据分析和处理;分布式数据库主要是储存经纪录数据搜集装置解析后的网络服务使用纪录和数据库操作纪录,并可于分布式计算装置进行运算分析时持续提供纪录数据以维持运算进程。
多个管理者设备:管理者设备得为个人计算机、平板、智能型手机、个人数字助理等装置,设备中并有浏览器组件(得为Internet Explorer、Chrome、Firefox、Safari等浏览器)或其他可联机的应用程序联机至纪录数据搜集装置,并经由纪录数据搜集装置联机至数据探勘主模块,以选择适合的探勘子模块来指派予分布式计算装置进行运算,最后,再由组合节点装置整合运算结果并回传数据分析模块,由数据分析模块回复予外部管理者设备。
一纪录数据分析模块:纪录数据分析模块得为一具有网络服务的服务器,可经由网络服务的接口与外部管理者设备、数据探勘主模块、组合节点装置相介接并传送及接收数据;纪录数据分析模块得由管理者以手动或自动方式联机至数据探勘主模块,以并选择适合的探勘子模块并指派予分布式计算装置进行运算,以及向组合节点装置取得运算结果。
一数据主探勘模块:数据探勘主模块也为一具有网络服务的服务器,可经网络服务接口与探勘子模块、分布式计算装置介接且传送接收数据,其可包含多个探勘子模块以供分布式计算装置进行运算和分析;其中,至少包含有最近邻居探勘子模块,是以k个最近邻居法(k-Nearest Neighbors Method)的逻辑进行演算的分布式计算模块,以及多元线性回归探勘子模块,是以多元线性回归(Multi Factor Line Regression Method)的逻辑进行演算的分布式计算模块,故数据主探勘模块将可依选定的探勘子模块指派给分布式计算装置进行运算分析。
至少一分布式计算装置:分布式计算装置得运用Hadoop、MongoDB等分布式计算元作进行实作开发,并至少包含有多个节点设备、多个分布式计算模块以分析巨量数据。其中,节点设备可依纪录数据分析设备选定的数据探勘模块产生多个分布式计算模块,并可向分布式数据库装置取得纪录数据,指派予分布式计算模块进行分析;分布式计算模块依选定的探勘子模块分别进行运算和分析纪录数据。例如,运用Hadoop或MongoDB所提供的MapReduce分布式计算模块分别依指派的探勘子模块依任务执行分布式计算,再将运算结果整合传送至组合节点装置,各该分布式计算装置也被选择性的设置有密文计算的功能,可用以对密文状态的数据进行运算。
至少一快取数据库:快取数据库是运用关系数据库或非关系数据库组件以实施,用以储存分布式计算装置暂存各个纪录数据分析运算结果以及相关参数,以加速运算使用;举例来说,在分布式计算装置执行最近邻居探勘子模块的分散运算后,将取得相似度最高的多个笔纪录数据,并将各该纪录数据传送至快取数据库以储存,在往后的运算时可先自快取数据库中获取相似度最高的多个笔纪录数据以比对分析。另举例来说,若分布式计算装置执行多元线性回归探勘子模块的分布式计算后,可产生线性回归模型参数(包含斜率或截距)储存至快取数据库,而往后实时运算进程中可利用快取数据库中所储存的线性回归模型参数,快取数据库更被写入新纪录数据或删除旧纪录数据来避免重复计算的冗时,当可大幅提升整体运算效率。
一组合节点设备:组合节点设备也为一具有网络服务的服务器,经由网络服务接口与纪录数据搜集装置、分布式计算装置介接以传送接收数据,其撷取分布式计算装置所产生的各运算结果以整合分析,再将其分析结果回传予纪录数据分析模块,另外,组合节点装置也可具解密功能,储存有与纪录数据搜集装置相对应的私钥、公钥以及任意整数值,使其得以对经分布式计算装置密文计算得出的结果进行解密,解密后提供明文数据回传至纪录数据分析模块。
以下所揭露的另一实施例也是关于本发明的实时串流纪录数据分析系统,该系统架构中至少包含有一纪录数据搜集装置、多个分布式数据库、一数据探勘主模块、多个分布式计算装置、一组合节点设备、以及多个快取数据库;其中,数据主探勘模块包含有最近邻居探勘子模块,其得以运用k最近邻居法进行网络纪录数据分析的演算以产生定位信息,其系统运作如下所述。
系统包含一纪录数据搜集装置,用以收集智能型手机回报的经纬度坐标数据(即训练位置,在实施例中有m个位置)和基地台讯号强度集合数据,纪录数据搜集装置并纪录和解析上述数据,其纪录每个训练位置(L={l1,l2,...,lm})以及训练位置对应的基地台讯号强度集合数据(ci={c1 i,c2 i,...,cn i})于分布式数据库中;其中,ci i代表集合中第j个基地台的讯号强度,j=1,…,n(在实施例中设有n个基地台);接着,往后当智能型手机移动时,智能型手机可测量及回报其附近的基地讯号强度集合(r={r1,r2,...,rn}),并将由系统中数据主探勘模块、分布式计算装置、快取数据库以最近邻居探勘子模块来计算基地讯号强度集合r与分布式数据库中所有位置及其讯号强度集合交叉比对以估算出智能型手机当时可能的位置。
系统包含多个分布式数据库装置,是用以储存每个训练位置(L={l1,l2,...,lm})及其对应的基地台讯号强度集合数据(ci={c1 i,c2 i,...,cn i});当分布式计算装置在进行运算和纪录分析时,分布式数据库则提供其纪录数据。
系统更包含一数据主探勘模块,其至少具备一最近邻居探勘子模块,是用以评估每一个讯号强度集合r的位置loc(r);在本实施例中是应用欧几里得距离(EuclideanDistance)运算方法,是采用下列公式(1)来将讯号强度集合(r={r1,r2,...,rn})与数据库中的每一个位置li及其讯号强度集合(ci={c1 i,c2 i,...,cn i})进行距离(dist(r,ci))的计算,再针对每一个训练位置同样进行欧几里得距离运算,再透过公式(2)找出讯号强度最接近的位置h1以及其他最接近的共k个位置(即{h1,h2,...,hk}),而数据主探勘模块会将最近邻居探勘子模块指派予分布式计算装置来执行。
公式(1):
Figure GDA0002667298570000101
公式(2):
Figure GDA0002667298570000102
多个分布式计算装置可以包含有多个节点设备,而每个节点设备须对应至少一分布式计算模块,分布式计算模块可依数据主探勘模块选定使用的探勘子模块进行运算,在此实施例中,分布式数据库中共具有m个位置(即有m笔数据需进行比对),故可将此m笔数据均匀分派至每个节点设备再由每个节点设备中的分布式计算模块分别执行最近邻居探勘子模块,以多任务分别取得最接近的共k个位置(即{h1,h2,...,hk}),最接近的k个位置信息将再被传送至组合节点装置,以供组合节点装置运算产生最终的位置信息。
而就如前所述,组合节点设备可接收来自分布式计算装置运算所运算信息以进行整合和产生分析的结果,就此实施例所说,组合节点设备是接收多个节点设备下的分布式计算模块分别计算所得到的k个位置,再从集合中比对以取得k个绝对接近位置,运用下列公式(3)来产生讯号强度集合(r={h1,h2,...,hk})所对应的位置信息l(r);
公式(3):
Figure GDA0002667298570000111
多个快取数据库主要是用以储存由分布式计算装置运算的结果和相关参数以供后续分析可快速取用以提升效率;在此实施例中,快取数据库将由每个节点设备取得最接近的q×k个位置信息(其中q×k小于m且q为一正整数)及其所对应的基地台讯号集合并储存起来,若之后须分析相同智能型手机回报的基地台讯号强度集合时,即可对快取数据库中最接近的q×k个位置信息及其对应的基地台讯号集合进行分析,而不须再重新比对原始的m笔数据。另外,该数据可用以分析智能型手机移动的速度,例如,当智能型手机移动速度缓慢抑或静止时,q值可被设定为极小值(如:1),而当智能型手机快速移动时,q值可被设定为较大的数值。
以下所揭露的另一实施例也是本发明的一种实时串流纪录数据分析系统,该系统架构中至少包含有一纪录数据搜集装置、多个分布式数据库、一数据探勘主模块、多个分布式计算装置、一组合节点设备、以及多个快取数据库;其中,数据主探勘模块包含有最近多元线性回归探勘子模块,其得以运用多元线性回归模块进行交通纪录数据分析的演算以产出交通预测信息,其系统运作如下所述;其中,数据探勘模块装置至少包含有多元线性回归模块,并得以运用多元线性回归模块进行交通纪录数据分析,并且产制交通预测信息,详述如下。
系统包含一纪录数据搜集装置,用以收集设置于清洁车上的车载设备回传的到站时间信息,并由纪录数据搜集装置解析到站时间信息以运算产生清洁车途经由站到站之间的旅行时间,例如:欲表示第r笔资料的第i-n-j个清运站到第i-n个清运站间的旅行时间为tr i-n-j,i-n;纪录数据搜集装置是将如前述计算的每个旅行时间集合储存至分布式数据库,以供后续分析的运用。
系统包含多个分布式数据库装置,在此实施例中,分布式数据库是运用HBase、MongoDB等分布式数据库组件开发,以储存每个站到站之间的旅行时间。
系统更包含一数据主探勘模块,其至少具备一多元线性回归探勘子模块,用以运算产生清洁车由各站到站之间旅行时间的关联性(如斜率、截距等);在本实施例中,是以分析历史数据中的m笔数据来产生k个加权线性回归模型
Figure GDA00026672985700001210
为范例;第i-n个清运点到第i个清运点的预测旅行时间(tr1-n,1)可以运用多元加权线性回归模型(如公式(4)所示)进行运算获得,在运行时间中主要将会依据第i-n个清运点的前k个清运点到达第i-n个清运点的旅行时间(即{ti-n-1,i-n,ti-n-2,i-n,…,ti-n-k,i-n})协同已经过训练的多元加权线性回归模型,以预测第i-n个清运点到第i个清运点的预测旅行时间(如公式(5)所示)。
公式(4):
Figure GDA0002667298570000121
Figure GDA0002667298570000122
其中,
Figure GDA0002667298570000123
其中,
Figure GDA0002667298570000124
其中,
Figure GDA0002667298570000125
公式(5):
Figure GDA0002667298570000126
多个分布式计算装置可以包含有多个节点设备,而每个节点设备须对应至少一分布式计算模块,分布式计算模块可依数据主探勘模块选定使用的探勘子模块进行运算,在此实施例中,因多元加权线性回归探勘子模块的模型大多利用加以及乘等运算因子且具结合律的特性,举例来说可以依照历史数据m笔的笔数均匀分配任务至各个节点设备,再于每个节点设备中的分布式计算模块分别执行多元加权线性回归,或是依待产制的k个加权线性回归模型平均分配于各节点设备,各节点设备中的分布式计算模块将分别执行各个多元加权线性回归探勘子模块;且在运算完毕之后,分布式计算装置会将各多元加权线性回归模型的斜率(如
Figure GDA0002667298570000127
)、截距(如
Figure GDA0002667298570000128
)、以及权重(如
Figure GDA0002667298570000129
)分别储存于快取数据库中以供后续分析使用。
而就如前所述,组合节点设备可接收来自分布式计算装置运算所得到的信息并进行整合以产生分析结果;在本实施例中,组合节点设备可接收多个节点设备分别计算所得出的k个加权线性回归模型及其相关参数(即斜率、截距以及权重),再透过公式(5)的方式运算产生第i-n个清运点到第i个清运点的预测旅行时间。
在此实施例中,多个快取数据库主要将由各个节点设备计算得出的各个多元加权线性回归模型的斜率、截距以及其权重分别储存于各该快取数据库当中以作为分析的数据,此外,当后续输入的数据有异动时,因多元加权线性回归模型应主要为加法及乘法运算且可能具结合律等数学特性,故若是搭配快取数据库中暂存的历史数据,只需要加入新增的数据或减去被删除的数据即可快速调整多元加权线性回归模型所利用的斜率、截距或权重,而非再费时重新计算原始的m笔数据以提升效率。
以下所揭露的另一实施例也是本发明的实时串流纪录数据分析方法的另一实施例,主要是在原先的实时串流纪录数据分析系统上增加具备密文计算功能而生的实时串流纪录数据分析方法,如图2中所示,此方法主要包含有八步骤,分别为步骤S201:纪录在线数据步骤、步骤S202:数据加密步骤、步骤S203:存入分布式数据库步骤、步骤S204:选择数据探勘子模块步骤、步骤S205:指派工作予分布式计算装置并进行密文计算步骤、步骤S206:暂存运算结果至快取数据库步骤、步骤S207:回传和解密步骤以及步骤S208:显示结果步骤等八步骤,各步骤的详细实施内容将叙述在以下实施例中。
步骤S201:纪录在线数据步骤:纪录数据搜集装置将把外部在线网页服务器和外部在线数据库服务器的服务要求以及响应纪录搜集并储存至分布式数据库;例如:车载机1(外部使用者设备)于09:00:00、09:03:20、09:07:00等三时间分别抵达站点1、站点2、站点3;车载机2(外部使用者设备)于10:00:00、10:04:00、10:08:10等时点分别抵达站点1、站点2、站点3;另外,车载机3(外部使用者设备)于11:00:00、11:03:30、11:07:20等三时点分别到达相同的站点1、站点2、站点3;以及,车载机4(外部使用者设备)于12:00:00、12:03:40等两时点分别抵达站点1、站点2,即如下表二中所示。
下列为表二,表示车载机到站时间:
Figure GDA0002667298570000131
Figure GDA0002667298570000141
而当上述四部车载机(外部使用者设备)到达各站点时,将经由中间件(例如:RESTful API)回报车载机的位置信息和时间信息传输至外部在线网页服务器和外部在线数据库服务器,而纪录数据搜集装置将可对这些位置信息和时间信息纪录进行储存及分析,以计算出站到站时间之间的旅行时间,举例来说:车载机1从站点1到站点2的旅行时间(t1,2)为200秒、从站点2到站点3的旅行时间(t2,3)为220秒,就如下表三所示。
下列为表三,是用以表示站到站之间的旅行时间(单位:秒):
站点1-站点2 站点2-站点3
车载机1 200 220
车载机2 240 250
车载机3 210 230
车载机4 220
步骤S202:数据加密步骤:纪录数据搜集装置搜集到外部在线网页服务器和外部在线数据库服务器的位置信息和时间信息纪录后,即会透过一加密算法对数据进行加密;纪录数据搜集装置应计算所站到站之间的旅行时间,再分别计算出t1,2乘上t2,3的值以及t1,2平方的值,以产生到站时间的相关参数值,如表四所示。
下列为表四,呈现到站时间的相关参数值:
t<sub>1,2</sub>×t<sub>2,3</sub> t<sub>1,2</sub> t<sub>2,3</sub> t<sub>1,2</sub><sup>2</sup>
车载机1 44000 200 220 40000
车载机2 60000 240 250 57600
车载机3 48300 210 230 44100
数据加密步骤中,接着,纪录数据搜集装置则可运用默认的一私钥p、一公钥q、一任意整数值z等参数值,再通过下列公式(6)对相关参数值进行加密,在本实施例中假设私钥p的值为39,916,801、公钥q的值为112,909、任意整数值z的值则为7,而计算的结果举例来说:原为明文数据的数值44,000经由参数值及公式加密后可得出密文数据279,461,607,而其它范例结果则整理如下表五所示。
公式(6):f(x)=(x+p×z)mod(p×q),其中,x为原始的相关参数值,mod运算则为以后项的值作为前项的值的除数以取余数的模除运算。
下列为表五,呈现加密后的相关参数值:
t<sub>1,2</sub>×t<sub>2,3</sub> t<sub>1,2</sub> t<sub>2,3</sub> t<sub>1,2</sub><sup>2</sup>
车载机1 279,461,607 279,417,807 279,417,807 279,457,607
车载机2 279,477,607 279,417,847 279,417,847 279,475,207
车载机3 279,465,907 279,417,817 279,417,817 279,461,707
步骤S203:存入分布式数据库步骤:本发明的纪录数据搜集装置可选择性地将数据以明文或密文方式储存至多个分布式数据库中,而在本实施例中,纪录数据搜集装置是将表五所呈现的加密后的相关参数值储存至各该分布式数据库中,而本发明可在数据库中储存密文的功能,是一种有效防范数据库被侵入或数据被窃取时数据立即外泄的风险的方法。
步骤S204:选择数据探勘子模块步骤:外部管理者可通过外部管理者设备联机至纪录数据分析装置,经由纪录数据分析设备存取数据探勘主模块,以选择外部管理者其欲使用的探勘子模块,在此一实施例中,外部管理者是选择了使用多元线性回归子模块,故后续的范例将继续以多元线性回归子模块作为分析和运算的主要工具。
步骤S205:指派工作予分布式计算装置并进行密文计算步骤:数据探勘主模块可依照外部管理者选择使用的探勘子模块,以指派多个分布式计算装置执行运算分析,并由各该分布式计算装置之下的多个分布式计算模块对被分配的纪录数据进行计算,且分布式计算装置是采可以直接处理密文的方式对密文状态的纪录数据进行处理。
其中,各该分布式计算装置将可依外部管理者所选定的多元线性回归子模块,通过前述的公式(4)以及公式(5)等等的运算需求,以其下分属的多个分布式计算模块分别进行运算以加总所需的参数值,加总后结果如下表六所示;在本实施例中,是以计算一组回归子模块参数a和b举例说明,但本发明的运用不以此例为限,故各该分布式计算装置可平行利用各该分布式计算模块来进行大量的回归子模块参数运算。
下列为表六,呈现加密后相关参数值的加总:
t<sub>1,2</sub>×t<sub>2,3</sub> t<sub>1,2</sub> t<sub>2,3</sub> t<sub>1,2</sub><sup>2</sup>
加总 838,405,121 838,253,471 838,253,471 838,394,521
步骤S206:暂存运算结果至快取数据库步骤:各该分布式计算装置运算结果会被暂存至快取数据库,快取数据库也可为多个,暂存院算结果的目的主要是用以令往后数据分析效率提升;在本实施例中,已加总完车载机1、车载机2、车载机3的资料,而这加总结果将被暂存至快取数据库装置,后续若需使用时可直接套用加总结果,并不需要再重新加总车载机1、车载机2、车载机3的数据,当可节省许多时间。
步骤S207:回传和解密步骤:各该分布式计算装置将把运算完结果回传至组合节点装置,并由组合节点装置以与加密方式相同的参数值将密文数据进行解密并整合为分析结果。当组合节点设备收到分布式计算装置运算结果后,得运用与纪录数据处理设备相同的一私钥p、一公钥q、一任意整数值z,运用公式(7)进行解密,在此实施例中设定私钥p为39,916,801、公钥q为112,909、任意整数值z为7。如:加总后结果的密文838,405,121经由解密后得到明文为152,300,整理如表七所示。
公式(7):g(x)=f(x)mod(p),其中mod也为模除运算。
下列为表七,呈现解密后相关参数值的加总:
t<sub>1,2</sub>×t<sub>2,3</sub> t<sub>1,2</sub> t<sub>2,3</sub> t<sub>1,2</sub><sup>2</sup>
加总 152,300 650 700 141,700
而透过上表七所示的解密后的加总数据以及已知的数据笔数3笔(m=3),可运用前述公式(4)分别计算出a和b参数,如下列计算式(8)所示,而后透过下列计算式(9)以预测计算车载机4从站点2到站点3所需的旅行时间,其结果估计约为236秒,故推知车载机4到达站点3的预测到站时间应为12:07:36。
公式(8):
Figure GDA0002667298570000161
Figure GDA0002667298570000162
公式(9):0.730769×220+75=235.7692≈236
步骤S208:显示结果步骤:组合节点装置将运算结果传送至纪录数据分析模块,再由纪录数据分析模块通知外部管理者设备以于外部管理者设备上呈现本次分析结果;而本实施例中,当组合节点装置计算出预测结果后,会将预测结果传送至纪录数据分析模块,再由纪录数据分析模块通知外部管理者设备,以于外部管理者设备上呈现出车载机4到达站点3的预测到站时间为12:07:36给外部管理者知悉。
综上所述,本发明于技术思想上实属创新,也具备先前技术不及的多种功效,已充分符合新颖性及进步性的法定发明专利要件,爰依法提出专利申请,恳请贵局核准本件发明专利申请案以励发明,至感德便。

Claims (6)

1.一种实时串流纪录数据分析系统,其特征在于,包含:
一纪录数据搜集装置,与外部在线网页服务器或外部在线数据库服务器连接,并依据格式解析被储存于外部在线网页服务器或外部在线数据库服务器中的外部多个使用者透过各自用户设备发出的网络服务要求以及被回复纪录;
多个分布式数据库,是用以储存经该纪录数据搜集装置解析后的用户网络服务要求与回复纪录;
一快取数据库,是用以提供快速先行暂存以加速运算进程的设备;
一数据探勘主模块,包含有多个探勘子模块且个别提供模块化的相异算法和演算逻辑用以进行运算和分析;
一纪录数据分析模块,与外部管理者设备连接,该纪录数据分析模块是由管理者操控或自主联机至该数据探勘主模块并选定合适的探勘子模块,并指派进行运算任务的设备;
至少一分布式计算装置,各该分布式计算装置自各该分布式数据库获取用户网络服务要求与回复纪录并依据被该纪录数据分析模块所选定的探勘子模块以及被指派的运算任务以分派给其内部运算模块分别执行,并将所获取的运算及分析计算结果暂存于该快取数据库;以及
一组合节点装置,自该分布式计算装置中的各节点设备以及各分布式计算模块撷取并整合产生一分析结果,再将该分析结果回传纪录数据分析模块,其中该纪录数据搜集装置将通过至少一私钥、一公钥以及一任意整数值来对网络服务要求以及回复纪录数据进行加密,且加密的公式如下:
f(x)=(x+p*z)mod(p*q),其中x为被加密资料、p为该私钥、q为该公钥、z为该任意整数值、f(x)为经加密过的该被加密资料且mod()为模除运算;
而各该分布式计算装置则直接对密文状态的网络服务要求以及回复纪录数据进行计算并产生运算结果,且解密的公式如下:
g(x)=f(x)mod(p),其中g(x)为解密过的该经加密过的该被加密的资料;以及
该组合节点装置具备相对应的各该私钥、该公钥以及该任意整数值对该运算结果进行解密。
2.根据权利要求1所述的实时串流纪录数据分析系统,其特征在于,该数据探勘主模块还包含:
一最近邻居探勘子模块,是以k最近邻居法(k-NearestNeighborsMethod)的逻辑进行演算的分布式计算模块;以及
一多元线性回归探勘子模块,是以多元线性回归(MultiFactorLineRegressionMethod)的逻辑进行演算的分布式计算模块。
3.根据权利要求1所述的实时串流纪录数据分析系统,其特征在于,各该分布式计算装置还各自包含:
多个节点设备,依据该纪录数据分析模块选定的探勘子模块指派给多个分布式计算模块,多个节点设备并向各该分布式数据库获取纪录数据且进行分派,其中,各该分布式计算模块依据探勘子模块的运算进程进行运算及分析纪录数据。
4.一种实时串流纪录数据分析方法,其特征在于,步骤包含:
纪录在线数据步骤:一纪录数据搜集装置将自外部在线网页服务器和外部在线数据库服务器中搜集并储存外部多个用户发出的网络服务要求以及回复纪录;
存入分布式数据库步骤:纪录数据搜集装置将前述网络服务要求以及回复纪录储存至多个分布式数据库;
选择数据探勘模块步骤:外部管理者与一纪录数据分析模块连接,以经由该纪录数据分析模块对一数据探勘主模块进行请求自多个探勘子模块中选择以使用;
指派工作予分布式计算装置步骤:该数据探勘主模块将按照外部管理者选择的探勘子模块以指派多个分布式计算装置对用户网络服务要求与回复纪录进行运算;
暂存至快取数据库装置步骤:各该分布式计算装置产出的运算结果将被暂存至一快取数据库,以备未来分析使用;以及
回传与显示运算结果:与各该分布式计算装置连接的一组合节点装置将运算结果整合成一分析结果,并透过该纪录数据分析模块传输至外部管理者设备以呈现该分析结果予外部使用者,其中还包含下列步骤:
该纪录数据搜集装置通过至少一私钥、一公钥以及一任意整数值来对该网络服务要求以及该回复纪录数据进行加密,且加密的公式如下:
f(x)=(x+p*z)mod(p*q),其中x为被加密资料、p为该私钥、q为该公钥、z为该任意整数值、f(x)为经加密过的该被加密资料且mod()为模除运算;
各该分布式计算装置则直接对密文状态的该网络服务要求以及该回复纪录数据进行计算并产生运算结果,且解密的公式如下:
g(x)=f(x)mod(p),其中g(x)为解密过的该经加密过的该被加密的资料;以及
该组合节点装置具备相对应的各该私钥、该公钥以及该任意整数值对该运算结果进行解密。
5.根据权利要求4所述的实时串流纪录数据分析方法,其特征在于,该数据探勘主模块还包含:
一最近邻居探勘子模块,是以k最近邻居法(k-NearestNeighborsMethod)的逻辑进行演算的分布式计算模块;以及
一多元线性回归探勘子模块,是以多元线性回归(MultFactorLineRegressionMethod)的逻辑进行演算的分布式计算模块。
6.根据权利要求4所述的实时串流纪录数据分析方法,其特征在于,各该分布式计算装置还各自包含:
多个节点设备,依据该纪录数据分析模块选定的探勘子模块指派给多个分布式计算模块,多个节点设备并向各该分布式数据库获取纪录数据且进行分派,其中,各该分布式计算模块依据探勘子模块的运算进程进行运算及分析纪录数据。
CN201610645282.XA 2016-04-19 2016-08-09 实时串流纪录数据分析系统与方法 Expired - Fee Related CN107305583B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105112081 2016-04-19
TW105112081A TWI636369B (zh) 2016-04-19 2016-04-19 即時串流紀錄資料分析系統與方法

Publications (2)

Publication Number Publication Date
CN107305583A CN107305583A (zh) 2017-10-31
CN107305583B true CN107305583B (zh) 2020-12-01

Family

ID=60150389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610645282.XA Expired - Fee Related CN107305583B (zh) 2016-04-19 2016-08-09 实时串流纪录数据分析系统与方法

Country Status (2)

Country Link
CN (1) CN107305583B (zh)
TW (1) TWI636369B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI655549B (zh) * 2017-12-28 2019-04-01 李耀庭 分散式運算系統
CN110175157B (zh) * 2019-04-24 2023-10-03 平安科技(深圳)有限公司 一种列存储文件的查询方法及查询装置
TWI719488B (zh) * 2019-05-23 2021-02-21 核桃運算股份有限公司 具有一使用者介面之資料追蹤裝置、方法及其電腦程式產品
CN110570255A (zh) * 2019-09-16 2019-12-13 山东浪潮通软信息科技有限公司 一种基于dmp的多源系统的市场需求数据实时分析的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870591A (zh) * 2014-03-28 2014-06-18 武汉聪源科技有限责任公司 用于针对空间数据进行并行空间分析服务的方法及系统
CN104426973A (zh) * 2013-09-03 2015-03-18 中国移动通信集团公司 一种云数据库加密方法、系统及装置
CN104519140A (zh) * 2015-01-08 2015-04-15 浪潮(北京)电子信息产业有限公司 一种分布式并行计算的服务器系统及其管理方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376406B (zh) * 2014-11-05 2019-04-16 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104426973A (zh) * 2013-09-03 2015-03-18 中国移动通信集团公司 一种云数据库加密方法、系统及装置
CN103870591A (zh) * 2014-03-28 2014-06-18 武汉聪源科技有限责任公司 用于针对空间数据进行并行空间分析服务的方法及系统
CN104519140A (zh) * 2015-01-08 2015-04-15 浪潮(北京)电子信息产业有限公司 一种分布式并行计算的服务器系统及其管理方法
CN105468737A (zh) * 2015-11-24 2016-04-06 湖北大学 一种网络服务大数据分析方法、云计算平台及挖掘系统

Also Published As

Publication number Publication date
TWI636369B (zh) 2018-09-21
TW201738776A (zh) 2017-11-01
CN107305583A (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
US20240113858A1 (en) Systems and Methods for Performing Secure Machine Learning Analytics Using Homomorphic Encryption
US10790960B2 (en) Secure probabilistic analytics using an encrypted analytics matrix
CN107305583B (zh) 实时串流纪录数据分析系统与方法
US10142296B2 (en) Systems and methods for improving precision of a location sensor
CN111753318B (zh) 私有数据的多方安全计算方法、装置及系统
WO2019082009A1 (en) REGRESSION FOR SET OF MEASUREMENT DATA
CN105592085B (zh) 面向位置感知推荐系统的隐私保护方法
CN111026788A (zh) 一种混合云中基于同态加密的多关键词密文排序检索方法
CN113793507A (zh) 可用车位预测方法、装置、计算机设备及存储介质
US20230034384A1 (en) Privacy preserving machine learning via gradient boosting
CN110738395A (zh) 一种业务数据处理方法及装置
Feng et al. Privacy-preserving tensor analysis and processing models for wireless internet of things
JP6471246B2 (ja) サーバログから識別子をリンクするためのブリッジ一致識別子の生成
Yang et al. Efficient and secure kNN classification over encrypted data using vector homomorphic encryption
CN105701418A (zh) 一种基于空间序列数据分析的用户轨迹隐私保护方法
CN113179659A (zh) 利用封闭数据的个性化数据模型
CN112202919B (zh) 一种云存储环境下的图片密文存储、检索方法及系统
US20230205915A1 (en) Privacy preserving machine learning for content distribution and analysis
CN113836447A (zh) 一种云平台下的安全轨迹相似性查询方法及系统
CN115033916A (zh) 基于多方联合数据训练推送模型及信息推送的方法和装置
Wang et al. A privacy-preserving classifier in statistic pattern recognition
CN109617683B (zh) 终端以及云服务器
US20230315910A1 (en) System and methods for auditable data management
Mehmood et al. Efficient and Privacy Preserving Clustering Algorithm for Spatiotemporal Data
CN117354789A (zh) 轨迹生成方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201201