CN106777168A - 数据管理方法及数据管理系统 - Google Patents
数据管理方法及数据管理系统 Download PDFInfo
- Publication number
- CN106777168A CN106777168A CN201611191308.4A CN201611191308A CN106777168A CN 106777168 A CN106777168 A CN 106777168A CN 201611191308 A CN201611191308 A CN 201611191308A CN 106777168 A CN106777168 A CN 106777168A
- Authority
- CN
- China
- Prior art keywords
- time window
- stream data
- data
- target stream
- context relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据管理方法及数据管理系统,其中,数据管理方法包括:监测是否获取到目标流式数据;在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;输出所述关联结果。通过本发明的技术方案,能够对获取到的流式数据进行关联分析,以满足用户对数据的处理需求。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据管理方法和一种数据管理系统。
背景技术
LogStash是一款轻量级的日志搜集处理框架,是一个数据管道,可以方便的把分散的、多样化的、多种类型的日志搜集起来,包括流式日志数据,然后传输到指定的位置,比如某个服务器或者文件。LogStash主要包含三个部分:Inputs(输入)、Fillters(过滤)及Outputs(输出),Inputs是指日志数据传输到Logstash中,Fillters是指在LogStash把收集到的日志数据进行过滤,Outputs是LogStash处理管道的最末端组件,处理数据的输出,通常在对流式数据收集后,没有对其任何处理,直接输出到某个位置,无法满足用户对数据的处理需求,对此目前还没有有效的解决方案。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的数据管理方案,能够对获取到的流式数据进行关联分析,以满足用户对数据的处理需求。
有鉴于此,本发明提出了一种数据管理方法,包括:监测是否获取到目标流式数据;在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;输出所述关联结果。
在该技术方案中,通过监测是否获取到目标流式数据,在确定获取到目标流式数据时,对目标流式数据的内容进行上下文关联分析,以便于对流式数据进行横向拓展,满足用户对数据的处理需求。
在上述技术方案中,优选地,在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前,还包括:创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;所述对所述目标流式数据进行上下文关联分析的步骤,具体包括:根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,通过设置时间窗口,对流经时间窗口的目标流式数据进行上下文关联分析,提高了对目标流式数据的处理效率。
在上述任一项技术方案中,优选地,所述根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析的步骤,具体包括:根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,在对目标流式数据的处理过程中,具体可采用正则表达式匹配方法来对流经每个时间窗口的目标流式数据进行上下文关联分析,确保了对目标流式数据分析结果的准确性。其中,正则表达式可基于预定义的一些特定字符及这些特定字符的组合以对待处理数据进行过滤匹配,其具有灵活性、逻辑性及功能性强等优势。
在上述任一项技术方案中,优选地,还包括:在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
在该技术方案中,用户可根据实际需求来对时间窗口及其对应的关联信息进行设置,以满足不同用户需求,提升了用户的使用体验。
在上述任一项技术方案中,优选地,在所述确定获取到所述目标流式数据的步骤之后,以及在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前还包括:对所述目标流式数据进行过滤处理。
在上述任一项技术方案中,优选地,所述目标流式数据包括流式日志数据。
根据本发明的第二方面,提出了一种数据管理系统,包括:监测单元,用于监测是否获取到目标流式数据;处理单元,用于在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;输出单元,用于输出所述关联结果。
在该技术方案中,通过监测是否获取到目标流式数据,在确定获取到目标流式数据时,对目标流式数据的内容进行上下文关联分析,以便于对流式数据进行横向拓展,满足用户对数据的处理需求。
在上述技术方案中,优选地,还包括:创建单元,用于创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;所述处理单元具体用于:根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,通过设置时间窗口,对流经时间窗口的目标流式数据进行上下文关联分析,提高了对目标流式数据的处理效率。
在上述技术方案中,优选地,所述处理单元具体用于:根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,在对目标流式数据的处理过程中,具体可采用正则表达式匹配方法来对流经每个时间窗口的目标流式数据进行上下文关联分析,确保了对目标流式数据分析结果的准确性。其中,正则表达式可基于预定义的一些特定字符及这些特定字符的组合以对待处理数据进行过滤匹配,其具有灵活性、逻辑性及功能性强等优势。
在上述任一项技术方案中,优选地,还包括:设置单元,用于在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
在该技术方案中,用户可根据实际需求来对时间窗口及其对应的关联信息进行设置,以满足不同用户需求,提升了用户的使用体验。
在上述任一项技术方案中,优选地,所述处理单元还用于:在对所述目标流式数据的内容进行上下文关联分析之前,对所述目标流式数据进行过滤处理。
在上述任一项技术方案中,优选地,所述目标流式数据包括流式日志数据。
通过以上技术方案,能够对获取到的流式数据进行关联分析,以满足用户对数据的处理需求。
附图说明
图1示出了根据本发明的第一个实施例的数据管理方法的示意流程图;
图2示出了根据本发明的实施例的数据管理系统的示意框图;
图3示出了根据本发明的第二个实施例的数据管理方法的示意流程图;
图4示出了根据本发明的第三个实施例的数据管理方法的示意流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的第一个实施例的数据管理方法的示意流程图。
如图1所示,根据本发明的第一个实施例的数据管理方法,包括:
步骤102,监测是否获取到目标流式数据。
步骤104,在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果。
步骤106,输出所述关联结果。
在该技术方案中,通过监测是否获取到目标流式数据,在确定获取到目标流式数据时,对目标流式数据的内容进行上下文关联分析,以便于对流式数据进行横向拓展,满足用户对数据的处理需求。
在上述技术方案中,优选地,在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前,还包括:创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;所述对所述目标流式数据进行上下文关联分析的步骤,具体包括:根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,通过设置时间窗口,对流经时间窗口的目标流式数据进行上下文关联分析,提高了对目标流式数据的处理效率。
在上述任一项技术方案中,优选地,所述根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析的步骤,具体包括:根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,在对目标流式数据的处理过程中,具体可采用正则表达式匹配方法来对流经每个时间窗口的目标流式数据进行上下文关联分析,确保了对目标流式数据分析结果的准确性。其中,正则表达式可基于预定义的一些特定字符及这些特定字符的组合以对待处理数据进行过滤匹配,其具有灵活性、逻辑性及功能性强等优势。
在上述任一项技术方案中,优选地,还包括:在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
在该技术方案中,用户可根据实际需求来对时间窗口及其对应的关联信息进行设置,以满足不同用户需求,提升了用户的使用体验。
在上述任一项技术方案中,优选地,在所述确定获取到所述目标流式数据的步骤之后,以及在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前还包括:对所述目标流式数据进行过滤处理。
在上述任一项技术方案中,优选地,所述目标流式数据包括流式日志数据。
图2示出了根据本发明的实施例的数据管理系统的示意框图。
如图2所示,根据本发明的实施例的数据管理系统200,包括:监测单元202、处理单元204和输出单元206。
其中,监测单元202用于监测是否获取到目标流式数据;处理单元204用于在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;输出单元206用于输出所述关联结果。
在该技术方案中,通过监测是否获取到目标流式数据,在确定获取到目标流式数据时,对目标流式数据的内容进行上下文关联分析,以便于对流式数据进行横向拓展,满足用户对数据的处理需求。
在上述技术方案中,优选地,还包括:创建单元208,用于创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;所述处理单元204具体用于:根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,通过设置时间窗口,对流经时间窗口的目标流式数据进行上下文关联分析,提高了对目标流式数据的处理效率。
在上述技术方案中,优选地,所述处理单元204具体用于:根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
在该技术方案中,在对目标流式数据的处理过程中,具体可采用正则表达式匹配方法来对流经每个时间窗口的目标流式数据进行上下文关联分析,确保了对目标流式数据分析结果的准确性。其中,正则表达式可基于预定义的一些特定字符及这些特定字符的组合以对待处理数据进行过滤匹配,其具有灵活性、逻辑性及功能性强等优势。
在上述任一项技术方案中,优选地,还包括:设置单元210,用于在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
在该技术方案中,用户可根据实际需求来对时间窗口及其对应的关联信息进行设置,以满足不同用户需求,提升了用户的使用体验。
在上述任一项技术方案中,优选地,所述处理单元204还用于:在对所述目标流式数据的内容进行上下文关联分析之前,对所述目标流式数据进行过滤处理。
在上述任一项技术方案中,优选地,所述目标流式数据包括流式日志数据。
以下结合图3和图4对本发明的技术方案作进一步说明。
如图3所示,本实施例中,主要实际Inputs(输入)模块、Filters(过滤)模块、Analysis(分析)模块及Outputs(输出)模块,在LogStash收集到流式数据后,在把流式数据输出到指定位置前,引入一个流式数据逻辑关联分析模块Analysis,分析出来的结果再输出到指定位置,具体地,收集的流式数据经由Filters模块输入Filters模块进行过滤,然后将过滤后的流式数据输入到Analysis模块进行上下文关联分析,最后经由Outputs模块将分析结果输出至指定位置。
其中,如图4所示,一般流式数据不是在磁盘上等待程序去扫描,而是数据一直是在线流动的,所以可定义时间窗口(如图4所示的时间窗1、时间窗2、…、时间窗n),在一定的时间内进行数据内容的上下文关联分析,让数据在窗口内流过,在时间窗口内的数据进行做关联,根据关联规则(具体可根据用户进行设定)以及正则表达式匹配,在时间窗口内进行规则匹配,成功则表明上下文关联成功,产生具体的关联事件。
以上结合附图详细说明了本发明的技术方案,本发明的技术方案提出了一种新的数据管理方案,能够对获取到的流式数据进行关联分析,以满足用户对数据的处理需求。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种数据管理方法,其特征在于,包括:
监测是否获取到目标流式数据;
在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;
输出所述关联结果。
2.根据权利要求1所述的数据管理方法,其特征在于,在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前,还包括:
创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;
所述对所述目标流式数据进行上下文关联分析的步骤,具体包括:
根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
3.根据权利要求2所述的数据管理方法,其特征在于,所述根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析的步骤,具体包括:
根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
4.根据权利要求2所述的数据管理方法,其特征在于,还包括:
在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
5.根据权利要求1至4中任一项所述的数据管理方法,其特征在于,在所述确定获取到所述目标流式数据的步骤之后,以及在所述对所述目标流式数据的内容进行上下文关联分析的步骤之前还包括:
对所述目标流式数据进行过滤处理。
6.根据权利要求1至4中任一项所述的数据管理方法,其特征在于,所述目标流式数据包括流式日志数据。
7.一种数据管理系统,其特征在于,包括:
监测单元,用于监测是否获取到目标流式数据;
处理单元,用于在确定获取到所述目标流式数据时,对所述目标流式数据的内容进行上下文关联分析,以得到关联结果;
输出单元,用于输出所述关联结果。
8.根据权利要求7所述的数据管理系统,其特征在于,还包括:
创建单元,用于创建至少一个时间窗口,以及配置每个所述时间窗口对应的关联信息;
所述处理单元具体用于:
根据每个所述时间窗口对应的关联信息,对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
9.根据权利要求8所述的数据管理系统,其特征在于,所述处理单元具体用于:
根据每个所述时间窗口对应的关联信息,基于正则表达式匹配方式对流经每个所述时间窗口的目标流式数据进行上下文关联分析。
10.根据权利要求8所述的数据管理系统,其特征在于,还包括:
设置单元,用于在接收到设置任一所述时间窗口的指令时,对任一所述时间窗口和任一所述时间窗口对应的关联信息进行设置。
11.根据权利要求7至10中任一项所述的数据管理系统,其特征在于,所述处理单元还用于:
在对所述目标流式数据的内容进行上下文关联分析之前,对所述目标流式数据进行过滤处理。
12.根据权利要求7至10中任一项所述的数据管理系统,其特征在于,所述目标流式数据包括流式日志数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611191308.4A CN106777168A (zh) | 2016-12-21 | 2016-12-21 | 数据管理方法及数据管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611191308.4A CN106777168A (zh) | 2016-12-21 | 2016-12-21 | 数据管理方法及数据管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106777168A true CN106777168A (zh) | 2017-05-31 |
Family
ID=58896814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611191308.4A Pending CN106777168A (zh) | 2016-12-21 | 2016-12-21 | 数据管理方法及数据管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777168A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083626A (zh) * | 2019-03-29 | 2019-08-02 | 北京奇安信科技有限公司 | 流式事件序列匹配方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038386A1 (en) * | 2003-08-05 | 2007-02-15 | Schadt Eric E | Computer systems and methods for inferring casuality from cellular constituent abundance data |
CN102158355A (zh) * | 2011-03-11 | 2011-08-17 | 广州蓝科科技股份有限公司 | 一种可并发和断续分析的日志事件关联分析方法和装置 |
CN105975475A (zh) * | 2016-03-31 | 2016-09-28 | 华南理工大学 | 基于中文短语串的细粒度主题信息抽取方法 |
-
2016
- 2016-12-21 CN CN201611191308.4A patent/CN106777168A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070038386A1 (en) * | 2003-08-05 | 2007-02-15 | Schadt Eric E | Computer systems and methods for inferring casuality from cellular constituent abundance data |
CN102158355A (zh) * | 2011-03-11 | 2011-08-17 | 广州蓝科科技股份有限公司 | 一种可并发和断续分析的日志事件关联分析方法和装置 |
CN105975475A (zh) * | 2016-03-31 | 2016-09-28 | 华南理工大学 | 基于中文短语串的细粒度主题信息抽取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083626A (zh) * | 2019-03-29 | 2019-08-02 | 北京奇安信科技有限公司 | 流式事件序列匹配方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10181012B2 (en) | Extracting clinical care pathways correlated with outcomes | |
CN104268064B (zh) | 产品日志的异常诊断方法和装置 | |
CN109255523A (zh) | 基于kks编码规则和大数据架构的分析指标计算平台 | |
CN109150619A (zh) | 一种基于网络流量数据的故障诊断方法及系统 | |
CN110388315A (zh) | 基于多源信息融合的输油泵故障识别方法、装置及系统 | |
CN104243211A (zh) | 一种数据流的镜像方法及装置 | |
CN108694448A (zh) | Phm平台 | |
WO2012054572A3 (en) | Computer metrics system and process for implementing same | |
CN105844390A (zh) | 一种数据质量追溯的方法及其装置以及硬件处理器 | |
CN106777168A (zh) | 数据管理方法及数据管理系统 | |
CN114185750A (zh) | 流程监控方法、装置、设备及存储介质 | |
CN103136440B (zh) | 数据处理方法和装置 | |
CN105138612A (zh) | 数据一致性差异原因的分析和定位的方法及系统 | |
Wu et al. | Social sensor: An analysis tool for social media | |
CN106295144A (zh) | 一种医疗数据采集质量控制方法 | |
Lamghari et al. | An operational support approach for mining unstructured business processes | |
Jung | Understanding information propagation on online social tagging systems: a case study on Flickr | |
CN105139322A (zh) | 一种分布式的电子数据取证系统及方法 | |
CN109241142A (zh) | 基于流程引擎的数据血缘关系计算方法 | |
Winter et al. | Untangling the GDPR using conrelminer | |
CN115168828A (zh) | 账号的安全登录方法、装置和电子设备 | |
CN107544949A (zh) | 模板合并方法及装置 | |
CN110019164A (zh) | 一种异构结构化数据融合概率的计算方法及系统 | |
CN110210773A (zh) | 一种项目迭代考评系统及方法 | |
WO2014048636A1 (en) | A system and a method for processing events occurring in an environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |