CN104239475A - 一种时间序列数据分析方法及装置 - Google Patents

一种时间序列数据分析方法及装置 Download PDF

Info

Publication number
CN104239475A
CN104239475A CN201410447008.2A CN201410447008A CN104239475A CN 104239475 A CN104239475 A CN 104239475A CN 201410447008 A CN201410447008 A CN 201410447008A CN 104239475 A CN104239475 A CN 104239475A
Authority
CN
China
Prior art keywords
time series
series data
feature information
information
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410447008.2A
Other languages
English (en)
Inventor
陈军
梁玫娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YOUTEJIE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING YOUTEJIE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YOUTEJIE INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING YOUTEJIE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410447008.2A priority Critical patent/CN104239475A/zh
Publication of CN104239475A publication Critical patent/CN104239475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时间序列数据分析方法及装置,用以准确高效地将多行时间序列数据合并为一个事件。所述方法包括:在时间序列数据中查找起始符;根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;将匹配得到的时间序列数据合并为同一事件,得到分析结果。

Description

一种时间序列数据分析方法及装置
技术领域
本发明涉及互联网技术领域,特别涉及一种时间序列数据分析方法及装置。
背景技术
在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的日志数量巨大,格式也不尽相同,很难得到利用。
由于日志的格式多种多样,想要利用日志价值首先需要对日志进行准确识别,对于多行日志,如果不能正确识别出多行属于同一事件,则大大影响数据分析的准确性和有效性。
现有技术大部分将每行日志视为一条事件,或者需要用户抓住每条日志的特点进行处理。例如使用awk,将每条以[日期时间]为开头的日志正确显示。
awk-F"|"'{if($0~/^/[2009-05-01/){printf"/n%s",$0}else{printf"%s",$0}}END{printf"/n"}'test1.log|sed-n'2,$p'>test2.log
但是,大部分日志都是不分行的,即一行日志对应一个事件。但某些日志是多行的,如Java程序的traceback,几十行日志对应一个事件。在处理这种日志的时候,需要把traceback的几十行日志归并为一个事件来处理。为此,日志分析技术人员常常需要学习掌握相关技术编写程序或正则表达式以对多行日志进行处理,浪费大量时间和人力物力。
发明内容
本发明提供一种时间序列数据分析方法及装置,用以准确高效地将多行时间序列数据合并为一个事件。
本发明提供一种时间序列数据分析方法,包括:
在时间序列数据中查找起始符;
根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;
将匹配得到的时间序列数据合并为同一事件,得到分析结果。
可选的,所述方法还包括:
显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
当根据用户操作确认所述分析结果不正确时,获取用户输入的第二特征信息;
根据所述第二特征信息对所述起始符之后的时间序列数据进行匹配;
将根据所述第二特征信息匹配得到的时间序列数据合并为同一事件。
可选的,所述方法还包括:
显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
当根据用户操作确认所述分析结果不正确时,生成第三特征信息;
根据所述第三特征信息对所述起始符之后的时间序列数据进行匹配;
将根据所述第三特征信息匹配得到的时间序列数据合并为同一事件
可选的,所述第一特征信息、第二特征信息或第三特征信息包括以下至少一种信息:正则表达式,非字母、非数字的特殊字符,和文本特征模板。
本发明提供一种时间序列数据分析装置,包括:
查找模块,用于在时间序列数据中查找起始符;
匹配模块,用于根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;
合并模块,用于将匹配得到的时间序列数据合并为同一事件,得到分析结果。
可选的,所述装置还包括:
显示模块,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
获取模块,用于当根据用户操作确认所述分析结果不正确时,获取用户输入的第二特征信息;
所述匹配模块,用于根据所述第二特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块,用于将根据所述第二特征信息匹配得到的时间序列数据合并为同一事件。
可选的,所述装置还包括:
显示模块,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
生成模块,用于当根据用户操作确认所述分析结果不正确时,生成第三特征信息;
所述匹配模块,用于根据所述第三特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块,用于将根据所述第三特征信息匹配得到的时间序列数据合并为同一事件。
本实施例中,通过将多行日志合并为一个事件,提高数据分析的准确性和有效性。并且,用户操作方便,无需自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要输入每行日志的换行符即可实现对多行日志的分析合并。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明实施例时间序列数据分析方法的流程图;
图2是本发明另一实施例时间序列数据分析方法的流程图;
图3是本发明另一实施例时间序列数据分析方法的流程图;
图4是本发明另一实施例时间序列数据分析装置的框图;
图5是本发明另一实施例时间序列数据分析装置的框图;
图6是本发明另一实施例时间序列数据分析装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例中,主要是对时间序列数据进行分析。时间序列数据即为在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度。例如,我国国内生产总值从1949到2009的变化就是时间序列数据。本发明实施例中的时间序列数据不仅包括日志,还包括各种传感器、智能家电以及各种交易系统(电商、银行、互联网金融)等产生的带有时间戳的所有数据。
图1是本发明实施例时间序列数据分析方法的流程图,如图1所示,该时间序列数据分析方法,包括:
步骤S11,在时间序列数据中查找起始符;
步骤S12,根据预设的第一特征信息对起始符之后的时间序列数据进行匹配;
步骤S13,将匹配得到的时间序列数据合并为同一事件,得到分析结果。
例如,一个多行日志为:
[Mon May 26 21:06:09 20 14][error][client 157.55.33.47]PHP Warning:date():
Exception message 1234
Call Stack()
[Mon May 26 21:06:102014][error][client 157.55.33.47]..
可以认为换行符为[,则系统会自动生成正则表达式\[[^]]*\].*
识别后的日志为:
[Mon May 26 21:06:092014][error][client 157.55.33.47]PHP Warning:date():Exception message 1234 Call Stack()
[Mon May 26 21:06:102014][error][client 157.55.33.47]..
又例如,一个tomcat多行日志:
则使用(^\d+\s error)|(^.+Exception:.+)|(^\s+at.+)|(^\s+\.\.\.\d+more)|(^\s*Cause by:.+)正则表达式匹配,把上面多行日志聚合成一个事件。
本实施例中,通过将多行日志合并为一个事件,提高数据分析的准确性和有效性。并且,用户操作方便,无需自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要输入每行日志的换行符即可实现对多行日志的分析合并。
图2是本发明另一实施例时间序列数据分析方法的流程图,如图2所示,可选的,该方法还包括:
步骤S21,显示提示信息,提示信息用于提示用户确认分析结果是否正确;
步骤S22,当根据用户操作确认分析结果不正确时,获取用户输入的第二特征信息;
步骤S23,根据第二特征信息对起始符之后的时间序列数据进行匹配;
步骤S24,将根据第二特征信息匹配得到的时间序列数据合并为同一事件。
在可选方案中,进一步对分析结果进行验证,当用户认为分析结果有误时,可以根据用户输入的特征信息重新进行分析。这样,进一步提高了对多行日志分析的准确性,使得用户可以及时了解对多行日志的分析情况。
图3是本发明另一实施例时间序列数据分析方法的流程图,如图3所示,可选的,该方法还包括:
步骤S31,显示提示信息,提示信息用于提示用户确认分析结果是否正确;
步骤S32,当根据用户操作确认分析结果不正确时,生成第三特征信息;
步骤S33,根据第三特征信息对起始符之后的时间序列数据进行匹配;
步骤S34,将根据第三特征信息匹配得到的时间序列数据合并为同一事件。
在可选方案中,进一步对分析结果进行验证,当用户认为分析结果有误时,可以重新生成的特征信息进行分析。这样,进一步提高了对多行日志分析的准确性,使得用户可以及时了解对多行日志的分析情况。
在可选方案中,所述第一特征信息、第二特征信息或第三特征信息包括以下至少一种信息:正则表达式,非字母、非数字的特殊字符,和文本特征模板。
例如,可以根据预设的正则表达式对多行日志进行匹配,当匹配成功时,确定该多行日志为同一事件。
又例如,按顺序提取该日志中的非字母、非数字的符号(包括出现的顺序和个数),如空格、标点符号、括号、中划线、下划线等。用这些信息对多行日志进行匹配,当匹配成功时,确定该多行日志为同一事件。
又例如,通过数据挖掘、机器学习等途径,抽取某种时间序列数据类型的文本特征模版,用文本特征模板对多行日志进行匹配,当匹配成功时,确定该多行日志为同一事件。
在可选方案中,特征信息可以有多种形式,通过多种特征信息的结合,可以更加准确地识别出多行日志是否为同一事件,进一步提高数据分析的准确性和有效性。
图4是本发明实施例时间序列数据分析装置的框图,如图4所示,该时间序列数据分析装置,包括:
查找模块41,用于在时间序列数据中查找起始符;
匹配模块42,用于根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;
合并模块43,用于将匹配得到的时间序列数据合并为同一事件,得到分析结果。
图5是本发明另一实施例时间序列数据分析装置的框图,如图5所示,可选的,该装置还包括:
显示模块44,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
获取模块45,用于当根据用户操作确认所述分析结果不正确时,获取用户输入的第二特征信息;
所述匹配模块42,用于根据所述第二特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块43,用于将根据所述第二特征信息匹配得到的时间序列数据合并为同一事件。
图6是本发明另一实施例时间序列数据分析装置的框图,如图6所示,可选的,该装置还包括:
显示模块44,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
生成模块46,用于当根据用户操作确认所述分析结果不正确时,生成第三特征信息;
所述匹配模块42,用于根据所述第三特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块43,用于将根据所述第三特征信息匹配得到的时间序列数据合并为同一事件。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本实施例中,通过将多行日志合并为一个事件,提高数据分析的准确性和有效性。并且,用户操作方便,无需自行编写程序,也不需要掌握正则表达式的写法以及其他语句的运用,只需要输入每行日志的换行符即可实现对多行日志的分析合并。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种时间序列数据分析方法,其特征在于,包括:
在时间序列数据中查找起始符;
根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;
将匹配得到的时间序列数据合并为同一事件,得到分析结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
当根据用户操作确认所述分析结果不正确时,获取用户输入的第二特征信息;
根据所述第二特征信息对所述起始符之后的时间序列数据进行匹配;
将根据所述第二特征信息匹配得到的时间序列数据合并为同一事件。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
当根据用户操作确认所述分析结果不正确时,生成第三特征信息;
根据所述第三特征信息对所述起始符之后的时间序列数据进行匹配;
将根据所述第三特征信息匹配得到的时间序列数据合并为同一事件。
4.如权利要求1-3中任一所述的方法,其特征在于,所述第一特征信息、第二特征信息或第三特征信息包括以下至少一种信息:正则表达式,非字母、非数字的特殊字符,和文本特征模板。
5.一种时间序列数据分析装置,其特征在于,包括:
查找模块,用于在时间序列数据中查找起始符;
匹配模块,用于根据预设的第一特征信息对所述起始符之后的时间序列数据进行匹配;
合并模块,用于将匹配得到的时间序列数据合并为同一事件,得到分析结果。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
显示模块,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
获取模块,用于当根据用户操作确认所述分析结果不正确时,获取用户输入的第二特征信息;
所述匹配模块,用于根据所述第二特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块,用于将根据所述第二特征信息匹配得到的时间序列数据合并为同一事件。
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
显示模块,用于显示提示信息,所述提示信息用于提示用户确认所述分析结果是否正确;
生成模块,用于当根据用户操作确认所述分析结果不正确时,生成第三特征信息;
所述匹配模块,用于根据所述第三特征信息对所述起始符之后的时间序列数据进行匹配;
所述合并模块,用于将根据所述第三特征信息匹配得到的时间序列数据合并为同一事件。
CN201410447008.2A 2014-09-03 2014-09-03 一种时间序列数据分析方法及装置 Pending CN104239475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410447008.2A CN104239475A (zh) 2014-09-03 2014-09-03 一种时间序列数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410447008.2A CN104239475A (zh) 2014-09-03 2014-09-03 一种时间序列数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN104239475A true CN104239475A (zh) 2014-12-24

Family

ID=52227534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410447008.2A Pending CN104239475A (zh) 2014-09-03 2014-09-03 一种时间序列数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN104239475A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656607A (zh) * 2016-12-27 2017-05-10 上海爱数信息技术股份有限公司 设备日志解析方法、系统及具有该系统的服务器端
CN106919499A (zh) * 2017-02-27 2017-07-04 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN113486072A (zh) * 2020-03-17 2021-10-08 中国移动通信集团福建有限公司 数据分析方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763347B1 (en) * 2001-10-19 2004-07-13 Nick Zhang Indexing management for hierarchical main memory
CN101339531A (zh) * 2008-08-12 2009-01-07 杭州华三通信技术有限公司 一种处理日志文件的方法及装置
CN101605028A (zh) * 2009-02-17 2009-12-16 北京安天电子设备有限公司 一种日志记录合并方法和系统
CN101641674A (zh) * 2006-10-05 2010-02-03 斯普兰克公司 时间序列搜索引擎
CN102158355A (zh) * 2011-03-11 2011-08-17 广州蓝科科技股份有限公司 一种可并发和断续分析的日志事件关联分析方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6763347B1 (en) * 2001-10-19 2004-07-13 Nick Zhang Indexing management for hierarchical main memory
CN101641674A (zh) * 2006-10-05 2010-02-03 斯普兰克公司 时间序列搜索引擎
CN101339531A (zh) * 2008-08-12 2009-01-07 杭州华三通信技术有限公司 一种处理日志文件的方法及装置
CN101605028A (zh) * 2009-02-17 2009-12-16 北京安天电子设备有限公司 一种日志记录合并方法和系统
CN102158355A (zh) * 2011-03-11 2011-08-17 广州蓝科科技股份有限公司 一种可并发和断续分析的日志事件关联分析方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656607A (zh) * 2016-12-27 2017-05-10 上海爱数信息技术股份有限公司 设备日志解析方法、系统及具有该系统的服务器端
CN106919499A (zh) * 2017-02-27 2017-07-04 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN106919499B (zh) * 2017-02-27 2021-06-11 郑州云海信息技术有限公司 一种采集日志消息的方法和装置
CN113486072A (zh) * 2020-03-17 2021-10-08 中国移动通信集团福建有限公司 数据分析方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN110532019B (zh) 一种软件代码片段历史追溯的方法
CN104461842A (zh) 基于日志相似性来处理故障的方法和装置
CN111178069B (zh) 数据处理方法、装置、计算机设备及存储介质
CN104252531B (zh) 一种文件类型识别方法及装置
US8904352B2 (en) Systems and methods for processing source code during debugging operations
CN111680634A (zh) 公文文件处理方法、装置、计算机设备及存储介质
CN110969517B (zh) 一种招投标生命周期关联方法、系统、存储介质及计算机设备
CN103500158A (zh) 批注电子文档的方法和装置
CN104636401B (zh) 一种scada系统数据回滚的方法及装置
WO2019153587A1 (zh) 用户身份验证方法、装置、计算机设备和存储介质
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN104239475A (zh) 一种时间序列数据分析方法及装置
CN105354224A (zh) 知识数据的处理方法和装置
CN112084111A (zh) 一种数据处理方法、系统和装置
CN111026604B (zh) 一种日志文件解析方法及装置
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN114968725A (zh) 任务依赖关系校正方法、装置、计算机设备及存储介质
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN105740131B (zh) 软件用户行为回退处理方法及装置
CN113641523A (zh) 一种日志处理方法及装置
JP2018132965A (ja) 障害解析プログラム、障害解析装置及び障害解析方法
CN112650796A (zh) 一种自动化的应用数据收集、存储管理系统
CN109871214A (zh) 程序代码生成方法、装置、计算机设备和存储介质
CN115203057B (zh) 低代码测试自动化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20141224