CN113722616A - 一种多维度时间序列数据的自动洞见发现方法 - Google Patents

一种多维度时间序列数据的自动洞见发现方法 Download PDF

Info

Publication number
CN113722616A
CN113722616A CN202111118231.9A CN202111118231A CN113722616A CN 113722616 A CN113722616 A CN 113722616A CN 202111118231 A CN202111118231 A CN 202111118231A CN 113722616 A CN113722616 A CN 113722616A
Authority
CN
China
Prior art keywords
insight
insights
significance
candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111118231.9A
Other languages
English (en)
Inventor
曹立
隋楷心
刘大鹏
蒋鹏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202111118231.9A priority Critical patent/CN113722616A/zh
Publication of CN113722616A publication Critical patent/CN113722616A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多维度时间序列数据的自动洞见发现方法,包括:S1用户指定数据集和超参数;S2搜索使得洞见分数最大的洞见;S3将搜索到的洞见可视化并展示给用户。本发明解决了手动分析多维度时间序列数据时耗费人力与时间成本,过度依赖人工操作与判断的技术问题,实现了对于多维度时间序列的洞见的自动挖掘,提高了搜索的效率。

Description

一种多维度时间序列数据的自动洞见发现方法
技术领域
本发明属于计算机技术领域,具体涉及一种多维度时间序列数据的自动洞见发现方法。
背景技术
当前各类软件系统往往通过输出日志会对系统中的事件进行记录,每一条日志记录了系统中的一个事件,以及一系列用来描述这个事件的字段。这些字段分为三类:1)时间; 2)属性,表示每个事件的特征 ,一般是离散值;3)指标,表示每个事件在某种指标上的表现,一般是连续值。对于每一种属性组合(一系列属性和其取值的组合)和每一个指标,都能得到一条时间序列,这样的数据被称为多维度时间序列数据,软件系统的开发工程师或者运维工程师会关注多维度时间序列数据中不同寻常的地方,以了解软件系统的表现,而这种数据中不同寻常的地方称为洞见。
在当前的生产实践中,工程师们通过手动分析的方式发现多维度时间序列数据中的洞见,但是,因为维度组合的数量是指数增长的,而每次搜索都需要依赖很多人工操作和人工判断,这样的手动分析过程非常消耗人力和时间。无法足够准确、有效地发现洞见。
发明内容
本发明提供一种多维度时间序列数据的自动洞见发现方法、装置、设备及存储介质,实现对于多维度时间序列的洞见的自动挖掘,提高发现洞见过程中的准确度和效率。
第一方面,本发明实施例提供了一种多维度时间序列数据的自动洞见发现方法,所述方法包括:
S1用户指定数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L;
S2基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见,所述洞见分数用于表示洞见值得关注的程度;
S3将搜索到的L个洞见可视化地并展示给用户;
洞见评估方法的维度包括:根据条目数量确定的影响范围;根据数据子空间、细分属性及时间范围确定的显著性;根据t检验确定的新颖性。
第二方面,本发明实施还提供了一种多维度时间序列数据的自动洞见发现装置,包括:
接收模块,用于接收用户指定的数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L;
搜索模块,用于基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见,所述洞见分数用于表示洞见值得关注的程度;
展示模块,用于将搜索到的L个洞见可视化地展示给用户。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-中任一所述的多维度时间序列数据的自动洞见发现方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,当所述计算机程序被计算设备中的处理器执行时,计算设备执行如权利要求1-7任一项所述的方法。
本发明通过对组成洞见的各个元素进行概括表达,量化了洞见值得关注的程度,对值得关注的程度最高的若干洞见提供用户可视化的展示,从而实现了对于多维度时间序列的洞见的自动挖掘,提高了发现洞见过程中的准确度和效率。避免了人工分析洞见时容易出现的评价标准混乱,准确率低,成本大和效率差的问题。
附图说明
为了更清楚地说明发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-1是本发明实施例一提供的一种多维度时间序列数据的自动洞见发现方法曲线图;
图1-2是本发明实施例一提供的一种多维度时间序列数据的自动洞见发现方法曲线图;
图2是本发明实施例一提供的多维度时间序列数据的自动洞见发现方法流程图。
图3是本发明实施例一所涉及的洞见搜索过程示意图。
图4-1是本发明实施例一所涉及的Trend Outlier计算相应的可视化方法。
图4-2是本发明实施例一所涉及的Value Outlier计算相应的可视化方法。
图4-3是本发明实施例一所涉及的Seasonality Outlier计算相应的可视化方法。
图4-4是是本发明实施例一所涉及的Change Point计算相应的可视化方法。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
各种各样的软件系统往往会对系统中的事件输出日志。每一条日志记录了系统中的一个事件(例如,一个用户请求),以及一系列用来描述这个事件的字段(例如,发生时间,用户请求的接口,当前软件的版本,用户请求的耗时等等)。将这些字段分为三类:1)时间2;)属性,表示每个事件的特征 ,一般是离散值;3)指标,表示每个事件在某种指标上的表现,一般是连续值。
如表1所示,Year(年份)表示时间,Brand(品牌),Category(类别),Model(车型)是属性,Sales(销售量)是指标。
表1 多维度时间序列数据的自动洞见发现方法数据
Year Brand Category Model Sales
2007 ××× Compact BMW 3-Ser 142490
2008 ××× Compact BMW 3-Ser 112464
2009 ××× Compact BMW 3-Ser 90960
2010 ××× Compact BMW 3-Ser 100910
2011 ××× Compact BMW 3-Ser 94371
2007 ××× Compact BMW 3-Ser 54142
2007 ××× Fullsize BMW 7-Ser 14773
2008 ××× Fullsize BMW 7-Ser 12276
2009 ××× Fullsize BMW 7-Ser 9254
如图1-1所示,对于每一种属性组合(一系列属性和其取值的组合)和每一个指标,都能得到一条的时间序列。因此称这样的数据为多维度时间序列数据。软件系统的开发工程师或者运维工程师会关注多维度时间序列数据中不同寻常的地方,以了解软件系统的表现。
如图1-2所示,10.1.238.3服务器上iPad端的服务的错误率随时间变化逐渐上升。这是不同寻常的,可能反映了服务的故障。这种数据中不同寻常的地方即是洞见。通过发现多维度时间序列数据中的洞见,工程师们能够知道软件系统的那些表现和他们期待的不同,从而能够进一步做出针对的优化。
在当前的生产实践中,工程师们通过手动分析的方式发现多维度时间序列数据中的洞见。例如,一种经常被采用的工具是Excel。工程师们通过在Excel中手动筛选特定的维度组合,并在某些指标上进行聚合,之后通过Excel的图表进行可视化,进而确定有没有洞见。但是,这样的手动分析过程非常消耗人力和时间,因为维度组合的数量是指数增长的,而每次搜索都需要依赖很多人工操作和人工判断。
实施例一
本实施例提供了一种多维度时间序列数据的自动洞见发现方法,流程如图2所示。
该方法包括如下操作:
S1用户指定数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L。具体的,用户可以指定数据源的路径或者URI(universal resource identifier,统一资源定位符),数据源可以是某个文件(例如CSV文件或者Excel表格)或者某个数据库。
可选地,用户指定数据源的路径或URI之后,读取数据源中的所有字段,之后用户选择每个字段属于以下四类中的哪一类:1. 时间戳,只能有一个字段作为时间戳;2. 属性,至少有一个字段作为属性;3. 指标,至少有一个字段作为指标。在数据源中直接读取的指标字段都被认为是可以通过SUM(求和)来聚合的。例如说,(国家=中国,省份=XXX)的销售量指标可以通过求和聚合为(国家=中国)的销售量;4. 忽略,数据源中的该字段将在后续分析中被忽略。这是因为数据源中可能存在无用的字段,用户不需要分析它们。用户指定分析的目标指标。即用户希望发现什么指标(例如是销售量还是销售额)中的洞见。如果目标指标是数据源中存在的指标,那么直接指定指标名字即可。如果不是,那么需要用户通过Python语言的形式指定目标指标如何通过数据源中存在的指标来计算出来(例如average_dollar_amount = lambda total_dollar_amount, order_number: total_dollar_amount / order_number表示平均单价通过总销售额除以销售量得到)。
具体地,用户指定搜索过程中的一些超参数包括:最大搜索时间,因为搜索过程可能需要很长时间,通过这个超参数可以控制搜索用时达到多少时即不再继续,直接返回已得到的所有结果。最大洞见个数L,表示最多展示多少个最有趣的洞见。
S2 基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见,所述洞见分数用于表示洞见值得关注的程度;
可选地,所述洞见的形式化方法如下所述。洞见主要包括三部分,第一个是数据子空间,即洞见影响的数据的属性范围;第二个是细分属性,即洞见在哪个属性上进行了细分,分别研究了其每个属性取值的指标情况;第三个是时间范围,即洞见影响的数据的时间范围。时间范围和细分属性有时只需要有至少一个即可。如果只有时间范围,没有细分属性,那么就是把时间当成了细分的属性。如果只有细分属性,没有时间范围,那么就是只分析一个时间点的数据,或者把所有时间的数据混起来分析。子空间和时间范围描述了待分析的数据的范围,细分属性描述了要分析的洞见的维度。基于子空间、细分属性和时间范围,能够准确定位待分析的洞见所涉及数据范围和分析维度。
具体地,可以定义一个洞见(insight)为一个三元组IST=(S, B, T),S表示子空间,B表示细分属性,T表示时间范围。B和T可以为空(null)。
三元组的作用是将本来形象、具体的洞见通过数学方式形式化、抽象地表示出来。基于该数学形式化的三元组,可以便于洞见后续的评估和可视化的执行。洞见的三元组表示提炼了洞见的三个关键特征(子空间、细分属性和时间范围)。缺少子空间S就无法分析子数据集中的洞见,缺少细分属性B就无法确定在那个维度分析洞见,缺少时间范围就无法区别不同时间的洞见。另一方面,从之后的洞见评估和可视化可以发现,只需要知道这三个特征就足以支持可视化和分析数据中的一个洞见。
可选地,洞见的评估方法如下所述,通过以下三方面的特征评价洞见的不同寻常程度,即工程师们会多希望关注它。
首先是洞见的影响范围(impact)。例如,如果有两个洞见,IST1影响了全部范围的数据,IST2影响了Windows用户,则工程师会更希望关注IST1而不是IST2,因为IST1的影响范围更大。由此,定义
Figure 100002_DEST_PATH_IMAGE001
为IST的影响范围。COUNT(IST)表示IST的数据子空间中的所有数据条目的数量,COUNT(*)表示所有数据条目的数量。具体来说,记IST=(S, B, T),则COUNT(IST)为属性取值满足S且时间范围在T内的所有数据条目的数量。
其次是洞见的显著性(significance)。洞见的能给工程师带来新的信息的原因在于洞见展现的数据不符合工程师的固有认知。这个不符合的程度就是洞见的显著性。为了形式化地定义,采用假设检验的方法。首先,把工程师的固有认知总结为若干个零假设(null hypothesis),然后基于每个零假设可以得到一个统计量及其应当服从的概率分布。然后在实际的数据上计算该统计量,就可以得到实际的统计量服从零假设的概率。从而知晓实际数据不服从工程师的固有认知的概率。通过这种方式,统一地定义了不同类型的固有认知对应的显著性,从而做到了统一搜索不同类型的洞见。
具体地,一个洞见IST的显著性可以为
Figure 826646DEST_PATH_IMAGE002
。其中
Figure 100002_DEST_PATH_IMAGE003
分别表示每一种洞见类型对应的显著性,MAX表示取最大值。不同洞见类型对应着不同的显著性计算方式,显著性的计算和IST中的S,B,T都相关。
具体的,记IST=(S,B,T),涉及不同洞见类型的显著性(SIG(IST))计算方法包括Trend Outlier,Value Outlier,Seasonality Outlier和Change Point四类:
Trend Outlier,表示在属性满足S且时间范围在T内的数据中,一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的趋势。通过线性回归得到的斜率表示每个时间序列的趋势。对于B对应的的每个细分属性的取值(例如B为操作系统时,对应的细分属性取值为Windoiws,macOS和Linux),分别检验它的趋势是不是和其他的都不一样。在每次检验中,假设其他时间序列的趋势的均值是当前待检验时间序列的趋势,然后用t-test进行检验。显著性就是1减t-test得到的p-value。最后的显著性是每次检验得到的显著性的最大值。
Value Outlier,表示一个细分属性取值对应的指标值比其他的明显得大。首先表示在属性满足S且时间范围在T内的数据中,对B对应的所有细分属性取值对应的指标值进行排序,将其分为最大值和剩下的两部分。对最大值之外的部分进行指数拟合,得到最大值部分的预期的分布。然后通过对比实际的最大值是否服从该分布得到显著性。
Seasonality Outlier,表示表示在属性满足S且时间范围在T内的数据中,一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的周期性。通过DFT(discreteFourier transform,离散傅立叶变换)得到每个时间序列的周期。具体来说,取强度最高的频率作为每个时间序列的周期。对于B对应的每个细分属性的取值,分别检验它的周期是不是和其他的都不一样。在每次检验中,假设其他时间序列的周期的均值是当前待检验时间序列的周期,然后用t-test进行检验。显著性就是1减t-test得到的p-value。最后的显著性是每次检验得到的显著性的最大值。
Change Point表示子空间S下的时间序列(没有细分属性B)存在突变点。首先在属性满足S且时间范围在T内的数据中,计算每个时间点的指标值和上一个时间点的变化。然后依次检验每个时间点的变化是不是和其他的都不一样。在每次检验中,假设其他所有时间点的变化的均值为当前时间点的变化,然后进行t-test。显著性就是1减t-test得到的p-value。最后的显著性是每次检验得到的显著性的最大值。
最后是洞见的新颖性(novelty)。如果有两个洞见IST1和IST2,IST1在之前一个月的每一周都出现过(假设每次分析的时间范围是一周),IST2是本周第一次出现。则工程师肯定希望关注IST2,因为它是第一次出现,而IST1之前已经看过好几次了。由于同一个洞见的影响范围几乎不会随时间变化,通过比较当前时间范围的洞见的显著性和历史上该洞见的显著性的不同来计算其新颖性。首先,取到该洞见在当前分析时间氛围(t)和历史上(t-w到t-1)的显著性,
Figure 960824DEST_PATH_IMAGE004
。通过t-test方法检验假设
Figure 899568DEST_PATH_IMAGE004
的均值是
Figure 100002_DEST_PATH_IMAGE005
是否成立,并通过得到的p-value计算新颖性:
Figure 828210DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
其中t_test(a, b)表示对a做假设均值为b的t检验,并返回p-value。
基于以上三方面,通过洞见分数
Figure 150606DEST_PATH_IMAGE008
评价一个洞见有多不同寻常,即工程师们会多希望关注它。洞见总分为
Figure 100002_DEST_PATH_IMAGE009
示例性地,S2包括:不断生成候选洞见的三元组(S, B, T)。并行地评测各个候选洞见的影响范围,显著性,新颖性。每一候选洞见全部评测完之后,把其总的分数S提交记录。记录时始终记录当前搜索过的洞见分数最大的L个洞见。在影响范围评测完之后,会把影响范围和当前已知的洞见分数最大的L个洞见中最小的分数进行对比,如果小于,那么就放弃接下来的计算。这是因为显著性和新颖性都是不超过1的,所以
Figure 324361DEST_PATH_IMAGE010
。通过这样的过滤,可以减少大量不必要的对Significance和Novelty的计算,从而提高搜索效率。
S3将搜索到的L个洞见可视化地展示给用户。
具体地,对搜索过程返回的L个洞见,分别绘制图表将洞见展示给用户。图表的类型和计算显著性时分数最大的洞见类型有关。记一个洞见IST=(S,B,R)。Trend Outlier计算对应的洞见类型的可视化方法如图4-1所示(数据子空间指S,外x轴的细分维度为B对应的各个属性取值,内x轴的时间范围为T);Value Outlier计算对应的洞见类型的可视化方法如图4-2所示(指标数据计算使用的数据为属性满足S和时间范围满足T的数据,X轴为B对应的属性取值);Seasonality Outlier计算对应的洞见类型的可视化方法如图4-3所示(数据子空间指S,外x轴的细分维度为B对应的各个属性取值,内x轴的时间范围为T);ChangePoint计算对应的洞见类型的可视化方法如图4-4所示(X轴的时间范围为T,数据为属性满足S的数据)。
实施例二
本实施例提供一种多维度时间序列数据的自动洞见发现装置,所述装置包括:接收模块,搜索模块,以及展示模块,其中:
接收模块,用于接收用户指定的数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L;
搜索模块,用于基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见,所述洞见分数用于表示洞见值得关注的程度;
展示模块,用于将搜索到的L个洞见可视化地展示给用户。
可选地,指定模块还用于,在用户指定数据源的路径或URI之后,读取数据源中的所有字段,供用户选择每个字段属于以下四类中的哪一类:1. 时间戳,只能有一个字段作为时间戳;2.属性,至少有一个字段作为属性;3. 指标,至少有一个字段作为指标;4. 忽略,数据源中的该字段将在后续分析中被忽略。这是因为数据源中可能存在无用的字段,用户不需要分析它们。
可选地,指定模块还用于,用户指定分析的目标指标。即用户希望发现什么指标中的洞见。如果目标指标是数据源中存在的指标,那么直接指定指标名字即可。如果不是,那么需要用户通过Python语言的形式指定目标指标如何通过数据源中存在的指标来计算出来。
可选地,所述搜索模块包括洞见生成器,用于通过如下方式对洞见进行形式化。定义一个洞见(insight)是这样一个三元组IST=(S, B, T),S表示子空间,B表示细分属性,T表示时间范围。B和T可以为空(null)。
可选地,所述搜索模块包括影响范围评测器,显著性评测器,新颖性评测器,洞见生成器生成的候选洞见被送到影响范围评测器,显著性评测器以及新颖性评测器中按顺序进行评测
所述影响范围评测器用于评测候选洞见的影响范围
Figure 619076DEST_PATH_IMAGE001
。COUNT(IST)表示IST的数据子空间中的所有数据的数量,COUNT(*)表示所有数据的数量。
所述显著性评测器用于评测候选洞见的显著性
Figure 187461DEST_PATH_IMAGE002
。其中
Figure 934837DEST_PATH_IMAGE003
分别表示每一种洞见类型对应的显著性,MAX表示取最大值。不同洞见类型对应着不同的显著性计算方式。
所述新颖性评测器用于评测候选洞见的新颖性。首先,取到该洞见在当前分析时间氛围(t)和历史上(t-w到t-1)的显著性,
Figure 614080DEST_PATH_IMAGE004
。通过t-test方法检验假设
Figure 261837DEST_PATH_IMAGE004
的均值是
Figure 1123DEST_PATH_IMAGE005
是否成立,并通过得到的p-value计算新颖性:
Figure DEST_PATH_IMAGE011
Figure 298112DEST_PATH_IMAGE007
;其中t_test(a, b)表示对a做假设均值为b的t检验,并返回p-value。计算洞见总分
Figure 79248DEST_PATH_IMAGE009
。将洞见总分S提交。
可选地,所述搜索模块包括控制器,所述控制器接受候选洞见的洞见总分,将其与记录中洞见分数最大的L个洞见进行比较,若当前候选洞见的洞见总分大于记录中L个洞见中的任意一个,则将记录中L个洞见中洞见分数最小的洞见替换为当前候选洞见,否则放弃记录当前候选洞见,即始终保留当前搜索过的最大的L个(L表示最终用户希望看到的洞见的数目,在第一步超参数设置是提到)洞见。
图3是本发明实施例一所涉及的洞见搜索过程示意图,如图3所示,为了搜索洞见,首先,通过一洞见生成器不断生成候选洞见的三元组(S, B, T)。这些候选被送到多个并行的评测器中进行评测。可选地,通过并行化提高搜索效率。每个评测器顺序评测候选洞见的Impact,Significance,Novelty。全部评测完之后,会把总的分数S提交给控制器。控制器始终记录当前搜索过的最大的L个(L表示最终用户希望看到的洞见的数目)洞见。为了进一步提高效率,在Impact评测器计算完之后,会把Impact和控制器当前一致的最大的L个洞见中最小的分数进行对比,如果小于,那么就放弃接下来的计算。这是因为Significance和Novelty都是不超过1的,所以
Figure 348556DEST_PATH_IMAGE012
。通过这样的过滤,可以减少大量不必要的对Significance和Novelty的计算,从而提高搜索效率。
可选地,可视化模块还用于,对搜索过程返回的L个洞见,分别绘制图表将洞见展示给用户。图表的类型和计算显著性时分数最大的洞见类型有关。
实施例三
本实施例提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例一任一所述的方法。
实施例四
本实施例提供一种计算机可读存储介质,其存储有计算机程序;当所述计算机程序被计算设备中的处理器执行时,使得计算设备执行实施例一任一所述的方法。
实施例一至四通过对组成洞见的各个元素进行概括表达,量化了洞见值得关注的程度,对值得关注的程度最高的若干洞见提供用户可视化的展示,从而实现了对于多维度时间序列的洞见的自动挖掘,提高了发现洞见过程中的准确度和效率。避免了人工分析洞见时容易出现的评价标准混乱,准确率低,成本大和效率差的问题。
为了说明的目的,前述描述使用具体命名以提供对所述实施方案的透彻理解。然而,对于本领域的技术人员而言将显而易见的是,不需要具体细节即可实践所述实施方案。因此,出于例示和描述的目的,呈现了对本文所述的具体实施方案的前述描述。这些描述并非旨在是穷举性的或将实施方案限制到所公开的精确形式。对于本领域的普通技术人员而言将显而易见的是,鉴于上面的教导内容,许多修改和变型是可行的。另外,当在本文中用于指部件的位置时,上文和下文的术语或它们的同义词不一定指相对于外部参照的绝对位置,而是指部件的参考附图的相对位置。
此外,前述附图和描述包括许多概念和特征,其可以多种方式组合以实现多种有益效果和优点。因此,可组合来自各种不同附图的特征,部件,元件和/或概念,以产生未必在本说明书中示出或描述的实施方案或实施方式。此外,在任何特定实施方案和/或实施方式中,不一定需要具体附图或说明中所示的所有特征,部件,元件和/或概念。应当理解,此类实施方案和/或实施方式落入本说明书的范围。

Claims (14)

1.一种多维度时间序列数据的自动洞见发现方法,其特征在于,包括:
S1用户指定数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L;
S2基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见;
S3将搜索到的L个洞见可视化地展示给用户;
洞见评估方法的维度包括:根据条目数量确定的影响范围;根据数据子空间、细分属性及时间范围确定的显著性;根据t检验确定的新颖性。
2.根据权利要求1所述的多维度时间序列数据的自动洞见发现方法,其特征在于,所述S1包括:
S1.1 用户指定数据源的路径或者统一资源定位符;
S1.2 自动读取数据源中的所有字段, 由用户选择每个字段的类别,所述字段的类别包括时间戳类别,属性类别,指标类别,忽略类别;
S1.3 用户指定分析的目标指标;
S1.4用户指定搜索过程中的超参数。
3.根据权利要求1所述的多维度时间序列数据的自动洞见发现方法,其特征在于,所述洞见的形式化方法包括:
将洞见以三元组IST=(S, B, T)形式化;
S为数据子空间,即洞见影响的数据的属性范围;
B为细分属性,即洞见在哪个属性上进行了细分,分别研究了其每个属性取值的指标情况;
T为时间范围,即洞见影响的数据的时间范围;
B和T可以为空。
4.根据权利要求3所述的多维度时间序列数据的自动洞见发现方法,其特征在于,所述S2,包括:
S2.1 生成候选洞见;
S2.2 测评所述候选洞见的影响范围,显著性和新颖性,基于所述候选洞见的影响范围,显著性和新颖性,计算得到所述候选洞见的洞见分数;
S2.3 记录洞见分数最大的L个洞见。
5.根据权利要求4所述的多维度时间序列数据的自动洞见发现方法,其特征在于,所述S2.2包括:
S2.2.1 评测候选洞见的影响范围,候选洞见IST的影响范围为
Figure DEST_PATH_IMAGE001
,其中,COUNT(IST)为属性取值满足S且时间范围在T内的所有数据条目的数量,COUNT(*)表示所有数据条目的数量;
S2.2.2 评测洞见的显著性,候选洞见IST的显著性为
Figure 429778DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
分别表示每一种洞见类型对应的显著性,不同洞见类型对应着不同的显著性计算方式,MAX表示取最大值,显著性的计算和IST中的S,B,T都相关;
S2.2.3 评测洞见的新颖性,候选洞见IST的新颖性为
Figure 525648DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
,t_test(a, b)表示对a做假设均值为b的t检验,并返回p-value;
S2.2.4 计算洞见分数
Figure 91234DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
6.根据权利要求5所述的多维度时间序列数据的自动洞见发现方法,其特征在于,所述不同洞见类型对应着不同的显著性计算方式包括:表示一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的趋势的Trend Outlier方式,表示一个细分属性取值对应的指标值比其他的明显得大的Value Outlier方式,表示一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的周期性的Seasonality Outlier方式,表示一个子空间下的时间序列存在突变点的Change Point方式。
7.一种多维度时间序列数据的自动洞见发现装置,其特征在于,包括:
接收模块,用于接收用户指定的数据集和超参数,所述超参数包括最大搜索时间和最大洞见个数L;
搜索模块,用于基于洞见的形式化方法和评估方法,在指定的搜索时间内,搜索使得洞见分数最大的L个洞见,所述洞见分数用于表示洞见值得关注的程度;
展示模块,用于将搜索到的L个洞见可视化地展示给用户。
8.根据权利要求7所述的多维度时间序列数据的自动洞见发现装置,其特征在于,所述接收模块还用于:
用户指定数据源的路径或者统一资源定位符;
自动读取数据源中的所有字段, 由用户选择每个字段的类别,所述字段的类别包括时间戳类别,属性类别,指标类别,忽略类别;
用户指定分析的目标指标;
用户指定搜索过程中的超参数。
9.根据权利要求7所述的多维度时间序列数据的自动洞见发现装置,其特征在于,所述洞见的形式化方法包括:
将洞见以三元组IST=(S, B, T)形式化;
S为数据子空间,即洞见影响的数据的属性范围;
B为细分属性,即洞见在哪个属性上进行了细分,分别研究了其每个属性取值的指标情况;
T为时间范围,即洞见影响的数据的时间范围;
B和T可以为空。
10.根据权利要求9所述的多维度时间序列数据的自动洞见发现装置,其特征在于,所述搜索模块,还包括:
洞见生成器,用于生成候选洞见;
影响范围评测器,用于测评所述候选洞见的影响范围;
显著性评测器,用于测评所述候选洞见的显著性;
新颖性评测器,用于测评所述候选洞见的新颖性,并基于所述候选洞见的影响范围,显著性和新颖性,计算得到所述候选洞见的洞见分数;
控制器,用于记录洞见分数最大的L个洞见。
11.根据权利要求10所述的多维度时间序列数据的自动洞见发现装置,其特征在于:所述测评所述候选洞见的影响范围,显著性和新颖性,并基于所述候选洞见的影响范围,显著性和新颖性,计算得到所述候选洞见的洞见分数包括:
评测候选洞见的影响范围为
Figure 651266DEST_PATH_IMAGE001
,其中,COUNT(IST)为属性取值满足S且时间范围在T内的所有数据条目的数量,COUNT(*)表示所有数据条目的数量;
评测候选洞见IST的显著性为
Figure 420770DEST_PATH_IMAGE008
,其中
Figure 161193DEST_PATH_IMAGE003
分别表示每一种洞见类型对应的显著性,不同洞见类型对应着不同的显著性计算方式,MAX表示取最大值,显著性的计算和IST中的S,B,T都相关;
评测候选洞见IST的新颖性为
Figure 985930DEST_PATH_IMAGE004
;其中,
Figure DEST_PATH_IMAGE009
,t_test(a, b)表示对a做假设均值为b的t检验,并返回p-value;
计算洞见分数
Figure 525102DEST_PATH_IMAGE006
Figure 511513DEST_PATH_IMAGE007
12.根据权利要求 11所述的多维度时间序列数据的自动洞见发现装置,其特征在于,所述不同洞见类型对应着不同的显著性计算方式包括:表示一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的趋势的Trend Outlier方式,表示一个细分属性取值对应的指标值比其他的明显得大的Value Outlier方式,表示一个细分属性取值对应的时间序列和其他取值的时间序列有着不同的周期性的Seasonality Outlier方式,表示一个子空间下的时间序列存在突变点的Change Point方式。
13.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机存储介质,其上存储有计算机程序,其特征在于,
当所述计算机程序被计算设备中的处理器执行时,计算设备执行如权利要求1-6任一项所述的方法。
CN202111118231.9A 2021-09-24 2021-09-24 一种多维度时间序列数据的自动洞见发现方法 Pending CN113722616A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111118231.9A CN113722616A (zh) 2021-09-24 2021-09-24 一种多维度时间序列数据的自动洞见发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111118231.9A CN113722616A (zh) 2021-09-24 2021-09-24 一种多维度时间序列数据的自动洞见发现方法

Publications (1)

Publication Number Publication Date
CN113722616A true CN113722616A (zh) 2021-11-30

Family

ID=78684692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111118231.9A Pending CN113722616A (zh) 2021-09-24 2021-09-24 一种多维度时间序列数据的自动洞见发现方法

Country Status (1)

Country Link
CN (1) CN113722616A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578078A (zh) * 2022-11-15 2023-01-06 云智慧(北京)科技有限公司 一种运维系统的数据处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868310A (zh) * 2016-03-25 2016-08-17 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868310A (zh) * 2016-03-25 2016-08-17 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO TANG 等: "Extracting Top-K Insights from Multi-dimensional Data", SIGMOD \'17: PROCEEDINGS OF THE 2017 ACM INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 31 May 2017 (2017-05-31), pages 1509 - 1524, XP058880902, DOI: 10.1145/3035918.3035922 *
RUI DING 等: "QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data", SIGMOD \'19: PROCEEDINGS OF THE 2019 INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 5 July 2019 (2019-07-05), pages 317 - 332 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578078A (zh) * 2022-11-15 2023-01-06 云智慧(北京)科技有限公司 一种运维系统的数据处理方法、装置及设备

Similar Documents

Publication Publication Date Title
JP6626911B2 (ja) コンピュータシステム
CA2845827C (en) Dynamic outlier bias reduction system and method
US9111212B2 (en) Dynamic outlier bias reduction system and method
US10528532B2 (en) Systems and methods for data integration
US8380740B2 (en) Selective storing of mining models for enabling interactive data mining
CN110275878B (zh) 业务数据检测方法、装置、计算机设备及存储介质
Shi et al. Learning from evolution history to predict future requirement changes
CN113722616A (zh) 一种多维度时间序列数据的自动洞见发现方法
US7992126B2 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
Sancricca et al. Supporting the Design of Data Preparation Pipelines.
US20130124484A1 (en) Persistent flow apparatus to transform metrics packages received from wireless devices into a data store suitable for mobile communication network analysis by visualization
CA3177037A1 (en) Forecasting based on bernoulli uncertainty characterization
Zhang et al. Mutant reduction evaluation: what is there and what is missing?
CN112215514A (zh) 一种经营分析报告生成方法及系统
Zhao et al. Field reliability estimation of agricultural tractors based on warranty data
Azzalini et al. Data Quality and Data Ethics: Towards a Trade-off Evaluation.
US8200732B2 (en) Apparatus and method for calculating and visualizing targets
US20220230119A1 (en) Computer and measure evaluating method
Chen et al. IoTDQ: An Industrial IoT Data Analysis Library for Apache IoTDB
CN116010399A (zh) 宏观数据生产和评估的方法和装置
CN117391579A (zh) 一种设备信息分析方法、系统和存储介质
CN118278787A (zh) 数据分析方法、装置、计算机设备和存储介质
CN118195404A (zh) 自动化履约管理方法、装置、计算机设备及存储介质
CN112685398A (zh) 物联网数据可视化显示方法和装置
CN116107906A (zh) 回归测试用例知识库维护、回归测试用例推荐方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination