CN117951186A - 见解数据生成的方法和装置 - Google Patents
见解数据生成的方法和装置 Download PDFInfo
- Publication number
- CN117951186A CN117951186A CN202211275756.8A CN202211275756A CN117951186A CN 117951186 A CN117951186 A CN 117951186A CN 202211275756 A CN202211275756 A CN 202211275756A CN 117951186 A CN117951186 A CN 117951186A
- Authority
- CN
- China
- Prior art keywords
- data
- insight
- chart
- analysis
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012800 visualization Methods 0.000 claims abstract description 212
- 238000004458 analytical method Methods 0.000 claims abstract description 141
- 230000003993 interaction Effects 0.000 claims abstract description 34
- 238000007405 data analysis Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 56
- 238000009826 distribution Methods 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 40
- 230000002776 aggregation Effects 0.000 claims description 19
- 238000004220 aggregation Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 75
- 230000008569 process Effects 0.000 description 26
- 230000000007 visual effect Effects 0.000 description 24
- 230000002159 abnormal effect Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 20
- 238000004422 calculation algorithm Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 230000002452 interceptive effect Effects 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 206010047289 Ventricular extrasystoles Diseases 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 238000005129 volume perturbation calorimetry Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000001680 brushing effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012482 interaction analysis Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种见解数据生成的方法和装置,该方法包括:呈现第一图表,第一图表包括M个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录;确认从M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N;确定N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数;基于所有K个数据记录,进行联合数据分析,以生成N个图表可视化元素的第一见解数据。本申请提供的技术方案,能够实现自动生成批量选择的图表可视化元素的见解数据,并实现见解数据的后续交互和分析,提高了见解的准确性。
Description
技术领域
本申请实施例涉及数据智能领域,并且更具体地,涉及一种见解数据生成的方法和装置。
背景技术
自动化的见解数据生成是商业智能辅助分析决策中非常重要的能力,逐渐成为各厂商提供的商业智能产品中的核心竞争力之一。如何基于用户提供的数据,设计恰当的前端交互流程,保证后端数据查询性能,提升算法特征挖掘、关联案例分析、异常模式定义、成因分析构建等能力,最终整合以简洁美观的前端展示和易用的交互,反馈呈现给用户是见解数据生成类技术的竞争力构建的关键因素。
当下各商业智能分析平台中图表的自动化智能见解生成应用场景中,单点数据相关的见解数据分析能够帮助用户构建、浏览和分析数据时,可以检查、发现和深入了解可视化图表中的单个图表可视化元素。但是见解数据自动生成相关技术产品中基于数据单点的分析粒度生成的见解数据的准确性较差,同时其中支持的交互和分析自由度均仍有所欠缺,仍有进一步改良优化的空间。
发明内容
本申请实施例提供一种见解数据生成的方法和装置,可以实现批量选取图表中的多个图表可视化元素进而生成见解数据,提升见解数据的准确性以及交互自由度。
第一方面,提供了一种见解数据的生成方法,包括:呈现第一图表,第一图表包括M个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录;确认从M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N;确定N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数;基于所有K个数据记录,进行联合数据分析,以生成N个图表可视化元素的第一见解数据。
根据本申请提供的技术方案,能够实现自动生成用户交互选择关注的批量数据的见解,能够对于由多图表可视化元素构成的模式进行分析解释,并考虑了多个图表可视化元素的关联性和整体性,提高了见解的准确性,降低了交互代价。
结合第一方面,在第一方面的某些实现方式中,基于所有K个数据记录,进行联合数据分析,包括:确定所有K个数据记录中的L个数据记录共有的特征信息,L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于或等于L;基于L个数据记录、L个数据记录共有的特征信息以及数据源中的所有数据记录,进行数据分析。
根据本申请提供的技术方案,能够实现用户分析含有多个图表可视化元素的局部数据子集的见解数据,考虑了图表可视化元素间的关联性和整体性,提高了见解数据的准确性。
结合第一方面,在第一方面的某些实现方式中,第一见解数据包括以下见解数据类型的至少一种:图表度量聚合展开分析,用于分析所述N个图表可视化元素对应的数据记录的原始数据分布构成;外部维度有效记录数分析,用于分析所述K个数据记录在未参与绘制第一图表的维度上的有效记录数分布情况;外部维度分布贡献分析,用于分析所述K个数据记录在未参与绘制第一图表的维度上对图表度量的贡献度;外部维度子空间内部特征分析,所述外部维度子空间内部特征分析用于分析未参与绘制第一图表的维度中数据记录内部的特征分布情况;外部高可解释度度量分析,所述外部高可解释度度量分析用于分析未参与绘制第一图表的度量及原始数据记录与所述L个数据记录的关联情况。
根据上述技术方案,该方法能够引导用户探索关联数据的分析内容,例如异常聚合值的构成、可视化图表元素的聚合值表现出特定的模式的潜在原因、潜在的高贡献维度、子空间内部的数值分布对于用户选择的度量分布的影响以及高关联度的图表的外部度量。
结合第一方面,在第一方面的某些实现方式中,第一图表为基于第二见解数据生成的见解图表,生成N个图表可视化元素的第一见解数据包括生成N个图表可视化元素的对应的数据记录内部的数值分布情况或者数据记录溯源。
根据上述技术方案,该方法支持对见解图表的聚焦的特征子空间二次分析探索并派生见解,优化自动见解生成辅助分析过程中的多层级子空间分析探索流程,提升分析自由度,由面到点,由浅入深。
N个图表可视化元素的对应的数据记录内部的数值分布情况帮助用户对于算法推荐见解的维度分布图表中感兴趣模式的进一步深入发掘,探寻分布特征的原因;数据记录溯源能够帮助用户对于推荐展示的见解分布中异常的局部进行便捷的原始数据查询,探寻分布特征的原因。
结合第一方面,在第一方面的某些实现方式中,确定第一见解数据包括的P个子见解数据的优先级顺序;按照该优先级顺序推荐该P个子见解数据。
根据上述技术方案,该方法能够避免一次性产生大量的、无序的见解图表呈现给用户,使得用户能够很快抉择从何处探索,提高了用户获取并分析见解的效率。
结合第一方面,在第一方面的某些实现方式中,确定P个子见解数据的优先级顺序,还包括:确定P个子见解数据中每个子见解数据的特征指标值,特征指标值用于度量P个子见解数据中每个子见解数据的置信度或显著度;确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q;确定Q个子见解数据中每个子见解数据的特征种类数量;根据每个子见解数据的特征种类数量,降序排序确定该Q个子见解数据的优先级顺序。
根据上述技术方案,该方法实现了统筹考虑同一类见解内部的各见解具有的全量特征的置信度和见解所具有的特征丰富度两个方面。
结合第一方面,在第一方面的某些实现方式中,确定N个图表可视化元素对应的所有K个数据记录,还包括:确定N个图表可视化元素对应的第一图表中的维度和度量;根据第一图表中的维度和度量生成查询请求,该查询请求用于查询数据源中的数据记录。
根据上述技术方案,该方法实现快速定位图表可视化元素所包含的图表信息,该图表信息能够实现图表可视化元素对应的数据记录的快速查询以及见解数据生成的关注维度/度量选择。
第二方面,提供一种生成见解数据的装置,包括:交互模块,用于呈现第一图表,第一图表包括M个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录;处理模块,用于确认从M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N,确定N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数,并基于所有K个数据记录,进行联合数据分析,以生成N个图表可视化元素的第一见解数据。
结合第二方面,在第二方面的某些实现方式中,处理模块还用于确定K个数据记录中的L个数据记录共有的特征信息,L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于或等于L,并基于L个数据记录、L个数据记录共有的特征信息以及数据源中的所有数据记录,进行数据分析。
结合第二方面,在第二方面的某些实现方式中,处理模块还用于根据基于第二见解数据生成的见解图表,生成N个图表可视化元素的对应的数据记录内部的数值分布情况或者数据记录溯源。
结合第二方面,在第二方面的某些实现方式中,处理模块还用于确定第一见解数据包括的P个子见解数据的优先级顺序,其中P为大于1的正整数,并按照优先级顺序推荐P个子见解数据。
结合第二方面,在第二方面的某些实现方式中,处理模块还用于确定P个子见解数据中每个子见解数据的特征指标值,该特征指标值用于度量P个子见解数据中每个子见解数据的置信度或显著度,确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q,确定Q个子见解数据中每个子见解数据的特征种类数量,并根据每个子见解数据的特征种类数量,降序排序确定该Q个子见解数据的优先级顺序。
结合第二方面,在第二方面的某些实现方式中,处理模块还用于确定N个图表可视化元素对应的第一图表中的维度和度量,并根据第一图表中的维度和度量生成查询请求,该查询请求用于查询数据源中的数据记录。
第三方面,提供一种计算设备,包括处理器和存储器,其中存储器用于存储指令,处理器用于执行存储器中存储的指令,使得计算设备执行第一方面或第一方面任意一种可能的实现方式中的方法。
第四方面,提供一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器,其中,存储器用于存储指令,处理器用于从存储器中调用并运行该指令,使得该计算设备集群执行第一方面或第一方面任意一种可能的实现方式中的方法。
可选地,该处理器可以是通用处理器,可以通过硬件来实现也可以通过软件来实现。当通过硬件来实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外独立存在。
第五方面,提供了一种芯片,该芯片获取指令并执行该指令来实现上述第一方面或第一方面任意一种可能的实现方式中的方法。
可选地,作为一种实现方式,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
可选地,作为一种实现方式,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被执行时,该处理器用于执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第六方面,提供了一种包含指令的计算机程序产品,当指令被计算设备集群运行时,使得计算设备集群执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第七方面,提供了一种计算机可读存储介质,包括计算机程序指令,当计算机指令由计算设备集群执行时,使得计算设备集群执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
作为示例,这些计算机可读存储介质包括但不限于如下的一个或者多个:只读存储器(read-only memory,ROM)、可编程ROM(programmable ROM,PROM)、可擦除的PROM(erasable PROM,EPROM)、Flash存储器、电EPROM(electricallyEPROM,EEPROM)以及硬盘驱动器(hard drive)。
可选地,作为一种实现方式,上述存储介质具体可以是非易失性存储介质。
附图说明
图1是本申请实施例提供的一种见解数据生成的应用场景示意图。
图2是本申请实施例提供的另一种见解数据生成的应用场景示意图。
图3是本申请实施例提供的一种系统架构的示意图。
图4是本申请实施例提供的一种见解数据生成过程的示意图。
图5是本申请实施例提供的一种排序策略的示意图。
图6是本申请实施例提供的一种见解数据生成过程的案例示意图。
图7是本申请实施例提供的另一种见解数据生成过程的案例示意图。
图8是本申请实施例提供的一种排序策略的案例示意图。
图9是本申请实施例提供的一种见解数据生成的装置的示意性结构框图。
图10是本申请实施例提供的一种计算设备的示意性结构框图。
图11是本申请实施例提供的一种计算设备集群的示意性结构框图。
图12是本申请实施例提供的另一计算设备集群的示意性结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
另外,在本申请实施例中,“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。
本申请实施例描述的网络架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:包括单独存在A,同时存在A和B,以及单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
为了便于理解本申请,下文先介绍本申请涉及的术语。
1、维度:维度是对于数据集中字段的一种分类方式,对数据具有一定进行分类意义的字段被称为维度,通常数据形式为可枚举值形式,例如“月份”、“ID”等。
2、度量:具有可量化数据的指标字段被称为度量,通常为数值形式。
3、聚合值:聚合值是数据集中的单个字段在被筛选的数据子集中,经过一些计算操作后最终生成的汇总值或总计值,例如求和聚合、均值聚合等。
4、记录:指构成数据集的数据库表中的一行或者多行。
5、图表可视化元素:图表可视化元素是可视化图表中一个可选择的数据点,它汇总了数据中的一些基础记录值。图表可视化元素的数据可以由单个记录或聚合在一起的多个记录组成。可视化图表中的图表可视化元素可以采用多种方式进行展示如点、线条、形状等。
6、内部和外部:内部指的是参与分析的维度和度量参与构成用户当前分析的图表绘制,外部指的是参与分析的维度和度量未参与构成用户当前分析的图表绘制。
自动化的见解数据生成是商业智能辅助分析决策中非常重要的能力,逐渐成为各厂商提供的商业智能产品中的核心竞争力之一。如何基于用户提供的数据,设计恰当的前端交互流程,保证后端数据查询性能,提升算法特征挖掘、关联案例分析、异常模式定义、成因分析构建等能力,最终整合以简洁美观的前端展示和易用的交互,反馈呈现给用户是见解数据生成类技术的竞争力构建的关键因素。
为了更好地理解本申请实施例的方案,下面先结合图1对本申请实施例可能的应用场景进行简单的介绍。
图1示出了一种见解数据生成系统,该见解数据生成系统可包括用户设备以及数据处理设备。其中,用户设备可包括手机、个人电脑或者信息处理中心等智能终端。通常情况下用户设备可以作为见解数据生成请求的发起端。
可选地,上述数据处理设备可以是云服务器、网络服务器、应用服务器或管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的选取图表可视化元素的指令,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习、深度学习、搜索、推理、决策等方式的数据处理。数据处理设备中的存储器可以是一个统称,可以是存储历史数据的本地存储设备或者数据库中的存储管理器。
可选地,在图1所示的见解数据生成系统中,用户设备可以接收用户选取可视化图表中一个或者多个图表可视化元素的指令,然后向数据处理设备发起筛选和查询请求,用于查找出选取的图表可视化元素的精细粒度原始记录,使得数据处理设备对用户设备选取的一个或者多个图表可视化元素对应的原始数据记录进行数据分析,从而生成一个或者多个图表可视化元素的见解数据。
在图1中,数据处理设备可以执行本申请实施例的见解数据生成方法。需要说明的是,虽然图1中将用户设备和数据处理设备描绘为独立的设备,但在本申请的其他实施例中,两个设备可以由同一个装置实现。
图2示出了另一种见解数据生成系统,在图2中,用户设备可直接作为数据处理设备,该用户设备可以直接接收来自用户的输入并直接由用户设备本身的硬件进行处理,具体过程与图1相似,可参考上面的描述,在此不再赘述。
图2中的用户设备可以是云服务器、网络服务器、应用服务器或管理服务器等具有数据处理功能的服务器,也可以是台式计算机、移动计算机、平板计算设备或移动通信设备等具有数据处理功能的电子设备。
在图2所示的见解数据生成系统中,用户设备可以接收用户选取可视化图表中一个或者多个图表可视化元素的指令,然后由用户设备自身发起请求,对选取的一个或者多个图表可视化元素进行数据分析,从而生成一个或者多个图表可视化元素的见解数据。
在图2中,用户设备自身就可以执行本申请实施例的见解数据生成方法。
在本申请的实施例中,图1和图2中的处理器可以根据业务需求进行数据分析。例如,根据业务需求做图表的见解分析,支持多种不同的分析模式,包含统计值特征分析、分布特征分析、空值告警分析、零值告警分析、高关联性度量分析、全局-子集差异性分析等,可以从统计分析和传统机器学习层面,对于不同类型的见解检测不同类别的特征,并定制化地生成多样的特征描述,从而得到用户筛选的图表可视化元素背后的兴趣数据的见解分析。
如图3所示,本申请实施例提供了一种系统架构100。系统架构100可包括执行设备110、数据库130、客户设备140、数据存储系统150以及数据采集设备160。应理解,图1仅为示意,可选地,系统架构中可以包括更多或更少的数据库和执行设备,或者其他功能模块。
在图3中,数据采集设备160可用于采集图表数据,本申请实施例中图表数据可用于生成包含图表可视化元素的可视化图表。在采集到图表数据之后,数据采集设备160将这些数据存入数据库130。需要说明的是,在实际的应用中,数据库130中维护的训练数据不一定都来自于数据采集设备160的采集,也有可能是从其他设备接收得到的,例如也可以是从云端或其他地方直接获取。另外需要说明的是,执行设备110也不一定完全基于数据库130维护的训练数据进行见解的生成,也有可能从云端或其他地方获取数据生成见解,上述描述不应该作为对本申请实施例的限定。
可选地,数据库可以是硬件设备,可以集成在执行设备110中,也可以设置在云上或者其他网络服务器上。
可视化图表和见解数据的生成可以应用于不同的系统或设备中,如应用于图3所示的执行设备110上并呈现在应用界面120上。执行设备110可以是图1中的数据处理设备,可以是终端,如手机终端、平板电脑、笔记本电脑、AR/VR或车载终端等,还可以是服务器或者云端等。在图3中,执行设备110可配置输入/输出(input/output,I/O)接口112,用于与外部设备进行数据交互。用户可以通过客户设备140向I/O接口112输入数据,输入数据在本申请实施例中可以包括:选取一个或者多个图表可视化元素的指令以及图表可视化元素对应的可视化图表的维度和度量。执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理,也可以将相应处理得到的输入数据等存入数据存储系统150中。
最后,I/O接口112将处理结果,例如,将生成的见解数据反馈给客户设备140。客户设备也可以是图3中的执行设备110,反馈的见解数据呈现在执行设备的应用界面120上。
执行设备110中包括应用界面120,可选的,应用界面120可以是被本地存储在执行设备110上的客户端应用的界面,也可以是位于远端服务器上并且通过网络(诸如因特网或内联网)可访问的客户端应用的界面,例如可以在浏览器控制的环境中被托管或以浏览器支持的语言被编码,并且依靠网络浏览器来执行数据计算的应用界面。
应用界面120可以包括可视化图表界面121和见解数据界面125,也可以通过多个应用界面呈现可视化图表界面121和见解数据界面125。
可视化图表界面121可以包括一个或者多个不同类型的图表以及界面配置信息,界面配置信息可以包括维度选项、度量选项、图表界面设置模块等模块或者用于选择绘制图表的轴配置信息、图表原始数据等元素。应理解,图3仅为示例,可选的,可视化图表界面121中还包括更多的选择模块,例如图表类型选择模块。
见解界面125可以包括一个或者多个见解数据126、127,见解数据126和见解数据127可以包括见解图表或者见解文字。见解数据根据可视化图表界面121中的图表122或图表123得到,见解数据界面还可以包括见解模式选择模块或者用于选择见解数据生成的分析类型。分析类型可以是分布特征分析、空值告警分析、零值告警分析、高关联性度量分析、全局-子集差异性分析等,也可以是定制化的特征分析。形成的分析结果可以通过不同的图表类型以及对应的文字见解信息描述,并展示在见解图表或者见解文字中。应理解,图3仅为示例,可选的,见解界面125中包括更多的模块,例如见解数据排序模块。
值得注意的是,图3仅是本申请实施例提供的一种系统架构的示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在图3中,数据存储系统150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储系统150置于执行设备110中。可选地,系统架构中还可以包括其他模块,例如图表绘制模块。可选地,可视化图表界面和见解界面可以不在同一个应用界面中。本申请实施例可应用的场景不限于图3所示。
当下商业智能分析平台中图表的自动化智能见解生成应用场景中,单点数据相关的见解数据分析能够帮助用户构建、浏览和分析数据时,可以检查、发现和深入了解可视化图表中的单个图表可视化元素。但是,当用户想要分析含有多个图表可视化元素的局部数据子集时,未被选取的图表可视化元素的数据记录会对选取的单个图表可视化元素形成的见解数据分析造成干扰,造成多次选取图表单个图表可视化元素形成的总的见解分析的准确性难以保证,交互代价较高。
示例性地,若图表中存在3个呈现相同或者相似现象的异常值,这些异常值是用户的兴趣数据,用户想要得到该3个异常值的形成原因的见解数据。用户若只选取其中1个异常值进行见解数据生成时,另外两个异常值也参与了见解数据的分析过程。进而见解数据可能存在偏差,例如被选取的异常值可能由于另外两个异常值的存在而被判定为正常值。因此,未被选取的图表可视化元素可以对选取的单个图表可视化元素形成的见解数据造成干扰。
因此,见解自动生成相关技术产品中从数据单点的分析粒度,缺失了基于用户提供交互关注的批量选择数据局部的辅助见解生成方案。同时其中支持的交互和分析自由度均仍有所欠缺,仍有进一步改良优化的空间。
有鉴于此,本申请实施例提供了一种见解数据生成方案。图4示出了本申请实施例提供的一种见解数据生成的方法400的示意性流程框图。图4的方法可以由图1的数据处理设备执行或者图2的用户设备执行。
步骤410:呈现第一图表,第一图表包括M个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录。
可选地,第一图表可以被呈现在应用界面120中的可视化图表界面121中,也可以被呈现在任一可视化界面中。绘制第一图表的数据记录可以是数据库130中的数据的全部或者一部分,也可以是任意数据源中一个或者多个表格中的全部或者部分数据。
第一图表包括M个图表可视化元素,例如柱状图的柱子、散点图的离散数据点、折线图的数据点及相邻折线、饼状图或者圆环图的扇面等数据记录的图形表示。每个图表可视化元素由数据记录绘制而成。单个图表可视化元素可以对应于单个数据记录,也可以对应于多个数据记录的聚合值,即多个数据记录经过一些计算操作后最终生成的汇总值或总计值,例如求和聚合、均值聚合等。
步骤420:确认从M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N。
本实施例技术方案可支持对于待分析可视化图表的N个图表可视化元素批量选取后的分析和见解数据生成。不同于仅支持单图表可视化元素进行分析,步骤420可以支持选取多个图表可视化元素的交互方式,并确认选取的多个图表可视化元素。
可选地,本申请技术方案中的步骤420也可以支持选取单个图表可视化元素的交互方式,并确认选取的单个图表可视化元素。
示例性地,用户可以通过应用界面的可视化图表界面点击刷选一个或者N个图表可视化元素。例如,该应用界面为台式计算机的电子表格应用的界面,用户可以用鼠标拖动刷选进而生成一个选择框,选择框中的一个或者N个图表可视化元素被确定为用户选择的图表可视化元素,图表可视化元素可以是柱状图中的一个或N个柱子,也可以是折线图或散点图中的一个或N个数据点,也可以是饼状图或圆环图中的一个或N个扇面。
可选地,用户选取一个或者N个图表可视化元素的交互方式也可以是点击单选或者多选。例如,用户可以用鼠标同时点击多选一个或者N个的图表可视化元素,点选的一个或者N个图表可视化元素被确定为用户选择的图表可视化元素。
可选地,选取的图表可视化元素在图表x轴的维度上可以是不连续的,被选取的图表可视化元素之间可以相隔一个或者多个图表可视化元素。
可选地,该技术方案支持的关注数据可以批量支持在多种不同的图表上进行,并在图表类型切换时保留用户刷选的高亮,保证用户进行见解生成的始终高亮。
应理解,步骤420中的批量选取方式能够在多种不同的图表进行,例如柱状图、折线图或散点图等,被刷选的数据相对于未被刷选的数据会被高亮,在对数据进行分析图表的类型切换时会保持高亮。例如,在对同一组数据绘制图表时,在柱状图上刷选出用户感兴趣的图表可视化元素,图表可视化元素进而高亮,当用户将柱状图切换为折线图时,图表可视化元素依然会保持始终高亮。在用户对已生成并进行刷选可视化元素后的柱状图进行图表类型切换时,包含被刷选的可视化元素对应的数据记录的可视化元素也会在新的图表中高亮展示。
步骤430:确定N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数。
可选地,确认N个图表可视化元素对应的全部K个数据记录的方式可以是确定用户交互选择可视化图表的图表可视化元素的交互形式。例如,用户交互时的交互形式可以是用户进行刷选交互时的操作,用户沿着图表的横轴进行批量刷选操作时,其交互形式是刷选横轴维度在特定取值时的图表可视化元素数据,图表可视化元素绑定的维度数据可以是图表可视化元素数据对应的维度的特定取值,分析粒度可以是维度的具体类别。进而,根据该交互形式,用户关注的是图表的横轴对应的维度中特定取值时图表可视化元素的特征,本方案后续的见解数据也将关注于该图表的横轴维度。
示例性地,如果第一图表的类型是柱状图,x轴维度是时间,用户执行的交互操作是沿着可视化图表的x轴方向刷选柱状图的三个柱状图表可视化元素。其中三个柱状图表可视化元素对应的时间段组成字段A,则该方案分析出用户的交互操作是沿x轴刷选,可视化图表x轴绑定的维度数据字段是某时间类型的字段A,分析粒度为具体的时间类型,例如月份、时间段等。根据维度数据字段,从数据源或者数据库中筛选出维度数据字段A以及具体的时间类型对应的全部数据记录。
可选地,确认N个图表可视化元素对应的全部K个数据记录的方式可以是直接提取交互选择的图表可视化元素对应的数据点的枚举值,数据点的枚举值可以是图表的图表可视化元素对应的字段的具体取值。例如,图表中的维度为月份时,枚举值可以是选取的图表可视化元素对应的月份1到月份12的一个或者多个不同取值,也可以是分析选中的图表可视化元素中横轴或图例中绑定的数据集外部维度信息取值与月份取值的组合。确定图表中图表可视化元素相关的维度组合,可包括未参与绘制第一图表的外部维度的具体取值和参与绘制第一图表的维度的被选取的多个枚举值,也可以包括该图表可视化元素相关的维度组合以及度量,或者图表可视化元素其他的相关信息。
本申请的技术方案可将包含的信息整合生成过滤逻辑,用于筛选查找数据集或者数据库中的数据原始记录。本方案后续的见解数据也将关注于筛选出的精细粒度原始记录和图表可视化元素相关的维度或者维度组合。示例性地,N个图表可视化元素对应的维度的枚举值为维度A、B和C三个不同字段时,过滤第一图表数据的逻辑可以是不同取值的A或B或C的或逻辑组合。
应理解,上述流程只是一个十分简单的情景,本方案也可以支持多个不同的维度字段联合生成图表的x轴,还可以支持图例字段以及图表本身配置叠加复杂过滤条件,过滤逻辑是由多个嵌套的过滤逻辑模块复合生成。
可选地,本方案可以将用户在第一图表上交互选择的一个或者N个图表可视化元素(对应到原始数据集记录中的一行或者部分行的聚合结果),转化为查询请求进而查询交互选择的图表可视化元素在原始数据集或者数据库中的全部K个数据记录,并将该全部K个数据记录用于后续的见解。
可选地,查询请求可以是请求字段的所有信息、过滤操作符列表、过滤枚举值列表和过滤逻辑中的任意组合,请求的对象可以是后端模块。例如,结构化查询语言(Structured Query Language,SQL)支持生成where子句,进行原始表记录查询,向算法模块返回用户选取的图表可视化元素对应的兴趣数据子集。
示例性地,在本申请的一个实施例中,交互操作指导生成的用户兴趣数据过滤是参与分析的数据集中满足维度A字段的所有记录,则本方案对应最终生成SQL查询语句中即为where子句中多个维度A字段基于IN操作符实现的或逻辑的复合实现。
可选地,该方案中不止于单一数据源的单表分析查询,还可以支持查找原始数据源中的多关联数据表查询,可以支持联邦查询和后续分析。示例性地,在本申请的一个实施例中,该方案的功能底层基于分布式SQL查询引擎,进而将多表融合到数据集层面,从而获取数据。
步骤440:基于K个数据记录,进行联合数据分析,以生成N个图表可视化元素的第一见解数据。
应理解,K个数据记录的联合数据分析过程不同于选取单个图表可视化元素的数据分析过程以及选取多个图表可视化元素后先进行单个图表可视化元素的数据分析再进行整合数据分析信息的分析过程。联合数据分析可将K个数据记录作为一个整体,同时与数据集中的其他数据进行分析,进而生成N个图表可视化元素或者N个图表可视化元素中至少两个图表可视化元素与其他数据记录对比而得到的见解数据。
可选地,将K个数据记录作为一个整体,确定K个数据记录中每个数据记录具有的关联关系,关联关系确定了K个数据记录共有的特征信息。例如,该K个数据记录可以是具有相同或者相似的外部维度,也可以是具有相关性关系的数据记录,也可以是呈现相同或者相反的度量值现象,共有的特征信息即是K个数据记录对应的外部维度或者相关性关系分析数据或者度量值现象。根据共有的特征信息,筛选出数据源中具有共有特征信息的数据记录,将K个数据记录和该具有共有特征信息的数据记录进行数据分析,以形成N个图表可视化元素的见解数据。
可选地,K个数据记录中可以有L个数据记录具有共有的特征信息,该L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于L。根据该L个数据记录及其共有的特征信息以及用于对比的数据记录,生成L个数据记录对应的至少两个图表可视化元素的见解数据。用于对比的数据记录可以是步骤420中M个图表可视化元素中未被选取的(M-N)个图表可视化元素对应的数据记录,也可以是K个数据记录中未被选取的(K-L)个数据记录。
本申请技术方案可以实现同时多个图表可视化元素及其原始数据记录的同时分析,得到包含多个图表可视化元素关联信息的见解数据。本申请技术方案生成的见解数据不同于选取单个图表可视化元素进行分析以及多次选取单个图表可视化元素进行分析再进行整合的见解数据,降低了见解数据分析过程中未被选取但是存在关联关系的图表可视化元素对被选取的图表可视化元素造成的干扰。
应理解,生成L个数据记录对应的至少两个图表可视化元素的见解数据的次数可以不止一次,L的取值也可以不同,最终可以形成多个不同的数据候选集。这些不同的数据候选集可以通过策略或者算法分析形成多个不同的见解数据,数据候选集作为策略或者算法分析的子空间。
本申请将该数据子集中的数据候选集进行见解数据生成策略或者算法的分析,生成能够展现该子空间数据特征的见解数据。
在本申请的一个实施例中,见解数据生成算法输入可以包括全量的全表数据记录、用户交互选择的可视化原始图表可视化元素对应产生的筛选条件和查询请求产生的关注数据原始记录、数据原始记录共有的特征信息以及前端支持用户交互配置的算法参数。算法产出的见解数据结果,可以包含绘制见解图表所需的图表原始数据、图表类型信息、轴配置信息或者文字见解描述信息等。
可选地,见解数据生成算法可以支持多种分析模式,例如统计值特征分析、分布特征分析、空值告警分析、零值告警分析、高关联性度量分析、全局-子集差异性分析等,也可以支持从统计分析和传统机器学习层面,对于不同类型的见解检测不同类别的特征,并定制化地生成多样的特征描述。
可选地,对于不同类型的见解数据,见解数据生成算法可以适应地采用不同的图表类型进行展示,例如分布图表采用柱状图、关联性的度量图表灵活地基于数据分布选用散点图对数轴和线性轴等。见解数据的文字见解描述信息也具有差异,文字描述可以是见解具有的特征描述,可以是具有各特征组成而成的可能存在的先验模式分析,也可以是两种的组合或者其他能够解释特征的描述。
本申请的一个实施例中,见解数据生成算法可以产出多类不同的见解类型,支持分析图表内部、外部的度量或维度对于产生用户兴趣选择的模式的贡献,引导用户探索选取的图表可视化元素对应的数据记录与数据集中关联数据的分析内容。
应理解,其中提及的内部和外部概念,指的是参与分析的维度和度量是否参与构成用户当前分析的图表绘制,而考虑外部的维度和度量的特征和贡献可以帮助用户发现与刷选的图表可视化元素相关联的数据聚合或者感兴趣的子空间。
示例性地,算法生成的见解类型可以包括图表度量聚合展开分析、外部维度有效记录数分析、外部维度分布贡献分析、外部维度子空间内部特征分析和外部高可解释度度量分析等,但是并不局限于这几类见解类型。
可选地,图表度量聚合展开分析可以关注于将具有特征的可视化图表可视化元素的绑定的度量聚合值拆解为原始的数据分布构成,帮助用户理解聚合值的构成情况。例如常见的分析图表中的纵轴为度量的求和聚合,用户关注到具有较高聚合值的图表可视化元素,该类见解数据可以帮助用户理解异常聚合值的构成,例如是单个原始异常记录,或是整体的分布均具有一定的偏向性。
可选地,外部维度有效记录数分析可以关注于探寻用户交互选择的数据记录,在其他外部维度(未参与图表绘制)上的有效记录数分布情况,用来分析用户选择的可视化图表图表可视化元素聚合值表现出特定的模式的潜在原因。若发现特定模式对应的原始数据记录在某个维度上聚合出现在某个特定的取值子空间,该方法认为该聚合对于此模式呈现有较大关联。
可选地,外部维度分布贡献分析可以关注于探寻用户交互选择的数据记录,在其他外部维度(未参与图表绘制)上的对于用户关注的图表度量的贡献度分布。该类解释本质上将聚合值沿图表外部另一方向进行拆解,发现潜在的高贡献维度取值,供用户进行进一步探索,当用户发现兴趣的维度子空间,可以进一步使用数据解释子空间分布探索功能,查看子空间内的详细分布。
可选地,外部维度子空间内部特征分析可以与上述外部维度相关的解释高度相关,可支持自动地搜索并推荐出一些维度取值的子空间,这类子空间内部的数值分布对于用户选择的度量分布具有一定特征。用户可以基于子空间分布进一步使用溯源原始数据记录功能,分析特征模式的源头。
可选地,外部高可解释度度量分析可以关注于对于用户关注的数据子集中度量的数据模式,分别从全集数据和子集数据中进行高关联度性度量分析,获取一批具有解释性的外部度量候选,并从中进一步分析获取具有较高惊奇度的度量,并通过散点图的模式展示出该度量与用户关注的图表度量的关联性,以期从中探寻出可能的见解数据。
本申请实施例中的见解类型并不局限于此。本申请的另一个实施例中,算法还可以产出多类不同的见解类型,支持分析选取的图表可视化元素对应的数据记录内部的关联分析。示例性地,算法生成的见解类型可以包括图表可视化元素趋势分析、图表可视化元素聚类分析等,但是本申请实施例并不局限于这几种见解类型。
可选地,图表可视化元素趋势分析可以关注于选取的图表可视化元素对应的数据记录随着x轴维度变化的走向模式。例如,从数据记录内部整体可能出现的数值高点或者数值低点,获取数据记录可能存在的周期性的变化模式。该图表可视化元素趋势分析还可以用于数据记录的预测等。再例如,当呈现某一特定趋势的数据记录中存在部分异常值,选取图表可视化元素的过程中可以只选取非异常值来进行分析,跳过异常值来提高趋势分析的准确性。
可选地,图表可视化元素聚类分析可以关注于批量选取的多个图表可视化元素对应的数据记录的群聚模式和差异性。例如,该见解类型可以根据数据的内在性质,将一个或者多个图表中的图表可视化元素对应的数据记录分为聚合类,每一聚合类中的数据记录具有相同的特性,不同聚合类的数据记录的特性差别较大。该见解类型可以分析多个数据源中的数据表,尽可能地分类多个图表可视化元素对应的数据记录。
本申请技术方案中数据解释功能的自动产生的见解数据呈现可以采用类似于手风琴的自由展开和收缩的形式,共分为两层。其中第一层手风琴的标题标注了不同见解类别的名称。当用户展开第一层后,第二层则显示该类见解下所有算法推荐的具体见解,用户再次展开后则会具体显示该类见解数据的文字描述和图表绘制。当用户展开某一特定见解数据后,其他见解数据会被收起以保证前端界面的整洁。
可选地,本技术方案可以支持用户自由的观察每一类不同见解中算法推荐的图表和文字结果,其中算法生成的所有图表同样支持交互选择、高亮展示、图例开关等基本交互方式,优化了用户的探索分析流程体验,也为用户在见解图表的特征子空间进行交互分析提供了可能。
可选地,本技术方案可以支持用户将数据解释产生的感兴趣的见解图表导出到仪表盘,与原始图表平级展示,同时在右侧展示见解文字信息。该功能支持关联高亮,即当用户选择到导出到仪表盘上的见解图表时,会同步地高亮产生该见解数据的图表,并高亮展示出母图表产生该见解数据时用户筛选的兴趣数据。
可选地,本技术方案还可以应用于云环境场景下,可以兼容所在的微服务中的洞察保存相关功能,可以与普通图表一样被保存、预览、加载。
步骤410-440的本技术方案可以有效产出准确的启发性的见解,但是提供的数据解释操作时,对用户观察到局部数据子集无法进行后续分析,一定程度上限制了用户交互探索的方式。
为了避免上述问题,本申请另一个实施例示出了一种见解数据生成的方法450,提供见解子空间的进一步生成,实现见解数据到进一步见解数据的后续分析。该方法包括步骤460-490,下面分别对步骤460-490进行详细描述。
步骤460:呈现第二见解数据中的见解图表,见解图表包括W个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录。
可选地,呈现的第二见解数据可以是通过选取图表可视化元素时生成的任意见解数据,例如步骤440中的第一见解数据,也可以是根据任一已生成的见解图表而进一步分析生成的见解数据。
可选地,第二见解数据的类型可以是上文的任一种见解类型,例如图表度量聚合展开分析、外部维度有效记录数分析、外部维度分布贡献分析、外部维度子空间内部特征分析和外部高可解释度度量分析等,也可以是其他类型的见解分析。
可选地,见解图表还可以包括见解图表中的见解文字说明对应的统计特征值或者极值。
步骤470:确认从W个图表可视化元素选取的J个图表可视化元素,其中W和J为大于1的正整数。
步骤480:确定J个图表可视化元素对应的所有H个数据记录,其中H为大于1的正整数。
应理解,步骤470和步骤480的过程与步骤420和430的过程大体上一致,在此并不赘述。
步骤490:根据所有H个数据记录,生成第三见解数据,第三见解数据包括H个数据记录的数据分布分析或者数据记录溯源。
应理解,本技术方案可以实现对于不同类型的见解数据配置了进一步交互探索分析功能,生成进一步的见解数据。步骤410中的第一图表可以是步骤460中的任意见解数据中的见解图表,步骤490中的第三见解数据的见解类型可以是步骤440中的第一见解数据见解类型,也可以在第一见解数据的见解类型的基础上增加其他见解类型。
可选地,生成的第三见解数据可以是进一步分析见解数据的子空间内部的数据记录分布分析,旨在帮助用户对于算法推荐见解的维度分布图表中感兴趣模式的进一步深入发掘。
示例性地,若本技术方案中步骤460的见解图表是派生的外部维度有效记录数分析、外部维度分布分析类型的见解图表,当用户交互刷选或点击选择了见解特征中感兴趣的维度子空间,并执行子空间分布探索,该技术方案将再次生成一张同样支持交互的子空间度量分布见解图表,该见解的度量的选择与该类见解关联的度量以及原始生成该数据解释的图表度量相关。
可选地,生成的进一步的见解数据可以是原始数据溯源,旨在帮助用户对于推荐展示的见解分布中异常的局部进行便捷的原始数据查询,探寻分布特征的原因。
示例性地,若本技术方案中步骤460的见解图表是图表度量聚合展开分析、外部维度子空间内部特征分析及上述子空间分布探索二次派生出的见解图表,由于执行该功能操作时通常已经进行了多次足够精细粒度的向下剖析,其直接返回的原始数据记录往往数量不多,但具有强大的解释性。类似地,对于算法生成的见解数据中的文字见解描述的统计特征值,本技术方案支持便捷地进行原始记录溯源,两者采用一致的展示形式。可选地,本技术方案采用分页表格的形式来进行原始记录展示。
可选地,第三见解数据的类型并不局限于以上两种见解类型,也可以是上文中提及的图表度量聚合展开分析、外部维度有效记录数分析、外部维度分布贡献分析等见解数据类型的任一种。
本技术能够支持用户对于算法派生的数据解释图表继续开展丰富的交互操作,实现对于见解特征子空间内部的进一步聚焦分析。构建关注的特征子空间后,点击功能菜单中相应内容,保证了本技术方案中数据解释功能内部使用的逻辑连续性,降低了学习成本。
当下商业智能分析平台中图表的自动化智能见解生成应用场景中,基于全局数据进行自动搜索和见解挖掘的见解生成方式会一次性产生大量的见解图表呈现给用户,缺失了用户关注的焦点,使其难以抉择从何处入手探索,存在一定的“冷启动”问题。
为了避免上述问题,本申请设计了一种排序策略,可确定见解中多个子见解的优先级顺序,按照优先级顺序推荐多个子见解,排序生成最终的结果。具体地,排序策略应用在步骤440和490的生成见解图表之后,呈现见解界面之前。图5示出了本申请排序策略500的一种实施例的示意性流程框图,统筹考虑同一类见解内部的各见解具有的全量特征的置信度和见解所具有的特征丰富度两个方面。如图5所示,该方法包括步骤510-540,下面分别对步骤510-540进行详细描述。假设见解数据中包括了P个子见解数据。
步骤510:确定P个子见解数据中每个子见解数据的特征指标值,特征指标值用于度量P个子见解数据中每个子见解数据的置信度或显著度。
可选地,对于不同的特征,本技术方案分别制定了不同的度量方式。
示例性地,统计特征可以基于特征值的数量和异常值对于全量数据的离群度等指标来描述,分布分析特征可以通过分布的不均匀度、极大分布占比等指标描述,告警相关分析特征可以通过对应的告警值占比来描述,关联性度量分析特征可以通过上述度量指标来描述,差异性分析可以基于分箱后的离散分布KL散度来描述等。
步骤520:确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q。
可选地,本技术方案过滤特征指标值低于该阈值的特征见解,可以是将特征指标较低的见解放在呈现界面队列的最末端,也可以是删除该特征见解。
步骤530:确定Q个子见解数据中每个子见解数据的特征种类数量。
应理解,特征种类数量可用于描述见解数据的特征丰富度。
步骤540:根据每个子见解数据的特征种类数量,降序排序确定Q个子见解数据的优先级顺序。
可选地,对于完成了高特征指标过滤的每个子见解数据,本技术方案可以统计其具有的特征丰富度的描述,通过降序排序确定不同子见解数据的推荐优先级。
可选地,若多个见解具有相同数量的特征种类,则将不同见解具有的各个特征的特征指标降序排序后依次对比确定优先级。
上文中方法400与方法450可以单独使用,也可以结合使用。下文结合具体的例子介绍结合使用的以实现见解数据生成的方法,并结合该例子介绍排序策略500的实现。图6、图7和图8示出了使用本申请技术方案实现见解数据生成以及见解数据生成的逐步探索深入过程的详细案例,案例中的元素和数据皆为示例,实际案例包括但不限于图6、图7和图8中案例的情形。
图6示出了应用界面600,本案例中的应用可以是表格应用或者数据智能分析应用。应用界面600中包括了数据表610,数据表610中包含了多个维度和度量。在本案例中数据表即是数据源,实际案例中可以包含多个数据源,每个数据源可以包含多个数据表。
提取数据表610中的时间维度1-5,地点维度A、B和C,单价维度a、b和c以及销售量X。地点维度A、B和C以及单价维度a、b和c进行求和聚合组成销售量X,即地点维度和单价维度作为外部维度,不参与图表的绘制,直接将其数据记录进行累加得到求和聚合值。取时间维度1-5作为x轴,销售量X作为y轴,绘制柱状图图表620并呈现在应用界面600中。本案例选取柱状图图表作为示例,实际案例中还可以是折线图、饼状图等图表。图表620中包含了五个图表可视化元素,即五个柱子,每个图表可视化元素的数据点的数值均由地点维度A、B和C以及单价维度a、b和c的多个数据取值求和聚合而成,即对应于数据表中的多个相关维度取值的数据记录。实际案例中每个图表可视化元素的数据点的取值也可以只对应一个数据记录。这一部分步骤过程对应于上文中的步骤410。
图表620中的虚线框是应用界面600的选取框,选取框范围内的图表可视化元素会高亮,即图表620中虚线框内两个图表可视化元素被斜线填充。该两个图表可视化元素即是本案例中需要进行见解分析的对象。本案例中选取框是连续选取,实际案例可以是多个选取框选取不连续的多个数据,也可以是只选取一个图表可视化元素,本案例不做限定。这一部分步骤对应于上文中的步骤420。
确定了被选取的图表可视化元素后,应用的后台确定被选取的图表可视化元素对应的数据表610中的数据记录。在本案例中,被选取的图表可视化元素对应的x轴维度的具体取值为时间1-3,即选取交互的操作为沿着图表的x轴的维度进行批量选取具体取值为1-3的图表可视化元素。根据选取交互的操作以及构成y轴的聚合值的维度,生成被选取的图表可视化元素对应的数据记录的筛选逻辑,即筛选维度组合的特定取值为(时间维度1或2或3)和(地点维度A或B或C)和(单价维度a或b或c)的逻辑组合。生成的筛选逻辑即可用于查询数据表610中的全部原始数据记录,即确定被选取的图表可视化元素对应的数据记录。这一部分步骤对应于上文中的步骤430。在实际案例中,每个柱子也可能由于呈现出不同的图例取值而被分割成多个子柱子,当只有部分子柱子被选取时,此时得到的逻辑组合中的外部维度也可能存在部分取值的情况。
基于上文确定的被选取的图表可视化元素对应的数据记录,进行联合数据分析,以生成见解数据。具体的见解数据根据不同数据记录子集的分析结果而定,下面示例性地举例:
假设本案例中选取的两个图表可视化元素对应的销售量的数值均呈现相同现象,即呈现偏高的异常值。在联合数据分析过程中,两个图表可视化元素对应的销售量同时与图表620中未被选取的三个图表可视化元素以及数据表中剩余的数据记录进行比较。当两个图表可视化元素对应的销售量与图表620中未被选取的三个图表可视化元素进行比较时,如果发现地点维度取值为A的数据记录对销售量偏高具有重大贡献,即时间维度取值为1或2或3以及地点维度取值为A时,销售量异常高于其他维度取值下的销售量,于是时间维度取值为1或2或3的数据记录被确定为具有关联关系。关联关系即时间维度取值为1或2或3与地点维度取值为A具有关联,或者关联关系可以表述为时间维度取值为1或2或3与地点维度取值为A的数据记录具有共有的特征信息,即销售量异常高于其他维度取值下的销售量。基于前述时间维度取值为1或2或3与地点维度取值为A的数据记录、共有的特征信息以及数据表的其他数据记录,生成见解数据的内容可以是时间、地点或者单价对于异常值现象的影响贡献度,也可以是将时间维度取值为1或2或3与地点维度取值为A的数据记录沿着单价维度的聚合值展开分析,也可以是其他与外部维度相关的见解数据。这些见解数据可以对应于图6中的见解数据621、622等。但是实际案例中可以产生更多的见解数据,以及被选取的图表可视化元素呈现的现象也可以有更多个,每个现象能够产生的见解数据也可以有更多个,本案例中不做赘述。这些见解数据的分析过程均运用到了多个图表可视化元素对应的数据记录,使得用户能够对观察到的局部数据进行分析。上述的步骤过程对应于上文中的步骤440。
本案例根据图表620生成的见解数据621、622等包括见解图表631、632等以及见解图表对应的文字描述,其中见解图表631、632等的绘制方式与图表620的绘制方式相同,见解图表对应的文字描述中可以包含见解数据中的特征值或者极值。
基于上文本案例选取图表620中图表可视化元素的相同的方法,选取呈现的见解图表631和632中的两个图表可视化元素。基于上述相同的分析步骤,得到见解数据641、642等见解数据。见解数据641、642等即为本案例中见解数据的进一步分析见解数据,本案例对其分析步骤不做赘述。见解数据641、642的见解类型可以是上文提到的见解数据621、622等的相同或者相似的见解类型,也可以是见解数据的子空间分析或者见解数据的溯源。
假设见解数据641的类型是见解图表631的子空间分析,其内容可以是分析组成见解图表631的数据点聚合值对应的原始数据记录的组成,x轴可以是原始数据记录的维度具体取值,y轴是销售量,这一部分可以用来解释构成见解数据621的原始数据记录中可能存在的异常值或者贡献度较大的数据记录。
假设见解数据642的类型是见解图表632的原始记录溯源,其内容可以是组成见解数据642的具体原始数据记录的数值及其维度的具体取值。原始记录溯源通过分页表格来呈现这些原始数据记录。同时,见解数据中见解图表对应的文字描述中的特征值也可以进行原始记录溯源。
基于见解数据641中的见解图表,本案例还可以根据前述的选取图表可视化元素和数据分析步骤生成见解数据,从而实现见解数据的不断进一步下钻分析,本案例不做赘述。
图7示出了另一种详细案例的界面示意图。图7中的详细案例与图6中的详细案例略微有所不同。不同点在于,图7中的维度变为了距离、ID、编号和吞吐量等,以及图7中的见解数据生成后被呈现在不同的应用界面中,应用界面可以是属于不同应用的界面,即不同数据记录对应的见解数据可以产生在不同的应用或者应用界面中。
图7示出的详细案例中的中间分析过程与图6示出的详细案例相似,在此不再进行赘述,只说明见解数据生成后被呈现在不同的应用界面的情况。
根据应用界面701中的数据表710,生成应用界面702中的图表720,图表720中的图表可视化元素对应于数据表710中的至少一个数据记录。在图表720中刷选出选择框,选择框内的两个图表可视化元素被用来进行见解数据生成。最终生成的见解数据721、722等被呈现在应用界面703中。在应用界面703中的见解图表731或者见解图表723中选择两个图表可视化元素,生成见解数据741等,并呈现在应用界面704中。
以此类推,本案例支持对见解图表的聚焦的特征子空间二次分析探索并派生见解数据,优化自动见解数据生成辅助分析过程中的多层级子空间分析探索流程,提升分析自由度,由面到点,由浅入深。
图8示出了本案例对于多个见解数据所用的排序策略800。本案例作为排序策略的一个实施例,对确定多个见解的优先级顺序的过程并不做限定。
假设本案例在图6或者图7所示的见解数据生成过程中,获得10个见解数据,分别为见解数据810至819。应用后台对于获得的见解数据810至819进行排序。
首先,确定排列不同类型的见解数据所用的特征指标值,例如本案例可以选取置信度分数作为特征指标值。根据前文不同类型的特征运用不同的度量方式,应用后台确定见解数据810至819的特征指标值进行降序排列,得到的排列列表如图8所示。
其次,确定特征指标值的阈值,用于过滤特征指标值较低的部分见解数据。例如本案例选取置信度分数为0.95作为阈值,过滤掉图8所示的置信度分数低于0.95的部分见解数据。
最后,确定图8中置信度分数高于0.95的各个见解数据的特征种类数量,根据特征种类数量降序排列得到最终呈现的见解数据的优先级顺序,图8中按优先级顺序降序排列的见解数据815、818、811和810等对应于图6中呈现出的见解数据721、722等或者图7中呈现出的见解数据821、822等。
对于图6所示的见解数据841、842等以及图7所示的见解数据841、842等的排序过程与上述排列过程相同,本案例不做赘述。
本案例对于见解数据的优先级排序的步骤使得用户能够快速找到关注的焦点,避免用户难以抉择从何处入手探索。
下文结合图9介绍本申请实施例的生成见解的装置。需要说明的是,图9所示的装置可以执行图4和图5所示的方法。应理解,下面描述的装置能够执行前述本申请实施例的方法,为了避免不必要的重复,下面在介绍本申请实施例的装置时适当省略重复的描述。
图9是本申请实施例的一种生成见解的装置的示意图,图9所示的装置900包括:交互模块910以及处理模块920。
具体地,交互模块,用于:呈现第一图表,第一图表包括M个图表可视化元素,每个图表可视化元素对应于数据源中至少一个数据记录。
具体地,处理模块,用于:用于确认从M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N,确定N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数,并基于K个数据记录,进行联合数据分析,以生成N个图表可视化元素的第一见解数据。
可选地,作为一个实施例,处理模块还用于确定K个数据记录中的L个数据记录共有的特征信息,L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于或等于L,并基于L个数据记录、L个数据记录共有的特征信息以及数据源中的所有数据记录,进行数据分析。
可选地,作为一个实施例,处理模块还用于根据基于第二见解数据生成的见解图表,生成N个图表可视化元素对应的数据记录内部的数值分布情况或者数据记录溯源。
可选地,作为一个实施例,处理模块还用于确定第一见解数据包括的P个子见解数据的优先级顺序,其中P为大于1的正整数,并按照优先级顺序推荐该P个子见解数据。
可选地,作为一个实施例,处理模块还用于确定P个子见解数据中每个子见解数据的特征指标值,该特征指标值用于度量P个子见解数据中每个子见解数据的置信度或显著度,确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q,确定Q个子见解数据中每个子见解数据的特征种类数量,并根据每个子见解数据的特征种类数量,降序排序确定该Q个子见解数据的优先级顺序。
可选地,作为一个实施例,处理模块还用于确定N个图表可视化元素对应的第一图表中的维度和度量,并根据第一图表中的维度和度量生成查询请求,该查询请求用于查询数据源中的数据记录。
其中,上述模块均可以通过软件实现,或者可以通过硬件实现。示例性的,接下来以处理模块920为例,介绍处理模块920的实现方式。类似的,交互模块910的实现方式可以参考处理模块920的实现方式。
模块作为软件功能单元的一种举例,处理模块920可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,处理模块920可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
模块作为硬件功能单元的一种举例,处理模块920可以包括至少一个计算设备,如服务器等。或者,处理模块920也可以是利用专用集成电路(application-specificintegrated circuit,ASIC)实现、或可编程逻辑器件(programmable logic device,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice,CPLD)、现场可编程门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
处理模块920包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。处理模块920包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,处理模块920包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,处理模块920包括的多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
本申请还提供一种计算设备1000。如图10所示,计算设备1000包括:总线1002、处理器1004、存储器1006和通信接口1008。处理器1004、存储器1006和通信接口1008之间通过总线1002通信。计算设备1000可以是服务器或终端设备。应理解,本申请不限定计算设备1000中的处理器、存储器的个数。
总线1002可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。总线1002可包括在计算设备1000各个部件(例如,存储器1006、处理器1004、通信接口1008)之间传送信息的通路。
处理器1004可以包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器1006可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。处理器1004还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard diskdrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器1006中存储有可执行的程序代码,处理器1004执行该可执行的程序代码以分别实现前述交互模块910和处理模块920的功能,从而实现上述见解数据生成的方法。也即,存储器1006上存有用于执行上述见解数据分析生成的方法的指令。
通信接口1008使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备1000与其他设备或通信网络之间的通信。
本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器,例如是中心服务器、边缘服务器,或者是本地数据中心中的本地服务器。在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
如图11所示,该计算设备集群包括至少一个计算设备1000。计算设备集群中的一个或多个计算设备1000中的存储器1006中可以存有相同的用于执行上述见解数据生成的方法的指令。
在一些可能的实现方式中,该计算设备集群中的一个或多个计算设备1000的存储器1006中也可以分别存有用于执行上述见解数据生成的方法的部分指令。换言之,一个或多个计算设备1000的组合可以共同执行用于执行上述见解数据生成的方法的指令。
需要说明的是,计算设备集群中的不同的计算设备1000中的存储器1006可以存储不同的指令,分别用于执行上述装置的部分功能。也即,不同的计算设备1000中的存储器1006存储的指令可以实现交互模块和处理模块中的一个或多个模块的功能。
在一些可能的实现方式中,计算设备集群中的一个或多个计算设备可以通过网络连接。其中,该网络可以是广域网或局域网等等。图12示出了一种可能的实现方式。如图12所示,两个计算设备1000A和1000B之间通过网络进行连接。具体地,通过各个计算设备中的通信接口与该网络进行连接。在这一类可能的实现方式中,计算设备1000A中的存储器1006中存有交互模块的功能的指令。同时,计算设备1000B中的存储器1006中存有执行处理模块的功能的指令。
应理解,图12中示出的计算设备1000A的功能也可以由多个计算设备1000完成。同样,计算设备1000B的功能也可以由多个计算设备1000完成。
本申请实施例还提供一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,以执行上述见解数据生成的方法。
本申请实施例还提供了一种包含指令的计算机程序产品。该计算机程序产品可以是包含指令的,能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当该计算机程序产品在至少一个计算设备上运行时,使得至少一个计算设备执行上述见解数据生成的方法。
本申请实施例还提供了一种计算机可读存储介质。该计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,该指令指示计算设备执行上述见解数据生成的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的保护范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (17)
1.一种见解数据的生成方法,其特征在于,包括:
呈现第一图表,所述第一图表包括M个图表可视化元素,每个所述图表可视化元素对应于数据源中至少一个数据记录;
确认从所述M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N;
确定所述N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数;
基于所述所有K个数据记录,进行联合数据分析,以生成所述N个图表可视化元素的第一见解数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述所有K个数据记录,进行联合数据分析,包括:
确定所述K个数据记录中的L个数据记录共有的特征信息,所述L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于或等于L;
基于所述L个数据记录、所述L个数据记录共有的特征信息以及所述数据源中的所有数据记录,进行数据分析。
3.根据权利要求1或2所述的方法,其特征在于,所述第一见解数据包括以下见解数据类型的至少一种:
图表度量聚合展开分析,所述图表度量聚合展开分析用于分析所述N个图表可视化元素对应的数据记录的原始数据分布构成;
外部维度有效记录数分析,所述外部维度有效记录数分析用于分析所述K个数据记录在未参与绘制第一图表的维度上的有效记录数分布情况;
外部维度分布贡献分析,所述外部维度分布贡献分析用于分析所述K个数据记录在未参与绘制第一图表的维度上对图表度量的贡献度;
外部维度子空间内部特征分析,所述外部维度子空间内部特征分析用于分析未参与绘制第一图表的维度中数据记录内部的特征分布情况;
外部高可解释度度量分析,所述外部高可解释度度量分析用于分析未参与绘制第一图表的度量及原始数据记录与所述L个数据记录的关联情况。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述第一图表为基于第二见解数据生成的见解图表,所述生成所述N个图表可视化元素的第一见解数据包括生成所述N个图表可视化元素的对应的数据记录内部的数值分布情况或者数据记录溯源。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一见解数据包括P个子见解数据,其中P为大于1的正整数,所述方法还包括:
确定所述P个子见解数据的优先级顺序;
按照所述优先级顺序推荐所述P个子见解数据。
6.根据权利要求5所述的方法,其特征在于,所述确定所述P个子见解数据的优先级顺序,包括:
确定P个子见解数据中每个子见解数据的特征指标值,所述特征指标值用于度量所述P个子见解数据中每个子见解数据的置信度或显著度;
确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q;
确定所述Q个子见解数据中每个子见解数据的特征种类数量;
根据所述每个子见解数据的特征种类数量,降序排序确定所述Q个子见解数据的优先级顺序。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述确定所述N个图表可视化元素对应的所有K个数据记录,包括:
确定所述N个图表可视化元素对应的第一图表中的维度和度量;
根据所述第一图表中的维度和度量生成查询请求,所述查询请求用于查询所述数据源中的数据记录。
8.一种生成见解数据的装置,其特征在于,包括:
交互模块,用于呈现第一图表,所述第一图表包括M个图表可视化元素,每个所述图表可视化元素对应于数据源中至少一个数据记录;
处理模块,用于确认从所述M个图表可视化元素中选择的N个图表可视化元素,其中M和N为大于1的正整数,且M大于或等于N,确定所述N个图表可视化元素对应的所有K个数据记录,其中K为大于1的正整数,并基于所述所有K个数据记录,进行联合数据分析,以生成所述N个图表可视化元素的第一见解数据。
9.根据权利要求8所述的装置,其特征在于,所述处理模块还用于确定所述K个数据记录中的L个数据记录共有的特征信息,所述L个数据记录对应于至少两个图表可视化元素,其中L为大于1的正整数,且K大于或等于L,并基于所述L个数据记录、所述L个数据记录共有的特征信息以及所述数据源中的所有数据记录,进行数据分析。
10.根据权利要求8或9所述的装置,其特征在于,所述处理模块还用于根据基于第二见解数据生成的见解图表,生成所述N个图表可视化元素的对应的数据记录内部的数值分布情况或者数据记录溯源。
11.根据权利要求8至10任一所述的装置,其特征在于,所述处理模块还用于确定所述第一见解数据包括的P个子见解数据的优先级顺序,其中P为大于1的正整数,并按照所述优先级顺序推荐所述P个子见解数据。
12.根据权利要求11所述的装置,其特征在于,所述处理模块还用于确定P个子见解数据中每个子见解数据的特征指标值,所述特征指标值用于度量所述P个子见解数据中每个子见解数据的置信度或显著度,确认特征指标值高于特征指标值的阈值的Q个子见解数据,其中Q为大于1的正整数,且P大于Q,确定所述Q个子见解数据中每个子见解数据的特征种类数量,并根据所述每个子见解数据的特征种类数量,降序排序确定所述Q个子见解数据的优先级顺序。
13.根据权利要求8至12任一所述的装置,其特征在于,所述处理模块还用于确定所述N个图表可视化元素对应的第一图表中的维度和度量,并根据所述第一图表中的维度和度量生成查询请求,所述查询请求用于查询所述数据源中的数据记录。
14.一种计算设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的指令,以使得所述计算设备执行如权利要求1至7中任一项所述的方法。
15.一种计算设备集群,其特征在于,包括:包括至少一个计算设备,每个计算设备包括处理器和存储器;
所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求1至7中任一项所述的方法。
16.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备集群运行时,使得所述计算设备集群执行如权利要求的1至7任一项所述的方法。
17.一种计算机可读介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275756.8A CN117951186A (zh) | 2022-10-18 | 2022-10-18 | 见解数据生成的方法和装置 |
PCT/CN2023/109267 WO2024082754A1 (zh) | 2022-10-18 | 2023-07-26 | 见解数据生成的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211275756.8A CN117951186A (zh) | 2022-10-18 | 2022-10-18 | 见解数据生成的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117951186A true CN117951186A (zh) | 2024-04-30 |
Family
ID=90736922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211275756.8A Pending CN117951186A (zh) | 2022-10-18 | 2022-10-18 | 见解数据生成的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117951186A (zh) |
WO (1) | WO2024082754A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3314385A4 (en) * | 2015-06-29 | 2018-11-14 | Microsoft Technology Licensing, LLC | Multi-dimensional data insight interaction |
CN110795458B (zh) * | 2019-10-08 | 2022-04-15 | 北京百分点科技集团股份有限公司 | 交互式数据分析方法、装置、电子设备和计算机可读存储介质 |
US11989174B2 (en) * | 2020-02-05 | 2024-05-21 | Microstrategy Incorporated | Systems and methods for data insight generation and display |
-
2022
- 2022-10-18 CN CN202211275756.8A patent/CN117951186A/zh active Pending
-
2023
- 2023-07-26 WO PCT/CN2023/109267 patent/WO2024082754A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024082754A1 (zh) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868404B1 (en) | Monitoring service-level performance using defined searches of machine data | |
US10884891B2 (en) | Interactive detection of system anomalies | |
US20170032550A1 (en) | Visualization of Unique Field Values for a Field in a Set of Events | |
CN106605222B (zh) | 有指导的数据探索 | |
US10353958B2 (en) | Discriminative clustering | |
JP6696568B2 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
US10509800B2 (en) | Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge | |
CN117951186A (zh) | 见解数据生成的方法和装置 | |
US20170199911A1 (en) | Method and Query Processing Server for Optimizing Query Execution | |
Zhao | A Model-driven Visual Analytic Framework for Local Pattern Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |