CN113763502A - 一种图表生成方法、装置、设备和存储介质 - Google Patents
一种图表生成方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113763502A CN113763502A CN202011272941.2A CN202011272941A CN113763502A CN 113763502 A CN113763502 A CN 113763502A CN 202011272941 A CN202011272941 A CN 202011272941A CN 113763502 A CN113763502 A CN 113763502A
- Authority
- CN
- China
- Prior art keywords
- field
- type
- index
- chart
- field combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000005259 measurement Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 9
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000556 factor analysis Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 abstract description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000001543 one-way ANOVA Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/206—Drawing of charts or graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种图表生成方法、装置、设备及存储介质。该方法包括:获取针对原始数据表预设的各图表类型分别对应的字段组合;针对各所述字段组合,确定当前字段组合的指数信息;根据确定的所述指数信息选取至少一个字段组合,根据所述原始数据表生成选取的所述字段组合对应的图表类型的图表。本发明实施例的技术方案通过确定原始数据表中的字段组合,计算各字段组合的指数信息,并基于指数信息选取字段组合和生成选取的字段组合对应图表类型的图表,解决了图表生成效率低的问题,使得生成的图表更加合理、准确和符合用户需求,同时也减轻了对数据表进行数据分析的工作负担。
Description
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种图表生成方法、装置、设备和存储介质。
背景技术
图表是数据的可视化表示,可以简洁、直观地呈现大量数据的结构、分布或各部分的关系,与原始数据相比更具易读性和说服力。大数据时代,各行业每天都产生海量的在线或离线数据,数据分析工作本身也留下大量记录。如何对这些数据和记录进行高效的挖掘和利用,避免无效和重复工作,是数据分析人员面临的重大课题。
一张原始数据表,其中可能有多达数百个字段,此外,图表的类型多种多样,如柱形图、折线图、饼形图、散点图、箱型图、热力图等等,每种图表分别对应一个字段组合,各字段组合包含原始数据表中的一个或多个字段。目前,将人工选择的字段组合对应的图表类型作为采用的图表类型,并根据该字段组合以及原始数据表中该字段组合所包含各字段的字段值,生成对应的图表并进行显示。
在实现本发明的过程中,发明人发现现有技术中至少存在以下技术问题:
采用人工选择字段组合及图表类型的方式,费时费力,导致生成图表的效率低下,并且选取的图表类型的准确度低,生成的图表不能较好的呈现原始数据表的数据关系。
发明内容
本发明实施例提供了一种图表生成方法、装置、设备及存储介质,以提升生成图表的效率,使得生成的图表更加合理、准确和符合用户需求,同时减轻对数据表进行数据分析的工作负担。
第一方面,本发明实施例提供了一种图表生成方法,该方法包括:
获取针对原始数据表预设的各图表类型分别对应的字段组合;
针对各所述字段组合,确定当前字段组合的指数信息,所述指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,所述频次指数用于表征对当前字段组合在所述原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;所述相关度指数用于表征当前字段组合所包含字段的相关度;所述可读指数用于表征当前字段组合在所述原始数据表中对应的数据记录的可读性;
根据确定的所述指数信息选取至少一个字段组合,根据所述原始数据表生成选取的所述字段组合对应的图表类型的图表。
第二方面,本发明实施例还提供了一种图表生成装置,该装置包括:
字段组合获取模块,用于获取针对原始数据表预设的各图表类型分别对应的字段组合;
指数信息确定模块,用于针对各所述字段组合,确定当前字段组合的指数信息,所述指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,所述频次指数用于表征对当前字段组合在所述原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;所述相关度指数用于表征当前字段组合所包含字段的相关度;所述可读指数用于表征当前字段组合在所述原始数据表中对应的数据记录的可读性;
图表生成模块,用于根据确定的所述指数信息选取至少一个字段组合,根据所述原始数据表生成选取的所述字段组合对应的图表类型的图表。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述所涉及的任一所述的图表生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所涉及的任一所述的图表生成方法。
上述发明中的实施例具有如下优点或有益效果:本发明实施例通过获取针对原始数据表预设的各图表类型分别对应的字段组合,并针对各字段组合确定当前字段组合的指数信息,其中,指数信息包括频次指数、相关度指数和可读指数,根据确定的指数信息选取至少一个字段组合,解决了现有技术中需要人为选取字段组合的问题,从而提高了图表生成的效率,减轻了对数据表进行数据分析的工作负担。同时,当数据量较大时,人为选取的字段组合容易出现选取错误的问题,本发明实施例不仅能降低选取的错误率,根据指数信息选择的字段组合还能使生成的图表符合用户需求,提高了生成图表的合理性和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种图表生成方法的流程图。
图2为本发明实施例二提供的一种图表生成方法的流程图。
图3为本发明实施例三提供的一种图表生成方法的流程图。
图4是本发明实施例三提供的一种图表生成方法的具体实例流程图。
图5为本发明实施例四提供的一种图表生成方法的流程图。
图6为本发明实施例五提供的一种图表生成装置的示意图。
图7为本发明实施例六提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种图表生成方法的流程图,本实施例可适用于对数据表进行数据分析生成图表的情况,该方法可以由图表生成装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于终端设备中,如终端设备可以是智能手机、平板电脑或台式机等智能终端。该方法具体包括以下步骤:
S110、获取针对原始数据表预设的各图表类型分别对应的字段组合。
数据表是一种临时保存数据的网格虚拟表。其中,原始数据表是指用户输入的数据表,以对该数据表进行数据分析生成图表,以便以图表形式直观地呈现出原始数据表中的数据结构。其中,示例性的,原始数据表的类型可以是MySQL数据表。具体的,MySQL数据表由行和列构成,通常把数据表中的“列”称为字段,把数据表中的“行”称为数据记录。当然也可以把数据表中的“列”称为数据记录,把数据表中的“行”称为字段。举例而言,原始数据表中的列为“姓名”和“年龄”,与列对应的行分别为“张三”和“19”,则该原始数据表中的列为字段,行为数据记录。此处对原始数据表的具体数据格式不作限定。
图表泛指可直观展示统计信息属性的图形结构。在一个实施例中,可选的,预设的图表类型包括折线图、柱形图、饼形图、散点图、箱型图、指标卡和热力图中至少一项。其中,示例性的,折线图可用于反映数据的变化趋势;柱形图可用于比较数据之间的差异;饼形图可用于反映相关数据之间的比例关系;散点图可用于反映若干数据系列中各数值之间的关系;箱型图可用于反映数据的分散情况;指标卡可用于显示数据和该数据的变化趋势,如同环比情况;热力图可用于反映数据的使用频率。需要说明的是,上述只是对不同图表类型进行示例性解释说明,并非对其进行限定,不同图表反映的数据信息可根据实际情况具体确定。
其中,字段组合是指原始数据表中的至少一个字段组成的组合,示例性,原始数据表中包含的字段有:“姓名”、“性别”、“年龄”和“出生年月”,则字段组合A可以是“姓名”和“性别”,字段组合B可以是“性别”、“年龄”和“出生年月”等等。在一个实施例中,可选的,获取针对原始数据表预设的各图表类型分别对应的字段组合,包括:建立图表类型和字段组合之间的映射关系,根据映射关系,确定原始数据表中与各图表类型对应的字段组合。
S120、针对各字段组合,确定当前字段组合的指数信息。
在本实施例中,指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,频次指数用于表征对当前字段组合在原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;相关度指数用于表征当前字段组合所包含字段的相关度;可读指数用于表征当前字段组合在原始数据表中对应的数据记录的可读性。
其中,具体的,可以根据历史查询记录文本确定历史查询频次。其中,历史查询记录文本包括SQL运行记录文本和/或或历史需求文本。示例性的,SQL运行记录文本是包括SQL查询语句的文本,历史需求文本是包含用户历史输入的数据表查询需求信息的文本,比如,该数据表查询需求信息可以是:我要查询A字段为1以及B字段为2的数据记录。
其中,具体的,当前字段组合对应的图表类型的图表包括图表库中与该图标类型对应的历史生成图表。具体的,基于当前字段组合对应的图表类型,在图表库中进行查找,将确定属于该图表类型的所有历史生成图表。将当前字段组合与历史生成图表中的图表字段组合进行匹配,确定当前字段组合在该图表类型的历史生成图表中的出现频次,将出现频次作为历史生成频次。
其中,字段的相关度可用于描述字段之间的相关性。在一个实施例中,可选的,基于当前字段组合中各字段进行相关度计算,得到当前字段组合的相关度指数。示例性的,相关度计算方法包括但不限于方差分析、卡方检验、T检验和非参数检验中至少一种。
在一个实施例中,可选的,根据当前字段组合在原始数据表中对应的数据记录的个数与标准个数之间的差值,计算当前字段组合的可读指数。其中,具体的,如果数据记录的个数小于标准个数,则可读性较差,即可读指数较小。如果数据记录的个数大于标准个数,则可读性较好,即可读指数较大。其中,标准个数可自定义设置。在一个实施例中,可选的,建立差值与可读指数之间的对应关系,根据映射关系确定与计算得到的差值对应的可读指数。
S130、根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
在一个实施例中,可选的,根据确定的指数信息选取至少一个字段组合,包括:根据各字段组合的指数信息,确定各字段组合的推荐值;将各字段组合的推荐值进行排序;根据排序结果选取出推荐值最大的至少一个字段组合。
其中,指数信息包括频次指数、相关度指数以及可读指数中的至少一个。在一个实施例中,可选的,根据各指数对应的预设权重,将各字段组合的至少一个指数进行加权计算得到推荐值。其中,示例性的,频次指数V1、相关度指数V2和可读指数V3对应的预设权重分别为w1=0.3、w2=0.4和w3=0.3,则当前字段组合的推荐值V满足公式:
V=w1V1+w2V2+w3V3
其中,根据原始数据表生成选取的字段组合对应的图表类型的图表,包括:根据原始数据表,在原始数据表中获取与选取的字段组合对应的数据记录,基于数据记录生成与选取的字段组合对应的图表类型的图表。
本实施例的技术方案,通过获取针对原始数据表预设的各图表类型分别对应的字段组合,并针对各字段组合确定当前字段组合的指数信息,其中,指数信息包括频次指数、相关度指数和可读指数,根据确定的指数信息选取至少一个字段组合,解决了现有技术中需要人为选取字段组合的问题,从而提高了图表生成的效率,减轻了对数据表进行数据分析的工作负担。同时,当数据量较大时,人为选取的字段组合容易出现选取错误的问题,本发明实施例不仅能降低选取的错误率,根据指数信息选择的字段组合还能使生成的图表符合用户需求,提高了生成图表的合理性和准确度。
实施例二
图2为本发明实施例二提供的一种图表生成方法的流程图,本实施例的技术方案是上述实施例的基础上的进一步细化。可选的,获取针对原始数据表预设的各图表类型分别对应的字段组合,包括:获取预设图表推荐模型表和对所述原始数据表中所包含字段的字段分类结果;其中,所述预设图表推荐模型表中包含各图表类型分别对应的记录数据,所述记录数据包括各预设字段类型分别对应的数量值;对于各所述图表类型,从所述预设图表推荐模型表读取当前图表类型对应的记录数据,根据读取的记录数据和所述字段分类结果,从所述原始数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。
本实施例的具体实施步骤包括:
S210、获取预设图表推荐模型表和对原始数据表中所包含字段的字段分类结果。
其中,字段分类结果是指对原始数据表中所包含的字段进行分类得到的数据结果。在一个实施例中,可选的,根据字段的数据类型对字段进行分类得到数据结果。其中,示例性的,数据类型包括但不限于字符类型、基本整型、浮点型、布尔型和字符串类型。示例性的,字符类型包括char类型,基本整型包括int类型、short类型、byte类型和long类型,浮点型包括float类型和double类型,布尔型包括boolean类型,字符串类型包括string类型。具体的,可将一个数据类型对应的字段作为一个分类结果,也可将多个数据类型对应的字段作为一个分类结果。此处对具体的分类方式不作限定。
在另一个实施例中,可选的,确定原始数据表中包含的各字段的有效样本去重长度和数据类型;根据各字段的有效样本去重长度和数据类型,对各字段进行分类,获得字段分类结果。
其中,具体的,当原始数据表中的“列”称为字段时,则与各列对应的行(即数据记录)中除空值以外的数据记录作为各字段对应的有效样本。示例性的,当字段的数据类型为string类型,则数据记录中的空字符和NULL字符为空值。当字段的数据类型为float类型,则数据记录中的NaN字符为空值。其中,有效样本去重长度是指对有效样本进行去重处理后得到的有效样本数。示例性的,当有效样本为“用户A”、“用户B”、“用户C”和“用户B”,则该有效样本数为4,去重处理后的有效样本“用户A”、“用户B”和“用户C”,则有效样本去重长度为3。
在一个实施例中,可选的,根据各字段的有效样本去重长度和数据类型,对各字段进行分类,获得字段分类结果,包括:对于各字段,若当前字段满足第一条件和第二条件,则确定当前字段为时间维度TD类型,若当前字段满足第一条件且不满足第二条件,则确定当前字段为空间维度SD类型;若当前字段不满足第一条件且满足第三条件,则确定当前字段为明细度量DM类型;若当前字段不满足第一条件且满足第四条件,则确定当前字段为汇总度量SM类型;其中:第一条件包括:n≤n2,或者,数据类型为字符串且n≤m0 α,其中n为有效样本去重长度,n2为预设维度字段判断阈值,m0为预设有效样本数阈值,α为预设度量字段判断指数;第二条件包括:字段的各有效样本均与预设时间维度正则表达式匹配;第三条件包括:原始数据表为明细表,且数据类型为整型或浮点型,且在数据类型为整型时n不等于m;第四条件包括:原始数据表为汇总表,且数据类型为整型或浮点型。
其中,时间维度TD类型、空间维度SD类型、明细度量DM类型和汇总度量SM类型中的字段个数在初始状态下均为零。其中,具体的,数据类型为字符串可以指数据类型为string类型。其中,具体的,数据类型为整型或浮点型可以是数据类型为int类型或float类型。
其中,具体的,字段的各有效样本均与预设时间维度正则表达式匹配,包括:将字段的各有效样本的数据类型统一为string类型,并将数据类型统一后字段的各有效样本均与预设时间维度正则表达式匹配;如果各有效样本均匹配成功,则该字段为时间维度TD类型。否则,该字段为空间维度SD类型。举例而言,预设时间维度正则表达式可以是\d\d\d\d\-\d\d.*,其中,“\d”表示任意数字字符,“\-”表示“-”字符,“.*”表示任意长度的任意字符串。如果有效样本为“2020-01”、“2020-01-01”或“2020-01-01 00:00:00.0”,则这3种有效样本均可与上述预设时间维度正则表达式匹配成功。
其中,明细表是指包含所有字段和各字段对应的明细数据记录,汇总表是指包含字段对应的明细数据记录的汇总记录。示例性的,明细表包括“用户A”、和“销售100个”,以及“用户B”和“销售200个”,相应的,汇总表包括“用户A和用户B”和“销售300个”。
在另一个实施例中,若当前字段不满足第一条件且不满足第三条件,则剔除当前字段。具体的,不满足第三条件包括当前字段的数据类型为整型且n等于m,说明当前字段包含的有效样本的取值唯一,为不可聚合的编号类字段。
在本实施例中,预设图表推荐模型表包含各图表类型分别对应的记录数据,记录数据包括各预设字段类型分别对应的数量值。其中,具体的,预设字段类型包括时间维度TD类型、空间维度SD类型、明细度量DM类型和汇总度量SM类型中至少一项。
S220、对于各图表类型,从预设图表推荐模型表读取当前图表类型对应的记录数据,根据读取的记录数据和字段分类结果,从原始数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。
表1是本发明实施例二提供的一种预设图表推荐模型表。
其中,TD类型数量值、SD类型数量值、DM类型数量值和SM类型数量值为记录数据,具体是指从时间维度TD类型、空间维度SD类型、明细度量DM类型和汇总度量SM类型对应的数据库中选取的字段个数。以表1中的第一行数据为例,当前图表类型为折线图,与该折线图对应的记录数据为时间维度TD类型的字段个数为1、空间维度SD类型的字段个数为0、明细度量DM类型的字段个数为0和汇总度量SM类型的字段个数为1。具体的,根据上述记录数据和字段分类结果,遍历各类型对应的数据库中的字段,确定所有可能的字段组合。举例而言,当时间维度TD类型对应的数据库中包括字段A,汇总度量SM类型对应的数据库中包括字段B和字段C,则与当前图表类型对应的字段组合有两个,分别为字段组合1包括字段A和字段B,字段组合2字段A和字段C。
在上述实施例的基础上,可选的,在根据各字段的有效样本去重长度和数据类型,对各字段进行分类,获得字段分类结果之前,还包括:对满足剔除条件的字段进行剔除,得到剔除后的字段。其中,剔除条件包括m<m0和n<n1,其中,m为有效样本数,n1为有效样本去重长度的下界阈值。其中,示例性的,n1可以为2,用于剔除有效样本中只有唯一有效样本的字段。在一个实施例中,可选的,上述各条件中的阈值满足关系m0>m0 α>n2>n1>1。
S230、针对各字段组合,确定当前字段组合的指数信息。
S240、根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
现有技术中通常是人为给定字段组合或通过神经网络模型得到字段组合,但上述现有技术手段的实现过程复杂,导致确定字段组合的效率都很低。本实施例的技术方案,通过根据预设图表推荐模型表和字段分类结果,确定与当前图表类型对应的字段组合,解决了现有技术中确定字段组合效率低的问题。进一步的,本实施例的技术方案根据字段的有效样本去重长度和数据类型对字段进行分类,得到字段分类结果,解决了现有技术中字段分类结果精确度和准确度不高的问题,进而提高了后续确定的字段组合的准确度,减轻了对数据表进行数据分析的工作负担。
实施例三
图3为本发明实施例三提供的一种图表生成方法的流程图,本实施例的技术方案是上述实施例的基础上的进一步细化。可选的,所述原始数据表为明细表时,所述方法还包括:针对包含TD类型、SD类型和DM类型中至少一种字段类型的各所述字段组合,根据数据库的SQL运行记录文本确定包含当前字段组合的目标SQL语句的出现频次;其中,所述目标SQL语句是用于执行数据统计操作的SQL语句;若所述出现频次大于预设阈值,则将执行所述数据统计操作后得到的结果字段,作为所述原始数据表包含的SM类型的字段。
本实施例的具体实施步骤包括:
S310、当原始数据表为明细表时,根据各字段的有效样本去重长度和数据类型,对各字段进行分类,得到包含TD类型、SD类型和DM类型的字段分类结果。
S320、针对包含TD类型、SD类型和DM类型中至少一种字段类型的各字段组合,根据数据库的SQL运行记录文本确定包含当前字段组合的目标SQL语句的出现频次。
其中,具体的,根据预设图表推荐模型表中与各图表类型分别对应的记录数据和字段分类结果,从原始数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。在本实施例中,该记录数据包括TD类型、SD类型和DM类型分别对应的数量值,字段分类结果为包含TD类型、SD类型和DM类型的分类结果。
SQL(Structured Query Language,结构化查询语言)是一种编程语言,可通过SQL语句实现对数据表执行插入、删减、查询和修改等数据处理功能。其中,SQL运行记录文本是用于记录数据处理操作的文本。
在本实施例中,目标SQL语句是用于执行数据统计操作的SQL语句。在一个实施例中,可选的,数据统计操作包括:对当前字段组合中的维度类型的字段进行聚合并计数的操作、对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求和的操作、或对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求均值的操作。
其中,具体的,维度类型的字段包括TD类型和SD类型的字段,度量类型的字段包括DM类型的字段。其中,聚合操作是指对字段进行分组,示例性的,可通过SQL语句中的groupby指令实现字段的聚类操作。其中,计数操作是指统计字段的个数,示例性的,可通过SQL语句中的count指令实现字段的计数操作。其中,求和操作是指对度量类型的字段对应的数据记录进行求和,示例性的,可通过SQL语句中的sum指令实现字段的求和操作。其中,求均值操作是指对度量类型的字段对应的数据记录进行求均值,示例性的,可通过SQL语句中的avg指令实现字段的求均值操作。
在一个实施例中,可选的,根据数据库的SQL运行记录文本确定包含当前字段组合的目标SQL语句的出现频次,包括:基于模糊文本匹配方法计算当前字段组合与目标SQL语句中的字段组合之间的相似度,并根据相似度确定当前字段组合在目标SQL语句中的出现频次。其中,示例性的,模糊文本匹配方法可以是Levenshtein Distance(编辑字符串距离)方法。其中,具体的,基于Levenshtein Distance方法,计算目标SQL语句中执行聚合的维度类型的字段与当前字段组合中的维度类型的字段之间的第一相似度,以及计算目标SQL语句中执行计数操作(或求和操作、求均值操作)的字段与当前字段组合中执行计数操作(或求和操作、求均值操作)的字段之间的第二相似度。如果第一相似度超过第一相似度阈值且第二相似度超过第二相似度阈值,则将当前字段组合执行数据统计操作的出现频次加1。
S330、若出现频次大于预设阈值,则将执行数据统计操作后得到的结果字段,作为原始数据表包含的SM类型的字段,得到包含TD类型、SD类型、DM类型和SM类型的字段分类结果。
其中,具体的,结果字段包括计数字段、累加字段和均值字段中至少一种。示例性的,当求均值操作的明细度量DM类型的字段为销售额,则累加字段为总销售额,均值字段为平均销售额。
S340、获取针对原始数据表预设的各图表类型分别对应的字段组合。
在一个实施例中,可选的,根据从预设图标推荐模型表读取的记录数据和字段分类结果,从原始数据表或目标数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。其中,目标数据表包括结果字段、与结果字段对应的维度类型的字段和与结果字段对应的结果数据记录。
其中,具体的,与结果字段对应的维度类型的字段为S320中执行聚合操作的字段。在一个实施例中,如果记录数据中包含维度类型和DM类型,则在原始数据表中选取字段组合;如果记录数据中包含维度类型和SM类型,则在目标数据表中选取字段组合。在另一个实施例中,可选的,将结果字段和与结果字段对应的结果数据记录添加到原始数据表中,基于更新后的原始数据表选取字段组合。
S350、针对各字段组合,确定当前字段组合的指数信息。
S360、根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
在一个实施例中,可选的,将结果字段和与结果字段对应的结果数据记录添加到原始数据表中,基于更新后的原始数据表生成选取的字段组合对应的图标类型的图表。
需要说明的是,本实施例公开了当原始数据表为明细表时,确定SM类型的字段的分类方法,以得到包含TD类型、SD类型、DM类型和SM类型的字段分类结果。在另一实施例中,当原始数据表为汇总表时,通过实施例二提供的图表生成方法可直接得到包含TD类型、SD类型、DM类型和SM类型的字段分类结果。
图4是本发明实施例三提供的一种图表生成方法的具体实例流程图。如图4所示,输入原始数据表,获取SQL运行记录文本。在一个实施例中,可选的,当原始数据表还包括字段说明时,获取历史需求文本和图表库。建立TD、SD、DM和SM有效字段库。其中,建立TD、SD、DM和SM有效字段库具体方法包括:将字段的有效样本数与有效样本数阈值进行比较,且将字段的有效样本去重长度与有效样本去重下界阈值进行比较,如果有效样本数小于有效样本数阈值,或有效样本去重长度小于有效样本去重下界阈值,则认为该字段属于不宜可视化的字段,并将该字段删除。根据第一条件将字段分为维度字段和度量字段,根据第二条件中的正则表达式匹配对维度字段进行分类,其中,正则表达式为预设时间维度正则表达式。如果字段与预设时间维度正则表达式匹配,则该字段为时间维度TD类型,如果不匹配,则该字段为空间维度SD类型。针对度量字段,将字段的有效样本去重长度与有效样本数进行比较,如果效样本去重长度与有效样本数相同,则认为该字段为不可聚合的字段,并将该字段删除。若原始数据表为明细表,则剩余的度量字段为明细度量DM类型,若原始数据表为汇总表,则度量字段为汇总度量SM类型。
进一步的,当原始数据表为明细表时,可根据预设图表推荐模型表和TD、SD和DM有效字段确定原始数据表中的汇总度量SM类型的字段。同时可根据预设图表推荐模型表和TD、SD、DM和SM有效字段库确定字段组合,计算各字段组合的频次指数、相关度指数和可读指数,基于上述指数中的至少一个计算得到推荐值,并基于推荐值对字段组合进行排序,根据推荐值最大的至少一个字段组合对应的推荐图表类型和原始数据表生成推荐图表。
本实施例的技术方案,通过根据SQL运行记录文本确定当前字段组合在执行数据统计操作的SQL语句中的出现频次,并将执行数据统计操作后得到的结果结果字段,作为所述原始数据表包含的汇总度量SM类型的字段,解决了明细表缺乏统计数据的问题,可根据用户输入的明细表自动执行常用的统计操作,并对包含统计后的结果字段的原始数据表生成推荐的图表,使得生成的图表既包括明细类的图表也包括汇总类的图表,减轻了对数据表进行数据统计和数据分析的工作负担。
实施例四
图5为本发明实施例四提供的一种图表生成方法的流程图,本实施例的技术方案是上述实施例的基础上的进一步细化。可选的,所述方法包括:针对各所述字段组合,确定当前字段组合的指数信息;其中,所述指数信息包括频次指数、相关度指数以及可读指数。
本实施例的具体实施步骤包括:
S410、获取针对原始数据表预设的各图表类型分别对应的字段组合。
需要说明的是,本实施例中的字段组合是基于TD类型、SD类型、DM类型和SM类型的字段分类结果选取得到的。
S420、针对各字段组合,确定当前字段组合的频次指数。
在一个实施例中,可选的,确定当前字段组合的频次指数,包括:获取第一频次指数、第二频次指数和第三频次指数中的至少一个;其中,第一频次指数是根据当前字段组合在数据库的SQL运行记录文本中出现的频次确定的,第二频次指数是根据当前字段组合在历史需求文本中出现的频次确定的,第三频次指数是根据当前字段组合在图表库中包含的历史生成图表对应的字段组合中出现的频次确定的;根据第一频次指数、第二频次指数和第三频次指数中的至少一个,确定当前字段组合的频次指数。
其中,SQL运行记录文本是指记录SQL语句的文本。在一个实施例中,可选的,原始数据表中还包括字段说明。其中,字段说明用于对原始数据表中的字段进行注释说明。当原始数据表中包括字段说明时,可确定当前字段组合的第二频次指数。在本实施例中,历史需求文本是包含用户历史输入的数据表查询需求信息的文本。示例性的,具体的,用户可输入“用户A”,用于对原始数据表中的“用户A”进行查询,相应的,历史需求文本中会生成“用户A”的查询需求文本。具体的,根据当前字段组合的字段说明在历史需求文本中出现的频次确定第二频次指数。
在一个实施例中,可选的,确定当前字段组合的出现频次,包括:基于模糊文本匹配方法计算当前字段组合与SQL运行记录文本、历史需求文本或历史生成图表中的字段组合之间的相似度,并根据相似度确定当前字段组合在SQL运行记录文本、历史需求文本或历史生成图表中的出现频次。
在一个实施例中,可选的,根据出现频次确定频次指数,包括:对出现频次进行归一化处理,得到频次指数。其中,具体的,将出现频次最高的字段组合的频次指数设为1,对其他字段组合的出现频次进行归一化处理。在一个实施例中,可选的,还包括:将最高出现频次与各字段组合的出现频次进行差值计算,并将差值大于预设差值阈值对应的目标出现频次进行指数计算,得到目标出现频次对应的字段组合的频次指数。其中,指数计算是指在归一化处理的基础上,基于预设指数值对目标出现频次的归一化结果进行指数计算,其中,预设指数值小于1。示例性的,预设指数值可以为0.2。示例性的,假设最高出现频次为50,某字段组合的出现频次为5,若预设差值阈值为20,则该字段组合的出现频次为目标出现频次,相应的,目标出现频次对应的字段组合的频次指数V1满足这样设置的好处在于,采用小于1的预设指数值可以弱化出现频次之间的差异,避免在后续进行推荐值计算时,由于该字段组合的频次指数过小,使推荐值计算结果与频次指数的关联度较低,从而影响对字段组合的选取。
在一个实施例中,可选的,根据第一频次指数、第二频次指数和第三频次指数中的至少一个,确定当前字段组合的频次指数,包括:根据预设权重,对第一频次指数、第二频次指数和第三频次指数进行加权求和得到当前字段组合的频次指数。其中,示例性的,第一频次指数、第二频次指数和第三频次指数的预设权重可以为0.5、0.3和0.2。
S430、针对各字段组合,确定当前字段组合的相关度指数。
在一个实施例中,可选的,确定当前字段组合的相关度指数,包括:确定当前字段组合中包含的各字段的字段类型;根据当前字段组合中包含的各字段的字段类型,确定当前字段组合的相关度指数。其中,字段类型包括时间维度TD类型和空间维度SD类型所属的维度类型、明细度量DM类型和汇总度量SM类型。
在一个实施例中,可选的,根据当前字段组合中包含的各字段的字段类型,确定当前字段组合的相关度指数,包括:若当前字段组合中包含一个维度类型的字段和不多于两个的汇总度量类型的字段,则确定当前字段组合的相关度指数为预设常量值;若当前字段组合中包含一个维度类型的字段和一个明细度量类型的字段,则对当前字段组合的有效样本进行单因素方差分析,根据分析结果确定当前字段组合的相关度指数;若当前字段组合中包含两个维度类型的字段和一个汇总度量类型的字段,则对当前字段组合的有效样本进行多因素方差分析,根据分析结果确定当前字段组合的相关度指数;若当前字段组合中包含两个明细度量类型的字段,则对当前字段组合的有效样本求取皮尔逊相关系数,根据求取结果确定当前字段组合的相关度指数。
其中,示例性的,预设常量值可以为0.8。其中,当前字段组合的有效样本是指当前字段组合中的所有字段的不为空的数据记录。
其中,对当前字段组合的有效样本进行单因素方差分析,根据分析结果确定当前字段组合的相关度指数。具体的,单因素方差分析结果包括统计量值F,对统计量值F进行对数计算,示例性的,相关度指数V2满足公式V2=β·lnF,其中,β为预设常数。示例性的,预设常数可以为0.1。
其中,对当前字段组合的有效样本进行多因素方差分析,根据分析结果确定当前字段组合的相关度指数。具体的,多因素方差分析结果包括2个维度的统计量值F(1)和F(2),分别对统计量值F(1)和F(2)进行对数计算得到V2 (1)=β·lnF(1)和V2 (2)=β·lnF(2),则相关度指数V2满足公式V2=γ·V2 (1)gV2 (2),其中,γ为不小于1的预设常数。示例性的,预设常数可以为2。
其中,对当前字段组合的有效样本求取皮尔逊相关系数,根据求取结果确定当前字段组合的相关度指数。具体的,将求取得到皮尔逊相关系数作为当前字段组合的相关度指数。
S440、针对各字段组合,确定当前字段组合的可读指数。
在一个实施例中,可选的,确定当前字段组合的可读指数,包括:确定当前字段组合对应的TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个;其中,TD去重长度指数用于表征当前字段组合包含的TD类型的字段的实际有效样本去重长度,与针对TD类型字段预设的有效样本去重长度标准值之间的差距;SD去重长度指数用于表征当前字段组合包含的SD类型的字段的实际有效样本去重长度,与针对SD类型字段预设的有效样本去重长度标准值之间的差距;DM去重长度指数用于表征当前字段组合包含的DM类型的字段的实际有效样本长度,与针对DM类型字段预设的有效样本长度标准值之间的差距;根据TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个,确定当前字段组合的可读指数。
其中,预设的有效样本去重长度标准值可根据预设图表推荐模型表读取得到。表2是本发明实施例四提供的一种预设图表推荐模型表。
在一个实施例中,可选的,按照如下公式确定TD去重长度指数rTD、SD去重长度指数rSD以及DM去重长度指数rDM:
其中,c01表示针对TD类型的字段预设的有效样本去重长度标准值,c1表示当前字段组合包含的TD类型的字段的实际有效样本去重长度,c02表示针对SD类型的字段预设的有效样本去重长度标准值,c2表示当前字段组合包含的SD类型的字段的实际有效样本去重长度,c03表示针对DM类型的字段预设的有效样本长度标准值,c3表示当前字段组合包含的DM类型的字段的实际有效样本长度,γTD、γSD和γDM为预设的常数系数。
其中,示例性的,预设的常数系数可以为1。在一个实施例中,可选的,如果当前字段组合包含至少两个相同字段类型的字段,则将各字段对应的去重长度指数进行乘积计算,得到该字段类型对应的去重长度指数。示例性的,当当前字段组合包含两个DM类型的字段,则对这两个字段分别计算得到DM去重长度指数rDM (1)和rDM (2),则DM类型对应的去重长度指数rDM满足公式rDM=rDM (1)·rDM (2)。
在一个实施例中,可选的,除上述给出的正弦函数外,也可采用正态密度函数的对数计算TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个。其中,示例性的,当前字段组合的可读指数V3满足公式V3=rTD·rSD·rDM。在一个实施例中,若当前字段组合对应的字段类型没有有效样本去重长度标准值,则将该字段类型对应的可读指数设为1。
S450、根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
本实施例的技术方案,通过确定当前字段组合的频次指数、相关度指数和可读指数,并基于频次指数、相关度指数和可读指数计算推荐值,解决了现有生成图表的不合理的问题,其中,频次指数反映了用户进行数据分析时的需求经验,相关度指数反映了图表的分析价值,可读指数反映了图表的可读性,从上述多个维度对字段组合进行推荐值计算,使得生成的图表更加合理、准确和符合用户需求,提高了生成图表的推荐效率和质量,减轻了对数据表进行数据分析的工作负担。
以下是本发明实施例提供的图表生成装置的实施例,该装置与上述各实施例的图表生成方法属于同一个发明构思,在图表生成装置的实施例中未详尽描述的细节内容,可以参考上述图表生成方法的实施例。
实施例五
图6为本发明实施例五提供的一种图表生成装置的示意图,本实施例可适用于对数据表进行数据分析生成图表的情况,该图表生成装置包括:字段组合获取模块510、指数信息确定模块520和图表生成模块530。
其中,字段组合获取模块510,用于获取针对原始数据表预设的各图表类型分别对应的字段组合;
指数信息确定模块520,用于针对各字段组合,确定当前字段组合的指数信息,指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,频次指数用于表征对当前字段组合在原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;相关度指数用于表征当前字段组合所包含字段的相关度;可读指数用于表征当前字段组合在原始数据表中对应的数据记录的可读性;
图表生成模块530,用于根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
本实施例的技术方案,通过获取针对原始数据表预设的各图表类型分别对应的字段组合,并针对各字段组合确定当前字段组合的指数信息,其中,指数信息包括频次指数、相关度指数和可读指数,根据确定的指数信息选取至少一个字段组合,解决了现有技术中需要人为选取字段组合的问题,从而提高了图表生成的效率,减轻了对数据表进行数据分析的工作负担。同时,当数据量较大时,人为选取的字段组合容易出现选取错误的问题,本发明实施例不仅能降低选取的错误率,根据指数信息选择的字段组合还能使生成的图表符合用户需求,提高了生成图表的合理性和准确度。
在上述实施例的基础上,可选的,字段组合获取模块510包括:
字段分类结果获取单元,用于获取预设图表推荐模型表和对原始数据表中所包含字段的字段分类结果;其中,预设图表推荐模型表中包含各图表类型分别对应的记录数据,记录数据包括各预设字段类型分别对应的数量值;
字段组合确定单元,用于对于各图表类型,从预设图表推荐模型表读取当前图表类型对应的记录数据,根据读取的记录数据和字段分类结果,从原始数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。
在上述实施例的基础上,可选的,该装置还包括:
字段分类结果确定模块,用于确定原始数据表中包含的各字段的有效样本去重长度和数据类型;根据各字段的有效样本去重长度和数据类型,对各字段进行分类,获得字段分类结果。
在上述实施例的基础上,可选的,字段分类结果确定模块具体用于:
对于各字段,若当前字段满足第一条件和第二条件,则确定当前字段为时间维度TD类型,若当前字段满足第一条件且不满足第二条件,则确定当前字段为空间维度SD类型;若当前字段不满足第一条件且满足第三条件,则确定当前字段为明细度量DM类型;若当前字段不满足第一条件且满足第四条件,则确定当前字段为汇总度量SM类型;其中:
第一条件包括:n≤n2,或者,数据类型为字符串且n≤m0 α,其中n为有效样本去重长度,n2为预设维度字段判断阈值,m0为预设有效样本数阈值,α为预设度量字段判断指数;
第二条件包括:字段的各有效样本均与预设时间维度正则表达式匹配;
第三条件包括:原始数据表为明细表,且数据类型为整型或浮点型,且在数据类型为整型时n不等于m;
第四条件包括:原始数据表为汇总表,且数据类型为整型或浮点型。
在上述实施例的基础上,可选的,原始数据表为明细表时,该装置还包括:
SM类型字段确定模块,用于针对包含TD类型、SD类型和DM类型中至少一种字段类型的各字段组合,根据数据库的SQL运行记录文本确定包含当前字段组合的目标SQL语句的出现频次;其中,目标SQL语句是用于执行数据统计操作的SQL语句;若出现频次大于预设阈值,则将执行数据统计操作后得到的结果字段,作为原始数据表包含的SM类型的字段。
在上述实施例的基础上,可选的,数据统计操作包括:
对当前字段组合中的维度类型的字段进行聚合并计数的操作、对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求和的操作、或对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求均值的操作。
在上述实施例的基础上,可选的,指数信息确定模块520包括:
频次指数确定单元,用于获取第一频次指数、第二频次指数和第三频次指数中的至少一个;其中,第一频次指数是根据当前字段组合在数据库的SQL运行记录文本中出现的频次确定的,第二频次指数是根据当前字段组合在历史需求文本中出现的频次确定的,第三频次指数是根据当前字段组合在图表库中包含的历史生成图表对应的字段组合中出现的频次确定的;其中,历史需求文本是包含用户历史输入的数据表查询需求信息的文本;
根据第一频次指数、第二频次指数和第三频次指数中的至少一个,确定当前字段组合的频次指数。
在上述实施例的基础上,可选的,指数信息确定模块520包括:
字段类型确定单元,用于确定当前字段组合中包含的各字段的字段类型;
相关度指数确定单元,用于根据当前字段组合中包含的各字段的字段类型,确定当前字段组合的相关度指数。
在上述实施例的基础上,可选的,相关度指数确定单元具体用于:
若当前字段组合中包含一个维度类型的字段和不多于两个的汇总度量类型的字段,则确定当前字段组合的相关度指数为预设常量值;
若当前字段组合中包含一个维度类型的字段和一个明细度量类型的字段,则对当前字段组合的有效样本进行单因素方差分析,根据分析结果确定当前字段组合的相关度指数;
若当前字段组合中包含两个维度类型的字段和一个汇总度量类型的字段,则对当前字段组合的有效样本进行多因素方差分析,根据分析结果确定当前字段组合的相关度指数;
若当前字段组合中包含两个明细度量类型的字段,则对当前字段组合的有效样本求取皮尔逊相关系数,根据求取结果确定当前字段组合的相关度指数。
在上述实施例的基础上,可选的,指数信息确定模块520包括:
可读指数确定单元,用于确定当前字段组合对应的TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个;其中,TD去重长度指数用于表征当前字段组合包含的TD类型的字段的实际有效样本去重长度,与针对TD类型字段预设的有效样本去重长度标准值之间的差距;SD去重长度指数用于表征当前字段组合包含的SD类型的字段的实际有效样本去重长度,与针对SD类型字段预设的有效样本去重长度标准值之间的差距;DM去重长度指数用于表征当前字段组合包含的DM类型的字段的实际有效样本长度,与针对DM类型字段预设的有效样本长度标准值之间的差距;
根据TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个,确定当前字段组合的可读指数。
在上述实施例的基础上,可选的,按照如下公式确定TD去重长度指数rTD、SD去重长度指数rSD以及DM去重长度指数rDM:
其中,c01表示针对TD类型的字段预设的有效样本去重长度标准值,c1表示当前字段组合包含的TD类型的字段的实际有效样本去重长度,c02表示针对SD类型的字段预设的有效样本去重长度标准值,c2表示当前字段组合包含的SD类型的字段的实际有效样本去重长度,c03表示针对DM类型的字段预设的有效样本长度标准值,c3表示当前字段组合包含的DM类型的字段的实际有效样本长度,γTD、γSD和γDM为预设的常数系数。
在上述实施例的基础上,可选的,图表生成模块530具体用于:
根据各字段组合的指数信息,确定各字段组合的推荐值;
将各字段组合的推荐值进行排序;
根据排序结果选取出推荐值最大的至少一个字段组合。
本发明实施例所提供的图表生成装置可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述图表生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例六
图7为本发明实施例六提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的示例性设备12的框图。图7显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,设备12以通用计算设备的形式表现。设备12的业务组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统业务组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MAC)总线、增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围业务组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种图表生成方法步骤。
实施例七
本实施例七提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的图表生成方法步骤,该方法包括:
获取针对原始数据表预设的各图表类型分别对应的字段组合;
针对各字段组合,确定当前字段组合的指数信息,指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,频次指数用于表征对当前字段组合在原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;相关度指数用于表征当前字段组合所包含字段的相关度;可读指数用于表征当前字段组合在原始数据表中对应的数据记录的可读性;
根据确定的指数信息选取至少一个字段组合,根据原始数据表生成选取的字段组合对应的图表类型的图表。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (15)
1.一种图表生成方法,其特征在于,包括:
获取针对原始数据表预设的各图表类型分别对应的字段组合;
针对各所述字段组合,确定当前字段组合的指数信息,所述指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,所述频次指数用于表征对当前字段组合在所述原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;所述相关度指数用于表征当前字段组合所包含字段的相关度;所述可读指数用于表征当前字段组合在所述原始数据表中对应的数据记录的可读性;
根据确定的所述指数信息选取至少一个字段组合,根据所述原始数据表生成选取的所述字段组合对应的图表类型的图表。
2.根据权利要求1所述的方法,其特征在于,获取针对原始数据表预设的各图表类型分别对应的字段组合,包括:
获取预设图表推荐模型表和对所述原始数据表中所包含字段的字段分类结果;其中,所述预设图表推荐模型表中包含各图表类型分别对应的记录数据,所述记录数据包括各预设字段类型分别对应的数量值;
对于各所述图表类型,从所述预设图表推荐模型表读取当前图表类型对应的记录数据,根据读取的记录数据和所述字段分类结果,从所述原始数据表中所包含字段中选取出至少一个字段作为当前图表类型对应的字段组合。
3.根据权利要求2所述的方法,其特征在于,在获取预设图表推荐模型表和对所述原始数据表所包含各字段的字段分类结果之前,所述方法还包括:
确定所述原始数据表中包含的各字段的有效样本去重长度和数据类型;
根据各所述字段的有效样本去重长度和数据类型,对各所述字段进行分类,获得字段分类结果。
4.根据权利要求3所述的方法,其特征在于,根据各所述字段的有效样本去重长度和数据类型,对各所述字段进行分类,获得字段分类结果,包括:
对于各所述字段,若当前字段满足第一条件和第二条件,则确定当前字段为时间维度TD类型,若当前字段满足第一条件且不满足第二条件,则确定当前字段为空间维度SD类型;若当前字段不满足第一条件且满足第三条件,则确定当前字段为明细度量DM类型;若当前字段不满足第一条件且满足第四条件,则确定当前字段为汇总度量SM类型;其中:
第一条件包括:n≤n2,或者,数据类型为字符串且n≤m0 α,其中n为有效样本去重长度,n2为预设维度字段判断阈值,m0为预设有效样本数阈值,α为预设度量字段判断指数;
第二条件包括:字段的各有效样本均与预设时间维度正则表达式匹配;
第三条件包括:所述原始数据表为明细表,且数据类型为整型或浮点型,且在数据类型为整型时n不等于有效样本数m;
第四条件包括:所述原始数据表为汇总表,且数据类型为整型或浮点型。
5.根据权利要求4所述的方法,其特征在于,所述原始数据表为明细表时,所述方法还包括:
针对包含TD类型、SD类型和DM类型中至少一种字段类型的各所述字段组合,根据数据库的SQL运行记录文本确定包含当前字段组合的目标SQL语句的出现频次;其中,所述目标SQL语句是用于执行数据统计操作的SQL语句;
若所述出现频次大于预设阈值,则将执行所述数据统计操作后得到的结果字段,作为所述原始数据表包含的SM类型的字段。
6.根据权利要求5所述的方法,其特征在于,所述数据统计操作包括:
对当前字段组合中的维度类型的字段进行聚合并计数的操作、对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求和的操作、或对当前字段组合中的维度类型的字段进行聚合并对度量类型的字段求均值的操作。
7.根据权利要求1所述的方法,其特征在于,确定当前字段组合的频次指数,包括:
获取第一频次指数、第二频次指数和第三频次指数中的至少一个;其中,第一频次指数是根据当前字段组合在数据库的SQL运行记录文本中出现的频次确定的,第二频次指数是根据当前字段组合在历史需求文本中出现的频次确定的,第三频次指数是根据当前字段组合在图表库中包含的历史生成图表对应的字段组合中出现的频次确定的;其中,所述历史需求文本是包含用户历史输入的数据表查询需求信息的文本;
根据第一频次指数、第二频次指数和第三频次指数中的至少一个,确定当前字段组合的频次指数。
8.根据权利要求1所述的方法,其特征在于,确定当前字段组合的相关度指数,包括:
确定当前字段组合中包含的各字段的字段类型;
根据当前字段组合中包含的各字段的字段类型,确定当前字段组合的相关度指数。
9.根据权利要求8所述的方法,其特征在于,根据当前字段组合中包含的各字段的字段类型,确定当前字段组合的相关度指数,包括:
若当前字段组合中包含一个维度类型的字段和不多于两个的汇总度量类型的字段,则确定当前字段组合的相关度指数为预设常量值;
若当前字段组合中包含一个维度类型的字段和一个明细度量类型的字段,则对当前字段组合的有效样本进行单因素方差分析,根据分析结果确定当前字段组合的相关度指数;
若当前字段组合中包含两个维度类型的字段和一个汇总度量类型的字段,则对当前字段组合的有效样本进行多因素方差分析,根据分析结果确定当前字段组合的相关度指数;
若当前字段组合中包含两个明细度量类型的字段,则对当前字段组合的有效样本求取皮尔逊相关系数,根据求取结果确定当前字段组合的相关度指数。
10.根据权利要求1所述的方法,其特征在于,确定当前字段组合的可读指数,包括:
确定当前字段组合对应的TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个;其中,所述TD去重长度指数用于表征当前字段组合包含的TD类型的字段的实际有效样本去重长度,与针对TD类型字段预设的有效样本去重长度标准值之间的差距;SD去重长度指数用于表征当前字段组合包含的SD类型的字段的实际有效样本去重长度,与针对SD类型字段预设的有效样本去重长度标准值之间的差距;DM去重长度指数用于表征当前字段组合包含的DM类型的字段的实际有效样本长度,与针对DM类型字段预设的有效样本长度标准值之间的差距;
根据所述TD去重长度指数、SD去重长度指数和DM去重长度指数中的至少一个,确定当前字段组合的可读指数。
12.根据权利要求1-11中任一项所述的方法,其特征在于,根据确定的所述指数信息选取至少一个字段组合,包括:
根据各字段组合的指数信息,确定各字段组合的推荐值;
将各字段组合的推荐值进行排序;
根据排序结果选取出推荐值最大的至少一个字段组合。
13.一种图表生成装置,其特征在于,包括:
字段组合获取模块,用于获取针对原始数据表预设的各图表类型分别对应的字段组合;
指数信息确定模块,用于针对各所述字段组合,确定当前字段组合的指数信息,所述指数信息包括频次指数、相关度指数以及可读指数中的至少一个;其中,所述频次指数用于表征对当前字段组合在所述原始数据表中对应的数据记录的历史查询频次和/或对当前字段组合对应的图表类型的图表的历史生成频次;所述相关度指数用于表征当前字段组合所包含字段的相关度;所述可读指数用于表征当前字段组合在所述原始数据表中对应的数据记录的可读性;
图表生成模块,用于根据确定的所述指数信息选取至少一个字段组合,根据所述原始数据表生成选取的所述字段组合对应的图表类型的图表。
14.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的图表生成的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的图表生成的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272941.2A CN113763502B (zh) | 2020-11-13 | 2020-11-13 | 一种图表生成方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011272941.2A CN113763502B (zh) | 2020-11-13 | 2020-11-13 | 一种图表生成方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113763502A true CN113763502A (zh) | 2021-12-07 |
CN113763502B CN113763502B (zh) | 2024-04-16 |
Family
ID=78786015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011272941.2A Active CN113763502B (zh) | 2020-11-13 | 2020-11-13 | 一种图表生成方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113763502B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936310A (zh) * | 2022-05-19 | 2022-08-23 | 南京数睿数据科技有限公司 | 图表显示方法、装置、电子设备和计算机可读介质 |
CN115858893A (zh) * | 2023-03-02 | 2023-03-28 | 极限数据(北京)科技有限公司 | 数据可视化分析方法、装置、电子设备及存储介质 |
CN116089474A (zh) * | 2023-03-07 | 2023-05-09 | 深圳市明源云科技有限公司 | 自定义编辑模式下的数据缓存方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165851A1 (en) * | 2016-12-09 | 2018-06-14 | Dropbox, Inc. | Automated chart generation within a document generation application |
CN109101631A (zh) * | 2018-08-14 | 2018-12-28 | 成都四方伟业软件股份有限公司 | 数据建模方法及装置 |
CN110489449A (zh) * | 2019-07-30 | 2019-11-22 | 北京百分点信息科技有限公司 | 一种图表推荐方法、装置和电子设备 |
CN111797313A (zh) * | 2020-06-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 自学习推荐方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-13 CN CN202011272941.2A patent/CN113763502B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165851A1 (en) * | 2016-12-09 | 2018-06-14 | Dropbox, Inc. | Automated chart generation within a document generation application |
CN109101631A (zh) * | 2018-08-14 | 2018-12-28 | 成都四方伟业软件股份有限公司 | 数据建模方法及装置 |
CN110489449A (zh) * | 2019-07-30 | 2019-11-22 | 北京百分点信息科技有限公司 | 一种图表推荐方法、装置和电子设备 |
CN111797313A (zh) * | 2020-06-23 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 自学习推荐方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
吴小全 等: "DRVisSys:基于属性相关性分析的可视化推荐系统", 《计算机工程与应用》, vol. 54, no. 7, pages 252 - 255 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114936310A (zh) * | 2022-05-19 | 2022-08-23 | 南京数睿数据科技有限公司 | 图表显示方法、装置、电子设备和计算机可读介质 |
CN114936310B (zh) * | 2022-05-19 | 2023-10-27 | 南京数睿数据科技有限公司 | 图表显示方法、装置、电子设备和计算机可读介质 |
CN115858893A (zh) * | 2023-03-02 | 2023-03-28 | 极限数据(北京)科技有限公司 | 数据可视化分析方法、装置、电子设备及存储介质 |
CN116089474A (zh) * | 2023-03-07 | 2023-05-09 | 深圳市明源云科技有限公司 | 自定义编辑模式下的数据缓存方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113763502B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113763502B (zh) | 一种图表生成方法、装置、设备和存储介质 | |
CN109634801B (zh) | 数据趋势分析方法、系统、计算机装置及可读存储介质 | |
US10191968B2 (en) | Automated data analysis | |
WO2021147559A1 (zh) | 业务数据质量检测方法、装置、计算机设备及存储介质 | |
CN113761334A (zh) | 一种可视化推荐方法、装置、设备和存储介质 | |
CN111241123A (zh) | 视图数据查询方法、装置、服务器及存储介质 | |
US11074276B2 (en) | Methods and systems for optimized visual summarization for sequences of temporal event data | |
CN112181490B (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
CN110990445A (zh) | 一种数据处理方法、装置、设备和介质 | |
CN110569289A (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN111460011A (zh) | 页面数据展示方法、装置、服务器及存储介质 | |
CN113987086A (zh) | 数据处理方法、数据处理装置、电子设备以及存储介质 | |
CN113761185A (zh) | 主键提取方法、设备及存储介质 | |
WO2021196457A1 (zh) | 数据相关性分析方法、装置、计算机系统及可读存储介质 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN111523764A (zh) | 业务架构检测方法、装置、工具、电子设备和介质 | |
CN113609407B (zh) | 地区一致性校验方法和装置 | |
CN111652281B (zh) | 信息数据的分类方法、装置及可读存储介质 | |
CN112131296B (zh) | 一种数据探查方法、装置、电子设备和存储介质 | |
CN112115316B (zh) | 一种分箱方法、装置、电子设备及存储介质 | |
CN114385460A (zh) | 数据稳定性的检测方法及装置、存储介质 | |
CN112860652A (zh) | 作业状态预测方法、装置和电子设备 | |
CN113435748A (zh) | 网点状态确定方法、装置、电子设备以及存储介质 | |
CN113496365A (zh) | 一种仓库合并方案确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |