CN108897821B - 自动生成数据结论的方法及装置 - Google Patents
自动生成数据结论的方法及装置 Download PDFInfo
- Publication number
- CN108897821B CN108897821B CN201810642651.9A CN201810642651A CN108897821B CN 108897821 B CN108897821 B CN 108897821B CN 201810642651 A CN201810642651 A CN 201810642651A CN 108897821 B CN108897821 B CN 108897821B
- Authority
- CN
- China
- Prior art keywords
- data
- effective
- dimension
- slave
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种自动生成数据结论的方法及装置,其中,该方法包括:获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,过滤条件包括第一时间段和指标信息;根据分析类型确定预设的分析模板,提取有效数据中与分析模板相关的目标数据,并确定目标数据的维值,目标数据的维值与目标数据的指标信息一一对应;根据图表类型展示目标数据,并根据分析模板和目标数据的维值生成有效数据的数据结论。该方法根据预设的分析模板提取有效数据中的目标数据,进而根据目标数据可以生成有效数据的数据结论。该数据结论可以直接反映有效数据的规律或属性,不需要用户人工分析,方便用户快速准确地得知有效数据的属性信息。
Description
技术领域
本发明涉及数据分析技术领域,特别涉及一种自动生成数据结论的方法及装置。
背景技术
目前,随着互联网技术的广泛应用,会产生大量的数据并被存储至存储器中,用户可以在存储器中查询需要的数据进行分析。
现有借助数据分析工具可以查询存储器中的数据,由于该数据实际为存储的原始数据,当前数据分析工具只是用各式各样的图形展示原始数据的情况;用户在借助数据分析工具时仍然需要对查询结果中的原始数据进行进一步分析,才能从数据中获得有效信息。而由人工分析数据中的规律或总结数据结论的操作繁琐、效率较低,且不能保证准确性。
发明内容
本发明提供一种自动生成数据结论的方法及装置,用以解决现有数据分析过程用户操作繁琐的缺陷。
本发明实施例提供的一种自动生成数据结论的方法,包括:
获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,所述图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,所述分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,所述过滤条件包括第一时间段和指标信息;
根据所述分析类型确定预设的分析模板,提取所述有效数据中与所述分析模板相关的目标数据,并确定所述目标数据的维值,所述目标数据的维值与目标数据的指标信息一一对应;
根据所述图表类型展示所述目标数据,并根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论。
在一种可能的实现方式中,所述根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论包括:
获取所述数据库中第二时间段内的外围数据,所述第二时间段为与所述目标数据的时间段周期性对应的一个时间段;
确定所述外围数据的维值;
根据所述分析模板、所述目标数据的维值和所述外围数据的维值生成所述有效数据的数据结论。
在一种可能的实现方式中,当所述目标数据包含多项数据参数的维值时,所述根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论包括:
将与所述目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数;
统计在所述叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定所述叶子数据参数在不同维度下的目标数据的数量Lj与所述目标数据的总数量N之间的比值Pj,其中,j=1,2,…,n,n为所述叶子数据参数的维度数量;
按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序;
选取维度数量最小的从数据参数临时作为有效从数据参数,统计在所述有效从数据参数的不同维度下的目标数据的数量di,i=1,2,…,m,m为所述有效从数据参数的维度数量;并统计在所述有效从数据参数的不同维度下、所述叶子数据参数不同维度的目标数据的数量dij,j=1,2,…,n;
分别确定所述有效从数据参数的每个维度的指数值,并将指数值最大的维度作为所述有效从数据参数的有效维度,其中,所述有效从数据参数的第i个维度的指数值qi为:
根据所述从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度;
确定所述目标数据的维值信息,所述根据所述分析模板和所述目标数据的维值信息生成所述有效数据的数据结论;所述目标数据的维值信息包括:在所述从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个所述从数据参数的有效维度下、所述叶子数据参数不同维度的主数据参数的维值之和。
在一种可能的实现方式中,在所述根据过滤条件从数据库中获取有效数据之后,该方法还包括:
根据所述有效数据的时间属性截取多个有效数据组,每个有效数据组中有k个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值;
分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和所述时间差ΔT确定所述有效数据的变化趋势。
在一种可能的实现方式中,所述确定每个有效数据组的扩展数据包括:
根据有效数据组B中的有效数据进行依次扩展,确定扩展后的有效数据组C;其中,扩展后的有效数据组C中第a个元素ca=ba,a∈[1,k];且扩展后的有效数据组C中第k+i个元素ck+i为:
根据所述扩展后的有效数据组C确定所述有效数据组B的扩展数据bm:
基于同样的发明构思,本发明实施例还提供一种自动生成数据结论的装置,包括:
获取模块,用于获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,所述图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,所述分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,所述过滤条件包括第一时间段和指标信息;
提取模块,用于根据所述分析类型确定预设的分析模板,提取所述有效数据中与所述分析模板相关的目标数据,并确定所述目标数据的维值,所述目标数据的维值与目标数据的指标信息一一对应;
处理模块,用于根据所述图表类型展示所述目标数据,并根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论。
在一种可能的实现方式中,所述处理模块包括:
获取单元,用于获取所述数据库中第二时间段内的外围数据,所述第二时间段为与所述目标数据的时间段周期性对应的一个时间段;
确定单元,用户确定所述外围数据的维值;
处理单元,用于根据所述分析模板、所述目标数据的维值和所述外围数据的维值生成所述有效数据的数据结论。
在一种可能的实现方式中,当所述目标数据包含多项数据参数的维值时,所述处理模块用于:
将与所述目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数;
统计在所述叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定所述叶子数据参数在不同维度下的目标数据的数量Lj与所述目标数据的总数量N之间的比值Pj,其中,j=1,2,…,n,n为所述叶子数据参数的维度数量;
按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序;
选取维度数量最小的从数据参数临时作为有效从数据参数,统计在所述有效从数据参数的不同维度下的目标数据的数量di,i=1,2,…,m,m为所述有效从数据参数的维度数量;并统计在所述有效从数据参数的不同维度下、所述叶子数据参数不同维度的目标数据的数量dij,j=1,2,…,n;
分别确定所述有效从数据参数的每个维度的指数值,并将指数值最大的维度作为所述有效从数据参数的有效维度,其中,所述有效从数据参数的第i个维度的指数值qi为:
根据所述从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度;
确定所述目标数据的维值信息,所述根据所述分析模板和所述目标数据的维值信息生成所述有效数据的数据结论;所述目标数据的维值信息包括:在所述从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个所述从数据参数的有效维度下、所述叶子数据参数不同维度的主数据参数的维值之和。
在一种可能的实现方式中,该装置还包括变化趋势确定模块;
在所述获取模块根据过滤条件从数据库中获取有效数据之后,所述变化趋势确定模块用于:
根据所述有效数据的时间属性截取多个有效数据组,每个有效数据组中有k个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值;分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和所述时间差ΔT确定所述有效数据的变化趋势。
在一种可能的实现方式中,所述变化趋势确定模块确定每个有效数据组的扩展数据,具体包括:
根据有效数据组B中的有效数据进行依次扩展,确定扩展后的有效数据组C;其中,扩展后的有效数据组C中第a个元素ca=ba,a∈[1,k];且扩展后的有效数据组C中第k+i个元素ck+i为:
根据所述扩展后的有效数据组C确定所述有效数据组B的扩展数据bm:
本发明实施例提供的一种自动生成数据结论的方法及装置,根据预设的分析模板提取有效数据中的目标数据,进而根据目标数据可以生成有效数据的数据结论。该数据结论可以直接反映有效数据的规律或属性,不需要用户人工分析,方便用户快速准确地得知有效数据的属性信息。同时,基于正态分布以及叶子数据参数与从数据参数之间的包含关系确定相似度指标和数量指标的权重,从而使得相似度指标和数量指标处于同一数量级别,当根据相似度指标和数量指标综合确定的指数值时可以更加精确地挖掘从数据参数的有效维值,并利用该有效维值生成更加全面的数据结论;在目标数据量较大时也可以根据数据参数的有效维值来分析数据,生成方便用户了解数据规律的数据结论。扩展数据综合所有有效数据的维值,且不同有效数据的权重值随着时间属性呈二次幂函数增长,使得与最新得到的有效数据之间的相关度更高,在有效数据变化较大时也可以有效保证扩展数据的实时性;同时通过滤波处理可以降低有效数据组内有效数据的变化波动,使得最终确定的变化趋势更加符合有效数据的实际变化情况。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中自动生成数据结论的方法流程图;
图2为本发明实施例中自动生成数据结论的装置的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种自动生成数据结论的方法,参见图1所示,包括步骤101-103:
步骤101:获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,其中,图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,过滤条件包括第一时间段和指标信息。
本发明实施例中,可以根据当前的分析场景自动选择图表类型和分析类型,或者用户也可以自主预先选择图表类型和分析类型,例如,当需要分析同比增长并以柱形图展示数据时,此时的图表类型为柱形图,分析类型即为同比增长分析(同比分析),此时根据分析类型即可确定当前所需的分析模板。同时,数据库中存储有大量用户可能需要的数据,当用户需要某种或某类数据时,用户通过过滤条件即可以从数据库中获取用户所需的有效数据。其中,第一时间段用于限定数据库中数据的生成时间,指标信息为数据的一种或多种属性信息(生成时间本质上也可以当作是一种属性信息),指标信息具体可以为地区名称(比如南京市等)、数据属性(比如金额、数量等)。筛选出的有效数据符合该过滤条件,且有效数据中含有与指标信息相对应的维值(比如:金额为10元等)。
步骤102:根据分析类型确定预设的分析模板,提取有效数据中与分析模板相关的目标数据,并确定目标数据的维值,目标数据的维值与目标数据的指标信息一一对应。
本发明实施例中,根据分析类型即可确定当前所需的分析模板。具体的,预先设置用于分析有效数据的分析模板,且分析模板会包含进一步的筛选条件(比如“最近的1个时间点”等),根据分析模板即可筛选出分析模板所需的目标数据,进一步可确定目标数据所包含的维值,且目标数据的维值与目标数据的指标信息一一对应,即一种指标信息对应一个维值。其中,分析模板中所隐含的筛选条件也可以为“全部”,即所有的有效数据均作为目标数据,具体根据分析模板的实际情况而定。
步骤103:根据图表类型展示目标数据,并根据分析模板和目标数据的维值生成有效数据的数据结论。
本发明实施例中,在确定目标数据的维值后,基于预设的分析模板即可以生成相对应的数据结论,该数据结论可以直接反映有效数据的规律或属性,方便用户快速准确地得知有效数据的属性信息。同时,按照预设的图表类型展示目标数据,方便用户直观地查看原始的目标数据。
具体的,例如,数据库中存储有A公司的所有数据,当后台人员需要得知A公司3月份在南京市的收入金额,则后台人员根据过滤条件(3月份、南京市、收入金额)即可确定有效数据;其中,有效数据共31条,每条有效数据分别对应3月份中一天的收入金额。在以多线图、柱状图或明细表等方式展示有效数据的同时,自动选取与该过滤条件相关的分析模板;若分析模板为分析平均值,则将所有的有效数据均作为目标数据,确定所有目标数据维值(即收入金额)的平均值,并生成平均值的数据结论:3月份南京市的收入金额的平均值为1213元。若分析模板为分析最近1个时间点的数据,则最近1个时间点的数据的有效数据(即3月31日的数据)作为目标数据,并生成相应的数据结论:3月31日南京市的收入金额为1322元。
本发明实施例提供的一种自动生成数据结论的方法,根据预设的分析模板提取有效数据中的目标数据,进而根据目标数据可以生成有效数据的数据结论。该数据结论可以直接反映有效数据的规律或属性,不需要用户人工分析,方便用户快速准确地得知有效数据的属性信息。
本发明另一实施例提供一种自动生成数据结论的方法,该方法包括上述实施例中的步骤101-103,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤103“根据分析模板和目标数据的维值生成有效数据的数据结论”具体包括步骤A1-A3:
步骤A1:获取数据库中第二时间段内的外围数据,第二时间段为与目标数据的时间段周期性对应的一个时间段。
步骤A2:确定外围数据的维值。
步骤A3:根据分析模板、目标数据的维值和外围数据的维值生成有效数据的数据结论。
本发明实施例中,当分析模板所需的数据还需要与该目标数据周期性对应的外围数据时,则从所述数据库中获取相对应的外围数据。具体的,该“周期性对应”的时间段可以是相隔1个月的对应时间段,也可以是相隔1年的对应时间段,具体根据实际情况而定。例如,当前获取的有效数据为A公司2018年3月份在南京市的收入金额,当分析模板为分析3月份的同比增长(1年为一个周期),则此时所有的有效数据均为目标数据,且与目标数据的时间段(2018年3月)相对应的第二时间段为2017年3月;此时从数据库中获取A公司2017年3月份在南京市的收入金额(即外围数据),并确定收入金额的具体值(即外围数据的维值)。之后根据目标数据的维值和外围数据的维值即可以确定3月份的同比增长,即可以生成分析模板对应的数据结论。
在上述实施例的基础上,在有些情况下,用户获取的有效数据会包含多项数据参数,相应的目标数据自然也有同样的多项数据参数,且每项数据参数具有自己的维值。例如,获取的有效数据为3月份的交易记录,则该有效数据中每一条数据可能还包含买家性别、买家年龄、买家所在区域、买家学历、交易金额等多项数据参数,且每项数据参数设有维值,比如卖家性别为男性或女性,买家年龄为25岁等。具体的,当目标数据包含多项数据参数的维值时,步骤103根据分析模板和目标数据的维值生成有效数据的数据结论包括步骤B1-B7:
步骤B1:将与目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数。
本发明实施例中,可以根据目标数据的指标信息与数据参数之间的语义相似度来确定关联度最高的有效数据。例如,指标信息为交易记录,数据参数包括买家性别、买家年龄、买家所在区域、买家学历和交易金额,则可以确定交易记录与交易金额之间的关联度最高。或者,根据数据参数的维值来确定关联度最高的数据参数;例如,将维值是用实数表示的数据参数作为关联度最高的数据参数。同时,每个数据参数具有一个或多个维度,且一般情况下至少有两个维度(例如性别分为男性维度和女性维度);本发明实施例中的“维度”指的是对数据参数的维值进行划分的分组数,且可以根据预设的划分规则对不同的数据参数进行划分。比如,可以将买家年龄分为“0~18岁”、“19~30岁”、“31~50岁”、“50岁以上”四个维度,也可以分为其他类型的维度,具体可以根据实际情况而定。在除主数据参数之外的其他数据参数中,将具有最小维度的数据参数作为叶子数据参数,方便后续确定其他数据参数的有效维度,可以减少计算量。
步骤B2:统计在叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定叶子数据参数在不同维度下的目标数据的数量Lj与目标数据的总数量N之间的比值Pj,其中,j=1,2,…,n,n为叶子数据参数的维度数量。
本发明实施例中,例如叶子数据参数为买家性别,买家性别分为男性和女性两个维度,则n为2,L1可以表示为买家性别为男性的数量,L2可以表示为买家性别为女性的数量。其中,比值Pj为Lj/N。
步骤B3:按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序。
本发明实施例中,对从数据参数进行排序可以方便逐步确定从数据参数的有效维度,且方便之后有序的生成数据结论。具体的,先确定维度数量最小的从数据参数的有效维度,之后按照从数据参数排列顺序依次所有从数据参数的有效维度。确定从数据参数有效维度的过程具体参见下述的步骤B4-B6。其中,若多个从数据参数的维度数量相同,则可以对该多个从数据参数进行随机排列。
步骤B4:选取维度数量最小的从数据参数临时作为有效从数据参数,统计在有效从数据参数的不同维度下的目标数据的数量di,i=1,2,…,m,m为有效从数据参数的维度数量;并统计在有效从数据参数的不同维度下、叶子数据参数不同维度的目标数据的数量dij,j=1,2,…,n。
本发明实施例中,有效从数据参数具有m个维度,此时分别计算该有效从数据参数每个维度下的目标数据的数量。例如,当前的有效从数据参数为买家年龄,且四个维度分为“0~18岁”、“19~30岁”、“31~50岁”、“50岁以上”,则此时确定买家年龄为“0~18岁”的目标数据的数量d1(如交易记录的数量等)、买家年龄为“19~30岁”的目标数据的数量d2等4个数量。同时,在有效从数据参数的一个维度下,还可以分为具有不同维度的叶子数据参数目标数据,例如买家年龄为“19~30岁”的目标数据可以进一步分为男性买家对应的目标数据的数量和女性买家对应的目标数据的数量,即统计买家年龄为“19~30岁”且为男性的目标数据的数量d21,以及统计买家年龄为“19~30岁”且为男性的目标数据的数量d22。
步骤B5:分别确定有效从数据参数的每个维度的指数值,并将指数值最大的维度作为有效从数据参数的有效维度,其中,有效从数据参数的第i个维度的指数值qi为:
本发明实施例中,根据有效从数据参数维度的目标数据的数量di确定该维度的指数值。其中,由于一般情况下目标数据每个维度下的数量分布大体符合正态分布,而标准正态分布的最大概率值为故以为系数可以尽可能地使得保证的最大值在1附近;即使维度的数量分布不符合正态分布,当较大时,说明第i个维度对应的数量样本比较大,其更具有普遍意义,更能体现目标数据的内在规律。
所以,即同时,λ≤1,从而可以保证根据在有效从数据参数的维度下、叶子数据参数不同维度的目标数据的数量占比与总比值Pj之间的相似度指标与有效从数据参数在该维度下数量指标为同一数量级,根据该相似度指标和数量指标可以最终综合确定维度的指数值。其中,调整系数λ可以为固定值,也可以为与m相关的函数式,比如等。
步骤B6:根据从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度。
步骤B7:确定目标数据的维值信息,根据分析模板和目标数据的维值信息生成有效数据的数据结论;目标数据的维值信息包括:在从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和。
本发明实施例中,在选取出从数据参数的有效维度后即可生成相应的维值信息,该维值信息包括:在从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和。例如,主数据参数为交易金额,相应的,主数据参数的位置即为交易金额的具体数值;若从数据参数为买家年龄,买家年龄的有效维度为“19~30岁”,则可确定在从数据参数的有效维度下的主数据参数的维值之和,即买家年龄为“19~30岁”的交易金额的总量。同时,假如叶子数据参数为“买家性别”,其包含两个维度:男性和女性,则在一个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和可以为:买家年龄为“19~30岁”、且买家性别为男性的交易金额的总量为M1,买家年龄为“19~30岁”、且买家性别为女性的交易金额的总量为F1。“在多个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和”表示该维值之和满足多个从数据参数的有效维度;例如,还有个从数据参数“买家学历”的有效维度为“本科”,则在多个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和可以表示为(或者生成的数据结论可以表示为):买家学历为本科、买家年龄为“19~30岁”、且买家性别为男性的交易金额的总量为M2;买家学历为本科、买家年龄为“19~30岁”、且买家性别为女性的交易金额的总量为F2。
本发明实施例中,基于正态分布以及叶子数据参数与从数据参数之间的包含关系确定相似度指标和数量指标的权重,从而使得相似度指标和数量指标处于同一数量级别,当根据相似度指标和数量指标综合确定的指数值时可以更加精确地挖掘从数据参数的有效维值,并利用该有效维值生成更加全面的数据结论;在目标数据量较大时也可以根据数据参数的有效维值来分析数据,生成方便用户了解数据规律的数据结论。
在上述实施例的基础上,在步骤101“根据过滤条件从数据库中获取有效数据”之后,该方法还包括确定有效数据变化趋势的过程,该过程具体包括步骤C1-C2:
步骤C1:根据有效数据的时间属性截取多个有效数据组,每个有效数据组中有k个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值。
本发明实施例中,数据库中存储的数据均具有时间属性,例如存储至数据库中的时间、或者生成该数据的时间等,根据时间属性可以将有效数据的全部或部分分为多个有效数据组。例如,3月份的收入金额包含31条有效数据,所有的有效数据按照3月1日、3月2日等的时间属性依次排列,若预设每个有效数据组中包含10个有效数据(即k=10),则可以截取3月1日至3月10日的10个有效数据作为第一个有效数据组,截取3月11日至3月20日的10个有效数据作为第二个有效数据组,截取3月21日至3月30日的10个有效数据作为第三个有效数据组,最后剩余的3月31日的有效数据忽略不处理。
同时,步骤C1中等时间间隔地截取有效数据组,以保证相邻的两个有效数据组之间的时间差为固定值。其中,有效数据组的时间具体可以为有效数据组中第一个有效数据的时间属性,也可以为最后一个有效数据的时间属性,本实施例对此不做限定,只要不同的有效数据组按照统一标准确定有效数据组的时间即可。如上例,相邻的两个有效数据组之间的时间差为10天。
步骤C2:分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和时间差ΔT确定有效数据的变化趋势。
本发明实施例中,根据每个有效数据组中的所有的有效数据确定一个扩展数据,该扩展数据是表示该有效数据组的一个整体参数,之后基于数理统计根据所有有效数据组的扩展数据和时间差进行曲线拟合处理,进而可以确定扩展数据的变化趋势;由于扩展数据为基于有效数据组得来的,该扩展数据的变化趋势可以用来表示有效数据的变化趋势。通过确定扩展数据,减少了拟合处理时的样本数量,同时扩展数据为有效数据组的一个整体参数,可以有效降低有效数据组内有效数据的变化波动,使得最终确定的变化趋势更加符合有效数据的实际变化情况。
在上述实施例的基础上,步骤C2中“确定每个有效数据组的扩展数据”具体包括步骤C21-C22:
步骤C21:根据有效数据组B中的有效数据进行依次扩展,确定扩展后的有效数据组C;其中,扩展后的有效数据组C中第a个元素ca=ba,a∈[1,k];且扩展后的有效数据组C中第k+i个元素ck+i为:
步骤C22:根据扩展后的有效数据组C确定有效数据组B的扩展数据bm:
本发明实施例中,有效数据组B中包含k个有效数据,依次为b1,b2,…,bk;之后对有效数据组B进行扩展,得到扩展后的有效数据组C。其中,当a∈[1,k]时,扩展后的有效数据组C中第a个元素ca与有效数据组B中的第a个元素ba相同,即扩展后的有效数据组C中的前k个元素与有效数据组B完全相同。扩展后的有效数据组C一共有2k个元素,数据组C中的后k个元素的值具体为:
其中,ck+i为扩展后的有效数据组C中第k+i个元素,c(i+j-1)表示扩展后的有效数据组C中第(i+j-1)个元素,以此类推。本发明实施例中“依次扩展”指的是先扩展得到ck+1,之后扩展得到ck+2,再扩展得到ck+3,……,直至扩展得到所有所需的元素,即得到c2k。即,当确定扩展后的有效数据组C的前k个元素后,首先确定ck+1:
预设k个权重值,且第j个权重值为wj,且j越大,权重值wj越大(j=1,2,…,k),且权重值呈二次幂函数增长,由于有效数据为按照时间属性排列,则时间靠后的有效数据的权重值越大,从而使得扩展后的元素ck+i与时间靠后的有效数据之间的相关度更高。同时,k个权重值之和为:
即k个权重值之和为1,可以使得计算后的扩展元素ck+i尽可能保持之前元素的总体特性,尽量降低扩展处理所带来的误差。
需要说明的是,本发明实施例中的i和j只是用来表示参数的个数,并无实际含义,在不同的式中i和j所表示的含义和取值范围可能会不同,也可用其他字母代替i或j。
本发明实施例中确定的扩展数据综合所有有效数据的维值,且不同有效数据的权重值随着时间属性呈二次幂函数增长,使得与最新得到的有效数据之间的相关度更高,在有效数据变化较大时也可以有效保证扩展数据的实时性;同时通过滤波处理可以降低有效数据组内有效数据的变化波动,使得最终确定的变化趋势更加符合有效数据的实际变化情况。
以上详细介绍了自动生成数据结论的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种自动生成数据结论的装置,参见图2所示,包括:
获取模块21,用于获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,所述分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,过滤条件包括第一时间段和指标信息;
提取模块22,用于根据所述分析类型确定预设的分析模板,提取有效数据中与分析模板相关的目标数据,并确定目标数据的维值,目标数据的维值与目标数据的指标信息一一对应;
处理模块23,用于根据所述图表类型展示所述目标数据,并根据分析模板和目标数据的维值生成有效数据的数据结论。
在上述实施例的基础上,处理模块23包括:
获取单元,用于获取数据库中第二时间段内的外围数据,第二时间段为与目标数据的时间段周期性对应的一个时间段;
确定单元,用户确定外围数据的维值;
处理单元,用于根据分析模板、目标数据的维值和外围数据的维值生成有效数据的数据结论。
在上述实施例的基础上,当目标数据包含多项数据参数的维值时,处理模块23用于:
将与目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数;
统计在叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定叶子数据参数在不同维度下的目标数据的数量Lj与目标数据的总数量N之间的比值Pj,其中,j=1,2,…,n,n为叶子数据参数的维度数量;
按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序;
选取维度数量最小的从数据参数临时作为有效从数据参数,统计在有效从数据参数的不同维度下的目标数据的数量di,i=1,2,…,m,m为有效从数据参数的维度数量;并统计在有效从数据参数的不同维度下、叶子数据参数不同维度的目标数据的数量dij,j=1,2,…,n;
分别确定有效从数据参数的每个维度的指数值,并将指数值最大的维度作为有效从数据参数的有效维度,其中,有效从数据参数的第i个维度的指数值qi为:
根据从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度;
确定目标数据的维值信息,根据分析模板和目标数据的维值信息生成有效数据的数据结论;目标数据的维值信息包括:在从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个从数据参数的有效维度下、叶子数据参数不同维度的主数据参数的维值之和。
在上述实施例的基础上,该装置还包括变化趋势确定模块;
在获取模块根据过滤条件从数据库中获取有效数据之后,变化趋势确定模块用于:
根据有效数据的时间属性截取多个有效数据组,每个有效数据组中有k个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值;分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和时间差ΔT确定有效数据的变化趋势。
在上述实施例的基础上,变化趋势确定模块确定每个有效数据组的扩展数据,具体包括:
根据有效数据组B中的有效数据进行依次扩展,确定扩展后的有效数据组C;其中,扩展后的有效数据组C中第a个元素ca=ba,a∈[1,k];且扩展后的有效数据组C中第k+i个元素ck+i为:
根据扩展后的有效数据组C确定有效数据组B的扩展数据bm:
本发明实施例提供的一种自动生成数据结论的装置,根据预设的分析模板提取有效数据中的目标数据,进而根据目标数据可以生成有效数据的数据结论。该数据结论可以直接反映有效数据的规律或属性,不需要用户人工分析,方便用户快速准确地得知有效数据的属性信息。同时,基于正态分布以及叶子数据参数与从数据参数之间的包含关系确定相似度指标和数量指标的权重,从而使得相似度指标和数量指标处于同一数量级别,当根据相似度指标和数量指标综合确定的指数值时可以更加精确地挖掘从数据参数的有效维值,并利用该有效维值生成更加全面的数据结论;在目标数据量较大时也可以根据数据参数的有效维值来分析数据,生成方便用户了解数据规律的数据结论。扩展数据综合所有有效数据的维值,且不同有效数据的权重值随着时间属性呈二次幂函数增长,使得与最新得到的有效数据之间的相关度更高,在有效数据变化较大时也可以有效保证扩展数据的实时性;同时通过滤波处理可以降低有效数据组内有效数据的变化波动,使得最终确定的变化趋势更加符合有效数据的实际变化情况。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种自动生成数据结论的方法,其特征在于,包括:
获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,所述图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,所述分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,所述过滤条件包括第一时间段和指标信息;
根据所述分析类型确定预设的分析模板,提取所述有效数据中与所述分析模板相关的目标数据,并确定所述目标数据的维值,所述目标数据的维值与目标数据的指标信息一一对应;
根据所述图表类型展示所述目标数据,并根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论;
当所述目标数据包含多项数据参数的维值时,所述根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论包括:
将与所述目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数;
统计在所述叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定所述叶子数据参数在不同维度下的目标数据的数量Lj与所述目标数据的总数量N之间的比值Pj,其中,j=1,2,……n,n为所述叶子数据参数的维度数量;
按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序;
选取维度数量最小的从数据参数临时作为有效从数据参数,统计在所述有效从数据参数的不同维度下的目标数据的数量di,i=1,2,……m,m为所述有效从数据参数的维度数量;并统计在所述有效从数据参数的不同维度下、所述叶子数据参数不同维度的目标数据的数量dij,j=1,2,……n;
分别确定所述有效从数据参数的每个维度的指数值,并将指数值最大的维度作为所述有效从数据参数的有效维度,其中,所述有效从数据参数的第i个维度的指数值qi为:
根据所述从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度;
确定所述目标数据的维值信息,所述根据所述分析模板和所述目标数据的维值信息生成所述有效数据的数据结论;所述目标数据的维值信息包括:在所述从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个所述从数据参数的有效维度下、所述叶子数据参数不同维度的主数据参数的维值之和。
2.根据权利要求1所述的方法,其特征在于,所述根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论包括:
获取所述数据库中第二时间段内的外围数据,所述第二时间段为与所述目标数据的时间段周期性对应的一个时间段;确定所述外围数据的维值;
根据所述分析模板、所述目标数据的维值和所述外围数据的维值生成所述有效数据的数据结论。
3.根据权利要求1所述的方法,其特征在于,在所述根据过滤条件从数据库中获取有效数据之后,还包括:
根据所述有效数据的时间属性截取多个有效数据组,每个有效数据组中有K个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值;分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和所述时间差ΔT确定所述有效数据的变化趋势。
5.一种自动生成数据结论的装置,其特征在于,包括:获取模块,用于获取展示的图表类型和分析类型,并根据过滤条件从数据库中获取所有的有效数据,所述图表类型包括多线图、簇状条形图、簇状柱形图、柱形图-折线图、柱形图、饼状图、汇总表中的一项或多项,所述分析类型包括普通分析、同比分析、环比分析、占比分析、均值分析、排名分析中的一项或多项,所述过滤条件包括第一时间段和指标信息;
提取模块,用于根据所述分析类型确定预设的分析模板,提取所述有效数据中与所述分析模板相关的目标数据,并确定所述目标数据的维值,所述目标数据的维值与目标数据的指标信息一一对应;
处理模块,用于根据所述图表类型展示所述目标数据,并根据所述分析模板和所述目标数据的维值生成所述有效数据的数据结论;
当所述目标数据包含多项数据参数的维值时,所述处理模块用于:
将与所述目标数据关联度最高的数据参数作为主数据参数,将具有最小维度的数据参数作为叶子数据参数,并将其余的数据参数作为从数据参数;
统计在所述叶子数据参数的不同维度下的目标数据的数量Lj,并分别确定所述叶子数据参数在不同维度下的目标数据的数量Lj与所述目标数据的总数量N之间的比值Pj,其中,j=1,2,……n,n为所述叶子数据参数的维度数量;
按照维度数量从小到大的顺序对所有的从数据参数进行排序,确定从数据参数排列顺序;
选取维度数量最小的从数据参数临时作为有效从数据参数,统计在所述有效从数据参数的不同维度下的目标数据的数量di,i=1,2,……m,m为所述有效从数据参数的维度数量;并统计在所述有效从数据参数的不同维度下、所述叶子数据参数不同维度的目标数据的数量dij,j=1,2,……n;
分别确定所述有效从数据参数的每个维度的指数值,并将指数值最大的维度作为所述有效从数据参数的有效维度,其中,所述有效从数据参数的第i个维度的指数值qi为:
根据所述从数据参数排列顺序选取下一个从数据参数临时作为有效从数据参数,并根据上述确定有效维度的步骤再次确定有效从数据参数的有效维度,直至确定所有从数据参数的有效维度;
确定所述目标数据的维值信息,所述根据所述分析模板和所述目标数据的维值信息生成所述有效数据的数据结论;所述目标数据的维值信息包括:在所述从数据参数的有效维度下的主数据参数的维值之和,以及在一个或多个所述从数据参数的有效维度下、所述叶子数据参数不同维度的主数据参数的维值之和。
6.根据权利要求5所述的装置,其特征在于,所述处理模块包括:
获取单元,用于获取所述数据库中第二时间段内的外围数据,所述第二时间段为与所述目标数据的时间段周期性对应的一个时间段;
确定单元,用户确定所述外围数据的维值;
处理单元,用于根据所述分析模板、所述目标数据的维值和所述外围数据的维值生成所述有效数据的数据结论。
7.根据权利要求5所述的装置,其特征在于,还包括变化趋势确定模块;在所述获取模块根据过滤条件从数据库中获取有效数据之后,所述变化趋势确定模块用于:
根据所述有效数据的时间属性截取多个有效数据组,每个有效数据组中有K个按照时间属性依次排列的有效数据,且相邻的两个有效数据组之间的时间差ΔT为固定值;分别确定每个有效数据组的扩展数据,根据每个有效数据组的扩展数据和所述时间差ΔT确定所述有效数据的变化趋势。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810642651.9A CN108897821B (zh) | 2018-06-21 | 2018-06-21 | 自动生成数据结论的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810642651.9A CN108897821B (zh) | 2018-06-21 | 2018-06-21 | 自动生成数据结论的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108897821A CN108897821A (zh) | 2018-11-27 |
CN108897821B true CN108897821B (zh) | 2020-07-14 |
Family
ID=64345749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810642651.9A Active CN108897821B (zh) | 2018-06-21 | 2018-06-21 | 自动生成数据结论的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108897821B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110403582B (zh) * | 2019-07-23 | 2021-12-03 | 宏人仁医医疗器械设备(东莞)有限公司 | 一种用于分析脉波波形品质的方法 |
CN112069167A (zh) * | 2020-07-21 | 2020-12-11 | 中国东方红卫星股份有限公司 | 一种财务健康诊断系统 |
CN112035558A (zh) * | 2020-09-07 | 2020-12-04 | 中电工业互联网有限公司 | 一种产业链统计图表生成系统及方法 |
CN113836294A (zh) * | 2021-09-27 | 2021-12-24 | 安徽省财政信息中心 | 一种数据可视化展示系统及其方法 |
CN117422573A (zh) * | 2023-10-30 | 2024-01-19 | 广州金财智链数字科技有限公司 | 基于动态神经网络的财税数据预测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326482A (zh) * | 2016-08-31 | 2017-01-11 | 江苏中威科技软件系统有限公司 | 一种大数据可视化采集分析及文件转换系统和方法 |
CN106649773A (zh) * | 2016-12-27 | 2017-05-10 | 北京大数有容科技有限公司 | 一种大数据协同分析工具平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348885B2 (en) * | 2014-02-04 | 2016-05-24 | Adobe Systems Incorporated | System and method for ranking and selecting data features |
-
2018
- 2018-06-21 CN CN201810642651.9A patent/CN108897821B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326482A (zh) * | 2016-08-31 | 2017-01-11 | 江苏中威科技软件系统有限公司 | 一种大数据可视化采集分析及文件转换系统和方法 |
CN106649773A (zh) * | 2016-12-27 | 2017-05-10 | 北京大数有容科技有限公司 | 一种大数据协同分析工具平台 |
Also Published As
Publication number | Publication date |
---|---|
CN108897821A (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108897821B (zh) | 自动生成数据结论的方法及装置 | |
CN107122467B (zh) | 一种搜索引擎的检索结果评价方法及装置、计算机可读介质 | |
CN110363387A (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
Jasilioniene et al. | Methods protocol for the human fertility database | |
CN106997493A (zh) | 基于多维度数据的彩票用户流失预测方法及其系统 | |
CN110299209B (zh) | 相似病历查找方法、装置、设备及可读存储介质 | |
US20190065550A1 (en) | Query optimizer for combined structured and unstructured data records | |
KR101868729B1 (ko) | 리소스조합 처리방법, 장치, 설비 및 컴퓨터 저장매체 | |
CN111177200A (zh) | 一种数据处理系统及方法 | |
WO2019041764A1 (zh) | 团体保费评估的方法、装置、计算机设备及存储介质 | |
Ozturk | Two-stage cluster samples with ranked set sampling designs | |
US20110093477A1 (en) | Method for estimation of order-based statistics on slowly changing distributions | |
CN107103065B (zh) | 基于用户行为的信息推荐方法及装置 | |
CN107122395B (zh) | 数据抽样方法和装置 | |
CN107203496B (zh) | 粮食分配抽样方法及装置 | |
CN108710635A (zh) | 一种内容推荐方法及装置 | |
CN109462635B (zh) | 一种信息推送方法、计算机可读存储介质及服务器 | |
Sousa et al. | Cluster analysis using affinity aoefficient in order to identify religious beliefs profiles | |
US8156127B1 (en) | Method and system for data arbitration | |
CN111027599A (zh) | 基于随机抽样的聚类可视化方法及装置 | |
US20230196485A1 (en) | After-repair value ("arv") estimator for real estate properties | |
CN110413967B (zh) | 对账图表生成方法、装置、计算机设备以及存储介质 | |
CN110377592B (zh) | 定量变量到虚拟变量的数据预处理方法、装置及终端设备 | |
CN107678841B (zh) | 控制承保处理的方法、装置、计算机设备及存储介质 | |
CN109241404B (zh) | 一种信息分享方法、计算机可读存储介质及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |