CN109214840A - 一种数据相关性分析方法及装置 - Google Patents
一种数据相关性分析方法及装置 Download PDFInfo
- Publication number
- CN109214840A CN109214840A CN201710525213.XA CN201710525213A CN109214840A CN 109214840 A CN109214840 A CN 109214840A CN 201710525213 A CN201710525213 A CN 201710525213A CN 109214840 A CN109214840 A CN 109214840A
- Authority
- CN
- China
- Prior art keywords
- measurement
- data subset
- dimension
- fit line
- under
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Length Measuring Devices With Unspecified Measuring Means (AREA)
Abstract
本申请涉及数据分析技术领域,尤其涉及一种数据相关性分析方法及装置,为解决现有技术存在的只能依靠人工方式进行数据相关性分析的问题,该方法为,将多维数据集以维度为单位划分为若干数据子集,一个数据子集对应一个维度,且一个数据子集在相应维度下包含若干度量,并计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,以及基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,这样,无需人工干预,多维数据集中每一个维度下的每一个度量对,都会被进行相关性分析,而且避免了重复繁琐的人工作业,有效提高了作业效率,降低了分析成本。
Description
技术领域
本申请涉及数据分析技术领域,尤其涉及一种数据相关性分析方法及装置。
背景技术
商业数字化的今天,越来越多的公司开始倡导“用数据说话”,利用数据分析来帮助公司进行商务运营和制定决策,其中,相关性提取就是最常见的一种数据分析方式。
现有技术下,通常是通过专业数据分析师,以人工方式提取数据集中具有相关性的数据,以销售类数据为例,销售量越多,销售额也就越高,即可确定销售量和销售额之间存在一定的相关性,经过人工分析,确定销售量和销售额之间呈正相关。
然而,对于多维数据集来说,继续采用人工方式,从多维数据集中逐一筛选具有相关性的数据子集,工作量太大,而且容易遗漏,显然是不可取的。
有鉴于此,需要设计一种新的多维数据集相关性分析方法以克服上述缺陷。
发明内容
本申请实施例提供一种数据相关性分析方法及装置,用以解决现有技术中存在的只能依靠人工方式进行数据相关性分析的问题。
本申请实施例提供的具体技术方案如下:
第一方面,一种数据相关性分析方法,包括:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
可选的,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,包括:
分别将至少一个数据子集中的每两个度量确定为一个度量对;
针对至少一个数据子集的至少一个度量对执行以下操作:
基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。
可选的,分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,进一步包括:
分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;
筛选出所得相关系数大于设定阈值的度量对。
可选的,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,包括:
分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;
以所述一个度量对包含的两个度量中的任一个度量为横轴,另一个度量为纵轴,基于所述度量对中包含的两个度量各自对应的度量均值和度量标准差,确定所述度量对相应的线性关系;
基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量;
基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。
可选的,确定所述度量对相应的线性关系之后,基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量之前,进一步包括:
基于横轴上对应的度量的度量均值的数量级,以及基于纵轴上对应的度量的度量均值的数量级,选取合适的坐标单位;
基于所述坐标单位,分别确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数;
分别基于横轴上对应的度量的所述缩放倍数和纵轴上对应的度量的所述缩放倍数,对所述线性关系进行等比例的调整。
可选的,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性,包括:
若拟合线的斜率大于零,则在所述维度下所述度量对中两个度量之间呈正相关;
若拟合线的斜率小于零,则在所述维度下所述度量对中两个度量之间呈负相关。
可选的,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
从所述度量对所属的数据子集中,提取所述度量对中每一个度量的名称,以及提取所述数据子集对应的维度的名称,作为相关性组合,记录在相应的存储区域内。
可选的,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
从所述度量对所属的数据子集中,提取出所述度量对中每一个度量在相应维度的至少一个维度取值下的各个度量取值;
基于所述拟合线对应的坐标系,确定所述度量对在相应维度下的各个坐标点;
基于所述各个坐标点,确定所述度量对在相应维度下的散点图,所述散点图用于验证所述拟合线的正确性。
可选的,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
将确定的至少一个度量对对应的相关性展示给用户;
接收用户指示,并基于用户指示,筛选出满足所述用户指示的度量对对应的相关性,和/或,对用户指定的度量对对应的相关性进行调整。
第二方面,一种数据相关性分析装置,包括:
数据拆分单元,用于以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
确定单元,用于计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,并基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
第三方面,一种存储介质,存储有用于对数据相关性分析的程序,所述程序被处理器运行时,执行以下步骤:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
第四方面,一种通信装置,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述第一方面中任一项所述的方法。
第五方面,一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被一个或多个处理器执行时,使得通信设备执行上述第一方面中任一项所述的方法。
本申请实施例中,通过将多维数据集以维度为单位划分为若干数据子集,一个数据子集对应一个维度,且一个数据子集在相应维度下包含若干度量,并计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,以及基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,这样,无需人工干预,多维数据集中每一个维度下的每一个度量对,都会被进行相关性分析,而且避免了重复繁琐的人工作业,有效提高了作业效率,降低了分析成本。
附图说明
图1为本申请实施例中第一种数据相关性分析方法流程图;
图2为本申请实施例中示例数据子集a的示意图;
图3为本申请实施例中确定一个度量对对应的拟合线的方法流程图;
图4为本申请实施例中示例数据子集a计算所得的度量最小值、度量最大值、度量均值和度量标准差的示意图;
图5为本申请实施例中示例拟合线示意图;
图6为本申请实施例中示例散点图的示意图;
图7为本申请实施例中第二种数据相关性分析方法流程图;
图8为本申请实施例中数据相关性分析装置结构示意图。
具体实施方式
为了解决现有技术中存在的只能依靠人工方式进行数据相关性分析的问题,本申请实施例中,重新设计了一种数据相关性分析方法,该方法为,首先,以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量,然后,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,并基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例介绍的技术方案,现给出部分术语的定义:
维度:是指观察数据的角度,例如,“销售时间”、“销售地点”、“产品”;
度量:是指具体考察的参数,例如,“销售数量”和“销售金额”。
下面将通过具体实施例对本申请的方案进行详细描述,当然,本申请并不限于以下实施例。
参阅图1所示,本申请实施例中,数据相关性分析方法流程图如下:
步骤100:获取待分析的多维数据集。
具体的,先确定待分析的多维数据集,本申请实施例中,多维数据集可以是多维数据表,其中,在多维数据表中,可将行确定为维度,可将列确定为度量,以销售类数据为例,具体参见表1。
表1
由表1可知,示例1中的多维数据集X为3维数据集,上述3个维度分别为“发货日期、销售区域和产品名称”,且一个维度下对应4个度量,上述4个度量分别为“销售量、销售额、折扣和收益”。
当然,本申请实施例中,多维数据集并不只限定于多维数据表,还可以是多维数组、多维矩阵等等,无论何种形式,只要确定了观察数据的角度和具体观察的参数,就可确定维度和度量。
步骤110:以维度为单位将多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量。
具体的,本申请实施例中,为了便于分析同一维度下的两个度量之间的相关性,先将获取的多维数据集以维度为单位,划分为若干个数据子集,其中,一个数据子集对应一个维度,且一个数据子集在相应维度下包含了若干个度量。
例如,参阅图2所示,从多维数据集X中,将维度为“发货日期(deliver_goods_date)”下所有的度量确定为一个数据子集a,其中,所有度量包括“销售额(sales_amount)、销售量(amount)、折扣(discount)和收益(profit)”。
又例如,参阅表2所示,从多维数据集X中,将维度为“销售区域”下“销售量、销售额和收益”确定为一个数据子集b。
表2
销售区域 | 销售量 | 销售额 | 收益 |
华东区 | 5000 | 50000 | 10000 |
东北区 | 2000 | 20000 | 4000 |
华中区 | 4600 | 46000 | 9200 |
西南区 | 1900 | 19000 | 3800 |
步骤120:分别将至少一个数据子集中的每两个度量确定为一个度量对。
具体的,确定多维数据集对应的若干数据子集后,针对至少一个数据子集均执行以下操作:将一个数据子集中每两个度量确定为一个度量对。
例如,以上述示例中的数据子集a为例,数据子集a中共包含4个度量,分别将“销售额和销售量”、“销售额与折扣”、“销售额与收益”、“销售量与折扣”、“销售量与收益”、“折扣与收益”确定为度量对,即,数据子集a中确定存在6个度量对。
又例如,以上述示例中的数据子集b为例,数据子集b中共包含了3个度量,分别将“销售额和销售量”、“销售额与收益”和“销售量与收益”确定为度量对,即,数据子集b中确定存在4个度量对。
步骤130:分别计算至少一个数据子集中至少一个度量对中两个度量之间的相关系数,并筛选出相关系数大于设定阈值的度量对。
具体的,确定至少一个数据子集包含的度量对后,分别针对至少一个数据子集中的至少一个度量对执行以下操作:计算一个度量对中两个度量之间的相关系数,其中,一个度量对中两个度量之间的相关系数,是基于两个度量各自的各个度量取值确定的,如,通过两个度量的各个度量取值的均值、方差值等等,来计算两个度量之间的相关系数。
例如,本申请实施例中,可以采用pai算法计算一个度量对中两个度量之间的相关系数,其中,相关系数(又可称皮尔逊相关系数,或者,皮尔逊积矩相关系数,以下均称相关系数),它描述了两个定距变量间联系的紧密程度。
较佳的,本申请实施例中,采用以下公式获得n个样本量中变量X和变量Y的相关系数r:
其中,Xi和分别表示变量X的观测值和均值,Yi和分别表示变量Y的观测值和均值,r描述的是两个变量间线性相关强弱的程度,且,r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r的绝对值越大表明相关性越强。
例如,仍以上述示例中的数据子集b为说明,假设采用pai算法,确定数据子集b中的度量对1“销售额和销售量”的相关系数为0.9、确定度量对2“销售额与收益”的相关系数为0.6,以及确定度量对3“销售量与收益”的相关系数为0.7。
当然,采用pai算法计算两个度量之间的相关系数,仅仅是本申请的一种实施方式,实际应用时,并不限定于上述方式,还可以采用其它方式确定两个度量之间的紧密程度,即可确定上述两个度量之间的相关系数。
进一步地,确定至少一个数据子集中至少一个度量对中两个度量之间的相关系数后,对上述至少一个数据子集中的至少一个度量对进行初步筛选,以筛选出相关系数大于设定阈值的度量对,并将筛选出的度量对作为下一步分析的对象,当然,在进行初步筛选时,对于所得相关系数无意义的度量对,也予以剔除。
例如,仍以上述示例中的数据子集b为说明,假设阈值设定为0.8,由于数据子集b中的度量对1所得相关系数为0.9,因此,经初步筛选,确定数据子集b中的度量对1“销售额和销售量”为下一步分析对象。
当然,本申请实施例中,仅以阈值为0.8进行说明,实际运用时可根据实际情况进行设定,或者,可以根据大量样本训练后所得的训练结果进行设定,这里不做限定。
步骤140:针对至少一个数据子集的筛选出的至少一个度量对执行以下操作:基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,并基于该拟合线确定在该维度下该度量对中两个度量之间的相关性。
具体的,完成至少一个数据子集中度量对的初步筛选后,针对筛选出的至少一个度量对执行以下操作:确定度量对的各个度量,在相应维度的至少一个维度取值下的各个度量取值,并基于各个度量取值,确定对应的拟合线,以及基于该拟合线,确定在该维度下该度量对中两个度量之间的相关性,其中,一个度量对中,基于两个度量的各个度量取值,选取合适的直线方程以分析两个度量之间的线性关系,上述合适的直线方程即为拟合线。
例如,继续以数据子集b进行说明,在上一步骤中,确定数据子集b的度量对1“销售额和销售量”的相关系数满足设定阈值,即,对度量对1中的“销售额”和“销售量”在“销售区域”维度下进行相关性分析,首先,查表2可知,数据子集b对应的维度“销售区域”下共有4个维度取值,分别为“华东区、东北区、华中区和西南区”,然后,分别确定“华东区”、“东北区”、“华中区”和“西南区”4个维度取值各自对应的“销售额”和“销售量”的度量取值,查表2可知,“华东区”对应的“销售额”和“销售量”的度量取值分别为“50000”和“5000”,“东北区”对应的“销售额”和“销售量”的度量取值分别为“20000”和“2000”,“华中区”对应的“销售额”和“销售量”的度量取值分别为“46000”和“4600”,“西南区”对应的“销售额”和“销售量”的度量取值分别为“19000”和“1900”,然后,基于上述8个度量取值,确定销售额”和“销售量”之间的拟合线。
当然,本申请实施例中,若每一个数据子集的每一个度量对中的两个度量已知具有相关性,则无需对每一个数据子集的每一个度量对进行初步筛选,而是直接基于至少一个数据子集的至少一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定每一个度量对各自对应的拟合线。
进一步地,参阅图3所示,本申请实施例中,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线的方法流程图如下:
步骤1400:针对一个度量对中的每一个度量执行以下操作:分别计算一个度量在相应维度下各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差。
具体的,针对一个数据子集的一个度量对中的每一个度量均执行以下操作:计算上述一个度量在相应维度下各个度量取值对应的度量最大值,以及计算上述一个度量在相应维度下各个度量取值对应的度量最小值,以及计算上述一个度量在相应维度下各个度量取值对应的度量均值,以及计算上述一个度量在相应维度下各个度量取值对应的度量标准差。
例如,参阅图2所示,以数据子集a中的度量对1“销售额与销售量”为例,数据子集a对应的维度为“发货日期”,“销售额”在12个发货日期下有12个度量取值,“销售量”在12个发货日期下也有12个度量取值,经计算可知,“销售额”对应的度量最大值(max)为“71639.400…”,度量最小值(min)为“41.3”,度量方差(mean)为“11799.083…”,度量标准差(standard deviation)为“10942.656…”,“销售量”对应的度量最大值(max)为“121”,度量最小值(min)为“1”,度量方差(mean)为“27.580…”,度量标准差(standard deviation)为“20.346…”,具体参阅图4所示。
步骤1401:以一个度量对中任一个度量为横轴,另一个度量为纵轴,并基于该度量对中两个度量对应的度量均值和度量标准差,确定该度量对相应的线性关系。
具体的,确定一个数据子集中一个度量对中每一个度量对应的度量最大值、度量最小值、度量均值和度量标准差之后,以上述一个度量对中任一个度量为横轴,另一个度量为纵轴,并基于获得的各个度量对应的度量均值和度量标准差,确定上述度量对相应的线性关系。
较佳的,本申请实施例中,采用以下公式表示一个度量对中两个度量之间的线性关系:y=ax+b,其中,x表示横轴,y表示纵轴。
较佳的,本申请实施例中,基于获得的一个度量对的两个度量对各自对应的度量均值和度量标准差,确定上述线性关系中的未知量a和未知量b:
b=y度量均值-a*x度量均值
其中,r表示为相关系数设定的阈值。
例如,仍以上述示例中所得的数据子集a的度量对1进行说明,假设以销售量为横轴,以销售额为纵轴,可知:
a=0.8044136894538854*(10942.6562207705/20.34671346269381)=432.6213409902
b=11799.08362884335-432.6213409902*27.5805270863836=132.840984486566
进而,确定数据子集a的度量对1中“销售额”和“销售量”之间的线性关系可表示为:y=432.6213409902x+132.840984486566。
步骤1402:基于已确定的线性关系,分别以该度量对中作为横轴的度量,对应的度量最小值和度量最大值为横轴已知量,确定对应的纵轴已知量。
具体的,确定一个数据子集中一个度量对的两个度量之间的线性关系之后,在分别以上述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定对应的纵轴已知量之前,为避免因坐标轴(纵轴和横轴)上的坐标单位选择过小,而导致坐标点集中在纵轴上或横轴上,使得无法判断两个度量之间的相关性,需根据实际情况对坐标单位进行调整。
进一步地,先选取合适的坐标单位,其中,坐标单位的数量级与坐标轴上的对应的度量的度量均值的数量级相同,即,纵轴坐标单位的数量级与纵轴对应的度量的度量均值的数量级相同,横轴坐标单位的数量级与横轴对应的度量的度量均值的数量级相同。
然后,基于坐标单位,确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数,对线性关系等比例的调整。
较佳的,本申请实施例中,采用以下公式对上述线性关系中的a和b进行调整,以获得调整后的a’和b’:
b'=b*fy
其中,fy表示纵轴对应的度量的缩放倍数,fx表示横轴对应的度量的缩放倍数。
例如,假设横轴对应的坐标单位的数量级由“个位”调整为“千位”,则相当于横轴对应的度量的度量取值缩小了1000倍,即,fx为0.001。
又例如,假设纵轴对应的坐标单位的数量级由“万位”调整为“十位”,则相当于纵轴对应的度量的度量取值放大了1000倍,即,fy为1000。
较佳的,本申请实施例中,采用以下公式表示一个度量对中两个度量之间调整后的线性关系:y'=a'x'+b',其中,x’表示横轴,y’表示纵轴。
进一步地,基于调整后的线性关系,分别以一个度量对中作为横轴的度量,对应的度量最小值和度量最大值为横轴已知量,确定对应的纵轴已知量。
例如,为便于理解,假设数据子集a中度量对1中两个度量之间,未调整之前的线性关系表达式为:y=x+5,且横轴上对应的销售量的最小值为1,最大值为10,经判断,上述线性关系无需做调整,则将上述最大值和最小值作为上述线性关系表达式中横轴已知量,获得纵轴已知量对应的最小值6,最大值为15。
又例如,为便于理解,假设数据子集a中度量对1中两个度量之间,未调整之前的线性关系表达式为:y=x+50000,且横轴上对应的销售量的最小值为1,最大值为10,经判断,上述线性关系会因截距b的值过大,而与横轴保持水平,使得后续基于该线性关系获得的拟合线无法判断两个度量之间的相关性,因此,对该线性关系表达式进行相应调整,具体的,将纵轴对应的度量的度量取值缩小10000倍,将横轴对应的度量的度量取值放大10000倍,即,fy为0.0001,fx为10000,使得调整后的线性关系表达式为:y'=x'+50000,将上述横轴上对应的销售量的最大值和最小值作为上述线性关系表达式中横轴已知量,获得纵轴已知量对应的最小值为1.0005,最大值10.0005。
步骤1403:基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。
具体的,基于确定的一组最小值横轴已知量和最小值纵轴已知量,以及一组最大值横轴已知量和最大值纵轴已知量,确定对应的拟合线。
例如,仍以上述示例进行说明,若确定的一组最小值横轴已知量和最小值纵轴已知量为“(1,6)”,确定的一组最大值横轴已知量和最大值纵轴已知量为“(5,10)”,则可基于“两点确定一线”定理确定对应的拟合线,具体参阅图5所示。
至此,基于一个数据子集的一个度量对中的每一个度量,在相应维度的每一个维度取值下的各个度量取值,确定对应的拟合线后,可根据拟合线的走势判断上述两个度量之间的相关性,即,若拟合线的斜率大于零,则在对应维度下度量对中两个度量之间呈正相关,若拟合线的斜率小于零,则在对应维度下度量对中两个度量之间呈负相关。
例如,继续以上述示例进行说明,由图5可知,销售量与销售额之间为正相关,即,销售量越高,销售额越高。
当然,本申请实施例中,确定一个数据子集的一个度量对中的两个度量在相应维度下的拟合线后,还可从上述数据子集中,提取出上述度量对中每一个度量在相应维度的每一个维度取值下的各个度量值,然后,以拟合线对应的坐标系,确定上述度量对在相应维度下的各个坐标点,接着,基于各个坐标点确定对应的散点图,以进一步验证上述确定的拟合线是否正确。
例如,参阅图6所示,直线表示在维度“发货日期(deliver_goods_date)”下度量对Y中的度量“销售额(sales_amount)”和度量“销售量(amount)”之间的拟合线,黑点表示坐标点,可以看出,坐标点组成的散点图的走势基本与拟合线的走势一致,即可判定拟合线基本正确_。
当然,本申请实施例中,对于确定某一度量对中的两个度量在相应维度下存在相关性时,从对应的数据子集中,提取上述度量对中两个度量的名称,和上述数据子集对应的维度的名称,作为相关性组合,记录在相应的存储区域内,如,“(发货时间,销售量,销售额)”,以便后续在判断新的数据子集包含的度量对的度量间是否具有相关性时,一旦发现存在与存储区域记录的相关性组合的组合内容,则直接确定其线性关系,无需再计算其相关系数进行初步筛选。
本申请实施例中,确定各个度量对对应的相关性后,将至少一个度量对对应的相关性展示给用户,并接收用户指示,以及基于用户指示,筛选出满足用户指示的度量对对应的相关性,或者,对用户指定的度量对(如,与实际不符的度量对)对应的相关性,根据用户指示基于用户的实际经验或专业知识进行调整。
基于上述实施例,参阅图7所示,本申请实施例中,一种数据相关性分析方法如下:
步骤700:以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量。
步骤710:计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
步骤720:基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
基于上述实施例,参阅图8所示,本申请实施例中,数据相关性分析装置,至少包括数据拆分单元80和确定单元81,其中,
数据拆分单元80,用于以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
确定单元81,用于计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,并基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
可选的,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性时,所述确定单元81用于:
分别将至少一个数据子集中的每两个度量确定为一个度量对;
针对至少一个数据子集的至少一个度量对执行以下操作:
基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。
可选的,所述确定单元81还用于:
分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,执行以下操作:
分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;
筛选出所得相关系数大于设定阈值的度量对。
可选的,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线时,所述确定单元81用于:
分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;
以所述一个度量对包含的两个度量中的任一个度量为横轴,另一个度量为纵轴,基于所述度量对中包含的两个度量各自对应的度量均值和度量标准差,确定所述度量对相应的线性关系;
基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量;
基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。
可选的,所述确定单元81还用于:
确定所述度量对相应的线性关系之后,基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量之前,执行以下操作:
基于横轴上对应的度量的度量均值的数量级,以及基于纵轴上对应的度量的度量均值的数量级,选取合适的坐标单位;
基于所述坐标单位,分别确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数;
分别基于横轴上对应的度量的所述缩放倍数和纵轴上对应的度量的所述缩放倍数,对所述线性关系进行等比例的调整。
可选的,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性时,所述确定单元81用于:
若拟合线的斜率大于零,则在所述维度下所述度量对中两个度量之间呈正相关;
若拟合线的斜率小于零,则在所述维度下所述度量对中两个度量之间呈负相关。
可选的,所述装置还包括存储单元82,所述存储单元82用于:
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,执行以下操作:
从所述度量对所属的数据子集中,提取所述度量对中每一个度量的名称,以及提取所述数据子集对应的维度的名称,作为相关性组合,记录在相应的存储区域内。
可选的,所述装置还包括验证单元83,所述验证单元83用于:
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,执行以下操作:
从所述度量对所属的数据子集中,提取出所述度量对中每一个度量在相应维度的至少一个维度取值下的各个度量取值;
基于所述拟合线对应的坐标系,确定所述度量对在相应维度下的各个坐标点;
基于所述各个坐标点,确定所述度量对在相应维度下的散点图,所述散点图用于验证所述拟合线的正确性。
可选的,所述装置还包括展示单元84,所述展示单元84用于:
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,执行以下操作:
将确定的至少一个度量对对应的相关性展示给用户;
接收用户指示,并基于用户指示,筛选出满足所述用户指示的度量对对应的相关性,和/或,对用户指定的度量对对应的相关性进行调整。
综上所述,本申请实施例中,通过将多维数据集以维度为单位划分为若干数据子集,一个数据子集在相应维度下包含若干度量,并将至少一个数据子集中每两个度量确定为一个度量对,然后,分别计算至少一个数据子集中至少一个度量对中两个度量之间的相关系数,并筛选出所得相关系数大于设定阈值的度量对,针对筛选出的至少一个度量对执行以下操作:基于包含的每一个度量在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,然后,基于上述拟合线确定在相应维度下上述度量对中两个度量之间的相关性,这样,无需人工干预,面对海量的多维数据集,可以从中及时且准确的筛选出相关性高的度量对,而且还能对度量对中包含的两个度量之间的相关性进行准确分析,有助于用户基于分析结果,及时调整自己的业务方向,同时,避免了重复繁琐的人工作业,有效提高了作业效率,降低了分析成本。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (13)
1.一种数据相关性分析方法,其特征在于,包括:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
2.如权利要求1所述的方法,其特征在于,计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性,包括:
分别将至少一个数据子集中的每两个度量确定为一个度量对;
针对至少一个数据子集的至少一个度量对执行以下操作:
基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线;
基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性。
3.如权利要求2所述的方法,其特征在于,分别将至少一个数据子集中的每两个度量确定为一个度量对之后,针对至少一个数据子集的至少一个度量对执行以下操作之前,进一步包括:
分别计算所述至少一个数据子集中至少一个度量对中两个度量之间的相关系数;
筛选出所得相关系数大于设定阈值的度量对。
4.如权利要求1、2或3所述的方法,其特征在于,基于一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值,确定对应的拟合线,包括:
分别计算一个数据子集的一个度量对中的每一个度量,在相应维度的至少一个维度取值下的各个度量取值对应的度量最大值、度量最小值、度量均值和度量标准差;
以所述一个度量对包含的两个度量中的任一个度量为横轴,另一个度量为纵轴,基于所述度量对中包含的两个度量各自对应的度量均值和度量标准差,确定所述度量对相应的线性关系;
基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量;
基于确定的两组横轴已知量和纵轴已知量,确定对应的拟合线。
5.如权利要求4所述的方法,其特征在于,确定所述度量对相应的线性关系之后,基于所述线性关系,分别以所述度量对中作为横轴的度量对应的度量最小值和度量最大值为横轴已知量,确定所述度量对对应的纵轴已知量之前,进一步包括:
基于横轴上对应的度量的度量均值的数量级,以及基于纵轴上对应的度量的度量均值的数量级,选取合适的坐标单位;
基于所述坐标单位,分别确定横轴上对应的度量的缩放倍数和纵轴上对应的度量的缩放倍数;
分别基于横轴上对应的度量的所述缩放倍数和纵轴上对应的度量的所述缩放倍数,对所述线性关系进行等比例的调整。
6.如权利要求2所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性,包括:
若拟合线的斜率大于零,则在所述维度下所述度量对中两个度量之间呈正相关;
若拟合线的斜率小于零,则在所述维度下所述度量对中两个度量之间呈负相关。
7.如权利要求6所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
从所述度量对所属的数据子集中,提取所述度量对中每一个度量的名称,以及提取所述数据子集对应的维度的名称,作为相关性组合,记录在相应的存储区域内。
8.如权利要求6所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
从所述度量对所属的数据子集中,提取出所述度量对中每一个度量在相应维度的至少一个维度取值下的各个度量取值;
基于所述拟合线对应的坐标系,确定所述度量对在相应维度下的各个坐标点;
基于所述各个坐标点,确定所述度量对在相应维度下的散点图,所述散点图用于验证所述拟合线的正确性。
9.如权利要求6所述的方法,其特征在于,基于所述拟合线确定在所述维度下所述度量对中两个度量之间的相关性之后,进一步包括:
将确定的至少一个度量对对应的相关性展示给用户;
接收用户指示,并基于用户指示,筛选出满足所述用户指示的度量对对应的相关性,和/或,对用户指定的度量对对应的相关性进行调整。
10.一种数据相关性分析装置,其特征在于,包括:
数据拆分单元,用于以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
确定单元,用于计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线,并基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
11.一种存储介质,其特征在于,存储有用于对数据相关性分析的程序,所述程序被处理器运行时,执行以下步骤:
以维度为单位将待分析的多维数据集划分为若干数据子集,其中,一个数据子集对应一个维度,一个数据子集在相应维度下包含若干度量;
计算得到至少一个数据子集中至少一个度量对在相应维度下的拟合线;
基于得到的拟合线确定至少一个数据子集中的至少一个度量对对应的两个度量在相应维度下的相关性。
12.一种通信装置,其特征在于,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至9中任一项所述的方法。
13.一个或多个计算机可读介质,其特征在于,所述可读介质上存储有指令,所述指令被一个或多个处理器执行时,使得通信设备执行如权利要求1至9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710525213.XA CN109214840A (zh) | 2017-06-30 | 2017-06-30 | 一种数据相关性分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710525213.XA CN109214840A (zh) | 2017-06-30 | 2017-06-30 | 一种数据相关性分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109214840A true CN109214840A (zh) | 2019-01-15 |
Family
ID=64977228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710525213.XA Pending CN109214840A (zh) | 2017-06-30 | 2017-06-30 | 一种数据相关性分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214840A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004768A (zh) * | 2009-08-31 | 2011-04-06 | 埃森哲环球服务有限公司 | 自适应分析多维处理系统 |
CN102117464A (zh) * | 2010-01-06 | 2011-07-06 | 埃森哲环球服务有限公司 | 具有动态层级的营销投资优化器 |
CN104134108A (zh) * | 2014-06-25 | 2014-11-05 | 上海艾瑞市场咨询有限公司 | 电子商务网站销售数据分析方法 |
CN104731791A (zh) * | 2013-12-18 | 2015-06-24 | 东阳艾维德广告传媒有限公司 | 一种市场销售分析数据集市系统 |
CN105447719A (zh) * | 2015-12-01 | 2016-03-30 | 苏州铭冠软件科技有限公司 | 一种适用于大数据分析的数据处理方法 |
CN105809289A (zh) * | 2016-03-11 | 2016-07-27 | 郑州师范学院 | 基于大数据的电子商务行业景气度指数系统和方法 |
CN105808686A (zh) * | 2016-03-02 | 2016-07-27 | 上海泰坦科技股份有限公司 | 销售数据分析系统 |
CN105809482A (zh) * | 2016-03-11 | 2016-07-27 | 郑州师范学院 | 面向跨境贸易的大数据分析系统和方法 |
CN106096998A (zh) * | 2016-06-01 | 2016-11-09 | 杭州呼巴网络技术有限公司 | 一种电商平台的价格数据统计决策分析方法 |
CN106503717A (zh) * | 2016-09-19 | 2017-03-15 | 清华大学 | 基于无监督模型的输变电主设备负荷曲线的特征提取方法 |
-
2017
- 2017-06-30 CN CN201710525213.XA patent/CN109214840A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004768A (zh) * | 2009-08-31 | 2011-04-06 | 埃森哲环球服务有限公司 | 自适应分析多维处理系统 |
CN102117464A (zh) * | 2010-01-06 | 2011-07-06 | 埃森哲环球服务有限公司 | 具有动态层级的营销投资优化器 |
CN104731791A (zh) * | 2013-12-18 | 2015-06-24 | 东阳艾维德广告传媒有限公司 | 一种市场销售分析数据集市系统 |
CN104134108A (zh) * | 2014-06-25 | 2014-11-05 | 上海艾瑞市场咨询有限公司 | 电子商务网站销售数据分析方法 |
CN105447719A (zh) * | 2015-12-01 | 2016-03-30 | 苏州铭冠软件科技有限公司 | 一种适用于大数据分析的数据处理方法 |
CN105808686A (zh) * | 2016-03-02 | 2016-07-27 | 上海泰坦科技股份有限公司 | 销售数据分析系统 |
CN105809289A (zh) * | 2016-03-11 | 2016-07-27 | 郑州师范学院 | 基于大数据的电子商务行业景气度指数系统和方法 |
CN105809482A (zh) * | 2016-03-11 | 2016-07-27 | 郑州师范学院 | 面向跨境贸易的大数据分析系统和方法 |
CN106096998A (zh) * | 2016-06-01 | 2016-11-09 | 杭州呼巴网络技术有限公司 | 一种电商平台的价格数据统计决策分析方法 |
CN106503717A (zh) * | 2016-09-19 | 2017-03-15 | 清华大学 | 基于无监督模型的输变电主设备负荷曲线的特征提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210035126A1 (en) | Data processing method, system and computer device based on electronic payment behaviors | |
CN104182629A (zh) | 一种基于主成分分析的烟支物理指标综合稳定性表征方法 | |
CN104657709A (zh) | 人脸图像识别方法、装置及服务器 | |
CN111950915B (zh) | 银行网点柜员工作量的评估方法及装置 | |
US20180300289A1 (en) | Information Determining Method and Apparatus | |
CN110647106B (zh) | 刀具性能监测及评价方法和系统 | |
CN106770005B (zh) | 一种用于近红外光谱分析的校正集和验证集的划分方法 | |
CN103902798A (zh) | 数据预处理方法 | |
EP2580772B1 (en) | A method computer program and system to analyze mass spectra | |
CN109214840A (zh) | 一种数据相关性分析方法及装置 | |
CN104462038A (zh) | 基于excel的质量检测系统的批量处理数据方法 | |
Lalande et al. | A new framework to accurately quantify soil bacterial community diversity from DGGE | |
CN104991964B (zh) | 基于时间维度的同比环比计算方法 | |
CN115935129B (zh) | 一种土壤分尺度重金属浓度值确定方法和装置 | |
Saputri et al. | A study of cross-national differences in Happiness factors using machine learning approach | |
CN106909497B (zh) | 测试方法和装置 | |
CN113918471A (zh) | 测试用例的处理方法、装置及计算机可读存储介质 | |
US10636636B2 (en) | Systems and methods for sample comparison and classification | |
Lynch | Effects of measurement error on Monte Carlo integration estimators of tree volume: critical height sampling and vertical Monte Carlo methods | |
CN113409025B (zh) | 一种业务数据提取方法、装置及存储介质 | |
CN108595516A (zh) | 电能表误差稳定性分析方法、装置、存储介质及设备 | |
CN104794473B (zh) | 形状层级描述、平均形状和动态形状计算及形状匹配方法 | |
CN111159998B (zh) | 字体轮廓的层次结构分析方法及系统 | |
CN111984636B (zh) | 数据建模方法和装置、设备及存储介质 | |
CN106383919A (zh) | 一种判定新闻传播效果的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |