CN110347930B

CN110347930B - 一种基于统计分析方法的高维数据自动加工及处理方法

Info

Publication number: CN110347930B
Application number: CN201910647813.2A
Authority: CN
Inventors: 王红平
Original assignee: Hangzhou Lianyin Technology Co ltd
Current assignee: Hangzhou Lianyin Technology Co ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2020-05-05
Anticipated expiration: 2039-07-18
Also published as: CN110347930A

Abstract

本发明公开一种基于统计分析方法的高维数据自动加工及处理方法，用于解决现有的高维数据的数据量大和分析处理时间长和高维数据在数据库内合理存储的问题；包括步骤一：采集和统计高维数据并存储在数据库内，高维数据包括样本和样本维度；步骤二：通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度；通过样本之间计算相似度；解决了现有的高维数据的数据量大和分析处理时间长的问题；通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔，然后计算样本维度的压缩值；解决了高维数据在数据库内合理存储的问题。

Description

一种基于统计分析方法的高维数据自动加工及处理方法

技术领域

本发明涉及高维数据处理技术领域，尤其涉及一种基于统计分析方法的高维数据自动加工及处理方法。

背景技术

高维数据挖掘是基于高维度的一种数据挖掘，它和传统的数据挖掘最主要的区别在于它的高维度。高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易，导致数据库规模越来越大、复杂性越来越高，如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等，它们的维度（属性）通常可以达到成百上千维，甚至更高。

由于高维数据存在的普遍性，使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响，也使得高维数据挖掘变得异常地困难，必须采用一些特殊的手段进行处理。

在专利“CN106055645A一种用于高维数据分析的维度重要性评估方法”公开了“因此我们只需估计系数a即可，它的取值为0～1，当它取值较大时，密度曲线会比较平滑，这样便会导致没有局部极小值，只有最大值，此时计算出的维度质量为1，是一个错误的结果，因此我们尽量取较小的a值，即使这样也可能会造成误差，于是我们检验每一维度的质量值，如果有质量值为1便重新估计h值，重新计算维度质量，直到没有误差为止”；虽然实现了筛选出重要的维度；但采用人工估计系数的方式进行检验，数据计算量较大，人工工作量大，导致高维数据分析时间长。

发明内容

本发明的目的在于提供一种基于统计分析方法的高维数据自动加工及处理方法；通过对高维数据中的样本和样本维度进行统计；通过访问的次数和总时间计算样本维度与样本之间的粘合度；从而得到样本重要的样本维度；然后通过减维处理，使样本重要度较小的数据进行去除，然后通过样本之间计算相似度；解决了现有的高维数据的数据量大和分析处理时间长的问题；通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔，然后计算样本维度的压缩值；解决了高维数据在数据库内合理存储的问题。

本发明所要解决的技术问题为：

（1）如何通过计算样本重要度获取样本的样本重要度，通过样本重要度进行减维处理计算样本的相似度，解决了现有的高维数据的数据量大和分析处理时间长的问题；

（2）本发明通过计算样本维度的压缩值，对样本维度进行压缩存储，解决了高维数据在数据库内合理存储的问题。

本发明的目的可以通过以下技术方案实现：一种基于统计分析方法的高维数据自动加工及处理方法，包括以下步骤：

步骤一：采集和统计高维数据并存储在数据库内，高维数据包括样本和样本维度；

步骤二：通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度；具体步骤如下：

S1：设定样本记为Y_i，i=1、……、n；设定样本维度为Y_ij；j=1、……、n

S2：设定样本维度Y_ij的访问次数和访问总时间分别记为P_ij和T_ij；

S3：对访问次数P_ij进行过滤和统计T_ij；获取访问次数对应访问设备的IP和访问次数对应的时刻；对访问次数对应的时刻进行判断；将一天的时间分为a个时间段；将访问次数对应的时刻与a个时间段进行匹配，统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数；则新访问次数记为PX_ij；

S4：利用公式

获取得到样本重要度N_ij，其中，h1为次数比例固定值；h2为时间比例系数；

步骤三：通过样本维度数据集对样本进行筛选；具体筛选步骤如下：

W1：对样本重要度N_ij大小设定z个取值区间；z=1……n;取值区间由大到小分别记为{N_ij|[Kz，Kz-1）},……，{N_ij|[K2，K1）};Kz>……>K1；

W2：判断样本重要度N_ij所属取值区间;得到样本维度数据集Uz_ij={Y_{im，……，}Y_ij}；其中1≤m<j；Y_im和Y_ij对应的N_im、N_ij的值均属于{N_ij|[Kz，Kz-1）}范围内；

W3：依次获取样本维度数据集Uz_ij、Uz-1_ij、……U1_ij的并记为Dz；

W4：对样本维度数据集Uz_ij、Uz-1_ij、……U1_ij进行减维；减维过程为：选择减维等级；减维等级标记为Ji，i=z、z-1、……、1；Jz表示为样本需要需要的维度是样本维度数据集Uz_ij，Jz-1表示为样本维度包括样本维度数据集Uz_ij和Uz-1_ij；依次类推，J1的样本维度最多；

步骤四：对选择减维等级后的样本计算相似度，具体过程为：

a：设定选取的减维等级为Jz；对样本Y_i对应的样本维度数据集Uz_ij；的样本维度数量Dz进行筛选；选取Dz±q对应的样本维度数据集Uz_ij以及样本Y_i；其中q为预设范围固定值；

b：在筛选后的样本Y_i计算两个样本之间的相似度；具体表现为：选取样本Ya和样本Yb；其中，a∈i,b∈i,a≠b；获取样本Ya和样本Yb对应的样本维度数据集Uz_aj和Uz_bj相同样本维度的个数并记为PG_ab；并获取相同样本维度对应的样本重要度N_aj和N_bj；利用公式

获取得到样本Ya与样本Yb的相似度XS_a|b，其中，r1、r2为预设比例系数。

优选的，S3中所述的统计T_ij具体过程如下：

a：设定访问设备访问的初始时间记为tc_ij；结束时间记为td_ij；

b：访问设备的单次访问时间段tf_ij=td_ij-tc_ij；利用求和公式统计同一访问设备的总时间；然后再利用求和公式计算所有访问设备的总时间，得到访问总时间T_ij。

优选的，S4中所述的时间比例系数h2的取值步骤如下：

SS1：获取单次访问时间段tf_ij；设定对比时间段记为Mk_ij；k=1、……、n；每个时间段对应的时间因子记为vk_ij；k=1、……、n；

SS2：对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwk_ij；设定单次时间段在对比时间段重合的比例记为Lk_ij；利用公式

获取得到单次时间总因子vwk_ij；

SS3：利用求和公式计算所有待测时间总因子vwk_ij时间比例系数h2。

优选的，步骤一所述的数据库内还包括高维数据处理单元；高维数据处理单元的处理高维数据具体步骤如下：

SSS1：获取样本维度对应的访问次数和访问总时间；通过时间采集器获取样本维度相邻两次的访问时间间隔并记为HG_i，i=1、……、n；最后一次访问时间与将要访问的时间间隔记为HG_i+1；

SSS2：计算样本维度的压缩值；利用公式

获取得到样本维度的压缩值YS_ij；其中e1、e2和e3均为预设比例固定值；HJ_i为解压查看次数；对压缩后的样本维度访问一次，则HJ_i增加一次；

SSS3：设定压缩阀值记为ES；当样本维度的压缩值YS_ij>ES；则对该样本维度;当样本维度的压缩值YS_ij<ES；则对该样本维度恢复解压存储。

本发明的有益效果：

（1）本发明通过对高维数据中的样本和样本维度进行统计；通过访问的次数和总时间计算样本维度与样本之间的粘合度；从而得到样本重要的样本维度；然后通过减维处理，使样本重要度较小的数据进行去除，然后通过样本之间计算相似度；通过相似度的大小实现样本之间的关联；

（2）本发明通过高维数据处理单元对高维数据进行处理，获取样本维度对应的访问次数和访问总时间；通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔，然后计算样本维度的压缩值；利用公式

获取得到样本维度的压缩值YS_ij；当样本维度的压缩值YS_ij>ES；则对该样本维度;当样本维度的压缩值YS_ij<ES；则对该样本维度恢复解压存储，从而合理的压缩存储高维数据。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于统计分析方法的高维数据自动加工及处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于统计分析方法的高维数据自动加工及处理方法，包括以下步骤：

S1：设定样本记为Y_i，i=1、……、n；设定样本维度为Y_ij；j=1、……、n；

S3：对访问次数P_ij进行过滤和统计T_ij；获取访问次数对应访问设备的IP和访问次数对应的时刻；对访问次数对应的时刻进行判断；将一天的时间分为a个时间段；将访问次数对应的时刻与a个时间段进行匹配，统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数；则新访问次数记为PX_ij；统计T_ij具体过程如下：

b：访问设备的单次访问时间段tf_ij=td_ij-tc_ij；利用求和公式统计同一访问设备的总时间；然后再利用求和公式计算所有访问设备的总时间，得到访问总时间T_ij；

S4：利用公式

获取得到样本重要度N_ij，样本重要度越大，表示样本维度与样本越重要；通过公式可得，访问的次数越多，样本重要度越大；访问的时间越长，样本重要度越大；其中，h1为次数比例固定值；h2为时间比例系数；时间比例系数h2的取值步骤如下：

获取得到单次时间总因子vwk_ij；

SS3：利用求和公式计算所有待测时间总因子vwk_ij时间比例系数h2；

获取得到样本Ya与样本Yb的相似度XS_a|b，其中，r1、r2为预设比例系数；通过公式可得，样本的样本维度相同的个数越多，相似度越大，相同维度的样本重要度越接近，相似度越大；

数据库内还包括高维数据处理单元；高维数据处理单元的处理高维数据具体步骤如下：

SSS2：计算样本维度的压缩值；利用公式

SSS3：设定压缩阀值记为ES；当样本维度的压缩值YS_ij>ES；则对该样本维度;当样本维度的压缩值YS_ij<ES；则对该样本维度恢复解压存储；

实施例1：样本以若干个网上出售商品为例；网上出售商品包括若干个属性（维度）；统计消费者在购买网上出售商品时查看商品的属性次数和时间；然后通过统计所有消费者对该网上出售商品属性的查看次数和查看时间，筛选出网上出售商品的重要属性；然后对所有网上出售商品进行重要属性进行匹配，匹配到重要属性相同的个数并计算网上出售商品的相似度；选取与网上出售商品最大相似度的另一个网上出售商品为关联商品，用户访问该网上出售商品时，则推荐该网上出售商品的关联商品；

本发明的工作原理：对高维数据中的样本和样本维度进行统计；通过访问的次数和总时间计算样本维度与样本之间的粘合度；从而得到样本重要的样本维度；然后通过减维处理，使样本重要度较小的数据进行去除，然后通过样本之间计算相似度；从而得到样本之间的相似度；通过相似度的大小实现样本之间的关联；数据库内还包括高维数据处理单元；高维数据处理单元对高维数据进行处理，获取样本维度对应的访问次数和访问总时间；通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔，然后计算样本维度的压缩值；利用公式

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于统计分析方法的高维数据自动加工及处理方法，其特征在于，包括以下步骤：

S4：利用公式

W1：对样本重要度N_ij大小设定z个取值区间；z=1……n；取值区间由大到小分别记为{N_ij|[Kz，Kz-1）},……，{N_ij|[K2，K1）}；Kz>……>K1；

W2：判断样本重要度N_ij所属取值区间；得到样本维度数据集Uz_ij={Y_{im，……，}Y_ij}；其中1≤m<j；Y_im和Y_ij对应的N_im、N_ij的值均属于{N_ij|[Kz，Kz-1）}范围内；

获取得到样本Ya与样本Yb的相似度XS_a|b，其中，r1、r2为预设比例系数；

样本为若干个网上出售商品；将网上出售商品包括若干个属性，属性即为维度；统计消费者在购买网上出售商品时查看商品的属性次数和时间；然后通过统计所有消费者对该网上出售商品属性的查看次数和查看时间，筛选出网上出售商品的重要属性；然后对所有网上出售商品进行重要属性进行匹配，匹配到重要属性相同的个数并计算网上出售商品的相似度；选取与网上出售商品最大相似度的另一个网上出售商品为关联商品，用户访问该网上出售商品时，则推荐该网上出售商品的关联商品。

2.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法，其特征在于，S3中所述的统计T_ij具体过程如下：

3.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法，其特征在于，S4中所述的时间比例系数h2的取值步骤如下：

获取得到单次时间总因子vwk_ij；

4.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法，其特征在于，步骤一所述的数据库内还包括高维数据处理单元；高维数据处理单元的处理高维数据具体步骤如下：

SSS2：计算样本维度的压缩值；利用公式

SSS3：设定压缩阀值记为ES；当样本维度的压缩值YS_ij>ES；则对该样本维度压缩存储；当样本维度的压缩值YS_ij<ES；则对该样本维度恢复解压存储。