CN110347930B - 一种基于统计分析方法的高维数据自动加工及处理方法 - Google Patents

一种基于统计分析方法的高维数据自动加工及处理方法 Download PDF

Info

Publication number
CN110347930B
CN110347930B CN201910647813.2A CN201910647813A CN110347930B CN 110347930 B CN110347930 B CN 110347930B CN 201910647813 A CN201910647813 A CN 201910647813A CN 110347930 B CN110347930 B CN 110347930B
Authority
CN
China
Prior art keywords
sample
time
dimension
dimensional data
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910647813.2A
Other languages
English (en)
Other versions
CN110347930A (zh
Inventor
王红平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Lianyin Technology Co ltd
Original Assignee
Hangzhou Lianyin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Lianyin Technology Co ltd filed Critical Hangzhou Lianyin Technology Co ltd
Priority to CN201910647813.2A priority Critical patent/CN110347930B/zh
Publication of CN110347930A publication Critical patent/CN110347930A/zh
Application granted granted Critical
Publication of CN110347930B publication Critical patent/CN110347930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于统计分析方法的高维数据自动加工及处理方法,用于解决现有的高维数据的数据量大和分析处理时间长和高维数据在数据库内合理存储的问题;包括步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;通过样本之间计算相似度;解决了现有的高维数据的数据量大和分析处理时间长的问题;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;解决了高维数据在数据库内合理存储的问题。

Description

一种基于统计分析方法的高维数据自动加工及处理方法
技术领域
本发明涉及高维数据处理技术领域,尤其涉及一种基于统计分析方法的高维数据自动加工及处理方法。
背景技术
高维数据挖掘是基于高维度的一种数据挖掘,它和传统的数据挖掘最主要的区别在于它的高维度。高维数据挖掘已成为数据挖掘的重点和难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、WEB使用数据及多媒体数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。
由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。
在专利“CN106055645A一种用于高维数据分析的维度重要性评估方法”公开了“因此我们只需估计系数a即可,它的取值为0~1,当它取值较大时,密度曲线会比较平滑,这样便会导致没有局部极小值,只有最大值,此时计算出的维度质量为1,是一个错误的结果,因此我们尽量取较小的a值,即使这样也可能会造成误差,于是我们检验每一维度的质量值,如果有质量值为1便重新估计h值,重新计算维度质量,直到没有误差为止”;虽然实现了筛选出重要的维度;但采用人工估计系数的方式进行检验,数据计算量较大,人工工作量大,导致高维数据分析时间长。
发明内容
本发明的目的在于提供一种基于统计分析方法的高维数据自动加工及处理方法;通过对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;解决了现有的高维数据的数据量大和分析处理时间长的问题;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;解决了高维数据在数据库内合理存储的问题。
本发明所要解决的技术问题为:
(1)如何通过计算样本重要度获取样本的样本重要度,通过样本重要度进行减维处理计算样本的相似度,解决了现有的高维数据的数据量大和分析处理时间长的问题;
(2)本发明通过计算样本维度的压缩值,对样本维度进行压缩存储,解决了高维数据在数据库内合理存储的问题。
本发明的目的可以通过以下技术方案实现:一种基于统计分析方法的高维数据自动加工及处理方法,包括以下步骤:
步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;
步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;具体步骤如下:
S1:设定样本记为Yi,i=1、……、n;设定样本维度为Yij;j=1、……、n
S2:设定样本维度Yij的访问次数和访问总时间分别记为Pij和Tij
S3:对访问次数Pij进行过滤和统计Tij;获取访问次数对应访问设备的IP和访问次数对应的时刻;对访问次数对应的时刻进行判断;将一天的时间分为a个时间段;将访问次数对应的时刻与a个时间段进行匹配,统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数;则新访问次数记为PXij
S4:利用公式
Figure 330726DEST_PATH_IMAGE001
获取得到样本重要度Nij,其中,h1为次数比例固定值;h2为时间比例系数;
步骤三:通过样本维度数据集对样本进行筛选;具体筛选步骤如下:
W1:对样本重要度Nij大小设定z个取值区间;z=1……n;取值区间由大到小分别记为{Nij|[Kz,Kz-1)},……,{Nij|[K2,K1)};Kz>……>K1;
W2:判断样本重要度Nij所属取值区间;得到样本维度数据集Uzij={Yim,……,Yij};其中1≤m<j;Yim和Yij对应的Nim、Nij的值均属于{Nij|[Kz,Kz-1)}范围内;
W3:依次获取样本维度数据集Uzij、Uz-1ij、……U1ij的并记为Dz;
W4:对样本维度数据集Uzij、Uz-1ij、……U1ij进行减维;减维过程为:选择减维等级;减维等级标记为Ji,i=z、z-1、……、1;Jz表示为样本需要需要的维度是样本维度数据集Uzij,Jz-1表示为样本维度包括样本维度数据集Uzij和Uz-1ij;依次类推,J1的样本维度最多;
步骤四:对选择减维等级后的样本计算相似度,具体过程为:
a:设定选取的减维等级为Jz;对样本Yi对应的样本维度数据集Uzij;的样本维度数量Dz进行筛选;选取Dz±q对应的样本维度数据集Uzij以及样本Yi;其中q为预设范围固定值;
b:在筛选后的样本Yi计算两个样本之间的相似度;具体表现为:选取样本Ya和样本Yb;其中,a∈i,b∈i,a≠b;获取样本Ya和样本Yb对应的样本维度数据集Uzaj和Uzbj相同样本维度的个数并记为PGab;并获取相同样本维度对应的样本重要度Naj和Nbj;利用公式
Figure 100002_DEST_PATH_IMAGE002
获取得到样本Ya与样本Yb的相似度XSa|b,其中,r1、r2为预设比例系数。
优选的,S3中所述的统计Tij具体过程如下:
a:设定访问设备访问的初始时间记为tcij;结束时间记为tdij
b:访问设备的单次访问时间段tfij=tdij-tcij;利用求和公式统计同一访问设备的总时间;然后再利用求和公式计算所有访问设备的总时间,得到访问总时间Tij
优选的,S4中所述的时间比例系数h2的取值步骤如下:
SS1:获取单次访问时间段tfij;设定对比时间段记为Mkij;k=1、……、n;每个时间段对应的时间因子记为vkij;k=1、……、n;
SS2:对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwkij;设定单次时间段在对比时间段重合的比例记为Lkij;利用公式
Figure 90872DEST_PATH_IMAGE003
获取得到单次时间总因子vwkij
SS3:利用求和公式计算所有待测时间总因子vwkij时间比例系数h2。
优选的,步骤一所述的数据库内还包括高维数据处理单元;高维数据处理单元的处理高维数据具体步骤如下:
SSS1:获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔并记为HGi,i=1、……、n;最后一次访问时间与将要访问的时间间隔记为HGi+1
SSS2:计算样本维度的压缩值;利用公式
Figure 100002_DEST_PATH_IMAGE004
获取得到样本维度的压缩值YSij;其中e1、e2和e3均为预设比例固定值;HJi为解压查看次数;对压缩后的样本维度访问一次,则HJi增加一次;
SSS3:设定压缩阀值记为ES;当样本维度的压缩值YSij>ES;则对该样本维度;当样本维度的压缩值YSij<ES;则对该样本维度恢复解压存储。
本发明的有益效果:
(1)本发明通过对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;通过相似度的大小实现样本之间的关联;
(2)本发明通过高维数据处理单元对高维数据进行处理,获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;利用公式
Figure 295588DEST_PATH_IMAGE005
获取得到样本维度的压缩值YSij;当样本维度的压缩值YSij>ES;则对该样本维度;当样本维度的压缩值YSij<ES;则对该样本维度恢复解压存储,从而合理的压缩存储高维数据。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明一种基于统计分析方法的高维数据自动加工及处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于统计分析方法的高维数据自动加工及处理方法,包括以下步骤:
步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;
步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;具体步骤如下:
S1:设定样本记为Yi,i=1、……、n;设定样本维度为Yij;j=1、……、n;
S2:设定样本维度Yij的访问次数和访问总时间分别记为Pij和Tij
S3:对访问次数Pij进行过滤和统计Tij;获取访问次数对应访问设备的IP和访问次数对应的时刻;对访问次数对应的时刻进行判断;将一天的时间分为a个时间段;将访问次数对应的时刻与a个时间段进行匹配,统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数;则新访问次数记为PXij;统计Tij具体过程如下:
a:设定访问设备访问的初始时间记为tcij;结束时间记为tdij
b:访问设备的单次访问时间段tfij=tdij-tcij;利用求和公式统计同一访问设备的总时间;然后再利用求和公式计算所有访问设备的总时间,得到访问总时间Tij
S4:利用公式
Figure 963330DEST_PATH_IMAGE001
获取得到样本重要度Nij,样本重要度越大,表示样本维度与样本越重要;通过公式可得,访问的次数越多,样本重要度越大;访问的时间越长,样本重要度越大;其中,h1为次数比例固定值;h2为时间比例系数;时间比例系数h2的取值步骤如下:
SS1:获取单次访问时间段tfij;设定对比时间段记为Mkij;k=1、……、n;每个时间段对应的时间因子记为vkij;k=1、……、n;
SS2:对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwkij;设定单次时间段在对比时间段重合的比例记为Lkij;利用公式
Figure 366629DEST_PATH_IMAGE003
获取得到单次时间总因子vwkij
SS3:利用求和公式计算所有待测时间总因子vwkij时间比例系数h2;
步骤三:通过样本维度数据集对样本进行筛选;具体筛选步骤如下:
W1:对样本重要度Nij大小设定z个取值区间;z=1……n;取值区间由大到小分别记为{Nij|[Kz,Kz-1)},……,{Nij|[K2,K1)};Kz>……>K1;
W2:判断样本重要度Nij所属取值区间;得到样本维度数据集Uzij={Yim,……,Yij};其中1≤m<j;Yim和Yij对应的Nim、Nij的值均属于{Nij|[Kz,Kz-1)}范围内;
W3:依次获取样本维度数据集Uzij、Uz-1ij、……U1ij的并记为Dz;
W4:对样本维度数据集Uzij、Uz-1ij、……U1ij进行减维;减维过程为:选择减维等级;减维等级标记为Ji,i=z、z-1、……、1;Jz表示为样本需要需要的维度是样本维度数据集Uzij,Jz-1表示为样本维度包括样本维度数据集Uzij和Uz-1ij;依次类推,J1的样本维度最多;
步骤四:对选择减维等级后的样本计算相似度,具体过程为:
a:设定选取的减维等级为Jz;对样本Yi对应的样本维度数据集Uzij;的样本维度数量Dz进行筛选;选取Dz±q对应的样本维度数据集Uzij以及样本Yi;其中q为预设范围固定值;
b:在筛选后的样本Yi计算两个样本之间的相似度;具体表现为:选取样本Ya和样本Yb;其中,a∈i,b∈i,a≠b;获取样本Ya和样本Yb对应的样本维度数据集Uzaj和Uzbj相同样本维度的个数并记为PGab;并获取相同样本维度对应的样本重要度Naj和Nbj;利用公式
Figure 828835DEST_PATH_IMAGE002
获取得到样本Ya与样本Yb的相似度XSa|b,其中,r1、r2为预设比例系数;通过公式可得,样本的样本维度相同的个数越多,相似度越大,相同维度的样本重要度越接近,相似度越大;
数据库内还包括高维数据处理单元;高维数据处理单元的处理高维数据具体步骤如下:
SSS1:获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔并记为HGi,i=1、……、n;最后一次访问时间与将要访问的时间间隔记为HGi+1
SSS2:计算样本维度的压缩值;利用公式
Figure 52006DEST_PATH_IMAGE004
获取得到样本维度的压缩值YSij;其中e1、e2和e3均为预设比例固定值;HJi为解压查看次数;对压缩后的样本维度访问一次,则HJi增加一次;
SSS3:设定压缩阀值记为ES;当样本维度的压缩值YSij>ES;则对该样本维度;当样本维度的压缩值YSij<ES;则对该样本维度恢复解压存储;
实施例1:样本以若干个网上出售商品为例;网上出售商品包括若干个属性(维度);统计消费者在购买网上出售商品时查看商品的属性次数和时间;然后通过统计所有消费者对该网上出售商品属性的查看次数和查看时间,筛选出网上出售商品的重要属性;然后对所有网上出售商品进行重要属性进行匹配,匹配到重要属性相同的个数并计算网上出售商品的相似度;选取与网上出售商品最大相似度的另一个网上出售商品为关联商品,用户访问该网上出售商品时,则推荐该网上出售商品的关联商品;
本发明的工作原理:对高维数据中的样本和样本维度进行统计;通过访问的次数和总时间计算样本维度与样本之间的粘合度;从而得到样本重要的样本维度;然后通过减维处理,使样本重要度较小的数据进行去除,然后通过样本之间计算相似度;从而得到样本之间的相似度;通过相似度的大小实现样本之间的关联;数据库内还包括高维数据处理单元;高维数据处理单元对高维数据进行处理,获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔以及最后一次访问时间与将要访问的时间间隔,然后计算样本维度的压缩值;利用公式
Figure 257859DEST_PATH_IMAGE004
获取得到样本维度的压缩值YSij;当样本维度的压缩值YSij>ES;则对该样本维度;当样本维度的压缩值YSij<ES;则对该样本维度恢复解压存储,从而合理的压缩存储高维数据。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (4)

1.一种基于统计分析方法的高维数据自动加工及处理方法,其特征在于,包括以下步骤:
步骤一:采集和统计高维数据并存储在数据库内,高维数据包括样本和样本维度;
步骤二:通过数据统计工具统计样本维度的访问次数和访问总时间计算样本重要度;具体步骤如下:
S1:设定样本记为Yi,i=1、……、n;设定样本维度为Yij;j=1、……、n;
S2:设定样本维度Yij的访问次数和访问总时间分别记为Pij和Tij
S3:对访问次数Pij进行过滤和统计Tij;获取访问次数对应访问设备的IP和访问次数对应的时刻;对访问次数对应的时刻进行判断;将一天的时间分为a个时间段;将访问次数对应的时刻与a个时间段进行匹配,统计访问次数对应的时刻匹配到的时间段的个数记为新的访问次数;则新访问次数记为PXij
S4:利用公式
Figure DEST_PATH_IMAGE002
获取得到样本重要度Nij,其中,h1为次数比例固定值;h2为时间比例系数;
步骤三:通过样本维度数据集对样本进行筛选;具体筛选步骤如下:
W1:对样本重要度Nij大小设定z个取值区间;z=1……n;取值区间由大到小分别记为{Nij|[Kz,Kz-1)},……,{Nij|[K2,K1)};Kz>……>K1;
W2:判断样本重要度Nij所属取值区间;得到样本维度数据集Uzij={Yim,……,Yij};其中1≤m<j;Yim和Yij对应的Nim、Nij的值均属于{Nij|[Kz,Kz-1)}范围内;
W3:依次获取样本维度数据集Uzij、Uz-1ij、……U1ij的并记为Dz;
W4:对样本维度数据集Uzij、Uz-1ij、……U1ij进行减维;减维过程为:选择减维等级;减维等级标记为Ji,i=z、z-1、……、1;Jz表示为样本需要需要的维度是样本维度数据集Uzij,Jz-1表示为样本维度包括样本维度数据集Uzij和Uz-1ij;依次类推,J1的样本维度最多;
步骤四:对选择减维等级后的样本计算相似度,具体过程为:
a:设定选取的减维等级为Jz;对样本Yi对应的样本维度数据集Uzij;的样本维度数量Dz进行筛选;选取Dz±q对应的样本维度数据集Uzij以及样本Yi;其中q为预设范围固定值;
b:在筛选后的样本Yi计算两个样本之间的相似度;具体表现为:选取样本Ya和样本Yb;其中,a∈i,b∈i,a≠b;获取样本Ya和样本Yb对应的样本维度数据集Uzaj和Uzbj相同样本维度的个数并记为PGab;并获取相同样本维度对应的样本重要度Naj和Nbj;利用公式
Figure DEST_PATH_IMAGE004
获取得到样本Ya与样本Yb的相似度XSa|b,其中,r1、r2为预设比例系数;
样本为若干个网上出售商品;将网上出售商品包括若干个属性,属性即为维度;统计消费者在购买网上出售商品时查看商品的属性次数和时间;然后通过统计所有消费者对该网上出售商品属性的查看次数和查看时间,筛选出网上出售商品的重要属性;然后对所有网上出售商品进行重要属性进行匹配,匹配到重要属性相同的个数并计算网上出售商品的相似度;选取与网上出售商品最大相似度的另一个网上出售商品为关联商品,用户访问该网上出售商品时,则推荐该网上出售商品的关联商品。
2.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法,其特征在于,S3中所述的统计Tij具体过程如下:
a:设定访问设备访问的初始时间记为tcij;结束时间记为tdij
b:访问设备的单次访问时间段tfij=tdij-tcij;利用求和公式统计同一访问设备的总时间;然后再利用求和公式计算所有访问设备的总时间,得到访问总时间Tij
3.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法,其特征在于,S4中所述的时间比例系数h2的取值步骤如下:
SS1:获取单次访问时间段tfij;设定对比时间段记为Mkij;k=1、……、n;每个时间段对应的时间因子记为vkij;k=1、……、n;
SS2:对单次访问时间段与对比时间段进行匹配获取对应的单次时间总因子vwkij;设定单次时间段在对比时间段重合的比例记为Lkij;利用公式
Figure DEST_PATH_IMAGE006
获取得到单次时间总因子vwkij
SS3:利用求和公式计算所有待测时间总因子vwkij时间比例系数h2。
4.根据权利要求1所述的一种基于统计分析方法的高维数据自动加工及处理方法,其特征在于,步骤一所述的数据库内还包括高维数据处理单元;高维数据处理单元的处理高维数据具体步骤如下:
SSS1:获取样本维度对应的访问次数和访问总时间;通过时间采集器获取样本维度相邻两次的访问时间间隔并记为HGi,i=1、……、n;最后一次访问时间与将要访问的时间间隔记为HGi+1
SSS2:计算样本维度的压缩值;利用公式
Figure DEST_PATH_IMAGE008
获取得到样本维度的压缩值YSij;其中e1、e2和e3均为预设比例固定值;HJi为解压查看次数;对压缩后的样本维度访问一次,则HJi增加一次;
SSS3:设定压缩阀值记为ES;当样本维度的压缩值YSij>ES;则对该样本维度压缩存储;当样本维度的压缩值YSij<ES;则对该样本维度恢复解压存储。
CN201910647813.2A 2019-07-18 2019-07-18 一种基于统计分析方法的高维数据自动加工及处理方法 Active CN110347930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910647813.2A CN110347930B (zh) 2019-07-18 2019-07-18 一种基于统计分析方法的高维数据自动加工及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910647813.2A CN110347930B (zh) 2019-07-18 2019-07-18 一种基于统计分析方法的高维数据自动加工及处理方法

Publications (2)

Publication Number Publication Date
CN110347930A CN110347930A (zh) 2019-10-18
CN110347930B true CN110347930B (zh) 2020-05-05

Family

ID=68174935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910647813.2A Active CN110347930B (zh) 2019-07-18 2019-07-18 一种基于统计分析方法的高维数据自动加工及处理方法

Country Status (1)

Country Link
CN (1) CN110347930B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886507B (zh) * 2013-12-31 2017-07-14 北京交通大学 应急预案数字化生成方法
CN105005917A (zh) * 2015-07-07 2015-10-28 上海晶赞科技发展有限公司 一种通用的关联不同电商网站单品的方法
CN105187237B (zh) * 2015-08-12 2018-09-11 百度在线网络技术(北京)有限公司 查找相关联的用户标识的方法和装置
CN105868352A (zh) * 2016-03-29 2016-08-17 天津大学 一种基于维度相关性分析的高维数据维度排序方法
CN107563399A (zh) * 2016-06-30 2018-01-09 中国矿业大学 一种基于知识熵的特征加权谱聚类方法及系统
US11522873B2 (en) * 2017-12-29 2022-12-06 DataVisor, Inc. Detecting network attacks

Also Published As

Publication number Publication date
CN110347930A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN113139857B (zh) 电子商务平台商家店铺智能管理方法、系统、设备和计算机存储介质
US20150046249A1 (en) Method and system for measuring web advertising effect based on multiple-contact attribution model
CN111724238B (zh) 产品推荐准确度评价方法、装置、设备及存储介质
CN104331817B (zh) 电子商务推荐模型的用户特征提取方法及系统
WO2009010950A1 (en) System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records
Dionne et al. Default risk in corporate yield spreads
Kaufmann Dating and forecasting turning points by Bayesian clustering with dynamic structure: A suggestion with an application to Austrian data
CN111626842A (zh) 一种消费行为数据的分析方法和装置
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
Boutahar et al. Estimation methods of the long memory parameter: Monte Carlo analysis and application
CN105303447A (zh) 利用网络信息进行信用评级的方法和系统
CN110347930B (zh) 一种基于统计分析方法的高维数据自动加工及处理方法
Ncube et al. Assessment of apparent losses due to meter inaccuracy using an alternative, validated methodology
CN110458581B (zh) 商户业务周转异常的识别方法及装置
CN112446777B (zh) 一种信用评估方法、装置、设备及存储介质
CN117422374A (zh) 基于大数据技术的食堂智能采购方法、电子设备及介质
CN112241820A (zh) 资金流动中关键节点的风险识别方法、装置及计算设备
Song et al. Central limit theorems of local polynomial threshold estimator for diffusion processes with jumps
Horvath et al. A consistent specification test for dynamic quantile models
CN113393169A (zh) 基于大数据技术的金融行业交易系统性能指标分析方法
Kourentzesa et al. Increasing knowledge base for nowcasting GDP by quantifying the sentiment about the state of economy
Kamley et al. An Association Rule Mining Model for Finding the Interesting Patterns in Stock Market Dataset
Page Model selection for measuring security price performance
Chance Comment: A test of Stone's two-index model of returns
Shi et al. Different strokes for different folks: long memory and roughness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant