CN111914954A - 数据分析方法、装置及存储介质 - Google Patents

数据分析方法、装置及存储介质 Download PDF

Info

Publication number
CN111914954A
CN111914954A CN202010961497.9A CN202010961497A CN111914954A CN 111914954 A CN111914954 A CN 111914954A CN 202010961497 A CN202010961497 A CN 202010961497A CN 111914954 A CN111914954 A CN 111914954A
Authority
CN
China
Prior art keywords
data
sub
sample data
type
dimensionality reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010961497.9A
Other languages
English (en)
Inventor
钱江奇
陆海俊
郭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010961497.9A priority Critical patent/CN111914954A/zh
Publication of CN111914954A publication Critical patent/CN111914954A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及数据处理技术领域,公开了一种数据分析方法,包括:获取与待分析项目相关的样本数据,并将所述样本数据依据不同的指标进行划分得到多个子样本数据;将所述多个子样本数据中的每个所述子样本数据分别进行第一次降维,得到每个所述子样本数据的降维数据集;对所有的所述降维数据集共同进行二次降维,得到表征所述待分析项目的全局特征数据集。本发明中提供一种数据分析方法、装置及存储介质,能够较好地保留数据特征。

Description

数据分析方法、装置及存储介质
技术领域
本发明实施例涉及数据处理技术领域,特别涉及一种数据分析方法、装置及存储介质。
背景技术
随着机器学习的不断发展,在海量数据世界里如何分析出数据之间的相关性,寻找数据规律,通过采集海量数据如何分析解决特征问题。通常情况下,海量数据的复杂维度会使得数据关系稀疏,很难进行距离等的计算,从而出现数据特征冗余。
为了解决这些问题就产生了降维思想,然而,发明人发现现有技术中利用线性降维方法进行数据分析,虽然计算成本较低,但数据特征无法保留。
发明内容
本发明实施方式的目的在于提供一种数据分析方法、装置及存储介质,能够较好地保留数据特征。
为解决上述技术问题,本发明的实施方式提供了一种数据分析方法,包括:获取与待分析项目相关的样本数据,并将所述样本数据依据不同的指标进行划分得到多个子样本数据;将所述多个子样本数据中的每个所述子样本数据分别进行第一次降维,得到每个所述子样本数据的降维数据集;对所有的所述降维数据集共同进行二次降维,得到表征所述待分析项目的全局特征数据集。
另外,所述将所述多个子样本数据中每个所述子样本数据分别进行第一次降维,包括:将所述多个子样本数据划分为第一类子样本数据和第二类子样本数据,其中,所述第一类样本数据的复杂度高于所述第二类子样本数据的复杂度;对所述第一类子样本数据进行非线性降维,并对所述第二类子样本数据进行线性降维。
另外,所述将所述多个子样本数据划分为第一类子样本数据和第二类子样本数据,包括:确定每个所述子样本数据中的标签数目;获取所述标签数目小于或等于所述预设阈值的子样本数据;根据所述标签数目小于或等于所述预设阈值的子样本数据,确定所述第一类子样本数据;将所述标签数目大于所述预设阈值的子样本数据作为所述第二类子样本数据。
另外,所述根据所述标签数目小于或等于所述预设阈值的子样本数据,确定所述第一类子样本数据,包括:对所述标签数目小于或等于所述预设阈值的子样本数据分别进行聚类;将聚类后簇间有交叉的所述子样本数据作为所述第一类子样本数据;将聚类后簇间无交叉的所述子样本数据作为所述第二类子样本数据。
另外,所述对所述第一类子样本数据进行非线性降维,包括:利用多项式核函数将所述第一类子样本数据映射到高维空间,得到高维度核矩阵;计算所述高维度核矩阵的多个特征值以及与每个所述特征值对应的特征向量;对所有所述特征向量进行正交化以及单位化处理;将所述多个特征值按贡献率由高到低进行排序,并取前N个特征值对应的正交化以及单位化后的特征向量组成第一降维矩阵;利用所述第一降维矩阵对所述第一类子样本数据进行降维。
另外,所述多项式核函数中加入了所述第一类子样本数据的基础影响数据,所述基础影响数据为会对所述第一类子样本数据中其他数据产生影响的数据。
另外,所述待分析项目包括大屏业务,与所述大屏业务相关的所述多个子样本数据至少包括:与业务发展相关的数据、与用户发展相关的数据;所述对所述第一类子样本数据进行非线性降维,并对所述第二类子样本数据进行线性降维,包括:对所述与用户发展相关的数据进行非线性降维,并对所述与业务发展相关的数据进行线性降维。
另外,所述对所有的所述降维数据集共同进行二次降维,包括:分别对每个所述子样本数据的降维数据集去中心化处理,并组成总降维数据集;计算所述总降维数据集的所有特征值以及与每个所述特征值对应的特征向量;将所述多个特征值按贡献率由高到低进行排序,并选取前M个特征值对应的特征向量;将选取的所述特征向量标准化后得到第二降维矩阵;利用所述第二降维矩阵对所述总降维数据集进行第二次降维。
本发明的实施方式还提供了一种数据分析装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据分析方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分析方法。
本发明实施方式相对于现有技术而言提供了一种数据分析方法,获取与待分析项目相关的样本数据,并将样本数据依据不同的指标进行划分得到多个子样本数据;将多个子样本数据中的每个子样本数据分别进行第一次降维,得到每个子样本数据的降维数据集,之后,对所有的降维数据集共同进行二次降维,得到表征待分析项目的全局特征数据集。本实施方式中在各自指标子空间下对每个子样本数据分别进行第一次降维分析,得到每个子样本数据的降维数据集,从而尽可能多地保留每个指标所对应的子样本数据的数据特征;然后,将所有子样本数据的降维数据集进行第二次降维到同一低维空间中,从而得出表征待分析项目的全局特征数据集,既能最大限度的保留数据的原始特征,又能最大化地简化数据。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式的数据分析方法的流程示意图;
图2是根据本发明第二实施方式的数据分析方法的流程示意图;
图3是根据本发明第二实施方式的与大屏业务相关的样本数据的示意图;
图4是根据本发明第三实施方式的数据分析装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种数据分析方法,本实施方式的核心在于获取与待分析项目相关的样本数据,并将样本数据依据不同的指标进行划分得到多个子样本数据;将多个子样本数据中的每个子样本数据分别进行第一次降维,得到每个子样本数据的降维数据集,之后,对所有的降维数据集共同进行二次降维,得到表征待分析项目的全局特征数据集。本实施方式中在各自指标子空间下对每个子样本数据分别进行第一次降维分析,得到每个子样本数据的降维数据集,从而尽可能多地保留每个指标所对应的子样本数据的数据特征;然后,将所有子样本数据的降维数据集进行第二次降维到同一低维空间中,从而得出表征待分析项目的全局特征数据集,既能最大限度的保留数据的原始特征,又能最大化地简化数据。
下面对本实施方式的数据分析方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施方式中的数据分析方法的流程示意图如图1所示:
步骤101:获取与待分析项目相关的样本数据,并将样本数据依据不同的指标进行划分得到多个子样本数据。
具体地说,待分析项目例如:视频业务、销售业务等。当待分析项目为视频业务时,与视频业务相关的所有样本数据大致包括:视频的种类、观看不同种类视频的用户情况、不同用户观看的所有视频的种类、用户对不同种类的视频的评分情况等等。当待分析项目为销售业务时,与销售业务相关的所有样本数据大致包括:销售的物品种类、购买不同物品的用户情况、不同用户购买的所有物品的种类以及数目、用户对不同种类的物品的反馈情况等等。
将所得到的样本数据依据不同的指标进行划分,例如:针对视频业务,可依据用户、视频种类、评分等三类指标进行样本数据的划分,得到三个子样本数据。同样的,针对销售业务,可依据用户、物品、反馈情况等三类指标进行样本数据的划分。
但在实际应用中,待分析项目不限于本实施方式中的举例,对样本数据划分的指标也不限于本实施方式中的举例,可根据实际需要根据不同的待分析项目来设置不同的划分指标,本实施方式中对此不做限定。
值说明的是,在获取与待分析项目相关的样本数据之后,且在将样本数据依据不同的指标进行划分得到多个子样本数据之前,还包括:对样本数据进行去噪处理。从而去除样本数据中对待分析项目描述不准确的干扰数据,有利于子样本数据的划分。具体的去噪方法包括:3标准差去噪法、分箱去噪法、dbscan去噪法、孤立森林等。
步骤102:将多个子样本数据划分为第一类子样本数据和第二类子样本数据。
具体地说,第一类样本数据的复杂度高于第二类子样本数据的复杂度,本实施例中对高复杂度的第一类样本数据进行非线性降维,对低复杂度的第二类子样本数据进行线性降维,如此,既能够避免仅使用非线性降维方法带来的高计算成本,又能够避免仅使用线性降维方法带来的数据特征不明显的弊端,在保留原始数据特征的同时,节约了计算成本。
以视频业务为例,依据用户、视频种类、评分等三类指标进行样本数据的划分,得到三个子样本数据。在与用户相关的子样本数据中,为每个用户设置一个标签,但由于子样本数据中除注册用户外,还包括:激活用户、活跃用户、沉默用户等多种样本数据,而这些数据交叉在一起,因此,与用户相关的子样本数据中的标签数目往往远小于与用户相关的子样本数据的样本总数目。针对这一类数据交叉在一起、标签数目较少的子样本数据,由于其复杂性较高,因此,本实施例中采用非线性降维的方式对该子样本数据在其子空间内进行第一次降维,能够得到较好的数据特征。
而与视频种类相关的子样本数据中,为每个视频种类设置一个标签,由于与视频种类相关的子样本数据中均带有标签,标签数目基本上等同于与视频种类相关的子样本数据的样本总数目,子样本数据已经能够很好地体现出与视频种类相关的数据特征。因此,本实施例中针对这一类明显带有标签的子样本数据无需进行复杂的非线性降维,仅进行线性降维,便能够得到较好的数据特征。
本实施例中具体通过以下方式对多个子样本数据进行划分:
确定每个子样本数据中的标签数目;获取标签数目小于或等于预设阈值的子样本数据;根据标签数目小于或等于预设阈值的子样本数据,确定第一类子样本数据;将标签数目大于预设阈值的子样本数据作为第二类子样本数据。
根据标签数目小于或等于预设阈值的子样本数据,确定第一类子样本数据,包括:对标签数目小于或等于设阈值的子样本数据分别进行聚类;将聚类后簇间有交叉的子样本数据作为第一类子样本数据;将聚类后簇间无交叉的子样本数据作为第二类子样本数据。
具体地说,本实施例中通过设置一预设阈值以及利用聚类方法来衡量子样本数据的复杂度。当子样本数据的标签数目小于或等于该预设阈值时,认为子样本数据的复杂度较低,可使用线性降维方法进行处理。当子样本数据的标签数目大于该预设阈值时,利用聚类方法对子样本数据分析,认为聚类后簇间有交叉的子样本数据,复杂度较高,需要使用非线性降维方法进行处理;而聚类后簇间无交叉的子样本数据复杂度较低,依然可使用线性降维方法进行处理。
其中,预设阈值可根据子样本数据的总数目来相应设置,例如:预设阈值可以为子样本数据的总数目的三分之二。本实施方式中预设阈值可以由用户根据实际需要自行设置,当然在实际应用中,也可采取其他衡量子样本数据复杂度的标准来对子样本数据的复杂度进行划分,只要是针对复杂度高的子样本数据进行非线性降维处理,对复杂度低的子样本数据进行线性降维处理的实现方案,都在本实施方式的保护范围之内。
步骤103:对第一类子样本数据进行非线性降维,并对第二类子样本数据进行线性降维。
本实施例中对第一类子样本数据进行非线性降维,具体如下所述:
利用多项式核函数将第一类子样本数据映射到高维空间,得到高维度核矩阵;计算高维度核矩阵的多个特征值以及与每个特征值对应的特征向量;对所有特征向量进行正交化以及单位化处理;将多个特征值按贡献率由高到低进行排序,并取前N个特征值对应的正交化以及单位化后的特征向量组成第一降维矩阵;利用第一降维矩阵对第一类子样本数据进行降维。
进一步地,多项式核函数中加入了第一类子样本数据的基础影响数据,基础影响数据为会对第一类子样本数据中其他数据产生影响的数据。本实施例中将基础影响数据对其他数据的影响因素考虑在内,使用该改进后的KPCA非线性降维方法进行分析,保留数据特征的同时,又考虑到基础指标因素对其他的指标数据的影响,对第一类子样本数据进行降维得到的数据能够更加准确地表示出第一类子样本数据的数据特征。
具体地说,本实施例中改进后的多项式核函数如下公式(1)所示:
φ(xk,xj)=[b*s(xk,xj)+d*x1+c] (1)
其中,k表示该第一类子样本数据的维度空间,x1为基础影响数据,b、c、d分别为常数,s(xk,xj)为一般的多项式函数。于是,xk映射到了维度为l的高维度特征空间后得到高维度核矩阵φc=[φ(x1)…φ(xl)]。
然后,通过如下公式(2)中心化高维度核矩阵φc,修正核矩阵,使得均值为0。
Figure BDA0002680717940000061
之后,通过如下公式(3)计算中心化后高维度核矩阵φc的协方差矩阵C:
Figure BDA0002680717940000062
再通过如下公式(4)根据协方差矩阵计算高维度核矩阵的特征值、以及与特征值对应的特征向量:
Figure BDA0002680717940000063
其中,γ为特征值,不小于0;
Figure BDA0002680717940000064
为与特征至对应的特征向量。
最后,对所有特征向量进行施密特正交化、并单位化所有特征向量,并将多个特征值按贡献率由高到低进行排序,并取前N个特征值对应的正交化以及单位化后的特征向量组成第一降维矩阵,利用第一降维矩阵对第一类子样本数据进行降维。由于特征值决定方差的大小,特征值越大则含有的有用信息越多,因此本实施例中取贡献率较大的前N个特征值所对应的正交化以及单位化后的特征向量来组成第一降维矩阵。其中,N大于0,可由用户根据实际需要自行设置其大小,本实施方式中不做具体限定。
本实施例中对第二类子样本数据进行线性降维,具体如下所述:
使用线性判别分析(Linear Discriminant Analysis,简称LDA),以下简称方法LDA分析方法,对复杂度较低的数据进行局部初步降维,从而降低后续进一步综合分析的数据复杂度。
LDA分析方法将这些带有明显标签、复杂度较低的第二类子样本数据通过投影的方法,投影到维度更低的空间,从而形成类别区分。将第二类子样本数据向低维度投影,得到一个超平面d维空间。那么对应的基向量矩阵W如下公式(5)所示:
W=(w1,w2,w3,…,wd) (5)
具体的,可以通过以下公式(6)中的LDA优化目标函数J(W)将基向量矩阵W进行降维。
Figure BDA0002680717940000071
其中,类内散度矩阵Sw如下公式(7)所示:
Figure BDA0002680717940000072
类间散度矩阵Sb如下公式(8)所示:
Figure BDA0002680717940000073
上述公式(7)和(8)中,μ为所有数据的均值向量,Xj为第j类数据的集合,Nj为第j类数据的个数。
值得说明的是,在实际应用中,对于一些低维度数据不需要进行降维处理,例如:维度数小于3的数据。只需要根据网络质量的数据范围特征去除异常数据即可,去除明显不在真实区间范围的异常数据值,以免影响进一步的分析。
步骤104:得到每个子样本数据的降维数据集,对所有的降维数据集共同进行二次降维,得到表征待分析项目的全局特征数据集。
具体地说,在对各个子样本数据在其子空间内分别进行第一次降维处理后,使用线性降维方法对第一次降维后得到的所有的降维数据集共同进行二次降维,降维到同一低维空间中,从而得出最终的表征待分析项目的全局特征数据集,该全局特征数据集既能最大限度的保留数据的原始特征,又最大化地简化了样本数据,还进一步降低了计算成本。
本实施例中对初步降维后的数据使用主成分分析方法(principal componentsanalysis,PCA)算法进行再次降维,在特征数据离散化处理下进一步使用PCA降维,尽可能多地保留数据原始特征的,有效地反应出数据的整体特征;同时,进一步降低整体数据分析计算成本。具体包括:分别对每个子样本数据的降维数据集去中心化处理,并组成总降维数据集;计算总降维数据集的所有特征值以及与每个特征值对应的特征向量;将多个特征值按贡献率由高到低进行排序,并选取前M个特征值对应的特征向量;将选取的特征向量标准化后得到第二降维矩阵;利用第二降维矩阵对总降维数据集进行第二次降维。
具体地说,使用PCA算法进行第二次降维,投影到一个更低维度的超平面上,从而综合分析出表征待分析项目的全局特征数据集。假设最终得到的降维数据集为三个,其中,第一样本数据初次降维后的n维数据集如下公式(9)所示:
X=(x(1),x(2),…x(n)) (9)
通过如下公式(10)对n维数据集进行去中心化处理。
Figure BDA0002680717940000081
第一样本数据初次降维后的d维数据集如下公式(11)所示:
U=(μ(1),μ(2),…μ(d)) (11)
通过如下公式(12)对d维数据集进行去中心化处理。
Figure BDA0002680717940000082
第一样本数据初次降维后的m维数据集如下公式(13)所示:
W=(w(1),w(2),…w(m)) (13)
通过如下公式(14)对m维数据集进行去中心化处理。
Figure BDA0002680717940000083
分别对每个子样本数据的降维数据集去中心化处理后,组成总降维数据集,计算总降维数据集的所有特征值以及与每个特征值对应的特征向量。将多个特征值按贡献率由高到低进行排序,并选取前M个特征值对应的特征向量(γ1,γ2,…γM),将选取的特征向量标准化后得到第二降维矩阵W;利用第二降维矩阵W对总降维数据集进行第二次降维。
具体地,对总降维数据集中的每一个数据x(i)通过以下公式(15)进行转化,得到表征待分析项目的全局特征数据集Z(i),更准确地体现出待分析项目的的综合发展情况。
Z(i)=WTx(i) (15)
目前现有的降维分析方法主要分为线性降维方法,保留局部特征的非线性降维方法和保留全局特征的非线性降维方法三大类。
PCA是目前最常用的线性降维方法,将高维的数据映射到低维的空间中表示,以在所投影的维度上数据的方差最大来保留住较多的原始数据的特性。PCA是丢失原始数据信息最少的一种线性降维方法,降维后的数据最接近原始数据的线性降维方法。但是这样投影以后的数据的区分作用不大,可能使得数据点揉杂在一起无法区分,从而在很多情况下分类效果并不好。
局部线性嵌入(Locally Linear Embedding,LLE)是一种保留局部特征的非线性降维方法。该算法认为每个数据点都可以由其近邻点的线性加权组合构造得到。使用该方法降维后的数据能较好地保持原有流形结构,但是LLE在有些情况下也并不适用,如果数据分布在封闭的球面上,LLE则不能将它映射到二维空间,而且不能保持原有的数据流形。
核主成分分析KPCA是一种很经典的保留全局特征的非线性降维方法,将非线性可分的数据转换到一个适合对齐进行线性分类的新的低维子空间上,并通过线性分类器对样本对其划分,该方法的明显缺点是计算成本高。
与上述现有技术相比,本发明实施方式提供了一种数据分析方法,通过对各子样本数据在各自主体指标子空间下分别进行第一次降维分析,线性降维与非线性方法在各自子空间选择性使用,尽可能在保留原始特征的同时节约计算成本,对局部数据处理更灵活有效;然后,将得到的所有降维数据集使用PCA算法进行第二次降维,二次降维到同一低维空间中,从而得到表征待分析项目的全局特征数据集,尽可能多地保留数据全局特征,同时节约整体数据分析计算成本。
本发明的第二实施方式涉及一种数据分析方法。第二实施方式与第一实施方式大致相同,不同之处在于,本实施方式中待分析项目包括大屏业务,从而实现对大屏业务的数据分析。
本实施方式中的数据分析方法的流程示意图如图2所示,具体包括:
步骤201:获取与大屏业务相关的样本数据,将样本数据依据不同的指标进行划分得到与业务发展相关的数据、与用户发展相关的数据。
具体的说,通过对大屏业务发展的海量数据分析,衡量大屏业务发展情况的指标主要分为用户发展、业务发展、质量保障三大方面。而三大主指标的各自情况反应的数据又错综复杂,没有衡量的总体标准,因此无法宏观反应各省份大屏业务的总体发展情况,因此,需要对获取到的与大屏业务相关的样本数据进行降维处理。首先,将采集的海量数据去噪处理后,按不同的业务指标写入不同的分区中。最终,海量明细数据被划分成如图3所示:与用户发展相关的数据、与业务发展相关的数据、与质量保障相关的数据三大主要子样本数据。
值得说明的是,如图3所示,实际项目中与质量保障相关的数据类别清晰简单,不会出现数据重叠交错等现象,因此,无需对与质量保障相关的数据进行第一次。只需要根据网络质量的数据范围特征去除异常数据即可,去除明显不在真实区间范围的异常数据值,以免影响进一步的分析。
步骤202:对与用户发展相关的数据进行非线性降维,并对与业务发展相关的数据进行线性降维。
具体的说,与用户发展相关的数据随着大屏业务的发展越来越多,如注册用户、激活用户、活跃用户、沉默用户等等。指标数据越来越多,在分析过程中很可能导致数据交叉在一起(如图3所示),导致最终的结果不准确。于是本方案提出先对该与用户发展相关的数据在其子空间内进行与第一实施方式相同的改进后的KPCA非线性降维,既能尽可能多地保留局部数据的特征,又能初步降低数据维度,从而降低数据的复杂度。具体的KPCA非线性降维方法参照第一实施方式,本实施方式中不再赘述。
值得说明的是,由于与用户发展相关的数据有用户注册、激活、开机、观看时长等等,其都是基于用户的注册,注册用户越多则用激活等指标数量也呈现一定的增长趋势。因此,大屏业务领域在对与用户发展相关的数据进行非线性降维时,基础影响数据为用户注册数目。
同样的,与业务发展相关的数据也会随着大屏业务的发展与日俱增,业务数据虽然繁杂但是数据明显都带有业务标签,本实施例中将与业务发展相关的数据作为第二类样本数据,利用第一实施方式中LDA线性降维方法对与业务发展相关的数据第一次降维。具体的LDA线性降维方法参照第一实施方式,本实施方式中不再赘述。
步骤203:得到每个子样本数据的降维数据集,对所有的降维数据集共同进行二次降维,得到表征待分析项目的全局特征数据集。具体地说,利用PCA线性降维方法对所有的降维数据集共同进行二次降维,具体的PCA线性降维方法参照第一实施方式,本实施方式中不再赘述。
与现有技术相比,本发明实施方式中提出一种数据分析方法,对与用户发展相关的数据进行非线性降维,对与业务发展相关的数据进行线性降维,在各子样本数据中实现线性降维与非线性方法的选择性使用,尽可能在保留原始特征的同时节约计算成本,对局部数据处理更灵活有效;然后,将得到的所有降维数据集使用PCA算法进行第二次降维,二次降维到同一低维空间中,以此实现对大屏业务相关的数据实现数据分析,得到表征大屏业务的全局特征数据集,尽可能多地保留数据全局特征,同时节约整体数据分析计算成本。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种数据分析装置,如图4所示,包括至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述的数据分析方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。
本发明的第四实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分析方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
获取与待分析项目相关的样本数据,并将所述样本数据依据不同的指标进行划分得到多个子样本数据;
将所述多个子样本数据中的每个所述子样本数据分别进行第一次降维,得到每个所述子样本数据的降维数据集;
对所有的所述降维数据集共同进行二次降维,得到表征所述待分析项目的全局特征数据集。
2.根据权利要求1所述的数据分析方法,其特征在于,所述将所述多个子样本数据中每个所述子样本数据分别进行第一次降维,包括:
将所述多个子样本数据划分为第一类子样本数据和第二类子样本数据,其中,所述第一类样本数据的复杂度高于所述第二类子样本数据的复杂度;
对所述第一类子样本数据进行非线性降维,并对所述第二类子样本数据进行线性降维。
3.根据权利要求2所述的数据分析方法,其特征在于,所述将所述多个子样本数据划分为第一类子样本数据和第二类子样本数据,包括:
确定每个所述子样本数据中的标签数目;
获取所述标签数目小于或等于预设阈值的子样本数据;
根据所述标签数目小于或等于所述预设阈值的子样本数据,确定所述第一类子样本数据;
将所述标签数目大于所述预设阈值的子样本数据作为所述第二类子样本数据。
4.根据权利要求3所述的数据分析方法,其特征在于,所述根据所述标签数目小于或等于所述预设阈值的子样本数据,确定所述第一类子样本数据,包括:
对所述标签数目小于或等于所述预设阈值的子样本数据分别进行聚类;
将聚类后簇间有交叉的所述子样本数据作为所述第一类子样本数据;
将聚类后簇间无交叉的所述子样本数据作为所述第二类子样本数据。
5.根据权利要求2所述的数据分析方法,其特征在于,所述对所述第一类子样本数据进行非线性降维,包括:
利用多项式核函数将所述第一类子样本数据映射到高维空间,得到高维度核矩阵;
计算所述高维度核矩阵的多个特征值以及与每个所述特征值对应的特征向量;
对所有所述特征向量进行正交化以及单位化处理;
将所述多个特征值按贡献率由高到低进行排序,并取前N个特征值对应的正交化以及单位化后的特征向量组成第一降维矩阵;
利用所述第一降维矩阵对所述第一类子样本数据进行降维。
6.根据权利要求5所述的数据分析方法,其特征在于,所述多项式核函数中加入了所述第一类子样本数据的基础影响数据,所述基础影响数据为会对所述第一类子样本数据中其他数据产生影响的数据。
7.根据权利要求2所述的数据分析方法,其特征在于,所述待分析项目包括大屏业务,与所述大屏业务相关的所述多个子样本数据至少包括:与业务发展相关的数据、与用户发展相关的数据;
所述对所述第一类子样本数据进行非线性降维,并对所述第二类子样本数据进行线性降维,包括:
对所述与用户发展相关的数据进行非线性降维,并对所述与业务发展相关的数据进行线性降维。
8.根据权利要求1所述的数据分析方法,其特征在于,所述对所有的所述降维数据集共同进行二次降维,包括:
分别对每个所述子样本数据的降维数据集去中心化处理,并组成总降维数据集;
计算所述总降维数据集的所有特征值以及与每个所述特征值对应的特征向量;
将所述多个特征值按贡献率由高到低进行排序,并选取前M个特征值对应的特征向量;
将选取的所述特征向量标准化后得到第二降维矩阵;
利用所述第二降维矩阵对所述总降维数据集进行第二次降维。
9.一种数据分析装置,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的数据分析方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一所述的数据分析方法。
CN202010961497.9A 2020-09-14 2020-09-14 数据分析方法、装置及存储介质 Pending CN111914954A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010961497.9A CN111914954A (zh) 2020-09-14 2020-09-14 数据分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010961497.9A CN111914954A (zh) 2020-09-14 2020-09-14 数据分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111914954A true CN111914954A (zh) 2020-11-10

Family

ID=73266292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010961497.9A Pending CN111914954A (zh) 2020-09-14 2020-09-14 数据分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111914954A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126931A (zh) * 2022-12-08 2023-05-16 湖北华中电力科技开发有限责任公司 一种配电台区用电数据挖掘方法、装置、系统及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
CN1647109A (zh) * 2002-04-19 2005-07-27 计算机联合思想公司 用分级显像法观察多维数据
CN104408440A (zh) * 2014-12-10 2015-03-11 重庆邮电大学 一种基于两步降维和并行特征融合的人脸表情识别方法
CN104616000A (zh) * 2015-02-27 2015-05-13 苏州大学 一种人脸识别方法和装置
CN105095964A (zh) * 2015-08-17 2015-11-25 杭州朗和科技有限公司 一种数据处理方法和装置
CN107562908A (zh) * 2017-09-08 2018-01-09 西安理工大学 一种基于聚类的分步式数据降维方法
CN109324595A (zh) * 2018-09-19 2019-02-12 西安理工大学 一种基于增量pca的工业监测数据分类方法
KR20200010671A (ko) * 2018-07-06 2020-01-31 에임시스템 주식회사 기계 학습 기반의 설비 이상 진단 시스템 및 방법
CN111062291A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军航空大学 一种机器人视觉跟踪方法及系统
CN111339212A (zh) * 2020-02-13 2020-06-26 深圳前海微众银行股份有限公司 样本聚类方法、装置、设备及可读存储介质
CN111476100A (zh) * 2020-03-09 2020-07-31 咪咕文化科技有限公司 基于主成分分析的数据处理方法、装置及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
CN1647109A (zh) * 2002-04-19 2005-07-27 计算机联合思想公司 用分级显像法观察多维数据
CN104408440A (zh) * 2014-12-10 2015-03-11 重庆邮电大学 一种基于两步降维和并行特征融合的人脸表情识别方法
CN104616000A (zh) * 2015-02-27 2015-05-13 苏州大学 一种人脸识别方法和装置
CN105095964A (zh) * 2015-08-17 2015-11-25 杭州朗和科技有限公司 一种数据处理方法和装置
CN107562908A (zh) * 2017-09-08 2018-01-09 西安理工大学 一种基于聚类的分步式数据降维方法
KR20200010671A (ko) * 2018-07-06 2020-01-31 에임시스템 주식회사 기계 학습 기반의 설비 이상 진단 시스템 및 방법
CN109324595A (zh) * 2018-09-19 2019-02-12 西安理工大学 一种基于增量pca的工业监测数据分类方法
CN111062291A (zh) * 2019-12-10 2020-04-24 中国人民解放军海军航空大学 一种机器人视觉跟踪方法及系统
CN111339212A (zh) * 2020-02-13 2020-06-26 深圳前海微众银行股份有限公司 样本聚类方法、装置、设备及可读存储介质
CN111476100A (zh) * 2020-03-09 2020-07-31 咪咕文化科技有限公司 基于主成分分析的数据处理方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116126931A (zh) * 2022-12-08 2023-05-16 湖北华中电力科技开发有限责任公司 一种配电台区用电数据挖掘方法、装置、系统及存储介质
CN116126931B (zh) * 2022-12-08 2024-02-13 湖北华中电力科技开发有限责任公司 一种配电台区用电数据挖掘方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
Zhu et al. Low-rank sparse subspace for spectral clustering
Cai et al. Unsupervised feature selection for multi-cluster data
Dy et al. Feature selection for unsupervised learning
Lu Embedded feature selection accounting for unknown data heterogeneity
Alzate et al. Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA
Zong et al. Weighted extreme learning machine for imbalance learning
Kang et al. Clustering with similarity preserving
CA3066029A1 (en) Image feature acquisition
US20160242699A1 (en) System and method for evaluating a cognitive load on a user corresponding to a stimulus
CN111062428A (zh) 一种高光谱图像的聚类方法、系统及设备
Chen et al. Sparsity-regularized feature selection for multi-class remote sensing image classification
Arriaga et al. Visual categorization with random projection
CN116610831A (zh) 语义细分及模态对齐推理学习跨模态检索方法及检索系统
Sisodia et al. Fast and accurate face recognition using SVM and DCT
Münch et al. Data-driven supervised learning for life science data
Belabbas et al. On landmark selection and sampling in high-dimensional data analysis
CN111914954A (zh) 数据分析方法、装置及存储介质
Mahdavi et al. Unsupervised feature selection for noisy data
Dougherty et al. Feature extraction and selection
Giraldo et al. Weighted feature extraction with a functional data extension
Liu et al. Learning robust graph hashing for efficient similarity search
Riche Study of Parameters Affecting Visual Saliency Assessment
Tang et al. On the relevance of linear discriminative features
Zhu et al. Normalized dimensionality reduction using nonnegative matrix factorization
Arcolano et al. Nyström approximation of Wishart matrices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination