CN116342903A - 一种基于大数据的用户数据分析方法及分析系统 - Google Patents

一种基于大数据的用户数据分析方法及分析系统 Download PDF

Info

Publication number
CN116342903A
CN116342903A CN202310537667.4A CN202310537667A CN116342903A CN 116342903 A CN116342903 A CN 116342903A CN 202310537667 A CN202310537667 A CN 202310537667A CN 116342903 A CN116342903 A CN 116342903A
Authority
CN
China
Prior art keywords
data
target user
matrix
training
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310537667.4A
Other languages
English (en)
Other versions
CN116342903B (zh
Inventor
王晓宇
王安杰
刘学文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Anxun Technology Co ltd
Original Assignee
Jinan Anxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Anxun Technology Co ltd filed Critical Jinan Anxun Technology Co ltd
Priority to CN202310537667.4A priority Critical patent/CN116342903B/zh
Publication of CN116342903A publication Critical patent/CN116342903A/zh
Application granted granted Critical
Publication of CN116342903B publication Critical patent/CN116342903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据分析技术领域,具体涉及一种基于大数据的用户数据分析方法及分析系统。该方法包括对训练数据进行降维处理,得到新的特征矩阵,通过多方向映射,实时地对目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。本发明通过对数据进行光谱分析,实现了对数据特征的有效提取和分析,提高了数据的利用率和效率。本发明实现了更精确的数据分析和数据挖掘,为数据处理和应用提供了更加高效、准确的手段。

Description

一种基于大数据的用户数据分析方法及分析系统
技术领域
本发明属于数据分析技术领域,具体涉及一种基于大数据的用户数据分析方法及分析系统。
背景技术
随着大数据时代的到来,越来越多的数据被收集和存储,人们对数据的分析需求也越来越迫切。然而,大量的数据集中在一起并不一定能够直观地揭示数据的内在规律,需要进行数据挖掘和分析才能提取有用的信息。传统的数据分析方法主要依赖于数据分析师的经验和知识,但这种方法在面对大规模、高维度的数据时效率低下,且容易受到主观因素的影响。因此,自动化、智能化的数据分析方法越来越受到人们的重视。
在现有的技术中,主流的数据分析方法包括聚类、分类、回归等方法。这些方法主要通过对数据进行模式识别和模型拟合,来实现对数据的分析和预测。例如,K-means算法、支持向量机、决策树等方法在数据分析领域有广泛的应用。这些方法在分析小规模、低维度的数据时表现良好,但在面对高维度、大规模的数据时,由于存在“维数灾难”问题,这些方法的性能表现往往不尽如人意。
为了克服高维数据分析中的维数灾难问题,一些学者提出了基于降维技术的数据分析方法。这类方法主要通过将高维数据映射到低维空间中,来实现对数据的分析和预测。其中,主成分分析(PCA)是一种比较经典的降维方法,它通过线性变换将高维数据映射到低维空间中,以尽量保留数据的信息。此外,还有一些基于流形学习的降维方法,如等距映射(Isomap)、局部线性嵌入(LLE)等。
然而,这些传统的降维方法在实际应用中仍然存在一些问题。首先,它们往往只能对线性关系进行降维,对于非线性关系的数据无法有效处理。其次,这些方法的降维结果往往是静态的,无法反映数据的动态变化。此外,这些方法对于噪声和异常点的敏感度较高,容易受到数据噪声和异常点的干扰,从而影响数据分析的准确性和可靠性。
发明内容
本发明的主要目的在于提供一种基于大数据的用户数据分析方法及分析系统,其通过对训练数据进行训练来建立数据光谱,然后对每个目标用户数据绑定一个数据自分析器,这个数据自分析器不仅可以分析出目标用户数据点的特征,还可以在数据光谱中直接找到目标用户数据的位置,直观体现出目标用户数据的特征。
为解决上述技术问题,一方面,本发明提供一种基于大数据的用户数据分析方法,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
进一步的,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
进一步的,所述步骤S1在获取训练数据后,还对获取到的训练数据进行基于弹性 网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特征矩阵
Figure SMS_1
,其 中
Figure SMS_2
的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始特征矩阵
Figure SMS_3
进行降维,得到降维后的特征矩阵
Figure SMS_4
;在降维后的特征矩阵中,每一行表示一个单独的训练 样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维后的每个数 据特征上的值。
进一步的,所述使用弹性网络算法对原始特征矩阵
Figure SMS_5
进行降维的方法包括:构建 弹性网络的目标函数,所述目标函数使用如下公式进行表示:
Figure SMS_6
其中,
Figure SMS_8
是目标值向量,
Figure SMS_7
是原始特征矩阵,
Figure SMS_15
是待求的系数向量,n是样本数,
Figure SMS_9
表示
Figure SMS_19
范数,
Figure SMS_12
表示
Figure SMS_20
范数,
Figure SMS_13
是正则化参数,
Figure SMS_21
Figure SMS_14
范数与
Figure SMS_22
范数的权重比; 通过最小化所述目标函数来得到系数向量
Figure SMS_11
,然后将原始特征矩阵
Figure SMS_17
与系数向量
Figure SMS_16
相乘, 得到降维后的特征矩阵
Figure SMS_23
Figure SMS_10
表示需要对
Figure SMS_18
进行求解的最小化问题。
进一步的,所述步骤S2中对训练数据进行多个方向的数据分析,得到训练数据在 各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协方差矩阵计算, 得到协方差矩阵
Figure SMS_24
;对协方差矩阵
Figure SMS_28
进行特征值分解,得到特征值和特征向量;对特征值进 行排序,选取前
Figure SMS_30
个最大的特征值和对应的特征向量,表示训练数据在前
Figure SMS_26
个方向上的数据 特征;将所选的前
Figure SMS_27
个特征向量组成新的特征矩阵
Figure SMS_29
,表示训练数据在前
Figure SMS_31
个方向上的数据 特征,新的特征矩阵
Figure SMS_25
中的各个元素值表示对应方向的数据特征值。
进一步的,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
进一步的,所述数据自分析器通过多方向映射的方式,以新的特征矩阵
Figure SMS_32
为目标, 实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的 值。
进一步的,所述数据自分析器进行多方向映射的过程包括:设目标用户数据的矩 阵为
Figure SMS_33
;对目标用户数据矩阵
Figure SMS_36
进行特征提取,得到原始特征矩阵
Figure SMS_39
;对原始特征矩阵
Figure SMS_35
进 行弹性网络降维,得到降维后的特征矩阵
Figure SMS_37
;将降维后的特征矩阵
Figure SMS_40
和新的特征矩阵
Figure SMS_41
进行 多方向映射,得到映射后的特征矩阵
Figure SMS_34
;对映射后的特征矩阵
Figure SMS_38
进行解码,得到目标用户数 据在各个方向的数据特征的值。
进一步的,所述将降维后的特征矩阵
Figure SMS_42
和新的特征矩阵
Figure SMS_43
进行多方向映射,得到 映射后的特征矩阵
Figure SMS_44
的方法包括:对于目标用户数据中的每一个样本
Figure SMS_45
,使用最小化重构 误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量
Figure SMS_46
;所述最 小化重构误差的方法使用如下公式进行表示:
Figure SMS_47
其中,
Figure SMS_48
为训练数据降维后的特征矩阵,
Figure SMS_49
为映射系数向量,
Figure SMS_50
Figure SMS_51
为控制稀疏 性和平滑性的参数。
另一方面,本发明还提供了一种基于大数据的用户数据分析系统,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
本发明的一种基于大数据的用户数据分析方法及分析系统,具有以下有益效果:
1.多方向数据分析能力更强:
传统的数据分析方法往往只能对数据进行单一维度的分析,难以捕捉到数据中多个方向的信息。而本发明提供的方法可以在多个方向上对数据进行特征提取和分析,能够更全面地获取数据的特征,提高数据的分析能力。
2.降维处理提高了数据处理效率:
本发明中的弹性网络降维方法能够将高维度的数据降至较低的维度,减少了数据处理的时间和计算资源。同时,在降维的过程中,保留了数据中的主要特征,避免了信息的丢失。
3.数据光谱提高了数据可视化和可解释性:
本发明中的数据光谱能够将数据在多个方向上进行可视化,并且可以直观地展示数据在不同方向上的特征值,提高了数据的可视化和可解释性。通过对数据光谱的分析,用户可以更好地理解数据特征和数据之间的关系,从而做出更加准确的分析和决策。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于大数据的用户数据分析方法的方法流程示意图;
图2为本发明实施例提供的一种基于大数据的用户数据分析系统的系统结构示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
一种基于大数据的用户数据分析方法,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;这一步骤是为了构建数据分析模型,需要使用已经进行标注的用户数据进行训练。标注的数据指的是对用户数据进行了特征标记或分类的数据,可以作为训练模型的样本数据。在训练数据的基础上,可以通过多个方向的数据分析得到训练数据在各个方向的数据特征。
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
在该步骤中,所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。这些数据特征值反映了目标用户数据在不同方向上的表现,例如在某些方向上用户可能更倾向于点击广告,而在另一些方向上则更倾向于在应用程序中花费时间。因此,该数据自分析器可以提供有关目标用户数据的多方面信息,这有助于分析人员更好地了解目标用户,并在其基础上制定更有效的营销策略或改进产品设计。
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
在该步骤中,目标用户数据的位置在数据光谱中表示为一个点,该点沿着数据光谱的边界移动,其移动方向由目标用户数据在各个方向上的数据特征决定。具体地说,如果目标用户在某个方向上的数据特征值较高,则该点在该方向上向边界点的位置移动更远。通过这种方式,目标用户数据在数据光谱中的位置反映了其在不同方向上的表现,可以为分析人员提供有关目标用户在不同方面上的信息。
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
在该步骤中,将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。通过将目标用户数据的位置与数据光谱的边界进行比较,分析人员可以获得有关目标用户在不同方面上表现的信息,从而确定目标用户的需求和偏好。例如,如果目标用户数据的位置接近某个边界点,则可以认为该用户在与该边界点对应的方向上表现较好,可以针对其偏好和需求制定相应的产品或服务。通过该方法,可以更好地理解和满足目标用户的需求,从而提高产品的市场竞争力。
实施例2
在上一实施例的基础上,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
具体的,训练数据的标注内容的类别数量应该与数据分析时所考虑的方向数量相等。例如,如果数据分析是在3个方向(X、Y、Z)进行的,那么训练数据的标注内容应该有3个不同的类别。这是为了确保训练数据能够覆盖所有数据分析时所考虑的方向,以提高分析的准确性和可靠性。
实施例3
在上一实施例的基础上,所述步骤S1在获取训练数据后,还对获取到的训练数据 进行基于弹性网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特 征矩阵
Figure SMS_52
,其中
Figure SMS_53
的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始 特征矩阵
Figure SMS_54
进行降维,得到降维后的特征矩阵
Figure SMS_55
;在降维后的特征矩阵中,每一行表示一个 单独的训练样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维 后的每个数据特征上的值。
具体的,步骤S1在获取训练数据后,还对训练数据进行基于弹性网络的数据降维处理,目的是为了提高训练数据的处理效率和数据分析的准确性。具体过程包括特征提取、使用弹性网络算法对原始特征矩阵进行降维、生成降维后的特征矩阵,矩阵中的值表示每个训练样本在降维后的每个数据特征上的值。这些步骤都是为了减少训练数据的维度和复杂性,使其更易于处理和分析。使用弹性网络算法进行降维可以保留原始特征矩阵中的重要信息,同时能够去除不相关的信息,以提高分析的准确性。
实施例4
在上一实施例的基础上,所述使用弹性网络算法对原始特征矩阵
Figure SMS_56
进行降维的方 法包括:构建弹性网络的目标函数,所述目标函数使用如下公式进行表示:
Figure SMS_57
其中,
Figure SMS_60
是目标值向量,
Figure SMS_63
是原始特征矩阵,
Figure SMS_70
是待求的系数向量,n是样本数,
Figure SMS_58
表示
Figure SMS_71
范数,
Figure SMS_72
表示
Figure SMS_74
范数,
Figure SMS_62
是正则化参数,
Figure SMS_68
Figure SMS_61
范数与
Figure SMS_73
范数的权重比; 通过最小化所述目标函数来得到系数向量
Figure SMS_65
,然后将原始特征矩阵
Figure SMS_66
与系数向量
Figure SMS_59
相乘, 得到降维后的特征矩阵
Figure SMS_67
Figure SMS_64
表示需要对
Figure SMS_69
进行求解的最小化问题。
弹性网络是一种结合了
Figure SMS_75
Figure SMS_76
正则化的线性回归方法,可以通过控制正则化参 数
Figure SMS_77
Figure SMS_78
的值,达到降低模型复杂度和避免过拟合的目的。其中,
Figure SMS_79
正则化可以实现特征选 择,使得模型更加稀疏,而
Figure SMS_80
正则化则可以平衡模型的偏差和方差,使得模型泛化能力更 强。因此,使用弹性网络算法对原始特征矩阵X进行降维,可以得到更加紧凑、稀疏的特征表 示,从而提高了数据分析的效率和准确性。
在具体实现时,弹性网络算法的目标函数包括三部分:回归损失项、
Figure SMS_81
正则化项 和
Figure SMS_84
正则化项。回归损失项表示模型预测值与实际值之间的误差,
Figure SMS_86
正则化项和
Figure SMS_83
正则 化项则分别对应
Figure SMS_85
范数和
Figure SMS_87
范数的正则化惩罚。其中,
Figure SMS_88
Figure SMS_82
是需要根据具体问题和数据 集来确定的超参数,可以通过交叉验证等方法进行调优。
在构建弹性网络的目标函数后,通过最小化该目标函数来得到系数向量
Figure SMS_89
,其中
Figure SMS_93
的大小与
Figure SMS_96
矩阵的列数相等。然后,我们将原始特征矩阵
Figure SMS_91
与系数向量
Figure SMS_92
相乘,得到降维 后的特征矩阵
Figure SMS_95
,其中
Figure SMS_97
的大小与
Figure SMS_90
矩阵的行数相等。
Figure SMS_94
矩阵中的每一行代表一个单独的训 练样本,每一列表示一个具体的数据特征,矩阵中的值表示每个训练样本在降维后的每个 数据特征上的值。下面是最小化目标函数的详细过程:
初始化系数向量
Figure SMS_98
。通常情况下,可以使用随机初始化的方法来得到一个初始的
Figure SMS_99
向量。
计算目标函数中的第一个部分:
Figure SMS_100
其中,
Figure SMS_101
是样本数,
Figure SMS_102
是目标值向量,
Figure SMS_103
是原始特征矩阵,
Figure SMS_104
是待求的系数向量。
计算目标函数中的第二个部分:
Figure SMS_105
其中,
Figure SMS_106
是正则化参数,
Figure SMS_107
Figure SMS_108
范数与
Figure SMS_109
范数的权重比。
计算目标函数中的第三个部分:
Figure SMS_110
将第一部分、第二部分和第三部分相加,得到完整的目标函数。
使用梯度下降算法或者其他优化算法来最小化目标函数。具体来说,可以计算目 标函数的梯度,并根据梯度的方向来更新系数向量
Figure SMS_111
。这个过程会不断迭代,直到目标函数 的值达到一个最小值。
最终得到的系数向量
Figure SMS_112
,就是将原始特征矩阵
Figure SMS_113
降维后得到的特征矩阵
Figure SMS_114
所需的 系数向量。将原始特征矩阵
Figure SMS_115
与系数向量
Figure SMS_116
相乘,即可得到降维后的特征矩阵
Figure SMS_117
实施例5
在上一实施例的基础上,所述步骤S2中对训练数据进行多个方向的数据分析,得 到训练数据在各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协 方差矩阵计算,得到协方差矩阵
Figure SMS_120
;对协方差矩阵
Figure SMS_121
进行特征值分解,得到特征值和特征向 量;对特征值进行排序,选取前
Figure SMS_123
个最大的特征值和对应的特征向量,表示训练数据在前
Figure SMS_119
个方向上的数据特征;将所选的前
Figure SMS_122
个特征向量组成新的特征矩阵
Figure SMS_124
,表示训练数据在前
Figure SMS_125
个方向上的数据特征,新的特征矩阵
Figure SMS_118
中的各个元素值表示对应方向的数据特征值。
具体的,对训练数据的降维后的特征矩阵进行协方差矩阵计算,得到协方差矩阵
Figure SMS_126
Figure SMS_127
其中,
Figure SMS_128
表示降维后的特征矩阵,
Figure SMS_129
表示样本数。
对协方差矩阵
Figure SMS_130
进行特征值分解,得到特征值和特征向量:
Figure SMS_131
;其中,
Figure SMS_132
表 示特征向量矩阵,
Figure SMS_133
表示特征值向量,
Figure SMS_134
表示协方差矩阵。
对特征值进行排序,选取前
Figure SMS_135
个最大的特征值和对应的特征向量,表示训练数据在 前
Figure SMS_136
个方向上的数据特征:
Figure SMS_137
;其中,
Figure SMS_138
表示特征值的总数。
将所选的前
Figure SMS_139
个特征向量组成新的特征矩阵
Figure SMS_140
,表示训练数据在前
Figure SMS_141
个方向上的 数据特征,新的特征矩阵
Figure SMS_142
中的各个元素值表示对应方向的数据特征值:
Figure SMS_143
;其中,
Figure SMS_144
表示第
Figure SMS_145
个特征向量。
在特征值分解后,得到了协方差矩阵的特征值和特征向量。特征值描述了数据在 对应特征向量方向上的重要性,特征向量描述了数据在对应方向上的数据特征。通过对特 征值进行排序,我们可以确定哪些方向的数据特征对数据的影响最大,从而选择前
Figure SMS_146
个最大 的特征值和对应的特征向量,表示训练数据在前
Figure SMS_147
个方向上的数据特征。将所选的前
Figure SMS_148
个特 征向量组成新的特征矩阵
Figure SMS_149
,表示训练数据在前
Figure SMS_150
个方向上的数据特征,新的特征矩阵
Figure SMS_151
中 的各个元素值表示对应方向的数据特征值。
实施例6
在上一实施例的基础上,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
步骤S3中的数据自分析器是一个软件程序或插件,用于对数据进行分析和处理。它可以将目标用户数据集合转换为一个矩阵,然后与数据分析插件绑定到一起,形成一个数据包。该数据包包含了目标用户数据的矩阵以及数据分析插件所需的参数和算法。
具体来说,步骤S3中的数据自分析器可以实现以下功能:
数据转换:将目标用户数据集合转换为矩阵形式,方便进行数据分析和处理。
数据分析:根据用户需求和分析目的,使用不同的算法和技术对数据进行分析,提取数据的特征和规律。
数据处理:根据数据分析结果,对数据进行处理和优化,提高数据的质量和价值。
数据可视化:将数据分析结果可视化,以图表等形式呈现数据的特征和规律,方便用户理解和使用。
在步骤S3中,数据自分析器可以根据目标用户的需求和数据特点,选择合适的算法和技术进行数据分析。例如,可以使用聚类分析、分类分析、回归分析、主成分分析等方法,对数据进行特征提取和降维处理。同时,数据自分析器还可以根据用户的反馈和需求,对算法和技术进行调整和优化,提高数据分析的效果和准确性。
实施例7
在上一实施例的基础上,所述数据自分析器通过多方向映射的方式,以新的特征 矩阵
Figure SMS_152
为目标,实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方 向的数据特征的值。
具体的,对于所述数据包中的目标用户数据矩阵
Figure SMS_153
和新的特征矩阵
Figure SMS_154
,可以使用 多方向映射的方式进行数据分析。具体地,可以使用矩阵乘法,将目标用户数据矩阵
Figure SMS_155
与新 的特征矩阵
Figure SMS_156
相乘,得到目标用户数据在新的特征空间下的投影,即每个样本在新的特征 矩阵的每个方向上的投影值。这些投影值就可以表示目标用户数据在各个方向的数据特征 的值。由于新的特征矩阵
Figure SMS_157
是通过训练数据的降维和特征提取得到的,因此,新的特征矩阵 中的每一列都代表了一个训练数据在某个方向上的数据特征,从而可以通过投影值的大小 来分析目标用户数据在不同方向上的数据特征表现。
实施例8
在上一实施例的基础上,所述数据自分析器进行多方向映射的过程包括:设目标 用户数据的矩阵为
Figure SMS_160
;对目标用户数据矩阵
Figure SMS_161
进行特征提取,得到原始特征矩阵
Figure SMS_164
;对原始 特征矩阵
Figure SMS_159
进行弹性网络降维,得到降维后的特征矩阵
Figure SMS_162
;将降维后的特征矩阵
Figure SMS_165
和新的特 征矩阵
Figure SMS_166
进行多方向映射,得到映射后的特征矩阵
Figure SMS_158
;对映射后的特征矩阵
Figure SMS_163
进行解码,得 到目标用户数据在各个方向的数据特征的值。
具体的,特征提取:对目标用户数据矩阵
Figure SMS_167
进行特征提取,得到原始特征矩阵
Figure SMS_168
。这 个过程可以使用各种特征提取方法,例如主成分分析(PCA)、独立成分分析(ICA)、非负矩阵 分解(NMF)等。
弹性网络降维:对原始特征矩阵
Figure SMS_169
进行弹性网络降维,得到降维后的特征矩阵
Figure SMS_170
多方向映射:将降维后的特征矩阵
Figure SMS_171
和新的特征矩阵
Figure SMS_172
进行多方向映射,得到映 射后的特征矩阵
Figure SMS_173
。具体操作如下:
将降维后的特征矩阵
Figure SMS_174
和新的特征矩阵
Figure SMS_175
拼接在一起,得到一个新的矩阵
Figure SMS_176
对矩阵
Figure SMS_177
进行SVD分解,得到左奇异矩阵
Figure SMS_182
、奇异值矩阵
Figure SMS_184
和右奇异矩阵
Figure SMS_179
。这里我 们取前
Figure SMS_180
个最大的奇异值和对应的左奇异矩阵和右奇异矩阵,组成新的矩阵
Figure SMS_183
Figure SMS_185
,以及 对角线上为前
Figure SMS_178
个最大奇异值的对角矩阵
Figure SMS_181
计算新的特征矩阵
Figure SMS_186
解码:对映射后的特征矩阵
Figure SMS_187
进行解码,得到目标用户数据在各个方向的数据特 征的值。这个过程可以根据具体的需求进行解码,例如如果原始数据是图片,可以使用逆卷 积(deconvolution)进行解码,如果原始数据是文本,则可以使用词向量(word embeddings)进行解码。
实施例9
在上一实施例的基础上,所述将降维后的特征矩阵
Figure SMS_188
和新的特征矩阵
Figure SMS_189
进行多方 向映射,得到映射后的特征矩阵
Figure SMS_190
的方法包括:对于目标用户数据中的每一个样本
Figure SMS_191
,使用 最小化重构误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量
Figure SMS_192
;所述最小化重构误差的方法使用如下公式进行表示:
Figure SMS_193
其中,
Figure SMS_194
为训练数据降维后的特征矩阵,
Figure SMS_195
为映射系数向量,
Figure SMS_196
Figure SMS_197
为控制稀疏 性和平滑性的参数。
实施例10
一种基于大数据的用户数据分析系统,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
具体的,在实践中,目标用户数据可以是实时发生变化的,当目标用数据发生实时变化后,数据自分析器将再次对目标用户数据进行实时的数据分析,以此来调整目标用户数据在数据光谱的位置,以此实现对目标用户数据的实时分析和结果呈现。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (10)

1.一种基于大数据的用户数据分析方法,其特征在于,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
2.如权利要求1所述的方法,其特征在于,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
3.如权利要求2所述的方法,其特征在于,所述步骤S1在获取训练数据后,还对获取到的训练数据进行基于弹性网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特征矩阵
Figure QLYQS_1
,其中/>
Figure QLYQS_2
的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始特征矩阵/>
Figure QLYQS_3
进行降维,得到降维后的特征矩阵/>
Figure QLYQS_4
;在降维后的特征矩阵中,每一行表示一个单独的训练样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维后的每个数据特征上的值。
4.如权利要求3所述的方法,其特征在于,所述使用弹性网络算法对原始特征矩阵
Figure QLYQS_5
进行降维的方法包括:构建弹性网络的目标函数,所述目标函数使用如下公式进行表示:
Figure QLYQS_6
其中,
Figure QLYQS_13
是目标值向量,/>
Figure QLYQS_8
是原始特征矩阵,/>
Figure QLYQS_15
是待求的系数向量,n是样本数,/>
Figure QLYQS_12
表示/>
Figure QLYQS_16
范数,/>
Figure QLYQS_9
表示/>
Figure QLYQS_20
范数,/>
Figure QLYQS_21
是正则化参数,/>
Figure QLYQS_23
是/>
Figure QLYQS_14
范数与/>
Figure QLYQS_18
范数的权重比;通过最小化所述目标函数来得到系数向量/>
Figure QLYQS_7
,然后将原始特征矩阵/>
Figure QLYQS_19
与系数向量/>
Figure QLYQS_10
相乘,得到降维后的特征矩阵/>
Figure QLYQS_17
;/>
Figure QLYQS_11
表示需要对/>
Figure QLYQS_22
进行求解的最小化问题。
5.如权利要求4所述的方法,其特征在于,所述步骤S2中对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协方差矩阵计算,得到协方差矩阵
Figure QLYQS_26
;对协方差矩阵/>
Figure QLYQS_28
进行特征值分解,得到特征值和特征向量;对特征值进行排序,选取前/>
Figure QLYQS_29
个最大的特征值和对应的特征向量,表示训练数据在前/>
Figure QLYQS_24
个方向上的数据特征;将所选的前/>
Figure QLYQS_27
个特征向量组成新的特征矩阵/>
Figure QLYQS_30
,表示训练数据在前/>
Figure QLYQS_31
个方向上的数据特征,新的特征矩阵/>
Figure QLYQS_25
中的各个元素值表示对应方向的数据特征值。
6.如权利要求5所述的方法,其特征在于,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
7.如权利要求6所述的方法,其特征在于,所述数据自分析器通过多方向映射的方式,以新的特征矩阵
Figure QLYQS_32
为目标,实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。
8.如权利要求7所述的方法,其特征在于,所述数据自分析器进行多方向映射的过程包括:设目标用户数据的矩阵为
Figure QLYQS_33
;对目标用户数据矩阵/>
Figure QLYQS_36
进行特征提取,得到原始特征矩阵
Figure QLYQS_39
;对原始特征矩阵/>
Figure QLYQS_35
进行弹性网络降维,得到降维后的特征矩阵/>
Figure QLYQS_38
;将降维后的特征矩阵
Figure QLYQS_40
和新的特征矩阵/>
Figure QLYQS_41
进行多方向映射,得到映射后的特征矩阵/>
Figure QLYQS_34
;对映射后的特征矩阵/>
Figure QLYQS_37
进行解码,得到目标用户数据在各个方向的数据特征的值。
9.如权利要求8所述的方法,其特征在于,所述将降维后的特征矩阵
Figure QLYQS_42
和新的特征矩阵
Figure QLYQS_43
进行多方向映射,得到映射后的特征矩阵/>
Figure QLYQS_44
的方法包括:对于目标用户数据中的每一个样本/>
Figure QLYQS_45
,使用最小化重构误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量/>
Figure QLYQS_46
;所述最小化重构误差的方法使用如下公式进行表示:
Figure QLYQS_47
其中,
Figure QLYQS_48
为训练数据降维后的特征矩阵,/>
Figure QLYQS_49
为映射系数向量,/>
Figure QLYQS_50
和/>
Figure QLYQS_51
为控制稀疏性和平滑性的参数。
10.一种基于大数据的用户数据分析系统,应用如权利要求1-9任一所述的方法,其特征在于,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
CN202310537667.4A 2023-05-15 2023-05-15 一种基于大数据的用户数据分析方法及分析系统 Active CN116342903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310537667.4A CN116342903B (zh) 2023-05-15 2023-05-15 一种基于大数据的用户数据分析方法及分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310537667.4A CN116342903B (zh) 2023-05-15 2023-05-15 一种基于大数据的用户数据分析方法及分析系统

Publications (2)

Publication Number Publication Date
CN116342903A true CN116342903A (zh) 2023-06-27
CN116342903B CN116342903B (zh) 2023-08-18

Family

ID=86886091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310537667.4A Active CN116342903B (zh) 2023-05-15 2023-05-15 一种基于大数据的用户数据分析方法及分析系统

Country Status (1)

Country Link
CN (1) CN116342903B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054853A1 (en) * 2009-08-31 2011-03-03 International Business Machines Corporation Recovering the structure of sparse markov networks from high-dimensional data
CN112116017A (zh) * 2020-09-25 2020-12-22 西安电子科技大学 基于核保持的数据降维方法
US20210174207A1 (en) * 2019-12-05 2021-06-10 Sas Institute Inc. Analytic system for interactive direct functional principal component analysis
CN114490859A (zh) * 2022-01-18 2022-05-13 神策网络科技(北京)有限公司 数据展示方法、装置及电子设备
CN114723922A (zh) * 2022-02-24 2022-07-08 北京深势科技有限公司 基于数据降维的三维结构数据对比呈现方法和装置
CN114741442A (zh) * 2022-04-14 2022-07-12 国网河北省电力有限公司信息通信分公司 一种多维综合展示可视化数据展示平台
CN115687430A (zh) * 2021-07-23 2023-02-03 中国科学院地理科学与资源研究所 一种社交媒体用户行为轨迹建模与分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054853A1 (en) * 2009-08-31 2011-03-03 International Business Machines Corporation Recovering the structure of sparse markov networks from high-dimensional data
US20210174207A1 (en) * 2019-12-05 2021-06-10 Sas Institute Inc. Analytic system for interactive direct functional principal component analysis
CN112116017A (zh) * 2020-09-25 2020-12-22 西安电子科技大学 基于核保持的数据降维方法
CN115687430A (zh) * 2021-07-23 2023-02-03 中国科学院地理科学与资源研究所 一种社交媒体用户行为轨迹建模与分析方法
CN114490859A (zh) * 2022-01-18 2022-05-13 神策网络科技(北京)有限公司 数据展示方法、装置及电子设备
CN114723922A (zh) * 2022-02-24 2022-07-08 北京深势科技有限公司 基于数据降维的三维结构数据对比呈现方法和装置
CN114741442A (zh) * 2022-04-14 2022-07-12 国网河北省电力有限公司信息通信分公司 一种多维综合展示可视化数据展示平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHENG ZHANG 等: "Discriminative Elastic-Net Regularized Linear Regression", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 26, no. 3, pages 1466 - 1481, XP011641375, DOI: 10.1109/TIP.2017.2651396 *
荣雯雯 等: "基于正则化回归的变量选择方法在高维数据中的应用", 《实用预防医学》, vol. 25, no. 06, pages 645 - 648 *

Also Published As

Publication number Publication date
CN116342903B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
Zhang et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network
US11620521B2 (en) Smoothing regularization for a generative neural network
CN111191514A (zh) 一种基于深度学习的高光谱图像波段选择方法
CN109858518B (zh) 一种基于MapReduce的大型数据集聚类方法
US20150074130A1 (en) Method and system for reducing data dimensionality
CN111695494A (zh) 一种基于多视角卷积池化的三维点云数据分类方法
Tepper et al. Nonnegative matrix underapproximation for robust multiple model fitting
WO2021169160A1 (zh) 图像归一化处理方法及装置、存储介质
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN109241813A (zh) 用于非约束人脸识别的判别稀疏保持嵌入方法
CN115841596B (zh) 多标签图像分类方法及其模型的训练方法、装置
CN108764351B (zh) 一种基于测地距离的黎曼流形保持核学习方法及装置
Khan et al. A framework for head pose estimation and face segmentation through conditional random fields
CN103927554A (zh) 一种基于拓扑结构的图像稀疏表征面部表情特征提取系统和方法
Chen et al. Sparsity-regularized feature selection for multi-class remote sensing image classification
Xia et al. Unsupervised multi-domain multimodal image-to-image translation with explicit domain-constrained disentanglement
Zhao et al. A high-performance accelerator for super-resolution processing on embedded GPU
CN108776954B (zh) 用于生成图像的方法和装置
Ye et al. A multi-attribute controllable generative model for histopathology image synthesis
Liu et al. Identification of rice disease under complex background based on PSOC-DRCNet
CN116541006B (zh) 一种计算机人机交互界面的图形处理方法和装置
CN116342903B (zh) 一种基于大数据的用户数据分析方法及分析系统
CN114911778A (zh) 数据处理方法、装置、计算机设备及存储介质
Deng et al. Biological modeling of human visual system for object recognition using GLoP filters and sparse coding on multi-manifolds
Luo et al. Frequency information matters for image matting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A user data analysis method and analysis system based on big data

Granted publication date: 20230818

Pledgee: Huaxia Bank Co.,Ltd. Jinan Branch

Pledgor: Jinan Anxun Technology Co.,Ltd.

Registration number: Y2024980007588

PE01 Entry into force of the registration of the contract for pledge of patent right