CN116342903A - 一种基于大数据的用户数据分析方法及分析系统 - Google Patents
一种基于大数据的用户数据分析方法及分析系统 Download PDFInfo
- Publication number
- CN116342903A CN116342903A CN202310537667.4A CN202310537667A CN116342903A CN 116342903 A CN116342903 A CN 116342903A CN 202310537667 A CN202310537667 A CN 202310537667A CN 116342903 A CN116342903 A CN 116342903A
- Authority
- CN
- China
- Prior art keywords
- data
- target user
- matrix
- training
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000007405 data analysis Methods 0.000 title claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 154
- 238000012549 training Methods 0.000 claims abstract description 99
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 12
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000010183 spectrum analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 19
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2219—Large Object storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于数据分析技术领域,具体涉及一种基于大数据的用户数据分析方法及分析系统。该方法包括对训练数据进行降维处理,得到新的特征矩阵,通过多方向映射,实时地对目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。本发明通过对数据进行光谱分析,实现了对数据特征的有效提取和分析,提高了数据的利用率和效率。本发明实现了更精确的数据分析和数据挖掘,为数据处理和应用提供了更加高效、准确的手段。
Description
技术领域
本发明属于数据分析技术领域,具体涉及一种基于大数据的用户数据分析方法及分析系统。
背景技术
随着大数据时代的到来,越来越多的数据被收集和存储,人们对数据的分析需求也越来越迫切。然而,大量的数据集中在一起并不一定能够直观地揭示数据的内在规律,需要进行数据挖掘和分析才能提取有用的信息。传统的数据分析方法主要依赖于数据分析师的经验和知识,但这种方法在面对大规模、高维度的数据时效率低下,且容易受到主观因素的影响。因此,自动化、智能化的数据分析方法越来越受到人们的重视。
在现有的技术中,主流的数据分析方法包括聚类、分类、回归等方法。这些方法主要通过对数据进行模式识别和模型拟合,来实现对数据的分析和预测。例如,K-means算法、支持向量机、决策树等方法在数据分析领域有广泛的应用。这些方法在分析小规模、低维度的数据时表现良好,但在面对高维度、大规模的数据时,由于存在“维数灾难”问题,这些方法的性能表现往往不尽如人意。
为了克服高维数据分析中的维数灾难问题,一些学者提出了基于降维技术的数据分析方法。这类方法主要通过将高维数据映射到低维空间中,来实现对数据的分析和预测。其中,主成分分析(PCA)是一种比较经典的降维方法,它通过线性变换将高维数据映射到低维空间中,以尽量保留数据的信息。此外,还有一些基于流形学习的降维方法,如等距映射(Isomap)、局部线性嵌入(LLE)等。
然而,这些传统的降维方法在实际应用中仍然存在一些问题。首先,它们往往只能对线性关系进行降维,对于非线性关系的数据无法有效处理。其次,这些方法的降维结果往往是静态的,无法反映数据的动态变化。此外,这些方法对于噪声和异常点的敏感度较高,容易受到数据噪声和异常点的干扰,从而影响数据分析的准确性和可靠性。
发明内容
本发明的主要目的在于提供一种基于大数据的用户数据分析方法及分析系统,其通过对训练数据进行训练来建立数据光谱,然后对每个目标用户数据绑定一个数据自分析器,这个数据自分析器不仅可以分析出目标用户数据点的特征,还可以在数据光谱中直接找到目标用户数据的位置,直观体现出目标用户数据的特征。
为解决上述技术问题,一方面,本发明提供一种基于大数据的用户数据分析方法,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
进一步的,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
进一步的,所述步骤S1在获取训练数据后,还对获取到的训练数据进行基于弹性
网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特征矩阵,其
中的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始特征矩阵
进行降维,得到降维后的特征矩阵;在降维后的特征矩阵中,每一行表示一个单独的训练
样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维后的每个数
据特征上的值。
其中,是目标值向量,是原始特征矩阵,是待求的系数向量,n是样本数,表示范数,表示范数,是正则化参数,是范数与范数的权重比;
通过最小化所述目标函数来得到系数向量,然后将原始特征矩阵与系数向量相乘,
得到降维后的特征矩阵;表示需要对进行求解的最小化问题。
进一步的,所述步骤S2中对训练数据进行多个方向的数据分析,得到训练数据在
各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协方差矩阵计算,
得到协方差矩阵;对协方差矩阵进行特征值分解,得到特征值和特征向量;对特征值进
行排序,选取前个最大的特征值和对应的特征向量,表示训练数据在前个方向上的数据
特征;将所选的前个特征向量组成新的特征矩阵,表示训练数据在前个方向上的数据
特征,新的特征矩阵中的各个元素值表示对应方向的数据特征值。
进一步的,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
进一步的,所述数据自分析器进行多方向映射的过程包括:设目标用户数据的矩
阵为;对目标用户数据矩阵进行特征提取,得到原始特征矩阵;对原始特征矩阵进
行弹性网络降维,得到降维后的特征矩阵;将降维后的特征矩阵和新的特征矩阵进行
多方向映射,得到映射后的特征矩阵;对映射后的特征矩阵进行解码,得到目标用户数
据在各个方向的数据特征的值。
进一步的,所述将降维后的特征矩阵和新的特征矩阵进行多方向映射,得到
映射后的特征矩阵的方法包括:对于目标用户数据中的每一个样本,使用最小化重构
误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量;所述最
小化重构误差的方法使用如下公式进行表示:
另一方面,本发明还提供了一种基于大数据的用户数据分析系统,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
本发明的一种基于大数据的用户数据分析方法及分析系统,具有以下有益效果:
1.多方向数据分析能力更强:
传统的数据分析方法往往只能对数据进行单一维度的分析,难以捕捉到数据中多个方向的信息。而本发明提供的方法可以在多个方向上对数据进行特征提取和分析,能够更全面地获取数据的特征,提高数据的分析能力。
2.降维处理提高了数据处理效率:
本发明中的弹性网络降维方法能够将高维度的数据降至较低的维度,减少了数据处理的时间和计算资源。同时,在降维的过程中,保留了数据中的主要特征,避免了信息的丢失。
3.数据光谱提高了数据可视化和可解释性:
本发明中的数据光谱能够将数据在多个方向上进行可视化,并且可以直观地展示数据在不同方向上的特征值,提高了数据的可视化和可解释性。通过对数据光谱的分析,用户可以更好地理解数据特征和数据之间的关系,从而做出更加准确的分析和决策。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于大数据的用户数据分析方法的方法流程示意图;
图2为本发明实施例提供的一种基于大数据的用户数据分析系统的系统结构示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
一种基于大数据的用户数据分析方法,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;这一步骤是为了构建数据分析模型,需要使用已经进行标注的用户数据进行训练。标注的数据指的是对用户数据进行了特征标记或分类的数据,可以作为训练模型的样本数据。在训练数据的基础上,可以通过多个方向的数据分析得到训练数据在各个方向的数据特征。
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
在该步骤中,所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值。这些数据特征值反映了目标用户数据在不同方向上的表现,例如在某些方向上用户可能更倾向于点击广告,而在另一些方向上则更倾向于在应用程序中花费时间。因此,该数据自分析器可以提供有关目标用户数据的多方面信息,这有助于分析人员更好地了解目标用户,并在其基础上制定更有效的营销策略或改进产品设计。
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
在该步骤中,目标用户数据的位置在数据光谱中表示为一个点,该点沿着数据光谱的边界移动,其移动方向由目标用户数据在各个方向上的数据特征决定。具体地说,如果目标用户在某个方向上的数据特征值较高,则该点在该方向上向边界点的位置移动更远。通过这种方式,目标用户数据在数据光谱中的位置反映了其在不同方向上的表现,可以为分析人员提供有关目标用户在不同方面上的信息。
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
在该步骤中,将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。通过将目标用户数据的位置与数据光谱的边界进行比较,分析人员可以获得有关目标用户在不同方面上表现的信息,从而确定目标用户的需求和偏好。例如,如果目标用户数据的位置接近某个边界点,则可以认为该用户在与该边界点对应的方向上表现较好,可以针对其偏好和需求制定相应的产品或服务。通过该方法,可以更好地理解和满足目标用户的需求,从而提高产品的市场竞争力。
实施例2
在上一实施例的基础上,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
具体的,训练数据的标注内容的类别数量应该与数据分析时所考虑的方向数量相等。例如,如果数据分析是在3个方向(X、Y、Z)进行的,那么训练数据的标注内容应该有3个不同的类别。这是为了确保训练数据能够覆盖所有数据分析时所考虑的方向,以提高分析的准确性和可靠性。
实施例3
在上一实施例的基础上,所述步骤S1在获取训练数据后,还对获取到的训练数据
进行基于弹性网络的数据降维,具体包括以下过程:对训练数据进行特征提取,得到原始特
征矩阵,其中的每一行代表一个样本,每一列代表一个特征;使用弹性网络算法对原始
特征矩阵进行降维,得到降维后的特征矩阵;在降维后的特征矩阵中,每一行表示一个
单独的训练样本,每一列表示一个具体的数据特征;矩阵中的值表示每个训练样本在降维
后的每个数据特征上的值。
具体的,步骤S1在获取训练数据后,还对训练数据进行基于弹性网络的数据降维处理,目的是为了提高训练数据的处理效率和数据分析的准确性。具体过程包括特征提取、使用弹性网络算法对原始特征矩阵进行降维、生成降维后的特征矩阵,矩阵中的值表示每个训练样本在降维后的每个数据特征上的值。这些步骤都是为了减少训练数据的维度和复杂性,使其更易于处理和分析。使用弹性网络算法进行降维可以保留原始特征矩阵中的重要信息,同时能够去除不相关的信息,以提高分析的准确性。
实施例4
其中,是目标值向量,是原始特征矩阵,是待求的系数向量,n是样本数,表示范数,表示范数,是正则化参数,是范数与范数的权重比;
通过最小化所述目标函数来得到系数向量,然后将原始特征矩阵与系数向量相乘,
得到降维后的特征矩阵;表示需要对进行求解的最小化问题。
弹性网络是一种结合了和正则化的线性回归方法,可以通过控制正则化参
数和的值,达到降低模型复杂度和避免过拟合的目的。其中,正则化可以实现特征选
择,使得模型更加稀疏,而正则化则可以平衡模型的偏差和方差,使得模型泛化能力更
强。因此,使用弹性网络算法对原始特征矩阵X进行降维,可以得到更加紧凑、稀疏的特征表
示,从而提高了数据分析的效率和准确性。
在具体实现时,弹性网络算法的目标函数包括三部分:回归损失项、正则化项
和正则化项。回归损失项表示模型预测值与实际值之间的误差,正则化项和正则
化项则分别对应范数和范数的正则化惩罚。其中,和是需要根据具体问题和数据
集来确定的超参数,可以通过交叉验证等方法进行调优。
在构建弹性网络的目标函数后,通过最小化该目标函数来得到系数向量,其中的大小与矩阵的列数相等。然后,我们将原始特征矩阵与系数向量相乘,得到降维
后的特征矩阵,其中的大小与矩阵的行数相等。矩阵中的每一行代表一个单独的训
练样本,每一列表示一个具体的数据特征,矩阵中的值表示每个训练样本在降维后的每个
数据特征上的值。下面是最小化目标函数的详细过程:
计算目标函数中的第一个部分:
计算目标函数中的第二个部分:
计算目标函数中的第三个部分:
将第一部分、第二部分和第三部分相加,得到完整的目标函数。
实施例5
在上一实施例的基础上,所述步骤S2中对训练数据进行多个方向的数据分析,得
到训练数据在各个方向的数据特征的方法包括:对训练数据的降维后的特征矩阵,进行协
方差矩阵计算,得到协方差矩阵;对协方差矩阵进行特征值分解,得到特征值和特征向
量;对特征值进行排序,选取前个最大的特征值和对应的特征向量,表示训练数据在前
个方向上的数据特征;将所选的前个特征向量组成新的特征矩阵,表示训练数据在前
个方向上的数据特征,新的特征矩阵中的各个元素值表示对应方向的数据特征值。
在特征值分解后,得到了协方差矩阵的特征值和特征向量。特征值描述了数据在
对应特征向量方向上的重要性,特征向量描述了数据在对应方向上的数据特征。通过对特
征值进行排序,我们可以确定哪些方向的数据特征对数据的影响最大,从而选择前个最大
的特征值和对应的特征向量,表示训练数据在前个方向上的数据特征。将所选的前个特
征向量组成新的特征矩阵,表示训练数据在前个方向上的数据特征,新的特征矩阵中
的各个元素值表示对应方向的数据特征值。
实施例6
在上一实施例的基础上,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
步骤S3中的数据自分析器是一个软件程序或插件,用于对数据进行分析和处理。它可以将目标用户数据集合转换为一个矩阵,然后与数据分析插件绑定到一起,形成一个数据包。该数据包包含了目标用户数据的矩阵以及数据分析插件所需的参数和算法。
具体来说,步骤S3中的数据自分析器可以实现以下功能:
数据转换:将目标用户数据集合转换为矩阵形式,方便进行数据分析和处理。
数据分析:根据用户需求和分析目的,使用不同的算法和技术对数据进行分析,提取数据的特征和规律。
数据处理:根据数据分析结果,对数据进行处理和优化,提高数据的质量和价值。
数据可视化:将数据分析结果可视化,以图表等形式呈现数据的特征和规律,方便用户理解和使用。
在步骤S3中,数据自分析器可以根据目标用户的需求和数据特点,选择合适的算法和技术进行数据分析。例如,可以使用聚类分析、分类分析、回归分析、主成分分析等方法,对数据进行特征提取和降维处理。同时,数据自分析器还可以根据用户的反馈和需求,对算法和技术进行调整和优化,提高数据分析的效果和准确性。
实施例7
具体的,对于所述数据包中的目标用户数据矩阵和新的特征矩阵,可以使用
多方向映射的方式进行数据分析。具体地,可以使用矩阵乘法,将目标用户数据矩阵与新
的特征矩阵相乘,得到目标用户数据在新的特征空间下的投影,即每个样本在新的特征
矩阵的每个方向上的投影值。这些投影值就可以表示目标用户数据在各个方向的数据特征
的值。由于新的特征矩阵是通过训练数据的降维和特征提取得到的,因此,新的特征矩阵
中的每一列都代表了一个训练数据在某个方向上的数据特征,从而可以通过投影值的大小
来分析目标用户数据在不同方向上的数据特征表现。
实施例8
在上一实施例的基础上,所述数据自分析器进行多方向映射的过程包括:设目标
用户数据的矩阵为;对目标用户数据矩阵进行特征提取,得到原始特征矩阵;对原始
特征矩阵进行弹性网络降维,得到降维后的特征矩阵;将降维后的特征矩阵和新的特
征矩阵进行多方向映射,得到映射后的特征矩阵;对映射后的特征矩阵进行解码,得
到目标用户数据在各个方向的数据特征的值。
解码:对映射后的特征矩阵进行解码,得到目标用户数据在各个方向的数据特
征的值。这个过程可以根据具体的需求进行解码,例如如果原始数据是图片,可以使用逆卷
积(deconvolution)进行解码,如果原始数据是文本,则可以使用词向量(word
embeddings)进行解码。
实施例9
在上一实施例的基础上,所述将降维后的特征矩阵和新的特征矩阵进行多方
向映射,得到映射后的特征矩阵的方法包括:对于目标用户数据中的每一个样本,使用
最小化重构误差的方法将其映射到训练数据降维后的特征空间中,得到其对应的映射向量;所述最小化重构误差的方法使用如下公式进行表示:
实施例10
一种基于大数据的用户数据分析系统,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
具体的,在实践中,目标用户数据可以是实时发生变化的,当目标用数据发生实时变化后,数据自分析器将再次对目标用户数据进行实时的数据分析,以此来调整目标用户数据在数据光谱的位置,以此实现对目标用户数据的实时分析和结果呈现。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (10)
1.一种基于大数据的用户数据分析方法,其特征在于,所述方法包括:
步骤S1:获取训练数据;所述训练数据为已经进行标注的用户数据;
步骤S2:对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据光谱为一个表征数据特征值的二维圆形平面,其圆心定义为数据特征值为空集的点,半径为设定值,圆周上分布多个固定位置的边界点,所述边界点的数量与数据分析时的方向的数量相等,每个边界点的值为对应的方向的数据特征的最大值,圆心与边界点的连接线,朝向边界点的方向为进行数据分析时的方向;
步骤S3:获取待分析的目标用户数据,同时为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值;
步骤S4:在数据光谱中,表征目标用户数据的点从圆心开始,按照自身在各个方向的数据特征的值,按照该数据特征对应的方向,在数据光谱中移动,此时,数据光谱中每个方向视为一个坐标轴,对应方向的数据特征的值视为该方向下的坐标值;
步骤S5:将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
2.如权利要求1所述的方法,其特征在于,所述步骤S1在获取训练数据后,对训练数据进行标注的内容的类别数量与对训练数据进行多个方向的数据分析时方向的数量相等。
6.如权利要求5所述的方法,其特征在于,所述步骤S3中的数据自分析器为一个数据分析插件,所述目标用户数据为一个数据集合,通过集合和矩阵的转换方式,转换为目标用户数据的矩阵;将目标用户数据的矩阵与数据分析插件绑定到一起组成一个数据包。
10.一种基于大数据的用户数据分析系统,应用如权利要求1-9任一所述的方法,其特征在于,所述系统包括:数据获取单元,包括:训练数据获取子单元和目标数据获取子单元;所述训练数据获取子单元配置用于获取训练数据;所述目标数据获取子单元,配置用于获取待分析的目标用户数据;数据分析单元,包括:训练数据分析子单元和数据自分析器分配子单元;所述训练数据分析子单元,配置用于对训练数据进行多个方向的数据分析,得到训练数据在各个方向的数据特征,基于这些数据特征值,生成数据光谱;所述数据自分析器分配子单元,包括:数据自分析器生成部分和数据自分析器分配部分;所述数据自分析器生成单元,配置用于生成数据自分析器;所述数据自分析器分配部分,配置用于为目标用户数据绑定一个数据自分析器;所述数据自分析器能够实时地对绑定的目标用户数据进行数据分析,得到目标用户数据在各个方向的数据特征的值,并驱动目标用户数据在数据光谱中移动;结果呈现单元,配置用于将目标用户数据在数据光谱中的位置作为数据分析的结果进行呈现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537667.4A CN116342903B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据的用户数据分析方法及分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310537667.4A CN116342903B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据的用户数据分析方法及分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116342903A true CN116342903A (zh) | 2023-06-27 |
CN116342903B CN116342903B (zh) | 2023-08-18 |
Family
ID=86886091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310537667.4A Active CN116342903B (zh) | 2023-05-15 | 2023-05-15 | 一种基于大数据的用户数据分析方法及分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342903B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110054853A1 (en) * | 2009-08-31 | 2011-03-03 | International Business Machines Corporation | Recovering the structure of sparse markov networks from high-dimensional data |
CN112116017A (zh) * | 2020-09-25 | 2020-12-22 | 西安电子科技大学 | 基于核保持的数据降维方法 |
US20210174207A1 (en) * | 2019-12-05 | 2021-06-10 | Sas Institute Inc. | Analytic system for interactive direct functional principal component analysis |
CN114490859A (zh) * | 2022-01-18 | 2022-05-13 | 神策网络科技(北京)有限公司 | 数据展示方法、装置及电子设备 |
CN114723922A (zh) * | 2022-02-24 | 2022-07-08 | 北京深势科技有限公司 | 基于数据降维的三维结构数据对比呈现方法和装置 |
CN114741442A (zh) * | 2022-04-14 | 2022-07-12 | 国网河北省电力有限公司信息通信分公司 | 一种多维综合展示可视化数据展示平台 |
CN115687430A (zh) * | 2021-07-23 | 2023-02-03 | 中国科学院地理科学与资源研究所 | 一种社交媒体用户行为轨迹建模与分析方法 |
-
2023
- 2023-05-15 CN CN202310537667.4A patent/CN116342903B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110054853A1 (en) * | 2009-08-31 | 2011-03-03 | International Business Machines Corporation | Recovering the structure of sparse markov networks from high-dimensional data |
US20210174207A1 (en) * | 2019-12-05 | 2021-06-10 | Sas Institute Inc. | Analytic system for interactive direct functional principal component analysis |
CN112116017A (zh) * | 2020-09-25 | 2020-12-22 | 西安电子科技大学 | 基于核保持的数据降维方法 |
CN115687430A (zh) * | 2021-07-23 | 2023-02-03 | 中国科学院地理科学与资源研究所 | 一种社交媒体用户行为轨迹建模与分析方法 |
CN114490859A (zh) * | 2022-01-18 | 2022-05-13 | 神策网络科技(北京)有限公司 | 数据展示方法、装置及电子设备 |
CN114723922A (zh) * | 2022-02-24 | 2022-07-08 | 北京深势科技有限公司 | 基于数据降维的三维结构数据对比呈现方法和装置 |
CN114741442A (zh) * | 2022-04-14 | 2022-07-12 | 国网河北省电力有限公司信息通信分公司 | 一种多维综合展示可视化数据展示平台 |
Non-Patent Citations (2)
Title |
---|
ZHENG ZHANG 等: "Discriminative Elastic-Net Regularized Linear Regression", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 26, no. 3, pages 1466 - 1481, XP011641375, DOI: 10.1109/TIP.2017.2651396 * |
荣雯雯 等: "基于正则化回归的变量选择方法在高维数据中的应用", 《实用预防医学》, vol. 25, no. 06, pages 645 - 648 * |
Also Published As
Publication number | Publication date |
---|---|
CN116342903B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | EPSANet: An efficient pyramid squeeze attention block on convolutional neural network | |
US11620521B2 (en) | Smoothing regularization for a generative neural network | |
CN111191514A (zh) | 一种基于深度学习的高光谱图像波段选择方法 | |
CN109858518B (zh) | 一种基于MapReduce的大型数据集聚类方法 | |
US20150074130A1 (en) | Method and system for reducing data dimensionality | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
Tepper et al. | Nonnegative matrix underapproximation for robust multiple model fitting | |
WO2021169160A1 (zh) | 图像归一化处理方法及装置、存储介质 | |
CN112529068B (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN109241813A (zh) | 用于非约束人脸识别的判别稀疏保持嵌入方法 | |
CN115841596B (zh) | 多标签图像分类方法及其模型的训练方法、装置 | |
CN108764351B (zh) | 一种基于测地距离的黎曼流形保持核学习方法及装置 | |
Khan et al. | A framework for head pose estimation and face segmentation through conditional random fields | |
CN103927554A (zh) | 一种基于拓扑结构的图像稀疏表征面部表情特征提取系统和方法 | |
Chen et al. | Sparsity-regularized feature selection for multi-class remote sensing image classification | |
Xia et al. | Unsupervised multi-domain multimodal image-to-image translation with explicit domain-constrained disentanglement | |
Zhao et al. | A high-performance accelerator for super-resolution processing on embedded GPU | |
CN108776954B (zh) | 用于生成图像的方法和装置 | |
Ye et al. | A multi-attribute controllable generative model for histopathology image synthesis | |
Liu et al. | Identification of rice disease under complex background based on PSOC-DRCNet | |
CN116541006B (zh) | 一种计算机人机交互界面的图形处理方法和装置 | |
CN116342903B (zh) | 一种基于大数据的用户数据分析方法及分析系统 | |
CN114911778A (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
Deng et al. | Biological modeling of human visual system for object recognition using GLoP filters and sparse coding on multi-manifolds | |
Luo et al. | Frequency information matters for image matting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A user data analysis method and analysis system based on big data Granted publication date: 20230818 Pledgee: Huaxia Bank Co.,Ltd. Jinan Branch Pledgor: Jinan Anxun Technology Co.,Ltd. Registration number: Y2024980007588 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |