CN117455555B - 基于大数据的电商用户画像分析方法及系统 - Google Patents

基于大数据的电商用户画像分析方法及系统 Download PDF

Info

Publication number
CN117455555B
CN117455555B CN202311786338.XA CN202311786338A CN117455555B CN 117455555 B CN117455555 B CN 117455555B CN 202311786338 A CN202311786338 A CN 202311786338A CN 117455555 B CN117455555 B CN 117455555B
Authority
CN
China
Prior art keywords
user
neuron
vector
data
electric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311786338.XA
Other languages
English (en)
Other versions
CN117455555A (zh
Inventor
李燕
施华
翁伟
王其聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN202311786338.XA priority Critical patent/CN117455555B/zh
Publication of CN117455555A publication Critical patent/CN117455555A/zh
Application granted granted Critical
Publication of CN117455555B publication Critical patent/CN117455555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了基于大数据的电商用户画像分析方法及系统,方法包括数据采集、数据预处理、用户特征提取、电商用户聚类模型构建和电商用户画像生成。本发明属于电商平台技术领域,具体是指基于大数据的电商用户画像分析方法及系统,本方案采用基于主题词向量的用户特征提取,通过选择主题词向量减少了无关特征的影响,且简化了数据维度,有助于降低计算成本,提高数据分析的效率;采用基于自组织映射网络的电商用户聚类模型构建,可以自动发现并捕捉用户行为中的潜在模式和相似性,对不同用户行为具有更强的识别能力,提升了用户画像分析的准确性。

Description

基于大数据的电商用户画像分析方法及系统
技术领域
本发明属于电商平台技术领域,具体是指基于大数据的电商用户画像分析方法及系统。
背景技术
电商用户画像分析有助于电商平台深入了解用户的兴趣、购买偏好和消费能力,进而辅助电商平台实施精准的营销策略,进而提高广告的点击率和转换率,降低营销成本。但在现有的电商用户画像分析过程中,存在电商用户行为具有多样性,需要处理大量的用户数据,导致计算资源消耗大的技术问题;存在缺乏一种适应不同用户行为的画像分析方法,从而影响了电商用户画像分析系统的实用性的技术问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了基于大数据的电商用户画像分析方法及系统,针对在电商用户画像分析过程中,存在电商用户行为具有多样性,需要处理大量的用户数据,导致计算资源消耗大的技术问题,本方案采用基于主题词向量的用户特征提取,通过选择主题词向量减少了无关特征的影响,且简化了数据维度,有助于降低计算成本,提高数据分析的效率;针对在电商用户画像分析过程中,存在缺乏一种适应不同用户行为的画像分析方法,从而影响了电商用户画像分析系统的实用性的技术问题,本方案采用基于自组织映射网络的电商用户聚类模型构建,可以自动发现并捕捉用户行为中的潜在模式和相似性,对不同用户行为具有更强的识别能力,提升了用户画像分析的准确性。
本发明采取的技术方案如下:本发明提供的基于大数据的电商用户画像分析方法,该方法包括以下步骤:
步骤S1:数据采集,具体为从电商平台获取电商用户数据;
步骤S2:数据预处理;
步骤S3:用户特征提取,具体为采用LDA模型构建主题词向量,采用主成分分析方法对主题词向量进行特征选择,得到主要特征集,采用TF-IDF方法计算每个主要特征对应的权重,依据主要特征权重,通过对主要特征进行加权求和,得到用户特征;
步骤S4:电商用户聚类模型构建,具体为采用退火算法优化自组织映射网络,基于自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型;
步骤S5:电商用户画像生成。
进一步地,在步骤S1中,所述电商用户数据包括用户信息和行为信息,所述用户信息包括用户身份、性别、年龄和地址信息,所述行为信息包括浏览记录、收藏信息、购物车信息和购买记录。
进一步地,在步骤S2中,所述数据预处理,具体为通过对电商用户数据进行数据去重、异常值过滤和脏数据清除操作,得到用户标准数据。
进一步地,在步骤S3中,所述用户特征提取,具体为基于主题词向量的用户特征提取,包括以下步骤:
步骤S31:采用LDA模型构建主题词向量,包括以下步骤:
步骤S311:构建词汇表,具体为通过对用户标准数据进行分词,得到用户词汇表;
步骤S312:采用LDA模型计算用户词汇表中每个词汇对应的主题词,通过词向量转换和归一化操作,得到主题词向量;
步骤S32:采用主成分分析方法对主题词向量进行特征选择,包括以下步骤:
步骤S321:依据主题词向量,构建协方差矩阵,通过对协方差矩阵进行特征值分解,得到特征值和对应的特征向量;
步骤S322:依据特征值大小,选择最大的k个特征值和对应的特征向量作为主成分特征向量矩阵;
步骤S323:将主题词向量的每个样本投影到主成分特征向量矩阵,得到主要特征集;
步骤S33:计算用户特征,包括以下步骤:
步骤S331:采用TF-IDF方法,计算每个主要特征对应的权重,用于计算用户特征,计算公式为:
式中,m(x,y)是主要特征权重,所述主要特征权重用于表示第x个主要特征对应的第y个主题词向量的TF-IDF值,x是主要特征索引,y是主题词向量索引,TF()是词频计算函数,是第x个主要特征,twy是第y个主题词向量,IDF()是逆文档频率函数;
步骤S332:依据主要特征权重,通过对主要特征进行加权求和,得到用户特征,计算公式为:
式中,Usr是用户特征,g是主要特征权重索引,Y是主要特征权重数量,所述主要特征权重数量与主要特征数量相同,Mg是第g个主要特征权重,kvg是第g个主要特征权重Mg对应的主要特征。
进一步地,在步骤S4中,所述电商用户聚类模型构建,具体为基于自组织映射网络的电商用户聚类模型构建,包括以下步骤:
步骤S41:初始化自组织映射网络,具体为建立一个六边形的网络结构,每个神经元对应一个节点,并通过随机生成神经元的权重向量来初始化神经元;
步骤S42:计算最佳匹配神经元,具体为从用户特征中选择一个用户特征样本作为自组织映射网络的输入样本,计算输入样本向量与每个神经元的权重向量之间的欧氏距离,将欧氏距离最小的神经元作为最佳匹配神经元,计算公式为:
式中,ur是输入样本向量,a是最佳匹配神经元,是取最小值操作,所述取最小值操作用于遍历所有神经元,求取使输入样本向量与每个神经元的权重向量之间的欧氏距离最小的神经元,j是神经元索引,Q是神经元集合,wj是第j个神经元的权重向量,是输入样本向量与第j个神经元的权重向量的欧氏距离;
步骤S43:采用退火算法优化自组织映射网络,包括以下步骤:
步骤S431:具体为通过退火算法动态调整领域大小和神经元学习率,用于加快模型收敛速度,计算公式为:
式中,t是时间步,r(t)是领域大小,所述领域大小用于表示第t时间步时的领域核函数扩展半径,r0是领域核初始大小,exp()是指数函数,min()是最小值函数,是第t时间步时第j个神经元的权重向量,/>是第t时间步时最佳匹配神经元的权重向量,,是第t时间步时第j个神经元的权重向量的倒数,/>是第t时间步时最佳匹配神经元的权重向量的倒数,/>是第t时间步时第j个神经元学习率,Ra是最佳匹配神经元的归一化优化指标;
步骤S432:依据领域大小和神经元学习率,更新领域核函数,用于调整神经元的权重向量,计算公式为:
式中,是第t时间步时以最佳匹配神经元为中心的领域核函数,da是最佳匹配神经元在自组织映射网络上的位置,dj是第j个神经元在自组织映射网络上的位置;
步骤S44:更新神经元的权重向量,计算公式为:
式中,是第t+1时间步时第j个神经元的权重向量;
步骤S45:模型训练,具体为通过重复步骤S42及其后续步骤,对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型。
进一步地,在步骤S5中,所述电商用户画像生成,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
本发明提供的基于大数据的电商用户画像分析系统,包括:数据采集模块、数据预处理模块、用户特征提取模块、电商用户聚类模型构建模块和电商用户画像生成模块;
所述数据采集模块,用于数据采集,具体为收集电商用户画像分析相关数据,通过采集得到电商用户数据,并将所述电商用户数据发送至数据预处理模块;
所述数据预处理模块,用于数据预处理,具体为通过对所述电商用户数据进行预处理,得到用户标准数据,并将所述用户标准数据发送至用户特征提取模块;
所述用户特征提取模块,用于用户特征提取,具体为采用LDA模型构建主题词向量,通过对主题词向量进行主成分分析,得到主要特征集,采用TF-IDF方法计算得到主要特征权重,依据主要特征权重对主要特征进行加权求和,得到用户特征,并将所述用户特征发送至电商用户聚类模型构建模块;
所述电商用户聚类模型构建模块,用于电商用户聚类模型构建,具体为采用自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型,并将所述电商用户聚类模型发送至电商用户画像生成模块;
所述电商用户画像生成模块,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
采用上述方案本发明取得的有益效果如下:
(1)针对在电商用户画像分析过程中,存在电商用户行为具有多样性,需要处理大量的用户数据,导致计算资源消耗大的技术问题,本方案采用基于主题词向量的用户特征提取,通过选择主题词向量减少了无关特征的影响,且简化了数据维度,有助于降低计算成本,提高数据分析的效率。
(2)针对在电商用户画像分析过程中,存在缺乏一种适应不同用户行为的画像分析方法,从而影响了电商用户画像分析系统的实用性的技术问题,本方案采用基于自组织映射网络的电商用户聚类模型构建,可以自动发现并捕捉用户行为中的潜在模式和相似性,对不同用户行为具有更强的识别能力,提升了用户画像分析的准确性。
附图说明
图1为本发明提供的基于大数据的电商用户画像分析方法的流程示意图;
图2为本发明提供的基于大数据的电商用户画像分析系统的示意图;
图3为步骤S3的流程示意图;
图4为步骤S4的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的基于大数据的电商用户画像分析方法,该方法包括以下步骤:
步骤S1:数据采集,具体为从电商平台获取电商用户数据;
步骤S2:数据预处理;
步骤S3:用户特征提取,具体为采用LDA模型构建主题词向量,采用主成分分析方法对主题词向量进行特征选择,得到主要特征集,采用TF-IDF方法计算每个主要特征对应的权重,依据主要特征权重,通过对主要特征进行加权求和,得到用户特征;
步骤S4:电商用户聚类模型构建,具体为采用退火算法优化自组织映射网络,基于自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型;
步骤S5:电商用户画像生成。
实施例二,参阅图1,该实施例基于上述实施例,在步骤S1中,所述电商用户数据包括用户信息和行为信息,所述用户信息包括用户身份、性别、年龄和地址信息,所述行为信息包括浏览记录、收藏信息、购物车信息和购买记录。
实施例三,参阅图1,该实施例基于上述实施例,在步骤S2中,所述数据预处理,具体为通过对电商用户数据进行数据去重、异常值过滤和脏数据清除操作,得到用户标准数据。
实施例四,参阅图1和图3,该实施例基于上述实施例,在步骤S3中,所述用户特征提取,具体为基于主题词向量的用户特征提取,包括以下步骤:
步骤S31:采用LDA模型构建主题词向量,包括以下步骤:
步骤S311:构建词汇表,具体为通过对用户标准数据进行分词,得到用户词汇表;
步骤S312:采用LDA模型计算用户词汇表中每个词汇对应的主题词,通过词向量转换和归一化操作,得到主题词向量;
步骤S32:采用主成分分析方法对主题词向量进行特征选择,包括以下步骤:
步骤S321:依据主题词向量,构建协方差矩阵,通过对协方差矩阵进行特征值分解,得到特征值和对应的特征向量;
步骤S322:依据特征值大小,选择最大的k个特征值和对应的特征向量作为主成分特征向量矩阵;
步骤S323:将主题词向量的每个样本投影到主成分特征向量矩阵,得到主要特征集;
步骤S33:计算用户特征,包括以下步骤:
步骤S331:采用TF-IDF方法,计算每个主要特征对应的权重,用于计算用户特征,计算公式为:
式中,是主要特征权重,所述主要特征权重用于表示第x个主要特征对应的第y个主题词向量的TF-IDF值,x是主要特征索引,y是主题词向量索引,TF()是词频计算函数,/>是第x个主要特征,/>是第y个主题词向量,IDF()是逆文档频率函数;
步骤S332:依据主要特征权重,通过对主要特征进行加权求和,得到用户特征,计算公式为:
式中,是用户特征,g是主要特征权重索引,Y是主要特征权重数量,所述主要特征权重数量与主要特征数量相同,Mg是第g个主要特征权重,/>是第g个主要特征权重Mg对应的主要特征。
通过执行上述操作,针对在电商用户画像分析过程中,存在电商用户行为具有多样性,需要处理大量的用户数据,导致计算资源消耗大的技术问题,本方案采用基于主题词向量的用户特征提取,通过选择主题词向量减少了无关特征的影响,且简化了数据维度,有助于降低计算成本,提高数据分析的效率。
实施例五,参阅图1和图4,该实施例基于上述实施例,在步骤S4中,所述电商用户聚类模型构建,具体为基于自组织映射网络的电商用户聚类模型构建,包括以下步骤:
步骤S41:初始化自组织映射网络,具体为建立一个六边形的网络结构,每个神经元对应一个节点,并通过随机生成神经元的权重向量来初始化神经元;
步骤S42:计算最佳匹配神经元,具体为从用户特征中选择一个用户特征样本作为自组织映射网络的输入样本,计算输入样本向量与每个神经元的权重向量之间的欧氏距离,将欧氏距离最小的神经元作为最佳匹配神经元,计算公式为:
式中,ur是输入样本向量,a是最佳匹配神经元,是取最小值操作,所述取最小值操作用于遍历所有神经元,求取使输入样本向量与每个神经元的权重向量之间的欧氏距离最小的神经元,j是神经元索引,Q是神经元集合,wj是第j个神经元的权重向量,是输入样本向量与第j个神经元的权重向量的欧氏距离;
步骤S43:采用退火算法优化自组织映射网络,包括以下步骤:
步骤S431:具体为通过退火算法动态调整领域大小和神经元学习率,用于加快模型收敛速度,计算公式为:
式中,t是时间步,r(t)是领域大小,所述领域大小用于表示第t时间步时的领域核函数扩展半径,r0是领域核初始大小,exp()是指数函数,min()是最小值函数,是第t时间步时第j个神经元的权重向量,/>是第t时间步时最佳匹配神经元的权重向量,,是第t时间步时第j个神经元的权重向量的倒数,/>是第t时间步时最佳匹配神经元的权重向量的倒数,/>是第t时间步时第j个神经元学习率,Ra是最佳匹配神经元的归一化优化指标;
步骤S432:依据领域大小和神经元学习率,更新领域核函数,用于调整神经元的权重向量,计算公式为:
式中,是第t时间步时以最佳匹配神经元为中心的领域核函数,da是最佳匹配神经元在自组织映射网络上的位置,dj是第j个神经元在自组织映射网络上的位置;
步骤S44:更新神经元的权重向量,计算公式为:
式中,是第t+1时间步时第j个神经元的权重向量;
步骤S45:模型训练,具体为通过重复步骤S42及其后续步骤,对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型;
通过执行上述操作,针对在电商用户画像分析过程中,存在缺乏一种适应不同用户行为的画像分析方法,从而影响了电商用户画像分析系统的实用性的技术问题,本方案采用基于自组织映射网络的电商用户聚类模型构建,可以自动发现并捕捉用户行为中的潜在模式和相似性,对不同用户行为具有更强的识别能力,提升了用户画像分析的准确性。
实施例六,参阅图1,该实施例基于上述实施例,在步骤S5中,所述电商用户画像生成,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
实施例七,参阅图2,该实施例基于上述实施例,本发明提供的基于大数据的电商用户画像分析系统,包括:数据采集模块、数据预处理模块、用户特征提取模块、电商用户聚类模型构建模块和电商用户画像生成模块;
所述数据采集模块,用于数据采集,具体为收集电商用户画像分析相关数据,通过采集得到电商用户数据,并将所述电商用户数据发送至数据预处理模块;
所述数据预处理模块,用于数据预处理,具体为通过对所述电商用户数据进行预处理,得到用户标准数据,并将所述用户标准数据发送至用户特征提取模块;
所述用户特征提取模块,用于用户特征提取,具体为采用LDA模型构建主题词向量,通过对主题词向量进行主成分分析,得到主要特征集,采用TF-IDF方法计算得到主要特征权重,依据主要特征权重对主要特征进行加权求和,得到用户特征,并将所述用户特征发送至电商用户聚类模型构建模块;
所述电商用户聚类模型构建模块,用于电商用户聚类模型构建,具体为采用自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型,并将所述电商用户聚类模型发送至电商用户画像生成模块;
所述电商用户画像生成模块,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.基于大数据的电商用户画像分析方法,其特征在于:该方法包括以下步骤:
步骤S1:数据采集,具体为从电商平台获取电商用户数据;
步骤S2:数据预处理;
步骤S3:用户特征提取,具体为采用LDA模型构建主题词向量,采用主成分分析方法对主题词向量进行特征选择,得到主要特征集,采用TF-IDF方法计算每个主要特征对应的权重,依据主要特征权重,通过对主要特征进行加权求和,得到用户特征;
步骤S4:电商用户聚类模型构建,具体为采用退火算法优化自组织映射网络,基于自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型;
步骤S5:电商用户画像生成;
在步骤S3中,所述用户特征提取,具体为基于主题词向量的用户特征提取,包括以下步骤:
步骤S31:采用LDA模型构建主题词向量;
步骤S32:采用主成分分析方法对主题词向量进行特征选择;
步骤S33:计算用户特征,包括以下步骤:
步骤S331:采用TF-IDF方法,计算每个主要特征对应的权重,用于计算用户特征,计算公式为:
式中,m(x,y)是主要特征权重,所述主要特征权重用于表示第x个主要特征对应的第y个主题词向量的TF-IDF值,x是主要特征索引,y是主题词向量索引,TF()是词频计算函数,是第x个主要特征,/>是第y个主题词向量,IDF()是逆文档频率函数;
步骤S332:依据主要特征权重,通过对主要特征进行加权求和,得到用户特征,计算公式为:
式中,是用户特征,g是主要特征权重索引,Y是主要特征权重数量,所述主要特征权重数量与主要特征数量相同,Mg是第g个主要特征权重,/>是第g个主要特征权重Mg对应的主要特征;
在步骤S4中,所述电商用户聚类模型构建,具体为基于自组织映射网络的电商用户聚类模型构建,包括以下步骤:
步骤S41:初始化自组织映射网络;
步骤S42:计算最佳匹配神经元;
步骤S43:采用退火算法优化自组织映射网络,包括以下步骤:
步骤S431:具体为通过退火算法动态调整领域大小和神经元学习率,用于加快模型收敛速度,计算公式为:
式中,t是时间步,r(t)是领域大小,所述领域大小用于表示第t时间步时的领域核函数扩展半径,r0是领域核初始大小,exp()是指数函数,min()是最小值函数,是第t时间步时第j个神经元的权重向量,/>是第t时间步时最佳匹配神经元的权重向量,/>是第t时间步时第j个神经元的权重向量的倒数,/>是第t时间步时最佳匹配神经元的权重向量的倒数,/>是第t时间步时第j个神经元学习率,Ra是最佳匹配神经元的归一化优化指标;
步骤S432:依据领域大小和神经元学习率,更新领域核函数,用于调整神经元的权重向量,计算公式为:
式中,是第t时间步时以最佳匹配神经元为中心的领域核函数,/>是最佳匹配神经元在自组织映射网络上的位置,/>是第j个神经元在自组织映射网络上的位置;
步骤S44:更新神经元的权重向量;
步骤S45:模型训练,具体为通过重复步骤S42及其后续步骤,对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型。
2.根据权利要求1所述的基于大数据的电商用户画像分析方法,其特征在于:在步骤S31中,所述采用LDA模型构建主题词向量,包括以下步骤:
步骤S311:构建词汇表,具体为通过对用户标准数据进行分词,得到用户词汇表;
步骤S312:采用LDA模型计算用户词汇表中每个词汇对应的主题词,通过词向量转换和归一化操作,得到主题词向量;
在步骤S32中,所述采用主成分分析方法对主题词向量进行特征选择,包括以下步骤:
步骤S321:依据主题词向量,构建协方差矩阵,通过对协方差矩阵进行特征值分解,得到特征值和对应的特征向量;
步骤S322:依据特征值大小,选择最大的k个特征值和对应的特征向量作为主成分特征向量矩阵;
步骤S323:将主题词向量的每个样本投影到主成分特征向量矩阵,得到主要特征集。
3.根据权利要求2所述的基于大数据的电商用户画像分析方法,其特征在于:在步骤S41中,所述初始化自组织映射网络,具体为建立一个六边形的网络结构,每个神经元对应一个节点,并通过随机生成神经元的权重向量来初始化神经元;
在步骤S42中,所述计算最佳匹配神经元,具体为从用户特征中选择一个用户特征样本作为自组织映射网络的输入样本,计算输入样本向量与每个神经元的权重向量之间的欧氏距离,将欧氏距离最小的神经元作为最佳匹配神经元,计算公式为:
式中,是输入样本向量,a是最佳匹配神经元,/>是取最小值操作,所述取最小值操作用于遍历所有神经元,求取使输入样本向量与每个神经元的权重向量之间的欧氏距离最小的神经元,j是神经元索引,Q是神经元集合,/>是第j个神经元的权重向量,/>是输入样本向量与第j个神经元的权重向量的欧氏距离;
在步骤S44中,所述更新神经元的权重向量,计算公式为:
式中,是第t+1时间步时第j个神经元的权重向量。
4.根据权利要求3所述的基于大数据的电商用户画像分析方法,其特征在于:在步骤S5中,所述电商用户画像生成,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
5.根据权利要求4所述的基于大数据的电商用户画像分析方法,其特征在于:在步骤S1中,所述电商用户数据包括用户信息和行为信息,所述用户信息包括用户身份、性别、年龄和地址信息,所述行为信息包括浏览记录、收藏信息、购物车信息和购买记录;
在步骤S2中,所述数据预处理,具体为通过对电商用户数据进行数据去重、异常值过滤和脏数据清除操作,得到用户标准数据。
6.基于大数据的电商用户画像分析系统,用于实现如权利要求1-5中任一项所述的基于大数据的电商用户画像分析方法,其特征在于:包括数据采集模块、数据预处理模块、用户特征提取模块、电商用户聚类模型构建模块和电商用户画像生成模块;
所述数据采集模块,用于数据采集,具体为收集电商用户画像分析相关数据,通过采集得到电商用户数据,并将所述电商用户数据发送至数据预处理模块;
所述数据预处理模块,用于数据预处理,具体为通过对所述电商用户数据进行预处理,得到用户标准数据,并将所述用户标准数据发送至用户特征提取模块;
所述用户特征提取模块,用于用户特征提取,具体为采用LDA模型构建主题词向量,通过对主题词向量进行主成分分析,得到主要特征集,采用TF-IDF方法计算得到主要特征权重,依据主要特征权重对主要特征进行加权求和,得到用户特征,并将所述用户特征发送至电商用户聚类模型构建模块;
所述电商用户聚类模型构建模块,用于电商用户聚类模型构建,具体为采用自组织映射网络对所有用户特征样本进行迭代训练,并生成每个用户样本的聚类标签,得到电商用户聚类模型,并将所述电商用户聚类模型发送至电商用户画像生成模块;
所述电商用户画像生成模块,具体为采用电商用户聚类模型将电商用户映射到相应的聚类簇中,得到聚类结果并生成电商用户画像。
CN202311786338.XA 2023-12-25 2023-12-25 基于大数据的电商用户画像分析方法及系统 Active CN117455555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311786338.XA CN117455555B (zh) 2023-12-25 2023-12-25 基于大数据的电商用户画像分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311786338.XA CN117455555B (zh) 2023-12-25 2023-12-25 基于大数据的电商用户画像分析方法及系统

Publications (2)

Publication Number Publication Date
CN117455555A CN117455555A (zh) 2024-01-26
CN117455555B true CN117455555B (zh) 2024-03-08

Family

ID=89593268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311786338.XA Active CN117455555B (zh) 2023-12-25 2023-12-25 基于大数据的电商用户画像分析方法及系统

Country Status (1)

Country Link
CN (1) CN117455555B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN113032556A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种基于自然语言处理形成用户画像的方法
WO2021203854A1 (zh) * 2020-04-09 2021-10-14 深圳壹账通智能科技有限公司 用户分类方法、装置、计算机设备和存储介质
CN114119057A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建系统
CA3132346A1 (en) * 2020-09-29 2022-03-29 10353744 Canada Ltd. User abnormal behavior recognition method and device and computer readable storage medium
CN114298834A (zh) * 2021-12-31 2022-04-08 金陵科技学院 一种基于自组织映射网络的个人信用评估方法及系统
CN114491033A (zh) * 2022-01-21 2022-05-13 广西科技师范学院 一种基于词向量和主题模型的用户兴趣模型构建的方法
CN116385037A (zh) * 2023-03-10 2023-07-04 南京邮电大学 一种基于改进lda的特征融合的用户画像构建方法及系统
CN116956740A (zh) * 2023-08-02 2023-10-27 同济大学 面向平面桁架结构的用户偏好模型构建方法、系统、应用

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN110457472A (zh) * 2019-07-16 2019-11-15 天津大学 基于som聚类算法的针对电商产品评论的情感关联分析方法
CN113032556A (zh) * 2019-12-25 2021-06-25 厦门铠甲网络股份有限公司 一种基于自然语言处理形成用户画像的方法
WO2021203854A1 (zh) * 2020-04-09 2021-10-14 深圳壹账通智能科技有限公司 用户分类方法、装置、计算机设备和存储介质
CA3132346A1 (en) * 2020-09-29 2022-03-29 10353744 Canada Ltd. User abnormal behavior recognition method and device and computer readable storage medium
CN114119057A (zh) * 2021-08-10 2022-03-01 国家电网有限公司 用户画像模型的构建系统
CN114298834A (zh) * 2021-12-31 2022-04-08 金陵科技学院 一种基于自组织映射网络的个人信用评估方法及系统
CN114491033A (zh) * 2022-01-21 2022-05-13 广西科技师范学院 一种基于词向量和主题模型的用户兴趣模型构建的方法
CN116385037A (zh) * 2023-03-10 2023-07-04 南京邮电大学 一种基于改进lda的特征融合的用户画像构建方法及系统
CN116956740A (zh) * 2023-08-02 2023-10-27 同济大学 面向平面桁架结构的用户偏好模型构建方法、系统、应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于寻优算法的改进自组织映射研究;李峰;孙立镌;张嘉晶;;计算机工程;20120705(第13期);全文 *
移动电子商务情境下客户细分优化算法的研究;杨曦;;网络安全技术与应用;20130715(第07期);全文 *

Also Published As

Publication number Publication date
CN117455555A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Xin et al. CFM: Convolutional Factorization Machines for Context-Aware Recommendation.
Zhang et al. Efficient kNN classification with different numbers of nearest neighbors
WO2018219198A1 (zh) 一种人机交互方法、装置及人机交互终端
CN113468227B (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN103403739B (zh) 用于比较图像的方法和系统
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN108595533B (zh) 一种基于协同过滤的物品推荐方法、存储介质及服务器
Lin et al. Ru-net: Regularized unrolling network for scene graph generation
CN101477426B (zh) 一种识别手写输入的方法及系统
Yang et al. Efficient and robust MultiView clustering with anchor graph regularization
CN111339818A (zh) 一种人脸多属性识别系统
Strahl et al. Scalable probabilistic matrix factorization with graph-based priors
CN110516533A (zh) 一种基于深度度量的行人再辨识方法
CN110781970A (zh) 分类器的生成方法、装置、设备及存储介质
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN107622071B (zh) 通过间接相关反馈在无查源下的衣服图像检索系统及方法
CN110727864A (zh) 一种基于手机App安装列表的用户画像方法
CN106599926A (zh) 一种表情图片推送方法及系统
Wu et al. Modified fuzzy clustering with segregated cluster centroids
CN117455555B (zh) 基于大数据的电商用户画像分析方法及系统
CN113360788A (zh) 一种地址推荐方法、装置、设备及存储介质
Dong et al. Inor-net: Incremental 3-d object recognition network for point cloud representation
CN106875280A (zh) 一体化社区服务平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant