CN117076962B - 应用于人工智能领域的数据分析方法、装置及设备 - Google Patents

应用于人工智能领域的数据分析方法、装置及设备 Download PDF

Info

Publication number
CN117076962B
CN117076962B CN202311323159.2A CN202311323159A CN117076962B CN 117076962 B CN117076962 B CN 117076962B CN 202311323159 A CN202311323159 A CN 202311323159A CN 117076962 B CN117076962 B CN 117076962B
Authority
CN
China
Prior art keywords
behavior
data
feature
features
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311323159.2A
Other languages
English (en)
Other versions
CN117076962A (zh
Inventor
林岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311323159.2A priority Critical patent/CN117076962B/zh
Publication of CN117076962A publication Critical patent/CN117076962A/zh
Application granted granted Critical
Publication of CN117076962B publication Critical patent/CN117076962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种应用于人工智能领域的数据分析方法、装置及设备,属于人工智能领域,可用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括:获取数据空间和初始特征集合;在多次迭代过程的一次迭代过程中,基于第一特征集合对数据空间进行聚类,得到多个数据子空间;对于多个数据子空间中的任意一个数据子空间,获取数据子空间对应的重要特征子集;将多个数据子空间对应的多个重要特征子集进行融合,得到第二特征集合;当满足迭代结束条件时,输出第二特征集合和多个数据子空间中的至少一种;否则,将第二特征集合确定为更新后的第一特征集合,继续执行下一次迭代过程。上述方案提供了特征选择和数据聚类的交替式过程。

Description

应用于人工智能领域的数据分析方法、装置及设备
技术领域
本申请涉及人工智能领域,特别涉及一种应用于人工智能领域的数据分析方法、装置及设备。
背景技术
高维数据指数据集中具有较高特征维度的数据样本,其中每个数据样本的特征维度远远超过数据集中数据样本的数量。在人工智能领域下,经常需要对高维数据进行聚类,得到聚类结果。
然而,相关技术的聚类结果对数据分布的变化较为敏感。当数据分布发生变化时,聚类结果可能不稳定,数据分布变化前后难以获取一致性的聚类结果。即,相关技术的聚类结果仍存在稳定性缺陷。
发明内容
本申请提供了一种应用于人工智能领域的数据分析方法、装置及设备,本方案提供了特征选择和数据聚类的交替式过程,所述技术方案包括如下内容。
根据本申请的一个方面,提供了一种应用于人工智能领域的数据分析方法,所述方法包括如下内容。
获取数据空间,以及数据空间中的数据样本具有的初始特征集合;
在多次迭代过程的一次迭代过程中,基于第一特征集合对数据空间进行聚类,得到多个数据子空间;在第一次迭代过程中,第一特征集合为初始特征集合;
对于多个数据子空间中的任意一个数据子空间,获取数据子空间对应的重要特征子集;将多个数据子空间对应的多个重要特征子集进行融合,得到第二特征集合;
当满足迭代结束条件时,输出第二特征集合和多个数据子空间中的至少一种;否则,将第二特征集合确定为更新后的第一特征集合,继续执行下一次迭代过程。
根据本申请的另一方面,提供了一种电商领域下的数据分析方法,所述方法包括如下内容。
获取行为数据空间,行为数据空间包含有多个行为数据样本;以及,获取行为数据样本具有的初始行为特征集合;
在多次迭代过程的一次迭代过程中,基于第一行为特征集合对行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,第一行为特征集合为初始行为特征集合;
对于多个行为数据子空间中的任意一个行为数据子空间,获取行为数据子空间对应的重要行为特征子集;将多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合;
当满足迭代结束条件时,输出第二行为特征集合和多个行为数据子空间中的至少一种;否则,将第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
根据本申请的另一个方面,提供了一种应用于人工智能领域的数据分析装置,所述装置包括如下内容。
获取模块,用于获取数据空间,以及所述数据空间中的数据样本具有的初始特征集合;
聚类模块,用于在多次迭代过程的一次迭代过程中,基于第一特征集合对所述数据空间进行聚类,得到多个数据子空间;在第一次迭代过程中,所述第一特征集合为所述初始特征集合;
特征选择模块,用于对于所述多个数据子空间中的任意一个数据子空间,获取所述数据子空间对应的重要特征子集;
融合模块,用于将所述多个数据子空间对应的多个重要特征子集进行融合,得到第二特征集合;
输出模块,用于当满足迭代结束条件时,输出所述第二特征集合和所述多个数据子空间中的至少一种;
更新模块,用于当未满足迭代结束条件时,将所述第二特征集合确定为更新后的第一特征集合,继续执行下一次迭代过程。
在一个可选的实施例中,所述特征选择模块,还用于对于所述第一特征集合的多个特征中的任意一个特征,确定所述特征在所述数据子空间中的紧凑程度;
所述特征选择模块,还用于将所述多个特征按照多个紧凑程度从大到小的顺序进行排序,所述多个紧凑程度与所述多个特征一一对应;
所述特征选择模块,还用于确定前m个特征落入所述数据子空间对应的所述重要特征子集,m为预设的数值;或者,确定所述紧凑程度高于紧凑程度阈值的特征落入所述数据子空间对应的所述重要特征子集。
在一个可选的实施例中,所述特征选择模块,还用于确定所述特征对应的第一出现次数和第二出现次数,所述第一出现次数是指所述特征在所述数据子空间的出现次数,所述第二出现次数是指所述特征在所述数据空间的总出现次数;
所述特征选择模块,还用于计算所述第一出现次数与所述第二出现次数的比值;
所述特征选择模块,还用于将所述比值作为所述紧凑程度。
在一个可选的实施例中,所述特征选择模块,还用于计算所述第一特征集合的多个特征在所述数据子空间中的重要性评估指标,得到多个重要性数值;所述多个重要性数值与所述多个特征一一对应,所述重要性评估指标包括信息增益、基尼指数和方差中的至少一种;
所述特征选择模块,还用于将所述多个特征按照所述多个重要性数值从大到小的顺序进行排序;
所述特征选择模块,还用于确定前n个特征落入所述数据子空间对应的所述重要特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的特征落入所述数据子空间对应的所述重要特征子集。
在一个可选的实施例中,所述输出模块,还用于当所述第一特征集合与所述第二特征集合之间的特征数量差异小于差异阈值时,输出所述第二特征集合和所述多个数据子空间中的至少一种;和/或,当迭代次数达到预设次数阈值时,输出所述第二特征集合和所述多个数据子空间中的至少一种。
在一个可选的实施例中,特征选择模块,还用于基于相关性评估指标和冗余性评估指标,构造综合评估指标,所述相关性评估指标用于衡量特征间相关性,所述冗余性评估指标用于衡量特征间冗余性;
从所述数据空间对应的多个候选特征中挑选特征,得到所述初始特征集合,使得所述初始特征集合的所述综合评估指标的数值满足条件。
在一个可选的实施例中,所述初始特征集合的所述综合评估指标取得最大值;所述特征选择模块,还用于将所述相关性评估指标乘以第一权重,得到第一指标分量;
以及,将所述冗余性评估指标乘以第二权重,得到第二指标分量,所述第一权重与所述第二权重的和值为一,所述第一权重与所述第二权重均为不小于零且不大于一的整数;
将所述第一指标分量减去所述第二指标分量,得到所述综合评估指标。
在一个可选的实施例中,所述特征选择模块,还用于基于所述多个候选特征得到的多个候选特征对,构造相关性矩阵,所述相关性矩阵的一个矩阵元素的取值为一个候选特征对的相关系数,所述候选特征对包括两个候选特征,所述候选特征对的相关系数具有特征间的方向性;
计算所述相关性矩阵中的多个相关系数的均值,得到所述相关性评估指标。
在一个可选的实施例中,所述特征选择模块,还用于基于所述多个候选特征得到的多个候选特征对,构造冗余性矩阵,所述冗余性矩阵的一个矩阵元素的取值为一个候选特征对的冗余系数,所述候选特征对包括两个候选特征,所述候选特征对的冗余系数具有特征间的方向性;
计算所述冗余性矩阵中的多个冗余系数的均值,得到所述冗余性评估指标。
在一个可选的实施例中,所述特征选择模块,还用于对于一个候选特征对,在所述候选特征对包含两个相同的候选特征的情况下,确定所述候选特征对在所述冗余性矩阵中对应的冗余系数为一;
在所述候选特征对包含第一候选特征和第二候选特征,且所述候选特征对指示的特征间方向为第一候选特征指向第二候选特征的情况下,计算第一信息增益与第二信息增益的差值的绝对值,得到信息增益差值,所述第一信息增益指只考虑所述第一候选特征的信息增益,所述第二信息增益指同时考虑所述第一候选特征和所述第二候选特征的信息增益;将一减去所述信息增益差值,得到所述候选特征对在所述冗余性矩阵中对应的冗余系数。
根据本申请的另一个方面,提供了一种电商领域下的数据分析装置,该装置包括如下内容。
获取模块,用于获取行为数据空间,所述行为数据空间包含有多个行为数据样本;以及,获取所述行为数据样本具有的初始行为特征集合;
聚类模块,用于在多次迭代过程的一次迭代过程中,基于第一行为特征集合对所述行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,所述第一行为特征集合为所述初始行为特征集合;
特征选择模块,用于对于所述多个行为数据子空间中的任意一个行为数据子空间,获取所述行为数据子空间对应的重要行为特征子集;
融合模块,用于将所述多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合;
输出模块,用于当满足迭代结束条件时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种;
更新模块,用于当未满足迭代结束条件时,将所述第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
根据本申请的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法。
本申请实施例提供的技术方案带来的有益效果至少包括如下内容。
通过在一次迭代过程中基于第一特征集合对数据空间进行聚类,得到多个数据子空间(数据聚类操作),获取多个数据子空间对应的多个重要特征子集(特征选择操作),将多个重要特征子集进行融合,得到第二特征集合,若满足迭代结束条件,则输出第二特征集合和多个数据子空间的至少一种,若不满足迭代结束条件,则执行下一次迭代过程。
即,本申请提供了一种特征选择操作和数据聚类操作的交替式迭代过程,特征选择操作和数据聚类操作不是独立进行的。
对于数据聚类操作而言,交替式过程能够更好地揭示数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要特征,进而保留重要特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的特征的代表性,选择出的特征为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的应用于人工智能领域的数据分析方法的原理示意图。
图2是本申请一个示例性实施例提供的应用于人工智能领域的数据分析方法的流程图。
图3是本申请一个示例性实施例提供的重要特征子集的生成方法的流程图。
图4是本申请一个示例性实施例提供的初始特征集合的生成方法的流程图。
图5是本申请一个示例性实施例提供的电商领域下的数据分析方法的流程图。
图6是本申请一个示例性实施例提供的应用于人工智能领域的数据分析装置的结构框图。
图7是本申请一个示例性实施例提供的电商领域下的数据分析装置的结构框图。
图8是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
高维数据(High-Dimensional Data):指数据集中具有较高特征维度的数据样本,其中每个数据样本的特征维度远远超过数据集中数据样本的数量。
图1是本申请一个示例性实施例提供的应用于人工智能领域下的数据分析方法的原理示意图,图1示出了计算机设备10,计算机设备10用于执行本申请提供的数据分析方法。本申请的数据分析方法包括多次迭代过程,多次迭代过程中将交替执行特征选择操作和子空间聚类操作。
计算机设备10获取数据空间101和初始特征集合,数据空间101是由多个数据样本构成的空间,初始特征集合是数据空间中的数据样本具有的特征的集合。初始特征集合是多次迭代过程的输入特征集合。
对于多次迭代过程中的任意一次迭代过程100,基于第一特征集合102对数据空间101中的多个数据样本进行聚类,得到多个数据子空间103。对于第一次迭代过程,第一特征集合即为上述初始特征集合。在一个实施例中,通过相关技术提供的聚类算法,基于第一特征集合102对数据空间101聚类,例如,通过基于聚类中心的方法、子空间模型的方法、优化目标的方法等来进行聚类。
对于多个数据子空间103中的任意一个数据子空间,获取数据子空间对应的重要特征子集;对于多个数据子空间,共得到多个重要特征子集104,多个重要特征子集104与多个数据子空间103一一对应。每个重要特征子集中包含至少一个重要特征,重要特征指对聚类形成当前数据子空间起到重要作用的特征。
将多个重要特征子集104进行融合,得到第二特征集合105。融合,指求多个重要特征子集104的并集的操作。
在满足迭代结束条件的情况下,输出第二特征集合和多个数据子空间103中的至少一种,此时,第二特征集合为最终选择出的特征,多个数据子空间103为最终得到的聚类结果。在未满足迭代结束条件的情况下,将第二特征集合105确定为更新后的第一特征集合,继续执行下一次迭代过程。
可以理解的是,上述多次迭代过程为特征选择操作和数据聚类操作的交替式过程。对于数据聚类操作而言,交替式过程能够更好地揭示数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要特征,进而保留重要特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的特征的代表性,选择出的特征为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
上述计算机设备10可以是终端设备也可以是服务器,图1仅以计算机设备10为终端设备进行举例。终端设备的设备类型包括:智能手机、智能手表、车载终端、可穿戴设备、智能电视、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。上述终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的数据样本、特征都是在充分授权的情况下获取的。
并且,涉及到相关信息的,相关信息处理者会遵循合法、正当、必要的原则,明确相关信息处理的目的、方式和范围,获得相关信息主体的同意,并采取必要的技术和组织措施,保障相关信息的安全。
图2示出了本申请一个示例性实施例提供的应用于人工智能领域下的数据分析方法的流程图,以该方法由图1所示的计算机设备10执行进行举例说明,该方法包括如下步骤。
步骤210,获取数据空间,以及数据空间中的数据样本具有的初始特征集合。
数据空间,包括多个数据样本,在本申请中数据样本为高维数据样本,即,数据空间中的数据样本的特征维度高于数据空间包含的数据样本数量。示意性的,数据空间中包含多个消费对象的行为数据样本,消费对象的行为数据样本可以是用户浏览记录、用户消费记录、商品评价等。
初始特征集合,是本申请提供的多次迭代过程的输入特征集合。
可选的,初始特征集合为数据集中数据样本具有的特征的集合。可选的,初始特征集合为对数据集中包含的特征进行筛选得到的特征集合。示意性的,初始特征集合包含多个行为特征,行为特征可以是用户浏览的商品类别、用户购买的商品ID、购买时间等。
步骤220,在多次迭代过程的一次迭代过程中,基于第一特征集合对数据空间进行聚类,得到多个数据子空间;在第一次迭代过程中,第一特征集合为初始特征集合。
本申请实施例提供的数据分析方法将通过多次迭代过程进行,多次迭代过程中将交替执行特征选择操作和子空间聚类操作。
在一次迭代过程中,子空间聚类操作将基于第一特征集合对数据空间进行聚类,得到多个数据子空间。
可选的,子空间聚类操作采用基于聚类中心的方法进行聚类。此方法将聚类中心作为数据子空间的代表,通过优化聚类函数来获取最佳的聚类效果。
可选的,子空间聚类操作采用基于子空间模型的方法进行聚类。此方法将假设数据样本分布在多个数据子空间中,通过建模每个子空间的参数来进行聚类,子空间的参数用于指示子空间中数据样本的分布情况。
可选的,子空间聚类操作采用基于优化目标的方法进行聚类。此方法将通过优化执行预测任务时的损失函数来获取最佳的子空间聚类效果。
步骤230,对于多个数据子空间中的任意一个数据子空间,获取数据子空间对应的重要特征子集。
重要特征子集,包含有至少一个重要特征。重要特征是指对聚类形成当前数据子空间起到重要作用的特征。
在一个实施例中,通过重要性评估指标对特征进行重要性评估,重要性评估指标包括信息增益、基尼指数和方差中的至少一种。
示意性的,对于任意一个数据子空间,计算第一特征集合的多个特征在数据子空间中的重要性评估指标,得到多个重要性数值,多个重要性数值与多个特征一一对应;将多个特征按照多个重要性数值从大到小的顺序进行排序;确定前n个特征落入数据子空间对应的重要特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的特征落入数据子空间对应的重要特征子集。
在一个实施例中,通过计算第一特征集合中的多个特征的特征间相关系数,对特征进行重要性评估。示意性的,计算任意两个特征间的皮尔逊相关系数、斯皮尔曼秩相关系数中的任意一种。对于一个特征,若该特征与其他特征之间的相关系数较大,确定该特征落入数据子空间对应的重要特征子集。
步骤240,将多个数据子空间对应的多个重要特征子集进行融合,得到第二特征集合。
对于多个数据子空间,均获取对应的重要特征子集。将多个重要特征子集进行融合,得到第二特征集合。融合,指求多个重要特征子集的并集的操作。
步骤250,当满足迭代结束条件时,输出第二特征集合和多个数据子空间中的至少一种;否则,将第二特征集合确定为更新后的第一特征集合,继续执行下一次迭代过程。
多次迭代过程,若当前迭代满足迭代结束条件,则输出当前迭代过程进行特征选择操作后选择得到的第二特征集合,和/或,输出当前迭代过程进行数据聚类操作后聚类得到的多个数据子空间。若当前迭代不满足迭代结束条件,则将第二特征集合确定为更新后的第一特征集合,返回至步骤220进行下一次迭代。
在一个实施例中,当第一特征集合与第二特征集合之间的特征数量差异小于差异阈值时,确定当前迭代满足迭代结束条件,输出第二特征集合和多个数据子空间中的至少一种。
在另一个实施例中,当迭代次数达到预设次数阈值时,确定当前迭代满足迭代结束条件,输出第二特征集合和多个数据子空间中的至少一种。
综上所述,本申请提供了一种特征选择操作和数据聚类操作的交替式迭代过程,特征选择操作和数据聚类操作不是独立进行的。
对于数据聚类操作而言,交替式过程能够更好地揭示数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要特征,进而保留重要特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的特征的代表性,选择出的特征为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
基于上述图2所示的方法实施例中,步骤230中“获取数据子空间对应的重要特征子集”可由图3所示的方法步骤替换执行。图3示出了一种数据子空间对应的重要特征子集的生成方法的流程图。该方法包括如下步骤。
步骤320,对于第一特征集合的多个特征中的任意一个特征,确定特征在数据子空间中的紧凑程度。
紧凑程度,用于衡量该特征在数据子空间中的分布情况。紧凑程度,用于衡量该特征在数据子空间中的分布情况与在数据空间中的总分布情况的差异关系。分布情况可以由特征的出现次数、出现间隔、出现频率等来指示。
在一个实施例中,对于一个数据子空间,确定特征对应的第一出现次数和第二出现次数,第一出现次数是指特征在数据子空间的出现次数,第二出现次数是指特征在数据空间的总出现次数;计算第一出现次数与第二出现次数的比值;将比值作为紧凑程度。
示意性的,在数据子空间中,特征“商品ID:123”出现了5次,在数据空间中,特征“商品ID:123”出现了6次,则确定特征“商品ID:123”的紧凑程度为5/6。
示意性的,在数据子空间中,特征“商品类别:服装”出现了2次,在数据空间中“商品类别:服装” 出现了20次,则确定特征“商品类别:服装”的紧凑程度为1/10。
步骤340,将多个特征按照多个紧凑程度从大到小的顺序进行排序,多个紧凑程度与多个特征一一对应。
将多个特征对应的多个紧凑程度进行从大到小排序。
步骤360,确定前m个特征落入数据子空间对应的重要特征子集,m为预设的数值;或者,确定紧凑程度高于紧凑程度阈值的特征落入数据子空间对应的重要特征子集。
通过预先设定选择的特征数量,确定排名靠前的特征落入重要特征子集。或者,通过预先设定的紧凑程度阈值,确定紧凑程度高于紧凑程度阈值的特征落入重要特征子集。
综上所述,上述实施例提供了一种重要特征子集的生成方法。对于任意一个数据子空间,重要特征子集包含了多个重要特征,重要特征是在该数据子空间中紧凑程度较高的特征,紧凑程度用于衡量特征在数据子空间中的分布情况。
因此,上述实施例提供的重要特征子集的生成方法,应用于多轮迭代过程中时,能准确地揭示对聚类结果的分布情况起到作用的重要特征,进而保留重要特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性。选择出的重要特征也将具有更强的代表性。
上述已详细介绍完毕特征选择操作和数据聚类操作的交替式过程。
基于图2所示的方法实施例中,初始特征集合可以是经过筛选得到的特征集合。假设我们有一个高维数据集,其中,/>是数据样本的数量,/>是特征维度。我们的目标是从/>个特征中选择出/>个特征,表示为/>,其中/>是特征的索引。在执行步骤210之前,还执行图4所示的方法,通过图4所示的方法确定出初始特征集合S。该方法包括如下步骤。
步骤420,基于相关性评估指标和冗余性评估指标,构造综合评估指标。
相关性评估指标用于衡量特征间相关性(或者说用于衡量特征的重要性),若一个特征与其他特征越相关,则表示该特征越重要。冗余性评估指标用于衡量特征间冗余性(或者说用于衡量特征的不重要性),若一个特征相比于其他特征越冗余,则表示该特征越不重要。
示意性的,采用下述方式构造综合评估指标。将相关性评估指标乘以第一权重,得到第一指标分量;以及,将冗余性评估指标乘以第二权重,得到第二指标分量,第一权重与第二权重的和值为一,第一权重与第二权重均为不小于零且不大于一的整数;将第一指标分量减去第二指标分量,得到综合评估指标。
采用公式表示为:
其中,为相关性评估指标,/>为冗余性评估指标,/>用于平衡二者之间的权重,/>为第一权重,(1-/>)为第二权重,/>为综合评估指标。
在一个实施例中,为了计算相关性评估指标,引入相关性矩阵,相关性矩阵C的矩阵元素/>表示特征/>和特征/>之间的相关性。为了计算冗余性评估指标,引入冗余性矩阵/>,冗余性矩阵R的矩阵元素/>表示特征/>和特征/>之间的冗余性。相关性矩阵和冗余性矩阵将在下文展开详细介绍。
步骤440,从数据空间对应的多个候选特征中挑选特征,得到初始特征集合,使得初始特征集合的综合评估指标的数值满足条件。
在一个实施例中,从多个候选特征中挑选特征,得到初始特征集合,使得初始特征集合的综合评估指标的数值满足条件。初始特征集合的集合大小k可以是预先设定的,也可以是在挑选特征的过程中确定的。
若采用上述公式构造得到的综合评估指标,则挑选出的初始特征集合对应的综合评估指标的数值取得最大值。
综上所述,相比于相关技术中在选择特征时仅考虑了特征的重要性,忽视了特征之间的相关性和冗余性,上述实施例基于相关性评估指标和冗余性评估指标,构造了一种综合评估指标,综合评估指标更全面地考虑了特征的重要性、相关性和冗余性,通过综合评估指标能更准确地选择出代表特征。
并且,通过综合评估指标选择出的初始特征集合,应用于后续多轮迭代过程中时,能降低多轮迭代过程中考虑的特征维度,提高多轮迭代过程的效率,节省了多轮迭代过程所消耗的算力资源和存储空间。
基于图4所示的方法实施例中,步骤420将构造综合评估指标,综合评估指标是由相关性矩阵和冗余性矩阵构造得到的。
对于相关性评估指标介绍如下。
基于多个候选特征得到的多个候选特征对,构造相关性矩阵,相关性矩阵的一个矩阵元素的取值为一个候选特征对的相关系数,候选特征对包括两个候选特征,候选特征对的相关系数具有特征间的方向性;计算相关性矩阵中的多个相关系数的均值,得到相关性评估指标。
相关性矩阵C的矩阵元素表示候选特征i与候选特征j之间的相关性,相关性矩阵的长和宽为特征集合的大小k。
在一个实施例中,计算第一候选特征在特征集合的多个数据样本的第一均值,以及,计算第二候选特征在特征集合的多个数据样本的第二均值。对于一个数据样本,计算数据样本在第一候选特征的取值与第一均值的第一差值,以及,计算数据样本在第二候选特征的取值与第二均值的第二差值,计算第一差值与第二差值的乘积,累加特征集合的多个数据样本对应的多个乘积,得到第一相关分量。
计算第一差值的平方,累加特征集合的多个数据样本对应的多个平方,再进行开平方根操作。计算第二差值的平方,累加特征集合的多个数据样本对应的多个平方,再进行开平方根操作。将两个开平方根操作后的数值相乘,得到第二相关分量。将第一相关分量除以第二相关分量,得到第一候选特征与第二候选特征之间的相关性。
采用公式表示如下:
其中,和/>分别表示第/>个数据样本在候选特征/>和/>上的取值,/>和/>分别表示候选特征/>和/>的均值,/>表示候选特征i与候选特征j之间的相关系数,n为数据样本的数量。
得到相关性矩阵之后,计算特征集合的平均相关性,得到相关性评估指标。
采用公式表示如下:
其中,是特征集合/>的大小,/>是相关性评估指标。
对于冗余性评估指标介绍如下。
基于多个候选特征得到的多个候选特征对,构造冗余性矩阵,冗余性矩阵的一个矩阵元素的取值为一个候选特征对的冗余系数,候选特征对包括两个候选特征,候选特征对的冗余系数具有特征间的方向性;计算冗余性矩阵中的多个冗余系数的均值,得到冗余性评估指标。
冗余性矩阵R的矩阵元素表示特征/>和/>之间的冗余性。冗余性矩阵的长和宽为特征集合的大小k。
在一个实施例中,对于一个候选特征对,在候选特征对包含两个相同的候选特征的情况下,确定候选特征对在冗余性矩阵中对应的冗余系数为一。
此时,冗余性矩阵的矩阵元素=1,i =j。
在候选特征对包含第一候选特征和第二候选特征,且候选特征对指示的特征间方向为第一候选特征指向第二候选特征的情况下,计算第一信息增益与第二信息增益的差值的绝对值,得到信息增益差值,第一信息增益指只考虑第一候选特征的信息增益,第二信息增益指同时考虑第一候选特征和第二候选特征的信息增益;将一减去信息增益差值,得到候选特征对在冗余性矩阵中对应的冗余系数。第一候选特征和第二候选特征是不同的候选特征。
此时,冗余性矩阵的矩阵元素=1-/>,/>为信息增益差值。/>为只考虑第一候选特征的信息增益,/>为同时考虑第一候选特征和第二候选特征的信息增益。
信息增益是用于特征选择的度量,信息增益表示通过考虑该特征后能够减少目标变量的不确定性,目标变量为聚类得到的数据子空间的标签。信息增益的计算包括以下步骤:计算特征的熵,熵表示在没有该特征的情况下目标变量的不确定性。计算考虑特征后的熵,表示在考虑该特征的情况下目标变量的不确定性。计算信息增益,它是熵的减少量,表示特征提供的关于目标变量的信息。
得到冗余性矩阵之后,计算特征集合的平均冗余性,得到冗余性评估指标。
采用公式表示如下:
其中,是特征集合/>的大小,/>是冗余性评估指标。
综上所述,上述实施例提供了相关性评估指标和冗余性评估指标的生成方法,进而提供了一种综合评估指标的生成方式,进而可以通过综合评估指标选择出初始特征集合。
在一个实施例中,上述数据分析方法可应用于电商领域,电商领域中存在大量的行为数据样本,如用户浏览记录、购买历史、评价等。这些行为数据样本通常包含多个特征维度,如用户ID、商品类别、购买时间等。为了深入了解行为和购买偏好,可以使用本申请提供的技术方案进行高维数据分析。
图5示出了本申请一个示例性实施例提供的电商领域下的数据分析方法的流程图,以该方法由图1所示的计算机设备10执行进行举例说明,该方法包括如下步骤。
步骤510,获取行为数据空间,行为数据空间包含有多个行为数据样本;以及,获取行为数据样本具有的初始行为特征集合。
行为数据空间,包括多个行为数据样本,在本申请中行为数据样本为高维数据样本,即,行为数据样本的特征维度高于行为数据空间中包含的数据样本数量。示意性的,行为数据样本可以是用户浏览记录、用户消费记录、商品评价等。
初始行为特征集合,是本申请的多次迭代过程的输入特征集合。可选的,初始行为特征集合为数据集中行为数据样本具有的特征的集合。可选的,初始行为特征集合为对数据集中包含的行为特征进行筛选得到的特征集合。示意性的,初始行为特征集合包含多个行为特征,行为特征可以是用户浏览的商品类别、用户购买的商品ID、购买时间等。
步骤520,在多次迭代过程的一次迭代过程中,基于第一行为特征集合对行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,第一行为特征集合为初始行为特征集合。
本申请实施例提供的数据分析方法将通过多次迭代过程进行,多次迭代过程中将交替执行特征选择操作和子空间聚类操作。
在一次迭代过程中,子空间聚类操作将基于第一行为特征集合对行为数据空间进行聚类,得到多个行为数据子空间。
可选的,子空间聚类操作采用基于聚类中心的方法进行聚类。此方法将聚类中心作为行为数据子空间的代表,通过优化聚类函数来获取最佳的聚类效果。
可选的,子空间聚类操作采用基于子空间模型的方法进行聚类。此方法将假设行为数据样本分布在多个行为数据子空间中,通过建模每个子空间的参数来进行聚类,子空间的参数用于指示子空间中行为数据样本的分布情况。
可选的,子空间聚类操作采用基于优化目标的方法进行聚类。此方法将通过优化执行预测任务时的损失函数来获取最佳的子空间聚类效果。
步骤530,对于多个行为数据子空间中的任意一个行为数据子空间,获取行为数据子空间对应的重要行为特征子集。
重要行为特征子集,包含有至少一个重要行为特征。重要行为特征是指对聚类形成当前行为数据子空间起到重要作用的特征。
在一个实施例中,通过重要性评估指标对行为特征进行重要性评估,重要性指标包括信息增益、基尼指数和方差中的至少一种。
示意性的,对于任意一个行为数据子空间,计算第一行为特征集合的多个行为特征在行为数据子空间中的重要性评估指标,得到多个重要性数值,多个重要性数值与多个行为特征一一对应;将多个行为特征按照多个重要性数值从大到小的顺序进行排序;确定前n个行为特征落入行为数据子空间对应的重要行为特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的行为特征落入行为数据子空间对应的重要行为特征子集。
在一个实施例中,通过计算第一行为特征集合中的多个行为特征的特征间相关系数,对行为特征进行重要性评估。示意性的,计算任意两个行为特征间的皮尔逊相关系数、斯皮尔曼秩相关系数中的任意一种。对于一个行为特征,若该行为特征与其他行为特征之间的相关系数较大,确定该行为特征落入行为数据子空间对应的重要行为特征子集。
步骤540,将多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合。
对于多个行为数据子空间,均获取对应的重要特征行为子集。将多个重要行为特征子集进行融合,得到第二行为特征集合。融合,指求多个重要行为特征子集的并集的操作。
步骤550,当满足迭代结束条件时,输出第二行为特征集合和多个行为数据子空间中的至少一种;否则,将第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
多次迭代过程,若当前迭代满足迭代结束条件,则输出当前迭代过程进行特征选择操作后选择得到的第二行为特征集合,和/或,输出当前迭代过程进行数据聚类操作后聚类得到的多个行为数据子空间。若当前迭代不满足迭代结束条件,则将第二行为特征集合确定为更新后的第一行为特征集合,返回至步骤520进行下一次迭代。
在一个实施例中,当第一行为特征集合与第二行为特征集合之间的特征数量差异小于差异阈值时,确定当前迭代满足迭代结束条件,输出第二行为特征集合和多个行为数据子空间中的至少一种。
在另一个实施例中,当迭代次数达到预设次数阈值时,确定当前迭代满足迭代结束条件,输出第二行为特征集合和多个行为数据子空间中的至少一种。
综上所述,在电商领域,可利用的行为数据样本和行为特征是十分庞大的,上述实施例通过特征选择操作和数据聚类操作的交替式过程,可从众多特征中选择出具有代表性的特征,并对众多行为数据样本进行聚类,进而利用聚类结果可执行后续的商品个性化推荐、用户分类等任务。
上述交替式过程能够更好地揭示行为数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要行为特征,进而保留重要行为特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的行为特征的代表性,选择出的行为特征为行为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的行为特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
在本申请实施例中,对于第一行为特征集合的多个行为特征中的任意一个行为特征,确定行为特征在行为数据子空间中的紧凑程度;将多个行为特征按照多个紧凑程度从大到小的顺序进行排序,多个紧凑程度与多个行为特征一一对应;确定前m个行为特征落入行为数据子空间对应的重要行为特征子集,m为预设的数值;或者,确定紧凑程度高于紧凑程度阈值的行为特征落入行为数据子空间对应的重要特征行为子集。
在本申请实施例中,确定行为特征对应的第一出现次数和第二出现次数,第一出现次数是指行为特征在行为数据子空间的出现次数,第二出现次数是指行为特征在行为数据空间的总出现次数;计算第一出现次数与第二出现次数的比值;将比值作为紧凑程度。
在本申请实施例中,计算第一行为特征集合的多个行为特征在行为数据子空间中的重要性评估指标,得到多个重要性数值;多个重要性数值与多个行为特征一一对应,重要性评估指标包括信息增益、基尼指数和方差中的至少一种;将多个行为特征按照多个重要性数值从大到小的顺序进行排序;确定前n个行为特征落入行为数据子空间对应的重要行为特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的行为特征落入行为数据子空间对应的重要行为特征子集。
在本申请实施例中,当第一行为特征集合与第二行为特征集合之间的特征数量差异小于差异阈值时,输出第二特征集合和多个行为数据子空间中的至少一种;和/或,当迭代次数达到预设次数阈值时,输出第二行为特征集合和多个行为数据子空间中的至少一种。
在本申请实施例中,基于相关性评估指标和冗余性评估指标,构造综合评估指标,相关性评估指标用于衡量特征间相关性,冗余性评估指标用于衡量特征间冗余性;从行为数据空间对应的多个候选行为特征中挑选行为特征,得到初始行为特征集合,使得初始行为特征集合的综合评估指标的数值满足条件。
在本申请实施例中,初始行为特征集合的综合评估指标取得最大值。将相关性评估指标乘以第一权重,得到第一指标分量;以及,将冗余性评估指标乘以第二权重,得到第二指标分量,第一权重与第二权重的和值为一,第一权重与第二权重均为不小于零且不大于一的整数;将第一指标分量减去第二指标分量,得到综合评估指标。
在本申请实施例中,基于多个候选行为特征得到的多个候选行为特征对,构造相关性矩阵,相关性矩阵的一个矩阵元素的取值为一个候选行为特征对的相关系数,候选行为特征对包括两个候选行为特征,候选行为特征对的相关系数具有特征间的方向性;计算相关性矩阵中的多个相关系数的均值,得到相关性评估指标。
在本申请实施例中,基于多个候选行为特征得到的多个候选行为特征对,构造冗余性矩阵,冗余性矩阵的一个矩阵元素的取值为一个候选行为特征对的冗余系数,候选行为特征对包括两个候选行为特征,候选行为特征对的冗余系数具有特征间的方向性;计算冗余性矩阵中的多个冗余系数的均值,得到冗余性评估指标。
在本申请实施例中,对于一个候选行为特征对,在候选行为特征对包含两个相同的候选行为特征的情况下,确定候选行为特征对在冗余性矩阵中对应的冗余系数为一;在候选特征对包含第一候选行为特征和第二候选行为特征,且候选行为特征对指示的特征间方向为第一候选行为特征指向第二候选行为特征的情况下,计算第一信息增益与第二信息增益的差值的绝对值,得到信息增益差值,第一信息增益指只考虑第一候选行为特征的信息增益,第二信息增益指同时考虑第一候选行为特征和第二候选行为特征的信息增益;将一减去信息增益差值,得到候选行为特征对在冗余性矩阵中对应的冗余系数。
需要说明的是,上述电商领域下的数据分析方法,可以参考图1至图4所示的数据分析方法的详细内容,此处不再赘述,该数据分析方法应用于电商领域时可以解决电商领域的数据繁多、特征维度较高的问题。
图6示出了本申请一个示例性实施例提供的应用于人工智能领域下的数据分析装置的结构框图,该装置包括如下模块。
获取模块601,用于获取数据空间,以及数据空间中的数据样本具有的初始特征集合;
聚类模块602,用于在多次迭代过程的一次迭代过程中,基于第一特征集合对数据空间进行聚类,得到多个数据子空间;在第一次迭代过程中,第一特征集合为初始特征集合;
特征选择模块603,用于对于多个数据子空间中的任意一个数据子空间,获取数据子空间对应的重要特征子集;
融合模块604,用于将多个数据子空间对应的多个重要特征子集进行融合,得到第二特征集合;
输出模块605,用于当满足迭代结束条件时,输出第二特征集合和多个数据子空间中的至少一种;
更新模块606,用于当未满足迭代结束条件时,将第二特征集合确定为更新后的第一特征集合,继续执行下一次迭代过程。
在一个可选的实施例中,特征选择模块603,还用于对于第一特征集合的多个特征中的任意一个特征,确定特征在数据子空间中的紧凑程度;将多个特征按照多个紧凑程度从大到小的顺序进行排序,多个紧凑程度与多个特征一一对应;确定前m个特征落入数据子空间对应的重要特征子集,m为预设的数值;或者,确定紧凑程度高于紧凑程度阈值的特征落入数据子空间对应的重要特征子集。
在一个可选的实施例中,特征选择模块603,还用于确定特征对应的第一出现次数和第二出现次数,第一出现次数是指特征在数据子空间的出现次数,第二出现次数是指特征在数据空间的总出现次数;计算第一出现次数与第二出现次数的比值;将比值作为紧凑程度。
在一个可选的实施例中,特征选择模块603,还用于计算第一特征集合的多个特征在数据子空间中的重要性评估指标,得到多个重要性数值;多个重要性数值与多个特征一一对应,重要性评估指标包括信息增益、基尼指数和方差中的至少一种;将多个特征按照多个重要性数值从大到小的顺序进行排序;确定前n个特征落入数据子空间对应的重要特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的特征落入数据子空间对应的重要特征子集。
在一个可选的实施例中,输出模块605,还用于当第一特征集合与第二特征集合之间的特征数量差异小于差异阈值时,输出第二特征集合和多个数据子空间中的至少一种;和/或,当迭代次数达到预设次数阈值时,输出第二特征集合和多个数据子空间中的至少一种。
在一个可选的实施例中,特征选择模块603,还用于基于相关性评估指标和冗余性评估指标,构造综合评估指标,相关性评估指标用于衡量特征间相关性,冗余性评估指标用于衡量特征间冗余性;从数据空间对应的多个候选特征中挑选特征,得到初始特征集合,使得初始特征集合的综合评估指标的数值满足条件。
在一个可选的实施例中,初始特征集合的综合评估指标取得最大值。特征选择模块603,还用于将相关性评估指标乘以第一权重,得到第一指标分量;以及,将冗余性评估指标乘以第二权重,得到第二指标分量,第一权重与第二权重的和值为一,第一权重与第二权重均为不小于零且不大于一的整数;将第一指标分量减去第二指标分量,得到综合评估指标。
在一个可选的实施例中,特征选择模块603,还用于基于多个候选特征得到的多个候选特征对,构造相关性矩阵,相关性矩阵的一个矩阵元素的取值为一个候选特征对的相关系数,候选特征对包括两个候选特征,候选特征对的相关系数具有特征间的方向性;计算相关性矩阵中的多个相关系数的均值,得到相关性评估指标。
在一个可选的实施例中,特征选择模块603,还用于基于多个候选特征得到的多个候选特征对,构造冗余性矩阵,冗余性矩阵的一个矩阵元素的取值为一个候选特征对的冗余系数,候选特征对包括两个候选特征,候选特征对的冗余系数具有特征间的方向性;计算冗余性矩阵中的多个冗余系数的均值,得到冗余性评估指标。
在一个可选的实施例中,特征选择模块603,还用于对于一个候选特征对,在候选特征对包含两个相同的候选特征的情况下,确定候选特征对在冗余性矩阵中对应的冗余系数为一;在候选特征对包含第一候选特征和第二候选特征,且候选特征对指示的特征间方向为第一候选特征指向第二候选特征的情况下,计算第一信息增益与第二信息增益的差值的绝对值,得到信息增益差值,第一信息增益指只考虑第一候选特征的信息增益,第二信息增益指同时考虑第一候选特征和第二候选特征的信息增益;将一减去信息增益差值,得到候选特征对在冗余性矩阵中对应的冗余系数。
综上所述,本申请提供了一种特征选择操作和数据聚类操作的交替式迭代过程,特征选择操作和数据聚类操作不是独立进行的。
对于数据聚类操作而言,交替式过程能够更好地揭示数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要特征,进而保留重要特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的特征的代表性,选择出的特征为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
图7示出了本申请一个示例性实施例提供的电商领域下的数据分析装置的结构框图,该装置包括如下模块。
获取模块701,用于获取行为数据空间,行为数据空间包含有多个行为数据样本;以及,获取行为数据样本具有的初始行为特征集合;
聚类模块702,用于在多次迭代过程的一次迭代过程中,基于第一行为特征集合对行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,第一行为特征集合为初始行为特征集合;
特征选择模块703,用于对于多个行为数据子空间中的任意一个行为数据子空间,获取行为数据子空间对应的重要行为特征子集;
融合模块704,用于将多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合;
输出模块705,用于当满足迭代结束条件时,输出第二行为特征集合和多个行为数据子空间中的至少一种;
更新模块706,用于当未满足迭代结束条件时,将第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
综上所述,在电商领域,可利用的行为数据样本和行为特征是十分庞大的,本申请通过特征选择操作和数据聚类操作的交替式过程,可从众多特征中选择出具有代表性的特征,并对众多行为数据样本进行聚类,进而利用聚类结果可执行后续的商品个性化推荐、用户分类等任务。
上述交替式过程能够更好地揭示行为数据间的内在结构和关联,准确地揭示对聚类结果的分布情况起到作用的重要行为特征,进而保留重要行为特征而去除不重要特征,聚类得到的每个数据子空间将更加紧凑,此时聚类结果的分布情况将具有更强的鲁棒性,数据聚类的过程具有更强的泛化能力。
对于特征选择操作而言,相比于相关技术单独地进行特征选择,交替式过程有利于提高选择出的行为特征的代表性,选择出的行为特征为行为数据样本的代表特征,并且特征选择操作降低了特征维度,减少了后续需要考虑的行为特征数量,有利于提高计算机设备的处理效率,节省了算力资源和存储空间。
图8是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read-Only Memory,ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机设备可读介质为计算机设备800提供非易失性存储。也就是说,所述大容量存储设备807可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本公开的各种实施例,所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元812连接到网络811,或者说,也可以使用网络接口单元812来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理单元801通过执行该一个或一个以上程序来实现上述应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法的全部或者部分步骤。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的应用于人工智能领域的数据分析方法,或者,电商领域下的数据分析方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种电商领域下的数据分析方法,其特征在于,所述方法包括:
获取行为数据空间,以及所述行为数据空间中的行为数据样本具有的初始行为特征集合;所述行为数据空间中的行为数据样本包括用户浏览记录、用户消费记录和商品评价,所述初始行为特征集合中的行为特征包括用户浏览的商品类别、用户购买的商品标识和购买时间;
在多次迭代过程的一次迭代过程中,基于第一行为特征集合对所述行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,所述第一行为特征集合为所述初始行为特征集合;
对于所述多个行为数据子空间中的任意一个行为数据子空间,对于所述第一行为特征集合的多个行为特征中的任意一个行为特征,确定所述行为特征对应的第一出现次数和第二出现次数,所述第一出现次数是指所述行为特征在所述行为数据子空间的出现次数,所述第二出现次数是指所述行为特征在所述行为数据空间的总出现次数;计算所述第一出现次数与所述第二出现次数的比值;将所述比值作为紧凑程度;将所述多个行为特征按照多个紧凑程度从大到小的顺序进行排序,所述多个紧凑程度与所述多个行为特征一一对应;确定前m个行为特征落入所述行为数据子空间对应的重要行为特征子集,m为预设的数值;或者,确定所述紧凑程度高于紧凑程度阈值的行为特征落入所述行为数据子空间对应的重要行为特征子集;
或者,计算所述第一行为特征集合的多个行为特征在所述行为数据子空间中的重要性评估指标,得到多个重要性数值;所述多个重要性数值与所述多个行为特征一一对应,所述重要性评估指标包括信息增益、基尼指数和方差中的至少一种;将所述多个行为特征按照所述多个重要性数值从大到小的顺序进行排序;确定前n个行为特征落入所述行为数据子空间对应的重要行为特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的行为特征落入所述行为数据子空间对应的重要行为特征子集;
将所述多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合;
当满足迭代结束条件时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种;否则,将所述第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
2.根据权利要求1所述的方法,其特征在于,所述当满足迭代结束条件时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种,包括如下中的至少一个步骤:
当所述第一行为特征集合与所述第二行为特征集合之间的行为特征数量差异小于差异阈值时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种;
当迭代次数达到预设次数阈值时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于相关性评估指标和冗余性评估指标,构造综合评估指标,所述相关性评估指标用于衡量特征间相关性,所述冗余性评估指标用于衡量特征间冗余性;
从所述行为数据空间对应的多个候选行为特征中挑选行为特征,得到所述初始行为特征集合,使得所述初始行为特征集合的所述综合评估指标的数值满足条件。
4.根据权利要求3所述的方法,其特征在于,所述初始行为特征集合的所述综合评估指标取得最大值;
所述基于相关性评估指标和冗余性评估指标,构造综合评估指标,包括:
将所述相关性评估指标乘以第一权重,得到第一指标分量;
以及,将所述冗余性评估指标乘以第二权重,得到第二指标分量,所述第一权重与所述第二权重的和值为一,所述第一权重与所述第二权重均为不小于零且不大于一的整数;
将所述第一指标分量减去所述第二指标分量,得到所述综合评估指标。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述多个候选行为特征得到的多个候选行为特征对,构造相关性矩阵,所述相关性矩阵的一个矩阵元素的取值为一个候选行为特征对的相关系数,所述候选行为特征对包括两个候选行为特征,所述候选行为特征对的相关系数具有特征间的方向性;
计算所述相关性矩阵中的多个相关系数的均值,得到所述相关性评估指标。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述多个候选行为特征得到的多个候选行为特征对,构造冗余性矩阵,所述冗余性矩阵的一个矩阵元素的取值为一个候选行为特征对的冗余系数,所述候选行为特征对包括两个候选行为特征,所述候选行为特征对的冗余系数具有特征间的方向性;
计算所述冗余性矩阵中的多个冗余系数的均值,得到所述冗余性评估指标。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个候选行为特征得到的多个候选行为特征对,构造冗余性矩阵,包括:
对于一个候选行为特征对,在所述候选行为特征对包含两个相同的候选行为特征的情况下,确定所述候选行为特征对在所述冗余性矩阵中对应的冗余系数为一;
在所述候选行为特征对包含第一候选行为特征和第二候选行为特征,且所述候选行为特征对指示的行为特征间方向为第一候选行为特征指向第二候选行为特征的情况下,计算第一信息增益与第二信息增益的差值的绝对值,得到信息增益差值,所述第一信息增益指只考虑所述第一候选行为特征的信息增益,所述第二信息增益指同时考虑所述第一候选行为特征和所述第二候选行为特征的信息增益;将一减去所述信息增益差值,得到所述候选行为特征对在所述冗余性矩阵中对应的冗余系数。
8.一种电商领域下的数据分析装置,其特征在于,所述装置包括:
获取模块,用于获取行为数据空间,以及,获取所述行为数据空间中的行为数据样本具有的初始行为特征集合;所述行为数据空间中的行为数据样本包括用户浏览记录、用户消费记录和商品评价,所述初始行为特征集合中的行为特征包括用户浏览的商品类别、用户购买的商品标识和购买时间;
聚类模块,用于在多次迭代过程的一次迭代过程中,基于第一行为特征集合对所述行为数据空间进行聚类,得到多个行为数据子空间;在第一次迭代过程中,所述第一行为特征集合为所述初始行为特征集合;
特征选择模块,用于对于所述多个行为数据子空间中的任意一个行为数据子空间,对于所述第一行为特征集合的多个行为特征中的任意一个行为特征,确定所述行为特征对应的第一出现次数和第二出现次数,所述第一出现次数是指所述行为特征在所述行为数据子空间的出现次数,所述第二出现次数是指所述行为特征在所述行为数据空间的总出现次数;计算所述第一出现次数与所述第二出现次数的比值;将所述比值作为紧凑程度;将所述多个行为特征按照多个紧凑程度从大到小的顺序进行排序,所述多个紧凑程度与所述多个行为特征一一对应;确定前m个行为特征落入所述行为数据子空间对应的重要行为特征子集,m为预设的数值;或者,确定所述紧凑程度高于紧凑程度阈值的行为特征落入所述行为数据子空间对应的重要行为特征子集;
或者,计算所述第一行为特征集合的多个行为特征在所述行为数据子空间中的重要性评估指标,得到多个重要性数值;所述多个重要性数值与所述多个行为特征一一对应,所述重要性评估指标包括信息增益、基尼指数和方差中的至少一种;将所述多个行为特征按照所述多个重要性数值从大到小的顺序进行排序;确定前n个行为特征落入所述行为数据子空间对应的重要行为特征子集,n为预设的数值;或者,确定重要性数值高于重要性阈值的行为特征落入所述行为数据子空间对应的重要行为特征子集;
融合模块,用于将所述多个行为数据子空间对应的多个重要行为特征子集进行融合,得到第二行为特征集合;
输出模块,用于当满足迭代结束条件时,输出所述第二行为特征集合和所述多个行为数据子空间中的至少一种;
更新模块,用于当未满足迭代结束条件时,将所述第二行为特征集合确定为更新后的第一行为特征集合,继续执行下一次迭代过程。
9.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一所述的电商领域下的数据分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至7任一所述的电商领域下的数据分析方法。
CN202311323159.2A 2023-10-13 2023-10-13 应用于人工智能领域的数据分析方法、装置及设备 Active CN117076962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311323159.2A CN117076962B (zh) 2023-10-13 2023-10-13 应用于人工智能领域的数据分析方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311323159.2A CN117076962B (zh) 2023-10-13 2023-10-13 应用于人工智能领域的数据分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117076962A CN117076962A (zh) 2023-11-17
CN117076962B true CN117076962B (zh) 2024-01-26

Family

ID=88702813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311323159.2A Active CN117076962B (zh) 2023-10-13 2023-10-13 应用于人工智能领域的数据分析方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117076962B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法
CN113408665A (zh) * 2021-02-04 2021-09-17 北京沃东天骏信息技术有限公司 对象识别方法、装置、设备及介质
CN114417969A (zh) * 2021-12-17 2022-04-29 中国科学院计算技术研究所 基于细粒度迁移的跨场景认知能力评估方法及系统
CN115131863A (zh) * 2022-07-06 2022-09-30 洛阳师范学院 一种新的基于特征选择策略的人脸图像聚类方法及系统
CN116012632A (zh) * 2023-02-17 2023-04-25 广东工业大学 一种基于局部线性嵌入的特征一致性多视角聚类算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010365B2 (en) * 2018-03-29 2021-05-18 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503731A (zh) * 2016-10-11 2017-03-15 南京信息工程大学 一种基于条件互信息和K‑means的无监督特征选择方法
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法
CN113408665A (zh) * 2021-02-04 2021-09-17 北京沃东天骏信息技术有限公司 对象识别方法、装置、设备及介质
CN114417969A (zh) * 2021-12-17 2022-04-29 中国科学院计算技术研究所 基于细粒度迁移的跨场景认知能力评估方法及系统
CN115131863A (zh) * 2022-07-06 2022-09-30 洛阳师范学院 一种新的基于特征选择策略的人脸图像聚类方法及系统
CN116012632A (zh) * 2023-02-17 2023-04-25 广东工业大学 一种基于局部线性嵌入的特征一致性多视角聚类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
具有同步化特征选择的迭代紧凑非平行支持向量聚类算法;方佳艳;刘峤;;电子学报(01);第47-61页 *

Also Published As

Publication number Publication date
CN117076962A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
Adomavicius et al. Impact of data characteristics on recommender systems performance
EP4322031A1 (en) Recommendation method, recommendation model training method, and related product
CN110580489B (zh) 一种数据对象的分类系统、方法以及设备
Borges et al. On measuring popularity bias in collaborative filtering data
CN113873330B (zh) 视频推荐方法、装置、计算机设备和存储介质
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN108734587A (zh) 金融产品的推荐方法及终端设备
Wang et al. HSA-Net: Hidden-state-aware networks for high-precision QoS prediction
CN112070559A (zh) 状态获取方法和装置、电子设备和存储介质
CN111177564B (zh) 一种产品推荐方法及装置
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
Guan et al. Enhanced SVD for collaborative filtering
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN117076962B (zh) 应用于人工智能领域的数据分析方法、装置及设备
CN116186541A (zh) 一种推荐模型的训练方法及装置
CN115471260A (zh) 基于神经网络的销售预测方法、装置、设备及介质
CN115705384A (zh) 基于知识图谱融合的解耦推荐方法、系统、终端及介质
CN113327154A (zh) 基于大数据的电商用户讯息推送方法及系统
CN111860870A (zh) 交互行为确定模型的训练方法、装置、设备及介质
CN113807749B (zh) 一种对象评分方法和装置
CN117786234B (zh) 一种基于两阶段对比学习的多模态资源推荐方法
CN117710006B (zh) 基于大数据技术的电子商务营销分析系统及方法
CN117390295B (zh) 基于掩码模块推荐对象的方法及装置
Farooqi et al. Enhancing E-Commerce Applications with Machine Learning Recommendation Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant