CN113469450B - 一种数据分类方法、装置、计算机设备及存储介质 - Google Patents

一种数据分类方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113469450B
CN113469450B CN202110795644.4A CN202110795644A CN113469450B CN 113469450 B CN113469450 B CN 113469450B CN 202110795644 A CN202110795644 A CN 202110795644A CN 113469450 B CN113469450 B CN 113469450B
Authority
CN
China
Prior art keywords
commodity
node
nodes
neighbor
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110795644.4A
Other languages
English (en)
Other versions
CN113469450A (zh
Inventor
陈娇娇
杨华胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
China Resources Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Resources Digital Technology Co Ltd filed Critical China Resources Digital Technology Co Ltd
Priority to CN202110795644.4A priority Critical patent/CN113469450B/zh
Publication of CN113469450A publication Critical patent/CN113469450A/zh
Application granted granted Critical
Publication of CN113469450B publication Critical patent/CN113469450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分类方法、装置、计算机设备及存储介质。该方法包括获取商品节点的特征向量;根据商品节点的特征向量获取其邻居节点,并构建商品节点和邻居节点之间的关联结构图;获取关联结构图中包含商品节点与其邻居节点的组合特征向量,将组合特征向量输入对数转换层,输出高阶交叉特征;将商品节点的高阶交叉特征输入分类模型,输出分类结果。本发明选取商品节点和其邻居节点的组合特征向量,在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征,并实现了不同交叉特征的权重分配,得到更复杂的高阶交叉特征,充分考虑了多个商品之间的关联影响,再基于得到高阶交叉特征来对商品进行分类,具有分类准确的优点。

Description

一种数据分类方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据分类方法、装置、计算机设备及存储介质。
背景技术
目前,在实际工程的数据分析过程中,对数据按照某种规则进行分类筛选是一种常用的技术手段;特别是在零售行业中,为了研究商品的销售情况、补货情况或者根据商品刻画消费用户形象,对商品进行分类筛选十分有必要;但是由于商品种类庞大,影响关系复杂等特点,欠缺高效解决手段,常常依赖人工,耗时耗力,效率不高。
现阶段常用的有效数据的筛选(分类)方法有XGBoost(极端梯度提升)、SVM(支持向量机)、随机森林、CNN(卷积神经网络)等方法,这些分类方法在小规模数据上有着不错的筛选效果且通常情况下分类对象之间大都无相关关系。但是在零售行业中,商品的销售数据具有数据规模大、特征维度多、相互影响关系复杂等特点,使用常规的机器学习分类算法并不能满足实际需求;一方面由于数据量大时,参数优化过程会比较繁琐、计算时间长;另一方面由于模型的输入没有考虑到商品之间的相互影响,分类准确率不高。
发明内容
本发明的目的是提供一种数据分类方法、装置、计算机设备及存储介质,旨在解决现有技术对商品进行分类是存在分类准确率不高的问题。
为解决上述技术问题,本发明的目的是通过以下技术方案实现的:提供一种数据分类方法,其包括:
获取商品节点的特征向量;
根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图;
获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征;
将所述商品节点的高阶交叉特征输入分类模型,输出分类结果。
另外,本发明要解决的技术问题是还在于提供一种数据分类装置,其包括:
获取单元,用于获取商品节点的特征向量;
构建单元,用于根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图;
转换单元,用于获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征;
输出单元,用于将所述商品节点的高阶交叉特征输入分类模型,输出分类结果。
另外,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的数据分类方法。
另外,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据分类方法。
本发明实施例公开了一种数据分类方法、装置、计算机设备及存储介质。该方法包括获取商品节点的特征向量;根据商品节点的特征向量获取其邻居节点,并构建商品节点和邻居节点之间的关联结构图;获取关联结构图中包含商品节点与其邻居节点的组合特征向量,将组合特征向量输入对数转换层,输出高阶交叉特征;将商品节点的高阶交叉特征输入分类模型,输出分类结果。本发明实施例选取商品节点和其邻居节点的组合特征向量,在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征,并实现了不同交叉特征的权重分配,得到更复杂的高阶交叉特征,充分考虑了多个商品之间的关联影响,再基于得到高阶交叉特征来对商品进行分类,具有分类准确的优点。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据分类方法的流程示意图;
图2为本发明实施例提供的步骤S101的子流程示意图;
图3为本发明实施例提供的步骤S102的子流程示意图;
图4为本发明实施例提供的步骤S103的子流程示意图;
图5为本发明实施例提供的步骤S104的子流程示意图;
图6为本发明实施例提供的关联结构图的示例图;
图7为本发明实施例提供的数据分类装置的示意性框图;
图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的数据分类方法的流程示意图;
如图1所示,该方法包括步骤S101~S104。
S101、获取商品节点的特征向量。
本实施例中,每种商品的自身属性特征都不一样,将一种商品作为一个商品节点,可以先获取所述商品节点的基础的特征向量,以便后续在基础的特征向量上进行更高阶的特征提取。
在一实施例中,如图2所示,所述步骤S101包括:
S201、获取所述商品节点的类别特征和数值特征,并对所述类别特征进行编码;
S202、将编码后的所述类别特征与所述数值特征进行拼接得到所述商品节点的特征向量。
本实施例中,所述商品节点的类别特征可以是商品所在门店编号、商品所属大类、所属小类、畅销程度等特征中的一种或多种,所述商品节点的数值特征可以是商品的实际销量、日均销量、规格等特征中的一种或多种;获取所述商品节点的类别特征和数值特征,并对所述类别特征进行one-hot编码(分类变量作为二进制向量的表示),编码后的类别特征可由原来的一列特征变成多列特征,将编码后的所述别特征和数值特征进行合并,即可得到所述商品节点的特征向量。
S102、根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图。
本实施例中,每一个商品的销售情况是会受其他商品影响的,可将相互影响关系比较大的多个商品之间用线连接起来,具体的,可将一个商品节点作为中心节点,跟中心节点直接相连的其他商品节点作为邻居节点,从而构建出关联结构图,参考图6所示,以四个商品为例,将商品一作为中心节点,商品二、商品三和商品四是与商品一相互影响关系比较大的邻居节点。
在一实施例中,如图3所示,所述步骤S102包括:
S301、选取任一商品节点作为中心节点,按如下公式计算其他商品节点与中心节点之间的相关系数Corr:
其中,x和y分别为两个商品节点的特征向量,为x的向量均值,/>为y的向量均值,xi和yi分别为x和y的第i个特征分量;
该步骤中,通过商品节点与中心节点的相似度来确定邻居节点,即选取与中心节点相似度大的商品节点为邻居节点,具体可使用相关系数来衡量相似度的大小,上述公式为皮尔森相关系数公式,将xiyi以及/>代入中间的等式或者将x、/>y以及/>代入右边的等式,均可以计算出商品节点与中心节点之间的相关系数。
S302、选取相关系数大于预设阈值的商品节点作为所述中心节点的邻居节点,并构建出关联结构图。
本实施例中,所述预设阈值可以设置为0.6或者其他数值,以所述预设阈值为0.6为例,根据上述公式计算得到多个商品节点分别与中心节点的相关系数后,选取相关系数大于0.6的商品节点作为邻居节点,将各个邻居节点连接于中心节点,即可构建出如图6形式的关联结构图。
S103、获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征。
本实施例中,每一个商品节点或者邻居节点中,自身的特征向量都是由所述类别特征和数值特征构成的,自身的特征向量也可能存在相关关系,为了提高分类准确率,构造更高阶的交叉特征,使用对数转换层来自适应地学习任意阶交叉特征以及交叉特征的权重,在原有的特征向量上自适应学习对模型有用的高阶交叉特征以及交叉特征的权重,这对模型的最终的分类筛选效果有明显的改善。
具体的,在所述关联结构图中获取所述商品节点的特征向量时,得到的特征向量是已经包含了商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,通过所述对数转换层挖掘出特征向量的内在关系,并输出高阶交叉特征。
在一实施例中,如图4所示,所述步骤S103包括:
S401、获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量。
S402、按如下公式计算输出向量e:
e=XW
e={e1,e2…em};
其中,X为所述组合特征向量,W为全连接学习的n×m的权重矩阵。
该步骤中,先将所述组合特征向量输入所述对数转换层中,所述组合特征向量属于高维稀疏的输入向量,在所述对数转换层中,首先会通过Embedding层(嵌入层)将高维稀疏的输入向量转化为低维的稠密向量,可通过一个全连接层来实现,设输入特征向量为X,即组合特征向量为X,维度为n,经过一个全连接层学习一个n×m的权重矩阵W,即可得到输出向量e={e1,e2…em}。
S403、按如下公式计算所述输出向量e的特征交叉向量:
其中,lnei为输出向量e的第i个分量ei的对数运算,wij为lnei在第j个神经元的权重系数,exp为指数运算,yj为在第j个对数神经单元得到的特征交叉向量。
该步骤中,得到m维的输出向量e后会经过所述对数转换层自适应学习交叉特征及交叉特征的权重,根据该步骤中的公式,在所述对数神经单元中,首先会对输出向量e的第i个分量ei进行对数运算,得到lnei,然后对lnei进行加权求和,然后将wij的值代入公式中,再进行指数运算得到在第j个对数神经单元的特征交叉向量yj,即可完成计算。
S404、按如下公式计算高阶交叉特征Y:
Y={y1,y2…yN};
其中,N为特征数目,yN为第N个对数神经单元的特征交叉向量。
该步骤中,将多个对数神经元所得到的交叉特征向量进行拼接,即可得到高阶交叉特征Y,得到的所述高阶交叉特征Y作为所述分类模型的输入。
S104、将所述商品节点的高阶交叉特征输入分类模型,输出分类结果。
本实施例中,在对商品进行分类筛选时,不同商品之间的影响程度是考虑的重点,选定一种商品,与之有关系的商品会有多个,但是这些个商品对该商品的影响程度不一致,同品类商品之间会存在很强的替代关系,相关品类之间的商品会存在互补关系;这些关系会在不同程度上影响商品的实际销售情况,为了有效利用这种关系进一步提高分类筛选效果,本发明使用的分类模型为图注意力网络(GAT),相比传统的图卷积网络(GCN)的分类方式,图注意力网络引进了注意力机制,注意力机制能够对不同的邻居节点分配相应的权重,这样可以重点关注那些作用比较大的节点,忽视一些作用比较小的节点,既不需要矩阵运算又不需要知道图的完整结构,只需要知道邻居节点即可。
在一实施例中,如图5所示,所述步骤S104包括:
S501、按如下公式计算邻居节点j到商品节点i的权重系数eij
eij=Leaky ReLU(aT[Whi,Whj]);
其中,LeakyReLU为激活函数,T代表转置运算,W为权重参数矩阵,hi为商品节点i对应的特征交叉向量,hj为邻居节点j对应的特征交叉向量,a[.]是一个映射,用来计算两个节点的相关度。
该步骤中,基于所述分类模型,将所述高阶交叉特征Y作为单个注意力层的输入,N为特征数目,特征长度为d,即yi∈Rd,所述邻居节点j到商品节点i的权重系数eij也就是分类模型的注意力系数,计算公式为eij=a(Whi,Whj)。
进一步地,为了简化计算,可以选择单层的全连接层,则权重系数eij的表达公式为eij=Leaky ReLU(aT[Whi,Whj]),分别将T、W、以及hj代入公式中计算,即可得到权重系数eij的值。
S502、按如下公式归一化处理所述邻居节点j到商品节点i的权重系数αij
其中,Ni是商品节点i的邻居节点的集合,k为Ni中第k个邻居节点。
该步骤中,为了更好地分配权重,需要将所有计算出的相关度进行统一的归一化处理,归一化处理后,可保证所有的邻居节点的权重系数加和为1。
S503、按如下公式计算商品节点i的新特征向量:
其中,σ为非线性激活。
该步骤中,将Ni、αij、W、hj以及σ代入公式中计算,即可得到所述商品节点i的新特征向量;得到的新特征向量包含了各个邻居节点的信息,基于得到的新特征向量,再进行分类,可提高分类的准确率。
S504、通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出分类结果。
本实施例中,通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出所述商品节点i是否为目标类别的概率值。
具体的,输出的所述概率值为0-1之间,可设置目标类别的类别阈值,将概率值超过所述类别阈值的商品节点归类为该目标类别。
在实施例中,该方法还包括:将所述分类结果输入如下损失函数公式,对分类模型的参数进行优化:
其中,Loss为损失函数,y是真实分类结果,是分类模型预测得到的分类结果。
本实施例中,为了进一步优化分类模型以提高分类结果的准确性,将y和的值代入上述公式进行计算,从而对分类模型的参数进行优化。
本发明实施例还提供一种数据分类装置,该数据分类装置用于执行前述数据分类方法的任一实施例。具体地,请参阅图7,图7是本发明实施例提供的数据分类装置的示意性框图。
如图7所示,数据分类装置700,包括:获取单元701、构建单元702、转换单元703以及输出单元704。
获取单元701,用于获取商品节点的特征向量;
构建单元702,用于根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图;
转换单元703,用于获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征;
输出单元704,用于将所述商品节点的高阶交叉特征输入分类模型,输出分类结果。
该装置选取商品节点和其邻居节点的组合特征向量,在组合特征向量的基础上使用了对数转换层构造出了更高阶的交叉特征,并实现了不同交叉特征的权重分配,得到更复杂的高阶交叉特征,充分考虑了多个商品之间的关联影响,再基于得到高阶交叉特征来对商品进行分类,具有分类准确的优点。
该装置为商品数据的筛选提供了更加新颖、科学有效的分类方式,可以大幅度提高效率人员工作效率。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
上述数据筛选装置可以实现为计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备800是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图8,该计算机设备800包括通过系统总线801连接的处理器802、存储器和网络接口805,其中,存储器可以包括非易失性存储介质803和内存储器804。
该非易失性存储介质803可存储操作系统8031和计算机程序8032。该计算机程序8032被执行时,可使得处理器802执行数据分类方法。
该处理器802用于提供计算和控制能力,支撑整个计算机设备800的运行。
该内存储器804为非易失性存储介质803中的计算机程序8032的运行提供环境,该计算机程序8032被处理器802执行时,可使得处理器802执行数据分类方法。
该网络接口805用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备800的限定,具体的计算机设备800可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图8所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器802可以是中央处理单元(CentralProcessing Unit,CPU),该处理器802还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的数据分类方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种数据分类方法,其特征在于,包括:
获取商品节点的特征向量;
根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图;
获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征;
将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理,输出分类结果;
其中,所述将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理,输出分类结果,包括:
按如下公式计算邻居节点j到商品节点i的权重系数eij
eij=Leaky ReLU(aT[Whi,Whj]);其中,LeakyReLU为激活函数,T代表转置运算,W为权重参数矩阵,hi为商品节点i对应的特征交叉向量,hj为邻居节点j对应的特征交叉向量,a[.]是一个映射,用来计算两个节点的相关度;
按如下公式归一化处理所述邻居节点j到商品节点i的权重系数αij
其中,Ni是商品节点i的邻居节点的集合,k为Ni中第k个邻居节点;
按如下公式计算商品节点i的新特征向量:
其中,σ为非线性激活;
通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出分类结果。
2.根据权利要求1所述的数据分类方法,其特征在于,所述获取商品节点的特征向量,包括:
获取所述商品节点的类别特征和数值特征,并对所述类别特征进行编码;
将编码后的所述类别特征与所述数值特征进行拼接得到所述商品节点的特征向量。
3.根据权利要求1所述的数据分类方法,其特征在于,所述根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图,包括:
选取任一商品节点作为中心节点,按如下公式计算其他商品节点与中心节点之间的相关系数Corr:
其中,x和y分别为两个商品节点的特征向量,为x的向量均值,/>为y的向量均值,xi和yi分别为x和y的第i个特征分量;
选取相关系数大于预设阈值的商品节点作为所述中心节点的邻居节点,并构建出关联结构图。
4.根据权利要求1所述的数据分类方法,其特征在于,所述获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征,包括:
获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量;
按如下公式计算输出向量e:
e=XW
e={e1,e2…em};
其中,X为所述组合特征向量,W为全连接学习的n×m的权重矩阵;
按如下公式计算所述输出向量e的特征交叉向量:
其中,lnei为输出向量e的第i个分量ei的对数运算,wij为lnei在第j个神经元的权重系数,exp为指数运算,yj为在第j个对数神经单元得到的特征交叉向量;
按如下公式计算高阶交叉特征Y:
Y={y1,y2…yN};
其中,N为特征数目,yN为第N个对数神经单元的特征交叉向量。
5.根据权利要求1所述的数据分类方法,其特征在于,所述通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出分类结果,包括:
通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出所述商品节点i是否为目标类别的概率值。
6.根据权利要求1所述的数据分类方法,其特征在于,还包括:将所述分类结果输入如下损失函数公式,对分类模型的参数进行优化:
其中,Loss为损失函数,y是真实分类结果,是分类模型预测得到的分类结果。
7.一种数据分类装置,其特征在于,包括:
获取单元,用于获取商品节点的特征向量;
构建单元,用于根据所述商品节点的特征向量获取其邻居节点,并构建所述商品节点和邻居节点之间的关联结构图;
转换单元,用于获取所述关联结构图中包含所述商品节点与其邻居节点的组合特征向量,将所述组合特征向量输入对数转换层,输出高阶交叉特征;
输出单元,用于将所述商品节点的高阶交叉特征输入GAT图注意力网络进行分类处理,输出分类结果;
其中,所述输出单元,包括:
按如下公式计算邻居节点j到商品节点i的权重系数eij
eij=Leaky ReLU(aT[Whi,Whj]);其中,LeakyReLU为激活函数,T代表转置运算,W为权重参数矩阵,hi为商品节点i对应的特征交叉向量,hj为邻居节点j对应的特征交叉向量,a[.]是一个映射,用来计算两个节点的相关度;
按如下公式归一化处理所述邻居节点j到商品节点i的权重系数αij
其中,Ni是商品节点i的邻居节点的集合,k为Ni中第k个邻居节点;
按如下公式计算商品节点i的新特征向量:
其中,σ为非线性激活;
通过sigmoid函数对所述商品节点i的新特征向量进行分类,输出分类结果。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的数据分类方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的数据分类方法。
CN202110795644.4A 2021-07-14 2021-07-14 一种数据分类方法、装置、计算机设备及存储介质 Active CN113469450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795644.4A CN113469450B (zh) 2021-07-14 2021-07-14 一种数据分类方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795644.4A CN113469450B (zh) 2021-07-14 2021-07-14 一种数据分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113469450A CN113469450A (zh) 2021-10-01
CN113469450B true CN113469450B (zh) 2024-05-10

Family

ID=77878485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795644.4A Active CN113469450B (zh) 2021-07-14 2021-07-14 一种数据分类方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113469450B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461004A (zh) * 2020-03-31 2020-07-28 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN111639700A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 目标相似度识别方法、装置、计算机设备及可读存储介质
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN111913702A (zh) * 2020-08-11 2020-11-10 湖北大学 一种基于图神经网络的软件系统中关键类的识别方法
CN112449025A (zh) * 2020-12-10 2021-03-05 郑州埃文计算机科技有限公司 一种基于自注意力机制的ip场景预测方法
CN113032648A (zh) * 2021-04-20 2021-06-25 润联软件系统(深圳)有限公司 一种数据筛选方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020221278A1 (zh) * 2019-04-29 2020-11-05 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN111461004A (zh) * 2020-03-31 2020-07-28 北京邮电大学 基于图注意力神经网络的事件检测方法、装置和电子设备
CN111639700A (zh) * 2020-05-28 2020-09-08 深圳壹账通智能科技有限公司 目标相似度识别方法、装置、计算机设备及可读存储介质
CN111913702A (zh) * 2020-08-11 2020-11-10 湖北大学 一种基于图神经网络的软件系统中关键类的识别方法
CN112449025A (zh) * 2020-12-10 2021-03-05 郑州埃文计算机科技有限公司 一种基于自注意力机制的ip场景预测方法
CN113032648A (zh) * 2021-04-20 2021-06-25 润联软件系统(深圳)有限公司 一种数据筛选方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113469450A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111242208B (zh) 一种点云分类方法、分割方法及相关设备
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN110473083B (zh) 树状风险账户识别方法、装置、服务器及存储介质
Han et al. Link Prediction and Node Classification on Citation Network
CN112966114B (zh) 基于对称图卷积神经网络的文献分类方法和装置
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN111177579B (zh) 集成多样性增强的极深因子分解机模型的应用方法
Kauko On current neural network applications involving spatial modelling of property prices
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN113516019A (zh) 高光谱图像解混方法、装置及电子设备
Wang et al. A band selection approach based on Lévy sine cosine algorithm and alternative distribution for hyperspectral image
CN114841296A (zh) 设备聚类方法、终端设备以及存储介质
CN105678798A (zh) 一种结合局部空间信息的多目标模糊聚类图像分割方法
Jenny Li et al. Evaluating deep learning biases based on grey-box testing results
CN115426671B (zh) 图神经网络训练、无线小区故障预测方法、系统及设备
CN113469450B (zh) 一种数据分类方法、装置、计算机设备及存储介质
CN117273109A (zh) 基于量子神经元的混合神经网络的构建方法及装置
CN114998725B (zh) 基于自适应空谱注意力核生成网络的高光谱图像分类方法
CN116758349A (zh) 基于多尺度超像素节点聚合图卷积残差网络的高光谱图像分类方法
CN115982645A (zh) 信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质
CN112927248B (zh) 一种基于局部特征增强和条件随机场的点云分割方法
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN113934929A (zh) 推荐方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Applicant after: China Resources Digital Technology Co.,Ltd.

Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Applicant before: Runlian software system (Shenzhen) Co.,Ltd.

Country or region before: China

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant