CN112633927B - 一种基于知识图谱规则嵌入的组合商品挖掘方法 - Google Patents

一种基于知识图谱规则嵌入的组合商品挖掘方法 Download PDF

Info

Publication number
CN112633927B
CN112633927B CN202011538259.3A CN202011538259A CN112633927B CN 112633927 B CN112633927 B CN 112633927B CN 202011538259 A CN202011538259 A CN 202011538259A CN 112633927 B CN112633927 B CN 112633927B
Authority
CN
China
Prior art keywords
attribute
embedding
rule
commodity
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011538259.3A
Other languages
English (en)
Other versions
CN112633927A (zh
Inventor
陈华钧
康矫健
张文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011538259.3A priority Critical patent/CN112633927B/zh
Publication of CN112633927A publication Critical patent/CN112633927A/zh
Application granted granted Critical
Publication of CN112633927B publication Critical patent/CN112633927B/zh
Priority to US17/791,899 priority patent/US20230041927A1/en
Priority to PCT/CN2021/135500 priority patent/WO2022135118A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • G06F18/21326Rendering the within-class scatter matrix non-singular involving optimisations, e.g. using regularisation techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/26Discovering frequent patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱规则嵌入的组合商品挖掘方法,包括:将规则、商品、属性和属性值表示成embedding;将规则和属性的embedding拼接输入到第一个神经网络中得到属性的重要性分数;将规则和属性拼接输入到第二个神经网络中得到这条规则在该属性下应该取的属性值的embedding;计算输入的两个商品在该属性下的取值与模型计算出来的属性值的embedding的相似性程度;计算所有的属性‑属性值对的得分汇总后可以得到这两个商品在该规则下的得分;然后与这两个商品真实的分数做交叉熵损失,用基于梯度下降的优化算法迭代训练;模型训练好后可以通过类似的方式解析规则的embedding,从而得到人可以理解的规则。

Description

一种基于知识图谱规则嵌入的组合商品挖掘方法
技术领域
本发明涉及知识图谱规则领域,尤其是涉及一种基于知识图谱规则嵌入的组合商品挖掘方法。
背景技术
在知识图谱中,用三元组(head,relation,tail)来表示知识。我们可以用独热向量来表示这个知识。但实体和关系太多,维度太大。当两个实体或关系很近时,独热向量无法捕捉相似度。受Wrod2Vec模型的启发,学术界提出了很多用分布表示来表示实体和关系的方法(KGE),如TransE,TransH,TransR等等。这些模型的基本思想是通过对图结构的学习,可以用低维稠密向量来表示head、relation和tail。比如TransE,就是让head向量和relation向量的和尽可能靠近tail向量。在TransE中,一个三元组的得分为
Figure BDA0002854172130000011
对于正确的三元组(h,r,t)∈△,应该有较低的得分,而错误的三元组(h′,r′,t′)∈△′,应该有比较高的得分,最终的损失函数为:
Figure BDA0002854172130000012
知识图谱就只有正确的三元组(golden triplet),因此可以通过破坏一个正确三元组的头实体或者尾实体来生成负例,即将头实体,尾实体,关系三者之一随机替换成其他实体或关系,从而生成负例集合△′。通过不断优化该损失函数,最终可以学到h,r,t的表示。
在电商领域,同样的,也存在着商品知识图谱。在商品知识图谱中,头实体指的是商品,关系指的是的商品属性,尾实体指的是商品的属性值。因此可以通过KGE的方法学习得到商品,商品属性和商品属性值的embedding,然后将其运用在下游任务当中。
在电商领域,商家有时需要绑定销售几款商品,一方面,几款商品的总价一般会低于所有单品单卖的价格总和,这样让利给用户,用户会更有动力购买;另一方面卖家同时卖几个也比单卖一个赚取更多利润。因此,组合商品销售在实际应用中有很大的需求,这就需要有方法能够自动帮助卖家组合几个能够合在一起卖的商品。
但是,基于KGE的方法存在着的缺点是虽然能够预测两个商品是否属于组合品,但卖家并不知道基于何种原因,这两个商品被组合在一起,因此需要为此提供可解释性。基于此,亟需设计一种方法,使卖家可以直观的知道为什么两个商品可以组合在一起售卖。
发明内容
本发明提供了一种基于知识图谱规则嵌入的组合商品挖掘方法,通过将组合商品规则表示成embedding,然后将学习得到的规则embedding解析成具体的规则,从而能够帮助商家构建可以合在一起售卖的组合商品。
一种基于知识图谱规则嵌入的组合商品挖掘方法,包括:
(1)构建商品的知识图谱,对于知识图谱中的每个三元组数据,头实体为商品I,关系为商品属性P,尾实体为商品属性值V;
(2)将商品I、商品属性P、商品属性值V分别表示成embedding,并随机初始化若干个规则的embedding;
(3)将规则的embedding和商品属性的embedding拼接输入到第一个神经网络中,得到商品属性的重要性分数s1
(4)将规则的embedding和商品属性的embedding拼接输入到第二个神经网络中,得到该规则在该属性下应该取得的属性值的embedding:Vpred
(5)将规则的embedding和商品属性的embedding拼接输入到第三个神经网络中,计算某条规则在某个属性下的属性值相同的概率分数p;
(6)若两个商品在某个属性下的属性值不同,计算Vpred和V1的相似度分数s21,以及Vpred和V2的相似度分数s22;若两个商品在该属性下的属性值相同,计算Vpred和Vture的相似度分数s2
其中,V1表示两个商品中的一个商品在该属性下属性值的embedding,V2为另一个商品在该属性下属性值的embedding,Vture为该相同属性值的embedding;
(7)当某个属性的重要性分数s1大于阈值thres1,且在该属性下两个商品的属性值相同,则汇总得到这个属性-属性值对的分数scoreij为s1×(p+(1-p)×s2);当某个属性的重要性分数s1大于thres1,且在该属性下两个商品的属性值不同,则汇总得到这个属性-属性值对的分数scoreij为0.5×s1×(s21+s22);当某个属性的重要性分数s1小于等于thres1时,此时这个属性-属性值对的得分为0;
(8)汇总一个商品对的m个属性-属性值对的得分scoreij得到scorei
Figure BDA0002854172130000031
(9)汇总n条规则下一个商品对的得分scorei,得到该商品对最终的得分score:
Figure BDA0002854172130000032
(10)将得到的一个商品对的score与两个是否属于组合品的标签0或者1比较得到交叉熵损失;基于梯度下降的优化算法迭代求解直至损失值收敛,三个神经网络的参数训练完毕,同时得到学习完规则的embedding;
(11)对于学习完规则的embedding,利用上述训练完毕的神经网络进行解析,得到商品组合的规则。
步骤(1)中,商品知识图谱中每个三元组的的构成为(I,P,V),表示商品I在属性P下面的属性值为V。不同的商品通过相同的属性或者属性值关联在一起,从而构成了图的结构。
步骤(2)中,将商品I、商品属性P、商品属性值V以及若干个规则都分别编号成一个id,然后每个id再构成一个onehot向量,之后将这个onehot向量映射成一个embedding,该embeding会随着模型训练过程不断优化。
步骤(3)~(5)中,三个神经网络中,每层神经元的激活函数的计算公式为:
RELU(x)=max(0,x)
RELU函数会依次判断这个矩阵中每个元素的值,如果该元素的值大于0,那么就保留该值,否则就将该值设为0。
三个神经网络中,每个神经网络各个层的计算公式为:
l1=RELU(W1concat(ri,pj))
l2=RELU(W2l1+b1)
l3=RELU(W3l2+b2)
lL=sigmoid(WLlL-1+bL-1)
其中,W1W2,...,WL;b1 b2,...,bL均为需要学习的参数,W1,W2,W3,…,WL是大小分别为dimemb*dim1,dim1*dim2,dim2*dim3,...,dimL-1*dimL且随机初始化的矩阵;b1,b2,...,bL是大小为dim1,dim2,dim3,...,dimL的随机初始化的向量,L为神经网络的层数;非线性激活函数
Figure BDA0002854172130000041
将输出值限制在(0,1)区间。
步骤(6)中,相似度分数s21、s22和s2均采用余弦相似度计算,具体公式为:
Figure BDA0002854172130000042
Figure BDA0002854172130000043
Figure BDA0002854172130000044
步骤(10)中,交叉熵损失函数为:
Figure BDA0002854172130000045
其中,prob(i)和y(i)都是概率分布函数,0≤i<K且i为整数,y(i)∈{0,1}是真实的概率分布,0≤prob(i)≤1是模型预测出来的概率分布,∑iy(i)=1,∑iprob(i)=1,K指的是总共的类别数目,本文中,K取2;这个交叉熵函数用来衡量两个分布之间的差异,经过这个公式计算出来的值越大,代表两个分布差异越大。
优选地,梯度下降的优化算法为SGD或Adam。
步骤(11)的具体过程为:
对于学习到的规则embeding和每个商品对,将规则embeding和商品对每个属性的embedding拼接输入到第一个网络中得到每个属性的重要性分数;
若该属性的得分s1大于阈值thres1,那么这个属性包含在这条规则下面;
若该属性包含在该规则下,且两个商品在该属性下的属性值相同,则计算在该属性下取“相同”的概率p,若p大于阈值thres2,那么该属性下取值为相同;若p小于等于阈值thres2,那么计算两个商品在该属性下的相似度分数s2,若s2大于阈值thres3,那么规则在该属性下取这两个商品共有的属性值;
若该属性包含在该规则下,且两个商品在该属性下的属性值不相同,那么计算相似度分数s11和s12,若s11和s12均大于阈值thres3,那么规则在该属性下取这两个商品的两个属性值。
与现有技术相比,本发明具有以下有益效果:
本发明将规则的学习融入到模型的训练过程中,最终将学习到的规则embeding,解析成一条条规则,基于规则,卖家就可以知道为什么两个商品可以组合在一起售卖,这样可以为电商销售商品带来非常大的收益。
附图说明
图1为本发明基于知识图谱规则嵌入的组合商品挖掘方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于知识图谱规则嵌入的组合商品挖掘方法,包括以下步骤:
S01,构建商品知识图谱,对于每个三元组,头实体为商品,关系为商品属性,尾实体为商品属性值。组合商品的任务定义为:给定商品知识图谱中的两个商品,以及每个商品各自的若干个属性和属性值,需要判断两个商品是否为组合商品。本发明的创新之处在于将规则学习融入到模型训练过程中,从而能够通过学习得到的规则,为卖家提供可解释性。
S02,将商品、商品属性、商品属性值,以及规则先表示成id,然后每个id索引到一个embedding。对于每条样本而言,输入的两个商品会有n个属性和属性值,加上输入的n条规则,本发明基于此预测两个商品是否为组合品。
S03,首先是计算每个属性的得分。我们首先将规则的embedding和商品属性的embedding拼接输入到第一个神经网络中,得到属性重要性分数s1。第一个神经网络的各个层公式为:
l11=RELU(W11concat(ri,pj))
l12=RELU(W12l11+b12)
l13=RELU(W13l12+b22)
s1=sigmoid(W1Ll1(L-1)+b1(L-1))
具体的,通过将规则的embedding和商品属性的embedding拼接不断送入全连接层中,从而得到越来越高阶的语义,最终基于高阶语义可以预测出来该属性在该规则下的重要性分数s1,这个值越大意味着这个属性更有可能被包含在这条规则下面。我们会预先设置一个阈值thres1,当s1的值大于thres1,那么这时候这个属性就包含在这条规则下面。
S04,之后是计算属性值的得分。将规则的embedding和商品属性的embedding拼接输入到第二个神经网络中,可以得到预测出来的属性值embeding。第二个神经网络的各个层公式为:
l21=RELU(W21concat(ri,pj))
l22=RELU(W22l21+b22)
l23=RELU(W23l22+b23)
Vpred=W2Ll2(L-1)+b2(L-1)
具体的,可以通过将规则和属性送入到多层神经网络中,最后得到预测出来,在该属性下应该取的属性值的embedding。接下来分两种情况,若输入的两个商品该属性下的属性值是相同的,那么可以计算这个属性值和预测出来的属性值的相似程度,相似程度越高意味着这个属性值的得分越高。所述的计算属性值相似程度的方法如下:
Figure BDA0002854172130000071
同时,存在一种可能,在该规则下,该属性下的取值是“相同”即可以。此时我们可以将规则的embedding和商品属性的embedding拼接输入到第三个神经网络,从而得到,在该属性下的取值是“相同”的概率,第三个神经网的公式为:
l31=RELU(W31concat(ri,pj))
l32=RELU(W32l31+b31)
l33=RELU(W33l32+b32)
p=sigmoid(W3Ll3(L-1)+b3(L-1))
如果输入的两个商品该属性下的属性值是不同的,那么,就可分别计算这两个属性值和预测出来的属性值的相似性程度,然后综合两个相似度分数最终得到这两个属性值的得分。所述的属性值相似程度的计算方法如下:
Figure BDA0002854172130000072
Figure BDA0002854172130000073
s2=0.5*(s21+S22)
S05,紧接着,我们可以求解一个属性属性值对的分数。可以分成三种情况:该属性的得分s1小于等于预先设置的阈值thres1时,那么这个属性属性值的得分应该为0;若该属性的得分s1大于预先设置的阈值thres1时且两个商品在该属性下的属性值是相同的时候,那么这个属性属性值的得分为
s1*(p+(1-p)*s2)
若该属性的得分s1大于预先设置的阈值thres1时且两个商品在该属性下的属性值是不同的时候,那么这个属性属性值的得分为
0.5*p*(s21+s22)
S06,得到一个属性属性对的得分之后,可以计算得到一个商品对在某一条规则下的分数,所述的计算公式为:
Figure BDA0002854172130000081
S07,得到一个商品对在某一条规则下的分数之后,可以该汇总该商品对在所有规则下的得分,从而得到该商品对最终的得分,所述的计算公式为:
Figure BDA0002854172130000082
S08,将得到的一个商品对的score与两个是否属于组合品的标签0或者1比较得到交叉熵损失:
H(p,q)=-∑xp(x)log(q(x))
然后用Adam优化器优化该损失函数。
S09,当规则学习完之后需要解析规则,解析规则的方式同训练时候大同小异。首先需要把该规则embeding与每个可能的属性的embedding拼接输入到第一个网络中得到每个属性的重要性分数,若该属性的得分s1大于阈值thres1,那么这个属性包含在这条规则下面。之后,若该属性包含在该规则下,那么计算该规则下的取值应该为“相同”,还是具体的值。
通过上述这种方式,可以得到组合商品规则。最终在具体应用时,主要有两种方式:
第一种方式为:
给定一个商品对,以及每个商品各自的属性属性值,将这些信息输入到模型中,可以得到这个商品对中两个商品可以组成组合商品的概率score,若score大于0.5,则认为这两个商品属于组合商品。
第二种方式为:
给定一个商品对,以及每个商品各自的属性属性值。对于本发明生成的所有规则,逐一检查,每个属性属性值对是否符合当前的规则,所有属性属性值对都符合当前规则,那么基于当前规则,可以判定两个商品属性组合商品。若所有规则均不能判断这两个商品属于组合商品,则这两个商品不构成组合商品。
接下来,以一个具体的实例来说明本发明的构建过程。
首先,如表1所示是模型输入的一个样本,它包含两个商品,每个商品包含着若干个属性和属性值,在每个属性下,两个商品的属性值可能相同也可能不相同。
表1
Figure BDA0002854172130000091
首先将这两个商品的所有属性和属性值都表示成embedding。然后将每个属性先经过第一个神经网络可以得到该属性的重要性得分;之后属性值输入到第二个神经网络可以得到属性值的得分。之后汇总属性和属性值的分数可以得到该属性-属性值对的得分。然后,汇总所有属性-属性值对的得分得到这两个商品在该规则下属于同款商品的得分。最后,汇总所有规则对这两个商品的打分,最终得到这两个商品属于同款商品的得分。
在测试阶段,需要解析规则。如表2所示,是一条模型基于表1所示的样本解析出来的规则。
表2
Head Body
组合 (功效,美白,保湿)&&(品牌,相同)
解析规则的方式同训练过程是类似的,也是先确定该规则包含哪些属性,然后,再确定每个属性下应该包含哪个属性值,最后就可以解析出来规则了。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,包括:
(1)构建商品的知识图谱,对于知识图谱中的每个三元组数据,头实体为商品I,关系为商品属性P,尾实体为商品属性值V;
(2)将商品I、商品属性P、商品属性值V分别表示成embedding,并随机初始化若干个规则的embedding;
(3)将规则的embedding和商品属性的embedding拼接输入到第一个神经网络中,得到商品属性的重要性分数s1
(4)将规则的embedding和商品属性的embedding拼接输入到第二个神经网络中,得到该规则在该属性下应该取得的属性值的embedding:Vpred
(5)将规则的embedding和商品属性的embedding拼接输入到第三个神经网络中,计算某条规则在某个属性下的属性值相同的概率分数p;
(6)若两个商品在某个属性下的属性值不同,计算Vpred和V1的相似度分数s21,以及Vpred和V2的相似度分数s22;若两个商品在该属性下的属性值相同,计算Vpred和Vture的相似度分数s2
其中,V1表示两个商品中的一个商品在该属性下属性值的embedding,V2为另一个商品在该属性下属性值的embedding,Vture为该相同属性值的embedding;
(7)当某个属性的重要性分数s1大于阈值thres1,且在该属性下两个商品的属性值相同,则汇总得到这个属性-属性值对的分数scoreij为s1×(p+(1-p)×s2);当某个属性的重要性分数s1大于thres1,且在该属性下两个商品的属性值不同,则汇总得到这个属性-属性值对的分数scoreij为0.5×s1×(s21+s22);当某个属性的重要性分数s1小于等于thres1时,此时这个属性-属性值对的得分为0;
(8)汇总一个商品对的m个属性-属性值对的得分scoreij得到scorei
Figure FDA0002854172120000011
(9)汇总n条规则下一个商品对的得分scorei,得到该商品对最终的得分score:
Figure FDA0002854172120000021
(10)将得到的一个商品对的score与两个是否属于组合品的标签0或者1比较得到交叉熵损失;基于梯度下降的优化算法迭代求解直至损失值收敛,三个神经网络的参数训练完毕,同时得到学习完规则的embedding;
(11)对于学习完规则的embedding,利用上述训练完毕的神经网络进行解析,得到商品组合的规则。
2.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(2)中,将商品I、商品属性P、商品属性值V以及若干个规则都分别编号成一个id,然后每个id再构成一个onehot向量,之后将这个onehot向量映射成一个embedding,该embeding会随着模型训练过程不断优化。
3.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(3)~(5)中,三个神经网络中,每层神经元的激活函数的计算公式为:
RELU(x)=max(0,x)
RELU函数会依次判断这个矩阵中每个元素的值,如果该元素的值大于0,那么就保留该值,否则就将该值设为0。
4.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(3)~(5)中,三个神经网络中,每个神经网络各个层的计算公式为:
Figure FDA0002854172120000022
其中,W1 W2,...,WL;b1 b2,...,bL均为需要学习的参数,W1,W2,W3,...,WL是大小分别为dimemb*dim1,dim1*dim2,dim2*dim3,...,dimL-1*dimL且随机初始化的矩阵;b1,b2,...,bL是大小为dim1,dim2,dim3,...,dimL的随机初始化的向量,L为神经网络的层数;非线性激活函数
Figure FDA0002854172120000031
将输出值限制在(0,1)区间。
5.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(6)中,相似度分数s21、s22和s2均采用余弦相似度计算,具体公式为:
Figure FDA0002854172120000032
Figure FDA0002854172120000033
Figure FDA0002854172120000034
6.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(10)中,交叉熵损失函数为:
Figure FDA0002854172120000035
其中,prob(i)和y(i)都是概率分布函数,0≤i<K且i为整数,y(i)∈{0,1}是真实的概率分布,0≤prob(i)≤1是模型预测出来的概率分布,∑iy(i)=1,∑iprob(i)=1,K指的是总共的类别数目,本文中,K取2;这个交叉熵函数用来衡量两个分布之间的差异,经过这个公式计算出来的值越大,代表两个分布差异越大。
7.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(10)中,梯度下降的优化算法为SGD或Adam。
8.根据权利要求1所述的基于知识图谱规则嵌入的组合商品挖掘方法,其特征在于,步骤(11)的具体过程为:
对于学习到的规则embeding和每个商品对,将规则embeding和商品对每个属性的embedding拼接输入到第一个网络中得到每个属性的重要性分数;
若该属性的重要性分数s1大于阈值thres1,那么这个属性包含在这条规则下面;
若该属性包含在该规则下,且两个商品在该属性下的属性值相同,则计算在该属性下取“相同”的概率p,若p大于阈值thres2,那么该属性下取值为相同;若p小于等于阈值thres2,那么计算两个商品在该属性下的相似度分数s2,若s2大于阈值thres3,那么规则在该属性下取这两个商品共有的属性值;
若该属性包含在该规则下,且两个商品在该属性下的属性值不相同,那么计算相似度分数s11和s12,若s11和s12均大于阈值thres3,那么规则在该属性下取这两个商品的两个属性值。
CN202011538259.3A 2020-12-23 2020-12-23 一种基于知识图谱规则嵌入的组合商品挖掘方法 Active CN112633927B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011538259.3A CN112633927B (zh) 2020-12-23 2020-12-23 一种基于知识图谱规则嵌入的组合商品挖掘方法
US17/791,899 US20230041927A1 (en) 2020-12-23 2021-12-03 Combined commodity mining method based on knowledge graph rule embedding
PCT/CN2021/135500 WO2022135118A1 (zh) 2020-12-23 2021-12-03 一种基于知识图谱规则嵌入的组合商品挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011538259.3A CN112633927B (zh) 2020-12-23 2020-12-23 一种基于知识图谱规则嵌入的组合商品挖掘方法

Publications (2)

Publication Number Publication Date
CN112633927A CN112633927A (zh) 2021-04-09
CN112633927B true CN112633927B (zh) 2021-11-19

Family

ID=75321603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011538259.3A Active CN112633927B (zh) 2020-12-23 2020-12-23 一种基于知识图谱规则嵌入的组合商品挖掘方法

Country Status (3)

Country Link
US (1) US20230041927A1 (zh)
CN (1) CN112633927B (zh)
WO (1) WO2022135118A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633927B (zh) * 2020-12-23 2021-11-19 浙江大学 一种基于知识图谱规则嵌入的组合商品挖掘方法
CN115203441B (zh) * 2022-09-19 2022-12-20 江西风向标智能科技有限公司 高中数学公式的解析方法、系统、存储介质及设备
CN117131938B (zh) * 2023-10-26 2024-01-19 合肥工业大学 基于图深度学习的动态隐性关系挖掘方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159428A (zh) * 2019-12-30 2020-05-15 智慧神州(北京)科技有限公司 经济领域知识图谱事件关系自动抽取的方法和装置
CN111325336A (zh) * 2020-01-21 2020-06-23 浙江大学 一种基于强化学习的规则提取方法及应用
CN112085559A (zh) * 2020-08-18 2020-12-15 山东大学 基于时序性知识图谱的可解释商品推荐方法及系统
CN112100403A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于神经网络的知识图谱不一致性推理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10783569B2 (en) * 2016-12-20 2020-09-22 Facebook, Inc. Method, media, and system for cluster pruning of item listings
CN109815339B (zh) * 2019-01-02 2022-02-08 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN109903117B (zh) * 2019-01-04 2022-10-25 苏宁易购集团股份有限公司 一种用于商品推荐的知识图谱处理方法及装置
CN110275964B (zh) * 2019-06-26 2023-07-14 程淑玉 基于知识图谱与循环神经网络的推荐模型
CN111222332B (zh) * 2020-01-06 2021-09-21 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN112633927B (zh) * 2020-12-23 2021-11-19 浙江大学 一种基于知识图谱规则嵌入的组合商品挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159428A (zh) * 2019-12-30 2020-05-15 智慧神州(北京)科技有限公司 经济领域知识图谱事件关系自动抽取的方法和装置
CN111325336A (zh) * 2020-01-21 2020-06-23 浙江大学 一种基于强化学习的规则提取方法及应用
CN112085559A (zh) * 2020-08-18 2020-12-15 山东大学 基于时序性知识图谱的可解释商品推荐方法及系统
CN112100403A (zh) * 2020-09-16 2020-12-18 浙江大学 一种基于神经网络的知识图谱不一致性推理方法

Also Published As

Publication number Publication date
US20230041927A1 (en) 2023-02-09
WO2022135118A1 (zh) 2022-06-30
CN112633927A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112633927B (zh) 一种基于知识图谱规则嵌入的组合商品挖掘方法
CN110956497B (zh) 一种电子商务平台用户重复购买行为预测方法
US10949909B2 (en) Optimized recommendation engine
CN109584006B (zh) 一种基于深度匹配模型的跨平台商品匹配方法
CN105608600A (zh) 一种对b2b卖家效果评估和优化方法
CN112560105B (zh) 保护多方数据隐私的联合建模方法及装置
CN112487199A (zh) 一种基于用户购买行为的用户特征预测方法
Malik et al. EPR-ML: E-Commerce Product Recommendation Using NLP and Machine Learning Algorithm
CN116957691B (zh) 针对电商商家商品的跨平台智能广告投放方法及系统
JP2019215778A (ja) サービス提供システム、広告関連サービス提供システム、ユーザ側設備及びユーザ側広告設備
CN113379494A (zh) 基于异质社交关系的商品推荐方法、装置和电子设备
US20230267317A1 (en) Sign-aware recommendation apparatus and method using graph neural network
CN114997916A (zh) 潜在用户的预测方法、系统、电子设备和存储介质
CN114861050A (zh) 一种基于神经网络的特征融合推荐方法及系统
Agustyaningrum et al. Online shopper intention analysis using conventional machine learning and deep neural network classification algorithm
CN111861679A (zh) 一种基于人工智能的商品推荐方法
CN116703506A (zh) 一种基于多特征融合的电商商品推荐方法及系统
CN116932896A (zh) 一种基于注意力机制的多模型融合个性化推荐架构
Dong et al. Integrated Machine Learning Approaches for E-commerce Customer Behavior Prediction
Mallik et al. A comprehensive survey on sales forecasting models using machine learning algorithms
Yin et al. A network-enhanced prediction method for automobile purchase classification using deep learning
CN115511582B (zh) 一种基于人工智能的商品推荐系统及方法
CN111275371B (zh) 数据处理方法、数据处理设备和计算机可读存储介质
CN114519600A (zh) 一种融合相邻节点方差的图神经网络ctr预估算法
CN114092188A (zh) 一种轻量级b2b电商平台的推荐系统算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant