CN114757745A - 一种基于联合矩阵分解的电商场景挖掘方法与系统 - Google Patents

一种基于联合矩阵分解的电商场景挖掘方法与系统 Download PDF

Info

Publication number
CN114757745A
CN114757745A CN202210458830.3A CN202210458830A CN114757745A CN 114757745 A CN114757745 A CN 114757745A CN 202210458830 A CN202210458830 A CN 202210458830A CN 114757745 A CN114757745 A CN 114757745A
Authority
CN
China
Prior art keywords
commodity
attribute
scene
network
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210458830.3A
Other languages
English (en)
Inventor
马帅
王罡
李翔
郭子义
殷大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210458830.3A priority Critical patent/CN114757745A/zh
Publication of CN114757745A publication Critical patent/CN114757745A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明通过数据挖掘领域的方法,实现了一种基于联合矩阵分解的电商场景挖掘方法与系统。将外部输入的给定用户行为集合与商品属性集合作为电商场景信息,构建包含商品‑商品子网络、商品‑属性子网络、属性‑属性子网络三种类型子网络的电子商务异构信息网络,之后采用新型电商场景挖掘方法,经过计算步骤,输出商品品类划分的聚类集合。本发明提供的方法设计了一种新的电商场景定义,能够客观准确以电商平台内的实体元素反映真实世界,对所有商品领域均具有使用价值,显式明确的定义方式使场景信息可以引导下游推荐任务提升性能。

Description

一种基于联合矩阵分解的电商场景挖掘方法与系统
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于联合矩阵分解的电商场景挖掘方法。
背景技术
为了引导不同领域商品推荐,需要整合平台内部信息挖掘普适的形式化场景信息。在电子商务平台的商品推荐策略中,在用户商品互动记录的基础上引入额外的推荐引导信息是公认的提高预测质量的方法,例如,社交链接反映用户之间的不同社会关系,购物兴趣可以通过这种关系进行传播,从而对互动行为的推荐预测加以引导补充。由于传统的引导信息获取成本高昂,使用时需要数据对齐,迫使平台寻找公开易获取或通过内部信息即可提取的新型引导信息。根据具有一定实际含义的场景引导预测用户潜在的购物兴趣和行为意愿的方法逐渐受到业界的关注,并且部分以图片保存场景的方法在小规模投入使用后所取得的良好结果验证了这一策略的有效性。然而,将基于场景的商品推荐方法投入具有不同商品领域的实际平台进行运营时,面临诸多困难。一方面,场景作为基于场景的商品推荐方法中的关键引导信息在大部分情况下是未知的,换句话说,除了少数场合存在预先可知的场景外,这类引导信息大多都需要采用专门的方法进行获取。另一方面,电子商务平台上的数据更新迭代频率高,数据类型组成成分差异大,从结构化数据中挖掘信息的常规方法聚焦具体数据类型和组成模式,面对电商运营通用性更强与普适性更好的要求捉襟见肘,难以满足。
大型电商平台中进行场景挖掘主要存在4个方面的挑战。1)可解释性。场景代表着真实生活中的情景,因此所获得的商品品类集合应当可以解释为特定生活情景的象征。相反,如果一个商品品类集合不能对应任何真实生活中的情景,则其不是场景。例如,由路由器、交换机、线缆和3G/4G设备组成的集合非常明显地代表场景“组网”,而由路由器、交换机和帽子组成的集合不能解释为一个场景。2)普适性。电商平台上的数据可以组织建模为异构信息网络。虽然元路径(meta-paths)和元结构(meta-structures)等启发式数据结构已经在异构信息网络上的诸多数据挖掘任务中展现了良好的可用性,但其存在着局限性。一方面,这些任务中所出现的大多数异构信息网络的结构都较为简单;另一方面,元路径和元结构通常由人类专家手工设计,而在大型复杂的异构信息网络中如法炮制实际上是不可行的。因此,需要设计一种可以推广到具有不同复杂结构的异构信息网络上的场景挖掘方法。3)多样性。在电子商务中,一个商品品类可以同时存在于多个不同场景中,且一个场景也可以表示为多个不同的商品品类集合。例如,垃圾桶可以同时出现在场景“日常办公”和场景“居家生活”中;场景“日常办公”可以由打印机、垃圾桶和加湿器的组合表示,也可以由计算机、中性笔和打印机的组合表示。4)可学习性。电商中的场景一般是未知的,而且用于引导发掘场景的监督信息往往也是缺失的。因此,挖掘场景的任务最好作为一个无监督学习问题来处理,可以将其视为重叠聚类问题进行解决。
目前,并没有针对电商领域设计的形式化场景挖掘技术,由于可将场景挖掘视为重叠场景聚类问题,可以将现有的针对异构信息网络的重叠场景聚类技术用作场景挖掘。目前较为先进的方案HMFCus-S。下面简述该方法的主要流程要点:
给定一个异构信息网络H=(V,E),其中
Figure BDA0003613695030000021
T是H中的节点的类型数目,且T>1。Tt表示节点类型t。Vt表示类型为Tt的节点集合。E是节点之间边的集合。
(1)异构信息网络转化(Heterogeneous Information networkTransformation)。将目标聚类的节点类型视为中心类型,其他节点类型视为属性类型,则可以获得一个端点为中心类型,而另一个端点为属性类型的元路径集合P。由此,通过衡量由中心类型端点到属性类型端点的概率即可得到中心类型端点与属性类型端点的相似度,进一步可得到中心类型端点与属性类型端点之间的相似度矩阵。这些与元路径相对应的相似度矩阵集合X就是对原异构信息信息网络转化结果。这个步骤将复杂的关系拆解为目标节点与其他节点的相似度矩阵集合。
(2)多类型共同聚类(Multi-Type Co-clustering)。将转化得到的相似度矩阵集合X逐个进行分解,目标包括分解得到的因子矩阵相乘还原之后要尽可能与原矩阵接近,每个相似度矩阵分解出的中心节点因子矩阵应当与一个总的中心节点矩阵接近,总的中心节点矩阵中存在关系的中心节点之间的特征也要相接近。通过使用KKT条件(Karush-Kuhn-Tucher condition)求解出相应迭代式,应用乘法更新规则不断迭代至收敛,所得总的中心节点矩阵即为聚类隶属度矩阵,对其进行阈值筛选即可完成重复聚类任务。
(1)程序繁琐步骤多,增加了错误传播的可能性。异构信息网络虽然为复杂网络,但实质上是由多个子网络拼接而成的,可以直接对这些子网络进行信息抽取再整合,始终以原始数据作为处理对象可以最大程度上提高精准度。而HMFCus-S增加了转化步骤,利用元路径求出中心类型节点和属性类型节点的相似度,这对数据进行了不必要的处理,元路径的设计与相似度的计算方式都会引入新的误差,影响最终重叠聚类的效果。
(2)包含启发式结构,性能不稳定,不具有普适性。转化步骤中使用元路径的方式来从异构信息网络中过去信息,元路径的设计一直都是影响基于元路径方法性能的关键,需要人类专家凭借领域知识和大量测试才能完成设计,这导致每次在不同结构的数据上使用该方法时所设计的元路径质量存在差异,进而不能实现性能的一致性。
(3)增加不必要的中间变量,造成信息损失。目标节点在所有相似度矩阵中均有出现,HMFCus-S对每一个相似度矩阵都生成一个独立的目标节点因子矩阵,最后让这些矩阵向总的目标节点因子矩阵靠拢,看似这个总矩阵是综合了不同相似矩阵的信息,但实质上,独立的因子矩阵会在迭代过程中吸收其他相似度矩阵的信息,这样的传导过程因为增加中间独立的因子矩阵而发生信息衰减,完全可以直接使用总的目标因子矩阵作为各相似度矩阵的因子矩阵,从而直接吸收不同方面的信息。
从中可以看出,当前没有专门针对在线购物特征设计的场景聚类方法,而现有重叠聚类方法直接应用于电商场景挖掘存在诸多问题。
首先,当前处理同构网络的重叠聚类方法无法处理电商平台中的复杂信息。电商平台中实体众多,存在不同关系,仅依靠处理同构网络获取信息会产生片面结果无法对现实世界进行准确建模,结果准确率难以符合实际运营要求,不具有使用价值。
其次,当前处理异构信息网络的重叠聚类方法对人工提供的启发性知识依赖严重。设计元路径和原结构等知识成本巨大,且不具有重复利用性,电商平台不同商品领域的属性类型存在差异限制了这类方法的使用。
再次,当前电商场景定义有局限性。现有场景以图片格式为主,对于不以外部商品为主要特征的商品领域不具有可用性,同时相同场景对应海量图片,导致场景信息无法显式表示,不利于以抽象信息的形式引导后续商品推荐等任务。
发明内容
为此,本发明首先提出一种基于联合矩阵分解的电商场景挖掘方法,首先将外部输入的给定用户行为集合
Figure BDA0003613695030000041
与商品属性集合
Figure BDA0003613695030000042
作为电商场景信息,构建包含商品-商品子网络、商品-属性子网络、属性-属性子网络三种类型子网络的电子商务异构信息网络,之后采用新型电商场景挖掘方法,经过计算步骤,针对每个商品品类,输出其所属于的场景集合,同时通过收集属于相同场景的商品品类集合,输出电商场景;
所述商品-商品子网络记录商品间的关系,对于电子商务运营过程中的反映商品间关系的用户行为,记
Figure BDA0003613695030000043
表示用户行为的集合,给定一个用户行为B,相应的商品-商品子网络定义为GBB=(VB,EBB),其中VB是商品集合,EBB是商品之间边的集合,每一条边表示用户行为B中两个存在链接商品的共现关系,使用邻接矩阵WBB来表示商品间的联系,其中每一个元素代表两个商品经用户行为B反映出来的相关性;
所述商品-属性子网络记录商品与属性之间的关系。对于电子商务运营过程中的商品属性,将所述商品属性视为电子商务异构信息网络中的对象,令
Figure BDA0003613695030000044
Figure BDA0003613695030000045
表示商品属性的集合,其中每个属性Ai视为一个对象类型,给定一个属性A,一个商品-属性子网络可以通过一个二部图来表示GIA=(VI∪VA,EIA),其中VI是商品集合,VA是属性节点集合,EIA是表示商品和属性间二元关系链接的集合,每个商品-属性子网络使用邻接矩阵WIA来表示,其中每一个元素代表商品是否具有某一个具体的属性值;
所述属性-属性子网络记录属性间的关系,给定一个属性A,一个属性-属性子网络定义为GAA=(VA,EAA),其中VA是属性节点的集合,EAA是属性间链接的集合,利用邻接矩阵WAA表示属性间的联系,其中每一个元素代表两个商品属性的相关性。
所述反映商品间关系的用户行为包括点击、购买和评价。
所述包括商品属性品牌和品类。
所述计算步骤为:
一、读取电商异构信息网络G、商品属性类型集合
Figure BDA0003613695030000051
对应用户行为的商品类型集合
Figure BDA0003613695030000052
待挖掘场景的数目r、筛选阈值∈、迭代终止衡量值θ;
二、初始化各类型节点因子矩阵
Figure BDA0003613695030000053
三、令每个场景
Figure BDA0003613695030000054
四、令num_iter=0,last_loss=+∞;
五、判断num_iter是否小于max_iter。如果否,则跳转到步骤十二;
六、对于表示用户行为的商品类型集合中的每一个商品类型因子矩阵
Figure BDA0003613695030000055
Figure BDA0003613695030000056
按照公式
Figure BDA0003613695030000057
进行更新;
七、对于商品属性类型集合中除品类外的每一个商品属性类型因子矩阵
Figure BDA0003613695030000058
按照公式
Figure BDA0003613695030000059
Figure BDA00036136950300000510
进行更新;
八、对于商品品类因子矩阵Hc,按照公式
Figure BDA00036136950300000511
Figure BDA00036136950300000512
Tp=Tc进行更新;
九、计算损失函数loss,所述损失函数是整个联合非负矩阵分解的最小化目标,具体为
Figure BDA00036136950300000513
其中,Hp是类型为Tp的对象的低维因子矩阵,‖·‖F表示Frobenius范数,α和β是控制两个正则项的系数,‖·‖2,1是用来正则化商品品类表征Hc的l2,1范数,在条件Hp≥0的约束下最小化目标函数
Figure BDA0003613695030000061
十、判断是否|last_loss-loss|小于θ,如果是转到步骤六;
十一、将loss赋予last_loss,num_iter自增1;
十二、逐列对商品品类因子矩阵进行处理。将该列中所有数值大于阈值∈所对应的商品品类放入该列对应的场景中;
十三、返回所有非空场景,完成场景挖掘;
其中,
Figure BDA0003613695030000062
是一个对应着不同用户行为的商品类型集合,
Figure BDA0003613695030000063
是一个属性类型集合,
Figure BDA0003613695030000064
表示商品品类,(Hp)ij表示Hp中第(i,j)个元素,U是一个对角矩阵,对角线上第j个元素是(U)jj=1/||(Hc)·j||2,并且(Hc)·j是Hc的第j列。
本发明所要实现的技术效果在于:
(1)提出一种新的电商场景定义,使用在真实生活场景中频繁共同出现的商品品类集合作为形式化定义,能够客观准确以电商平台内的实体元素反映真实世界,对所有商品领域均具有使用价值,显式明确的定义方式使场景信息可以引导下游推荐任务提升性能。
(2)整合电商网络数据,以抽象节点类型的方式组织数据结构和设计方法,使得后续方法能够适应不同商品领域所提供数据结构不同的情况,无需额外的人工干预和重新调整方法,降低使用成本
(3)基于非负矩阵分解,针对电商实际运行特征,设计联合分解方法,组成异构信息网络中含有相同节点类型的子网络分解出同一个节点类型子网络因子矩阵,不使用中间矩阵,减少信息衰弱,同时向目标函数中增加稀疏化目标,实现在不增加步骤的前提下在联合分解环节实现场景信息的筛选和保留,也将场景信息直接编码在商品品类因子矩阵中,避免增加后处理环节,进一步避免错误传播。
附图说明
图1电商异构信息网络示例;
图2抽象电商异构信息网络构造示意图;
图3新型电商场景挖掘方法整体流程图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了一种基于联合矩阵分解的电商场景挖掘方法。
为了说明这一方法,首先需要对新型电商场景挖掘问题进行定义。
下面首先定义异构信息网络、电商场景,然后基于其给出新型电商场景挖掘问题定义。
异构信息网络:令
Figure BDA0003613695030000071
是一个由m个对象类型组成的集合,
Figure BDA0003613695030000072
是一个由k个对象类型组成的集合。对于每一个类别
Figure BDA0003613695030000073
令Vi是这种类别的对象集合。对于每一个类别
Figure BDA0003613695030000074
令Ej是这种类别的边集合。异构信息网络是一个图G=(V,E),它具有一个节点类型映射函数
Figure BDA0003613695030000075
Figure BDA0003613695030000076
和一个边类型映射函数
Figure BDA0003613695030000077
其中,
Figure BDA0003613695030000078
是节点集合,
Figure BDA0003613695030000079
Figure BDA00036136950300000710
是边集合。每一个
Figure BDA00036136950300000711
表示V中两个对象xp和xq之间类型Rj的二元关系。当
Figure BDA00036136950300000712
Figure BDA00036136950300000713
G被称为异构信息网络。
图1展示了一个小型的电子商务异构信息网络示例,其中包含商品属性(如品类和品牌)和用户行为(体现在商品间不同联系上)。这个网络存在三种对象类型
Figure BDA00036136950300000714
同时也存在五种
Figure BDA00036136950300000715
中的关系,他们分别采用不同的线条样式在图中进行标注。例如,commodity(商品)和brand(品牌)之间的关系包含信息“哪个商品属于哪个品牌”。
场景:一个电子商务的场景是在一个生活情境中频繁且同时出现的商品品类所组成的集合,定义为S={x1,x2,...,x|S||xi∈Vc,1≤i≤|S|},其中,Vc是商品品类的集合并且|S|≥1。令
Figure BDA00036136950300000716
是一个场景集合,
Figure BDA00036136950300000717
是一个生活情境集合,
Figure BDA00036136950300000718
是一个将场景映射到生活情境的映射函数。一个电子商务场景满足下面两个属性:(1)如果一个场景S不能代表任何生活情境,则
Figure BDA00036136950300000719
(2)两个场景S1和S2是同一个场景,当且仅当φ(S1)=φ(S2)。
在图1中,打印机(Printer)、垃圾桶(Trash bin)和加湿器(Humidifier)在日常办公场所中是经常出现的,因此他们构成场景S“日常办公”(Daily Of fice)。由于可以使用不同的品类集合来表示相同的生活情境,所以场景构成是灵活的。例如,可以将钢笔加入场景S,这时的场景S仍然表示“日常办公”。然而,增加或移除场景中的一个品类也许会导致场景所表示的含义发生本质性的改变。例如,将打印机从场景S中移除可获得一个新场景“日常起居”。
电子商务场景挖掘:给定一个电子商务异构信息网络G=(V,E)和场景数目r,在G上挖掘场景是将中的商品品类划分到一个可重叠的聚类集合
Figure BDA0003613695030000081
Figure BDA0003613695030000082
具体到新型抽象电商异构信息网络构造问题,在给出了电商场景相关定义及问题定义后,本方法下面给出抽象电商异构信息网络的构造描述。
商品-商品子网络(Item-Item Network)。这种类型的网络记录商品间的关系。在电子商务运营过程中,存在多种可以用来反映商品间关系的用户行为,如点击、购买和评价等。例如,两个商品同时出现的现象可以发生在不同类型的用户行为中,如“点击过商品x1的用户也点击过商品x2”和“购买过商品x1的用户也购买过商品x2”。令
Figure BDA0003613695030000083
表示用户行为的集合。给定一个用户行为B,相应的商品-商品子网络定义为GBB=(VB,EBB),其中VB是商品集合,EBB是商品之间边的集合。每一条边表示用户行为EBB中两个存在链接商品的共现关系。此外,本文使用邻接矩阵WBB来表示商品间的联系,其中每一个元素代表两个商品经用户行为B反映出来的相关性。
商品-属性子网络(Item-Attribute Network)。这种类型的网络记录商品与属性之间的关系。在电子商务运营过程中,每个商品都具有多种属性,如品牌和品类等。我们将这些属性视为电子商务异构信息网络中的对象。令
Figure BDA0003613695030000084
Figure BDA0003613695030000085
表示商品属性的集合,其中每个属性Ai视为一个对象类型。给定一个属性A,一个商品-属性子网络可以通过一个二部图来表示GIA=(VI∪VA,EIA),其中VI是商品集合,VA是属性节点集合,EIA是表示商品和属性间二元关系链接的集合。每个商品-属性子网络也可以使用邻接矩阵WIA来表示,其中每一个元素代表商品是否具有某一个具体的属性值。
属性-属性子网络(Attribute-Attribute Network)。这种类型的网络记录属性间的关系。例如,运动品牌“耐克”与同为运动品牌的“阿迪达斯”高度相关,但与奢侈品牌“香奈儿”相关度不高。为了丰富电子商务异构信息网络的信息量,我们构建了属性-属性子网络。给定一个属性A,一个属性-属性子网络定义为GAA=(VA,EAA),其中VA是属性节点的集合,EAA是属性间链接的集合。此外,本文利用邻接矩阵WAA表示属性间的联系,其中每一个元素代表两个商品属性的相关性。
给定用户行为集合
Figure BDA0003613695030000091
与商品属性集合
Figure BDA0003613695030000099
,可以构建出一个包含上面三种类型子网络的电子商务异构信息网络。同时,该网络应该包括商品品类,因为它是组成待发现场景的对象类型。图2展示了一个用于场景挖掘的来自多种用户行为和商品属性的异构信息网络,其中商品品类视为一个特殊的属性。其中,网络包含商品属性和用户行为信息,可分为属性-属性(A-A)、商品-属性(I-A)、商品-项目(I-I)、商品-类别(I-C)和类别-类别(C-C)网络,而商品品类作为场景的组成部分是必不可少的对象类型。
新型电商场景挖掘方法通过一个具体算法实现。整体流程图如图3所示。
具体来讲,计算过程分为以下几步:
(1)读取电商异构信息网络G、商品属性类型集合
Figure BDA0003613695030000092
对应用户行为的商品类型集合
Figure BDA0003613695030000093
待挖掘场景的数目r、筛选阈值∈、迭代终止衡量值θ。
(2)初始化各类型节点因子矩阵
Figure BDA0003613695030000094
(3)令每个场景
Figure BDA0003613695030000095
(4)令num_iter=0,last_loss=+∞
(5)判断num_iter是否小于max_iter。如果否,则跳转到(12)
(6)对于表示用户行为的商品类型集合中的每一个商品类型因子矩阵
Figure BDA0003613695030000096
Figure BDA0003613695030000097
按照公式进行更新
(7)对于商品属性类型集合中除品类外的每一个商品属性类型因子矩阵
Figure BDA0003613695030000098
按照公式进行更新
(8)对于商品品类因子矩阵Hc,按照公式进行更新
(9)利用公式,计算损失函数loss
(10)判断是否|last_loss-loss|小于θ。如果是转到步骤(6)。
(11)将loss赋予last_loss,num_iter自增1
(12)逐列对商品品类因子矩阵进行处理。将该列中所有数值大于阈值∈所对应的商品品类放入该列对应的场景中
(13)返回所有非空场景,完成场景挖掘。
下面分别对其中的步骤(9)中使用的损失函数以及步骤(6)、(7)和(8)中使用的迭代式展开描述。
步骤(9)中使用的损失函数
该步所使用的损失函数是整个联合非负矩阵分解的最小化目标,具体为
Figure BDA0003613695030000101
其中,Hp是类型为Tp的对象的低维因子矩阵,‖·‖F表示Frobenius范数。α和β是控制两个正则项的系数,‖·‖2,1是用来正则化商品品类表征Hc的l2,1范数,它可以使这个分解矩阵变得稀疏,从而实现直接获取场景的目标。最后,我们在条件Hp≥0的约束下最小化目标函数
Figure BDA0003613695030000102
步骤(6)、(7)和(8)中使用的迭代式。
Figure BDA0003613695030000103
Figure BDA0003613695030000104
Figure BDA0003613695030000105
其中,
Figure BDA0003613695030000106
是一个对应着不同用户行为的商品类型集合,
Figure BDA0003613695030000107
是一个属性类型集合,
Figure BDA0003613695030000108
表示商品品类。令(Hp)ij表示Hp中第(i,j)个元素。U是一个对角矩阵,对角线上第j个元素是(U)jj=1/||(Hc)·j||2,并且(Hc)·j是Hc的第j列。
上述方法具有以下关键特征:1)可解释性。其使用商品品类的集合来表示场景,这使得所挖掘的场景可以直观的展现出来,并且容易与现实生活的情景相对应。也就是说,该方法获得了实际可解释的场景。2)通用性。该方法基于更抽象的数据类型来处理各种不同组成的电商异构信息网络,方法将元素视为不同的类型来抽象地设计算法,而非使用具体的信息。不同元素类型的网络根据类型进行划分,并引入相应的更新规则进行场景挖掘。因此,该方法具有推广到不同组成的电商异构信息网络进行场景挖掘的潜力。3)多样性。该方法允许不同场景之间的商品类别重叠,从而很好地保留了多样性,符合场景的内在特征。4)可学习性。该方法以无监督的方式定义电子商务的场景挖掘问题,并充分利用基于矩阵分解的方法进行求解。因此,该方法避免了实际应用时场景监督信息普遍缺失的问题。5)准确性。该方法移除传递信息的中间矩阵,直接使用一个矩阵整合多个相关子网络信息,减少了信息衰减。同时,通过增加稀疏化目标对商品品类因子矩阵进行关键信息筛选,移除增加额外环节进行后处理避免的错误传播,提高了场景挖掘的准确性。

Claims (5)

1.一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:首先将外部输入的给定用户行为集合
Figure FDA0003613695020000011
与商品属性集合
Figure FDA0003613695020000012
作为电商场景信息,构建包含商品-商品子网络、商品-属性子网络、属性-属性子网络三种类型子网络的电子商务异构信息网络,之后采用新型电商场景挖掘方法,经过计算步骤,针对每个商品品类,输出其所属于的场景集合,同时通过收集属于相同场景的商品品类集合,输出电商场景;
所述商品-商品子网络记录商品间的关系,对于电子商务运营过程中的反映商品间关系的用户行为,记
Figure FDA0003613695020000013
表示用户行为的集合,给定一个用户行为B,相应的商品-商品子网络定义为GBB=(VB,EBB),其中VB是商品集合,EBB是商品之间边的集合,每一条边表示用户行为B中两个存在链接商品的共现关系,使用邻接矩阵WBB来表示商品间的联系,其中每一个元素代表两个商品经用户行为B反映出来的相关性;
所述商品-属性子网络记录商品与属性之间的关系。对于电子商务运营过程中的商品属性,将所述商品属性视为电子商务异构信息网络中的对象,令
Figure FDA0003613695020000014
Figure FDA0003613695020000015
表示商品属性的集合,其中每个属性Ai视为一个对象类型,给定一个属性A,一个商品-属性子网络可以通过一个二部图来表示GIA=(VI∪VA,EIA),其中VI是商品集合,VA是属性节点集合,EIA是表示商品和属性间二元关系链接的集合,每个商品-属性子网络使用邻接矩阵WIA来表示,其中每一个元素代表商品是否具有某一个具体的属性值;
所述属性-属性子网络记录属性间的关系,给定一个属性A,一个属性-属性子网络定义为GAA=(VA,EAA),其中VA是属性节点的集合,EAA是属性间链接的集合,利用邻接矩阵WAA表示属性间的联系,其中每一个元素代表两个商品属性的相关性。
2.如权利要求1所述的一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:所述反映商品间关系的用户行为包括点击、购买和评价。
3.如权利要求1所述的一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:所述包括商品属性品牌和品类。
4.如权利要求1所述的一种基于联合矩阵分解的电商场景挖掘方法,其特征在于:所述计算步骤为:
一、读取电商异构信息网络G、商品属性类型集合
Figure FDA0003613695020000016
对应用户行为的商品类型集合
Figure FDA0003613695020000017
待挖掘场景的数目r、筛选阈值∈、迭代终止衡量值θ;
二、初始化各类型节点因子矩阵
Figure FDA0003613695020000018
三、令每个场景
Figure FDA0003613695020000021
四、令num_iter=0,last_loss=+∞;
五、判断num_iter是否小于max_iter。如果否,则跳转到步骤十二;
六、对于表示用户行为的商品类型集合中的每一个商品类型因子矩阵
Figure FDA0003613695020000022
Figure FDA0003613695020000023
按照公式
Figure FDA0003613695020000024
进行更新;
七、对于商品属性类型集合中除品类外的每一个商品属性类型因子矩阵
Figure FDA0003613695020000025
按照公式
Figure FDA0003613695020000026
Figure FDA0003613695020000027
进行更新;
八、对于商品品类因子矩阵Hc,按照公式
Figure FDA0003613695020000028
Figure FDA00036136950200000212
进行更新;
九、计算损失函数loss,所述损失函数是整个联合非负矩阵分解的最小化目标,具体为
Figure FDA00036136950200000210
其中,Hp是类型为Tp的对象的低维因子矩阵,‖·‖F表示Frobenius范数,α和β是控制两个正则项的系数,‖·‖2,1是用来正则化商品品类表征Hc的l2,1范数,在条件Hp≥0的约束下最小化目标函数
Figure FDA00036136950200000211
十、判断是否|last_loss-loss|小于θ,如果是转到步骤六;
十一、将loss赋予last_loss,num_iter自增1;
十二、逐列对商品品类因子矩阵进行处理。将该列中所有数值大于阈值∈所对应的商品品类放入该列对应的场景中;
十三、返回所有非空场景,完成场景挖掘;
其中,
Figure FDA0003613695020000031
是一个对应着不同用户行为的商品类型集合,
Figure FDA0003613695020000032
是一个属性类型集合,
Figure FDA0003613695020000033
表示商品品类,(Hp)ij表示Hp中第(i,j)个元素,U是一个对角矩阵,对角线上第j个元素是(U)jj=1/||(Hc)·j||2,并且(Hc)·j是Hc的第j列。
5.一种基于联合矩阵分解的电商场景挖掘系统,其特征在于:
包括输入单元,计算单元,输出单元;所述计算单元应用如权利要求1-4任一所述的一种基于联合矩阵分解的电商场景挖掘方法,将输入单元提取的给定用户行为集合
Figure FDA0003613695020000034
与商品属性集合
Figure FDA0003613695020000035
作为电商场景信息计算,并由输出单元输出每一商品的品类划分的聚类集合。
CN202210458830.3A 2022-04-25 2022-04-25 一种基于联合矩阵分解的电商场景挖掘方法与系统 Pending CN114757745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458830.3A CN114757745A (zh) 2022-04-25 2022-04-25 一种基于联合矩阵分解的电商场景挖掘方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210458830.3A CN114757745A (zh) 2022-04-25 2022-04-25 一种基于联合矩阵分解的电商场景挖掘方法与系统

Publications (1)

Publication Number Publication Date
CN114757745A true CN114757745A (zh) 2022-07-15

Family

ID=82332400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210458830.3A Pending CN114757745A (zh) 2022-04-25 2022-04-25 一种基于联合矩阵分解的电商场景挖掘方法与系统

Country Status (1)

Country Link
CN (1) CN114757745A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180020250A1 (en) * 2015-09-08 2018-01-18 Tencent Technology (Shenzhen) Company Limited Recommendation information pushing method, server, and storage medium
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法
CN111967946A (zh) * 2020-09-04 2020-11-20 吉林大学 一种基于面向用户多关系信息网络的商品推荐方法及系统
CN112131480A (zh) * 2020-09-30 2020-12-25 中国海洋大学 基于多层异质属性网络表征学习的个性化商品推荐方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180020250A1 (en) * 2015-09-08 2018-01-18 Tencent Technology (Shenzhen) Company Limited Recommendation information pushing method, server, and storage medium
CN109710835A (zh) * 2018-11-15 2019-05-03 中国人民解放军国防科技大学 一种带有时间权重的异构信息网络推荐方法
CN111967946A (zh) * 2020-09-04 2020-11-20 吉林大学 一种基于面向用户多关系信息网络的商品推荐方法及系统
CN112131480A (zh) * 2020-09-30 2020-12-25 中国海洋大学 基于多层异质属性网络表征学习的个性化商品推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GANG WANG ET AL: "SMEC: Scene Mining for E-Commerce", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》, vol. 39, no. 1, 31 January 2024 (2024-01-31), pages 192 - 210 *

Similar Documents

Publication Publication Date Title
CN107330115B (zh) 一种信息推荐方法及装置
US7283982B2 (en) Method and structure for transform regression
CN112989064B (zh) 一种聚合知识图神经网络和自适应注意力的推荐方法
CN112232925A (zh) 一种融合知识图谱对商品进行个性化推荐的方法
CN108648049A (zh) 一种基于用户行为区别建模的序列推荐方法
CN107562795A (zh) 基于异构信息网络的推荐方法及装置
CN112364976A (zh) 基于会话推荐系统的用户偏好预测方法
CN112529168A (zh) 一种基于gcn的属性多层网络表示学习方法
CN113641920B (zh) 基于社区发现和图神经网络的商品个性化推荐方法及系统
CN112950324B (zh) 一种知识图谱辅助的成对排序个性化电商推荐方法及系统
Xiao et al. LECF: recommendation via learnable edge collaborative filtering
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN114637923B (zh) 基于层次注意力图神经网络的数据信息推荐方法和装置
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113468227A (zh) 基于图神经网络的信息推荐方法、系统、设备和存储介质
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN112836125B (zh) 一种基于知识图谱和图卷积网络的推荐方法及其系统
CN115860880B (zh) 基于多层异质图卷积模型的个性化商品推荐方法及系统
CN114065048A (zh) 基于多异构图图神经网络的物品推荐方法
CN115375382A (zh) 一种商品推荐方法、装置及相关设备
CN115329215A (zh) 异构网络中基于自适应动态知识图谱的推荐方法及系统
CN113610610B (zh) 基于图神经网络和评论相似度的会话推荐方法和系统
CN110889493A (zh) 针对关系网络添加扰动的方法及装置
CN113744023B (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
CN114757745A (zh) 一种基于联合矩阵分解的电商场景挖掘方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination