CN112307343B - 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 - Google Patents

基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 Download PDF

Info

Publication number
CN112307343B
CN112307343B CN202011225114.8A CN202011225114A CN112307343B CN 112307343 B CN112307343 B CN 112307343B CN 202011225114 A CN202011225114 A CN 202011225114A CN 112307343 B CN112307343 B CN 112307343B
Authority
CN
China
Prior art keywords
user
data
node
book
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011225114.8A
Other languages
English (en)
Other versions
CN112307343A (zh
Inventor
韦世红
杨旭
肖寒春
肖云鹏
李暾
卢星宇
刘红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011225114.8A priority Critical patent/CN112307343B/zh
Publication of CN112307343A publication Critical patent/CN112307343A/zh
Application granted granted Critical
Publication of CN112307343B publication Critical patent/CN112307343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于网络对齐领域,具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;本发明采用交替迭代补偿机制对异质平台稀疏数据进行补偿,获取更有效的实验数据。

Description

基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法
技术领域
本发明属于网络对齐领域,具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法。
背景技术
异质网络对齐是当今研究的热点问题,异质电商网络对齐就是识别不同电商平台下的同一用户的不同账号之间的匹配问题,通过对不同电商平台上的用户属性进行计算分析,发现异质网络间的用户匹配关系。用户对齐也称用户匹配、用户身份识别等,用户实体对齐在很多领域都有重要应用,比如,跨商业网站的推荐系统、社交网络的好友推荐和通信录合并、网络舆论安全等领域都有着极强的研究价值和实际应用。
随着Internet的广泛普及,各类电子商务平台走进人们的视野,用户为了满足不同的服务需求,往往不会局限于单一的电商网络平台中,因此,跨电商网络环境下的用户识别问题成为研究热点。其主要研究可以分为3大类:基于用户属性相似性的方法,基于网络结构的方法和基于多因素混合的方法。基于用户属性信息的网络对齐方法,这类方法通过衡量字符串之间的转换规则以及相似性进行识别;基于用户行为信息的网络对齐方法,这类方法通过提取用户行为特征相似性进行识别;基于用户结构信息的网络对齐方法,这类方法将用户结构抽象成最大公共子图问题进行相似度求解。
目前,虽然对异质网络对齐进行了大量了研究,取得了很好的成果,但仍存在一些问题,比如电商平台消费者有效行为数据稀疏性。虽然电商平台用户产生的数据量十分可观,但是有效的用户行为数据却极其稀少,这给有效的用户身份匹配造成了不便。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型对数据进行的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息节点的嵌入向量;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
优选的,提取预处理后用户数据的相关属性包括提取用户商品兴趣度、用户商品交换度以及用户兴趣集合。
优选的,对稀疏的用户行为数据进行数据补偿的过程为:
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。
进一步的,判别模型D的目标函数为:
Figure BDA0002763401930000031
模型的优化函数为:
Figure BDA0002763401930000032
优选的,采用UBS2vec异质网络对补偿后的数据进行处理的过程包括:
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对电商书城网络进行全貌信息表示;
S32:根据全貌信息表示获取目标类型q的节点候选集合和同质边连接节点候选集合;
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;
S34:制定Jump策略和Stay策略;所述Jump策略为跳到目标类型q的节点候选集合中选取节点;所述Stay策略为跳到同质边连接节点候选集合中选取节点;
S35:根据选取目标类型节点函数计算Jump策略的概率
Figure BDA0002763401930000033
和Stay策略的概率
Figure BDA0002763401930000034
S36:对Jump策略的概率
Figure BDA0002763401930000035
和Stay策略的概率
Figure BDA0002763401930000036
的大小进行判断;若Jump的概率
Figure BDA0002763401930000037
大于Stay的概率
Figure BDA0002763401930000038
选择调到目标类型为q的节点;若当Jump的概率
Figure BDA0002763401930000039
小于Stay的概率
Figure BDA00027634019300000310
在vi的邻居节点中选取以同质边连接的节点;
S37:使用SkipGram嵌入算法学习S35得到的节点的近邻序列,并获取该节点的向量表示。
优选的,构建“用户-图书”二部图模型的过程包括:
步骤1:把多个领域的商品的物品类型抽象成多维的兴趣群体;
步骤2:根据平台用户的购买信息将对应的用户归属到对应的兴趣群体中,得到“用户-图书”二部图模型;“用户-图书”二部图模型的表达式为:
Gsu=(U∪S,V)
优选的,采用“用户-图书”二部图模型对包含元路径语义的节点的嵌入向量进行用角色划分的过程包括:
S41:计算用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate;
S42:计算第i类商品数量占全部商品数量的比例iRate;
S43:根据UserRate和iRate设置嵌入向量中用户Ui否加入第i类群体的决策函数isInGroup(Ui,Sk);
S44:根据决策函数isInGroup(Ui,Sk)对用户进行角色划分。
进一步的,决策函数isInGroup(Ui,Sk)为:
Figure BDA0002763401930000041
优选的,计算相似兴趣群体节点用户向量间的相似度的公式为:
Figure BDA0002763401930000042
本发明从异质书城电商平台用户行为数据出发,提出一种异质电商书城用户对齐预测模型。该方法从三个方面考虑,用户图书兴趣度、用户商品交互度、用户兴趣集合三个方面出发。其中发明重点部分是采用交替迭代补偿机制对异质平台稀疏数据进行补偿,获取更有效的实验数据。
附图说明
图1是本发明的整体框图;
图2是本发明的用户行为特征序列生成判别迭代模型图;
图3是本发明的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,如图1所示,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型对数据进行的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息的节点的嵌入向量;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
其中,Double-GAN为一种无监督学习中使用的神经网络,UBS2vec为一种异质网络表示学习算法。
获取用户数据包括直接获取书城提供的数据源或直接下载现有公开数据源,或通过电商网络公共应用程序编程接口API获取可得到原始数据。由于获取的原始数据都是非结构化的,不能直接用户数据分析;因此对数据进行预处理,使得将大部分非结构化数据结构化。对数据进行预处理的过程包括:删除重复数据、清楚无效节点如部分游客数据等。
提取预处理后用户数据的相关属性包括提取用户商品兴趣度和用户兴趣集合。
用户商品兴趣度主要衡量用户对一个商品的感兴趣的程度;用户商品兴趣度的表达式为:
Figure BDA0002763401930000061
其中,IsBuy表示用户是否购买,IsCollect表示用户是否收藏,IsBrowse表示用户是否浏览,w为定值。
将IsBuy、IsCollec以及IsBrowse分别赋值为3、2、1;将w赋值为6。如果消费者仅仅浏览和收藏商品后,没有选择购买,那么用户商品兴趣度的值为0.5,如果消费者浏览并购买了商品而没有收藏,那么用户兴趣度的值为
Figure BDA0002763401930000062
如果消费者浏览、收藏并购买了商品,那么用户兴趣度的值为1。
用户兴趣集合UI的表达式为:
UI={Si|i=1,2...m}
其中,Si={Sij|j=i,2,...,n}表示商品类型群体集合,Si表示第i个领域下的第j个商品。
如图3所示,构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型分为三个阶段,包括:首先,我们提取书城电商平台的用户基本信息数据、历史行为数据,通过Double-GAN方法交替迭代补偿异质书城数据,获取更有效的实验数据。同时,利用表示学习方法提出的UBS2vec方法对“用户-行为-图书”信息空间进行表示。接着,根据用户的历史浏览信息、历史购买信息,构建“用户-图书”二部图对用户进行角色划分,计算相似兴趣群体节点用户向量间的相似度,即相似度最高的即为同一用户,得到匹配用户账号对。
如图2所示,稀疏的用户行为数据进行数据补偿的过程为:
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;当判别模型无法判断是否是真实训练数据中的数据时,即当D(x)=0.5时,此时生成器生成的数据非常接近真实的样本,此时跳出迭代,得到接近真实的样本数据。
优化参数包括对抗生成网络模型中判别器D的参数θd和θg进行优化。
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。
将异质电商历史行为数据集表示为datasx=[x1,x2,...,xn]若用户行为特征序列服从分布P(x,θ),θ是这个分布的参数(如果是高斯混合模型,那么θ就是每个高斯分布的平均值和方差)。本发明中的用户行为数据生成模型G的目标就是要生成真实数据去欺骗判别模型D,而判别模型D的目标就是尽量把生成模型G生成的数据和采集到的真实数据区分开来,即生成模型和判别模型在不断的优化学习过程中提高各自的生成能力和判别能力,是得模型能够生成与用户行为样本同态同分布的数据,而从生成良好的用户行为数据以缓解稀疏性。
在进行数据增强的同时,发现生成的数据出现很多噪音,为进一步解决和优化上述问题,将判别模型D输出的数据循环迭代输入生成模型G,让生成模型和判别模型不断的学习和优化参数,最终生成更有效的数据,同时,我们将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。本发明用G(z)表示用户行为数据样本生成模型,z表示对原始用户行为特征序列随机采样后的数据,模型G将随机采样数据z生成为用户行为特征数据datasx=[x1,x2,...,xn]和datasy=[y1,y2,...,yn]。D是一个用户行为特征序列判别模型,对任意的输入特征序列x和y,D(x)或D(y)会输出一个0~1之间实数,以表示该组特征序列来自真实采集样本数据的概率。Pdatas和PG分别表示真实用户行为数据和生成行为数据的分布,则判别模型的目标函数为:
Figure BDA0002763401930000081
整个模型的优化函数可以表示为:
Figure BDA0002763401930000082
其中,
Figure BDA0002763401930000083
表示真实数据放到判别模型D(x)的输出,Pdatas表示真实用户行为数据的分布,D(x)表示输入真实数据判别模型的输出,
Figure BDA0002763401930000084
表示使用造假数据放到判别模型D(x)的输出,PG表示生成行为数据的分布。
优化的整个过程表示为对D和G进行交替迭代,知道整个过程收敛,这一过程表示为:datasG=Double-GAN(datas),期望datasG无限接近于datas。
采用UBS2vec异质网络表示学习算法对补偿后的数据进行处理,该方法与JUST异质网络表示模型处理数据的方法相似,通过提出不同的策略来控制节点的随机游走。所述不同策略包括Jump策略和Stay策略;采用不同的策略得到很多好的平衡同质边和异质边,还能平衡不同类型的节点的分布。其过程包括:
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对异质电商书城网络进行全貌信息表示。所述全貌信息表示就是用异质网络表示学习的方法将网络中的多类型节点嵌入到同一向量空间,达到对书城网络特征空间进行降维、统一化、稠密化表示的目的。
S32:根据全貌信息表示获取目标类型q的节点候选集合和同质边连接节点候选集合;
目标类型q的节点候选集合为:
Figure BDA0002763401930000085
其中,
Figure BDA0002763401930000086
表示节点vi跳到类型为q的节点的集合,Ehe表示异质书城网络G中异质边的集合,函数φ(·)表示对于每个节点vi映射到特定的数据类型的映射函数。
同质边连接节点候选集合为:
Vstay(vi)={v|(vi,v)∈Eho∨(v,vi)∈Eho}
其中,Vstay(vi)表示下一跳选择和vi相同类型节点的集合,Eho表示异质信息网络G中同质边的集合,vi表示异质信息网络中的节点。
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;选取目标类型节点函数为:
Figure BDA0002763401930000091
其中,Qjump(v)选取下一跳的目标类型节点函数,Qhist表示长度为m的队列,用来存储随机游走中前m次访问的节点的类型,通过调节m的大小可以平衡节点在不同类型中的分布,
Figure BDA0002763401930000092
表示节点vi跳到类型为q的节点的集合。
S34:制定Jump策略和Stay策略;所述Jump策略为采用均匀采样在目标类型q的节点候选集合中的随机选择一个节点;所述Stay策略为在同质边连接节点候选集合中选取选取以同质边连接的节点,使用均匀采样从中选取一个节点。
S35:根据选取目标类型节点函数计算Jump策略的概率
Figure BDA0002763401930000093
和Stay策略的概率
Figure BDA0002763401930000094
Stay策略的概率定义为:
Figure BDA0002763401930000095
其中,Q表示异质信息网络G的节点类型集合,USH表示用户商品兴趣度,函数φ(·)表示对于每个节点vi映射到特定的数据类型的映射函数,
Figure BDA0002763401930000096
表示节点vi跳到类型为q的节点的集合,Vstay(vi)表示下一跳选择和vi相同类型节点的集合,
Figure BDA0002763401930000097
表示初始化的随机游走集合,α是初始化的Stay概率,l代表在这次随机游走过程中连续选择和vi节点类型一致的节点的次数,通过调节α可以避免随机游走的过程中,在同一类型节点类型停留过长的时间,还可以平衡随机游走路径中同质边和异质边的数量。
Jump策略的概率与Stay策略的概率相反。其表达式为:
Figure BDA0002763401930000101
S36:对Jump策略的概率
Figure BDA0002763401930000102
和Stay策略的概率
Figure BDA0002763401930000103
的大小进行判断;若Jump的概率
Figure BDA0002763401930000104
大于Stay的概率
Figure BDA0002763401930000105
选择调到目标类型为q的节点;若当Jump的概率
Figure BDA0002763401930000106
小于Stay的概率
Figure BDA0002763401930000107
在vi的邻居节点中选取以同质边连接的节点。
S37:对于任意节点,使用SkipGram嵌入学习该节点近邻序列,获取该节点的向量表示。
其中SkipGram表示一种跳字模型,核心是通过当前词语推测出在一定窗口内的上下文词语。
通过随机游走策略得到节点的近邻序列的实施例,比如初始化随机游走的长度为5,网络中节点类型有用户节点U、图书节点B、图书类型节点T以及作者节点A;对于任意一个用户节点,它游走的序列可能是”ABUAT”’,或者很多其他的可能,得到这个序列之后直接输入skipGram模型进行学习,得到节点的向量表示。
为构建“用户-图书”二部图模型的过程包括:
首先,把多个领域的商品的物品类型抽象成多维的兴趣群体,其次,再利用每个商品的属性信息把每个商品归属到对应的兴趣领域,然后,根据平台用户的购买信息将对应的用户归属到对应的兴趣群体,最终构建用户-图书二部图Gsu=(U∪S,V)。用户节点U和商品节点S是两个互不相交的顶点集合,每一条边表示存在购买关系。如果用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate大于第i类商品数量占全部商品数量的比例iRate,则将该用户加入第i类的群体。决定用户Ui是否加入第i类群体的决策函数可以定义如下:
Figure BDA0002763401930000111
UserRate计算公式如下:
Figure BDA0002763401930000112
其中,type(S)表示兴趣群体的类型,
Figure BDA0002763401930000113
表示用户Ui所购买的第k类商品数量,
Figure BDA0002763401930000114
表示用户Ui所购买的全部类型的商品数量。
iRate计算公式如下:
Figure BDA0002763401930000115
其中,|Ik|表示第k类商品的数量,|I|表示全部类型商品数量。
采用决策函数isInGroup(Ui,Sk)对用户进行角色划分包括:书城有很多品类的书籍,如文艺类、少儿类、小说类、教辅类等等;通过历史订单获取每个用户购买对应品类的书籍以及相应的数量;如果用户所购买第i类书籍占该用户所购买的全部书籍的比例大于第i类书籍数量占书城全部数量的比例,则将用户加入第i类的群体。
根据得到的异质书城网络中用户的节点嵌入向量以及“用户-图书”二部图模型对用户历史行为数据分析用户的兴趣偏好。针对节点向量之间的相似度的计算方法,本发明采用余弦相似度和杰卡德相似系数进行综合匹配用户计算,具体计算公式如下:
Figure BDA0002763401930000116
其中,
Figure BDA0002763401930000117
表示书城平台X节点用户i的嵌入向量,
Figure BDA0002763401930000118
表示书城平台Y节点用户j的嵌入向量。
通过计算户向量间的余弦相似度,得到topk个和他相似的用户,如果这k个用户里面有真实和他属于同一用户,则认为此次匹配正确,这个k值为随机值。
在进行匹配时给出k个最接近的匹配用户节点,如果这k个用户节点包含真正该用户匹配的节点,则认为此次匹配预测正确,
本发明从电商书城用户基本属性、用户历史行为数据、图书信息数据出发,提出一种跨平台书城电商系统用户对齐模型。针对有效用户行为数据稀疏性问题,提出Double-GAN法法交替迭代补偿异质书城原生数据,针对数据特征空间复杂性,提出UBS2vec方法对复杂特征空间进行全面信息表示,提出新的游走策略,从而得到更有效的节点用户的嵌入向量,从而有效的提升我们匹配计算算法的准确率。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
采用基于双层迭代补偿和全貌信息表示的跨书城电商系统用户对齐模型对数据进行处理的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息节点的嵌入向量;
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对电商书城网络进行全貌信息表示;
S32:根据全貌信息表示获取类型q的节点候选集合和同质边连接节点候选集合;
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;
S34:制定Jump策略和Stay策略;所述Jump策略为跳到目标类型q的节点候选集合中选取节点;所述Stay策略为跳到同质边连接节点候选集合中选取节点;
S35:根据选取目标类型节点函数计算Jump策略的概率
Figure FDA0003892304110000021
和Stay策略的概率
Figure FDA0003892304110000022
S36:对Jump策略的概率
Figure FDA0003892304110000023
和Stay策略的概率
Figure FDA0003892304110000024
的大小进行判断;若Jump的概率
Figure FDA0003892304110000025
大于Stay的概率
Figure FDA0003892304110000026
选择目标类型为q的节点;若当Jump的概率
Figure FDA0003892304110000027
小于Stay的概率
Figure FDA0003892304110000028
在vi的邻居节点中选取以同质边连接的节点;
S37:使用SkipGram嵌入算法学习S35得到的节点的近邻序列,并获取该节点的向量表示;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的余弦相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
2.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,提取预处理后用户数据的相关属性包括提取用户商品兴趣度和用户兴趣集合。
3.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,判别模型D的目标函数为:
Figure FDA0003892304110000029
模型的优化函数为:
Figure FDA00038923041100000210
其中,
Figure FDA00038923041100000211
表示真实数据放到判别模型D(x)的输出,Pdatas表示真实用户行为数据的分布,D(x)表示输入真实数据判别模型的输出,
Figure FDA0003892304110000031
表示使用造假数据放到判别模型D(x)的输出,PG表示生成行为数据的分布。
4.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,Stay策略的概率为:
Figure FDA0003892304110000032
Jump策略的概率为:
Figure FDA0003892304110000033
其中,Q表示异质信息网络G的节点类型集合,USH表示用户商品兴趣度,函数φ(·)表示对于每个节点vi映射到特定的数据类型的映射函数,
Figure FDA0003892304110000034
表示节点vi跳到类型为q的节点的集合,Vstay(vi)表示下一跳选择和vi相同类型节点的集合,θ表示初始化的随机游走集合,α是初始化的Stay概率,l代表在这次随机游走过程中连续选择和vi节点类型一致的节点的次数。
5.跟据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,构建“用户-图书”二部图模型的过程包括:
步骤1:把多个领域的商品的物品类型抽象成多维的兴趣群体;
步骤2:根据平台用户的购买信息将对应的用户归属到对应的兴趣群体中,得到“用户-图书”二部图模型;“用户-图书”二部图模型的表达式为:
Gsu=(U∪S,V)
其中,U表示用户节点,S表示商品节点,V表示用户和商品节点存在购买关系则存在一条边。
6.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,采用“用户-图书”二部图模型对包含元路径语义的节点的嵌入向量进行用角色划分的过程包括:
S41:计算用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate;
S42:计算第i类商品数量占全部商品数量的比例iRate;
S43:根据UserRate和iRate设置嵌入向量中用户Ui是否加入第i类群体的决策函数isInGroup(Ui,Sk);
S44:根据决策函数isInGroup(Ui,Sk)对用户进行角色划分。
7.根据权利要求6所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,决策函数isInGroup(Ui,Sk)为:
Figure FDA0003892304110000041
其中,Ui表示用户,Sk表示用户历史购买的第k类商品的类别,isInGroup(.)表示决策函数。
8.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,计算相似兴趣群体节点用户向量间的余弦相似度的公式为:
Figure FDA0003892304110000042
其中,
Figure FDA0003892304110000043
表示书城平台X中用户
Figure FDA0003892304110000044
的嵌入向量,
Figure FDA0003892304110000045
表示书城平台Y中用户节点
Figure FDA0003892304110000046
的嵌入向量。
CN202011225114.8A 2020-11-05 2020-11-05 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 Active CN112307343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011225114.8A CN112307343B (zh) 2020-11-05 2020-11-05 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011225114.8A CN112307343B (zh) 2020-11-05 2020-11-05 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法

Publications (2)

Publication Number Publication Date
CN112307343A CN112307343A (zh) 2021-02-02
CN112307343B true CN112307343B (zh) 2023-04-07

Family

ID=74326272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011225114.8A Active CN112307343B (zh) 2020-11-05 2020-11-05 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法

Country Status (1)

Country Link
CN (1) CN112307343B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744032B (zh) * 2021-09-14 2023-08-22 重庆邮电大学 一种图书推荐的方法、相关装置、设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378764A (zh) * 2013-07-12 2016-03-02 微软技术许可有限责任公司 计算机-人交互式学习中的交互式概念编辑
CN109242633A (zh) * 2018-09-20 2019-01-18 阿里巴巴集团控股有限公司 一种基于二部图网络的商品推送方法和装置
CN109447263A (zh) * 2018-11-07 2019-03-08 任元 一种基于生成对抗网络的航天异常事件检测方法
CN109446735A (zh) * 2018-12-18 2019-03-08 中国石油大学(北京) 一种模拟测井数据的生成方法、设备以及系统
CN109583474A (zh) * 2018-11-01 2019-04-05 华中科技大学 一种用于工业大数据处理的训练样本生成方法
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110069726A (zh) * 2019-04-26 2019-07-30 福州大学 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法
CN110309889A (zh) * 2019-07-04 2019-10-08 西南大学 一种双判别器gan的古彝文字符修复方法
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN110675632A (zh) * 2019-11-11 2020-01-10 重庆邮电大学 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法
CN110825980A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111415316A (zh) * 2020-03-18 2020-07-14 山西安数智能科技有限公司 基于生成对抗网络的缺陷数据合成算法
CN111428355A (zh) * 2020-03-18 2020-07-17 东南大学 一种电力负荷数字统计智能综合的建模方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375218B2 (en) * 2004-12-07 2013-02-12 Mitsubishi Electric Research Laboratories, Inc. Pre-processing biometric parameters before encoding and decoding

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378764A (zh) * 2013-07-12 2016-03-02 微软技术许可有限责任公司 计算机-人交互式学习中的交互式概念编辑
CN109242633A (zh) * 2018-09-20 2019-01-18 阿里巴巴集团控股有限公司 一种基于二部图网络的商品推送方法和装置
CN109583474A (zh) * 2018-11-01 2019-04-05 华中科技大学 一种用于工业大数据处理的训练样本生成方法
CN109447263A (zh) * 2018-11-07 2019-03-08 任元 一种基于生成对抗网络的航天异常事件检测方法
CN109446735A (zh) * 2018-12-18 2019-03-08 中国石油大学(北京) 一种模拟测井数据的生成方法、设备以及系统
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110069726A (zh) * 2019-04-26 2019-07-30 福州大学 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN110309889A (zh) * 2019-07-04 2019-10-08 西南大学 一种双判别器gan的古彝文字符修复方法
CN110825980A (zh) * 2019-11-05 2020-02-21 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法
CN110675632A (zh) * 2019-11-11 2020-01-10 重庆邮电大学 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法
CN111104595A (zh) * 2019-12-16 2020-05-05 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111415316A (zh) * 2020-03-18 2020-07-14 山西安数智能科技有限公司 基于生成对抗网络的缺陷数据合成算法
CN111428355A (zh) * 2020-03-18 2020-07-17 东南大学 一种电力负荷数字统计智能综合的建模方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ABNE: An Attention-Based Network Embedding for User Alignment Across Social Networks;LI LIU 等;《IEEE Access》;20190218;第7卷;23595-23605 *
Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings;Rana Hussein 等;《Proceedings of the 27th ACM International Conference on Information and Knowledge Management》;20181017;437-446 *
DGANS:基于双重生成式对抗网络的稳健图像隐写模型;竺乐庆 等;《通信学报》;20200107;第41卷(第1期);125-133 *
New progress of Grey System Theory in the new millennium;Sifeng Liu 等;《Grey Systems: Theory and Application》;20161231;第6卷(第1期);2-31 *
RecWalk: Nearly Uncoupled RandomWalks for Top-N Recommendation;Athanasios N. Nikolakopoulos 等;《Proceedings of the Twelft ACM International Conference on Web Search and Data Mining》;20190130;150-158 *
User Alignment via Structural Interaction and Propagation;Anfeng Cheng 等;《2018 International Joint Conference on Neural Networks (IJCNN)》;20181015;1-8 *
基于自编码器和对抗生成⺴络的信用卡欺诈检测;陈健;《中国优秀硕士学位论文全文数据库(硕士) 信息科技辑》;20200615(第06期);I140-117 *
杨旭.跨平台书城电商系统节点用户对齐模型及应用算法研究.《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》.2022,(第03期),I138-3340. *

Also Published As

Publication number Publication date
CN112307343A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
Pan et al. Study on convolutional neural network and its application in data mining and sales forecasting for E-commerce
CN104731962B (zh) 一种社交网络中基于相似社团的好友推荐方法及系统
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
Wang et al. Model: Motif-based deep feature learning for link prediction
CN112364976B (zh) 基于会话推荐系统的用户偏好预测方法
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113744032B (zh) 一种图书推荐的方法、相关装置、设备及存储介质
Shao et al. paper2repo: Github repository recommendation for academic papers
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN112883289B (zh) 一种基于社交信任和标签语义相似度的pmf推荐方法
Wang et al. Link prediction in heterogeneous collaboration networks
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和系统
Yin et al. An efficient recommendation algorithm based on heterogeneous information network
CN112307343B (zh) 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法
Shams et al. Item-based collaborative ranking
Dornaika et al. A unified deep semi-supervised graph learning scheme based on nodes re-weighting and manifold regularization
CN116861923B (zh) 基于多视图无监督图对比学习的隐式关系挖掘方法、系统、计算机、存储介质
An et al. Enabling the interpretability of pretrained venue representations using semantic categories
Ma et al. Friend closeness based user matching cross social networks
Aljubairy et al. HeteGraph: a convolutional framework for graph learning in recommender systems
Morid et al. Who are the most influential users in a recommender system?
Han et al. A generalization of recurrent neural networks for graph embedding
CN111274498A (zh) 一种网络特征社区查找方法
Simanjuntak et al. Weighted Hybrid Recommendation System for Toba Tourism Based on Google Review Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant