CN112307343B - 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 - Google Patents
基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 Download PDFInfo
- Publication number
- CN112307343B CN112307343B CN202011225114.8A CN202011225114A CN112307343B CN 112307343 B CN112307343 B CN 112307343B CN 202011225114 A CN202011225114 A CN 202011225114A CN 112307343 B CN112307343 B CN 112307343B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- node
- book
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 18
- 238000005295 random walk Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 241001269238 Data Species 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于网络对齐领域,具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;本发明采用交替迭代补偿机制对异质平台稀疏数据进行补偿,获取更有效的实验数据。
Description
技术领域
本发明属于网络对齐领域,具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法。
背景技术
异质网络对齐是当今研究的热点问题,异质电商网络对齐就是识别不同电商平台下的同一用户的不同账号之间的匹配问题,通过对不同电商平台上的用户属性进行计算分析,发现异质网络间的用户匹配关系。用户对齐也称用户匹配、用户身份识别等,用户实体对齐在很多领域都有重要应用,比如,跨商业网站的推荐系统、社交网络的好友推荐和通信录合并、网络舆论安全等领域都有着极强的研究价值和实际应用。
随着Internet的广泛普及,各类电子商务平台走进人们的视野,用户为了满足不同的服务需求,往往不会局限于单一的电商网络平台中,因此,跨电商网络环境下的用户识别问题成为研究热点。其主要研究可以分为3大类:基于用户属性相似性的方法,基于网络结构的方法和基于多因素混合的方法。基于用户属性信息的网络对齐方法,这类方法通过衡量字符串之间的转换规则以及相似性进行识别;基于用户行为信息的网络对齐方法,这类方法通过提取用户行为特征相似性进行识别;基于用户结构信息的网络对齐方法,这类方法将用户结构抽象成最大公共子图问题进行相似度求解。
目前,虽然对异质网络对齐进行了大量了研究,取得了很好的成果,但仍存在一些问题,比如电商平台消费者有效行为数据稀疏性。虽然电商平台用户产生的数据量十分可观,但是有效的用户行为数据却极其稀少,这给有效的用户身份匹配造成了不便。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型对数据进行的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息节点的嵌入向量;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
优选的,提取预处理后用户数据的相关属性包括提取用户商品兴趣度、用户商品交换度以及用户兴趣集合。
优选的,对稀疏的用户行为数据进行数据补偿的过程为:
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。
进一步的,判别模型D的目标函数为:
模型的优化函数为:
优选的,采用UBS2vec异质网络对补偿后的数据进行处理的过程包括:
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对电商书城网络进行全貌信息表示;
S32:根据全貌信息表示获取目标类型q的节点候选集合和同质边连接节点候选集合;
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;
S34:制定Jump策略和Stay策略;所述Jump策略为跳到目标类型q的节点候选集合中选取节点;所述Stay策略为跳到同质边连接节点候选集合中选取节点;
S36:对Jump策略的概率和Stay策略的概率的大小进行判断;若Jump的概率大于Stay的概率选择调到目标类型为q的节点;若当Jump的概率小于Stay的概率在vi的邻居节点中选取以同质边连接的节点;
S37:使用SkipGram嵌入算法学习S35得到的节点的近邻序列,并获取该节点的向量表示。
优选的,构建“用户-图书”二部图模型的过程包括:
步骤1:把多个领域的商品的物品类型抽象成多维的兴趣群体;
步骤2:根据平台用户的购买信息将对应的用户归属到对应的兴趣群体中,得到“用户-图书”二部图模型;“用户-图书”二部图模型的表达式为:
Gsu=(U∪S,V)
优选的,采用“用户-图书”二部图模型对包含元路径语义的节点的嵌入向量进行用角色划分的过程包括:
S41:计算用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate;
S42:计算第i类商品数量占全部商品数量的比例iRate;
S43:根据UserRate和iRate设置嵌入向量中用户Ui否加入第i类群体的决策函数isInGroup(Ui,Sk);
S44:根据决策函数isInGroup(Ui,Sk)对用户进行角色划分。
进一步的,决策函数isInGroup(Ui,Sk)为:
优选的,计算相似兴趣群体节点用户向量间的相似度的公式为:
本发明从异质书城电商平台用户行为数据出发,提出一种异质电商书城用户对齐预测模型。该方法从三个方面考虑,用户图书兴趣度、用户商品交互度、用户兴趣集合三个方面出发。其中发明重点部分是采用交替迭代补偿机制对异质平台稀疏数据进行补偿,获取更有效的实验数据。
附图说明
图1是本发明的整体框图;
图2是本发明的用户行为特征序列生成判别迭代模型图;
图3是本发明的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,如图1所示,该方法包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型对数据进行的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息的节点的嵌入向量;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
其中,Double-GAN为一种无监督学习中使用的神经网络,UBS2vec为一种异质网络表示学习算法。
获取用户数据包括直接获取书城提供的数据源或直接下载现有公开数据源,或通过电商网络公共应用程序编程接口API获取可得到原始数据。由于获取的原始数据都是非结构化的,不能直接用户数据分析;因此对数据进行预处理,使得将大部分非结构化数据结构化。对数据进行预处理的过程包括:删除重复数据、清楚无效节点如部分游客数据等。
提取预处理后用户数据的相关属性包括提取用户商品兴趣度和用户兴趣集合。
用户商品兴趣度主要衡量用户对一个商品的感兴趣的程度;用户商品兴趣度的表达式为:
其中,IsBuy表示用户是否购买,IsCollect表示用户是否收藏,IsBrowse表示用户是否浏览,w为定值。
将IsBuy、IsCollec以及IsBrowse分别赋值为3、2、1;将w赋值为6。如果消费者仅仅浏览和收藏商品后,没有选择购买,那么用户商品兴趣度的值为0.5,如果消费者浏览并购买了商品而没有收藏,那么用户兴趣度的值为如果消费者浏览、收藏并购买了商品,那么用户兴趣度的值为1。
用户兴趣集合UI的表达式为:
UI={Si|i=1,2...m}
其中,Si={Sij|j=i,2,...,n}表示商品类型群体集合,Si表示第i个领域下的第j个商品。
如图3所示,构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型分为三个阶段,包括:首先,我们提取书城电商平台的用户基本信息数据、历史行为数据,通过Double-GAN方法交替迭代补偿异质书城数据,获取更有效的实验数据。同时,利用表示学习方法提出的UBS2vec方法对“用户-行为-图书”信息空间进行表示。接着,根据用户的历史浏览信息、历史购买信息,构建“用户-图书”二部图对用户进行角色划分,计算相似兴趣群体节点用户向量间的相似度,即相似度最高的即为同一用户,得到匹配用户账号对。
如图2所示,稀疏的用户行为数据进行数据补偿的过程为:
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;当判别模型无法判断是否是真实训练数据中的数据时,即当D(x)=0.5时,此时生成器生成的数据非常接近真实的样本,此时跳出迭代,得到接近真实的样本数据。
优化参数包括对抗生成网络模型中判别器D的参数θd和θg进行优化。
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。
将异质电商历史行为数据集表示为datasx=[x1,x2,...,xn]若用户行为特征序列服从分布P(x,θ),θ是这个分布的参数(如果是高斯混合模型,那么θ就是每个高斯分布的平均值和方差)。本发明中的用户行为数据生成模型G的目标就是要生成真实数据去欺骗判别模型D,而判别模型D的目标就是尽量把生成模型G生成的数据和采集到的真实数据区分开来,即生成模型和判别模型在不断的优化学习过程中提高各自的生成能力和判别能力,是得模型能够生成与用户行为样本同态同分布的数据,而从生成良好的用户行为数据以缓解稀疏性。
在进行数据增强的同时,发现生成的数据出现很多噪音,为进一步解决和优化上述问题,将判别模型D输出的数据循环迭代输入生成模型G,让生成模型和判别模型不断的学习和优化参数,最终生成更有效的数据,同时,我们将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题。本发明用G(z)表示用户行为数据样本生成模型,z表示对原始用户行为特征序列随机采样后的数据,模型G将随机采样数据z生成为用户行为特征数据datasx=[x1,x2,...,xn]和datasy=[y1,y2,...,yn]。D是一个用户行为特征序列判别模型,对任意的输入特征序列x和y,D(x)或D(y)会输出一个0~1之间实数,以表示该组特征序列来自真实采集样本数据的概率。Pdatas和PG分别表示真实用户行为数据和生成行为数据的分布,则判别模型的目标函数为:
整个模型的优化函数可以表示为:
优化的整个过程表示为对D和G进行交替迭代,知道整个过程收敛,这一过程表示为:datasG=Double-GAN(datas),期望datasG无限接近于datas。
采用UBS2vec异质网络表示学习算法对补偿后的数据进行处理,该方法与JUST异质网络表示模型处理数据的方法相似,通过提出不同的策略来控制节点的随机游走。所述不同策略包括Jump策略和Stay策略;采用不同的策略得到很多好的平衡同质边和异质边,还能平衡不同类型的节点的分布。其过程包括:
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对异质电商书城网络进行全貌信息表示。所述全貌信息表示就是用异质网络表示学习的方法将网络中的多类型节点嵌入到同一向量空间,达到对书城网络特征空间进行降维、统一化、稠密化表示的目的。
S32:根据全貌信息表示获取目标类型q的节点候选集合和同质边连接节点候选集合;
目标类型q的节点候选集合为:
同质边连接节点候选集合为:
Vstay(vi)={v|(vi,v)∈Eho∨(v,vi)∈Eho}
其中,Vstay(vi)表示下一跳选择和vi相同类型节点的集合,Eho表示异质信息网络G中同质边的集合,vi表示异质信息网络中的节点。
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;选取目标类型节点函数为:
其中,Qjump(v)选取下一跳的目标类型节点函数,Qhist表示长度为m的队列,用来存储随机游走中前m次访问的节点的类型,通过调节m的大小可以平衡节点在不同类型中的分布,表示节点vi跳到类型为q的节点的集合。
S34:制定Jump策略和Stay策略;所述Jump策略为采用均匀采样在目标类型q的节点候选集合中的随机选择一个节点;所述Stay策略为在同质边连接节点候选集合中选取选取以同质边连接的节点,使用均匀采样从中选取一个节点。
Stay策略的概率定义为:
其中,Q表示异质信息网络G的节点类型集合,USH表示用户商品兴趣度,函数φ(·)表示对于每个节点vi映射到特定的数据类型的映射函数,表示节点vi跳到类型为q的节点的集合,Vstay(vi)表示下一跳选择和vi相同类型节点的集合,表示初始化的随机游走集合,α是初始化的Stay概率,l代表在这次随机游走过程中连续选择和vi节点类型一致的节点的次数,通过调节α可以避免随机游走的过程中,在同一类型节点类型停留过长的时间,还可以平衡随机游走路径中同质边和异质边的数量。
Jump策略的概率与Stay策略的概率相反。其表达式为:
S36:对Jump策略的概率和Stay策略的概率的大小进行判断;若Jump的概率大于Stay的概率选择调到目标类型为q的节点;若当Jump的概率小于Stay的概率在vi的邻居节点中选取以同质边连接的节点。
S37:对于任意节点,使用SkipGram嵌入学习该节点近邻序列,获取该节点的向量表示。
其中SkipGram表示一种跳字模型,核心是通过当前词语推测出在一定窗口内的上下文词语。
通过随机游走策略得到节点的近邻序列的实施例,比如初始化随机游走的长度为5,网络中节点类型有用户节点U、图书节点B、图书类型节点T以及作者节点A;对于任意一个用户节点,它游走的序列可能是”ABUAT”’,或者很多其他的可能,得到这个序列之后直接输入skipGram模型进行学习,得到节点的向量表示。
为构建“用户-图书”二部图模型的过程包括:
首先,把多个领域的商品的物品类型抽象成多维的兴趣群体,其次,再利用每个商品的属性信息把每个商品归属到对应的兴趣领域,然后,根据平台用户的购买信息将对应的用户归属到对应的兴趣群体,最终构建用户-图书二部图Gsu=(U∪S,V)。用户节点U和商品节点S是两个互不相交的顶点集合,每一条边表示存在购买关系。如果用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate大于第i类商品数量占全部商品数量的比例iRate,则将该用户加入第i类的群体。决定用户Ui是否加入第i类群体的决策函数可以定义如下:
UserRate计算公式如下:
iRate计算公式如下:
其中,|Ik|表示第k类商品的数量,|I|表示全部类型商品数量。
采用决策函数isInGroup(Ui,Sk)对用户进行角色划分包括:书城有很多品类的书籍,如文艺类、少儿类、小说类、教辅类等等;通过历史订单获取每个用户购买对应品类的书籍以及相应的数量;如果用户所购买第i类书籍占该用户所购买的全部书籍的比例大于第i类书籍数量占书城全部数量的比例,则将用户加入第i类的群体。
根据得到的异质书城网络中用户的节点嵌入向量以及“用户-图书”二部图模型对用户历史行为数据分析用户的兴趣偏好。针对节点向量之间的相似度的计算方法,本发明采用余弦相似度和杰卡德相似系数进行综合匹配用户计算,具体计算公式如下:
通过计算户向量间的余弦相似度,得到topk个和他相似的用户,如果这k个用户里面有真实和他属于同一用户,则认为此次匹配正确,这个k值为随机值。
在进行匹配时给出k个最接近的匹配用户节点,如果这k个用户节点包含真正该用户匹配的节点,则认为此次匹配预测正确,
本发明从电商书城用户基本属性、用户历史行为数据、图书信息数据出发,提出一种跨平台书城电商系统用户对齐模型。针对有效用户行为数据稀疏性问题,提出Double-GAN法法交替迭代补偿异质书城原生数据,针对数据特征空间复杂性,提出UBS2vec方法对复杂特征空间进行全面信息表示,提出新的游走策略,从而得到更有效的节点用户的嵌入向量,从而有效的提升我们匹配计算算法的准确率。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,包括:获取用户数据,对用户数据进行预处理;提取预处理后用户数据的相关属性;将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中,得到用户的数据分布;根据用户的数据分布对用户进行对齐处理;
采用基于双层迭代补偿和全貌信息表示的跨书城电商系统用户对齐模型对数据进行处理的过程包括:
S1:提取书城电商平台用户的基本信息数据和历史行为数据;
S2:采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿,得到补偿后的数据;
S21:将稀疏的用户行为数据输入到用户行为数据生成模型G中,生成真实数据;
S22:将生成的真实数据输入到判别模型D中,判断输入的数据是生成模型G生成的数据,还是采集到的真实数据;
S23:将判别模型D中的输出的数据循环迭代输入生成模型G;使生成模型和判别模型不断学习和优化参数,得到补偿后的数据;
S24:将异质书城电商平台的原生数据进行交替迭代的输入,用一个电商平台的数据去补偿另一个电商平台的数据,避免补偿数据造成过同态化问题;
S3:采用UBS2vec异质网络对补偿后的数据进行处理,得到包含丰富结构信息和语义信息节点的嵌入向量;
S31:将电商书城网络表示为Gx=(Ux∪Sx,Vx),采用UBS2vec异质网络表示学习方法对电商书城网络进行全貌信息表示;
S32:根据全貌信息表示获取类型q的节点候选集合和同质边连接节点候选集合;
S33:根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数;
S34:制定Jump策略和Stay策略;所述Jump策略为跳到目标类型q的节点候选集合中选取节点;所述Stay策略为跳到同质边连接节点候选集合中选取节点;
S36:对Jump策略的概率和Stay策略的概率的大小进行判断;若Jump的概率大于Stay的概率选择目标类型为q的节点;若当Jump的概率小于Stay的概率在vi的邻居节点中选取以同质边连接的节点;
S37:使用SkipGram嵌入算法学习S35得到的节点的近邻序列,并获取该节点的向量表示;
S4:采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分;
S5:计算相似兴趣群体节点用户向量间的相似度,根据户向量间的余弦相似度对划分好角色的用户进行综合匹配,得到用户的数据分布。
2.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,提取预处理后用户数据的相关属性包括提取用户商品兴趣度和用户兴趣集合。
5.跟据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,构建“用户-图书”二部图模型的过程包括:
步骤1:把多个领域的商品的物品类型抽象成多维的兴趣群体;
步骤2:根据平台用户的购买信息将对应的用户归属到对应的兴趣群体中,得到“用户-图书”二部图模型;“用户-图书”二部图模型的表达式为:
Gsu=(U∪S,V)
其中,U表示用户节点,S表示商品节点,V表示用户和商品节点存在购买关系则存在一条边。
6.根据权利要求1所述的一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法,其特征在于,采用“用户-图书”二部图模型对包含元路径语义的节点的嵌入向量进行用角色划分的过程包括:
S41:计算用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate;
S42:计算第i类商品数量占全部商品数量的比例iRate;
S43:根据UserRate和iRate设置嵌入向量中用户Ui是否加入第i类群体的决策函数isInGroup(Ui,Sk);
S44:根据决策函数isInGroup(Ui,Sk)对用户进行角色划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225114.8A CN112307343B (zh) | 2020-11-05 | 2020-11-05 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011225114.8A CN112307343B (zh) | 2020-11-05 | 2020-11-05 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307343A CN112307343A (zh) | 2021-02-02 |
CN112307343B true CN112307343B (zh) | 2023-04-07 |
Family
ID=74326272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011225114.8A Active CN112307343B (zh) | 2020-11-05 | 2020-11-05 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307343B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744032B (zh) * | 2021-09-14 | 2023-08-22 | 重庆邮电大学 | 一种图书推荐的方法、相关装置、设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
CN109242633A (zh) * | 2018-09-20 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 一种基于二部图网络的商品推送方法和装置 |
CN109446735A (zh) * | 2018-12-18 | 2019-03-08 | 中国石油大学(北京) | 一种模拟测井数据的生成方法、设备以及系统 |
CN109447263A (zh) * | 2018-11-07 | 2019-03-08 | 任元 | 一种基于生成对抗网络的航天异常事件检测方法 |
CN109583474A (zh) * | 2018-11-01 | 2019-04-05 | 华中科技大学 | 一种用于工业大数据处理的训练样本生成方法 |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110069726A (zh) * | 2019-04-26 | 2019-07-30 | 福州大学 | 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法 |
CN110309889A (zh) * | 2019-07-04 | 2019-10-08 | 西南大学 | 一种双判别器gan的古彝文字符修复方法 |
CN110414780A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 一种基于生成对抗网络的金融交易负样本生成方法 |
CN110675632A (zh) * | 2019-11-11 | 2020-01-10 | 重庆邮电大学 | 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法 |
CN110825980A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于对抗生成网络的微博话题推送方法 |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111415316A (zh) * | 2020-03-18 | 2020-07-14 | 山西安数智能科技有限公司 | 基于生成对抗网络的缺陷数据合成算法 |
CN111428355A (zh) * | 2020-03-18 | 2020-07-17 | 东南大学 | 一种电力负荷数字统计智能综合的建模方法 |
CN111475739A (zh) * | 2020-05-22 | 2020-07-31 | 哈尔滨工程大学 | 一种基于元路径的异质社交网络用户锚链接识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8375218B2 (en) * | 2004-12-07 | 2013-02-12 | Mitsubishi Electric Research Laboratories, Inc. | Pre-processing biometric parameters before encoding and decoding |
-
2020
- 2020-11-05 CN CN202011225114.8A patent/CN112307343B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105378764A (zh) * | 2013-07-12 | 2016-03-02 | 微软技术许可有限责任公司 | 计算机-人交互式学习中的交互式概念编辑 |
CN109242633A (zh) * | 2018-09-20 | 2019-01-18 | 阿里巴巴集团控股有限公司 | 一种基于二部图网络的商品推送方法和装置 |
CN109583474A (zh) * | 2018-11-01 | 2019-04-05 | 华中科技大学 | 一种用于工业大数据处理的训练样本生成方法 |
CN109447263A (zh) * | 2018-11-07 | 2019-03-08 | 任元 | 一种基于生成对抗网络的航天异常事件检测方法 |
CN109446735A (zh) * | 2018-12-18 | 2019-03-08 | 中国石油大学(北京) | 一种模拟测井数据的生成方法、设备以及系统 |
CN109711452A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 一种基于wgan-gp模型对用户行为的不平衡分类方法 |
CN110069726A (zh) * | 2019-04-26 | 2019-07-30 | 福州大学 | 一种适用于DBLP与arXiv的文献网络间锚链接关系预测方法 |
CN110414780A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 一种基于生成对抗网络的金融交易负样本生成方法 |
CN110309889A (zh) * | 2019-07-04 | 2019-10-08 | 西南大学 | 一种双判别器gan的古彝文字符修复方法 |
CN110825980A (zh) * | 2019-11-05 | 2020-02-21 | 重庆邮电大学 | 一种基于对抗生成网络的微博话题推送方法 |
CN110675632A (zh) * | 2019-11-11 | 2020-01-10 | 重庆邮电大学 | 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法 |
CN111104595A (zh) * | 2019-12-16 | 2020-05-05 | 华中科技大学 | 一种基于文本信息的深度强化学习交互式推荐方法及系统 |
CN111415316A (zh) * | 2020-03-18 | 2020-07-14 | 山西安数智能科技有限公司 | 基于生成对抗网络的缺陷数据合成算法 |
CN111428355A (zh) * | 2020-03-18 | 2020-07-17 | 东南大学 | 一种电力负荷数字统计智能综合的建模方法 |
CN111475739A (zh) * | 2020-05-22 | 2020-07-31 | 哈尔滨工程大学 | 一种基于元路径的异质社交网络用户锚链接识别方法 |
Non-Patent Citations (8)
Title |
---|
ABNE: An Attention-Based Network Embedding for User Alignment Across Social Networks;LI LIU 等;《IEEE Access》;20190218;第7卷;23595-23605 * |
Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings;Rana Hussein 等;《Proceedings of the 27th ACM International Conference on Information and Knowledge Management》;20181017;437-446 * |
DGANS:基于双重生成式对抗网络的稳健图像隐写模型;竺乐庆 等;《通信学报》;20200107;第41卷(第1期);125-133 * |
New progress of Grey System Theory in the new millennium;Sifeng Liu 等;《Grey Systems: Theory and Application》;20161231;第6卷(第1期);2-31 * |
RecWalk: Nearly Uncoupled RandomWalks for Top-N Recommendation;Athanasios N. Nikolakopoulos 等;《Proceedings of the Twelft ACM International Conference on Web Search and Data Mining》;20190130;150-158 * |
User Alignment via Structural Interaction and Propagation;Anfeng Cheng 等;《2018 International Joint Conference on Neural Networks (IJCNN)》;20181015;1-8 * |
基于自编码器和对抗生成⺴络的信用卡欺诈检测;陈健;《中国优秀硕士学位论文全文数据库(硕士) 信息科技辑》;20200615(第06期);I140-117 * |
杨旭.跨平台书城电商系统节点用户对齐模型及应用算法研究.《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》.2022,(第03期),I138-3340. * |
Also Published As
Publication number | Publication date |
---|---|
CN112307343A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104731962B (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
Wang et al. | Model: Motif-based deep feature learning for link prediction | |
CN112364976B (zh) | 基于会话推荐系统的用户偏好预测方法 | |
CN113918832B (zh) | 基于社交关系的图卷积协同过滤推荐系统 | |
CN113744032B (zh) | 一种图书推荐的方法、相关装置、设备及存储介质 | |
CN113918833B (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
CN109992784B (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN113918834B (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
CN113590976A (zh) | 一种空间自适应图卷积网络的推荐方法 | |
Wang et al. | Link prediction in heterogeneous collaboration networks | |
CN104484365B (zh) | 一种多源异构在线社会网络中网络主体之间社会关系的预测方法与系统 | |
CN116467666A (zh) | 一种基于集成学习和主动学习的图异常检测方法和系统 | |
CN112307343B (zh) | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 | |
Dornaika et al. | A unified deep semi-supervised graph learning scheme based on nodes re-weighting and manifold regularization | |
CN117194771B (zh) | 一种图模型表征学习的动态知识图谱服务推荐方法 | |
CN116861923B (zh) | 基于多视图无监督图对比学习的隐式关系挖掘方法、系统、计算机、存储介质 | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
CN116401450A (zh) | 一种基于知识图谱的推荐方法、装置及计算机设备 | |
Aljubairy et al. | HeteGraph: a convolutional framework for graph learning in recommender systems | |
CN115510318A (zh) | 用户表征模型的训练方法、用户表征方法及装置 | |
CN114417166A (zh) | 基于行为序列和动态社交影响的连续兴趣点推荐方法 | |
Jia et al. | Application of graph neural network and feature information enhancement in relation inference of sparse knowledge graph | |
CN111274498A (zh) | 一种网络特征社区查找方法 | |
Mohan et al. | Representation learning for temporal networks using temporal random walk and deep autoencoder | |
Wu et al. | English text recognition deep learning framework to automatically identify fake news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |