CN112307343B

CN112307343B - 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法

Info

Publication number: CN112307343B
Application number: CN202011225114.8A
Authority: CN
Inventors: 韦世红; 杨旭; 肖寒春; 肖云鹏; 李暾; 卢星宇; 刘红
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-04-07
Anticipated expiration: 2040-11-05
Also published as: CN112307343A

Abstract

本发明属于网络对齐领域，具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法，该方法包括：获取用户数据，对用户数据进行预处理；提取预处理后用户数据的相关属性；将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中，得到用户的数据分布；根据用户的数据分布对用户进行对齐处理；本发明采用交替迭代补偿机制对异质平台稀疏数据进行补偿，获取更有效的实验数据。

Description

基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法

技术领域

本发明属于网络对齐领域，具体涉及一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法。

背景技术

异质网络对齐是当今研究的热点问题，异质电商网络对齐就是识别不同电商平台下的同一用户的不同账号之间的匹配问题，通过对不同电商平台上的用户属性进行计算分析，发现异质网络间的用户匹配关系。用户对齐也称用户匹配、用户身份识别等，用户实体对齐在很多领域都有重要应用，比如，跨商业网站的推荐系统、社交网络的好友推荐和通信录合并、网络舆论安全等领域都有着极强的研究价值和实际应用。

随着Internet的广泛普及，各类电子商务平台走进人们的视野，用户为了满足不同的服务需求，往往不会局限于单一的电商网络平台中，因此，跨电商网络环境下的用户识别问题成为研究热点。其主要研究可以分为3大类：基于用户属性相似性的方法，基于网络结构的方法和基于多因素混合的方法。基于用户属性信息的网络对齐方法，这类方法通过衡量字符串之间的转换规则以及相似性进行识别；基于用户行为信息的网络对齐方法，这类方法通过提取用户行为特征相似性进行识别；基于用户结构信息的网络对齐方法，这类方法将用户结构抽象成最大公共子图问题进行相似度求解。

目前，虽然对异质网络对齐进行了大量了研究，取得了很好的成果，但仍存在一些问题，比如电商平台消费者有效行为数据稀疏性。虽然电商平台用户产生的数据量十分可观，但是有效的用户行为数据却极其稀少，这给有效的用户身份匹配造成了不便。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法，该方法包括：获取用户数据，对用户数据进行预处理；提取预处理后用户数据的相关属性；将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中，得到用户的数据分布；根据用户的数据分布对用户进行对齐处理；

构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型对数据进行的过程包括：

S1：提取书城电商平台用户的基本信息数据和历史行为数据；

S2：采用Double-GAN算法对稀疏的用户历史行为数据进行数据补偿，得到补偿后的数据；

S3：采用UBS2vec异质网络对补偿后的数据进行处理，得到包含丰富结构信息和语义信息节点的嵌入向量；

S4：采用“用户-图书”二部图模型对包含丰富结构信息和语义信息节点的嵌入向量进行用角色划分；

S5：计算相似兴趣群体节点用户向量间的相似度，根据户向量间的相似度对划分好角色的用户进行综合匹配，得到用户的数据分布。

优选的，提取预处理后用户数据的相关属性包括提取用户商品兴趣度、用户商品交换度以及用户兴趣集合。

优选的，对稀疏的用户行为数据进行数据补偿的过程为：

S21：将稀疏的用户行为数据输入到用户行为数据生成模型G中，生成真实数据；

S22：将生成的真实数据输入到判别模型D中，判断输入的数据是生成模型G生成的数据，还是采集到的真实数据；

S23：将判别模型D中的输出的数据循环迭代输入生成模型G；使生成模型和判别模型不断学习和优化参数，得到补偿后的数据；

S24：将异质书城电商平台的原生数据进行交替迭代的输入，用一个电商平台的数据去补偿另一个电商平台的数据，避免补偿数据造成过同态化问题。

进一步的，判别模型D的目标函数为：

模型的优化函数为：

优选的，采用UBS2vec异质网络对补偿后的数据进行处理的过程包括：

S31：将电商书城网络表示为G^x＝(U^x∪S^x,V^x)，采用UBS2vec异质网络表示学习方法对电商书城网络进行全貌信息表示；

S32：根据全貌信息表示获取目标类型q的节点候选集合和同质边连接节点候选集合；

S33：根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数；

S34：制定Jump策略和Stay策略；所述Jump策略为跳到目标类型q的节点候选集合中选取节点；所述Stay策略为跳到同质边连接节点候选集合中选取节点；

S35：根据选取目标类型节点函数计算Jump策略的概率

和Stay策略的概率

S36：对Jump策略的概率

和Stay策略的概率

的大小进行判断；若Jump的概率

大于Stay的概率

选择调到目标类型为q的节点；若当Jump的概率

小于Stay的概率

在v_i的邻居节点中选取以同质边连接的节点；

S37：使用SkipGram嵌入算法学习S35得到的节点的近邻序列，并获取该节点的向量表示。

优选的，构建“用户-图书”二部图模型的过程包括：

步骤1：把多个领域的商品的物品类型抽象成多维的兴趣群体；

步骤2：根据平台用户的购买信息将对应的用户归属到对应的兴趣群体中，得到“用户-图书”二部图模型；“用户-图书”二部图模型的表达式为：

G_su＝(U∪S,V)

优选的，采用“用户-图书”二部图模型对包含元路径语义的节点的嵌入向量进行用角色划分的过程包括：

S41：计算用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate；

S42：计算第i类商品数量占全部商品数量的比例iRate；

S43：根据UserRate和iRate设置嵌入向量中用户U_i否加入第i类群体的决策函数isInGroup(U_i,S_k)；

S44：根据决策函数isInGroup(U_i,S_k)对用户进行角色划分。

进一步的，决策函数isInGroup(U_i,S_k)为：

优选的，计算相似兴趣群体节点用户向量间的相似度的公式为：

本发明从异质书城电商平台用户行为数据出发，提出一种异质电商书城用户对齐预测模型。该方法从三个方面考虑，用户图书兴趣度、用户商品交互度、用户兴趣集合三个方面出发。其中发明重点部分是采用交替迭代补偿机制对异质平台稀疏数据进行补偿，获取更有效的实验数据。

附图说明

图1是本发明的整体框图；

图2是本发明的用户行为特征序列生成判别迭代模型图；

图3是本发明的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法，如图1所示，该方法包括：获取用户数据，对用户数据进行预处理；提取预处理后用户数据的相关属性；将提取的相关属性输入到基于双层迭代和全貌信息的跨书城电商系统用户对齐模型中，得到用户的数据分布；根据用户的数据分布对用户进行对齐处理；

S3：采用UBS2vec异质网络对补偿后的数据进行处理，得到包含丰富结构信息和语义信息的节点的嵌入向量；

其中，Double-GAN为一种无监督学习中使用的神经网络，UBS2vec为一种异质网络表示学习算法。

获取用户数据包括直接获取书城提供的数据源或直接下载现有公开数据源，或通过电商网络公共应用程序编程接口API获取可得到原始数据。由于获取的原始数据都是非结构化的，不能直接用户数据分析；因此对数据进行预处理，使得将大部分非结构化数据结构化。对数据进行预处理的过程包括：删除重复数据、清楚无效节点如部分游客数据等。

提取预处理后用户数据的相关属性包括提取用户商品兴趣度和用户兴趣集合。

用户商品兴趣度主要衡量用户对一个商品的感兴趣的程度；用户商品兴趣度的表达式为：

其中，IsBuy表示用户是否购买，IsCollect表示用户是否收藏，IsBrowse表示用户是否浏览，w为定值。

将IsBuy、IsCollec以及IsBrowse分别赋值为3、2、1；将w赋值为6。如果消费者仅仅浏览和收藏商品后，没有选择购买，那么用户商品兴趣度的值为0.5，如果消费者浏览并购买了商品而没有收藏，那么用户兴趣度的值为

如果消费者浏览、收藏并购买了商品，那么用户兴趣度的值为1。

用户兴趣集合UI的表达式为：

UI＝{S_i|i＝1,2...m}

其中，S_i＝{S_ij|j＝i,2,...,n}表示商品类型群体集合，S_i表示第i个领域下的第j个商品。

如图3所示，构建基于双层迭代和全貌信息的跨书城电商系统用户对齐模型分为三个阶段，包括：首先，我们提取书城电商平台的用户基本信息数据、历史行为数据，通过Double-GAN方法交替迭代补偿异质书城数据，获取更有效的实验数据。同时，利用表示学习方法提出的UBS2vec方法对“用户-行为-图书”信息空间进行表示。接着，根据用户的历史浏览信息、历史购买信息，构建“用户-图书”二部图对用户进行角色划分，计算相似兴趣群体节点用户向量间的相似度，即相似度最高的即为同一用户，得到匹配用户账号对。

如图2所示，稀疏的用户行为数据进行数据补偿的过程为：

S23：将判别模型D中的输出的数据循环迭代输入生成模型G；使生成模型和判别模型不断学习和优化参数，得到补偿后的数据；当判别模型无法判断是否是真实训练数据中的数据时，即当D(x)＝0.5时，此时生成器生成的数据非常接近真实的样本，此时跳出迭代，得到接近真实的样本数据。

优化参数包括对抗生成网络模型中判别器D的参数θ_d和θ_g进行优化。

将异质电商历史行为数据集表示为datas_x＝[x₁,x₂,...,x_n]若用户行为特征序列服从分布P(x,θ)，θ是这个分布的参数(如果是高斯混合模型，那么θ就是每个高斯分布的平均值和方差)。本发明中的用户行为数据生成模型G的目标就是要生成真实数据去欺骗判别模型D，而判别模型D的目标就是尽量把生成模型G生成的数据和采集到的真实数据区分开来，即生成模型和判别模型在不断的优化学习过程中提高各自的生成能力和判别能力，是得模型能够生成与用户行为样本同态同分布的数据，而从生成良好的用户行为数据以缓解稀疏性。

在进行数据增强的同时，发现生成的数据出现很多噪音，为进一步解决和优化上述问题，将判别模型D输出的数据循环迭代输入生成模型G，让生成模型和判别模型不断的学习和优化参数，最终生成更有效的数据，同时，我们将异质书城电商平台的原生数据进行交替迭代的输入，用一个电商平台的数据去补偿另一个电商平台的数据，避免补偿数据造成过同态化问题。本发明用G(z)表示用户行为数据样本生成模型，z表示对原始用户行为特征序列随机采样后的数据，模型G将随机采样数据z生成为用户行为特征数据datas_x＝[x₁,x₂,...,x_n]和datas_y＝[y₁,y₂,...,y_n]。D是一个用户行为特征序列判别模型，对任意的输入特征序列x和y，D(x)或D(y)会输出一个0～1之间实数，以表示该组特征序列来自真实采集样本数据的概率。P_datas和P_G分别表示真实用户行为数据和生成行为数据的分布，则判别模型的目标函数为：

整个模型的优化函数可以表示为：

其中，

表示真实数据放到判别模型D(x)的输出，P_datas表示真实用户行为数据的分布，D(x)表示输入真实数据判别模型的输出，

表示使用造假数据放到判别模型D(x)的输出，P_G表示生成行为数据的分布。

优化的整个过程表示为对D和G进行交替迭代，知道整个过程收敛，这一过程表示为：datas_G＝Double-GAN(datas)，期望datas_G无限接近于datas。

采用UBS2vec异质网络表示学习算法对补偿后的数据进行处理，该方法与JUST异质网络表示模型处理数据的方法相似，通过提出不同的策略来控制节点的随机游走。所述不同策略包括Jump策略和Stay策略；采用不同的策略得到很多好的平衡同质边和异质边，还能平衡不同类型的节点的分布。其过程包括：

S31：将电商书城网络表示为G^x＝(U^x∪S^x,V^x)，采用UBS2vec异质网络表示学习方法对异质电商书城网络进行全貌信息表示。所述全貌信息表示就是用异质网络表示学习的方法将网络中的多类型节点嵌入到同一向量空间，达到对书城网络特征空间进行降维、统一化、稠密化表示的目的。

目标类型q的节点候选集合为：

其中，

表示节点v_i跳到类型为q的节点的集合，E_he表示异质书城网络G中异质边的集合，函数φ(·)表示对于每个节点v_i映射到特定的数据类型的映射函数。

同质边连接节点候选集合为：

V_stay(v_i)＝{v|(v_i,v)∈E_ho∨(v,v_i)∈E_ho}

其中，V_stay(v_i)表示下一跳选择和v_i相同类型节点的集合，E_ho表示异质信息网络G中同质边的集合，v_i表示异质信息网络中的节点。

S33：根据类型q的节点候选集合和同质边连接节点候选集合制定选取目标类型节点函数；选取目标类型节点函数为：

其中，Q_jump(v)选取下一跳的目标类型节点函数，Q_hist表示长度为m的队列，用来存储随机游走中前m次访问的节点的类型，通过调节m的大小可以平衡节点在不同类型中的分布，

表示节点v_i跳到类型为q的节点的集合。

S34：制定Jump策略和Stay策略；所述Jump策略为采用均匀采样在目标类型q的节点候选集合中的随机选择一个节点；所述Stay策略为在同质边连接节点候选集合中选取选取以同质边连接的节点，使用均匀采样从中选取一个节点。

S35：根据选取目标类型节点函数计算Jump策略的概率

和Stay策略的概率

Stay策略的概率定义为：

其中，Q表示异质信息网络G的节点类型集合，USH表示用户商品兴趣度，函数φ(·)表示对于每个节点v_i映射到特定的数据类型的映射函数，

表示节点v_i跳到类型为q的节点的集合，V_stay(v_i)表示下一跳选择和v_i相同类型节点的集合，

表示初始化的随机游走集合，α是初始化的Stay概率,l代表在这次随机游走过程中连续选择和v_i节点类型一致的节点的次数，通过调节α可以避免随机游走的过程中，在同一类型节点类型停留过长的时间，还可以平衡随机游走路径中同质边和异质边的数量。

Jump策略的概率与Stay策略的概率相反。其表达式为：

S36：对Jump策略的概率

和Stay策略的概率

的大小进行判断；若Jump的概率

大于Stay的概率

选择调到目标类型为q的节点；若当Jump的概率

小于Stay的概率

在v_i的邻居节点中选取以同质边连接的节点。

S37：对于任意节点，使用SkipGram嵌入学习该节点近邻序列，获取该节点的向量表示。

其中SkipGram表示一种跳字模型，核心是通过当前词语推测出在一定窗口内的上下文词语。

通过随机游走策略得到节点的近邻序列的实施例，比如初始化随机游走的长度为5，网络中节点类型有用户节点U、图书节点B、图书类型节点T以及作者节点A；对于任意一个用户节点，它游走的序列可能是”ABUAT”’，或者很多其他的可能，得到这个序列之后直接输入skipGram模型进行学习，得到节点的向量表示。

为构建“用户-图书”二部图模型的过程包括：

首先，把多个领域的商品的物品类型抽象成多维的兴趣群体，其次，再利用每个商品的属性信息把每个商品归属到对应的兴趣领域，然后，根据平台用户的购买信息将对应的用户归属到对应的兴趣群体，最终构建用户-图书二部图G_su＝(U∪S,V)。用户节点U和商品节点S是两个互不相交的顶点集合，每一条边表示存在购买关系。如果用户购买的第i类商品的数量占该用户所购买全部商品的比例UserRate大于第i类商品数量占全部商品数量的比例iRate，则将该用户加入第i类的群体。决定用户U_i是否加入第i类群体的决策函数可以定义如下：

UserRate计算公式如下：

其中，type(S)表示兴趣群体的类型，

表示用户U_i所购买的第k类商品数量，

表示用户U_i所购买的全部类型的商品数量。

iRate计算公式如下：

其中，|I_k|表示第k类商品的数量，|I|表示全部类型商品数量。

采用决策函数isInGroup(U_i,S_k)对用户进行角色划分包括：书城有很多品类的书籍，如文艺类、少儿类、小说类、教辅类等等；通过历史订单获取每个用户购买对应品类的书籍以及相应的数量；如果用户所购买第i类书籍占该用户所购买的全部书籍的比例大于第i类书籍数量占书城全部数量的比例，则将用户加入第i类的群体。

根据得到的异质书城网络中用户的节点嵌入向量以及“用户-图书”二部图模型对用户历史行为数据分析用户的兴趣偏好。针对节点向量之间的相似度的计算方法，本发明采用余弦相似度和杰卡德相似系数进行综合匹配用户计算，具体计算公式如下：

其中，

表示书城平台X节点用户i的嵌入向量，

表示书城平台Y节点用户j的嵌入向量。

通过计算户向量间的余弦相似度，得到topk个和他相似的用户，如果这k个用户里面有真实和他属于同一用户，则认为此次匹配正确，这个k值为随机值。

在进行匹配时给出k个最接近的匹配用户节点，如果这k个用户节点包含真正该用户匹配的节点，则认为此次匹配预测正确，

本发明从电商书城用户基本属性、用户历史行为数据、图书信息数据出发，提出一种跨平台书城电商系统用户对齐模型。针对有效用户行为数据稀疏性问题，提出Double-GAN法法交替迭代补偿异质书城原生数据，针对数据特征空间复杂性，提出UBS2vec方法对复杂特征空间进行全面信息表示，提出新的游走策略，从而得到更有效的节点用户的嵌入向量，从而有效的提升我们匹配计算算法的准确率。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。