CN104090971A

CN104090971A - 面向个性化应用的跨网络行为关联方法

Info

Publication number: CN104090971A
Application number: CN201410341643.2A
Authority: CN
Inventors: 徐常胜; 严明; 桑基韬
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-07-17
Filing date: 2014-07-17
Publication date: 2014-10-08

Abstract

本发明是一种面向个性化应用的跨网络行为关联方法，首先确定不同网络特有的异构信息并分别对其在各自网络进行主题建模，得到相应信息的主题分布表示；然后，聚合用户在各自网络的行为信息来分别计算得到用户在不同网络的主题分布表示，并利用跨网络关联用户在不同网络上主题分布的一一对应关系分别对不同网络学习一组网络相关的用户属性因子向量；最后，通过不同网络的用户属性因子向量使不同网络信息的主题分布可以进行互相转换，达到跨网络行为信息关联的目的。本发明通过引入主题模型和用户感知，使该关联突破语义关联的局限性，在更细的粒度下进行感知。

Description

面向个性化应用的跨网络行为关联方法

技术领域

本发明属于社会媒体计算技术领域，涉及一种面向个性化应用的跨网络行为关联方法。

背景技术

随着互联网技术的发展，各种社会媒体和网络应用应运而生。为更好进行社交和信息获取，用户越来越频繁的使用多种社会媒体服务，这也使得用户的信息分散在不同的网络平台上，只从单一的网络平台去分析用户的行为无法全方位的理解用户。因此，将不同网络平台用户的行为进行整合可以更好的分析用户兴趣，从而有助于设计更加精准的个性化应用。然而，用户在不同网络平台的行为往往是异构的，这种异构的跨网络行为经常无法简单的进行一一加和。因此，如何将不同网络平台的异构行为进行有效的整合是一个亟待解决的问题，而这里的关键就是找到跨网络异构行为之间的关联模式。

目前，跨网络分析和应用研究是一个相对崭新的领域，还处在起步阶段。研究者们目前主要从两方面研究该领域：多网络拓扑结构分析和跨网络用户建模。多网络拓扑结构分析主要利用社会网络分析(Social NetworkAnalysis，SNA)的方法研究多网络下总体网络拓扑结构和属性，并分析不同网络平台属性和结构的相似性和差异性，以及信息在多网络结构下的传播机制。跨网络用户建模专注于将不同网络平台的同质用户行为进行聚合，比如将不同网络平台用户的标签和简介聚合起来，作为一个更加完整的用户文档来表示用户，然后基于该聚合文档对用户进行用户建模，得到多网络聚合的用户兴趣。这两方面研究目前还是主要分别从社会关系结构和同质行为(比如用户标签)来研究多网络场景下的相应特性，然而多网络情形下往往伴随着多种异构行为(比如用户标签和用户好友关系)，这些异构的跨网络行为有时才能反映更加稳定的用户兴趣，因此如果能挖掘出跨网络异构行为之间的关联模式，则可以更好的理解跨网络下的用户兴趣和不同网络的知识特性。

迁移学习(Transfer Learning)和子空间学习(Subspace Learning)是学习不同网络空间关联的两种重要技术。前者通过找一些共现数据(Co-occurrence Data)来学习得到不同平台的潜在关联模式，并将知识从源网络迁移到目标网络来解决目标网络上的分类、回归等问题。后者的主要思想是通过学习一个公共的子空间来同时表达不同类型的异构数据，使得不同形式的异构数据可以在这个公共的子空间进行直接的比较。但这些技术都没有考虑过从跨网络关联用户的角度去对不同网络的异构行为进行关联，进而以用户集体智慧的方式发现不同网络间的关联模式。

发明内容

(一)要解决的技术问题

本发明的目的是将不同网络上的异构行为信息进行用户层的关联，并基于此关联设计个性化的应用。为此提出利用跨网络关联用户作为连接不同网络的桥梁，基于潜在用户属性发现的跨网络行为关联方法。

(二)技术方案

为实现上述目的，本发明提供面向个性化应用的跨网络行为关联方法包括：

S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模，分别得到反映用户行为的异构知识在不同主题空间的主题分布；

S2、将用户在所述两个网络的行为信息进行主题聚合，得到用户在所述两个网络的主题分布；

S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联；

S4、将所述跨网络的主题关联转换为跨网络的用户行为分布关联。

(三)有益效果

从上述技术方案可以看出，本发明面向个性化应用的跨网络行为关联方法具有以下有益效果：

(1)利用跨网络关联用户的集体智慧，使不同网络的异构行为能在用户层上进行跨网络关联，同时通过引入主题模型和用户感知，使该关联突破语义关联的局限性，在更细的粒度下进行感知。

(2)该发明提出了一种用户感知的跨网络异构行为关联方法，基于该关联可以从多种方向设计跨网络的个性化应用，有效的缓解了冷启动和数据稀疏性问题。

附图说明

图1是本发明面向个性化应用的跨网络行为关联方法的流程图；

图2是本发明一个实施例中视频主题空间多模态主题建模(iCorr-LDA)的图表示；

图3和图4分别是本发明实施例中对步骤S1异质主题建模学到的视频主题空间和社交网络用户兴趣空间的可视化表示。

具体实施方式

本发明的目的是跨网络的行为关联。该问题存在如下挑战：首先，不同网络具有异构的知识实体和行为，例如视频兴趣行为和社交网络社会关系行为，如何对它们进行合理的泛化表示；另外，不同网络的知识间没有直接的显式关联，也无法直观的给出不同网络上知识和行为的相关性指标，如何在跨平台网络间建立合理的联系。

本发明中所称的异构的知识实体和行为是指知识实体的内容属性，以及用户对知识实体的行为属性均不相同。上述的视频兴趣行为也可以扩展到音频兴趣或者商品兴趣行为等，社交网络社会关系行为也可以是微博文本兴趣行为或者加入圈子行为等。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。在下面的实施例中，主要以视频行为和社会关系行为的异构关联为例进行说明，但本发明并不局限于此。

该实施例中，具有异构的知识实体和用户行为的两个不同网络为社交网络推特(Twitter)和视频分享网络优突博(YouTube)。

图1是本发明面向个性化应用的跨网络行为关联方法的流程图。如图1所示，本发明首先用恰当的主题模型将不同网络的异构行为进行主题层泛化，然后利用跨网络关联用户的集体智慧将不同网络的主题进行量化关联，使不同网络的异构行为表示可以通过潜在的用户属性因子向量相互转换，基于此可以进而从多方向设计跨网络的个性化应用。所谓跨网络关联用户是指在不同网络均有账号的关联用户。由此，本发明提出了一种全新的用户感知的跨网络行为关联方法，为理解多网络情景下用户的异构行为奠定了坚实基础。本发明主要分以下几个主要步骤：S1、异质主题建模；S2、用户主题分布聚合；S3、基于潜在用户属性发现的跨网络主题关联；S4、基于主题关联的跨网络行为分布转换。

这里的主题是指用户的兴趣主题。

S1、分别对两个具有异构知识实体和用户行为的网络进行主题建模，分别得到反映用户行为的异构知识在不同主题空间的主题分布。

该步骤的目的是发现视频分享网络和社交网络空间行为的潜在泛化结构，有助于后续的基于主题层次的分析和应用。我们设计生成式的主题模型分别对优突博视频和社交网络用户进行主题建模，分别得到优突博视频和社交网络用户在各自主题空间的主题分布。在具体实施例中，步骤S1包括如下步骤：

S1.1对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建立视频语义-视觉文档，对每个视频文档，进行多模态主题建模(iCorr-LDA)，最终得到每个视频在其语义空间上的主题分布向量。

为了使学到的视频主题能同时涵盖视频的文本和视觉描述信息，我们设计了一种变体的多模态主题模型(iCorr-LDA)。在我们的问题中，每个优突博视频可以表示为一个二元组(f；w)，其中f为该视频的N个关键帧的视觉特征向量集合，w为该视频的M个标签单词集合，我们对跨网络数据集中所有优突博用户的视频二元组集合进行多模态主题建模，得到每个视频的视觉-语义主题分布。具体来说，首先从标准的潜在狄利克雷分布主题模型(LDA)中抽样得到视频的M个标签单词。然后，对视频的每个关键帧，先抽样得到一个标签单词，再从生成该标签单词的主题上抽样得到相应的关键帧视觉单词。该多模态主题模型(iCorr-LDA)的图表示参见图2。其中α，μ，σ，β为该主题模型的超参数，可以通过吉布斯采样方法进行近似求解；y为离散指示变量，等概率的在1到M间取整数值来控制选择合适的标签单词。图3抽样了两个视频主题进行可视化呈现，其中每个主题给出了该主题的前5个生成概率最大的标签单词以及前3个生成概率最大的视频。可以看出，这两个主题都有很明确的领域主题(游戏和德国)，同时这两个学到的主题在视觉表示和文本语义表示上也具有很高的一致性。

S1.2提取所述社交网络上用户的社会关系信息，然后对用户的社会关系图进行标准的潜在狄利克雷分布主题建模(LDA)，最终得到每个用户在该用户兴趣空间上的主题分布向量。

在社交网络中，用户会根据自己的兴趣任意的关注各种感兴趣的门户账号、领域专家以及真实好友等，用户的好友关系作为社交网络上的一种重要的用户行为，反映了一段时间内稳定的用户兴趣。因此，我们这里主要研究推特社交网络上的用户好友关系行为数据，进而对用户的兴趣进行主题建模。具体地说，我们将推特用户作为标准主题模型的“文档”，该用户的所有粉丝作为相应的“文档单词”，然后对该用户文档进行标准的潜在狄利克雷分布主题建模(LDA)，以得到每个推特用户在这种用户-粉丝社交图谱结构空间的主题分布。由于主题建模本质上是利用了单词的共现关系，得到的推特社会关系用户主题实际上捕捉到的是每个粉丝群子集共同感兴趣的一些专业用户，反映了每个粉丝群子集的公共兴趣。同时，由于一段时间内用户的社会关系一般基本保持不变，通过用户的社会关系学得的用户兴趣因此也将会更加稳定和准确。图4抽样了3个学到的推特社会关系用户主题，其中每个主题给出了该主题的前3个生成概率最大的热门用户，每个热门用户由其用户ID，用户名，居住地，粉丝数量以及自我描述所表示。可以看出，学得的推特主题在粒度上有着很广的覆盖性：有游戏这种一般的主题，也有专门由福布斯影响力用户构成的特有主题，还有由来自同一个地方(德国)用户组成的地域性主题。以这种方式学得的多角度细粒度的主题也使得后续学得的跨网络关联具有更大的随意性，便于捕捉到更精准的跨网络主题关系。

S2、将用户在所述两个网络的行为信息进行主题聚合，得到用户在所述两个网络的主题分布。

由于不同网络的行为和信息都是由用户创造的，同一个用户在不同网络的行为应该具有一定的关联性，因此我们希望通过以同一个用户在视频分享网络和社交网络上主题分布的一一对应关系为约束，通过大量跨网络关联用户的集体智慧来求得跨网络主题间的关系。所以，首先我们需要将用户在各自网络的行为信息分别进行主题聚合，得到用户在各自网络的兴趣主题分布。

在该实施例中，步骤S2聚合用户在所述视频分享网络中感兴趣的视频的主题分布，得到用户在视频语义空间上的主题分布，使所述视频分享网络和所述社交网络上行为的主题分布表示都上升到用户层次。

由于在社交网络上，我们直接对用户的社会关系进行主题建模，所以我们已经得到了用户的兴趣主题分布。因此，我们只需将用户在视频分享网络的视频行为进行主题聚合即可。具体地说，对任意给定的优突博用户，我们把该用户上传的视频，最喜爱的视频以及播放列表里的视频作为他感兴趣的视频集合，已知用户u感兴趣的视频集合以及第一步异质主题建模后得到的视频主题分布p(z^Y|v)，通过简单的推导，我们可以得到用户u的主题分布如下：

p (z_{k} | u) = \underset{{v &Element; V}_{u}}{Σ} \frac{N_{v} (f) + N_{v} (w)}{N (f) + N (w)} \cdot p (z_{k}^{Y} | v) - - - (1)

其中，N_v(f)和N_v(w)表示视频v的关键帧总数和标签总数，分别表示用户u感兴趣的视频集合V_u包含的关键帧总数以及标签单词总数。通过用户主题分布聚合后，我们便可得到所有优突博用户在视频空间的主题分布表示。

S3、基于潜在用户属性发现对所述两个网络进行跨网络主题关联。

在具体实施例中，利用跨网络关联用户在所述视频分享网络和社交网络上主题分布的一一对应关系，分别对所述两个网络各自学习一组网络相关的用户属性因子向量，使用户在该两个网络的主题分布投影到相应的用户属性因子向量构成的空间后得到一致的用户表示。

我们利用跨网络关联用户作为不同网络间连接的桥梁来进行跨网络关联挖掘，其中基本的原理是：如果同一组跨网络关联用户都很关注网络X的主题A以及网络Y的主题B，那么有很大可能网络X的主题A和网络Y的主题B具有强关联性。基于大量的跨网络关联用户的集体智慧，我们便可以计算得到量化的跨网络主题关系，为此我们提出了一种基于潜在用户属性发现的跨网络主题关联方法。假设优突博和推特共有的跨网络用户子集为U_o＝U^Y∩U^T，其中U^Y和U^T分别为优突博和推特数据集所有用户总集。对于跨网络用户来说，他们在不同网络的不同行为导致了他们的不同主题分布。我们认为反映用户各种行为的背后的主要决定因素是用户的属性(比如用户年龄、性别、职业以及居住地等)，由于不同的用户属性而导致了用户不同的行为，进而产生用户在不同网络的主题分布，这些属性是用户固有的，它们不随网络的改变而改变，因此通过挖掘出这样的共有用户属性，我们可以进一步计算得到用户在不同网络中的主题分布。在每个网络上，一组具有代表性的主题分布向量(因子向量)被提取作为网络相关的用户因子来表示潜在的用户属性，即每种潜在的用户属性在不同的网络中都对应一个相应的用户因子向量，这些因子向量是网络相关的。

具体来说，每种用户属性在优突博和推特都有一套成对的用户因子向量，它们反映了同一种用户属性在不同网络的不同表示。通过保证跨网络用户子集U_o内用户的主题分布在投影到成对的因子向量空间后共享同样唯一的固有用户属性，我们提出如下优化目标函数来学习和发现每种潜在用户属性在不同网络所对应的成对用户因子向量：

\min_{D^{Y}, D^{T}, S} {| | U_{o}^{Y} - D^{Y} S | |}_{2}^{2} + {| | U_{o}^{T} - D^{T} S | |}_{2}^{2} + λ {| | S | |}_{1} - - - (2)

s . t . {| | d^{Y} | |}_{2}^{2} \leq 1, {| | d^{T} | |}_{2}^{2} \leq 1, &ForAll; d &Element; D

其中，和分别为所有跨网络用户在优突博视频空间和推特用户兴趣空间上的主题分布向量的矩阵表示；D^Y和D^T分别为优突博视频空间和推特用户兴趣空间上所有成对的用户因子向量的矩阵表示，该矩阵的每一列d表示一个用户因子向量，两个矩阵上相同位置的列反映同一种用户属性；S为跨网络用户在不同的网络上共有的潜在用户属性表示，该矩阵的每一列s表示某个用户的主题分布投影到成对的用户因子向量空间后的属性表示，对于同一个用户，该属性表示是唯一的，并不随网络的改变而改变，我们的算法的主要目标就是通过挖掘出用户唯一的属性表示来进行跨网络关联。对因子向量进行二范限制是为了防止学到的因子向量取值任意大，在目标函数引入l1范惩罚是为了有助于学到一个更紧凑的属性空间，使用户在该空间上能够被稀疏表示，λ是相应的平衡参数。

上式(2)又可以被重写为如下形式：

\begin{matrix} \min_{\hat{D}, S} {| | {\hat{U}}_{o} - \hat{D} S | |}_{2}^{2} + λ {| | S | |}_{1} \\ s . t . {| | {\hat{d}}_{i} | |}_{2}^{2} \leq 1, &ForAll; i \end{matrix} - - - (3)

其中，

{\hat{U}}_{o} = [\begin{matrix} U_{o}^{Y} \\ U_{o}^{T} \end{matrix}], D = [\begin{matrix} D^{Y} \\ D^{T} \end{matrix}]

上面式子(3)的优化问题可以通过稀疏编码(sparse coding)的经典算法对D^Y，D^T和S进行有效的迭代求解，直到算法收敛。最后我们得到一对网络相关的用户属性因子向量矩阵D^Y和D^T，它间接的将视频分享网络和社交网络上信息的主题分布进行了跨网络关联。

在实施例中，利用视频分享网络和社交网络各自学到的用户属性因子向量矩阵对主题分布进行转换。

得到成对的用户因子向量矩阵D^Y和D^T后，两个方向的跨网络用户行为分布转换皆可进行：1)从视频网络空间到社交网络空间，2)从社交网络空间到视频网络空间。这里以从视频网络空间到社交网络空间为例说明，给定新用户在视频空间的主题分布u^Y，我们可以通过稀疏编码的方式挖掘出该用户投影到D^Y构成的用户属性空间后的潜在属性表示如下：

s^{*} = \min_{s} {| | u^{Y} - D^{Y} s | |}_{2}^{2} + λ {| | s | |}_{1} - - - (3)

由于同一个用户在不同网络共享一致的用户属性表示，即该用户在推特网络也同样具有s^*的用户属性表示，因此我们可以通过用户因子向量矩阵D^T重建该用户的推特兴趣主题分布：

u^T＝D^Ts^*

需知另一个方向的主题兴趣分布转换与上述过程类似，只是先将用户投影到D^T构成的用户属性空间得到唯一的用户属性表示，然后再通过D^Y重建用户的优突博兴趣主题分布。

基于上述的跨网络用户行为主题分布转换，我们也可以从两个方向设计跨网络的个性化推荐应用：1)对一个长期的推特用户，假设他新注册了优突博账号，这时系统只能观测到他丰富的推特行为而不知道他在优突博的视频兴趣，这时候通过上述提出的跨网络行为关联方法，我们可以从用户的推特用户兴趣推测其优突博视频兴趣，进而针对性的给该用户推荐其可能喜欢的优突博视频，2)同理，当一个长期的优突博用户新加入推特社交网络，我们也可以通过上述跨网络关联从其优突博视频兴趣推测其推特用户兴趣，进而为其推荐他可能感兴趣的推特用户账号。

所述视频分享网络是优酷(YouKu)、优突博(YouTube)等视频分享平台，实施例中以优突博(YouTube)为例进行说明；社交网络是推特(Twitter)，脸书(facebook)，新浪微博等社交网络平台，实施例中以推特(Twitter)为例进行说明。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨网络行为关联方法，其特征在于，所述方法包括如下步骤：

2.如权利要求1所述的跨网络行为关联方法，其特征在于，所述两个具有异构知识实体和用户行为的网络是视频分享网络和社交网络。

3.如权利要求2所述的跨网络行为关联方法，其特征在于，所述步骤S1包括：

S1.1、对所述视频分享网络上的视频提取文本描述信息以及关键帧视觉信息并建立视频语义-视觉文档，对每个视频文档，进行多模态主题建模(iCorr-LDA)，最终得到每个视频在其语义空间上的主题分布向量；

S1.2、提取所述社交网络上用户的社会关系信息，然后对用户的社会关系图进行标准的潜在狄利克雷分布主题建模(LDA)，最终得到每个用户在该用户兴趣空间上的主题分布向量。

4.如权利要求2所述的跨网络行为关联方法，其特征在于，

所述步骤S2为：聚合用户在所述视频分享网络中感兴趣的视频的主题分布，得到用户在视频语义空间上的主题分布，使所述视频分享网络和所述社交网络上行为的主题分布表示都上升到用户层次。

5.如权利要求4所述的跨网络行为关联方法，其特征在于，在步骤S2中，对任意给定的视频分享网络用户，把该用户上传的视频，最喜爱的视频以及播放列表里的视频作为他感兴趣的视频集合，已知用户u感兴趣的视频集合以及第一步异质主题建模后得到的视频主题分布p(z^Y|v)，得到用户u的主题分布如下：

p (z_{k} | u) = \underset{{v &Element; V}_{u}}{Σ} \frac{N_{v} (f) + N_{v} (w)}{N (f) + N (w)} \cdot p (z_{k}^{Y} | v)

其中，N_v(f)和N_v(w)表示视频v的关键帧总数和标签总数，分别表示用户u感兴趣的视频集合V_u包含的关键帧总数以及标签单词总数。

6.如权利要求2所述的跨网络行为关联方法，其特征在于，所述步骤S3为：利用跨网络关联用户在所述视频分享网络和社交网络上主题分布的一一对应关系，分别对所述两个网络各自学习一组网络相关的用户属性因子向量，使用户在该两个网络的主题分布投影到相应的用户属性因子向量构成的空间后得到一致的用户表示。

7.如权利要求6所述的跨网络行为关联方法，其特征在于，在步骤S3中，所述视频分享网络和所述社交网络共有的跨网络用户子集为U_o＝U^Y∩U^T，其中U^Y和U^T分别为视频分享网络和社交网络所有用户总集，通过如下优化目标函数来学习和发现每种潜在用户属性在视频分享网络和社交网络所对应的成对用户因子向量：

\min_{D^{Y}, D^{T}, S} {| | U_{o}^{Y} - D^{Y} S | |}_{2}^{2} + {| | U_{o}^{T} - D^{T} S | |}_{2}^{2} + λ {| | S | |}_{1}

s . t . {| | d^{Y} | |}_{2}^{2} \leq 1, {| | d^{T} | |}_{2}^{2} \leq 1, &ForAll; d &Element; D

其中D^Y和D^T分别为视频分享网络和社交网络上所有成对的用户因子向量的矩阵表示，该矩阵的每一列d表示一个用户因子向量，两个矩阵上相同位置的列反映同一种用户属性；S为跨网络用户在不同的网络上共有的潜在用户属性表示，该矩阵的每一列s表示某个用户的主题分布投影到成对的用户因子向量空间后的属性表示。

8.如权利要求7所述的跨网络行为关联方法，其特征在于，

所述步骤S4为：利用视频分享网络和社交网络各自学到的用户属性因子向量使对主题分布进行转换。

9.如权利要求8所述的跨网络行为关联方法，其特征在于，

在所述步骤S4中，当给定新用户在所述视频分享网络的主题分布u^Y，通过稀疏编码的方式得到该用户投影到D^Y构成的用户属性空间后的潜在属性表示如下：

s^{*} = \min_{s} {| | u^{Y} - D^{Y} s | |}_{2}^{2} + λ {| | s | |}_{1},

通过用户因子向量矩阵D^T重建该用户的社交网络主题分布：u^T＝D^Ts^*。