CN106651427A

CN106651427A - 基于用户行为的数据关联方法

Info

Publication number: CN106651427A
Application number: CN201610894195.8A
Authority: CN
Inventors: 赵小建; 胥克良; 胡凯乐; 刘意
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2017-05-10
Anticipated expiration: 2036-10-13
Also published as: CN106651427B

Abstract

本发明提供了一种基于用户行为的数据关联方法，其中，该方法包括：获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合；根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图；根据所述用户间关系结构图度量用户在不同主题下的权威度；将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。本发明提供的数据关联方法可以适应于新用户、新数据项，并且可以发现用户的潜在信息需求。

Description

基于用户行为的数据关联方法

技术领域

本发明涉及计算机领域，尤其涉及一种数据关联方法，具体来说就是一种基于用户行为的数据关联方法。

背景技术

随着电子购物平台及其相关信息技术的飞速发展，电子网络购物已成为人们生活中不可或缺的组成部分。然而网络中信息资源的数量大大超出了人们的处理能力，“网络信息过载”问题日趋严重。因此，新兴电子购物网络在便利人们日常生活的同时，也对现有信息检索、个性化推荐服务、精准营销等数据关联问题带来了巨大的机遇和挑战。因此，为满足用户越来越高的信息服务要求，向用户精准推送感兴趣数据项目的数据关联技术应运而生，并引起了国内外学者和用户的广泛关注。然而，现有数据关联方法存在数据稀疏、数据关联冷启动、精准度不高等缺陷。

现有技术中，可将数据关联方法归纳成三个主要类别：基于内容的数据关联方法、协同过滤数据关联方法和混合数据关联方法。其中，基于内容的数据关联方法从内容角度挖掘用户信息需求与数据对象的关联，通过度量用户模型与数据项模型的相似性来实现对备选数据项的关联预测；但由于其没有充分利用用户群体知识，导致其关联的数据项目与用户模型耦合度过于紧密，无法发现用户的潜在信息需求，很难实现具有一定联想功能的数据关联服务。协同过滤数据关联方法的应用前景则更加广泛，其基于群体知识进行数据关联，即兴趣和偏好相似的用户之间可以共享各自的信息体验，通过发现与用户兴趣相似的邻居用户，并将邻居用户感兴趣的数据项与目标用户进行关联；但实际应用中，协同过滤数据关联方法也存在着一些其难以克服的问题或缺陷，例如：当用户无任何数据关联历史，该模型则无法对该新用户的兴趣偏爱进行建模；与此相对应的就是新数据项问题，当出现新的数据项时，很少甚至没有用户与其发生过关联，进而导致关联算法无法实现相似度计算和关联度预测。如上所述，基于内容的数据关联方法和协同过滤数据关联方法都是通过单一的、各不相同的关联策略来实现信息与用户的关联服务，其优缺点各有不同。基于此，本领域技术人员提出并尝试将上述两种关联方法通过不同形式进行组合，进而也就形成了基于多种关联策略和机制的混合数据关联方法，然而实践证明混合数据关联方法仍存在数据稀疏、数据关联冷启动、精准度不高等不足。

因此，本领域技术人员亟待研发出一种能够适应于新用户、新数据项，匹配精准度高，并且能够发现用户潜在信息需求的数据关联方法。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种基于用户行为的数据关联方法及装置，解决了现有数据关联方法存在数据稀疏、数据关联冷启动、匹配精准度不高等问题。

为了解决上述技术问题，本发明的具体实施方式提供一种基于用户行为的数据关联方法，包括：获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合；根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图；根据所述用户间关系结构图度量用户在不同主题下的权威度；将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。

根据本发明的上述具体实施方式可知，基于用户行为的数据关联方法至少具有以下有益效果或特点：深化分析用户的历史行为数据，构建用户兴趣画像模型；通过对多个用户间不同主题下的关联度分析，构建可精准描述用户间关系谱系结构的面向主题的加权网络拓扑结构；结合加权网络拓扑结构与用户间历史行为数据的关联性，提出Urank算法，用以计算用户在多个不同主题下的权威度与影响力，进而提升基于用户行为的数据关联精准度，可以适应于新用户、新数据项，并且可以发现用户的潜在信息需求，提高用户体验度。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本发明所欲主张的范围。

附图说明

下面的所附附图是本发明的说明书的一部分，其绘示了本发明的示例实施例，所附附图与说明书的描述一起用来说明本发明的原理。

图1为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例一的流程图；

图2为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例二的流程图；

图3为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例三的流程图；

图4为本发明具体实施方式提供的一种基于用户行为的数据关联系统的示意框图；

图5为本发明具体实施方式提供的一种具体用户间面向不同主题维度的关联度评估图模型；

图6为本发明具体实施方式提供的一种面向不同主题维度的用户影响力计算示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本发明所揭示内容的精神，任何所属技术领域技术人员在了解本发明内容的实施例后，当可由本发明内容所教示的技术，加以改变及修饰，其并不脱离本发明内容的精神与范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

图1为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例一的流程图，如图1所示，利用网站上的用户基本信息和用户历史行为数据集合构建用户间关系结构图，再根据用户间关系结构图度量用户在不同主题下的权威度，从而将权威度与待关联数据集合进行融合处理获得数据关联结果。

该附图所示的具体实施方式包括：

步骤101：获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合。其中，用户基本信息包括：年龄、性别、职业、所在城市、兴趣爱好等；用户历史行为数据集合包括用户历史购买行为、用户电子商务网站浏览与评论行为等；待关联数据集合为电子商务网站商品集(或电子商务网站商品子集)。

步骤102：根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图。用户间关系结构图为面向主题维度的关联度评估图模型。基于所构建的用户间关系结构图，可以有效计算客户不同主题维度下的权威度，以提升数据关联效果。

步骤103：根据所述用户间关系结构图度量用户在不同主题下的权威度。利用URank算法根据用户间关系结构图度量用户在不同主题下的权威度。

步骤104：将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。

参见图1，深化分析用户的历史行为数据，构建用户兴趣画像模型；通过对多个用户间不同主题下的关联度分析，构建可精准描述用户间关系谱系结构的面向主题的加权网络拓扑结构；结合加权网络拓扑结构与用户间历史行为数据的关联性，提出Urank算法，用以计算用户在多个不同主题下的权威度与影响力，进而提升基于用户行为的数据关联精准度，可以适应于新用户、新数据项，并且可以发现用户的潜在信息需求，提高用户体验度。

图2为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例二的流程图，如图2所示，根据用户基本信息和用户历史行为数据集合进行用户兴趣画像。用户兴趣画像最终用于数据关联度计算模块。

该附图所示的具体实施方式中，在步骤102之前，该方法还包括：

步骤101-1：根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像。

参见图2，用户历史行为数据集合较好地折射出用户的兴趣爱好，用户历史行为数据集合中的某些数据也极好地反应了用户的个人偏好和侧重点，再结合用户基本信息和待关联数据集合进行用户兴趣画像，从而可以精准反映用户的兴趣爱好。

图3为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例三的流程图，如图3所示，根据用户基本信息、用户历史行为数据集合和待关联数据集合进行用户兴趣画像；根据用户基本信息和用户历史行为数据集合构建用户间关系结构图；根据用户间关系结构图度量用户在不同主题下的权威度。

该附图所示的具体实施方式中，步骤101-1具体包括：

步骤101-11：根据所述用户基本信息中的具体用户u_k确定该具体用户u_k对应的历史行为数据集合V。

步骤101-12：计算所述待关联数据集合中的待关联数据项v_h与历史行为数据集合V之间的相似度。

步骤101-13：根据所述相似度获得具体用户u_k对待关联数据项v_h的兴趣度I(v_h,u_k)。

步骤101-14：根据所述兴趣度I(v_h,u_k)进行用户兴趣画像。

本发明的具体实施例中，所述兴趣度I(v_h,u_k)的具体计算公式为：

其中，t为某一具体相似度计算维度；T为相似度计算维度总数；w_t为维度权重因子；v_o为用户历史行为数据项；μ_t(v_o,u_k)为具体用户u_k对其历史行为数据项v_o的兴趣偏好；S_t(v_h,v_o)为待关联数据项v_h与用户历史行为数据项v_o在相似度计算维度t下的相似性。

步骤102具体包括：

步骤1021：根据所述用户基本信息获取具体用户u_i和具体用户u_j之间的基本信息相似度S^(ij)。

步骤1022：根据所述基本信息相似度S^(ij)获取具体用户u_i和具体用户u_j在特定主题维度A_l下的关联度T_l ^(ij)。

步骤1023：获取具体用户u_i的历史行为数据集合和具体用户u_j的历史行为数据集合在特定主题维度A_l下的关联紧密程度

步骤1024：根据所述关联度T_l ^(ij)和所述关联紧密程度构建用户间关系结构图。

本发明的具体实施例中，基本信息相似度S^(ij)的表达式为：

其中，为对应基本信息项的相似度，P为个人基本信息的条目数；如果个人基本信息条目中的第p条属性是离散型的(如，性别等)，当且仅当具体用户u_i和具体用户u_j具有相同的属性值时，将设定为1，否则将设置成为0；对于连续型变量(如，年龄、身高等)，的取值如下：

其中，和分别是具体用户u_i和具体用户u_j在属性上的取值；K为用户总数。

步骤103具体包括：

步骤1031：根据所述用户间关系结构图建立面向主题维度的加权网络模型。

步骤1032：对每个主题维度下的加权网络模型运行URank算法，计算该主题维度下用户的权威度。

本发明的具体实施例中，所述权威度UR_l的具体迭代求解公式具体为：

UR_l＝(1-β)·E_l+β·P_l ^N×UR_l

其中，P_l ^N为规范化的转移概率矩阵；β为阻尼因数，用于保证传播概率的稳定性；E_l为均匀隐形传态矢量。

进一步地，所述转移概率矩阵的具体计算公式为：

其中，为从具体用户u_i随机冲浪到具体用户u_j的转移概率；为从具体用户u_i随机冲浪到其它具体用户的转移概率之和，其值为1；k为用户总数。

进一步地，所述转移概率的具体计算公式为：

其中，ud_ij用于标识数据项d_j是否是具体用户u_i的历史行为数据，当且仅当数据项d_j为具体用户u_i的历史行为数据时，ud_ij＝1，否则ud_ij＝0；T_l ^(ij)为具体用户u_i和具体用户u_j在特定主题维度A_l下的关联度；ud_ik用于标识数据项d_k是否是具体用户u_i的历史行为数据，当且仅当数据项d_k为具体用户u_i的历史行为数据时，ud_ik＝1，否则ud_ik＝0。

本发明的具体实施例中，所述数据关联结果R(v_h,u_k)的具体计算公式为：

其中，μ(v_h,A_l)为指示变量，用以表明待关联数据项v_h是否属于特定主题维度A_l；UR_tl为具体用户u_t(t≠k)在待关联数据项v_h所属主题维度A_l下的权威度；ξ为权重因子；I(v_h,u_t)为具体用户u_t(t≠k)对待关联数据项v_h的喜好程度；T_l ^(tk)为目标用户u_k与具体用户u_t(t≠k)在待关联数据项v_h所属主题维度A_l下的关联度。

本发明通过深化分析用户的历史行为数据，构建用户兴趣画像模型；通过对多个用户间不同主题维度下的关联度分析，构建可精准描述用户间关系谱系结构的面向主题的加权网络结构；结合拓扑网络结构与用户间历史行为数据的关联性，提出URank算法，用以计算用户在多个不同主题维度下的权威度与影响力，进而提升基于用户行为的数据关联质量。

数据关联系统主要由三部分组成：信息获取模块1、系统处理模块2和数据关联结果输出模块3，上述模块顺序连接，图4为本发明具体实施方式提供的一种基于用户行为的数据关联系统的示意框图，图4为各模块间数据流向图，其中：

信息获取模块1用于获取用户个人基本信息、用户历史行为数据、待关联数据集，以上信息、数据主要由平台所提供，如电子商务网站平台等。其中个人基本信息主要包括：年龄、性别、职业、所在城市、兴趣爱好等；用户历史行为数据则包括用户的历史购买行为、用户电子商务网站浏览与评论行为等；而待关联数据集则为电子商务网站商品集(或其子集)。

系统处理模块2基于系统数据输入(用户个人基本信息、用户行为历史数据)进行用户兴趣画像，并构建用户间关系谱系结构，基于所构建的用户间关系谱系结构有效度量用户不同主题维度下的权威度与影响力。

数据关联结果输出模块3有效融合系统处理与待关联数据集，并计算输出数据关联结果。

基于本系统的数据关联方法处理过程如下：

步骤1：信息获取模块1获取用户个人基本信息、用户历史行为数据、待关联数据集；

步骤2：系统处理模块2基于用户个人基本信息、用户行为历史数据进行用户兴趣画像；

步骤3：系统处理模块2基于用户个人基本信息、用户行为历史数据构建用户间关系谱系结构；

步骤4：系统处理模块2基于所构建的用户间关系谱系结构度量用户不同主题维度下的权威度与影响力；

步骤5：数据关联结果输出模块3将用户不同主题维度下的权威度与影响力计算结果与待关联数据集进行融合，并计算输出数据关联结果。

下面对该数据关联方法主要组成部分用户兴趣画像计算模型、用户间不同主题维度下的关联度计算图模型、用户在不同主题维度下的权威度与影响力计算算法和数据关联度计算模块分别加以阐述。

上述步骤2中用户兴趣画像计算模型

用户的历史行为在某种程度上较好地折射出了用户的兴趣爱好，并且用户历史行为中的某些数据也极好地反应了用户的个人偏好和侧重点，而且这些数据具有如下共性：与该用户的其他历史行为数据极其相似或者相关，也就是所说的典型性历史行为数据。

给定某个具体用户u_k及其历史行为数据集合V＝{v₁,v₂,...,v_H}，对于某项待关联数据v_h而言，可以根据其与用户历史行为数据集合V的相似性推导出用户u_k对该项数据的重视程度，也就是用户u_k对待关联数据项v_h的偏好程度。简言之，待关联数据项v_h与用户历史行为数据集合V越相似，说明数据项v_h在数据集合V中越处于“核心”地位，越能体现用户u_k的“核心”兴趣，用户u_k对其的偏好度越强。为此，本发明将用户u_k对待关联数据项v_h的兴趣度I(v_h,u_k)量化为：

其中，t为相似性计算维度；w_t为维度权重因子；v_o为用户历史行为数据项；

μ_t(v_o,u_k)为用户u_k对其历史行为数据项v_o的兴趣偏好；S_t(v_h,v_o)为待关联数据项v_h与用户历史行为数据项v_o在衡量维度t下的相似性。

步骤3中所述客户间关系谱系结构计算图模型

为了准确计算不同用户之间在不同主题维度下的关联度，即构建客户间关系谱系结构，本发明构建了面向主题维度的关联度评估图模型，图5为本发明具体实施方式提供的一种具体用户间面向不同主题维度的关联度评估图模型，如图5所示。其构建基础有如下两点：

1.对于用户u_i和u_j而言，二者个人基本信息的相似性S^(ij)从某种意义上决定着二者在某一特定主题维度A_l下的关联度，记为T_l ^(ij)；

2.与此同时，用户u_i和u_j在某一特定主题维度A_l下的历史行为数据关联紧密程度在某种程度上也反映了二者在该主题维度下的关联度。

为提高该图模型计算的准确性，本发明为每个变量引入辅助变量并对相关变量做如下说明：

S^(ij)为用户u_i和u_j之间的个人基本信息相似性向量，且P为个人基本信息的条目数。如果个人基本信息条目中的第p条属性是离散型的，那么本发明将设定为1，当且仅当用户u_i和u_j具有相同的属性值，否则将其设置成0。对于连续性变量，的取值处理如下：

其中，和分别是用户u_i和u_j在属性p上的取值，K为用户总数；T_l ^(ij)是指用户u_i和u_j在特定主题维度A_l上的关联度；是指用户u_i和u_j历史行为数据在特定主题维度A_l下的关联紧密程度。

用户间面向不同主题维度的关联度评估图模型，通过对条件依赖进行建模，展示变量间的因果依存关系，基于这种依存关系，对其联合概率分布进行如下分解：

本发明采用已被广泛引用的高斯分布(Gaussian Distribution)对条件概率P(T_l ^(ij)|S^(ij))进行建模求解，即：

其中，w_l是待估计的P维权重向量，v是高斯模型中的方差。

同理，本发明对T_l ^(ij)和之间的依存关系做同样模拟：

其中，α_l和β_l为L维的系数向量。

为了有效避免过拟合问题，本发明使用L₂规则对参数w_l、α_l和β_l进行正则化，并将其视为高斯先验模型：

给定的用户对μ＝U×U，联合概率分布可做如下推导：

由于不同主题维度下的联合概率分布是相互独立地，本发明仅给出第l种主题维度下的对数似然函数：

对数似然函数L是凹函数，本发明采用梯度增量的方法分别对参数w_l、α_l、β_l和变量T_l ^(ij)进行优化，其坐标方向梯度分别为：

采用坐标上升优化方案对w_l、α_l、β_l和T_l ^(ij)利用牛顿迭代法进行更新直至收敛：

对于参数w_l，本发明对其进行领回归(Ridge Regression)：

w_l＝(λ₁vI+S^TS)^-1S^TT_l

其中，

步骤4中用户在不同主题维度下的权威度与影响力计算算法

本发明综合利用用户的个人基本信息、历史行为数据等，深入研究用户间的不同主题维度下的关联度，基于其上，融入拓扑网络结构，提出了URank算法用以计算用户在不同主题维度下的权威度与影响力。图6为本发明具体实施方式提供的一种面向不同主题维度的用户影响力计算示意图，如图6所示，用户在不同主题维度下的权威度与影响力的计算过程主要有如下几个步骤：

1.首先，建立面向主题维度的加权网络模型。

2.其次，抽取出各个主题维度下的加权网络模型。在主题维度A_l所对应的加权网络G_l中，节点表示与主题A_l相关的用户，边的权重标示主题维度A_l下用户间的关联度。

3.对每个主题维度下的加权网络G_l运行URank算法，计算该主题网络下用户的权威度与影响力。

定义1.面向主题的加权网络对于给定的主题维度A_l和初始的网络结构G，我们将网络G_l称为面向主题A_l的加权网络，当且仅当G_l满足如下两个限定条件：

(1)网络G中的节点用户均出现在网络G_l中；

(2)对于任意两个节点用户i和j，如果他们之间的面向主题维度A_l的关联度T_l ^(ij)大于零，那么在网络G_l中节点u_i和u_j之间存在连接边，并且边的权值等于T_l ^(ij)。

在随机冲浪过程(Random Surfer Process)中，在特定主题维度A_l下，由节点u_i到u_j的转移概率的定义如下：

定义2.给定某一具体的主题维度A_l及与之对应的面向主题的网络G_l，转移矩阵P_l中的每一个元素也就是说由节点u_i随机冲浪到节点u_j的转移概率的定义如下：

其中，ud_ij＝1当且仅当数据项d_j是具体用户u_i的历史行为数据，否则将其设置成为0。

转移概率主要由用户u_i和u_j之间的两个因素所决定：第一个因素是用户u_j所关联的数据项数。u_j所关联的数据项越多，那么u_i所阅读的数据项中源于u_j的部分所占的比例就越高。因此，用户u_i将从用户u_j接收更多的信息，并且更可能受到用户u_j的影响；第二个因素就是用户u_i和u_j在特定主题维度A_l下的关联度T_l ^(ij)。T_l ^(ij)的值越大，说明用户u_i和u_j在主题维度A_l下的关联性越强。因此，可以认为用户u_i和u_j在这一领域有着更相似的兴趣偏好，并且彼此相互影响。值得注意的是：

并不等于1,。因此，我们需要对进行规范化处理：

基于上述所定义的转移概率，本发明提出了面向特定主题的UserRank算法以挖掘用户在不同主题维度下的权威度与影响力。

定义3.将某一具体主题维度A_l上的URank记为UR_l，其迭代求解公式如下：

UR_l＝(1-β)·E_l+β·P_l ^N×UR_l

其中P_l ^N为上述定义的规范化的转移概率矩阵，β为阻尼因数(Damping Factor)，用于保证传播概率的稳定性，E_l为均匀隐形传态矢量(Uniform Teleportation Vector0)。基于上述方法，本发明分别求解每个用户在不同主题维度下的权威性与影响力，并采用K×L矩阵UR来表示，其中K为用户总数，L为主题的维度数，UR_il为用户u_i在主题维度A_l下的权威度与影响力。

步骤5中数据关联度计算模块

目标用户u_k与数据项v_h之间的关联性计算主要考虑如下三要素：

1.用户u_t(t≠k)对数据项v_h的喜好程度，由“用户兴趣偏计算模型”求得，即I(v_h,u_t)；

2.目标用户u_k与用户u_t(t≠k)在数据项v_h所属主题维度A_l下的关联度T_l ^(tk)；

3.用户u_t(t≠k)在数据项v_h所属主题维度A_l下的权威度与影响力UR_tl。

具体求解公式：

其中，μ(v_h,A_l)为指示变量，用以表明数据项v_h是否属于特定主题维度A_l。

上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本发明的实施例也可为在数据信号处理器(Digital Signal Processor，DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array，FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务，其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。

以上所述仅为本发明示意性的具体实施方式，在不脱离本发明的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.一种基于用户行为的数据关联方法，其特征在于，该方法包括：

获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合；

根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图；

根据所述用户间关系结构图度量用户在不同主题下的权威度；以及

将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。

2.如权利要求1所述的基于用户行为的数据关联方法，其特征在于，根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图的步骤之前，该方法还包括：

根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像。

3.如权利要求2所述的基于用户行为的数据关联方法，其特征在于，根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像的步骤，具体包括：

根据所述用户基本信息中的具体用户u_k确定该具体用户u_k对应的历史行为数据集合V；

计算所述待关联数据集合中的待关联数据项v_h与历史行为数据集合V之间的相似度；

根据所述相似度获得具体用户u_k对待关联数据项v_h的兴趣度I(v_h,u_k)；以及

根据所述兴趣度I(v_h,u_k)进行用户兴趣画像。

4.如权利要求3所述的基于用户行为的数据关联方法，其特征在于，所述兴趣度I(v_h,u_k)的具体计算公式为：

I (v_{h}, u_{k}) = Σ_{t = 1}^{T} w_{t} Σ_{o = 1}^{H} μ_{t} (v_{o}, u_{k}) S_{t} (v_{h}, v_{o})

其中，t为相似度计算维度；T为相似度计算维度总数；w_t为维度权重因子；v_o为用户历史行为数据项；μ_t(v_o,u_k)为具体用户u_k对其历史行为数据项v_o的兴趣偏好；S_t(v_h,v_o)为待关联数据项v_h与用户历史行为数据项v_o在相似度计算维度t下的相似性。

5.如权利要求1所述的基于用户行为的数据关联方法，其特征在于，根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图的步骤，具体包括：

根据所述用户基本信息获取具体用户u_i和具体用户u_j之间的基本信息相似度S^(ij)；

根据所述基本信息相似度S^(ij)获取具体用户u_i和具体用户u_j在特定主题维度A_l下的关联度T_l ^(ij)；

获取具体用户u_i的历史行为数据集合和具体用户u_j的历史行为数据集合在特定主题维度A_l下的关联紧密程度以及

根据所述关联度T_l ^(ij)和所述关联紧密程度构建用户间关系结构图。

6.如权利要求5所述的基于用户行为的数据关联方法，其特征在于，基本信息相似度S^(ij)的表达式为：

S^{(i j)} = (s_{1}^{(i j)}, s_{2}^{(i j)}, ..., s_{P}^{(i j)})

其中，为对应基本信息项的相似度；P为个人基本信息的条目数；如果个人基本信息条目中的第p条属性是离散型变量，当且仅当具体用户u_i和具体用户u_j具有相同的属性值时，将设定为1，否则将设置成为0；如果个人基本信息条目中的第p条属性是连续型变量，的取值如下：

s_{p}^{(i j)} = 1 - \frac{| f_{p}^{i} - f_{p}^{j} |}{\underset{1 \leq k_{1}, k_{2} \leq K}{m a x} | f_{p}^{k_{1}} - f_{p}^{k_{2}} |}

7.如权利要求1所述的基于用户行为的数据关联方法，其特征在于，根据所述用户间关系结构图度量用户在不同主题下的权威度的步骤，具体包括：

根据所述用户间关系结构图建立面向主题维度的加权网络模型；以及

对每个主题维度下的加权网络模型运行URank算法，计算该主题维度下用户的权威度。

8.如权利要求7所述的基于用户行为的数据关联方法，其特征在于，所述权威度UR_l的具体迭代求解公式具体为：

UR_l＝(1-β)·E_l+β·P_l ^N×UR_l

9.如权利要求7所述的基于用户行为的数据关联方法，其特征在于，所述转移概率矩阵的具体计算公式为：

p_{l}^{N (i, j)} = \frac{p_{l}^{(i, j)}}{{Σp}_{l}^{(i, k)}}

10.如权利要求9所述的基于用户行为的数据关联方法，其特征在于，所述转移概率的具体计算公式为：

p_{l}^{(i, j)} = \frac{Σ_{i = 1}^{N} {ud}_{i j}}{{ΣΣ}_{i = 1}^{N} {ud}_{i k}} \times T_{l}^{(i j)}

其中，ud_ij用于标识数据项d_j是否是具体用户u_i的历史行为数据，当且仅当数据项d_j为具体用户u_i的历史行为数据时，ud_ij＝1，否则ud_ij＝0；T_l ^(ij)为具体用户u_i和具体用户u_j在特定主题维度A_l下的关联度。

11.如权利要求1所述的基于用户行为的数据关联方法，其特征在于，所述数据关联结果R(v_h,u_k)的具体计算公式为：