CN106651427A - 基于用户行为的数据关联方法 - Google Patents

基于用户行为的数据关联方法 Download PDF

Info

Publication number
CN106651427A
CN106651427A CN201610894195.8A CN201610894195A CN106651427A CN 106651427 A CN106651427 A CN 106651427A CN 201610894195 A CN201610894195 A CN 201610894195A CN 106651427 A CN106651427 A CN 106651427A
Authority
CN
China
Prior art keywords
user
data
dimension
behavior
particular user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610894195.8A
Other languages
English (en)
Other versions
CN106651427B (zh
Inventor
赵小建
胥克良
胡凯乐
刘意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201610894195.8A priority Critical patent/CN106651427B/zh
Publication of CN106651427A publication Critical patent/CN106651427A/zh
Application granted granted Critical
Publication of CN106651427B publication Critical patent/CN106651427B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls

Abstract

本发明提供了一种基于用户行为的数据关联方法,其中,该方法包括:获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合;根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图;根据所述用户间关系结构图度量用户在不同主题下的权威度;将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。本发明提供的数据关联方法可以适应于新用户、新数据项,并且可以发现用户的潜在信息需求。

Description

基于用户行为的数据关联方法
技术领域
本发明涉及计算机领域,尤其涉及一种数据关联方法,具体来说就是一种基于用户行为的数据关联方法。
背景技术
随着电子购物平台及其相关信息技术的飞速发展,电子网络购物已成为人们生活中不可或缺的组成部分。然而网络中信息资源的数量大大超出了人们的处理能力,“网络信息过载”问题日趋严重。因此,新兴电子购物网络在便利人们日常生活的同时,也对现有信息检索、个性化推荐服务、精准营销等数据关联问题带来了巨大的机遇和挑战。因此,为满足用户越来越高的信息服务要求,向用户精准推送感兴趣数据项目的数据关联技术应运而生,并引起了国内外学者和用户的广泛关注。然而,现有数据关联方法存在数据稀疏、数据关联冷启动、精准度不高等缺陷。
现有技术中,可将数据关联方法归纳成三个主要类别:基于内容的数据关联方法、协同过滤数据关联方法和混合数据关联方法。其中,基于内容的数据关联方法从内容角度挖掘用户信息需求与数据对象的关联,通过度量用户模型与数据项模型的相似性来实现对备选数据项的关联预测;但由于其没有充分利用用户群体知识,导致其关联的数据项目与用户模型耦合度过于紧密,无法发现用户的潜在信息需求,很难实现具有一定联想功能的数据关联服务。协同过滤数据关联方法的应用前景则更加广泛,其基于群体知识进行数据关联,即兴趣和偏好相似的用户之间可以共享各自的信息体验,通过发现与用户兴趣相似的邻居用户,并将邻居用户感兴趣的数据项与目标用户进行关联;但实际应用中,协同过滤数据关联方法也存在着一些其难以克服的问题或缺陷,例如:当用户无任何数据关联历史,该模型则无法对该新用户的兴趣偏爱进行建模;与此相对应的就是新数据项问题,当出现新的数据项时,很少甚至没有用户与其发生过关联,进而导致关联算法无法实现相似度计算和关联度预测。如上所述,基于内容的数据关联方法和协同过滤数据关联方法都是通过单一的、各不相同的关联策略来实现信息与用户的关联服务,其优缺点各有不同。基于此,本领域技术人员提出并尝试将上述两种关联方法通过不同形式进行组合,进而也就形成了基于多种关联策略和机制的混合数据关联方法,然而实践证明混合数据关联方法仍存在数据稀疏、数据关联冷启动、精准度不高等不足。
因此,本领域技术人员亟待研发出一种能够适应于新用户、新数据项,匹配精准度高,并且能够发现用户潜在信息需求的数据关联方法。
发明内容
有鉴于此,本发明要解决的技术问题在于提供一种基于用户行为的数据关联方法及装置,解决了现有数据关联方法存在数据稀疏、数据关联冷启动、匹配精准度不高等问题。
为了解决上述技术问题,本发明的具体实施方式提供一种基于用户行为的数据关联方法,包括:获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合;根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图;根据所述用户间关系结构图度量用户在不同主题下的权威度;将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。
根据本发明的上述具体实施方式可知,基于用户行为的数据关联方法至少具有以下有益效果或特点:深化分析用户的历史行为数据,构建用户兴趣画像模型;通过对多个用户间不同主题下的关联度分析,构建可精准描述用户间关系谱系结构的面向主题的加权网络拓扑结构;结合加权网络拓扑结构与用户间历史行为数据的关联性,提出Urank算法,用以计算用户在多个不同主题下的权威度与影响力,进而提升基于用户行为的数据关联精准度,可以适应于新用户、新数据项,并且可以发现用户的潜在信息需求,提高用户体验度。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本发明所欲主张的范围。
附图说明
下面的所附附图是本发明的说明书的一部分,其绘示了本发明的示例实施例,所附附图与说明书的描述一起用来说明本发明的原理。
图1为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例一的流程图;
图2为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例二的流程图;
图3为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例三的流程图;
图4为本发明具体实施方式提供的一种基于用户行为的数据关联系统的示意框图;
图5为本发明具体实施方式提供的一种具体用户间面向不同主题维度的关联度评估图模型;
图6为本发明具体实施方式提供的一种面向不同主题维度的用户影响力计算示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
图1为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例一的流程图,如图1所示,利用网站上的用户基本信息和用户历史行为数据集合构建用户间关系结构图,再根据用户间关系结构图度量用户在不同主题下的权威度,从而将权威度与待关联数据集合进行融合处理获得数据关联结果。
该附图所示的具体实施方式包括:
步骤101:获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合。其中,用户基本信息包括:年龄、性别、职业、所在城市、兴趣爱好等;用户历史行为数据集合包括用户历史购买行为、用户电子商务网站浏览与评论行为等;待关联数据集合为电子商务网站商品集(或电子商务网站商品子集)。
步骤102:根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图。用户间关系结构图为面向主题维度的关联度评估图模型。基于所构建的用户间关系结构图,可以有效计算客户不同主题维度下的权威度,以提升数据关联效果。
步骤103:根据所述用户间关系结构图度量用户在不同主题下的权威度。利用URank算法根据用户间关系结构图度量用户在不同主题下的权威度。
步骤104:将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。
参见图1,深化分析用户的历史行为数据,构建用户兴趣画像模型;通过对多个用户间不同主题下的关联度分析,构建可精准描述用户间关系谱系结构的面向主题的加权网络拓扑结构;结合加权网络拓扑结构与用户间历史行为数据的关联性,提出Urank算法,用以计算用户在多个不同主题下的权威度与影响力,进而提升基于用户行为的数据关联精准度,可以适应于新用户、新数据项,并且可以发现用户的潜在信息需求,提高用户体验度。
图2为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例二的流程图,如图2所示,根据用户基本信息和用户历史行为数据集合进行用户兴趣画像。用户兴趣画像最终用于数据关联度计算模块。
该附图所示的具体实施方式中,在步骤102之前,该方法还包括:
步骤101-1:根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像。
参见图2,用户历史行为数据集合较好地折射出用户的兴趣爱好,用户历史行为数据集合中的某些数据也极好地反应了用户的个人偏好和侧重点,再结合用户基本信息和待关联数据集合进行用户兴趣画像,从而可以精准反映用户的兴趣爱好。
图3为本发明具体实施方式提供的一种基于用户行为的数据关联方法的实施例三的流程图,如图3所示,根据用户基本信息、用户历史行为数据集合和待关联数据集合进行用户兴趣画像;根据用户基本信息和用户历史行为数据集合构建用户间关系结构图;根据用户间关系结构图度量用户在不同主题下的权威度。
该附图所示的具体实施方式中,步骤101-1具体包括:
步骤101-11:根据所述用户基本信息中的具体用户uk确定该具体用户uk对应的历史行为数据集合V。
步骤101-12:计算所述待关联数据集合中的待关联数据项vh与历史行为数据集合V之间的相似度。
步骤101-13:根据所述相似度获得具体用户uk对待关联数据项vh的兴趣度I(vh,uk)。
步骤101-14:根据所述兴趣度I(vh,uk)进行用户兴趣画像。
本发明的具体实施例中,所述兴趣度I(vh,uk)的具体计算公式为:
其中,t为某一具体相似度计算维度;T为相似度计算维度总数;wt为维度权重因子;vo为用户历史行为数据项;μt(vo,uk)为具体用户uk对其历史行为数据项vo的兴趣偏好;St(vh,vo)为待关联数据项vh与用户历史行为数据项vo在相似度计算维度t下的相似性。
步骤102具体包括:
步骤1021:根据所述用户基本信息获取具体用户ui和具体用户uj之间的基本信息相似度S(ij)
步骤1022:根据所述基本信息相似度S(ij)获取具体用户ui和具体用户uj在特定主题维度Al下的关联度Tl (ij)
步骤1023:获取具体用户ui的历史行为数据集合和具体用户uj的历史行为数据集合在特定主题维度Al下的关联紧密程度
步骤1024:根据所述关联度Tl (ij)和所述关联紧密程度构建用户间关系结构图。
本发明的具体实施例中,基本信息相似度S(ij)的表达式为:
其中,为对应基本信息项的相似度,P为个人基本信息的条目数;如果个人基本信息条目中的第p条属性是离散型的(如,性别等),当且仅当具体用户ui和具体用户uj具有相同的属性值时,将设定为1,否则将设置成为0;对于连续型变量(如,年龄、身高等),的取值如下:
其中,分别是具体用户ui和具体用户uj在属性上的取值;K为用户总数。
步骤103具体包括:
步骤1031:根据所述用户间关系结构图建立面向主题维度的加权网络模型。
步骤1032:对每个主题维度下的加权网络模型运行URank算法,计算该主题维度下用户的权威度。
本发明的具体实施例中,所述权威度URl的具体迭代求解公式具体为:
URl=(1-β)·El+β·Pl N×URl
其中,Pl N为规范化的转移概率矩阵;β为阻尼因数,用于保证传播概率的稳定性;El为均匀隐形传态矢量。
进一步地,所述转移概率矩阵的具体计算公式为:
其中,为从具体用户ui随机冲浪到具体用户uj的转移概率;为从具体用户ui随机冲浪到其它具体用户的转移概率之和,其值为1;k为用户总数。
进一步地,所述转移概率的具体计算公式为:
其中,udij用于标识数据项dj是否是具体用户ui的历史行为数据,当且仅当数据项dj为具体用户ui的历史行为数据时,udij=1,否则udij=0;Tl (ij)为具体用户ui和具体用户uj在特定主题维度Al下的关联度;udik用于标识数据项dk是否是具体用户ui的历史行为数据,当且仅当数据项dk为具体用户ui的历史行为数据时,udik=1,否则udik=0。
本发明的具体实施例中,所述数据关联结果R(vh,uk)的具体计算公式为:
其中,μ(vh,Al)为指示变量,用以表明待关联数据项vh是否属于特定主题维度Al;URtl为具体用户ut(t≠k)在待关联数据项vh所属主题维度Al下的权威度;ξ为权重因子;I(vh,ut)为具体用户ut(t≠k)对待关联数据项vh的喜好程度;Tl (tk)为目标用户uk与具体用户ut(t≠k)在待关联数据项vh所属主题维度Al下的关联度。
本发明通过深化分析用户的历史行为数据,构建用户兴趣画像模型;通过对多个用户间不同主题维度下的关联度分析,构建可精准描述用户间关系谱系结构的面向主题的加权网络结构;结合拓扑网络结构与用户间历史行为数据的关联性,提出URank算法,用以计算用户在多个不同主题维度下的权威度与影响力,进而提升基于用户行为的数据关联质量。
数据关联系统主要由三部分组成:信息获取模块1、系统处理模块2和数据关联结果输出模块3,上述模块顺序连接,图4为本发明具体实施方式提供的一种基于用户行为的数据关联系统的示意框图,图4为各模块间数据流向图,其中:
信息获取模块1用于获取用户个人基本信息、用户历史行为数据、待关联数据集,以上信息、数据主要由平台所提供,如电子商务网站平台等。其中个人基本信息主要包括:年龄、性别、职业、所在城市、兴趣爱好等;用户历史行为数据则包括用户的历史购买行为、用户电子商务网站浏览与评论行为等;而待关联数据集则为电子商务网站商品集(或其子集)。
系统处理模块2基于系统数据输入(用户个人基本信息、用户行为历史数据)进行用户兴趣画像,并构建用户间关系谱系结构,基于所构建的用户间关系谱系结构有效度量用户不同主题维度下的权威度与影响力。
数据关联结果输出模块3有效融合系统处理与待关联数据集,并计算输出数据关联结果。
基于本系统的数据关联方法处理过程如下:
步骤1:信息获取模块1获取用户个人基本信息、用户历史行为数据、待关联数据集;
步骤2:系统处理模块2基于用户个人基本信息、用户行为历史数据进行用户兴趣画像;
步骤3:系统处理模块2基于用户个人基本信息、用户行为历史数据构建用户间关系谱系结构;
步骤4:系统处理模块2基于所构建的用户间关系谱系结构度量用户不同主题维度下的权威度与影响力;
步骤5:数据关联结果输出模块3将用户不同主题维度下的权威度与影响力计算结果与待关联数据集进行融合,并计算输出数据关联结果。
下面对该数据关联方法主要组成部分用户兴趣画像计算模型、用户间不同主题维度下的关联度计算图模型、用户在不同主题维度下的权威度与影响力计算算法和数据关联度计算模块分别加以阐述。
上述步骤2中用户兴趣画像计算模型
用户的历史行为在某种程度上较好地折射出了用户的兴趣爱好,并且用户历史行为中的某些数据也极好地反应了用户的个人偏好和侧重点,而且这些数据具有如下共性:与该用户的其他历史行为数据极其相似或者相关,也就是所说的典型性历史行为数据。
给定某个具体用户uk及其历史行为数据集合V={v1,v2,...,vH},对于某项待关联数据vh而言,可以根据其与用户历史行为数据集合V的相似性推导出用户uk对该项数据的重视程度,也就是用户uk对待关联数据项vh的偏好程度。简言之,待关联数据项vh与用户历史行为数据集合V越相似,说明数据项vh在数据集合V中越处于“核心”地位,越能体现用户uk的“核心”兴趣,用户uk对其的偏好度越强。为此,本发明将用户uk对待关联数据项vh的兴趣度I(vh,uk)量化为:
其中,t为相似性计算维度;wt为维度权重因子;vo为用户历史行为数据项;
μt(vo,uk)为用户uk对其历史行为数据项vo的兴趣偏好;St(vh,vo)为待关联数据项vh与用户历史行为数据项vo在衡量维度t下的相似性。
步骤3中所述客户间关系谱系结构计算图模型
为了准确计算不同用户之间在不同主题维度下的关联度,即构建客户间关系谱系结构,本发明构建了面向主题维度的关联度评估图模型,图5为本发明具体实施方式提供的一种具体用户间面向不同主题维度的关联度评估图模型,如图5所示。其构建基础有如下两点:
1.对于用户ui和uj而言,二者个人基本信息的相似性S(ij)从某种意义上决定着二者在某一特定主题维度Al下的关联度,记为Tl (ij)
2.与此同时,用户ui和uj在某一特定主题维度Al下的历史行为数据关联紧密程度在某种程度上也反映了二者在该主题维度下的关联度。
为提高该图模型计算的准确性,本发明为每个变量引入辅助变量并对相关变量做如下说明:
S(ij)为用户ui和uj之间的个人基本信息相似性向量,且P为个人基本信息的条目数。如果个人基本信息条目中的第p条属性是离散型的,那么本发明将设定为1,当且仅当用户ui和uj具有相同的属性值,否则将其设置成0。对于连续性变量,的取值处理如下:
其中,分别是用户ui和uj在属性p上的取值,K为用户总数;Tl (ij)是指用户ui和uj在特定主题维度Al上的关联度;是指用户ui和uj历史行为数据在特定主题维度Al下的关联紧密程度。
用户间面向不同主题维度的关联度评估图模型,通过对条件依赖进行建模,展示变量间的因果依存关系,基于这种依存关系,对其联合概率分布进行如下分解:
本发明采用已被广泛引用的高斯分布(Gaussian Distribution)对条件概率P(Tl (ij)|S(ij))进行建模求解,即:
其中,wl是待估计的P维权重向量,v是高斯模型中的方差。
同理,本发明对Tl (ij)之间的依存关系做同样模拟:
其中,αl和βl为L维的系数向量。
为了有效避免过拟合问题,本发明使用L2规则对参数wl、αl和βl进行正则化,并将其视为高斯先验模型:
给定的用户对μ=U×U,联合概率分布可做如下推导:
由于不同主题维度下的联合概率分布是相互独立地,本发明仅给出第l种主题维度下的对数似然函数:
对数似然函数L是凹函数,本发明采用梯度增量的方法分别对参数wl、αl、βl和变量Tl (ij)进行优化,其坐标方向梯度分别为:
采用坐标上升优化方案对wl、αl、βl和Tl (ij)利用牛顿迭代法进行更新直至收敛:
对于参数wl,本发明对其进行领回归(Ridge Regression):
wl=(λ1vI+STS)-1STTl
其中,
步骤4中用户在不同主题维度下的权威度与影响力计算算法
本发明综合利用用户的个人基本信息、历史行为数据等,深入研究用户间的不同主题维度下的关联度,基于其上,融入拓扑网络结构,提出了URank算法用以计算用户在不同主题维度下的权威度与影响力。图6为本发明具体实施方式提供的一种面向不同主题维度的用户影响力计算示意图,如图6所示,用户在不同主题维度下的权威度与影响力的计算过程主要有如下几个步骤:
1.首先,建立面向主题维度的加权网络模型。
2.其次,抽取出各个主题维度下的加权网络模型。在主题维度Al所对应的加权网络Gl中,节点表示与主题Al相关的用户,边的权重标示主题维度Al下用户间的关联度。
3.对每个主题维度下的加权网络Gl运行URank算法,计算该主题网络下用户的权威度与影响力。
定义1.面向主题的加权网络对于给定的主题维度Al和初始的网络结构G,我们将网络Gl称为面向主题Al的加权网络,当且仅当Gl满足如下两个限定条件:
(1)网络G中的节点用户均出现在网络Gl中;
(2)对于任意两个节点用户i和j,如果他们之间的面向主题维度Al的关联度Tl (ij)大于零,那么在网络Gl中节点ui和uj之间存在连接边,并且边的权值等于Tl (ij)
在随机冲浪过程(Random Surfer Process)中,在特定主题维度Al下,由节点ui到uj的转移概率的定义如下:
定义2.给定某一具体的主题维度Al及与之对应的面向主题的网络Gl,转移矩阵Pl中的每一个元素也就是说由节点ui随机冲浪到节点uj的转移概率的定义如下:
其中,udij=1当且仅当数据项dj是具体用户ui的历史行为数据,否则将其设置成为0。
转移概率主要由用户ui和uj之间的两个因素所决定:第一个因素是用户uj所关联的数据项数。uj所关联的数据项越多,那么ui所阅读的数据项中源于uj的部分所占的比例就越高。因此,用户ui将从用户uj接收更多的信息,并且更可能受到用户uj的影响;第二个因素就是用户ui和uj在特定主题维度Al下的关联度Tl (ij)。Tl (ij)的值越大,说明用户ui和uj在主题维度Al下的关联性越强。因此,可以认为用户ui和uj在这一领域有着更相似的兴趣偏好,并且彼此相互影响。值得注意的是:
并不等于1,。因此,我们需要对进行规范化处理:
基于上述所定义的转移概率,本发明提出了面向特定主题的UserRank算法以挖掘用户在不同主题维度下的权威度与影响力。
定义3.将某一具体主题维度Al上的URank记为URl,其迭代求解公式如下:
URl=(1-β)·El+β·Pl N×URl
其中Pl N为上述定义的规范化的转移概率矩阵,β为阻尼因数(Damping Factor),用于保证传播概率的稳定性,El为均匀隐形传态矢量(Uniform Teleportation Vector0)。基于上述方法,本发明分别求解每个用户在不同主题维度下的权威性与影响力,并采用K×L矩阵UR来表示,其中K为用户总数,L为主题的维度数,URil为用户ui在主题维度Al下的权威度与影响力。
步骤5中数据关联度计算模块
目标用户uk与数据项vh之间的关联性计算主要考虑如下三要素:
1.用户ut(t≠k)对数据项vh的喜好程度,由“用户兴趣偏计算模型”求得,即I(vh,ut);
2.目标用户uk与用户ut(t≠k)在数据项vh所属主题维度Al下的关联度Tl (tk)
3.用户ut(t≠k)在数据项vh所属主题维度Al下的权威度与影响力URtl
具体求解公式:
其中,μ(vh,Al)为指示变量,用以表明数据项vh是否属于特定主题维度Al
上述的本发明实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本发明的实施例也可为在数据信号处理器(Digital Signal Processor,DSP)中执行上述方法的程序代码。本发明也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array,FPGA)执行的多种功能。可根据本发明配置上述处理器执行特定任务,其通过执行定义了本发明揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本发明执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本发明的精神与范围。
以上所述仅为本发明示意性的具体实施方式,在不脱离本发明的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本发明保护的范围。

Claims (11)

1.一种基于用户行为的数据关联方法,其特征在于,该方法包括:
获取网站上的用户基本信息、用户历史行为数据集合和待关联数据集合;
根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图;
根据所述用户间关系结构图度量用户在不同主题下的权威度;以及
将所述权威度与所述待关联数据集合进行融合处理获得数据关联结果。
2.如权利要求1所述的基于用户行为的数据关联方法,其特征在于,根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图的步骤之前,该方法还包括:
根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像。
3.如权利要求2所述的基于用户行为的数据关联方法,其特征在于,根据所述用户基本信息和所述用户历史行为数据集合进行用户兴趣画像的步骤,具体包括:
根据所述用户基本信息中的具体用户uk确定该具体用户uk对应的历史行为数据集合V;
计算所述待关联数据集合中的待关联数据项vh与历史行为数据集合V之间的相似度;
根据所述相似度获得具体用户uk对待关联数据项vh的兴趣度I(vh,uk);以及
根据所述兴趣度I(vh,uk)进行用户兴趣画像。
4.如权利要求3所述的基于用户行为的数据关联方法,其特征在于,所述兴趣度I(vh,uk)的具体计算公式为:
I ( v h , u k ) = Σ t = 1 T w t Σ o = 1 H μ t ( v o , u k ) S t ( v h , v o )
其中,t为相似度计算维度;T为相似度计算维度总数;wt为维度权重因子;vo为用户历史行为数据项;μt(vo,uk)为具体用户uk对其历史行为数据项vo的兴趣偏好;St(vh,vo)为待关联数据项vh与用户历史行为数据项vo在相似度计算维度t下的相似性。
5.如权利要求1所述的基于用户行为的数据关联方法,其特征在于,根据所述用户基本信息和所述用户历史行为数据集合构建用户间关系结构图的步骤,具体包括:
根据所述用户基本信息获取具体用户ui和具体用户uj之间的基本信息相似度S(ij)
根据所述基本信息相似度S(ij)获取具体用户ui和具体用户uj在特定主题维度Al下的关联度Tl (ij)
获取具体用户ui的历史行为数据集合和具体用户uj的历史行为数据集合在特定主题维度Al下的关联紧密程度以及
根据所述关联度Tl (ij)和所述关联紧密程度构建用户间关系结构图。
6.如权利要求5所述的基于用户行为的数据关联方法,其特征在于,基本信息相似度S(ij)的表达式为:
S ( i j ) = ( s 1 ( i j ) , s 2 ( i j ) , ... , s P ( i j ) )
其中,为对应基本信息项的相似度;P为个人基本信息的条目数;如果个人基本信息条目中的第p条属性是离散型变量,当且仅当具体用户ui和具体用户uj具有相同的属性值时,将设定为1,否则将设置成为0;如果个人基本信息条目中的第p条属性是连续型变量,的取值如下:
s p ( i j ) = 1 - | f p i - f p j | m a x 1 ≤ k 1 , k 2 ≤ K | f p k 1 - f p k 2 |
其中,分别是具体用户ui和具体用户uj在属性上的取值;K为用户总数。
7.如权利要求1所述的基于用户行为的数据关联方法,其特征在于,根据所述用户间关系结构图度量用户在不同主题下的权威度的步骤,具体包括:
根据所述用户间关系结构图建立面向主题维度的加权网络模型;以及
对每个主题维度下的加权网络模型运行URank算法,计算该主题维度下用户的权威度。
8.如权利要求7所述的基于用户行为的数据关联方法,其特征在于,所述权威度URl的具体迭代求解公式具体为:
URl=(1-β)·El+β·Pl N×URl
其中,Pl N为规范化的转移概率矩阵;β为阻尼因数,用于保证传播概率的稳定性;El为均匀隐形传态矢量。
9.如权利要求7所述的基于用户行为的数据关联方法,其特征在于,所述转移概率矩阵的具体计算公式为:
p l N ( i , j ) = p l ( i , j ) Σp l ( i , k )
其中,为从具体用户ui随机冲浪到具体用户uj的转移概率;为从具体用户ui随机冲浪到其它具体用户的转移概率之和,其值为1;k为用户总数。
10.如权利要求9所述的基于用户行为的数据关联方法,其特征在于,所述转移概率的具体计算公式为:
p l ( i , j ) = Σ i = 1 N ud i j ΣΣ i = 1 N ud i k × T l ( i j )
其中,udij用于标识数据项dj是否是具体用户ui的历史行为数据,当且仅当数据项dj为具体用户ui的历史行为数据时,udij=1,否则udij=0;Tl (ij)为具体用户ui和具体用户uj在特定主题维度Al下的关联度。
11.如权利要求1所述的基于用户行为的数据关联方法,其特征在于,所述数据关联结果R(vh,uk)的具体计算公式为:
其中,μ(vh,Al)为指示变量,用以表明待关联数据项vh是否属于特定主题维度Al;URtl为具体用户ut(t≠k)在待关联数据项vh所属主题维度Al下的权威度;ξ为权重因子;I(vh,ut)为具体用户ut(t≠k)对待关联数据项vh的喜好程度;Tl (tk)为目标用户uk与具体用户ut(t≠k)在待关联数据项vh所属主题维度Al下的关联度。
CN201610894195.8A 2016-10-13 2016-10-13 基于用户行为的数据关联方法 Active CN106651427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610894195.8A CN106651427B (zh) 2016-10-13 2016-10-13 基于用户行为的数据关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610894195.8A CN106651427B (zh) 2016-10-13 2016-10-13 基于用户行为的数据关联方法

Publications (2)

Publication Number Publication Date
CN106651427A true CN106651427A (zh) 2017-05-10
CN106651427B CN106651427B (zh) 2020-02-11

Family

ID=58855720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610894195.8A Active CN106651427B (zh) 2016-10-13 2016-10-13 基于用户行为的数据关联方法

Country Status (1)

Country Link
CN (1) CN106651427B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464141A (zh) * 2017-08-07 2017-12-12 北京京东尚科信息技术有限公司 用于信息推广的方法、装置、电子设备及计算机可读介质
CN108090197A (zh) * 2017-12-22 2018-05-29 河南科技大学 一种多维社交网络的社区发现方法
CN108875014A (zh) * 2018-06-20 2018-11-23 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN109660574A (zh) * 2017-10-10 2019-04-19 阿里巴巴集团控股有限公司 数据提供方法及装置
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799623A (zh) * 2012-06-21 2012-11-28 杜小勇 信息推送方法
CN104239571A (zh) * 2014-09-30 2014-12-24 北京奇虎科技有限公司 一种进行应用推荐的方法和装置
CN105095267A (zh) * 2014-05-09 2015-11-25 阿里巴巴集团控股有限公司 一种用于用户参与项目的推荐方法及装置
CN105574107A (zh) * 2015-12-14 2016-05-11 成都陌云科技有限公司 基于用户偏好的内容定制推送方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799623A (zh) * 2012-06-21 2012-11-28 杜小勇 信息推送方法
CN105095267A (zh) * 2014-05-09 2015-11-25 阿里巴巴集团控股有限公司 一种用于用户参与项目的推荐方法及装置
CN104239571A (zh) * 2014-09-30 2014-12-24 北京奇虎科技有限公司 一种进行应用推荐的方法和装置
CN105574107A (zh) * 2015-12-14 2016-05-11 成都陌云科技有限公司 基于用户偏好的内容定制推送方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464141A (zh) * 2017-08-07 2017-12-12 北京京东尚科信息技术有限公司 用于信息推广的方法、装置、电子设备及计算机可读介质
CN107464141B (zh) * 2017-08-07 2021-09-07 北京京东尚科信息技术有限公司 用于信息推广的方法、装置、电子设备及计算机可读介质
CN109660574A (zh) * 2017-10-10 2019-04-19 阿里巴巴集团控股有限公司 数据提供方法及装置
CN108090197A (zh) * 2017-12-22 2018-05-29 河南科技大学 一种多维社交网络的社区发现方法
CN108090197B (zh) * 2017-12-22 2021-06-04 河南科技大学 一种多维社交网络的社区发现方法
CN108875014A (zh) * 2018-06-20 2018-11-23 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN108875014B (zh) * 2018-06-20 2021-11-02 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN106651427B (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
TWI612488B (zh) 用於預測商品的市場需求的計算機裝置與方法
Wang et al. A novel matrix factorization model for recommendation with LOD-based semantic similarity measure
Gao et al. A WordNet-based semantic similarity measurement combining edge-counting and information content theory
Lin et al. Personalized news recommendation via implicit social experts
Azadeh et al. A flexible deterministic, stochastic and fuzzy Data Envelopment Analysis approach for supply chain risk and vendor selection problem: Simulation analysis
CN106651427A (zh) 基于用户行为的数据关联方法
US11875232B2 (en) Attributing reasons to predictive model scores
CN103514255B (zh) 一种基于项目层次类别的协同过滤推荐方法
Wang et al. An iterative algorithm to derive priority from large-scale sparse pairwise comparison matrix
CN109034960B (zh) 一种基于用户节点嵌入的多属性推断的方法
Arabmaldar et al. A new robust DEA model and super-efficiency measure
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及系统
CN109711925A (zh) 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统
Pintoux et al. The Dothan pricing model revisited
CN113127754A (zh) 一种基于知识图谱的供应商推荐方法
Gu et al. Robust weighted SVD-type latent factor models for rating prediction
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
He et al. A robust multi-view clustering method for community detection combining link and content information
Dao et al. A Monte Carlo-adjusted goodness-of-fit test for parametric models describing spatial point patterns
CN107767152A (zh) 产品购买倾向分析方法及服务器
CN108154288A (zh) 新用户补贴策略的计算方法、装置、电子设备及存储介质
CN106776757A (zh) 用户完成网银操作的指示方法及装置
CN113902522A (zh) 一种基于图神经网络的专利推荐方法及终端
Peña et al. On the Relationship between Uhlig Extended and beta‐Bartlett Processes
Liu et al. Log sequence clustering for workflow mining in multi-workflow systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant