CN110413897A - 用户兴趣挖掘方法、装置、存储介质和计算机设备 - Google Patents

用户兴趣挖掘方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN110413897A
CN110413897A CN201910516781.2A CN201910516781A CN110413897A CN 110413897 A CN110413897 A CN 110413897A CN 201910516781 A CN201910516781 A CN 201910516781A CN 110413897 A CN110413897 A CN 110413897A
Authority
CN
China
Prior art keywords
user
payment
target
target user
interest characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910516781.2A
Other languages
English (en)
Other versions
CN110413897B (zh
Inventor
应秋芳
梁浩强
郑巧玲
胡彬
张�杰
张纪红
刘洪�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910516781.2A priority Critical patent/CN110413897B/zh
Publication of CN110413897A publication Critical patent/CN110413897A/zh
Application granted granted Critical
Publication of CN110413897B publication Critical patent/CN110413897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本申请涉及一种用户兴趣挖掘方法、装置、计算机可读存储介质和计算机设备,该方法包括:基于第一支付网络确定用户群中每个目标用户的基础兴趣特征;在第二支付网络中确定所述用户群中每个目标用户的相邻用户;计算所述目标用户与每个相邻用户的社交相似度;根据所述社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。本申请提供的方案可以实现对冷启动用户进行兴趣挖掘。

Description

用户兴趣挖掘方法、装置、存储介质和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户兴趣挖掘方法、装置、存储介质和计算机设备。
背景技术
基于个性化服务、群组划分等需求,常需要对用户的兴趣取向进行挖掘。目前,兴趣挖掘主要是基于协同过滤算法对指定用户的用户行为信息或profile(简介)信息分析,在用户群中找到指定用户的相似用户,再根据相似用户对某一信息的评价,形成对该指定用户对此信息的兴趣程度预测。但对于新用户或者行为信息较少的用户,通过协同过滤算法进行兴趣挖掘的方法则不再适用。
发明内容
基于此,有必要针对目前对新用户或行为信息较少的用户难以挖掘其兴趣的技术问题,提供一种用户兴趣挖掘方法、装置、计算机可读存储介质和计算机设备。
一种用户兴趣挖掘方法,包括:基于第一支付网络确定用户群中每个目标用户的基础兴趣特征;在第二支付网络中确定所述用户群中每个目标用户的相邻用户;计算所述目标用户与每个相邻用户的社交相似度;根据所述社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
一种用户兴趣挖掘装置,所述装置包括:特征提取模块,用于基于第一支付网络确定用户群中每个目标用户的基础兴趣特征;特征传播模块,用于在第二支付网络中确定所述用户群中每个目标用户的相邻用户;计算所述目标用户与每个相邻用户的社交相似度;根据所述社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;特征融合模块,用于对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行用户兴趣挖掘方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行用户兴趣挖掘的方法的步骤。
上述用户兴趣挖掘方法,基于第一支付网络,可以确定每个目标用户的基础兴趣特征;基于第二支付网络,可以确定目标用户与至少一个相邻用户的社交相似度;根据社交相似度对多个相邻用户的基础兴趣特征进行融合,可以得到相应目标用户的相似兴趣特征;结合目标用户自身的基础兴趣特征以及相邻用户传播得到的相似兴趣特征,可以融合得到目标用户更加综合的目标兴趣特征。基于预先构建的由第一支付网络和第二支付网络组成的异构复杂网络,只要目标用户与其他用户之间存在社交行为即可通过该异构网络根据社交相似度将相邻用户的基础兴趣特征有区分的传播至目标用户,进而确定目标用户的目标兴趣特征,可以解决新用户冷启动和行为数据缺失引起的兴趣定向困难问题。
附图说明
图1为一个实施例中用户兴趣挖掘方法的应用环境图;
图2为一个实施例中用户兴趣挖掘方法的流程示意图;
图3为一个实施例中第一支付网络的结构示意图;
图4为一个实施例中第二支付网络的结构示意图;
图5为一个实施例中对第二支付特征进行归一化的流程示意图;
图6为一个实施例中用户兴趣挖掘方法的流程示意图;
图7为一个具体的实施例中用户兴趣挖掘方法的流程示意图;
图8为一个实施例中用户兴趣挖掘装置的结构框图;
图9为另一个实施例中用户兴趣挖掘装置的结构框图;
图10为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中用户兴趣挖掘方法的应用环境图。参照图1,该用户兴趣挖掘方法应用于用户兴趣挖掘系统。该用户兴趣挖掘系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110上运行了社交支付应用。用户在终端110可以通过社交支付应用与商户或其他用户进行支付交互。在支付交互完成时,终端110将产生的支付记录发送至服务器120。服务器120获取目标时段的支付记录,基于多个用户与不同商户之间的支付记录构建第一支付网络,基于不同用户与用户之间的支付记录构建第二支付网络,采用上述用户兴趣挖掘方法在第一支付网络及第二支付网络中挖掘每个用户的兴趣信息。其中,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种用户兴趣挖掘方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该用户兴趣挖掘方法具体包括如下步骤:
S202,基于第一支付网络确定用户群中每个目标用户的基础兴趣特征。
其中,第一支付网络是根据目标时段内用户群中每个目标用户基于社交支付应用向商户进行支付操作产生的第一支付记录构建的连通图。目标时段是指产生支付记录的时间片段,包括起始时间和结束时间,如2018年5月1日-2018年7月31日。目标时段的时间长度可以是基于滑窗函数设置的窗口大小,如3个月。目标用户是指在目标时段内基于社交支付应用与商户或其他用户发生过支付行为的用户。多个目标用户形成一个用户群。商户是指有实体经营场所的商家,如酒店、餐厅等。多个商户形成一个商户群。社交支付应用是指具有社交及支付功能的应用程序,目标用户可以基于社交支付应用的资源转移功能向不同商户或者其他目标用户付款,也可以从其他目标用户收款。其中,资源包括虚拟物品,如账户数值、积分或电子代金券等,资源的主人通过社交支付应用将资源分享至其他人,被分享资源的用户仅通过简单的点击操作即可获取得到该分享的资源,比如,通过点击虚拟红包即可得到虚拟红包中的数值资源。
目标用户在社交支付应用发生支付行为后,生成对应的支付记录。本实施例支付记录包括第一支付记录和第二支付记录。其中,第一支付记录是目标用户与商户之间发生支付行为而产生的支付记录。第二支付记录是目标用户与目标用户之间发生支付行为而产生的支付记录。第一支付记录包括目标用户的用户标识、商户标识、支付数值及支付时间等。用户标识可以是用户基于社交支付应用的账号,也可以是其他身份标识信息,如身份证号、手机号等。商户标识可以是商户的营业许可证件号、机构代码等。在一个实施例中,第一支付记录可以从区别于社交支付应用的其他应用提取得到。换言之,第一支付记录与第二支付记录可以是从不同的应用平台获取得到的。
基于第一支付记录生成的第一支付网络包括每个目标用户对应的用户节点,每个商户对应的商户节点,以及连接在用户节点与商户节点之间的有向边。若将节点类型多于一种类型或者有向边类型多于一种类型的复杂网络结构成为异构网络在,则包含用户节点和商户节点两种节点类型的第一支付网路为异构网络。
基础兴趣特征是指根据与目标用户发生支付行为的商户预关联的兴趣标签计算得到的目标用户对不同类型资源的喜好程度的兴趣特征。针对每个基于社交支付应用进行收款的商户,服务器预先配置了对应的一个或多个兴趣标签。兴趣标签是能够反映商业所属行业或其出售产品的类别的信息,如食品、家居、数码等。基础兴趣特征的表现形式可以是向量或矩阵等。
在一个实施例中,基于第一支付网络确定用户群中每个目标用户的基础兴趣特征之前,上述用户兴趣挖掘方法还包括:获取第一支付记录;第一支付记录包括多个用户标识及多个商户标识;对第一支付记录进行解析,确定每个目标用户与不同商户之间的关联强度;以每个用户标识为一个用户节点,以每个商户标识为一个商户节点,以从用户节点指向相应商户节点的有向边进行节点连接,形成第一支付网络;将关联强度与第一支付网络中相应有向边关联。
其中,目标用户与商户之间的关联强度是表征目标用户在目标时段与商户之间是否发生支付行为的指标值。比如,采用数值0表示目标用户与商户之间未发生支付行为;采用数值1表示目标用户与商户之间发生了一次或多次支付行为。
在一个实施例中,当目标用户在目标时段与商户之间发生了支付行为时,目标用户与商户之间的关联强度也可以是根据发生支付行为的次数或支付数值等支付属性中至少一项计算得到的归一化指标值。
具体地,服务器在目标时段产生的每个第一支付记录中提取用户标识和商户标识,将不存在支付行为的目标用户和商户的关联强度设为0,将存在支付行为的目标用户和商户的关联强度设为1。或者基于第一支付记录统计得到存在支付行为的目标用户和商户之间发生支付行为的次数或支付数值,对发生支付行为的次数或支付数值进行预设逻辑运算,对预设逻辑运算进行归一化处理,将得到的归一化数值作为相应目标用户与商户之间的关联强度。预设逻辑运算可以是加权求和或加权求平均等。
进一步地,服务器以每个用户标识为一个用户节点,以每个商户标识为一个商户节点,以目标用户与商户之间的支付关系为有向边,将关联强度添加在相应有向边附近,构建商户-目标用户二分网络,即第一支付网络G1=(Vb,Vc,Eb)。其中,表示商户节点,1≤i≤M,M为商户群Vb中商户的数量;表示用户节点,1≤j≤N,N为用户群Vc中目标用户的数量;表示连接在商户节点及用户节点之间的有向边,Eb为第一支付网络中有向边的集合。参考图3,图3为一个实施例中第一支付网络的结构示意图。如图3所示,用户节点与商户节点之间存在有向边,对应的关联强度为0.78。本实施例有向边从用户节点指向具有支付关系的相应商户节点。容易理解,第一支付网路也可以是无向连通图。
上述实施例,通过对目标用户与商户之间发生支付行为产生的第一支付记录进行分析,可以充分挖掘目标用户与不同商户的关联强度,关联强度在一定置信程度上反映了目标用户对不同类型商户的兴趣程度,使第一支付网络可用于进一步对目标用户的兴趣特征进行挖掘。
在一个实施例中,基于第一支付网络确定用户群中每个目标用户的基础兴趣特征包括:基于第一支付网络提取商户群与用户群发生支付行为的第一支付特征;获取商户群中每个商户的商户兴趣特征;对第一支付特征与商户兴趣特征进行融合,得到用户群中每个目标用户的基础兴趣特征。
其中,第一支付特征是指目标用户与商户之间是否发生支付行为、发生支付行为的次数或支付数值等方面的属性特征。第一支付特征的表现形式可以是向量或矩阵等。
在一个实施例中,基于第一支付网络提取商户群与用户群发生支付行为的第一支付特征包括:根据每个目标用户与不同商户之间的关联强度建立第一邻接矩阵,将第一邻接矩阵确定为用户群与商户群之间发生支付行为的第一支付特征。第一邻接矩阵是将多个商户标识排列成行,将多个用户标识排列成列,将用户标识对应目标用户与商户标识对应商户的关联强度为矩阵元素的二维矩阵。第一支付网络中有向边对应的关联强度即为第一邻接矩阵B∈RM×N的矩阵元素Bij
商业兴趣特征是指商户与多个兴趣标签的关联关系特征。特征融合是将多个特征数据与合并为一个综合的特征数据的过程。商户兴趣特征的表现形式可以是向量或矩阵等。
在一个实施例中,获取商户群中每个商户的商户兴趣特征包括:根据商户群中每个商户与多个兴趣标签的关联关系建立第二邻接矩阵,将第二邻接矩阵确定商户群对应的商户兴趣特征。第二邻接矩阵是将多个商户标识排列成行,将多个兴趣标签排列成列,将商户标识对应商户与兴趣标签之间是否具有关联关系的表征值为矩阵元素的二维矩阵。当商户与兴趣标签具有关联关系,对应表征值可以是1;反之,对应表征值可以是0。
在一个实施例中,针对每个商户预先配置的每个兴趣标签具有对应的标签权重。标签权重可以根据商户对不同产品的营业比例等确定的。容易理解,当
商户与兴趣标签之间不具有关联关系时,对应标签权重为0。第二邻接矩阵C∈RM×L的矩阵元素Cik也可以是商户在具体某一个兴趣标签的标签权重。每个商户在各个兴趣标签上的标签权重可以标识为向量Ci∈R1×L。其中,L为兴趣标签的数量,1≤k≤L。
特征融合的算法可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等。
在一个实施例中,对第一支付特征与商户兴趣特征进行融合,得到用户群中每个目标用户的基础兴趣特征包括:对第一邻接矩阵与第二邻接矩阵进行融合,得到综合邻接矩阵;综合邻接矩阵记录了用户群中每个目标用户的基础兴趣特征。
具体地,服务器对第一邻接矩阵B进行转置,得到对应转置矩阵BT。服务器对转置矩阵BT与第二邻接矩阵C进行乘法运算,得到综合邻接矩阵H。综合邻接矩阵H=BT·C的矩阵元素为目标用户在具体某一个兴趣标签的标签权重。综合邻接矩阵H基于每一行矩阵元素记录了一个目标用户的基础兴趣特征hj,即该目标用户在不同兴趣标签的标签权重。基础兴趣特征hj可以理解为综合邻接矩阵H中的一个矩阵向量。
上述实施例,通过将反映每个目标用户与不同商户之间关联强度的第一邻接矩阵,与反映每个商户与多个兴趣标签关联关系的第二邻接矩阵融合,可以将商户的兴趣标签映射传播到目标用户,得到目标用户对应的一个或多个兴趣标签,进而勾画目标用户的基础兴趣特征。
S204,在第二支付网络中确定用户群中每个目标用户的相邻用户。
其中,第二支付网络是根据目标时段内用户群中每个目标用户基于社交支付应用向其他目标用户进行支付操作产生的第二支付记录建立的有向连通图。第二支付网络包括每个目标用户对应的用户节点以及连接在用户节点之间的有向边。目标用户的相邻用户是指第二支付网络中可以通过预设数量的有向边与目标用户对应用户节点直接或间接连接的其他用户节点对应的目标用户。
在一个实施例中,在第二支付网络中确定用户群中每个目标用户的相邻用户之前,方法还包括:获取第二支付记录;第二支付记录包括多个用户标识;对第二支付记录解析,确定不同目标用户基于不同支付关系的关联强度;以每个用户标识为一个用户节点,以不同支付关系为有向边建立每种支付关系对应的支付网络层,形成第二支付网络;将关联强度与第二支付网络相应有向边进行关联。
其中,支付关系是指目标用户之间基于社交支付应用发生支付行为的类型。支付关系包括虚拟红包支付、转账支付、面对面支付等。不同目标用户基于某种支付关系的关联强度是表征目标用户在目标时段与其他目标用户之间是否发生该种支付关系的支付行为的指标值。比如,采用数值0表示未发生支付行为;采用数值1表示发生了一次或多次支付行为。
在一个实施例中,当不同目标用户之间在目标时段存在某种支付关系的支付行为时,目标用户基于该种支付关系的关联强度可以是根据发生该种支付关系的支付行为的次数或支付数值等支付属性中至少一项计算得到的归一化指标值。
第二支付网络是根据目标时段内用户群中每个目标用户基于社交支付应用向其他目标用户进行支付操作产生的第二支付记录构建的连通图。第二支付记录包括作为付款方的目标用户的用户标识、作为收款方的目标用户的用户标识、支付数值及支付时间等。基于第二支付记录生成的第二支付网络包括每个目标用户对应的用户节点以及连接在用户节点之间不同类型的有向边。在第二支付网络中,一种支付关系对应一种类型的有向边,采用不同类型的有向边将相同用户群的用户节点连接形成不同的支付网络层。换言之,第二支付网络是由多个支付网络层构成,每一层支付网络层只包含一种类型的有向边,所有支付网络层共享相同用户群的用户节点的Multi-Layer网络。容易理解,包含多种有向边类型的第二支付网络也是一种异构网络。
具体地,服务器在目标时段产生的每个第二支付记录中提取用户标识,将不存在支付行为的两个目标用户的关联强度设为0,将存在支付行为的两个目标用户的关联强度设为1。或者基于第二支付记录统计得到存在支付行为的两个目标用户之间发生每种支付关系的支付行为的次数或支付数值,计算目标用户在目标时段向另一目标用户支付的平均数值,对平均数值进行归一化处理,将得到的归一化数值作为相应两个目标用户之间的关联强度。
进一步地,服务器以每个用户标识为一个用户节点,以目标用户之间的支付关系为有向边,将关联强度添加在相应有向边附近,构建目标用户-目标用户二分网络,即第二支付网络G2=(Vc,{E})。其中,与第一支付网络G1一致,表示用户节点,用户群Vc中目标用户的数量为N,1≤j≤N;E={E1,E2,E3,……}表示有多种类型的有向边组成的有向边集合,比如E1可以是虚拟红包支付类型的有向边的集合,E2可以是转账支付类型的有向边的集合,E3可以是面对面支付类型的有向边的集合。本实施例有向边从付款方的用户节点指向收款方的用户节点。
参考图4,图4为一个实施例中第二支付网络的结构示意图。如图4所示,不同支付关系对应的有向边可以通过线条类型、线条粗细或线条颜色等进行区分。有向边可以是单向线条也可以是双向线条。其中双向的有向边表示相应两个用户节点对应两个目标用户中任一目标用户为另一目标用户的付款方和收款方。以用户节点为例,用户节点与用户节点之间存在三种支付关系,基于其中一种支付关系的关联强度为0.77。图4仅是对第二支付网络的一种示例,未对目标用户之间的关联强度进行一一标注。
上述实施例,通过对目标用户之间发生支付行为产生的第二支付记录进行分析,可以充分挖掘目标用户之间的关联强度,关联强度在一定置信程度上反映了目标用户之间的社交趋同程度,使第二支付网络可用于进一步对目标用户的兴趣特征进行挖掘。
在一个实施例中,在第二支付网络中确定用户群中每个目标用户的相邻用户包括:根据用户节点之间有向边的数量,计算不同用户节点相对目标用户所对应用户节点的传播跳度;将传播跳度小于或等于预设跳度值的每个用户节点所对应用户分别确定为目标用户的相邻用户。
其中,传播跳度是反映两个目标用户之间发生支付行为的中转程度的数值。比如,两个目标用户之间直接存在支付行为,则两个目标用户不需要其他共同的中间用户做中转,对应传播跳度为1。若两个目标用户之间不具备直接的支付关系,但与其他同一用户均具有支付行为,通过该用户中转,两个目标用户存在间接支付关系,对应传播跳度为2,如此类推。本实施例中传播跳度具体可以是根据第二支付网络中连接在相应两个目标用户对应用户节点之间的有向边的最少数量计算得到。比如,在图4中,用户节点相对用户节点的传播跳度为3。
预设跳度值是预先设置的可将一个目标用户判定为另一个目标用户的相邻用户的传播跳度最大值。目标用户u的相邻用户v是指相对目标用户u的传播跳度小于或等于预设跳度值的目标用户。容易理解,当预设跳度值为1时,则第二支付网络中与目标用户u对应用户节点直接连接的用户节点对应目标用户为目标用户u的相邻用户v。比如,在图4中,用户节点对应目标用户即为用户节点对应目标用户直接相连的相邻用户。
上述实施例,根据传播跳度确定得到目标用户的相邻用户具有直接或间接支付关系,通过合理设置预设跳度值可以提高相邻用户与目标用户具有社交趋同性的置信程度,进而提高后续参考相邻用户的基础兴趣特征来挖掘目标用户的兴趣特征的准确性。
S206,计算目标用户与每个相邻用户的社交相似度。
其中,社交相似度是能够反映两个目标用户的社交行为的相似程度的数值。
具体地,服务器基于第二支付网络中获取目标用户u与传播跳度为1的相邻用户v基于每种支付关系的关联强度,对多个关联强度进行预设逻辑运算,并对运算结果进行归一化处理,将得到的归一化数值作为目标用户u与相邻用户v之间的社交相似度。预设逻辑运算可以是加权求和或加权求平均等。常用的归一化算法有函数法和概率密度法。其中,函数法,比如最大-最小函数、均值-方差函数或双曲sigmoid(S型生长曲线)函数等。值得注意的是,本实施例仅计算目标用户与传播跳度为1的相邻用户之间的社交相似度。
在一个实施例中,计算目标用户与每个相邻用户的社交相似度包括:提取不同目标用户基于每个支付网络层发生支付行为的第二支付特征;对第二支付特征进行归一化,得到相应支付网络层的社交相似特征;对多个支付网络层对应的社交相似特征进行融合,得到第二支付网络对应的社交相似特征;第二支付网络对应的社交相似特征记录了不同目标用户之间的社交相似度。
其中,基于某种支付网络层的第二支付特征是指目标用户之间是否发生基于相应支付关系的支付行为、发生基于相应支付关系的支付行为的次数或支付数值等方面的属性特征。第二支付特征的表现形式可以是向量或矩阵等。
归一化是将每个第二支付特征分别转换为标准形式,使每个第二支付特征的特征向量或特征矩阵处于同一空间维度范围内的数据处理过程。常用的归一化算法有函数法和概率密度法。其中,函数法,比如最大-最小函数、均值-方差函数或双曲sigmoid(S型生长曲线)函数等。
在一个实施例中,提取不同目标用户基于每个支付网络层发生支付行为的第二支付特征包括:根据不同目标用户基于每种支付关系的关联强度建立相应支付网络层对应的第三邻接矩阵,将第三邻接矩阵确定为不同目标用户基于每个支付网络层发生支付行为的第二支付特征。第三邻接矩阵是将多个用户标识排列成行,并将多个用户标识排列成列,将用户标识对应目标用户之间的关联强度作为矩阵元素的二维矩阵。第二支付网络中基于第x种支付关系的有向边对应的关联强度即为第三邻接矩阵Ax∈RN×N的矩阵元素其中,表示用户节点,表示用户节点,用户群Vc中目标用户的数量为N,1≤j≤N,1≤z≤N。
在一个实施例中,对第二支付特征进行归一化,得到相应支付网络层的社交相似特征包括:对第三邻接矩阵进行归一化,将得到的社交相似矩阵作为相应支付网络层的社交相似特征。
具体地,服务器对每个第三邻接矩阵Ax进行转置,得到对应转置矩阵AxT。服务器对转置矩阵AxT与第三邻接矩阵Ax进行加法运算,得到对称矩阵服务器对对称矩阵进行归一化处理,得到相应支付网络层对应的社交相似矩阵Wx。参考图5,图5示出了一个实施例中对第二支付特征进行归一化的流程示意图。图5展示了三种归一化处理方式:其中一种方式为服务器采用激活函数对对称矩阵进行非线性转换得到社交相似矩阵另一种方式为服务器采用激活函数sigmoid对对称矩阵进行非线性转换后,进一步采用对角矩阵对矩阵进行乘法运算,得到社交相似矩阵 有种方式为服务器采用激活函数sigmoid对对称矩阵进行非线性转换后,进一步采用对角矩阵对矩阵进行乘法运算,得到对称的社交相似矩阵容易理解,还可以采用其他方式基于第二支付矩阵计算得到相应支付网络层的社交相似特征,对此不作限定。
在一个实施例中,对多个支付网络层对应的社交相似特征进行融合,得到第二支付网络对应的社交相似特征包括:对多个支付网络层对应的社交相似矩阵进行融合,将融合得到的社交相似矩阵作为第二支付网络的社交相似特征。
进一步地,服务器对第二支付网络中每个支付网络层对应的社交相似矩阵进行融合,得到第二支付网络对应的综合的社交相似矩阵W=f(W1,W2,……,Wx)。其中,对社交相似矩阵进行融合的算法f(W1,W2,……,Wx)具体可采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等。或者,也可对多个社交相似特征的特征矩阵进行加权求和或者加权求平均,以将社交相似矩阵进行融合,得到第二支付网络整体对应的社交相似矩阵。第二支付网络对应的社交相似矩阵W的矩阵元素Wjz表示目标用户与目标用户之间的社交相似度。
在一个实施例中,当第二支付网络层包括两个支付网络层时,对多个支付网络层对应的社交相似特征进行融合包括:对两个支付网络层对应的社交相似矩阵进行加权求和;对两个支付网络层对应的社交相似矩阵进行叉乘运算;对加权求和结果W1+W2与叉乘运算结果W1°W2进行减法运算,得到第二支付网络的社交相似矩阵W=f(W1,W2)=W1+W2-W1°W2
上述实施例中,通过计算社交相似度,可以区分不同相邻用户的基础兴趣特征对挖掘目标用户的兴趣特征的参考价值,从而可以将相邻用户的基础兴趣特征有向有区分的传播至目标用户,有利于提高目标用户兴趣挖掘结果准确性。
S208,根据社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征。
其中,相似兴趣特征是基于“社交趋同的目标用户之间表现出行为和兴趣偏好相似”的原理,参考与目标用户社交趋同的相邻用户的基础兴趣特征,确定得到的目标用户的兴趣特征。相似兴趣特征的表现形式可以是向量或矩阵等。若社交趋同的相邻用户v只有一个,则该相邻用户v的基础兴趣特征hv即为相应目标用户u的相似兴趣特征若社交趋同的相邻用户v具有多个,形成相邻用户集合N(u),则服务器对多个相邻用户v∈N(u)})的基础兴趣特征hv进行融合,将融合结果AGG({hv,v∈N(u)})作为目标用户u的相似兴趣特征
具体地,服务器获取多个相邻用户的基础兴趣特征,对多个相邻用户v∈N(u)})的基础兴趣特征hv进行融合,得到目标用户u的相似兴趣特征其中,对多个相邻用户v∈N(u)})的基础兴趣特征hv进行融合的算法AGG({hv,v∈N(u)})具体可以采用基于贝叶斯决策理论的算法、基于稀疏表示理论的算法、基于深度学习理论算法,或对多个基础兴趣特征的特征向量进行加权求和或者加权求平均等。比如,或者其中,wuv为社交相似矩阵W的矩阵元素,表示目标用户u与相邻用户v之间的社交相似度。
S210,对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
其中,目标兴趣特征是根据目标用户自身的基础兴趣特征,并参考社交趋同的相邻用户的基础兴趣特征融合得到的相似兴趣特征,最终确定得到的目标用户的兴趣特征。
具体地,服务器对每个目标用户u的基础兴趣特征hu及相似兴趣特征进行融合,得到目标用户u的目标兴趣特征其中,对目标用户u的基础兴趣特征hu及相似兴趣特征进行融合的算法可以对多个基础兴趣特征hu的特征向量及相似兴趣特征的特征向量进行加权求和或者加权求平均,以将基础兴趣特征hu及相似兴趣特征进行融合,得到目标用户u的目标兴趣特征比如, 其中,α是相似兴趣特征对应的权重因子,β是基础兴趣特征hu对应的权重因子。通过对两个权重因子不断训练调整,可以提高该线性模型计算得到的目标兴趣特征的准确性。
在一个实施例中,服务器也可以基于深度学习理论算法预训练神经网络模型,通过将目标用户u的基础兴趣特征hu及相似兴趣特征输入预训练的神经网络模型进行融合。神经网络模型比如CNN(Convolutional Neural Network,卷积神经网络)模型、DNN(Deep Neural Network,深度神经网络)模型和RNN(Recurrent Neural Network,循环神经网络)模型等,也可以是多种神经网络模型的组合。
其中,卷积神经网络包括卷积层(Convolutional Layer)和池化层(PoolingLayer)。卷积神经网络模型有多种,比如VGG(Visual Geometry Group视觉集合组)网络模型或ResNet(能效评估系统)网络模型等。深度神经网络包括输入层、隐含层和输出层,层与层之间是全连接的关系。循环神经网络是一种对序列数据建模的神经网络,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。循环神经网络模型,比如LSTM(LongShort-Term Memory Neural Network,长短时记忆神经网络)模型。可以理解的是,对目标用户u的基础兴趣特征hu及相似兴趣特征进行融合的算法也可以采用基于贝叶斯决策理论的算法或基于稀疏表示理论的算法,对此不作限定。
在一个实施例中,上述用户兴趣挖掘方法还包括:获取支付记录,根据支付记录在用户群中筛选冷启动用户;在目标兴趣特征中提取每个冷启动用户对应的兴趣标签。
其中,冷启动用户是指在某种应用平台不存在行为数据的新用户或者行为数据较少的用户。行为数据具体可以是浏览行为、收藏行为或支付行为等的数据。
上述用户兴趣挖掘方法能够提取用户群中每个目标用户的目标兴趣特征。当期望获取其中冷启动用户的目标兴趣特征时,服务器可以仅筛选冷启动用户的目标兴趣特征进行输出。
上述用户兴趣挖掘方法,基于第一支付网络,可以确定每个目标用户的基础兴趣特征;基于第二支付网络,可以确定目标用户与至少一个相邻用户的社交相似度;根据社交相似度对多个相邻用户的基础兴趣特征进行融合,可以得到相应目标用户的相似兴趣特征;结合目标用户自身的基础兴趣特征以及相邻用户传播得到的相似兴趣特征,可以融合得到目标用户更加综合的目标兴趣特征。基于预先构建的由第一支付网络和第二支付网络组成的异构复杂网络,只要目标用户与其他用户之间存在社交行为即可通过该异构网络根据社交相似度将相邻用户的基础兴趣特征有区分的传播至目标用户,进而确定目标用户的目标兴趣特征,可以解决新用户冷启动和行为数据缺失引起的兴趣定向困难问题。
在一个实施例中,基于第一支付网络提取商户群与用户群之间发生支付行为的第一支付特征包括:计算第一支付网络中每个商户节点的热度值;提取用户群与热度值小于或等于第一热度阈值的商户群之间发生支付行为的第一支付特征。
其中,商户节点的热度值是反映相应商户受目标用户欢迎的程度的数值。
在一个实施例中,商户节点的热度值可以根据商户节点的入度计算得到的。商户节点的入度是指指向该商户节点的有向边的数量。比如,上述图3示出的第一支付网络中有5条指向商户节点的有向边,则商户节点的入度为5,对应热度值可以是5或者根据入度5计算得到的其他数值。
在一个实施例中,商户节点的热度值可以是根据与全部存在支付关系的目标用户之间的关联强度计算得到的。比如,上述图3示出的第一支付网络中商户节点与5个用户节点存在支付关系,该5个用户节点与商户节点的关联强度依次为0.82、0.5、0.25、0.48、0.93,则商户节点的热度值可以是0.82+0.5+0.25+0.48+0.93或(0.82+0.5+0.25+0.48+0.93)/5。
在一个实施例中,商户节点的热度值可以基于TF-IDF技术(Term Frequency–Inverse Document Frequency,一种用于信息检索与文本挖掘的加权技术)对第一支付记录中出现的商户标识进行词频统计得到的TF-IDF值。TF-IDF基于可以用于评估一商户标识对于第一支付记录的重要程度。TF-IDF值是TF(term frequency,词频)和IDF(inversedocument frequency,逆向文件频率)的乘积。其中,TF是指某一个商户标识在第一支付记录中出现的频率;IDF是一个商户标识普遍重要性的度量。一个商户标识的TF-IDF越大,表示该商户标识对不同目标用户的区分能力越强。
第一热度阈值是可将一个商户判定为热门商户的最大热度值。第一热度阈值可以是预先设置的固定值,也可以是根据当前第一支付网络中各个商户的热度值相对分部而动态生成的数值。热门商户是指第一支付网络中对应商户节点的热度值明显大于其他商户节点的热度值的商户。热门商户与用户群中多数目标用户均存在支付关系,从而热门商户对目标用户的覆盖范围明显超过其他商户。热门商户比如超市、移动电话服务商等。热门商户由于与用户群中多数目标用户均存在支付关系,从而对不同目标用户没有明显区分度。热门商户不仅对不同目标用户没有明显区分度,反而会稀释其他商户对目标用户的区分作用。
为了减少热门商户对用户兴趣的稀释,服务器对商户群中的热门商户进行过滤。具体地,服务器计算第一支付网络中每个商户节点的热度值,并筛选热度值小于或等于第一热度阈值的商户节点。服务器基于第一支付网络,提取筛选得到的热度值小于或等于第一热度阈值的商户节点对应的商户与用户群发生支付行为的第一支付特征。此时,第一支付特征对应的第一邻接矩阵B’是将多个筛选得到的商户标识排列成行,将多个用户标识排列成列,将用户标识对应目标用户与筛选得到的商户标识对应商户的关联强度为矩阵元素的二维矩阵。第一邻接矩阵B’∈RP×N,P为筛选得到的商户的数量,P≤M。
本实施例中,将热度值高的商户去除,仅提取第一支付网络中对目标用户的区分度高的商户与目标用户之间的第一支付特征,可以为了减少对目标用户区分度低的商户对第一支付特征的稀释,进而提高用户兴趣挖掘结果准确性。
在一个实施例中,上述用户兴趣挖掘方法还包括:计算基础兴趣特征中每个兴趣标签的热度值;通过删除热度值大于第二热度阈值的兴趣标签对基础兴趣特征进行重构。
其中,兴趣标签的热度值是反映从事该兴趣标签对应行业或者出售该兴趣标签对应类型产品的商户在商户群的分布密度的数值。兴趣标签的热度值可以是根据该兴趣标签的所关联的商户标识的数量计算得到的,也可以是基于TF-IDF技术对预先配置的多个兴趣标签进行词频统计得到的TF-IDF值。一个兴趣标签的TF-IDF越大,表示该兴趣标签对不同商户的区分能力越强。
第二热度阈值是预先设置的可将一个兴趣标签判定为热门标签的最大热度值。热门标签是指其热度值明显大于其他兴趣标签热度值的兴趣标签。热门标签与商户群中多数商户均存在关联关系,比如蔬菜、水果等。热门标签由于与商户群中多数商户均存在关联关系,从而对不同商户没有明显区分度。热门标签不仅对不同商户没有明显区分度,反而会稀释其他兴趣标签对商户的区分作用。
为了减少热门标签对用户兴趣的稀释,服务器对兴趣标签中的热门标签进行过滤。具体地,服务器计算每个兴趣标签的热度值,并筛选热度值小于或等于第二热度阈值的兴趣标签。服务器提取筛选得到的热度值小于或等于第二热度阈值的兴趣标签与商户群之间关联关系的商户兴趣特征。此时,商户兴趣特征对应的第二邻接矩阵C’是将多个筛选得到的商户标识排列成行,将多个筛选得到的兴趣标签排列成列,将筛选得到的商户标识对应商户与筛选得到的兴趣标签之间是否具有关联关系的表征值的二维矩阵。第二邻接矩阵C’∈RP×Q,Q为筛选得到的兴趣标签的数量,Q≤L。
进一步地,服务器对第一邻接矩阵B’进行转置,得到对应转置矩阵B‘T。服务器对转置矩阵B‘T与第二邻接矩阵C’进行乘法运算,得到综合邻接矩阵H’。综合邻接矩阵H’=B‘T·C’相对综合邻接矩阵H删除了热度值超过第二热度阈值的兴趣标签,实现对综合邻接矩阵H的重构。服务器根据综合邻接矩阵H’记录的多个目标用户的基础兴趣特征,按照上述方式挖掘目标用户的目标兴趣特征。
本实施例中,将热度值高的兴趣标签去除,仅根据对商户区分度高的兴趣标签提取商户兴趣特征,可以为了减少对商户区分度低的兴趣标签对商户兴趣特征的稀释,进而提高用户兴趣挖掘结果准确性。
在一个实施例中,根据社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征包括:按照传播跳度降序,将前一顺序用户节点对应的目标兴趣特征作为当前顺序用户节点对应的相似兴趣特征,对传播链路中每个用户节点进行迭代,直至得到传播跳度为一的用户节点所对应用户的目标兴趣特征;根据社交相似度对多个传播跳度为一的相邻用户的目标兴趣特征进行加权求平均,得到目标用户的相似兴趣特征。
当预设跳度值大于1时,可以将相邻用户从第二支付网络直接连接的用户节点拓展至多跳传播距离以外的用户节点,形成多跳(Multi-Hop)传播。在多跳传播中,经过y次迭代后得到目标用户的目标兴趣特征为则多跳传播公式如下:
其中,y为预设跳度值,可以理解为最远传播距离或迭代次数,可以依业务场景不同设置。在多跳传播中,每个传播跳度为预设跳度值的用户节点与相应目标用户所对应用户节点通过最少的有向边及其他用户节点连接形成一条传播链路。容易理解,传播链路上每个用户节点对应目标用户均为所指向目标用户的相邻用户。比如,若预设跳度值为2,则图4中相对用户节点传播跳度为2的用户节点通过用户节点及两条有向边形成一条指向用户节点的传播链路
在第二支付网络中,同一目标用户可能对应的多条传播链路,在基于多传播链路中每个相邻用户的基础兴趣特征挖掘目标用户的目标兴趣特征时,服务器按照传播跳度减小的方向对每条传播链路中多个相邻用户的用户节点依次进行遍历。具体地,服务器将一条传播链路中相对目标用户对应用户节点的传播跳度最大的一个用户节点作为当前顺序用户节点,基于第一支付网络获取当前顺序的用户节点的基础兴趣特征,并按照上述方式根据与当前顺序用户节点直接连接的相邻用户的基础兴趣特征确定当前顺序用户节点对应的相似兴趣特征,通过对当前顺序用户节点的基础兴趣特征和相似兴趣特征进行融合,得到当前顺序用户节点对应的目标兴趣特征。当前顺序用户节点作为下一顺序用户节点直接连接的相邻用户。
进一步地,服务器将下一顺序用户节点(即该传播链路中相对目标用户对应用户节点的传播跳度次大的一个用户节点)作为当前顺序用户节点,按照上述方式根据与当前顺序用户节点直接连接的相邻用户的基础兴趣特征确定当前顺序用户节点对应的相似兴趣特征。当直接连接的相邻用户为上一顺序用户节点时,根据上一顺序用户节点的目标兴趣特征确定当前顺序用户节点对应的相似兴趣特征。通过特征融合得到当前顺序用户节点对应的目标兴趣特征。如此迭代,直至传播链路中与目标用户对应用户节点的传播跳度为一的用户节点。当迭代结束时,可以得到基于不同传播链路与目标用户直接连接的每个相邻用户的目标兴趣特征。服务器根据目标用户与直接连接的相邻用户的社交相似度,对多个直接连接的相邻用户的目标兴趣特征进行加权求平均,将计算结果确定为目标用户的相似兴趣特征。
比如,若预设跳度值为2,在挖掘图4中用户节点对应目标用户的目标兴趣特征时,对应指向用户节点的传播链路有等。其中,对传播链路中各用户节点进行迭代时,首先根据与直接相连的相邻用户的基础兴趣特征确定的相似兴趣特征,通过将的基础兴趣特征以及相似兴趣特征融合,得到的目标兴趣特征。进一步通过将与接相连的相邻用户的基础兴趣特征以及的目标兴趣特征进行融合,得到的目标兴趣特征。
本实施例中,通过多跳传播可以基于更多相邻用户的基础兴趣特征预测目标用户的目标兴趣特征,提高兴趣挖掘结果准确性。
参考图6,图6示出了一个实施例中用户兴趣挖掘方法的流程示意图。如图6所示,上述用户兴趣挖掘方法主要包括以下三个执行步骤:(a)基于第一支付网络的兴趣传播;(b)第二支付网络中的社交相似度计算;(c)基于第二支付网络的兴趣传播。其中,基于第一支付网络的兴趣传播是基于输入的商户兴趣特征及第一支付网络,将商户对应的兴趣标签传播至目标用户,得到目标用户的基础兴趣特征;通过去除热门商户及热门兴趣标签对基础兴趣特征进行重构,得到重构后的基础兴趣特征。第二支付网络中的社交相似度计算是基于输入的第二支付网络提取目标用户之间基于不同支付关系的相似特征,通过特征融合,得到记录了不同目标用户之间社交相似度的社交相似特征。基于第二支付网络的兴趣传播是根据社交相似特征将目标用户的基础兴趣特征在第二支付网络中扩散,得到目标用户的相似兴趣特征,通过将目标用户自身的基础兴趣特征及相似兴趣特征进行融合,得到目标用户的目标兴趣特征。
在一个具体的应用场景中,上述用户兴趣挖掘方法可以勾画用户的目标兴趣特征,根据目标兴趣特征不仅可以辅助生成用户画像,还可以向用户进行信息精准推送,例如广告推送等。此外,目标兴趣特征还可以作为一组特征向量,作为训练样本或者分类标签对不同的机器学习模型进行训练。
参考图7,图7为一个具体的实施例中用户兴趣挖掘方法的流程示意图。如图7所示,该用户兴趣挖掘方法具体包括以下步骤:
S702,计算第一支付网络中每个商户节点的热度值。
S704,提取用户群与热度值符合预设条件的商户群之间发生支付行为的第一支付特征。
S706,获取热度值符合预设条件的商户群中每个商户的商户兴趣特征。
S708,对第一支付特征与商户兴趣特征进行融合,得到用户群中每个目标用户的基础兴趣特征。
S710,计算基础兴趣特征中每个兴趣标签的热度值。
S712,通过删除热度值不符合预设条件的兴趣标签对基础兴趣特征进行重构。
S714,获取第二支付网络;第二支付网络多个用户节点以及基于用户之间支付关系生成的连接在用户节点之间的有向边;根据有向边对应支付关系将第二支付网络区分为多个支付网络层。
S716,根据用户节点之间有向边的数量,计算不同用户节点相对目标用户所对应用户节点的传播跳度。
S718,将传播跳度小于或等于预设跳度值的每个用户节点所对应用户分别确定为目标用户的相邻用户。
S720,提取不同目标用户基于每个支付网络层发生支付行为的第二支付特征。
S722,对第二支付特征进行归一化,得到相应支付网络层的社交相似特征。
S724,对多个支付网络层对应的社交相似特征进行融合,得到第二支付网络对应的社交相似特征;第二支付网络对应的社交相似特征记录了不同目标用户之间的社交相似度。
S726,根据社交相似度对多个相邻用户的重构后的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;
S728,对目标用户的重构后的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
S730,获取支付记录,根据支付记录在用户群中筛选冷启动用户。
S732,在目标兴趣特征中提取每个冷启动用户对应的兴趣标签。
本实施例中,本专利主要是利用了第一支付网络将商户对应的兴趣标签传播给目标用户,同时还利用了第二支付网络中多个同构的支付网络层对目标用户进行兴趣反哺,即通过同构支付网络层之前用户互相传播得到最终的目标用户的目标兴趣特征。
图2、7为一个实施例中用户兴趣挖掘方法的流程示意图。应该理解的是,虽然图2、7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图8所示,在一个实施例中,提供了用户兴趣挖掘装置800,包括特征提取模块802、特征传播模块804和特征融合模块806,其中,
特征提取模块802,用于基于第一支付网络确定用户群中每个目标用户的基础兴趣特征。
特征传播模块804,用于在第二支付网络中确定用户群中每个目标用户的相邻用户;计算目标用户与每个相邻用户的社交相似度;根据社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征。
特征融合模块806,用于对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
在一个实施例中,如图9所示,用户兴趣挖掘装置800还包括第一支付网络构建模块808,用于获取第一支付记录;第一支付记录包括多个用户标识及多个商户标识;对第一支付记录进行解析,确定每个目标用户与不同商户之间的关联强度;以每个用户标识为一个用户节点,以每个商户标识为一个商户节点,以从用户节点指向相应商户节点的有向边进行节点连接,形成第一支付网络;将关联强度与第一支付网络中相应有向边关联。
在一个实施例中,特征提取模块802还用于根据每个目标用户与不同商户之间的关联强度建立第一邻接矩阵;根据商户群中每个商户与多个兴趣标签的关联关系建立第二邻接矩阵;对第一邻接矩阵与第二邻接矩阵进行融合,将融合得到的综合邻接矩阵确定为用户群的基础兴趣特征。
在一个实施例中,特征提取模块802还用于基于第一支付网络提取商户群与用户群发生支付行为的第一支付特征;获取商户群中每个商户的商户兴趣特征;对第一支付特征与商户兴趣特征进行融合,得到用户群中每个目标用户的基础兴趣特征。
在一个实施例中,特征提取模块802还用于计算第一支付网络中每个商户节点的热度值;提取用户群与热度值小于或等于第一热度阈值的商户群之间发生支付行为的第一支付特征。
在一个实施例中,用户兴趣挖掘装置800还包括特征重构模块810,用于计算基础兴趣特征中每个兴趣标签的热度值;通过删除热度值大于第二热度阈值的兴趣标签对基础兴趣特征进行重构。
在一个实施例中,用户兴趣挖掘装置800还包括第二支付网络构建模块812,用于获取第二支付记录;第二支付记录包括多个用户标识;对第二支付记录解析,确定不同目标用户基于不同支付关系的关联强度;以每个用户标识为一个用户节点,以不同支付关系为有向边建立每种支付关系对应的支付网络层,形成第二支付网络;将关联强度与第二支付网络相应有向边进行关联。
在一个实施例中,特征传播模块804还用于根据用户节点之间有向边的数量,计算不同用户节点相对目标用户所对应用户节点的传播跳度;将传播跳度小于或等于预设跳度值的每个用户节点所对应用户分别确定为目标用户的相邻用户。
在一个实施例中,特征传播模块804还用于提取不同目标用户基于每个支付网络层发生支付行为的第二支付特征;对第二支付特征进行归一化,得到相应支付网络层的社交相似特征;对多个支付网络层对应的社交相似特征进行融合,得到第二支付网络对应的社交相似特征;第二支付网络对应的社交相似特征记录了不同目标用户之间的社交相似度。
在一个实施例中,当预设跳度值大于一时,每个传播跳度为预设跳度值的用户节点与相应目标用户所对应用户节点通过有向边及其他用户节点连接形成一条传播链路;特征传播模块804还用于按照传播跳度降序,将前一顺序用户节点对应的目标兴趣特征作为当前顺序用户节点对应的相似兴趣特征,对传播链路中每个用户节点进行迭代,直至得到传播跳度为一的用户节点所对应用户的目标兴趣特征;根据社交相似度对多个传播跳度为一的相邻用户的目标兴趣特征进行加权求平均,得到目标用户的相似兴趣特征。
在一个实施例中,用户兴趣挖掘装置800还包括特征筛选模块814,用于获取支付记录,根据支付记录在用户群中筛选冷启动用户;在目标兴趣特征中提取每个冷启动用户对应的兴趣标签。
上述用户兴趣挖掘装置,基于第一支付网络,可以确定每个目标用户的基础兴趣特征;基于第二支付网络,可以确定目标用户与至少一个相邻用户的社交相似度;根据社交相似度对多个相邻用户的基础兴趣特征进行融合,可以得到相应目标用户的相似兴趣特征;结合目标用户自身的基础兴趣特征以及相邻用户传播得到的相似兴趣特征,可以融合得到目标用户更加综合的目标兴趣特征。基于预先构建的由第一支付网络和第二支付网络组成的异构复杂网络,只要目标用户与其他用户之间存在社交行为即可通过该异构网络根据社交相似度将相邻用户的基础兴趣特征有区分的传播至目标用户,进而确定目标用户的目标兴趣特征,可以解决新用户冷启动和行为数据缺失引起的兴趣定向困难问题。
图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现用户兴趣挖掘方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行用户兴趣挖掘方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的用户兴趣挖掘装置可以实现为一种计算机程序的形式,计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该用户兴趣挖掘装置的各个程序模块,比如,图8所示的特征提取模块、特征传播模块和特征融合模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的用户兴趣挖掘方法中的步骤。
例如,图10所示的计算机设备可以通过如图8所示的用户兴趣挖掘装置中的特征提取模块802执行步骤S202。计算机设备可通过特征传播模块804执行步骤S204-S208。计算机设备可通过特征融合模块806执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用户兴趣挖掘方法的步骤。此处用户兴趣挖掘方法的步骤可以是上述各个实施例的用户兴趣挖掘方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述用户兴趣挖掘方法的步骤。此处用户兴趣挖掘方法的步骤可以是上述各个实施例的用户兴趣挖掘方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种用户兴趣挖掘方法,包括:
基于第一支付网络确定用户群中每个目标用户的基础兴趣特征;
在第二支付网络中确定所述用户群中每个目标用户的相邻用户;
计算所述目标用户与每个相邻用户的社交相似度;
根据所述社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;
对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
2.根据权利要求1所述的方法,其特征在于,所述基于第一支付网络确定用户群中每个目标用户的基础兴趣特征之前,所述方法还包括:
获取第一支付记录;所述第一支付记录包括多个用户标识及多个商户标识;
对第一支付记录进行解析,确定每个目标用户与不同商户之间的关联强度;
以每个用户标识为一个用户节点,以每个商户标识为一个商户节点,以从用户节点指向相应商户节点的有向边进行节点连接,形成第一支付网络;
将所述关联强度与所述第一支付网络中相应有向边关联。
3.根据权利要求2所述的方法,其特征在于,所述基于第一支付网络确定用户群中每个目标用户的基础兴趣特征包括:
根据每个目标用户与不同商户之间的关联强度建立第一邻接矩阵;
根据商户群中每个商户与多个兴趣标签的关联关系建立第二邻接矩阵;
对所述第一邻接矩阵与所述第二邻接矩阵进行融合,将融合得到的综合邻接矩阵确定为用户群的基础兴趣特征。
4.根据权利要求1所述的方法,其特征在于,所述基于第一支付网络确定用户群中每个目标用户的基础兴趣特征包括:
基于第一支付网络提取商户群与用户群发生支付行为的第一支付特征;
获取所述商户群中每个商户的商户兴趣特征;
对所述第一支付特征与所述商户兴趣特征进行融合,得到用户群中每个目标用户的基础兴趣特征。
5.根据权利要求4所述的方法,其特征在于,所述基于第一支付网络提取商户群与用户群之间发生支付行为的第一支付特征包括:
计算第一支付网络中每个商户节点的热度值;
提取用户群与所述热度值小于或等于第一热度阈值的商户群之间发生支付行为的第一支付特征。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
计算所述基础兴趣特征中每个兴趣标签的热度值;
通过删除热度值大于第二热度阈值的兴趣标签对基础兴趣特征进行重构。
7.根据权利要求1所述的方法,其特征在于,所述在第二支付网络中确定所述用户群中每个目标用户的相邻用户之前,所述方法还包括:
获取第二支付记录;所述第二支付记录包括多个用户标识;
对第二支付记录解析,确定不同目标用户基于不同支付关系的关联强度;
以每个用户标识为一个用户节点,以不同支付关系为有向边建立每种支付关系对应的支付网络层,形成第二支付网络;
将关联强度与所述第二支付网络相应有向边进行关联。
8.根据权利要求7所述的方法,其特征在于,所述在第二支付网络中确定所述用户群中每个目标用户的相邻用户包括:
根据用户节点之间有向边的数量,计算不同用户节点相对所述目标用户所对应用户节点的传播跳度;
将所述传播跳度小于或等于预设跳度值的每个用户节点所对应用户分别确定为所述目标用户的相邻用户。
9.根据权利要求7所述的方法,其特征在于,所述计算所述目标用户与每个相邻用户的社交相似度包括:
提取不同目标用户基于每个支付网络层发生支付行为的第二支付特征;
对所述第二支付特征进行归一化,得到相应支付网络层的社交相似特征;
对多个支付网络层对应的社交相似特征进行融合,得到所述第二支付网络对应的社交相似特征;所述第二支付网络对应的社交相似特征记录了不同目标用户之间的社交相似度。
10.根据权利要求8所述的方法,其特征在于,当预设跳度值大于一时,每个所述传播跳度为预设跳度值的用户节点与相应目标用户所对应用户节点通过有向边及其他用户节点连接形成一条传播链路;所述根据社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征包括:
按照所述传播跳度降序,将前一顺序用户节点对应的目标兴趣特征作为当前顺序用户节点对应的相似兴趣特征,对所述传播链路中每个用户节点进行迭代,直至得到所述传播跳度为一的用户节点所对应用户的目标兴趣特征;
根据所述社交相似度对多个传播跳度为一的相邻用户的目标兴趣特征进行加权求平均,得到所述目标用户的相似兴趣特征。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取支付记录,根据所述支付记录在所述用户群中筛选冷启动用户;
在所述目标兴趣特征中提取每个冷启动用户对应的兴趣标签。
12.一种用户兴趣挖掘装置,其特征在于,所述装置包括:
特征提取模块,用于基于第一支付网络确定用户群中每个目标用户的基础兴趣特征;
特征传播模块,用于在第二支付网络中确定所述用户群中每个目标用户的相邻用户;计算所述目标用户与每个相邻用户的社交相似度;根据所述社交相似度对多个相邻用户的基础兴趣特征进行融合,得到相应目标用户的相似兴趣特征;
特征融合模块,用于对目标用户的基础兴趣特征及相似兴趣特征进行融合,得到目标兴趣特征。
13.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201910516781.2A 2019-06-14 2019-06-14 用户兴趣挖掘方法、装置、存储介质和计算机设备 Active CN110413897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516781.2A CN110413897B (zh) 2019-06-14 2019-06-14 用户兴趣挖掘方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516781.2A CN110413897B (zh) 2019-06-14 2019-06-14 用户兴趣挖掘方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110413897A true CN110413897A (zh) 2019-11-05
CN110413897B CN110413897B (zh) 2023-10-27

Family

ID=68359074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516781.2A Active CN110413897B (zh) 2019-06-14 2019-06-14 用户兴趣挖掘方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110413897B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325258A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111444368A (zh) * 2020-03-25 2020-07-24 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN112650862A (zh) * 2020-12-10 2021-04-13 北京爱笔科技有限公司 兴趣网络的构建方法、装置、电子设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN105141508A (zh) * 2015-09-10 2015-12-09 天津师范大学 一种基于近邻关系的微博系统朋友推荐方法
CN107146112A (zh) * 2017-05-16 2017-09-08 西华大学 一种移动互联网广告投放方法
CN108154425A (zh) * 2018-01-19 2018-06-12 广州天源信息科技股份有限公司 一种结合社会网络和位置的线下商户推荐方法
CN109345348A (zh) * 2018-09-30 2019-02-15 重庆誉存大数据科技有限公司 基于旅行社用户的多维信息画像的推荐方法
CN109726336A (zh) * 2018-12-21 2019-05-07 长安大学 一种结合出行兴趣与社交偏好的poi推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013157705A1 (ko) * 2012-04-17 2013-10-24 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN105141508A (zh) * 2015-09-10 2015-12-09 天津师范大学 一种基于近邻关系的微博系统朋友推荐方法
CN107146112A (zh) * 2017-05-16 2017-09-08 西华大学 一种移动互联网广告投放方法
CN108154425A (zh) * 2018-01-19 2018-06-12 广州天源信息科技股份有限公司 一种结合社会网络和位置的线下商户推荐方法
CN109345348A (zh) * 2018-09-30 2019-02-15 重庆誉存大数据科技有限公司 基于旅行社用户的多维信息画像的推荐方法
CN109726336A (zh) * 2018-12-21 2019-05-07 长安大学 一种结合出行兴趣与社交偏好的poi推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄贤英等: "融合兴趣的微博用户相似度计算研究", 《计算机应用研究》, vol. 37, no. 1, pages 66 - 70 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325258A (zh) * 2020-02-14 2020-06-23 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111325258B (zh) * 2020-02-14 2023-10-24 腾讯科技(深圳)有限公司 特征信息获取方法、装置、设备及存储介质
CN111444368A (zh) * 2020-03-25 2020-07-24 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN111444368B (zh) * 2020-03-25 2023-01-17 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN112650862A (zh) * 2020-12-10 2021-04-13 北京爱笔科技有限公司 兴趣网络的构建方法、装置、电子设备及计算机存储介质
CN112650862B (zh) * 2020-12-10 2024-02-02 北京爱笔科技有限公司 兴趣网络的构建方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN110413897B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
TWI709086B (zh) 用於分析關係網路圖的神經網路系統和方法
Yang et al. Social media data analytics for business decision making system to competitive analysis
Dahiya et al. Customer churn analysis in telecom industry
WO2019114434A1 (zh) 一种基于图结构模型的交易风险控制方法、装置以及设备
US8843431B2 (en) Social network analysis for churn prediction
Letizia et al. Corporate payments networks and credit risk rating
CN110413897A (zh) 用户兴趣挖掘方法、装置、存储介质和计算机设备
Paul et al. A quantitative and simulation model for managing sudden supply delay with fuzzy demand and safety stock
CN109102393A (zh) 训练和使用关系网络嵌入模型的方法及装置
CN109829733A (zh) 一种基于购物行为序列数据的虚假评论检测系统和方法
Calzada-Infante et al. Evaluation of customer behavior with temporal centrality metrics for churn prediction of prepaid contracts
CN112989059A (zh) 潜在客户识别方法及装置、设备及可读计算机存储介质
CN105913235A (zh) 一种客户转账关系分析方法及系统
CN110490274A (zh) 评估交互事件的方法及装置
Fujiwara et al. Money flow network among firms’ accounts in a regional bank of Japan
US20050203838A1 (en) Method for automatic community model generation based on uni-parity data
Khder et al. The impact of implementing data mining in business intelligence
CN108776857A (zh) Nps短信调研方法、系统、计算机设备和存储介质
CN112837078B (zh) 一种基于集群的用户异常行为检测方法
CN111275480B (zh) 面向多维稀疏销售数据仓库的欺诈行为挖掘方法
Aoyama et al. Cryptoasset networks: Flows and regular players in Bitcoin and XRP
Ben Enhanced Churn Prediction in the Telecommunication Industry
Shrivastava et al. Literature review on tools & applications of data mining
Xu et al. A-cure: An accurate information reconstruction from inaccurate data sources
Yoshi et al. Money flow network among firms’ accounts in a regional bank of japan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant