CN107464132A - 一种相似用户挖掘方法及装置,电子设备 - Google Patents
一种相似用户挖掘方法及装置,电子设备 Download PDFInfo
- Publication number
- CN107464132A CN107464132A CN201710538214.8A CN201710538214A CN107464132A CN 107464132 A CN107464132 A CN 107464132A CN 201710538214 A CN201710538214 A CN 201710538214A CN 107464132 A CN107464132 A CN 107464132A
- Authority
- CN
- China
- Prior art keywords
- user
- entity
- occurrence
- cooccurrence relation
- relation data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种相似用户挖掘方法,属于计算机技术领域,解决了现有技术中存在的确定的相似用户准确率较低的问题。所述方法包括:基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种相似用户挖掘方法及装置,电子设备。
背景技术
基于用户之间的相似度向用户推送各种信息或产品、服务,已经是网络引用中比较常见的提高用户体验的一种方式。因此,挖掘相似用户的方法逐渐成为互联网应用的一个重要课题。目前常规的相似用户挖掘的方法是根据一些统计指标确定用户之间的相似度。例如:将用户购买某类商品的次数、浏览某类商品的次数、用户出现在某个地方的次数等等作为统计指标;然后,将这些统计指标放到一起,作为描述该用户的特征向量;最后,利用这些特征向量之间的距离,作为用户相似性的度量的依据,距离越近,用户之间的相似度越高。但是,由于现有方案中,用户的特征向量基于预设的统计指标提取,因此统计指标直接影响特征向量对用户描述的准确性。而设计出准确描述用户特征的统计指标非常困难,所以,采用现有技术中的相似度度量方法会导致确定的相似用户准确率较低。
可见,现有技术中的相似度度量方法过于依赖认为经验设计的统计指标,从而导致确定的相似用户准确率较低。
发明内容
本申请提供一种相似用户挖掘方法,解决现有技术中存在的确定的相似用户准确率较低的问题。
为了解决上述问题,第一方面,本申请实施例提供了一种相似用户挖掘方法包括:
基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;
获取所述共现关系数据中所有用户的最优特征向量;
根据用户的最优特征向量之间的相似度距离,挖掘相似用户。
第二方面,本申请实施例提供了一种相似用户挖掘装置,包括:
共现关系数据获取模块,用于基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;
特征向量获取模块,用于获取所述共现关系数据中所有用户的最优特征向量;
相似用户挖掘模块,用于根据所述特征向量获取模块获取的用户的最优特征向量之间的相似度距离,挖掘相似用户。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的相似用户挖掘方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的相似用户挖掘方法的步骤。
本申请实施例公开的相似用户挖掘方法,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确率较低的问题。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的相似用户挖掘方法流程图;
图2是本申请实施例二的相似用户挖掘方法一个步骤的流程图;
图3是本申请实施例二的相似用户挖掘方法另一个步骤的流程图;
图4是本申请实施例三的相似用户挖掘装置结构示意图之一;
图5是本申请实施例三的相似用户挖掘装置结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例公开的一种相似用户挖掘方法,如图1所示,该方法包括:步骤100至步骤120。
步骤100,基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户。
本申请实施例中所述的实体是指用户的线上线下行为关联的主体,至少包括用户,还可以包括以下任意一项或多项:商家、地理位置、WIFI地址、IP地址、产品等。
本申请实施例中所述的共现关系是指根据业务需求确定的实体之间的一种关联关系。例如,用户A和用户B同时进入商家甲,则认为:用户A和用户B共现、用户A和商家甲共现、用户B和商家甲共现。再例如,用户A和用户B都连接过WIFI地址1,则认为:用户A和WIFI地址1共现、用户B和WIFI地址1共现。再例如,用户A从未访问过商家乙,则认为:用户A和商家甲不共现。
随着互联网技术的发展,各种应用的后台服务器都会搜集和存储用户的行为日志,用于数据分析,便于给用户提供更好的服务。用户行为日志包括用户浏览网页、点击页面的商品、切换页面、购买产品、浏览商家、连接商家WIFI等行为的日志。具体实施时,通过访问后台数据服务器可以或渠道用户行为日志,根据获取的用户行为日志可以得到平台上所有实体之间的共现关系数据。本申请中,仅关注用户和包括用户在内的其他实体之间的共现关系数据。
共现关系数据至少包括:用户和与该用户共现的实体的关联关系;所述共现关系数据还包括:用户和与该用户不共现的实体的关联关系。具体实施时,可以建立一个用户与包括用户在内的其他实体的关联关系表,所述关联关系表中的每个条目用于记录某一用户共现的实体或某一用户不共现的实体。
步骤110,获取所述共现关系数据中所有用户的最优特征向量。
通过一个多维的特征向量表征实体的特征是现有技术中比较常见的做法,但是特征向量的获取策略直接决定了获取的特征向量对实体特征表达的准确性。本申请具体实施时,通过实体的特征向量之间的距离构建共现概率模型,然后,通过求解基于所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。
首先,为所述共现关系数据中的每个实体初始化一个多维特征向量。例如:用户、商家等初始化一个50维特征向量,向量取值为随机数。然后,通过数值优化方法,不断调整各实体的特征向量的取值,以求解所述数值优化问题。满足所述数值优化问题的各实体的特征向量为最优特征向量。所述特征向量的维度数量的最佳取值根据相似度评估的效果最终确定,通常用户数目越多,特征维度的数量越多。具体实施时,特征维度的数量可以取40~1000之间的某个整数。
步骤120,根据用户的最优特征向量之间的相似度距离,挖掘相似用户。
确定所述共现关系数据中每个实体的最优特征向量之后,分别计算每个用户和其他用户的特征向量之间的相似度距离,并选择相似度距离小于某个给定阈值的用户对作为相似用户。具体实施时,所述给定阈值根据任务需要设定,如果需要得到高质量的相似用户,可以设置一个较小的阈值;如果需要得到更多的相似用户,可以设置一个较大的阈值。
本实施例公开的相似用户挖掘方法,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确率较低的问题。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。
实施例二
基于实施例一,本实施例公开的一种相似用户挖掘方法中,如图2所示,所述基于用户行为日志,获取用户和预设实体的共现关系数据,包括子步骤101和子步骤102。
子步骤101,基于用户行为日志,针对每个用户,构建共现关系数据,所述共现关系数据包括:用户和与该用户共现的预设实体的关联关系。
具体实施时,所述预设实体至少包括:不同于所述用户的其他用户,还包括以下任意一项或多项:店铺、WIFI地址、地理位置、IP地址、产品。共现关系数据至少包括:用户和与该用户共现的预设实体的关联关系。具体实施时,可以建立一个用户与包括用户在内的其他实体的关联关系表,所述关联关系表中每个条目用于记录某一用户共现的实体或某一用户不共现的实体。具体实施时,可以通过对用户日志进行分析提取其中的实体,然后将一条用户行为日志中出现的多个实体分别建立两两关联关系,得到多条共现关系数据,并设置共现标签,如“+1”。
具体实施时,若用户123和用户234浏览过同一店铺113,则确定用户123和用户234共现、用户123和店铺113共现、用户234和店铺113共现;若用户234浏览过店铺113,则确定用户234和店铺113共现;若用户345连接过WIFI531,则确定用户345和WIFI531共现;若用户456的定位信息中显示曾位于地理位置324,则确定用户456和地理位置324共现;若用户567浏览过店铺114,则确定用户567和店铺114共现。所述关联关系表如表1所示。
表1,用户和与该用户共现的预设实体的关联关系表
表1中的数据仅是基于用户行为日志,针对每个用户,构建共现关系数据的一个例子,具体实施时,根据用户行为日志构建的共现关系数据会有数万条,涉及的实体也会有很多,此处不再一一例举。
子步骤102,分别建立每条所述共现关系数据对应的多条补充数据。
所述共现关系数据还包括:用户和与该用户不共现的实体。所述补充数据包括:对应共现关系数据中的用户和与该用户不共现的预设实体的关联关系。所述预设实体至少包括不同于所述用户的其他用户。具体实施时,可以对于每条共现关系数据中的用户实体,假设该条共现关系数据为:用户A与店铺甲的关联关系,用户A与店铺甲共现,则可以在用户行为日志中查找与用户A不共现的店铺乙、店铺丙等,即与用户A不共现且与店铺甲同类型的实体,并建立用户A与查找到的不共现店铺,如店铺乙、店铺丙等的关联关系。
以表1中的数据共现关系数据为例,对于第一条共现关系数据,即用户123和用户234共现的关联关系数据,基于表1中的其他数据,另外生成多条(如2条)补充数据,以便于丰富样本,提高特征提取的准确性。根据表1中的数据可知,实体包括:用户123、用户234、用户345、用户456、店铺113、WIFI531和地理位置324。针对第一条共现关系数据,与用户123不共现的实体包括:用户345、用户456、WIFI531和地理位置324,其中,与用户234类型相同的实体,即同为用户的实体包括:用户345和用户456,因此,根据表1可以生成用户123的2条补充共现关系数据如表2所示。对于与用户不共现的实体,共现关系数据的标签设置为“-1”。
用户 | 实体 | 标签 |
用户123 | 用户234 | +1 |
用户123 | 用户345 | -1 |
用户123 | 用户456 | -1 |
表2,表1中第1条共现关系数据的补充数据
具体实施时,优选的,可以按照共现关系类型为用户与包括用户在内的预设实体的共现关系设置相应的权重,以区分后续不同实体在确定用户特征向量时的权重。具体实施时,所述共现关系类型可以包括:用户购买过的店铺、用户浏览过但未购买过的店铺、用户使用过WIFI地址、用户到达过地理位置、用户使用过IP地址等。例如,可以为用户与购买过的店铺的共现关系设置较大权重值,如0.5,为用户只浏览而没有购买的店铺设置略小权重值,如0.3等。对于每条共现关系数据,相应设置有权重,每条共现关系数据的权重与该条共现关系数据所属共现关系类型相对应。例如,对于表1中的第1条共现关系,其权重设置为0.5,即这两个用户同时购买过同一个店铺的产品;对于表1中的第2条共现关系,其权重设置为0.3,即用户仅浏览过该店铺并没有购买过该店铺的产品。
具体实施时,不同共现关系对应的权重,可以根据先验知识人为设定,对重要的关联实体赋予较大的权重。也可以根据与该实体共现的用户数目计算得到该实体的权重。例如和某个店铺有共现关系的用户很多,则用户与该店铺的共现关系权重会比较低,反之如果与某个店铺共现的用户比较少,那么与该店铺的共现关系权重会较大。例如通过公式w=exp(-n),得到某一实体的权重w,其中,n为与该实体共现的用户数目。
设置有权重的共现关系输入如表3所示。
表3,设置实体权重的共现关系数据
表3中标签为“+1”的共现关系数据表示该条数据中的两个实体共现,标签为“-1”的共现关系数据表示该条数据中的两个实体不共现。对于与用户共现的一类实体,其共现关系数据的权重等于该类型实体的权重。
由表3可以看出,每一个用户作为一个实体,可以与多类实体具有共现关系,如用户A和用户B共现用户A和店铺甲共现等。本申请在确定用户的最优特征向量时,优化目标不是针对某一个用户去优化,而是针对所有用户去优化。可以准确的判断用户之间的关系。
获取到设置有共现标签和不共现标签的共现关系数据之后,根据该共现关系数据,采用预设策略可以提取该共现关系数据中每个实体的最优特征向量。
在本申请的另一具体实施例中,如图3所示,获取所述共现关系数据中所有用户的最优特征向量包括:子步骤111至子步骤113。
子步骤111,通过隐向量初始化所述共现关系数据中包括的用户和预设实体的特征向量。
本申请中通过多维的特征向量表征实体的特征,特征向量的提取方式与现有技术中不同,通过不断对特征向量取值进行数值优化,求解基于相似距离设置的数值优化问题,得到最优特征向量。具体实施时,首先为所述共现关系数据中的每个实体初始化一个多维特征向量。为每个实体随机赋予的多维向量,称作隐向量。例如:用户、商家等初始化一个50维特征向量,向量取值为随机数。具体实施时,特征向量的初始值是随机数,最优特征向量取值通过后续步骤优化得到,特征向量每个维度的具体取值没有实际意义,特征向量之间的距离具有实际意义,用来衡量实体之间的相似度。具体实施时,可以用服从标准正态分布的随机数来初始化实体的特征向量的每一维度的数值。例如,为用户123初始化一个50维的特征向量,表示为:u123={1.081,-0.861,2.037,-0.463,-1.048.0.010,…,1.571,-0.267}。
子步骤112,基于所述共现关系数据中包括的实体对的特征向量之间的距离,构建共现概率模型。
其中,所述实体对是每条共现关系数据中的用户和预设实体的组合。
具体实施时,共现关系数据中的每条数据中的用户和与该用户存在关联关系的实体构成一个实体对,如(u,e),其中,u用于表示用户,e用于表示与用户u关联的实体,u可以与e共现,也可以与e不共现。对于共现关系数据中的每条数据,即每个实体对对应的数据,定义以下属性变量:f(ui)用于表示第i条共现关系数据(即第i个实体对)中用户的特征向量;f(ei)用于表示第i条共现关系数据(即第i个实体对)中另一实体的特征向量;yi用于表示第i条共现关系数据的共现关系标签,其中,若yi=+1表示该条共现关系数据中的用户ui与实体ei共现,若yi=-1,表示该条共现关系数据中的用户ui与实体ei不共现。其中,实体ei可以为用户、商家、地理位置等预设实体。
对于共现关系数据中的每条数据,还需要定义属性变量Wi用于表示该条共现关系数据的权重。例如,若第i条共现关系数据为用户234购买过店铺113的商品,则可以将第i条共现关系数据的权重设置为0.5,即Wi=0.5。
然后,基于实体的特征向量之间的距离对实体的共现概率建模。具体实施时,可以采用欧式距离表示特征向量之间的距离。则用户和与其共现的实体,即共现实体对的共现概率表示为:
P(+1|(ui,ei))=exp(-||f(ui)-f(ei)||2),其中,P(+1|(ui,ei))表示当第i条用户关系数据中的实体对——用户ui和与实体ei共现时,该实体对(ui,ei)的共现概率,||f(u)-f(e)||表示用户u和实体e的特征向量之间的距离。
用户和与其不共现的实体,即不共现实体对的不共现概率表示为:
P(-1|(ui,ei))=1-exp(-||f(ui)-f(ei)||2),其中,P(-1|(ui,ei))表示当第i条用户关系数据中的实体对——用户ui和与实体ei不共现时,该实体对(ui,ei)的不共现概率,||f(u)-f(e)||表示用户u和实体e的特征向量之间的距离。
由上述公式可以看出,实体的特征越相似,特征向量之间的距离越小,共现概率越大,不共现概率越小。反之,实体的特征差别越大,特征向量之间的距离越大,共现概率越小,不共现概率越大。
具体实施时,共现概率和不共现概率还可以通过其他距离计算方法获得,此处不再一一例举。
子步骤113,求解根据所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。
最后,通过数值优化方法求解用户和实体最优特征向量,使得共现概率拟合前述共现关系数据。所述数值优化问题的目标包括:寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现。
具体实施时,首先根据前述共现概率模型设置如下数值优化问题:
其中,ui表示第i条共现关系数据(即第i个实体对)中的用户;ei表示第i条共现关系数据(即第i个实体对)中的另一实体;yi表示第i条共现关系数据的共现关系标签;P(yi|(ui,ei))表示第i条共现关系数据(即第i个实体对)的共现概率或不共现概率,所述实体ei可以为用户类型、商家类型、地理位置类型等预设实体。具体实施时,可以通过极大似然估计方法,求解上述优化问题,得到最优特征向量。求解上述优化问题的过程就是提取最优f(u)和f(e)的过程。
当仅通过yi=1的共现关系数据求解上述数值优化问题时,求解上述优化问题的过程,实际是寻找实体对的最优特征向量,使得按照预设策略(如公式计算的共现的实体对的共现概率的乘积最大的过程。即寻找实体对的最优特征向量,使得共现的用户和所述预设实体的特征向量之间距离较小。具体实施时,为了提高提取的特征向量的准确性,通常综合考虑共现实体和不共现实体的数据,即通过yi=1和yi=-1的所有共现关系数据求解上述数值优化问题。通过yi=1和yi=-1的所有共现关系数据求解上述数值优化问题的过程,实际上是寻找实体对的最优特征向量,使得按照预设策略(如公式)计算的共现实体对的共现概率与不共现实体对的不共现概率的乘积最大的过程。即寻找实体对的最优特征向量,使得共现的用户ui和所述预设实体ei的特征向量之间距离较小,且不共现的用户ui和所述预设实体ei的特征向量之间距离较大。
在本申请的另一个实施例中,为了体现不同类型的共现关系在确定特征向量时的重要性,为不同类型的共现关系设置了相应的权重。因此,为了体现不同类型的共现关系在确定特征向量时的重要性,所述数值优化问题的目标包括:寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的加权联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现,所述加权联合概率的加权值为各事件对应的共现关系类型的权重。具体实施时,根据共现概率模型可以设置如下数值优化问题:
其中,ui表示第i条共现关系数据(即第i个实体对)中的用户;ei表示第i条共现关系数据(即第i个实体对)中的另一实体;yi表示第i条共现关系数据的共现关系标签;P(yi|(ui,ei))表示第i条共现关系数据(即第i个实体对)的共现概率或不共现概率,所述实体ei可以为用户类型、商家类型、地理位置类型等预设实体;wi表示第条共现关系数据的权重。具体实施时,数值优化方法参见求解前述数值优化问题的方法,此处不再赘述。求解上述优化问题的过程就是提取最优ui和eij的过程。
当仅通过yi=1的共现关系数据求解上述数值优化问题时,求解上述优化问题的过程,实际是寻找实体对的最优特征向量,使得按照预设策略(如公式)计算的加权共现概率的乘积最大的过程。即寻找实体对的最优特征向量,使得共现的用户和所述预设实体的特征向量之间加权距离较小。具体实施时,为了提高提取的特征向量的准确性,通常综合考虑共现实体和不共现实体的数据,即通过yi=1和yi=-1的所有共现关系数据求解上述数值优化问题,即计算加权联合概率最大值。通过yi=1和yi=-1的所有共现关系数据求解上述数值优化问题的过程,实际上是寻找实体对的最优特征向量,使得按照预设策略(如公式)计算的加权共现概率与加权不共现概率的乘积最大的过程。即计算加权联合概率最大值的过程,寻找实体对的最优特征向量,使得共现的用户和所述预设实体的特征向量之间加权距离较小,且不共现的用户和所述预设实体的特征向量之间距离较大。
其中,所述加权联合概率的加权值为各事件(即每条共现关系数据)对应的共现关系类型的权重。
利用数值优化方法寻找用户和实体的最优特征向量,使得上述共现概率尽可能地拟合基于用户行为日志,获取用户和预设实体的共现关系数据得到的扩展数据集,使得共现的实体之间的特征向量的距离较小,而不共现的实体之间的特征向量的距离较大。
具体实施时,可以通过极大似然估计,最小化负对数似然函数,即将每个实体对(即每一条共现关系数据中的用户和预设实体)的共现概率或不共现概率取对数,再取负,最后再对所有负对数求和,就是负对数似然函数。如果每一条共现关系数据有权重,则通过极大似然估计,最小化加权负对数似然函数。通过数值优化的方法求解上述数值优化问题的具体方案可以参见现有的数值优化技术。
具体实施时,还可以通过梯度下降相关变量的算法,向上述目标函数减小的方向调整用户和实体向量。通过数值优化算法求解上述数值优化问题的具体方案可参见现有技术,此处不再赘述。
经过前面两个步骤,我们得到了用户和实体的特征向量,可以进一步根据用户的最优特征向量之间的相似度距离,挖掘相似用户。
例如,确定所述共现关系数据中每个实体的最优特征向量之后,分别计算每个用户和其他用户的特征向量之间的相似度距离,并选择相似度距离最小的两个用户作为相似用户。具体实施时,可以通过欧氏距离度量用户向量之间的相似度,如:d(ui,uj)=||f(ui)-f(uj)||,其中,f(ui)和f(uj)分别表示用户ui和用户uj的特征向量,d(ui,uj)表示用户ui和用户uj的相似度距离,d(ui,uj)越小,说明用户ui和用户uj相似度越高。
然后,选出距离小于预设距离阈值dmax的用户,作为相似用户。具体实施时dmax需要根据业务需要进行调整。当需要召回较多的相似用户时,则距离阈值dmax取值可以大一些;反之则取小一些。距离最小的那个用户就是最优的用户,即最相似的用户。实际应用中通常会需要小于某个阈值的用户以及他们的相似度,我们把这个距离作为相似度的度量。
本实施例公开的相似用户挖掘方法,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确率较低的问题。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。
通过以隐向量初始化各实体的特征向量,并采用数值优化方法求解基于特征向量之间的距离设置的数值优化问题,使得求解得到的实体的特征向量最大程度拟合基于用户行为日志提取的共现关系数据,共现的实体特征相量之间的距离较小,不共现的实体特征相量之间的距离较大,从而得到个实体的最优特征向量。提升了用户相似度判断的准确性。例如,两个没有共同购买过相同商品的用户,通过现有技术中的相似度度量方式,会被确定为相识度很低,但是如果这两个用户拥有共同的相似人群,那么这两个用户相似度其实并不那么低。对于这种情况,基于现有技术中人工设计的统计指标提取特征向量的方法不能准确评估用户的相似度,而通过本申请实施例公开的相似用户挖掘方法则可以准确评估用户的相似度。
通过对不同的实体设置相应的权重,充分体现不同实体类型对用户共现关系中的重要程度,进一步符合业务需求,改善用户体验。
实施例三
本实施例公开的一种相似用户挖掘装置,如图4所示,所述装置包括:
共现关系数据获取模块400,用于基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;
特征向量获取模块410,用于获取所述共现关系数据中所有用户的最优特征向量;
相似用户挖掘模块420,用于根据所述特征向量获取模块410获取的用户的最优特征向量之间的相似度距离,挖掘相似用户。
本申请实施例中所述的实体是指用户的线上线下行为关联的主体,至少包括用户,还可以包括以下任意一项或多项:商家、地理位置、WIFI地址、IP地址、产品等。
本申请实施例中所述的共现关系是指根据业务需求确定的实体之间的一种关联关系。
可选的,如图5所示,所述特征向量获取模块410包括:
向量初始化单元4101,用于通过隐向量初始化所述共现关系数据中包括的用户和预设实体的特征向量;
建模单元4102,用于基于所述共现关系数据中包括的实体对的特征向量之间的距离,构建共现概率模型;其中,所述实体对是每条共现关系数据中的用户和预设实体的组合。
数值优化单元4103,用户求解根据所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。
可选的,所述数值优化问题的目标包括:
寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现。
可选的,所述共现关系数据还包括:与共现关系类型对应的权重,所述数值优化问题的目标还包括:
寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的加权联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现所述加权联合概率的加权值为各事件对应的共现关系类型的权重。
可选的,如图5所示,所述共现关系数据获取模块400包括:
第一数据获取单元4001,用于基于用户行为日志,针对每个用户,构建共现关系数据,所述共现关系数据包括:用户和与该用户共现的预设实体的关联关系;
第二数据获取单元4002,用于分别建立每条所述共现关系数据对应的多条补充数据,其中,所述补充数据包括:对应共现关系数据中的用户和与该用户不共现的预设实体的关联关系。
本实施例公开的相似用户挖掘装置,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确率较低的问题。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。
通过以隐向量初始化各实体的特征向量,并采用数据优化方法求解基于特征向量之间的距离设置的数值优化问题,使得求解得到的实体的特征向量最大程度拟合基于用户行为日志提取的共现关系数据,共现的实体特征相量之间的距离较小,不共现的实体特征相量之间的距离较大,从而得到个实体的最优特征向量。提升了用户相似度判断的准确性。
通过对不同的实体设置相应的权重,充分体现不同实体类型对用户共现关系中的重要程度,进一步符合业务需求,改善用户体验。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的相似用户挖掘方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的相似用户挖掘方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种相似用户挖掘方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以通过软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (10)
1.一种相似用户挖掘方法,其特征在于,包括:
基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;
获取所述共现关系数据中所有用户的最优特征向量;
根据用户的最优特征向量之间的相似度距离,挖掘相似用户。
2.根据权利要求1所述的方法,其特征在于,所述获取所述共现关系数据中所有用户的最优特征向量的步骤,包括:
通过隐向量初始化所述共现关系数据中包括的用户和预设实体的特征向量;
基于所述共现关系数据中包括的实体对的特征向量之间的距离,构建共现概率模型,其中,所述实体对是每条共现关系数据中的用户和预设实体的组合;
求解根据所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。
3.根据权利要求2所述的方法,其特征在于,所述数值优化问题的目标包括:
寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的联合概率最大;
其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现。
4.根据权利要求2所述的方法,其特征在于,所述共现关系数据还包括:与共现关系类型对应的权重,所述数值优化问题的目标包括:
寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的加权联合概率最大;
其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现;所述加权联合概率的加权值为各事件对应的共现关系类型的权重。
5.根据权利要求1所述的方法,其特征在于,所述基于用户行为日志,获取用户和预设实体的共现关系数据的步骤,包括:
基于用户行为日志,针对每个用户,构建共现关系数据,所述共现关系数据包括:用户和与该用户共现的预设实体的关联关系;
分别建立每条所述共现关系数据对应的多条补充数据,其中,所述补充数据包括:对应共现关系数据中的用户和与该用户不共现的预设实体的关联关系。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述预设实体还包括以下任意一项或多项:店铺、WIFI地址、地理位置、IP地址。
7.一种相似用户挖掘装置,其特征在于,包括:
共现关系数据获取模块,用于基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;
特征向量获取模块,用于获取所述共现关系数据中所有用户的最优特征向量;
相似用户挖掘模块,用于根据所述特征向量获取模块获取的用户的最优特征向量之间的相似度距离,挖掘相似用户。
8.根据权利要求7所述的装置,其特征在于,所述特征向量获取模块包括:
向量初始化单元,用于通过隐向量初始化所述共现关系数据中包括的用户和预设实体的特征向量;
建模单元,用于基于所述共现关系数据中包括的实体对的特征向量之间的距离,构建共现概率模型,其中,所述实体对是每条共现关系数据中的用户和预设实体的组合;
数值优化单元,用于求解根据所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项权利要求所述的相似用户挖掘方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任意一项所述的相似用户挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710538214.8A CN107464132B (zh) | 2017-07-04 | 2017-07-04 | 一种相似用户挖掘方法及装置,电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710538214.8A CN107464132B (zh) | 2017-07-04 | 2017-07-04 | 一种相似用户挖掘方法及装置,电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107464132A true CN107464132A (zh) | 2017-12-12 |
CN107464132B CN107464132B (zh) | 2021-01-15 |
Family
ID=60546621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710538214.8A Active CN107464132B (zh) | 2017-07-04 | 2017-07-04 | 一种相似用户挖掘方法及装置,电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107464132B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189908A (zh) * | 2018-08-22 | 2019-01-11 | 重庆市智权之路科技有限公司 | 海量数据提取推送工作方法 |
WO2019128311A1 (zh) * | 2017-12-29 | 2019-07-04 | 广东神马搜索科技有限公司 | 广告的相似度处理方法和装置、计算设备及存储介质 |
CN110197375A (zh) * | 2018-11-28 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种相似用户识别方法、装置、相似用户识别设备和介质 |
CN110322295A (zh) * | 2019-07-09 | 2019-10-11 | 北京百度网讯科技有限公司 | 关系强度确定方法及系统、服务器、计算机可读介质 |
CN110428001A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 一种社区挖掘方法、装置、服务器及存储介质 |
CN110443320A (zh) * | 2019-08-13 | 2019-11-12 | 北京明略软件系统有限公司 | 事件相似度的确定方法及装置 |
CN111148185A (zh) * | 2019-12-11 | 2020-05-12 | 上海众源网络有限公司 | 建立用户关系的方法及装置 |
CN112347474A (zh) * | 2020-11-06 | 2021-02-09 | 奇安信科技集团股份有限公司 | 一种安全威胁情报的构建方法、装置、设备和存储介质 |
CN112487276A (zh) * | 2019-09-11 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 一种对象获取方法、装置、设备及存储介质 |
CN113254318A (zh) * | 2021-07-06 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN104850645A (zh) * | 2015-05-28 | 2015-08-19 | 苏州大学张家港工业技术研究院 | 一种基于矩阵分解的主动学习评分引导方法及系统 |
CN106776707A (zh) * | 2016-11-11 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 信息推送的方法和装置 |
-
2017
- 2017-07-04 CN CN201710538214.8A patent/CN107464132B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655857A (zh) * | 2009-09-18 | 2010-02-24 | 西安建筑科技大学 | 基于关联规则挖掘技术挖掘建设法规领域数据的方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN104850645A (zh) * | 2015-05-28 | 2015-08-19 | 苏州大学张家港工业技术研究院 | 一种基于矩阵分解的主动学习评分引导方法及系统 |
CN106776707A (zh) * | 2016-11-11 | 2017-05-31 | 百度在线网络技术(北京)有限公司 | 信息推送的方法和装置 |
Non-Patent Citations (1)
Title |
---|
YOAV GOLDBERG等: "word2vec Explained: Deriving Mikolov et al.’s Negative-Sampling Word-Embedding Method", 《ARXIV》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128311A1 (zh) * | 2017-12-29 | 2019-07-04 | 广东神马搜索科技有限公司 | 广告的相似度处理方法和装置、计算设备及存储介质 |
CN109189908B (zh) * | 2018-08-22 | 2019-08-20 | 乔杨 | 海量数据提取推送工作方法 |
CN109189908A (zh) * | 2018-08-22 | 2019-01-11 | 重庆市智权之路科技有限公司 | 海量数据提取推送工作方法 |
CN110197375A (zh) * | 2018-11-28 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 一种相似用户识别方法、装置、相似用户识别设备和介质 |
CN110322295A (zh) * | 2019-07-09 | 2019-10-11 | 北京百度网讯科技有限公司 | 关系强度确定方法及系统、服务器、计算机可读介质 |
CN110428001B (zh) * | 2019-07-31 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种社区挖掘方法、装置、服务器及存储介质 |
CN110428001A (zh) * | 2019-07-31 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 一种社区挖掘方法、装置、服务器及存储介质 |
CN110443320A (zh) * | 2019-08-13 | 2019-11-12 | 北京明略软件系统有限公司 | 事件相似度的确定方法及装置 |
CN112487276A (zh) * | 2019-09-11 | 2021-03-12 | 腾讯科技(深圳)有限公司 | 一种对象获取方法、装置、设备及存储介质 |
CN112487276B (zh) * | 2019-09-11 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 一种对象获取方法、装置、设备及存储介质 |
CN111148185A (zh) * | 2019-12-11 | 2020-05-12 | 上海众源网络有限公司 | 建立用户关系的方法及装置 |
CN112347474A (zh) * | 2020-11-06 | 2021-02-09 | 奇安信科技集团股份有限公司 | 一种安全威胁情报的构建方法、装置、设备和存储介质 |
CN113254318A (zh) * | 2021-07-06 | 2021-08-13 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
CN113254318B (zh) * | 2021-07-06 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 设备标识信息确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107464132B (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107464132A (zh) | 一种相似用户挖掘方法及装置,电子设备 | |
JP6211605B2 (ja) | クリックスルー率に基づく検索結果の順位付け | |
CN105894372B (zh) | 预测群体信用的方法和装置 | |
CN105335519A (zh) | 模型生成方法及装置、推荐方法及装置 | |
CN105740381B (zh) | 一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法 | |
CN107992585A (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
CN106952166A (zh) | 一种社交平台的用户影响力估算方法及装置 | |
WO2015175835A1 (en) | Click through ratio estimation model | |
CN105430100A (zh) | 一种用户价值的评估方法、装置及其应用方法和系统 | |
CN110489507A (zh) | 确定兴趣点相似度的方法、装置、计算机设备和存储介质 | |
CN102135983A (zh) | 基于网络用户行为的群体划分方法和装置 | |
CN103365842B (zh) | 一种页面浏览推荐方法及装置 | |
CN110889759A (zh) | 信用数据的确定方法、装置及存储介质 | |
Zhang et al. | Some aggregation operators based on Einstein operations under interval‐valued dual hesitant fuzzy setting and their application | |
CN104035978A (zh) | 社团发现方法及系统 | |
CN103729431A (zh) | 具有增减量功能的海量微博数据分布式分类装置及方法 | |
CN111340601B (zh) | 商品信息的推荐方法和装置、电子设备和存储介质 | |
CN113449188A (zh) | 应用推荐方法、装置、电子设备及可读存储介质 | |
CN108563794A (zh) | 基于高阶奇异值分解的上下文推荐方法及装置 | |
CN108153818A (zh) | 一种基于大数据的聚类方法 | |
CN117057258A (zh) | 基于权重分配相关系数的黑启动过电压预测方法及系统 | |
EP3143579A1 (en) | Suggested keywords | |
CN110851708A (zh) | 负样本的抽取方法、装置、计算机设备和存储介质 | |
CN110111184A (zh) | 一种基于加权贝叶斯推理的负序列推荐方法及系统 | |
CN106251364A (zh) | 目标跟踪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |