CN105956061B - 一种用户间相似度确定方法及装置 - Google Patents

一种用户间相似度确定方法及装置 Download PDF

Info

Publication number
CN105956061B
CN105956061B CN201610270083.5A CN201610270083A CN105956061B CN 105956061 B CN105956061 B CN 105956061B CN 201610270083 A CN201610270083 A CN 201610270083A CN 105956061 B CN105956061 B CN 105956061B
Authority
CN
China
Prior art keywords
user
similarity
behavior data
data set
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610270083.5A
Other languages
English (en)
Other versions
CN105956061A (zh
Inventor
隋雪芹
李海涛
马琳涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201610270083.5A priority Critical patent/CN105956061B/zh
Publication of CN105956061A publication Critical patent/CN105956061A/zh
Application granted granted Critical
Publication of CN105956061B publication Critical patent/CN105956061B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Abstract

本发明的实施例提供一种用户间相似度确定方法及装置,涉及计算机技术领域,解决了现有技术中无法精确的确定出用户的相似用户的问题。该方法包括:获取用户在预定时间段内的用户行为数据,该用户行为数据包括预定时间段包含的时间单元对应的用户行为数据集,该用户行为数据集包括用户对多媒体数据执行预设用户操作的次数;根据预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与第二用户间的第一相似度。本发明应用于用户间相似度的确定。

Description

一种用户间相似度确定方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用户间相似度确定方法及装置。
背景技术
现今,在这个互联网高速发展的时代,人们对于视频观看方面的需求越来越高,多媒体数据(例如,视频、音频,文本文件等)推荐业务不仅可以为用户推荐多媒体数据,有效地帮助用户发现需求,也能够在社会网络海量的人群中为用户推荐相关的朋友列表。一般的,我们可以通过分析用户对多媒体数据的行为数据来捕捉多个用户之间的喜好相似度,然后为用户推荐相似用户,并基于该用户的相似用户来为用户提供良好的推荐服务。
在现有技术中,终端在计算用户间的相似度时,通常采用基于用户行为内容的方式来计算:即终端分别从每个用户的历史行为数据中为每个用户筛选出特定用户操作的多媒体数据集合(例如,用户播放的视频内容、用户购买的视频内容、用户收藏的视频内容),然后根据各个用户对应的多媒体数据集合中的多媒体数据的固有标签计算各用户之间的相似度,由于多媒体数据集合的标签维度信息高,相似度计算过程复杂,计算量大。同时,由于现有技术中并未考虑到用户行为趋势,即并未考虑用户在一段时间内的各个不同时期对多媒体数据的喜好程度,从而导致所计算出的用户间的相似度无明显差别,进而无法精确的确定出用户的相似用户。
发明内容
本发明的实施例提供一种用户间相似度确定方法及装置,旨在降低用户间相似度计算的运算量,提高用户间相似度运算速度,解决现有技术中无法精确的确定出用户的相似用户的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种用户间相似度确定方法,所述方法包括:
获取用户在预定时间段内的用户行为数据,其中,所述用户行为数据包括所述预定时间段包含的时间单元对应的用户行为数据集,所述用户行为数据集包含所述用户对多媒体数据执行预设用户操作的次数;
根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度。
另一方面,提供一种用户间相似度确定装置,所述装置包括:
获取模块,用于获取用户在预定时间段内的用户行为数据,其中,所述用户行为数据包括所述预定时间段中包含的时间单元对应的用户行为数据集,所述用户行为数据集包含所述用户对多媒体数据执行预设用户操作的次数;
确定模块,用于根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度。
本发明实施例提供的用户间相似度确定方法及装置,通过获取用户在预定时间段内包含的各个时间单元对应用户对多媒体数据执行预设用户操作的次数的用户行为数据集,然后,再根据所述预定时间段的时间单元中内根据第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与所述第二用户间的第一相似度。相比于现有技术根据用户行为内容中维度信息更高的多媒体数据集合的内容标签来计算用户间的相似度,本方案通过直接根据用户对应的用户行为数量(即用户对多媒体数据执行预设用户操作的次数)来计算用户间的相似度,从而简化了用户间相似度运算过程,减少了用户间相似度运算量,进而提升了运算速度。同时,本方案中引入了时间单元的概念,将预定时间段进行时间单元的划分,从而按照该预定时间段的时间单元对该用户的用户行为数据进行更精细的划分,实现了用户行为的时序性和实时性,从而考虑到了用户在不同时间单元对多媒体数据的喜好程度,使得最终计算出的用户间的相似度更为精确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户间相似度确定方法的方法流程图;
图2为本发明实施例提供的另一种用户间相似度确定方法的方法流程图;
图3为本发明实施例提供的一种用户间相似度确定装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的用户间相似度确定方法的执行主体可以为用户间相似度确定装置,或者用于执行上述用户间相似度确定方法的终端。具体的,该终端可以为智能手机、智能电视、平板电脑、笔记本电脑、超级移动个人计算机(英文:Ultra-mobile PersonalComputer,简称:UMPC)、上网本、个人数字助理(英文:Personal Digital Assistant,简称:PDA)等终端。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本实施例中提及的“第一”“第二”等叙述词,除非根据上下文其确实表达顺序之意,应当理解为仅仅是起区分之用。
本发明的实施例提供一种用户间相似度确定方法,如图1所示,该方法包括如下步骤:
101、用户间相似度确定装置获取用户在预定时间段内的用户行为数据。
示例性的,本发明中的用户行为数据包括预定时间段包含的时间单元对应的用户行为数据集。该用户行为数据集包括用户对多媒体数据执行预设用户操作的次数,其中,该预设用户操作包括收藏、播放、试看、试听、点击购买按钮但实际未购买、购买、下载等其中的一种或多种。本发明中的多媒体数据包括视频、音频、文本文档等多媒体文件数据中的一种或多种。
示例的,当多媒体数据为电影时,预设用户操作包括对电影执行的收藏、播放、试看、点击购买按钮但实际未购买、购买、下载等操作。
示例的,当多媒体数据为歌曲时,预设用户操作包括对歌曲执行的收藏、播放、试听、点击购买按钮但实际未购买、购买、下载等操作。
本实施例中的用户可以为用户账号或者其他可以唯一表示该用户身份的标识,本实施例中采用U1、U2、U3、U4……Un形式表示不同用户;本实施例中的预设用户操作可以为该预设用户操作的名称或其他可以唯一表示该预设用户操作的标识,本实施例中采用B1、B2、B3、B4……Bm形式表示不同的预设用户操作。
示例性的,上述的用户行为数据集可以为用户行为特征向量,首先,用户间相似度确定装置根据用户在预定时间段内的历史行为数据,得到预定时间段的每个时间单元对应的矩阵S,该矩阵S中的元素Sij为用户i在相应时间单元内对多媒体数据执行预设用户操作j的次数,然后,用户间相似度确定装置从预定时间段中时间单元对应的矩阵S中获取用户对应的预定时间段中时间单元的行为特征向量。其中,i∈1,2,……n,j∈1,2,……m,n为用户个数,m为预设用户操作的个数,矩阵S中任一行中所有元素组成所述任一行对应用户的行为特征向量。
示例性的,若多媒体数据以电影为例,假设用户和用户对电影执行预设用户操作的集合分别为U={U1,U2,...,Un}和B={B1,B2,...,Bm},若将用户集合U作为矩阵行m,将用户对电影执行预设用户操作的集合B作为矩阵列n,则定义用户与电影间的关系矩阵为矩阵Sij表示用户ui在相应时间单元内对多媒体数据执行预设用户操作j的次数。若预设用户操作为收藏(B1)、播放(B2)、购买(B3)、试看(B4)时,这里以表1和表2来说明矩阵S的含义。示例的,这里时间单元以天数为例来进行说明,表1中表示预定时间段内第1天的用户与预设用户操作之间的关系矩阵S,表2中表示预定时间段内第2天的用户与预设用户操作之间的关系矩阵S。需要说明的是,真实的矩阵S具有百万级的维度,下述的表1和表2仅仅是对矩阵S的含义进行说明,仅仅是一种示例。
Figure BDA0000975055270000051
表1
表2
基于上述表1和表2可知各个用户在第1天和第2天中分别对应的用户行为特征向量如下:
Figure BDA0000975055270000053
Figure BDA0000975055270000061
其中,
Figure BDA0000975055270000062
表示用户U1的第一天的行为特征向量;
Figure BDA0000975055270000063
表示用户U2的第一天的行为特征向量;
Figure BDA0000975055270000064
表示用户U3的第一天的行为特征向量;
Figure BDA0000975055270000065
表示用户U4的第一天的行为特征向量;表示用户U1的第二天的行为特征向量;
Figure BDA0000975055270000067
表示用户U2的第二天的行为特征向量;
Figure BDA0000975055270000068
表示用户U3的第二天的行为特征向量;
Figure BDA0000975055270000069
表示用户U4的第二天的行为特征向量。
102、用户间相似度确定装置在预定时间段的时间单元中根据第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与所述第二用户间的第一相似度。
其中,第一用户与所述第二用户间的第一相似度用于表征第一用户与第二用户之间的兴趣相似度或行为相似度。
示例性的,本发明实施例可以通过各个用户的用户行为数量(即用户对多媒体数据执行预设用户操作的次数)可以体现出用户间的用户行为的相似度,而用户间的用户行为的相似度可以反映用户兴趣的相似度。具体的,若以电影为例,用户观看付费电影时,通常都会经历一个过程:上线→付费观看→免费观看,假设平均每周上线一部新电影,而每部电影的付费观看时间以一个月为例,那么,从用户行为数量的角度来讲,若用户A一个月内收藏了4部电影,用户B一个月内收藏了3部电影,用户C一个月内收藏了1部电影,那么该月内用户A与用户B收藏同一部电影的概率为75%,用户A与用户C收藏同一部电影的概率为25%,用户D观看了2部电影,用户E观看了0部电影,那么用户D和用户E观看同一部电影的概率为0,所以,从用户收藏电影的数量、用户观看电影的数量等用户行为数量能反映出用户间的相似度。进一步的,从用户行为数量的角度来讲,用户A收藏了4部电影,反映出用户A很喜欢电影,很关注最新电影;用户B收藏了3部电影,用户C收藏了一部电影,从而可以反映出用户A和用户B在收藏电影这个用户行为上相比于用户A和用户C更为相似,进而可以反映出用户B为用户A的相似用户。
示例性的,当上述的用户行为数据集为用户行为特征向量时,用户间相似度确定装置基于相似度计算公式、在预定时间段的时间单元中第一用户的用户行为特征向量以及第二用户的用户行为特征向量,确定出第一用户与第二用户间的第一相似度。
其中,相似度计算公式为:
Figure BDA0000975055270000071
其中,公式中的T为预定时间段中时间单元的个数,
Figure BDA0000975055270000072
是时间单元i对应的用户U1的用户行为特征向量,
Figure BDA0000975055270000073
是时间单元j对应的用户U2的用户行为特征向量。
以上述的表1和表2为例给出一个具体的例子计算两天内用户U1和用户U2之间的第一相似度以及两天内用户U1和用户U3之间的第一相似度。将用户U1和用户U2对应的在表1和表2中的数值带入上述的公式1中,得到用户U1和用户U2之间的第一相似度为:
Figure BDA0000975055270000074
将用户U1和用户U3对应的在表1和表2中的数值带入上述的公式1中,得到用户U1和用户U3之间的第一相似度为:
Figure BDA0000975055270000075
因此从上述所得到的第一相似度的值来看,用户U1和用户U2之间的第一相似度值大于用户U1和用户U3之间的第一相似度值,说明用户U1与用户U2比用户U1与用户U3在行为特征上更为相似,因此用户U1与用户U2在行为特征上更为接近。
此外,当上述实施例中步骤101中的用户行为数据集还包括:用户执行预设用户操作对应的多媒体数据的类型时,还可以根据上述步骤102中确定出的第一用户与第二用户间的第一相似度以及用户执行预设用户操作对应的多媒体数据的类型计算出用户间进一步的相似度。示例性的,若多媒体类型以电影的类型为例,该电影的类型以动作片、喜剧片以及爱情片为例,根据步骤102中确定出的第一用户与第二用户间的第一相似度以及用户执行预设用户操作对应的上述三种电影类型可以进一步的确定出第一用户与第二用户所喜欢电影类型的相似度。
本发明实施例提供的用户间相似度确定方法,通过获取用户在预定时间段内包含的各个时间单元对应用户对多媒体数据执行预设用户操作的次数的用户行为数据集,然后,再根据所述预定时间段的时间单元中内根据第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与所述第二用户间的第一相似度。相比于现有技术根据用户行为内容中维度信息更高的多媒体数据集合的内容标签来计算用户间的相似度,本方案通过直接根据用户对应的用户行为数量(即用户对多媒体数据执行预设用户操作的次数)来计算用户间的相似度,从而简化了用户间相似度运算过程,减少了用户间相似度运算量,进而提升了运算速度。同时,本方案中引入了时间单元的概念,将预定时间段进行时间单元的划分,从而按照该预定时间段的时间单元对该用户的用户行为数据进行更精细的划分,实现了用户行为的时序性和实时性,从而考虑到了用户在不同时间单元对多媒体数据的喜好程度,使得最终计算出的用户间的相似度更为精确。
进一步的,当本实施例中的用户行为数据还包括用户地理位置数据集时,本实施例中确定第一用户与第二用户的第一相似度之后,还包括:
101a、根据第一用户对应的用户地理位置数据集及第二用户对应的用户地理位置数据集,确定出第一用户与第二用户间的第二相似度。
其中,第一用户与第二用户间的第二相似度用于表征第一用户与第二用户的地理位置信息相似度。
示例性的,上述的用户地理位置数据集用于表示用户是否在预定地理位置出现过,该用户地理位置是用户在某一城市出现时所对应的IP(英文:Internet Protocol,简称:网络之间互连的协议)地址,通过该IP地址可以获得当前的用户地理位置。具体的,本实施例中的每个用户都会对应设置一个原始的登录账号,该原始的登录账号相当于用户的标识,用于识别用户,用户使用原始的登录账号可以在每一个城市进行登录,当在每一个城市登录时会形成一个IP地址,该IP地址表示当前的用户地理位置,因此,同一用户可以对应372个IP地址,其中该372个IP地址是用户在372个城市出现时对应的用户地理位置。
示例性的,上述的用户地理位置数据集可以为用户地理位置向量时,本实施例中当用户在预定地理位置出现过,则记为1;否则,记为0。该用户地理位置向量是由用户是否在预定地理位置出现过所对应的数字所组成的,即用户地理位置向量是包含数字0和数字1的向量,当本实施例中的预定地理位置为北京、上海、青岛和西安时,对应的不同用户所形成的用户地理位置向量如表3所示。需要说明的是,真实的用户地理位置向量维度包含所有城市的个数(目前所统计出共有372个城市),这里仅以上述的四个城市为例进行说明用户地理位置向量。
Figure BDA0000975055270000091
表3
基于上述表3可知各个用户对应的用户地理位置向量如下:
Figure BDA0000975055270000101
其中,
Figure BDA0000975055270000102
表示用户U1的用户地理位置向量;
Figure BDA0000975055270000103
表示用户U2的用户地理位置向量;表示用户U3的用户地理位置向量;表示用户U4的用户地理位置向量。
示例性的,上述的第二相似度是任意两个用户间的用户地理位置的位置关系,任意两个用户间的第二相似度越大,对应的两个用户间的地理位置信息越接近。
可选的,本实施例中对第二相似度进行计算采用余弦相似度的计算公式,具体如下所示:
Figure BDA0000975055270000106
其中,公式中的
Figure BDA0000975055270000107
是用户U1的地理位置向量,
Figure BDA0000975055270000108
是用户U2的地理位置向量,用户U1表示第一用户,用户U2表示第二用户。
例如,以表3中给出的数据为例,将数据带入公式2中,用户U1和用户U2之间的第二相似度为:
用户U1和用户U3之间的第二相似度为:
Figure BDA00009750552700001010
因此从上述所得到的第二相似度的值来看,用户U1和用户U2之间的第二相似度值大于用户U1和用户U3之间的第二相似度值,说明用户U1与用户U2比用户U1与用户U3的运动轨迹较为相似,因此得出用户U1与用户U2的用户地理位置的位置关系较为接近。
本实施例中提供的用户间相似度确定方法,可以根据第一用户对应的用户地理位置向量及第二用户对应的用户地理位置向量,确定出第一用户与第二用户间的第二相似度,由于用户的地理位置体现出了用户间的距离状态,使得计算出的用户间的相似度更加准确。
进一步的,基于本实施例中的步骤101中的步骤101a,步骤102之后还包括:
102a、根据第一用户与第二用户间的第一相似度、第一用户与第二用户间的第二相似度以及相似度阈值,从第二用户中确定出第一用户的相似用户。
示例性的,上述第二用户为除第一用户以外的其他用户,用户间相似度确定装置从第二用户中确定出第一用户的相似用户时所采用的计算公式为:
Figure BDA0000975055270000111
其中,上述公式中的I(U1,U2)为用户U1和用户U2之间的第一相似度,L(U1,U2)为用户U1和用户U2之间的第二相似度,α为相似度阈值,用户U1为第一用户,U为第二用户的集合,用户U2和用户U3为第二用户集合U中的用户,U中包括除第一用户外的其他所有用户。当U1=U2时,P(U1,U2)=0,表示不考虑用户自身的情况,即排除用户的相似用户为用户本身的情况。下面给出的两个具体例子都是以U1≠U2的情况进行说明的。
示例性的,通过上述公式3可以计算出第一用户与用户集合U中的任一个用户之间的相似度,对于每个用户与第一用户之间计算得到的相似度形成一个列表,且将该列表按照相似度从大到小进行排序,将该列表中的相似度值最大的用户作为第一用户的相似用户。
示例一:
第二用户的集合U中仅包含一个用户U2,参照本实施例中表1和表2以及表3中的数值,计算出的L(U1,U2)=0.67和I(U1,U2)=0.25值带入上述公式3计算P(U1,U2),α取0.5,得到P(U1,U2)的值为:
由以上结果可以看出,当上述第二用户的集合U仅中包含一个用户U2,所得到的相似用户只有用户U2,因此计算出的P(U1,U2)值为1。
示例二:
第二用户的集合U中包含用户U2和用户U3,仍然参照本实施例中表1和表2以及表3中的数值,计算出的L(U1,U2)=0.67,I(U1,U2)=0.25,L(U1,U3)=0.41,I(U1,U3)=0.18值带入上述公式3计算P(U1,U2)和P(U1,U3),α取0.5,得到P(U1,U2)的值为:
得到P(U1,U3)的值为:
Figure BDA0000975055270000122
由以上结果可以看出,当上述第二用户的集合U中包含用户U2和用户U3时,对于这两个用户分别于与第一用户计算相似度计算,由于P(U1,U2)得值大于P(U1,U3)的值,因此得到的相似度列表为从大到小进行排序依次为用户U2、用户U3,将用户U2作为第一用户的相似用户。
此外,对于公式3中的α是可以根据得到的用户间的相似度结果进行调节的,具体的调节过程可以参照图2所示的用户间相似度确定方法的方法流程图,对于用户U1来说,可以根据本说明书实施例中的公式1计算得到用户U1与用户U2的第一相似度I(U1,U2),根据公式2得到第二相似度L(U1,U2),将该第一相似度I(U1,U2)和第二相似度L(U1,U2)带入到公式3中进行计算P(U1,U2),在计算的过程中分别给α取0-1之间值计算得到P(U1,U2),然后以得到P(U1,U2)的最大值来确定该α的具体取值,进而以该α值作为相似度阈值。然后,进行后续的计算得到相似度列表。
本实施例中提供的用户间相似度确定方法,从第二用户中确定出第一用户的相似用户是根据第一用户与第二用户间的第一相似度、第一用户与第二用户间的第二相似度以及相似度阈值来确定的,该从第二用户中确定出第一用户的相似用户是基于用户的在各个时间单元对多媒体数据执行预设用户操作的次数以及用户的地理位置,不仅引入了时间单元的概念,还考虑到用户的地理位置,使得用户相似度确定装置从第二用户中确定出的第一用户的相似用户更为精确。
下面将基于图1对应的用户间相似度确定方法的实施例中的相关描述对本发明实施例提供的一种用户间相似度确定装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例,这里不再赘述。
本发明实施例提供一种用户间相似度确定装置,如图3所示,该用户间相似度确定装置2包括:获取模块21和确定模块22,其中:
获取模块21,用于获取用户在预定时间段内的用户行为数据,其中,该用户行为数据包括预定时间段中包含的各个时间单元对应的用户行为数据集,该用户行为数据集包含用户对多媒体数据执行预设用户操作的次数。
确定模块22,用于在预定时间段的时间单元中根据第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与第二用户间的第一相似度。
示例性的,上述用户行为数据还包括用户地理位置数据集,该用户地理位置数据集用于表示用户是否在预定地理位置出现过;
进一步的,确定模块22还用于根据第一用户对应的用户地理位置数据集及第二用户对应的用户地理位置数据集,确定出第一用户与第二用户间的第二相似度。
可选的,确定模块22还用于根据第一用户与第二用户间的第一相似度、第一用户与第二用户间的第二相似度以及相似度阈值,从第二用户中确定出第一用户的相似用户;第二用户为除第一用户以外的其他用户。
示例性的,当上述用户行为数据集为用户行为特征向量获取模块21具体用于:
根据用户在预定时间段内的历史行为数据,得到预定时间段中时间单元对应的矩阵S,该矩阵S中的元素Sij为用户i在相应时间单元内对多媒体数据执行预设用户操作j的次数;
从预设时间段中时间单元对应的矩阵S中获取用户对应的预设时间段中时间单元的行为特征向量,该矩阵S中任一行中所有元素组成任一行对应用户的行为特征向量;
其中,i∈1,2,……n,j∈1,2,……m,n为用户个数,m为预设用户操作的个数。
示例性的,当上述的用户行为数据集为用户行为特征向量时,确定模块22在预定时间段的时间单元中根据第一用户的第一用户行为数据集以及第二用户的第二用户行为数据集,确定出第一用户与所述第二用户间的第一相似度时,具体用于:
基于相似度计算公式、在预定时间段的时间单元中第一用户的用户行为特征向量以及第二用户的用户行为特征向量,确定出第一用户与第二用户间的第一相似度。
其中,相似度计算公式为:
Figure BDA0000975055270000141
T为预定时间段中时间单元的个数,
Figure BDA0000975055270000142
是时间单元i对应的用户U1的用户行为特征向量,
Figure BDA0000975055270000143
是时间单元j对应的用户U2的用户行为特征向量。
本发明实施例提供的用户间相似度确定装置,通过获取用户在预定时间段内包含的各个时间单元对应用户对多媒体数据执行预设用户操作的次数的用户行为数据集,然后,再根据所述预定时间段的时间单元中内根据第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出第一用户与所述第二用户间的第一相似度。相比于现有技术根据用户行为内容中维度信息更高的多媒体数据集合的内容标签来计算用户间的相似度,本方案通过直接根据用户对应的用户行为数量(即用户对多媒体数据执行预设用户操作的次数)来计算用户间的相似度,从而简化了用户间相似度运算过程,减少了用户间相似度运算量,进而提升了运算速度。同时,本方案中引入了时间单元的概念,将预定时间段进行时间单元的划分,从而按照该预定时间段的时间单元对该用户的用户行为数据进行更精细的划分,实现了用户行为的时序性和实时性,从而考虑到了用户在不同时间单元对多媒体数据的喜好程度,使得最终计算出的用户间的相似度更为精确。
在本申请所提供的几个实施例中,应该理解到,所揭露的用户间相似度确定装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理包括,也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种用户间相似度确定方法,所述方法包括:
获取用户在预定时间段内的用户行为数据,其中,所述用户行为数据包括所述预定时间段包含的时间单元对应的用户行为数据集,所述用户行为数据集包含所述用户对多媒体数据执行预设用户操作的次数;
根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度,具体包括:
基于相似度计算公式、根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度;
其中,所述相似度计算公式为:
T为所述预定时间段中时间单元的个数,所述
Figure FDA0002189673950000012
是时间单元i对应的用户U1的用户行为特征向量,所述
Figure FDA0002189673950000013
是时间单元j对应的用户U2的用户行为特征向量。
2.根据权利要求1所述的方法,其特征在于,所述用户行为数据集为用户行为特征向量,所述获取用户在预定时间段内的用户行为数据具体包括:
根据所述用户在预定时间段内的历史行为数据,得到所述预定时间段中时间单元对应的矩阵S,所述矩阵S中的元素Sij为用户i在相应时间单元内对多媒体数据执行预设用户操作j的次数;
从所述预定时间段中时间单元对应的矩阵S中获取所述用户对应的预定时间单元的行为特征向量;
其中,i∈1,2,……n,j∈1,2,……m,n为用户个数,m为预设用户操作的个数。
3.根据权利要求1所述的方法,其特征在于,所述用户行为数据还包括用户IP数据集,所述用户 IP 数据集 用于表示所述用户出现过的地理位置信息;所述获取用户在预定时间段内的用户行为数据之后,所述方法还包括:
根据所述第一用户对应的用户IP数据集及所述第二用户对应的用户IP数据集,确定出所述第一用户与所述第二用户间的第二相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度之后,所述方法还包括:
根据所述第一用户与所述第二用户间的第一相似度、所述第一用户与所述第二用户间的第二相似度以及相似度阈值,从所述第二用户中确定出所述第一用户的相似用户;所述第二用户为除所述第一用户以外的其他用户。
5.一种用户间相似度确定装置,其特征在于,所述装置包括:
获取模块,用于获取用户在预定时间段内的用户行为数据,其中,所述用户行为数据包括所述预定时间段中包含的时间单元对应的用户行为数据集,所述用户行为数据集包含所述用户对多媒体数据执行预设用户操作的次数;
确定模块,用于根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度,具体用于:
基于相似度计算公式、根据所述预定时间段的时间单元内第一用户的用户行为数据集以及第二用户的用户行为数据集,确定出所述第一用户与所述第二用户间的第一相似度;
其中,所述相似度计算公式为:
T为所述预定时间段中时间单元的个数,所述是时间单元i对应的用户U1的用户行为特征向量,所述是时间单元j对应的用户U2的用户行为特征向量。
6.根据权利要求5所述的装置,其特征在于,当所述用户行为数据集为用户行为特征向量,所述获取模块,具体用于:
根据所述用户在预定时间段内的历史行为数据,得到所述预定时间段中时间单元对应的矩阵S,所述矩阵S中的元素Sij为用户i在相应时间单元内对多媒体数据执行预设用户操作j的次数;
从所述预定时间单元对应的矩阵S中获取所述用户对应的预定时间段中时间单元的行为特征向量;
其中,i∈1,2,……n,j∈1,2,……m,n为用户个数,m为预设用户操作的个数。
7.根据权利要求5所述的装置,其特征在于,所述用户行为数据还包括用户IP数据集,所述用户IP数据集用于表示所述用户出现过的地理位置信息;
所述确定模块,还用于根据所述第一用户对应的用户IP数据集及所述第二用户对应的用户IP数据集,确定出所述第一用户与所述第二用户间的第二相似度。
8.根据权利要求7所述的装置,其特征在于,
所述确定模块,还用于根据所述第一用户与所述第二用户间的第一相似度、所述第一用户与所述第二用户间的第二相似度以及相似度阈值,从所述第二用户中确定出所述第一用户的相似用户;所述第二用户为除所述第一用户以外的其他用户。
CN201610270083.5A 2016-04-26 2016-04-26 一种用户间相似度确定方法及装置 Active CN105956061B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610270083.5A CN105956061B (zh) 2016-04-26 2016-04-26 一种用户间相似度确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610270083.5A CN105956061B (zh) 2016-04-26 2016-04-26 一种用户间相似度确定方法及装置

Publications (2)

Publication Number Publication Date
CN105956061A CN105956061A (zh) 2016-09-21
CN105956061B true CN105956061B (zh) 2020-01-03

Family

ID=56915714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610270083.5A Active CN105956061B (zh) 2016-04-26 2016-04-26 一种用户间相似度确定方法及装置

Country Status (1)

Country Link
CN (1) CN105956061B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943943B (zh) * 2017-11-23 2020-11-03 北京小度信息科技有限公司 用户相似度的确定方法、装置、电子设备及存储介质
CN108257035A (zh) * 2017-12-30 2018-07-06 黄敬易 用户相似度计算方法、装置、服务器及可读存储介质
CN108419100B (zh) * 2018-01-29 2020-10-02 山东云缦智能科技有限公司 一种用户电影播放行为相似度的获取方法及系统
CN117544425B (zh) * 2024-01-09 2024-03-12 成都运荔枝科技有限公司 一种基于数据分析的网络系统登录安全管控方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN103440335A (zh) * 2013-09-06 2013-12-11 北京奇虎科技有限公司 视频推荐方法及装置
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置
CN104239338A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 信息推荐方法及装置
CN104765873A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
CN104951563A (zh) * 2015-07-08 2015-09-30 北京理工大学 一种待推荐对象的确定方法及装置
CN105095442A (zh) * 2015-07-23 2015-11-25 海信集团有限公司 一种多媒体数据的推荐方法及装置
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654860A (zh) * 2011-03-01 2012-09-05 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN104239338A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 信息推荐方法及装置
CN103440335A (zh) * 2013-09-06 2013-12-11 北京奇虎科技有限公司 视频推荐方法及装置
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置
CN104765873A (zh) * 2015-04-24 2015-07-08 百度在线网络技术(北京)有限公司 用户相似度确定方法和装置
CN104951563A (zh) * 2015-07-08 2015-09-30 北京理工大学 一种待推荐对象的确定方法及装置
CN105095442A (zh) * 2015-07-23 2015-11-25 海信集团有限公司 一种多媒体数据的推荐方法及装置
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置

Also Published As

Publication number Publication date
CN105956061A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN106326391B (zh) 多媒体资源推荐方法及装置
KR102112973B1 (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
CN104053023B (zh) 一种确定视频相似度的方法及装置
CN103686237A (zh) 推荐视频资源的方法及系统
CN105956061B (zh) 一种用户间相似度确定方法及装置
CN111708901A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
CN109429103B (zh) 推荐信息的方法、装置及计算机可读存储介质、终端设备
CN107454442B (zh) 一种推荐视频的方法和装置
CN112507163B (zh) 时长预测模型训练方法、推荐方法、装置、设备及介质
CN110929086A (zh) 一种音视频推荐方法、装置及存储介质
CN111107416B (zh) 一种弹幕屏蔽方法、装置及电子设备
US10762122B2 (en) Method and device for assessing quality of multimedia resource
US9015607B2 (en) Virtual space providing apparatus and method
CN106156351B (zh) 多媒体资源推荐信息生成方法及装置
CN110798717B (zh) 媒体资源的推送方法、装置、存储介质及电子装置
CN110110206B (zh) 物品间关系挖掘及推荐方法、装置、计算设备、存储介质
WO2018001223A1 (zh) 播放列表推荐方法及装置
CN106445922B (zh) 确定多媒体资源的标题的方法及装置
CN115983499A (zh) 一种票房预测方法、装置、电子设备及存储介质
CN105653645B (zh) 网络信息关注度评估方法及装置
CN104410874A (zh) 视频粘度信息的检测方法、装置和系统
CN110087104B (zh) 信息推送的装置、方法、电子设备和计算机可读存储介质
CN114173200B (zh) 基于广电专网的视频管理推送方法及装置
CN105516279B (zh) 一种用户账户创建方法及装置
JP6294371B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant