CN108257035A - 用户相似度计算方法、装置、服务器及可读存储介质 - Google Patents
用户相似度计算方法、装置、服务器及可读存储介质 Download PDFInfo
- Publication number
- CN108257035A CN108257035A CN201711500033.2A CN201711500033A CN108257035A CN 108257035 A CN108257035 A CN 108257035A CN 201711500033 A CN201711500033 A CN 201711500033A CN 108257035 A CN108257035 A CN 108257035A
- Authority
- CN
- China
- Prior art keywords
- user
- resource
- feedback
- similarity
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 57
- 230000006399 behavior Effects 0.000 claims description 141
- 239000013598 vector Substances 0.000 claims description 82
- 238000013507 mapping Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 7
- 230000000644 propagated effect Effects 0.000 description 25
- 230000003542 behavioural effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户相似度计算方法、装置、服务器及可读存储介质,所述方法包括如下步骤:获取目标用户群;其中,所述目标用户群中包括至少两个用户;基于目标用户群,选取出至少一个资源;根据反馈数据库及选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;根据所述目标行为矩阵,计算用户之间的用户相似度。基于本发明计算得到的用户相似度,可以在互联网社交平台上实现好友的准确推荐,提高互联网社交的交友质量和交友效率。
Description
技术领域
本发明涉及互联网领域,尤其涉及一种用户相似度计算方法、装置、服务器及可读存储介质。
背景技术
互联网,特别是移动互联网的发展和普及,正引导我们走进一种全新的人类社会组织和生活模式。通过互联网构建的一个超越地球空间之上的、巨大的群体——网络群体,21世纪的人类社会正在逐渐浮现出崭新的形态与特质,网络全球化时代的个人正在聚合为新的社会群体。
互联网社交是网络生活的重要组成部分,以互联网为基础的交往,使得人类的交往可以冲破了工业社会交往的限度,一方面是人们可以通过网络间的信息传播及时地进行交往,这种形式无需商品的中介而由网络媒介直接地连通起来;另一方面,这种交往形式又由过去那种“电脑一服务器”模式正在向“网络一用户”模式转切,网络交往实质上是一种联结不同网络终端的人脑思维的虚拟化、数字化的交流和互动。
与传统社交方式相同,如果社交双方存在较多的共同点(如相同的信息偏好或者三观),那么双方就有更大的几率成为朋友甚至是更进一步的发展。然而,对于互联网社交来说,位于网络两端的用户在一开始是完全陌生且没有关联的,虽然可以通过用户自己填写的用户简介来获得用户的一些信息,但是这些信息存在不完整、不准确、不全面等问题,导致互联网社交的交友效率低下,交友质量不高。
发明内容
针对上述问题,本发明的目的在于提供一种用户相似度计算方法、装置、服务器及可读存储介质,能提高互联网社交的交友效率和交友质量。
本发明实施例提供了一种用户相似度计算方法,包括如下步骤:
获取目标用户群;其中,所述目标用户群中包括至少两个用户;
基于目标用户群,选取出至少一个资源;
根据反馈数据库及选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为;
根据所述目标行为矩阵,计算用户之间的用户相似度。
优选地,所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
优选地,
所述根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵向量;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;具体为:
根据反馈数据库、所述目标用户群中的用户及预设的映射规则,生成对应的含映射值的目标行为矩阵;其中,所述映射规则定义了反馈值与映射值之间的映射关系;所述目标行为矩阵的每一行或者每一列表示对应用户的用户行为向量;
则所述根据所述目标行为矩阵,计算用户之间的用户相似度,具体为:
根据所述用户行为向量,计算得到向量相似度,以获得用户之间的用户相似度。
优选地,还包括:
对所述反馈行为进行分组,同一个反馈行为组中的反馈行为的反馈值对应同一个映射值。
优选地,当所述目标行为矩阵为至少两个时;
则根据所述目标行为矩阵,计算用户之间的用户相似度,具体包括:
根据所述至少两个目标行为矩阵得出每个用户的至少两个用户行为向量,以计算得到用户之间的至少两个向量相似度;
对计算得到的至少两个向量相似度进行加权求和,生成用户之间的用户相似度。
优选地,当反馈行为为用户未接收到资源时,相应的映射值设置为0或者设置为空值。
本发明实施例还提供了一种用户相似度计算装置,包括:
目标用户群获取单元,用于获取目标用户群;其中,所述目标用户群中包括至少两个用户;
资源选取单元,用于基于目标用户群,选取出至少一个资源;
目标行为矩阵生成单元,用于根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为;
用户相似度计算单元,用于根据所述目标行为矩阵,计算用户之间的用户相似度。
优选地,所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
本发明实施例还提供了一种用户相似度计算服务器,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的用户相似度计算方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的用户相似度计算方法。
本实施例提供的用户相似度计算方法,由于用户行为向量是根据用户对资源的反馈行为生成的,因而其可以在很大程度上表示用户的信息偏好、价值取向和审美观等。因此,如果两个用户通过用户行为向量计算得出的用户相似度比较高,那么表明二者具有比较相似的信息偏好、价值取向或者审美观,反之,如果两个用户通过用户行为向量计算得出的用户相似度比较低,那么表明二者不具有比较相似的信息偏好、价值取向或者审美观。因此,通过计算得到的用户相似度,可以在互联网社交平台上实现好友的准确推荐,提高互联网社交的交友质量和交友效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的用户相似度计算方法的流程示意图。
图2是本发明第一实施例提供的信息传播平台A包含各个版块的示意图。
图3是本发明第七实施例提供的用户相似度计算装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明第一实施例提供的用户相似度计算方法的流程示意图。其可由服务器来执行,并至少包括如下步骤:
S101,获取目标用户群;其中,所述目标用户群中包括至少两个用户。
在本实施例中,所述目标用户群可以是在某个信息传播平台注册的所有用户,也可以是关注该信息传播平台的特定板块或者特定圈子的用户,还可以是满足一些特定条件形成的用户集合(例如,购买了某一项增值服务的用户)。例如,如图2所示,对于信息传播平台A,其可能包括多个版块或圈子,如图2所示的体育版块、历史版块、军事版块、阅读版块,体育版块下又可进行分组分为球迷圈、田径圈、游泳圈、赛艇圈等,而球迷圈又可向下再划分为足球组、篮球组、羽毛球组、网球组、乒乓球组等等。用户在信息传播平台上注册后即自动加入该信息传播平台的用户群,此后,用户可通过关注版块、圈或组来加入该版块、圈或组的用户群。例如,用户关注体育版块后,即加入体育版块的用户群。
S102,基于目标用户群,选出至少一个资源。
在本实施例中,在选取了目标用户群后,可以选取在目标用户群中传播的至少一个资源,其中所述资源包括但不限于文字、图片、视频、音频、轻型程序等信息载体,本发明不做具体限定。
S103,根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值。
在本实施例中,用户对接收到的其他用户传播的资源可以进行反馈,如反馈“转发”进行继续传播,也可反馈“不转发”,不操作甚至是举报等行为来选择不传播该资源。其中,用户对所有资源的反馈行为都会被记录,并转换为对应的反馈值后保存在反馈数据库中。
如表1所示,表1示出了用户对不同资源的反馈行为。
表1
用户A | 用户B | 用户C | 用户D | |
资源1 | 传播 | 支持并传播 | 未接收 | 不喜欢 |
资源2 | 支持并传播 | 不喜欢 | 未接收 | 未接收 |
资源3 | 不喜欢 | 传播 | 传播 | 拒绝传播 |
资源4 | 打赏并传播 | 传播 | 拒绝传播 | 不喜欢 |
资源5 | 传播 | 打赏传播 | 支持并传播 | 传播 |
资源6 | 拒绝传播 | 支持并传播 | 传播 | 传播 |
资源7 | 拒绝传播 | 评论并传播 | 举报 | 打赏并传播 |
资源8 | 拒绝传播 | 举报 | 未接收 | 不喜欢 |
资源9 | 传播 | 投诉 | 支持并传播 | 拒绝传播 |
当然,需要说明的是,反馈行为的类型可根据实际需要进行设定,类型可以设置得更多,也可以仅仅设置传播或者拒绝传播两种,上述表1仅仅是本发明的一个实施例,不能理解为对本发明的限定。
在本实施例中,每个反馈行为或者每个反馈行为组可以对应一个反馈值,如此,根据表1即可以得到相应的包含反馈值的反馈数据库。例如,传播对应的反馈值为1,支持并传播对应的反馈值为3、评论并传播对应的反馈值为6、打赏并传播对应的反馈值为9,拒绝传播、不喜欢、举报、投诉对应的反馈值均为0(也可以是非零的数值,甚至为负数),未接收为0或者NULL,则根据表1可得到如表2所示的反馈数据库:
表2
此后,再根据选取的资源以及目标用户群中的用户就可以生成目标用户群的目标行为矩阵,其中,目标行为矩阵的每一列或者每一行代表一个目标用户的用户行为向量。
S104,根据所述目标行为矩阵,计算用户之间的用户相似度。
在本实施例中,在根据目标行为矩阵得到每个目标用户的用户行为向量后,即可根据这些用户行为向量计算用户之间的用户相似度。例如,可直接根据两两用户之间的用户行为向量进行向量计算来得到用户之间的用户相似度。
综上所述,本实施例提供的用户相似度计算方法,由于用户行为向量是根据用户对资源的反馈行为生成的,因而其可以在很大程度上表示用户的信息偏好、价值取向和审美观等。因此,如果两个用户通过用户行为向量计算得出的用户相似度比较高,那么表明二者具有比较相似的信息偏好、价值取向或者审美观,反之,如果两个用户通过用户行为向量计算得出的用户相似度比较低,那么表明二者不具有比较相似的信息偏好、价值取向或者审美观。因此,通过计算得到的用户相似度,可以在互联网社交平台上实现好友的准确推荐,提高互联网社交的交友质量和交友效率。
第二个实施例:
在第一个实施例的基础上,优选地:
所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
在本实施例中,所选取的资源可为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源。
其中,传播量可根据已接收用户占目标用户群的比例来确定,如果该比例大于预设的传播阈值(如超过70%),则认为该资源传播量大。此外,也可根据资源的传播量在所有资源的传播量的排行来判断一个资源的传播量是否足够大,例如排行处于前5%(或者前10%等其他百分比)视为传播量大。这些方案均在本发明的保护范围之内,在此不做赘述。
其中,传播量大一方面意味着目标用户群中的较多用户接收过该资源,因此不会存在较多用户的反馈行为缺失的情况;另一方面,传播量大还意味着该资源具有能够跨越用户层次传播的特性,因为只有更多用户层次的人都传播该资源,才可能导致其传播量的增大。例如,对于一个体育资源,则可能仅仅只有喜欢体育的人会去传播,因此,其传播量不会很大。但如果是一个社会新闻,则其传播的用户层次就可能大大增多。此外,从统计学的意义上来说,传播量大可以消除一些特例情况(例如,某些用户的特殊爱好)的发生,保证结果的客观性和可靠性。
在本实施例中,分歧度大意味着这个资源具有区分性,能比较有效区分不同用户的信息偏好以及价值取向、审美观等,如果一个资源的区分性很小(如绝大多数用户都选择转发并传播该资源),那么这个资源并不能很好的将不同用户的信息偏好体现出来。
在本实施例中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出,例如,对于某个资源,在接收到的所有用户中,选择传播(包括所有会触发传播的反馈行为,例如传播、支持并传播、打赏并传播等)的用户数量和不传播(包括所有会触发不传播的反馈行为,例如,投诉、举报、不喜欢、拒绝传播)的用户数量的比值越接近1,则其分歧度越大,反之,如果选择传播的用户数量和不传播的用户数量的比值越接近0,则其分歧度越小。例如,如果选择传播的用户数量和不传播的用户数量的比值范围在0.5~1.5之间或者选择传播(或者选择不传播)的用户数量与传播总数的比值在0.3~0.7之间,可以认为该资源的分歧度较大,当然,具体的比值可以根据实际需要进行调节,本发明不做具体限定。此外,分歧度还可以有其他定义方式,例如是选择传播或者选择不传播的用户与传播总数的比值等等,本发明不做具体限定。
在本实施例中,在传播量广的基础上分歧大,表现的是不同层次的用户对热门资源有不同的看法,因此,通过用户对该资源的反馈行为,不仅仅可以体现用户的信息偏好,甚至可以在一定程度上体现出用户的价值取向或者三观。
第三个优选实施例:
在第一个实施例的基础上,在本实施例中:
所述根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵,具体为:
根据反馈数据库、所述目标用户群中的用户及预设的映射规则,生成对应的含映射值的目标行为矩阵;其中,所述映射规则定义了反馈值与映射值之间的映射关系;所述目标行为矩阵的每一行或者每一列表示对应用户的用户行为向量。
在一种映射方式中,可以将触发传播的反馈行为(如传播、支持并传播、评论并传播、打赏并传播)对应的反馈值都映射为同一个映射值(如为1),而将不触发传播的反馈行为(如接收但未作选择、拒绝传播、不喜欢、举报、投诉)对应的反馈值映射成另一个映射值(如0)。此外,如果反馈行为为空表示用户未接收到该资源,其映射值可以用0或空值(NULL)来表示。
在这种情况下,如果选取的资源为资源1,3,4,6,7,9(从表1可以看出,资源2的未接收用户较多,不符合传播量大的要求,而资源5和8的分歧小,不符合分歧度大的要求),则根据表2对应的反馈数据库可以生成如表3所示的目标行为矩阵。
表3
用户A | 用户B | 用户C | 用户D | |
资源1 | 1 | 1 | 0(或者NULL) | 0 |
资源3 | 0 | 1 | 1 | 0 |
资源4 | 1 | 1 | 0 | 0 |
资源6 | 0 | 1 | 1 | 1 |
资源7 | 0 | 1 | 0 | 1 |
资源9 | 1 | 0 | 1 | 0 |
通过所述目标行为矩阵,可以得出用户A的用户行为向量为(1,0,1,0,0,1),用户B的用户行为向量为(1,1,1,1,1,0),用户C的用户行为向量为(0,1,0,1,0,1)或者(NULL,1,0,1,0,1),用户D的用户行为向量为(0,0,0,1,1,0)。
需要说明的是,映射值的定义可以根据实际需要调整,例如,触发传播的反馈行为对应的反馈值对应的映射值可以定义为3,而不触发传播的反馈行为对应的反馈值对应的映射值可以定义为1甚至是负数,针对未接收到资源的情况,其反馈值对应的映射值定位为0是比较恰当。这些方案均在本发明的保护范围之内。
此外,在生成所述目标行为矩阵时,可以先生成一个总行为矩阵,再根据目标用户群、传播的资源从总行为矩阵中抽取得到目标行为矩阵;也可以是直接根据反馈数据库、目标用户群、传播的资源和映射规则生成目标行为矩阵而不生成中间的总行为矩阵,这些方案均在本发明的保护范围之内。
在另一种映射方式中,可以为每个反馈值都定义相应的一个映射值,如保持反馈值等于映射值。在这种情况下,如果选取的资源为资源1,3,4,6,7,9,则根据表2对应的反馈数据库可以生成如表4所示的目标行为矩阵。
表4
用户A | 用户B | 用户C | 用户D | |
资源1 | 1 | 3 | 0(或者NULL) | 0 |
资源3 | 0 | 1 | 1 | 0 |
资源4 | 9 | 1 | 0 | 0 |
资源6 | 0 | 3 | 1 | 1 |
资源7 | 0 | 6 | 0 | 9 |
资源9 | 1 | 0 | 3 | 0 |
可见,用户A的用户行为向量为(1,0,9,0,0,1),用户B的用户行为向量为(3,1,1,3,6,0),用户C的用户行为向量为(0,1,0,1,0,3)或者(NULL,1,0,1,0,3),用户D的用户行为向量为(0,0,0,1,9,0)。
第四个优选实施例:
在第三个实施例的基础上,在本实施例中:
当生成的目标行为矩阵为至少两个时,则根据所述目标行为矩阵,计算用户之间的用户相似度,具体包括:
根据所述至少两个目标行为矩阵得出每个用户的至少两个用户行为向量,以计算得到用户之间的至少两个向量相似度;
对计算得到的至少两个向量相似度进行加权求和,生成用户之间的用户相似度。
在本实施例中,针对同一个反馈数据库,通过不同的映射规则,可以得到不同的目标行为矩阵,例如,可以得到如表3和表4所示的目标行为矩阵,其中,表3用来描述用户对一个资源是否选择了传播,而表4则进一步描述了用户对一个资源的喜欢程度,两个目标行为矩阵可以从不同角度来描述目标用户群中的用户,通过综合考虑这两个目标行为矩阵,可以更全面的描述一个用户的信息偏好。
在本实施例中,可以为每个目标行为矩阵对应的向量相似度配置预定的权重,从而得到更合理的用户相似度。例如,对于与表3对应的向量相似度,可以配置一个较小的权重(如0.3),而对于与表3对应的向量相似度,可以配置一个较大的权重(如0.7)。
在本实施例中,通过不同的映射规则,可以获取基于不同角度得到的目标行为矩阵的向量相似度,并根据所述向量相似度计算得到用户相似度从而可以更全面准确的反应用户的信息偏好、价值观或者审美观,计算出的用户相似度的准确性和可靠性也更高,从而提高交友的质量和交友的效率。
第六个实施例:
在第一个实施例至第五个实施例的基础上,在本实施例中:
步骤S104具体为:
获取任意两个用户的用户行为向量,并对用户行为向量进行计算,得到任意两个用户之间的向量相似度,以获得两个用户之间用户相似度。
在本实施例中,根据用户行为向量计算得到用户相似量可以有如下几种方法:
(1)通过计算向量之间的向量点积来获得用户相似度
(2)、通过计算向量之间的向量夹角余弦来获得用户相似度。
对于第一种方法(NULL的情况视为0):以表3对应的目标行为矩阵为例:用户A与用户B进行向量点积(ATB)后得到两个用户的向量相似度(即用户相似度)为2;用户A与用户C进行向量计算(ATC)后得到两个用户的用户相似度为1;用户A与用户D进行向量计算(ATD)后得到两个用户的用户相似度为0;用户B与用户C进行向量计算(BTC)后得到两个用户的用户相似度为2;用户B与用户D进行向量计算(BTD)后得到两个用户的用户相似度为2;用户C与用户D进行向量计算(CTD)后得到两个用户的用户相似度为1。
可以看出,用户A、B,用户B、C,用户B、D的用户相似度较高。
以表4对应的目标行为矩阵为例:用户A与用户B进行向量计算(ATB)后得到两个用户的向量相似度(即用户相似度)为12;用户A与用户C进行向量计算(ATC)后得到两个用户的用户相似度为3;用户A与用户D进行向量计算(ATD)后得到两个用户的用户相似度为0;用户B与用户C进行向量计算(BTC)后得到两个用户的用户相似度为4;用户B与用户D进行向量计算(BTD)后得到两个用户的用户相似度为57;用户C与用户D进行向量计算(CTD)后得到两个用户的用户相似度为1。
可以看出,用户B和用户D的相似度仍然是最高的,而且与上面的方案相比,用户之间的用户相似度差距就比较明显了。
在表4对应的目标行为矩阵中,由于对不同的反馈行为对应的反馈值赋予了不同的映射值,因而能更显著的体现用户之间的相似度,主要原因在于,在上面的方案中,用户对一个资源选择了1,可能仅仅是对这个资源不讨厌或者有点兴趣,也可能是很喜欢,但是其在用户行为向量中的分量都是1,不能体现这种喜欢的程度。而在下面的方案中,可以将这种喜欢的程度体现出来,如果两个用户都很喜欢一个资源,那么其用户相似度就会变得很大。因此上面的方案计算得到的是一个相对比较泛或者比较浅层的用户相似度,而下面的方案可以计算得到比较深层的用户相似度,二者各有特点,并可以结合使用。
对于第二种方法,有两种处理方式:
第一种,将未接收对应的映射值视为0,此后,再根据向量余弦公式计算两个用户行为向量之间的夹角余弦值。
以表3为例:用户A的用户行为向量与用户B的用户行为向量之间的夹角余弦值为用户C的用户行为向量与用户B的用户行为向量之间的夹角余弦值其他用户之间的夹角余弦值计算同理可知,本发明在此不做赘述。
第二种,将未接收对应的映射值视为NULL,在计算时,删除该分量。
以表3为例,在删除后,用户C的用户行为向量为(1,0,1,0,1),用户B在与用户C进行计算时,同样也要删掉第一个分量,因此,其对应的用户行为向量为(1,1,1,1,0),此时,用户B的用户行为向量与用户C的用户行为向量之间的夹角余弦值为
根据上述分析可知,如果将未接收的情况的映射值视为0的话,无论是直接计算向量点积还是计算向量之间的夹角余弦值,其得出的用户相似度本身并没有差别。但如果考虑到将未接收对应的映射值视为NULL,则采用计算向量之间的夹角余弦值会更恰当,因为其可以最大化的排除未接收对应的分量对计算结果产生的干扰,使得计算得到的用户相似度更符合实际情况。
为此,在本实施例中,默认采用第二种方法的第二种情况来计算用户之间的用户相似度。
此外,对于第二种方法的第二种情况,还可做进一步变形,例如向量相似度的结果=“去NULL后所得夹角余弦值”ד未删除分量所占百分比”ד调节系数”;
以上述例子,假设调节系数为0.9,则此时向量相似度的
应当理解的是,这些方案或者计算的变形均在本发明的保护范围之内,在此不做赘述。
第七个实施例:
请参阅图3,本发明第七实施例提供了一种用户相似度计算装置100,包括:
目标用户群获取单元10,用于获取目标用户群;其中,所述目标用户群中包括至少两个用户;
资源选取单元20,用于基于目标用户群,选取出至少一个资源;
目标行为矩阵生成单元30,用于根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;
用户相似度计算单元40,用于根据所述目标行为矩阵,计算用户之间的用户相似度。
优选地,所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
优选地,所述目标行为矩阵生成单元30具体用于,根据反馈数据库、所述目标用户群中的用户及预设的映射规则,生成对应的含映射值的目标行为矩阵;其中,所述映射规则定义了反馈值与映射值之间的映射关系;所述目标行为矩阵的每一行或者每一列表示对应用户的用户行为向量。
则所述用户相似度计算单元40具体用于,根据所述用户行为向量,计算用户之间的用户相似度。
优选地,还包括:
反馈行为分组单元,对所述反馈行为进行分组,同一个反馈行为组中的反馈行为的反馈值对应同一个映射值。
优选地,当所述目标行为矩阵为至少两个时;
则所述用户相似度计算单元40,具体包括:
相似度计算模块,用于根据所述至少两个目标行为矩阵得出每个用户的至少两个用户行为向量,以计算得到用户之间的至少两个向量相似度;
加权模块,用于对计算得到的至少两个向量相似度进行加权求和,生成用户之间的用户相似度。
本实施例提供的用户相似度计算装置100,由于用户行为向量是根据用户对资源的反馈行为生成的,因而其可以在很大程度上表示用户的信息偏好、价值取向或者审美观等。因此,如果两个用户通过用户行为向量计算得出的用户相似度比较高,那么表明二者具有比较相似的信息偏好、价值取向或者审美观等,反之,如果两个用户通过用户行为向量计算得出的用户相似度比较低,那么表明二者不具有比较相似的信息偏好、价值取向或者审美观等。因此,通过本实施例计算得到的用户相似度,可以在互联网社交平台上实现好友的准确推荐,提高互联网社交的交友质量和交友效率。
本发明第八实施例提供的用户相似度计算服务器。该实施例的用户相似度计算服务器包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个用户相似度计算方法实施例中的步骤,例如图1所示的步骤S101。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述用户相似度计算服务器中的执行过程。所述用户相似度计算服务器可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述用户相似度计算服务器可包括,但不仅限于,处理器、存储器,例如所述用户相似度计算服务器还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述用户相似度计算服务器的控制中心,利用各种接口和线路连接整个用户相似度计算服务器的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述用户相似度计算服务器的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述用户相似度计算服务器集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种用户相似度计算方法,其特征在于,包括如下步骤:
获取目标用户群;其中,所述目标用户群中包括至少两个用户;
基于目标用户群,选取出至少一个资源;
根据反馈数据库及选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;
根据所述目标行为矩阵,计算用户之间的用户相似度。
2.根据权利要求1所述的用户相似度计算方法,其特征在于,所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
3.根据权利要求1所述的用户相似度计算方法,其特征在于,所述根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵向量;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;具体为:
根据反馈数据库、所述目标用户群中的用户及预设的映射规则,生成对应的含映射值的目标行为矩阵;其中,所述映射规则定义了反馈值与映射值之间的映射关系;所述目标行为矩阵的每一行或者每一列表示对应用户的用户行为向量;
则所述根据所述目标行为矩阵,计算用户之间的用户相似度,具体为:
根据所述用户行为向量,计算得到向量相似度,以获得用户之间的用户相似度。
4.根据权利要求1所述的用户相似度计算方法,其特征在于,还包括:
对所述反馈行为进行分组,同一个反馈行为组中的反馈行为的反馈值对应同一个映射值。
5.根据权利要求3所述的用户相似度计算方法,其特征在于,当生成的所述目标行为矩阵为至少两个时;
则根据所述目标行为矩阵,计算用户之间的用户相似度,具体包括:
根据所述至少两个目标行为矩阵得出每个用户的至少两个用户行为向量,以计算得到用户之间的至少两个向量相似度;
对计算得到的至少两个向量相似度进行加权求和,生成用户之间的用户相似度。
6.根据权利要求3所述的用户相似度计算方法,其特征在于,当反馈行为为用户未接收到资源时,相应的反馈值设置为0或者空值。
7.一种用户相似度计算装置,其特征在于,包括:
目标用户群获取单元,用于获取目标用户群;其中,所述目标用户群中包括至少两个用户;
资源选取单元,用于基于目标用户群,选取出至少一个资源;
目标行为矩阵生成单元,用于根据反馈数据库及所述选取的至少一个资源,生成与所述目标用户群对应的目标行为矩阵;其中,所述反馈数据库用于存储用户对传播的资源的反馈行为对应的反馈值;
用户相似度计算单元,用于根据所述目标行为矩阵,计算用户之间的用户相似度。
8.根据权利要求7所述的用户相似度计算装置,其特征在于,所选取的资源为在所述目标用户群中传播量大于预设的传播阈值,且分歧度大的资源;其中,所述资源的分歧度通过统计不同用户对该资源的反馈行为得出。
9.一种用户相似度计算服务器,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的用户相似度计算方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6任意一项所述的用户相似度计算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711500033.2A CN108257035A (zh) | 2017-12-30 | 2017-12-30 | 用户相似度计算方法、装置、服务器及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711500033.2A CN108257035A (zh) | 2017-12-30 | 2017-12-30 | 用户相似度计算方法、装置、服务器及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108257035A true CN108257035A (zh) | 2018-07-06 |
Family
ID=62725664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711500033.2A Pending CN108257035A (zh) | 2017-12-30 | 2017-12-30 | 用户相似度计算方法、装置、服务器及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108257035A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428814A (zh) * | 2019-07-25 | 2019-11-08 | 北京蓦然认知科技有限公司 | 一种语音识别的方法及装置 |
CN112989213A (zh) * | 2021-05-19 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、系统、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002364729A2 (en) * | 2001-12-21 | 2003-07-15 | Ut-Battelle, Llc | Method for gathering and summarizing internet information |
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
CN101944218A (zh) * | 2010-01-27 | 2011-01-12 | 北京大学 | 社会网络下的基于图的个性化推荐方法及其系统 |
US20130298256A1 (en) * | 2010-12-21 | 2013-11-07 | Raytheon Bbn Technologies Corp. | Systems and methods for monitoring and mitigating information leaks |
CN104021233A (zh) * | 2014-06-30 | 2014-09-03 | 电子科技大学 | 一种基于社区发现的社交网络好友推荐方法 |
CN104935963A (zh) * | 2015-05-29 | 2015-09-23 | 中国科学院信息工程研究所 | 一种基于时序数据挖掘的视频推荐方法 |
CN105956061A (zh) * | 2016-04-26 | 2016-09-21 | 海信集团有限公司 | 一种用户间相似度确定方法及装置 |
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
-
2017
- 2017-12-30 CN CN201711500033.2A patent/CN108257035A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002364729A2 (en) * | 2001-12-21 | 2003-07-15 | Ut-Battelle, Llc | Method for gathering and summarizing internet information |
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
CN101944218A (zh) * | 2010-01-27 | 2011-01-12 | 北京大学 | 社会网络下的基于图的个性化推荐方法及其系统 |
US20130298256A1 (en) * | 2010-12-21 | 2013-11-07 | Raytheon Bbn Technologies Corp. | Systems and methods for monitoring and mitigating information leaks |
CN104021233A (zh) * | 2014-06-30 | 2014-09-03 | 电子科技大学 | 一种基于社区发现的社交网络好友推荐方法 |
CN104935963A (zh) * | 2015-05-29 | 2015-09-23 | 中国科学院信息工程研究所 | 一种基于时序数据挖掘的视频推荐方法 |
CN105956061A (zh) * | 2016-04-26 | 2016-09-21 | 海信集团有限公司 | 一种用户间相似度确定方法及装置 |
CN107220365A (zh) * | 2017-06-07 | 2017-09-29 | 四川大学 | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428814A (zh) * | 2019-07-25 | 2019-11-08 | 北京蓦然认知科技有限公司 | 一种语音识别的方法及装置 |
CN110428814B (zh) * | 2019-07-25 | 2022-03-01 | 杭州蓦然认知科技有限公司 | 一种语音识别的方法及装置 |
CN112989213A (zh) * | 2021-05-19 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106372249B (zh) | 一种点击率预估方法、装置及电子设备 | |
US20160121224A1 (en) | Method and device for fantasy sports auction recommendations | |
CN105608125B (zh) | 一种信息处理方法及服务器 | |
CN108460627A (zh) | 营销活动方案推送方法、装置、计算机设备及存储介质 | |
CN107016569A (zh) | 一种网络产品的目标用户账号获取方法及装置 | |
CN105677881A (zh) | 一种信息推荐方法、装置及服务器 | |
US10762122B2 (en) | Method and device for assessing quality of multimedia resource | |
CN108595492A (zh) | 内容的推送方法和装置、存储介质、电子装置 | |
CN105512156B (zh) | 点击模型生成方法和装置 | |
Albert et al. | E-commerce promotions personalization via online multiple-choice knapsack with uplift modeling | |
CN110941769B (zh) | 目标帐号的确定方法和装置、电子装置 | |
CN114392560B (zh) | 虚拟场景的运行数据处理方法、装置、设备及存储介质 | |
CN104239421B (zh) | 一种推送应用到终端的方法和系统 | |
CN103700004A (zh) | 一种微博广告服务信息推送方法及装置 | |
CN107220865A (zh) | 对象推荐方法及装置 | |
CN104679791B (zh) | 获取数据包的处理方法和装置 | |
CN108257035A (zh) | 用户相似度计算方法、装置、服务器及可读存储介质 | |
Beliën et al. | Optimization modelling for analyzing fantasy sport games | |
Thakur et al. | A new model and solution method for product line design with pricing | |
CN108769817A (zh) | 节目推荐方法及系统 | |
CN111861542A (zh) | 投放广告的方法、装置、终端和非临时性计算机可读存储介质 | |
CN112565902A (zh) | 一种视频推荐方法、装置及电子设备 | |
Šíma | Market potential of TikTok in the context of the communication range of soccer players on social networks | |
CN113434560A (zh) | 排序方法、电子设备及相关产品 | |
CN114118651A (zh) | 一种评测方法、装置、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |
|
RJ01 | Rejection of invention patent application after publication |