CN103929484B - 为用户整合个性化资源的方法及装置 - Google Patents

为用户整合个性化资源的方法及装置 Download PDF

Info

Publication number
CN103929484B
CN103929484B CN201410158029.2A CN201410158029A CN103929484B CN 103929484 B CN103929484 B CN 103929484B CN 201410158029 A CN201410158029 A CN 201410158029A CN 103929484 B CN103929484 B CN 103929484B
Authority
CN
China
Prior art keywords
user
users
similar
target user
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410158029.2A
Other languages
English (en)
Other versions
CN103929484A (zh
Inventor
唐拯
王志军
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201410158029.2A priority Critical patent/CN103929484B/zh
Publication of CN103929484A publication Critical patent/CN103929484A/zh
Application granted granted Critical
Publication of CN103929484B publication Critical patent/CN103929484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种为用户整合个性化资源的方法及装置。其中的方法包括:确定目标用户的相似用户;获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包。本发明不但获取到目标用户对应的资源,而且,将目标用户的相似用户对应的全部或者部分资源也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为/需求,因此,目标用户对相似用户的资源也具有相对较高的需求概率。通过这种方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户资源的补充,可一次性获取到更为丰富的资源。

Description

为用户整合个性化资源的方法及装置
技术领域
本发明涉及网络技术领域,特别是涉及一种为用户整合个性化资源的方法及装置。
背景技术
云计算(Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。云服务器是云计算服务的重要组成部分,是面向各类互联网用户提供综合业务能力的服务平台,平台整合了传统意义上的互联网应用三大核心要素:计算、存储、网络,面向用户提供公用化的互联网资源。
基于云计算,发展出了各种各样的云服务。所谓云服务,可以理解为提供丰富功能的个性化产品(例如软件),以满足市场上日益膨胀的个性化需求。对于每一种云服务系统,其云服务器上存储了众多用户的信息(例如,手机号码、用户账号等),如前描述,目前云服务器可以向用户提供公用化的互联网资源,但是,由于用户身份、兴趣、需求的不同,这不能满足用户的个性化需求。因此,如何基于众多的用户信息为每个用户提供个性化资源,则是一个值得研究的技术课题。
发明内容
本发明提供了为用户整合个性化资源的方法及装置,能够为目标用户整合个性化资源,满足用户个性化需求。
本发明提供了如下方案:
一种为用户整合个性化资源的方法,包括:确定目标用户的相似用户;获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包。
优选的,所述确定目标用户的相似用户包括:基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
优选的,为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
优选的,为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
优选的,所述被动通信权重大于或等于所述主动通信权重。
优选的,在基于所述多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户之后,如果目标用户及其相似用户对应的资源低于资源包容量,所述方法还包括:基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;将所述目标用户的标签相似用户对应的全部或者部分资源一并整合进所述目标用户的资源包。
优选的,在将标签相似用户对应的资源整合进所述目标用户的资源包之后,如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;如果整合后的资源高于资源包容量,则去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
优选的,所述确定目标用户的相似用户包括:基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
优选的,为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
优选的,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递。
优选的,为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
优选的,所述被动通信权重大于或等于所述主动通信权重。
优选的,还包括:如果通过目标用户及其相似用户获取的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
优选的,所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述通信特征向量包括号码特征向量,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述通信特征向量包括短信特征向量或即时消息特征向量,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
优选的,在整合目标用户的资源包之后,还包括:将所述资源包下发给目标用户的客户端和/或相似用户的客户端。
优选的,所述确定目标用户的相似用户是基于云端记录的多个用户账号信息,确定目标用户的相似用户,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料和/或,新闻资讯。
优选的,根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
一种为用户整合个性化资源的装置,包括:相似用户确定单元,用于确定目标用户的相似用户;资源获取单元,用于获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;资源整合单元,用于将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包。
优选的,所述相似用户确定单元具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
优选的,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
优选的,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
优选的,所述被动通信权重大于或等于所述主动通信权重。
优选的,所述装置还包括:标签相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;所述资源获取单元还用于获取所述标签相似用户对应的资源;所述资源整合单元,还用于将所述目标用户的标签相似用户对应的部分或者全部资源一并整合进所述目标用户的资源包。
优选的,所述装置还包括:资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
优选的,所述相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
优选的,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
优选的,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递。
优选的,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
优选的,所述被动通信权重大于或等于所述主动通信权重。
优选的,还包括:资源包调整单元,用于在通过目标用户及其相似用户获取的资源低于资源包容量时,通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
优选的,其特征在于,所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述通信特征向量包括号码特征向量,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述通信特征向量包括短信特征向量或即时消息特征向量,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信或即时消息的次数。
优选的,还包括:下发单元,用于将所述资源包下发给目标用户的客户端和/或相似用户的客户端。
优选的,所述相似用户确定单元是基于云端记录的多个用户账号信息从而确定目标用户的相似用户,其中,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、和/或,新闻资讯。
优选的,根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明实施例不但获取到目标用户对应的资源,而且,通过确定目标用户的相似用户,继而将目标用户的相似用户对应的全部或者部分资源也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,因此,目标用户对相似用户的资源也具有相对较高的需求概率。通过这种方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户资源的补充,可一次性获取到更为丰富的资源。
以拦截骚扰号码的号码通为例,本发明相比于现有技术能够显著地提升内置号码命中率。因为不同用户的历史行为一般是有差异的,例如用户A经常接听“广告推销”与“房产中介”的陌电,用户B则经常接听“猎头”与“外卖”的陌电,如果对用户A与用户B不加区分地采用相同常用号码集合作为内置号码包,则会造成内置号码的浪费,没有针对性。本发明介绍的技术根据用户的历史行为为其计算更加相关的内置号码包,加入了个性化信息,能够显著改善现有技术的缺陷。
本发明通过确定相似用户,达到了为号码通用户推荐相关内置号码的目的。虽然本发明以号码通为例进行了说明,但是实际上,本发明也可以为用户推荐其相似用户的其他资源,例如手机输入法的细胞词库等等,以及技术资料、音频资源、视频资源、工具软件包、专业文档、会议资讯、影视资源、新闻资讯等等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有生成内置号码包的数据处理示意图;
图2是本发明实施例提供的为用户整合个性化资源的方法流程图;
图3是本发明实施例提供的生成内置号码包的处理示意图;
图4是本发明实施例提供的为用户整合个性化资源的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如前所述,所谓云服务,可以理解为提供丰富功能的个性化产品(例如软件),以满足市场上日益膨胀的个性化需求。例如,号码通是一种云服务,它是一款基于搜索引擎海量数据,实现智能拦截方案的号码工具类软件(也称为应用程序)。通过抓取互联网中的公开电话信息,建立海量号码数据库,让诈骗、中介、推销等骚扰号码无处遁形。面对陌生的骚扰号码,用户可以进行分类“标记”,充分利用智慧众包,让那些数据库之外的漏网骚扰电话一一得到标记。号码通的背后是一个庞大的云端号码库,其来源包括互联网抓取、用户标记、商家合作等等。号码通进行陌电识别的原理是,当陌电打来的时候,联网到云端查询,并将查询得到的陌电信息返回给客户端,客户端将陌电信息展示给用户,从而帮助用户得知陌电的信息。
但是对于2G网络的手机用户,号码通的查询机制存在一定缺陷,即2G网络用户在接电瞬间会发生断网,造成无法联网到云端查询陌电信息,使得一些本来可以识别的陌电无法得到识别。另外,一些在接电时没有打开网络的用户也同样存在这个问题。对此,可通过向客户端下发内置号码包的方式解决。图1是现有生成内置号码包的数据处理示意图。首先根据所有用户的接电拨电历史数据抽取出少量的最常用号码,然后将这部分常用号码经过加密压缩打包后,在客户端网络空闲时下发到客户端本地。这种方案的缺点主要表现在,所有用户的内置号码包都是一样的,没有体现出不同用户的个性化信息。例如,用户A经常受到房产中介电话的骚扰,用户B经常受到猎头的骚扰,在这种情况下,将猎头的号码或广告推销的号码放入用户A的内置号码包就是一种资源浪费,而且对用户A的陌电识别帮助不大。
从上述问题出发,本发明旨在为用户整合个性化资源。例如,通过为每个用户计算生成一个内置在客户端本地的个性化内置号码包,当陌电打来时,号码通可以优先在本地内置号码包中进行查询,如果查询不到再尝试进行联网查询,从而在一定程度上解决用户不联网或无法联网造成的号码查询问题。
参见图2,为本发明实施例的为用户整合个性化资源的方法流程图。该方法包括以下步骤:
S201:确定目标用户的相似用户;
具体可以是基于云端记录的多个用户账号信息,确定目标用户的相似用户;
S202:获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;
具体,从云端资源库中,获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;
S203:将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包。
当目标用户的全部相似用户对应的资源总量与目标用户对应的资源之和满足资源包的容量限制或者满足用户客户端的内存要求时,可以将目标用户的相似用户对应的全部资源整合为该目标用户的资源包。
当目标用户的全部相似用户对应的资源总量较多时,即目标用户的全部形似用户对应的资源总量与目标用户对应的资源之和,大于资源包的容量限制或者大于用户客户端的内存要求时,可以考虑将目标用户的相似用户对应的部分资源整合为该目标用户的资源包,以满足资源包的容量限制或者满足用户客户端的内存要求。
本发明实施例不但获取到目标用户对应的资源,而且,通过确定目标用户的相似用户,继而将目标用户的相似用户对应的全部或者部分资源也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,因此,目标用户对于相似用户对应的资源也具有相对较高的需求概率。通过本发明实施例所述方式,不但可以保证向目标用户整合出特定需求的个性化资源,而且,由于有相似用户对应的资源的补充,可一次性为目标用户获取到更为丰富的资源。
其中,以上是基于云计算技术为背景对本发明实施例进行的说明,即,在确定目标用户的相似用户过程中,是基于云端记录的多个用户账号信息进行的,而用户的资源也是从云端资源库中获取的。但是本领域技术人员应该理解,本发明并不限于云计算技术,可以基于其他已有的数据库资源或未来的其他技术作为实现背景,只要能够实现确定目标用户的相似用户并获取到相似用户对应的资源即可。
如前已述,本发明实施例首先需要确定目标用户的相似用户。对于确定相似用户的方式有多种。以上述号码通软件为例,由于关注的是用户拨打或接听的号码,因此,可以根据用户接电号码或拨电号码进行相似用户的确定。即,可以基于多个用户的接电号码和/或拨电号码的相似度,确定目标用户的相似用户。下面就各种情况分别以不同实施例对相似用户的确定进行详细说明。
第一实施例
在本实施例中,基于多个用户的接电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示接电次数;然后,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
用户A号码特征向量:a1:0,a2:4,a3:3,…,ai:0
用户B号码特征向量:a1:1,a2:6,a3:1,…,ai:0
其中,a1、a2、a3,…,ai代表不同的电话号码,各电话号码对应的值代表用户接听该电话号码的次数,例如上述用户A号码特征向量中“a2:4”表示用户A接听a2这个电话号码的次数为4次。
然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至1之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。相似阈值的设置可以根据最终相似用户对应的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
通过第一实施例中确定相似用户的方式,充分考虑了两个用户被同一号码“骚扰”的概率,从而尽可能准确地确定相似用户。例如,对于经常被房产中介骚扰的多个用户,确定这些用户为相似用户,之后,在后续确定目标用户的资源时,将相似用户对应的骚扰号码也一并包括在号码包中,进一步可以下发给目标用户,当然也可以下发给相似用户,目标用户可以基于号码包进行相应操作,例如,屏蔽号码包中的号码等。
第二实施例
在本实施例中,基于多个用户的拨电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示拨电次数;然后,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
用户A号码特征向量:b1:0,b2:0,b3:1,…,bi:0
用户B号码特征向量:b1:0,b2:1,b3:3,…,bi:1
其中,b1、b2、b3,…,bi代表不同电话号码,各电话号码对应的值代表拨打该号码的次数,例如上述用户A号码特征向量中“b3:1”表示用户A拨打b3这个号码的次数为1。
然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),这两个用户越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至1之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。相似阈值的设置可以根据最终相似用户的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
通过第二实施例中确定相似用户的方式,充分考虑了用户拨打同一号码的概率。例如,对于具有向某产品客服拨打记录的用户,如向苹果公司客服拨电历史的用户,可以确定这些用户都使用iphone或ipad等苹果公司终端,那么就可以在后续针对这些相似用户整合适用于苹果终端操作系统的软件或产品。再比如,如果用户经常拨打某类电话(例如房产中介电话),就可以把此类的相似用户的资源(例如房产信息、相关百科知识)也推荐给此用户。
第三实施例
在本实施例中,基于多个用户的接电电话号码以及拨电电话号码的相似度,确定目标用户的相似用户。具体的,首先,为每个用户建立号码特征向量,其中,每一维特征表示一个电话号码,可以是云端号码,也可以是非云端号码,每一维特征值表示“接电次数*接电权重+拨电次数*拨电权重”,接电权重和拨电权重可以是事先预先设置的常量,由于重点关注非法号码对用户的骚扰,因此优选情况下,可以设定接电权重大于或等于拨电权重;继而,通过判断两个用户的号码特征向量的余弦相似度确定两个用户的相似程度。
例如,要确定用户A和用户B的相似程度,分别为用户A和用户B建立i维号码特征向量:
用户A号码特征向量:c1:(A-Cj1*A-Rj1+A-Bc1*A-Rb1),c2:(A-Cj2*A-Rj2+A-Bc2*A-Rb2),c3:(A-Cj3*A-Rj3+A-Bc3*A-Rb3),…,ci:(A-Cji*A-Rji+A-Bci*A-Rbi)
用户B号码特征向量:c1:(B-Cj1*B-Rj1+B-Bc1*B-Rb1),c2:(B-Cj2*B-Rj2+B-Bc2*B-Rb2),c3:(B-Cj3*B-Rj3+B-Bc3*B-Rb3),…,ci:(B-Cji*B-Rji+B-Bci*B-Rbi)
其中,c1、c2、c3,…,ci代表不同电话号码,各电话号码对应的值代表接听该号码以及拨打该号码的情况。例如,用户A号码特征向量中“c1:(A-Cj1*A-Rj1+A-Bc1*A-Rb1)”表示用户A对于电话号码c1的特征值为(A-Cj1*A-Rj1+A-Bc1*A-Rb1),其中,A-Cj1表示用户A接听电话号码c1的次数,A-Rj1表示对于用户A而言电话号码c1的接电权重,A-Bc1表示用户A拨打电话号码c1的次数,A-Rb1表示对于用户A而言电话号码c1的拨电权重。
如前已述,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重可以大于拨电权重,即,A-Rj1大于A-Rb1。但是应该理解,对于不同电话号码,接电权重可以相同,也可以不相同。同理,对于不同电话号码,拨电权重可以相同,也可以不同,对此不作限制。例如,A-Rj1与A-Rj2相同或不同,等等。例如,如果骚扰电话或者推销电话用户接到的很多,远大于房产中介或教育培培训的电话等,可以考虑增加骚扰电话或者推销电话的接电权重。比如,推销电话的接电权重表示为A-Rj1,培训电话的接电权重表示为A-Rj2,可以设置A-Rj1大于A-Rj2,例如,A-Rj1=80%,A-Rj2=30%。
关于接电权重可以根据接电的标签类型进行统一设定,比如标签为“房产中介”的所有接电电话的接电权重可以设定为同一个值。当然对于标签相同,但对应电话号码归宿地或实际位置不同的接电电话,也可以设置不同的接电权重。具体设置标准可以根据目标用户的实际需求进行设定,在此不再详述。
然后,通过判断用户A和用户B的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个相似阈值,在两个用户相似度等于或大于该相似阈值情况下,确定两个用户为相似用户。本领域技术人员可以理解,相似阈值越大,要求的用户相似程度越高。例如,相似阈值优选范围在0.6至1之间。假设,设置相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为相似用户;再假设,设置相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为相似用户。同上所述相似阈值的设置可以根据最终相似用户的资源数量的多少进行反向调节设定,相似阈值越接近1.0,目标用户与相似用户的相似度越高,即相似用户对应的资源对于目标用户的利用价值越高。
该第三实施例相较于第一实施例和第二实施例更为优选,因为充分考虑了用户拨打以及接听同一电话号码的概率,因此可以更为精准地确定目标用户的相似用户。当然,第一、二实施例具体分别针对了用户拨打,用户接听同一电话号码的概率,对于仅对拨电或者接电有需求的目标用户来讲,通过上述方法获得的号码包(本发明实施例所述资源包的一种)就更为准确和适合。
以上三个实施例是基于用户接听或/和拨打的号码特征向量进行相似用户判断,这种基于用户接听或/和拨打的号码来确定相似用户存在一些缺陷,例如用户特征向量大部分维度的特征值都为0,造成确定的相似用户较少。在实际计算相似用户时可以结合用户接听或拨打云端电话号码的标签来进行辅助判断。也就是,除了号码特征向量,还可以引入标签特征向量进行替代或补充,从而更好更广泛地确定相似用户。
第四实施例
在基于上述第一实施例、第二实施例或第三实施例,确定目标用户的相似用户之后,如果通过目标用户及其相似用户对应的资源低于资源包容量,优选地,可进一步执行以下步骤:基于多个用户的标签相似度,确定目标用户的标签相似用户;并且,在步骤203中,将目标用户的标签相似用户对应的全部或者部分资源一并整合进目标用户的资源包。如果整合后的资源仍低于资源包容量,则还可以通过目标用户的归属地或当前位置查找到热门资源,和/或目标用户拨电号码或接电号码的标签查找到热门资源,将全部或者部分所述热门资源补充进资源包。如果整合后的资源高于资源包容量,则可以去除标签相似用户对应的资源的一部分,使得整合后的资源等于资源包容量。
其中,标签相似度的确定过程与号码相似度的确定过程类似,也可以有三种方式。
第一种方式是,为每个用户建立标签特征向量,其中,每一维特征表示一个云端号码标签,每一维特征值表示接电次数;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
用户A标签特征向量:d1:39,d2:19,d3:0,…,di:8
用户B标签特征向量:d1:20,d2:4,d3:25,…,di:5
其中,d1、d2、d3,…,di代表不同标签,各标签对应的值代表用户接听属于该标签的电话号码的次数,例如上述用户A标签特征向量中“d1:39”表示用户A接听属于标签d1的电话号码的次数为39次。
然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至1之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。
第二种方式是,为每个用户建立标签特征向量,其中,每一维特征表示一个云端号码标签,每一维特征值表示拨电次数;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
用户A标签特征向量:e1:5,e2:9,e3:0,…,ei:23
用户B标签特征向量:e1:10,e2:8,e3:3,…,ei:12
其中,e1、e2、e3,…,ei代表不同标签,各标签对应的值代表用户拨打属于该标签的号码的次数,例如上述用户A标签特征向量中“e1:5”表示用户A拨打属于标签e1的号码的次数为5次。
然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至1之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。
第三种方式是,为每个用户建立标签特征向量,其中,每一维特征表示一个云端号码标签,每一维特征值表示“接电次数*接电权重+拨电次数*拨电权重”,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重可以大于或等于拨电权重;继而,通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,云端号码标签包括但不限于:房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、快递,等等。
例如,要确定用户A和用户B的标签相似程度,分别为用户A和用户B建立i维标签特征向量:
用户A标签特征向量:f1:(A-Cj1*A-Rj1+A-Bc1*A-Rb1),f2:(A-Cj2*A-Rj2+A-Bc2*A-Rb2),f3:(A-Cj3*A-Rj3+A-Bc3*A-Rb3),…,fi:(A-Cji*A-Rji+A-Bci*A-Rbi)
用户B标签特征向量:f1:(B-Cj1*B-Rj1+B-Bc1*B-Rb1),f2:(B-Cj2*B-Rj2+B-Bc2*B-Rb2),f3:(B-Cj3*B-Rj3+B-Bc3*B-Rb3),…,fi:(B-Cji*B-Rji+B-Bci*B-Rbi)
其中,f1、f2、f3,…,fi代表不同标签,各标签对应的值代表用户接听和拨打属于该标签的号码的次数,例如用户A标签特征向量中“f1:(A-Cj1*A-Rj1+A-Bc1*A-Rb1)”表示用户A对于标签f1的特征值为(A-Cj1*A-Rj1+A-Bc1*A-Rb1),其中,A-Cj1表示用户A接听属于标签f1的号码的次数,A-Rj1表示对于用户A而言属于标签f1的号码的接电权重,A-Bc1表示用户A拨打属于标签f1的号码的次数,A-Rb1表示对于用户A而言属于标签f1的号码的拨电权重。
如前已述,由于重点关注非法号码对用户的骚扰,因此优选情况下,接电权重大于或等于拨电权重,即,A-Rj1大于A-Rb1。但是应该理解,对于不同标签的号码,接电权重可以相同,也可以不相同,同理,对于不同标签的号码,拨电权重可以相同,也可以不同,本发明对此不作限制。例如,A-Rj1与A-Rj2可以相同或不同,等等。例如,如果骚扰电话或者推销电话用户接到的很多,远大于中介或教育培训的电话等,可以考虑增加骚扰电话或者推销电话标签的电话的接电权重。比如,推销电话标签的电话的接电权重表示为A-Rj1,教育培训电话标签的电话的接电权重表示为A-Rj2,可以设置A-Rj1大于A-Rj2,例如,A-Rj1=80%,A-Rj2=30%等。
然后,通过判断用户A和用户B的标签特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大(即余弦夹角越小),那么这两个用户就越相似。具体实现中,可以设置一个标签相似阈值,在两个用户标签相似度等于或大于该标签相似阈值情况下,确定两个用户为标签相似用户。
本领域技术人员可以理解,标签相似阈值越大,要求的用户相似程度越高。例如,标签相似阈值优选范围在0.6至1之间。假设,设置标签相似阈值为0.8,那么,两个用户相似度等于或大于0.8的情况下,确定这两个用户为标签相似用户;再假设,设置标签相似阈值为0.9,那么,两个用户相似度等于或大于0.9的情况下,确定这两个用户为标签相似用户。同上所述标签相似阈值的设置可以根据最终标签相似用户的资源数量的多少进行反向调节设定,标签相似阈值越接近1.0,目标用户与标签相似用户的相似度越高,即标签相似用户对应的资源对于目标用户的利用价值越高。
可以理解,通常通过标签特征向量的方式确定的标签相似用户,比号码特征向量的方式确定的相似用户要多。虽然标签相似度没有号码相似度体现的用户相似程度高,但是,通过标签相似度进行的标签相似用户判定具有节省资源的优点,这是因为,两个用户拨打或接听同一个标签的号码的概率要比拨打或接听同一个号码的概率高很多,例如,用户A和用户B都有可能受到属于“房产中介”标签的号码的骚扰,但是不一定是相同的号码的骚扰。
由此,在确定目标用户的相似用户的过程中,可以首先确定目标用户的标签相似用户,继而在标签相似用户中继续筛选出相似用户,从而达到节省资源的目的。下面在第五实施例中对此情况进行介绍。
第五实施例
在该实施例中,首先,基于多个用户的接电电话号码和/或拨电电话号码的标签相似度,确定目标用户的标签相似用户;然后,再基于多个标签相似用户的接电电话号码和/或拨电电话号码的相似度,确定目标用户的相似用户。其中确定标签相似用户的方式请参见第四实施例描述的三种方式,确定相似用户的实现请参见第一实施例、第二实施例、第三实施例描述的三种方式,此处不再赘述。可见,确定标签相似用户至少有三种方式(第四实施例描述的三种方式),确定相似用户的方式也至少有三种方式(第一实施例、第二实施例、第三实施例),因此,该第五实施例的具体实现方式有多种组合。
第五实施例最优的一种方式是,采用第四实施例的第三种方式确定标签相似用户,进而采用第三实施例确定相似用户,这是因为,第四实施例的第三种方式充分考虑了用户拨打以及接听同一标签的电话号码的概率,因此可以更为精准地确定标签相似用户,同理,第三实施例充分考虑了用户拨打以及接听同一号码的概率,因此可以更为精准地确定相似用户。
当然除了上述最优的方式之外,其余组合方式也是具有实际意义的。比如,采用第四实施例的第一种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第一种方式充分考虑了用户接听同一标签的号码的概率,同理,第一实施例充分考虑了用户接听同一号码的概率,可见,这种方式适合用户用于防止非法电话骚扰的情形。
再比如,采用第四实施例的第二种方式确定标签相似用户,采用第二实施例确定相似用户,这种情况下,第四实施例的第二种方式充分考虑了用户拨打同一标签的号码的概率,同理,第二实施例充分考虑了用户拨打同一号码的概率,可见,这种方式适合通过用户拨打记录确定用户行为的情况。
另外,通过拨打与接听的交叉组合,也是可行的。比如,采用第四实施例的第一种方式确定标签相似用户,进而采用第二实施例确定相似用户,这种情况下,第四实施例的第一种方式充分考虑了用户接听同一标签的号码的概率,而第二实施例充分考虑了用户拨打同一号码的概率。
再比如,采用第四实施例的第二种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第二种方式充分考虑了用户拨打同一标签的号码的概率,而第一实施例充分考虑了用户接听同一号码的概率。
再比如,采用第四实施例的第三种方式确定标签相似用户,采用第一实施例确定相似用户,这种情况下,第四实施例的第三种方式充分考虑了用户接听及拨打同一标签的号码的概率,而第一实施例充分考虑了用户接听同一号码的概率。总之,通过排列组合,一共有九种实现方式,此处不一一赘述。
上述仅以号码通为例进行说明,但是本领域技术人员应该理解,本发明实施例对于其他应用场景/需求同样适用。实际上,对于通过云技术为用户提供资源的方案,本发明实施例都适用。例如,如果云端针对特定群体的用户,例如同属于某一技术领域的人员,可以向他们提供该技术领域的会议咨询、技术资料等个性化资源包。因此,本发明实施例中提到的资源包包括但不限于内置号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、和/或,新闻资讯。本发明实施例中提到的用户账户信息包括但不限于电话号码和/或用户个人信息。
本发明适用于各类通信场景。例如,上述号码通实施例中是以接听和/或拨打电话为例进行说明的,具体的,是基于用户接电和/或拨电次数的统计从而确定相似用户。可以理解,本发明是基于多个用户的被动通信信息和/或主动通信信息的相似度,确定目标用户的相似用户。其中,除了上述介绍的接电和拨电通信方式之外,对于短信或即时通信工具(例如,微信、QQ、飞信)等通信方式,本发明都是适用的。例如,对于短信或即时通信工具方式,被动通信信息是指用户接收到的短信或用户接收到的即时消息,主动通信信息是指用户发送的短信或用户发送的即时消息,那么,通过建立短信或即时消息特征向量,并统计用户接收到的短信或即时消息的次数以及用户发送短信或即时消息的次数,利用上述介绍的各个实施例方法即可确定目标用户的相似用户。
基于云技术的云服务为用户提供丰富的资源,其来源包括互联网抓取、用户标记、商家合作等等。云端服务器可以根据用户id识别出唯一的用户,根据该用户id查找到该用户对应的资源。其中,用户id是唯一识别用户客户端(终端)的唯一标识信息,具体地,可以根据用户客户端的IMEI(International Mobile Equipment Identity,国际移动设备身份码)或/和IMSI(International Mobile Subscriber Identification Number,国际移动用户识别码)作为用户id识别出同一个用户。本发明实施例除了获取目标用户自身对应的资源之外,还将目标用户的相似用户的对应的资源的部分或者全部也一并获取到,以此填补到目标用户的资源包中。
本发明实施例不但获取到目标用户对应的资源,而且,将目标用户的相似用户对应的资源的部分或者全部也一并填补到目标用户的资源包中,由于相似用户之间具有相似的行为或需求,因此,目标用户对相似用户对应的资源也具有相对较高的需求概率。通过这种方式,不但保证了向目标用户整合出特定需求的个性化资源,而且,由于相似用户对应的资源的补充,可一次性获取到更为丰富的资源。
在上述步骤之后,如果通过目标用户及其相似用户获取的资源低于资源包容量,还可以进一步填补资源包,以避免容量浪费。例如,可以通过目标用户的归属地查找到热门资源和/或目标用户拨电号码或接电号码的标签查找到热门资源,将全部或者部分热门资源补充进资源包。
另外,在上述S201-S203步骤之后,优选执行以下步骤:将资源包下发给目标用户的客户端,其中,该资源包是采用上述介绍的任何一种方法获得的资源包。当然也可以将资源包下发给相似用户的客户端,或者将资源包下发给目标用户和相似用户的客户端。将资源包下发给目标用户或相似用户的客户端的好处是,当目标用户客户端无法联网时(例如上面提到的2G网络的手机用户、没有打开网络的用户等情况),就可以直接在本地使用该预先获取的资源包。
下面以号码通为例对本发明实施例进行说明。
参见图3,为基于本发明的生成内置号码包的处理示意图。如图3所示,以用户A为目标用户,为该用户A生成内置号码包的过程包括四个步骤。首先,确定用户A相似用户;其次,确定用户A及其相似用户的接电或拨电号码集合;然后,可以对该号码集合进行必要的操作例如过滤、加密、压缩等,生成用户A的内置号码包;最后,在空闲时或其他情形(例如用户申请时),将该内置号码包下发给用户A客户端。本领域技术人员可以理解,也可以将内置号码包下发给相似用户。或者,在将内置号码包下发给目标用户的同时,也可以将内置号码包下发给相似用户。
下面结合图3,对实现关键技术点进行详细说明。
首先,明确识别出同一个号码通用户。在号码通用户的历史接电、拨电行为日志中,如果两个用户的IMEI号(针对手机)一致,则认为是同一用户;或者,如果两个用户的IMSI号(针对手机卡)一致,则认为是同一用户;或者,优选的,如果两个用户的IMEI号(针对手机)与IMSI号(针对手机卡)都一致(这样可以更为准确地确定用户),则认为是同一用户。将用户的IMEI和IMSI号连起来作为用户的id(也可以只用IMEI或IMSI作为用户id),计算用户内置号码包以及为用户下发内置号码包都可以根据这个id进行的。
其次,确定目标用户的相似用户。其中,确定目标用户的相似用户的方法有两类方式,介绍如下:
(1)基于“号码相似”来确定相似用户
其中,“号码相似”是指用户接听或拨打的号码的相似程度。
如前在第一实施例至第三实施例介绍的,每个用户可以表示为一个号码特征向量,特征向量中的每一维特征代表一个电话号码,该电话号码可以是云端号码也可以是非云端号码,每一维特征值可以是该维特征所对应号码的接电次数,这样利于预测用户的接电行为。特征值也可以是该维特征所对应号码的拨电次数,这样利于预测用户的拨电行为。优选地,本发明实施例中采用的特征值的含义是:该维特征所对应号码的“接电次数*接电权重+拨电次数*拨电权重”,接电权重与拨电权重是事先设定好的常量或者可调变量,考虑到号码通重点预测接电的信息(防止骚扰电话),所以优选地,接电权重大于或等于拨电权重。除此优选情况之外,当然,特征值的含义还可以仅表示该维特征所对应号码的接电次数,同理,特征值的含义还可以仅表示该维特征所对应号码的拨电次数。通过判断两个用户的号码特征向量的余弦相似度来确定这两个用户的相似程度,两个用户特征向量的余弦相似度越大,即余弦夹角越小,那么这两个用户就越相似。
(2)基于“号码相似”与“标签相似”结合的方式,确定相似用户
其中,“标签相似”是指用户接听或拨打的云端号码的标签的相似程度。
仅基于“号码相似”来确定相似用户的方式基于用户接听或拨打的号码来确定相似用户存在一些缺陷,例如当用户特征向量大部分维度的特征值都为0时,确定的相似用户数量就较少。在实际计算相似用户时,可进一步需要结合用户接打云端号码的标签来进行辅助判断。具体方法是,如前面第四实施例介绍的,为每个用户维护一个标签特征向量,每一维代表该用户接打云端号码的标签(例如“房产中介”、“广告推销”、“骚扰电话”、“快递”、“推销电话”、“贷款”等等),优选的,每一维特征的特征值的含义可以是用户对该维特征所对应标签的云端号码的接打次数加权和,即“接电次数*接电权重+拨电次数*拨电权重”。除此优选情况之外,当然,特征值的含义还可以仅表示用户对该维特征所对应标签的云端号码的“接电次数”,同理,特征值的含义还可以仅表示用户对该维特征所对应标签的云端号码的“拨电次数”。可以理解,标签特征向量比号码特征向量的维度小很多,因为成百上千的号码都可以映射为同一个标签,这使得计算效率大大提高。
“号码相似”与“标签相似”结合的方式至少包括以下两种。
(2.1)首先采用“号码相似”确定相似用户,然后采用“标签相似”对相似用户进行补充。先判断相似用户,如果通过相似用户确定的号码已经足够内置号码包的容量,就可以不判断标签相似用户,如果没达到,就可以进一步进行标签相似用户的判断,即利用标签相似用户的接电或拨电号码填充内置号码包。可见,这种方式是通过标签相似用户对相似用户进行辅助。
(2.2)首先采用“标签相似”确定标签相似用户,然后采用“号码相似”从标签相似用户中确定相似用户。可以理解,虽然标签相似用户所体现的相似度没有用号码相似用户体现出来的相似度质量高,但为了节省计算资源,可以考虑当两个用户的标签相同的情况下,再去判断他们的号码是否相似,即先确定出标签相似用户,再从标签相似用户中确定相似用户。
仍以图3为例,为一个用户生成个性化内置号码包的基本步骤如下:
(a)确定用户A接听或/和拨打过的云端号码,并将这些云端号码放进用户A的内置号码包;
(b)通过上述(1)或(2)的方式,确定与用户A相似的若干相似用户;
(c)确定这些相似用户接听或拨打过而用户A没有接听或拨打过的云端号码,全部或者部分并放入用户A的内置号码包;
(d)如果第c步生成的号码量不够多,即,获取的号码量低于用户A的内置号码包最大容量,则优选地,可进一步利用用户A的归属地以及用户A拨电、接电号码的标签等信息,为用户A补充一些热门号码。
需要说明的是,为了节省下发资源,如果第c步生成的号码量不够多,可进一步利用该用户的归属地、该用户的当前位置以及该用户拨电接电号码的标签等信息为该用户补充一些热门的陌电。这样做的好处是:现在每个内置号码包的大小例如可以是5000个号码,如果这个用户的个性化数据不多,则该用户的个性化号码有可能凑不到5000个,这时就用一些热门陌电号码把他的个性包凑成5000个,避免下发浪费。
具体实例
一个用户接打电话号码的集合为{A,B,C,D},该用户有3个相似用户,第1个相似用户接打电话号码的集合为{A,B,C,E},第2个相似用户接打号码的集合为{A,C,E,F},第3个相似用户接打电话号码的集合为{B,C,G,H}。那么该用户的相似用户接打过而该用户没有接打过的号码集合为{E,F,G,H}。例如其中H号码不是云端号码,即没有H号码的标签信息。则将{A,B,C,D,E,F,G}这些号码放入该用户的内置号码包。如果号码H经过相似用户的标注而成为云端号码,则也将H放入该用户的内置号码包。
本发明相比于现有技术能够显著地提升内置号码命中率。因为不同用户的历史行为一般是有差异的,例如用户A经常接听“广告推销”与“房产中介”的陌电,用户B则经常接听“猎头”与“外卖”的陌电,如果对用户A与用户B不加区分地采用相同常用号码集合作为内置号码包,则会造成内置号码的浪费,没有针对性。本发明介绍的技术根据用户的历史行为为其计算更加相关的内置号码包,加入了个性化信息,能够显著改善现有技术的缺陷。
本发明通过确定相似用户,达到了为号码通用户推荐相关内置号码的目的。虽然本发明以号码通为例进行了说明,但是实际上,也可以为一个用户推荐其相似用户的其他资源,例如手机输入法的细胞词库等等,以及前述的技术资料、视频资源等等。
与上述方法相对应,本发明还提供一种为用户整合个性化资源的装置。本领域技术人员可以理解,该装置可以是由硬件、软件或者软硬件结合实现。具体的,可以是指云端的设备(例如云服务器)或者云端的设备(例如云服务器)内的功能实体。
参见图4,为本发明为用户整合个性化资源的装置的结构示意图。该装置包括相似用户确定单元401、资源获取单元402以及资源整合单元403。
其中:
相似用户确定单元401,用于确定目标用户的相似用户;
优选地,相似用户确定单元401是基于云端记录的多个用户账号信息从而确定目标用户的相似用户,其中,所述用户账户信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、和/或,新闻资讯。
资源获取单元402,用于获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;
资源整合单元403,用于将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包。
优选地,根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
其中,确定目标用户的相似用户有多种实现方式。
一种实现方式中,相似用户确定单元401具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。具体地,相似用户确定单元401用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户的相似程度,确定是否为相似用户;
或者,相似用户确定单元401,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户的相似程度,确定是否为相似用户。其中,所述被动通信权重可以大于或等于所述主动通信权重。
另一种实现方式中,该装置还包括:标签相似用户确定单元404,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;此情况下,资源获取单元402还用于获取所述标签相似用户对应的资源,以及,资源整合单元403,还用于将所述目标用户的标签相似用户对应的部分或者全部资源一并整合进所述目标用户的资源包。
优选地,该装置还包括资源包调整单元406,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地、或目标用户的当前位置,查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
再有一种实现方式中,相似用户确定单元401,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
在确定标签相似用户过程中,所述标签相似用户确定单元404或者相似用户确定单元401,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户;或者,所述标签相似用户确定单元404或者相似用户确定单元401,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。其中,所述被动通信权重大于或等于所述主动通信权重。优选地,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、贷款、外卖、猎头、快递等等。
优选地,该装置还包括:资源包调整单元406,用于在通过目标用户及其相似用户获取的资源低于资源包容量时,通过目标用户的归属地、或者目标用户的当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
优选地,所述被动通信信息可以包括接电号码,所述主动通信信息包括拨电号码,所述通信特征向量包括号码特征向量,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述通信特征向量包括短信或即时消息特征向量,所述被动通信次数包括用户接收到的短信或即时消息的次数,所述主动通信次数包括用户发送短信或即时消息的次数。
优选地,该装置还包括:下发单元405,用于将所述资源包下发给目标用户或相似用户的客户端。下发单元405也可以将所述资源包下发给目标用户和相似用户的客户端。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的为用户整合个性化资源的方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (32)

1.一种为用户整合个性化资源的方法,其特征在于,包括:
确定目标用户的相似用户;
获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;
将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包;
将所述资源包下发给目标用户的客户端和/或相似用户的客户端,为每个用户计算生成一个内置在客户端本地的个性化内置号码包,当陌生电话打来时,通过所述内置号码包进行查询,如果查询不到再进行联网查询。
2.根据权利要求1所述的方法,其特征在于,所述确定目标用户的相似用户包括:
基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
3.根据权利要求2所述的方法,其特征在于,
为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;
通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
4.根据权利要求2所述的方法,其特征在于,
为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;
通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
5.根据权利要求4所述的方法,其特征在于,所述被动通信权重大于或等于所述主动通信权重。
6.根据权利要求2所述的方法,其特征在于,在基于所述多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户之后,如果目标用户及其相似用户对应的资源低于资源包容量,所述方法还包括:
基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;
将所述目标用户的标签相似用户对应的全部或者部分资源一并整合进所述目标用户的资源包。
7.根据权利要求6所述的方法,其特征在于,在将标签相似用户对应的资源整合进所述目标用户的资源包之后,
如果整合后的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;
如果整合后的资源高于资源包容量,则去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
8.根据权利要求1所述的方法,其特征在于,所述确定目标用户的相似用户包括:
基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;
基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
9.根据权利要求8所述的方法,其特征在于,
为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;
通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
10.根据权利要求9所述的方法,其特征在于,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、和/或快递。
11.根据权利要求8所述的方法,其特征在于,
为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;
通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
12.根据权利要求11所述的方法,其特征在于,所述被动通信权重大于或等于所述主动通信权重。
13.根据权利要求1所述的方法,其特征在于,还包括:
如果通过目标用户及其相似用户获取的资源低于资源包容量,则通过目标用户的归属地或当前位置查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
14.根据权利要求2-13任一项所述的方法,其特征在于,
所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述通信特征向量包括号码特征向量,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,
所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述通信特征向量包括短信特征向量或即时消息特征向量,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信的次数或即时消息的次数。
15.根据权利要求1所述的方法,其特征在于,所述确定目标用户的相似用户是基于云端记录的多个用户账号信息,确定目标用户的相似用户,所述用户账号信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、和/或新闻资讯。
16.根据权利要求1所述的方法,其特征在于,根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
17.一种为用户整合个性化资源的装置,其特征在于,包括:
相似用户确定单元,用于确定目标用户的相似用户;
资源获取单元,用于获取目标用户对应的资源,以及,获取目标用户的相似用户对应的资源;
资源整合单元,用于将目标用户对应的资源以及目标用户的相似用户对应的全部或者部分资源整合为该目标用户的资源包;
下发单元,用于将所述资源包下发给目标用户的客户端和/或相似用户的客户端,为每个用户计算生成一个内置在客户端本地的个性化内置号码包,当陌生电话打来时,通过内置号码包进行查询,如果查询不到再进行联网查询。
18.根据权利要求17所述的装置,其特征在于,所述相似用户确定单元具体用于,基于多个用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
19.根据权利要求18所述的装置,其特征在于,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
20.根据权利要求18所述的装置,其特征在于,所述相似用户确定单元,用于为每个用户建立通信特征向量,其中,每一维特征表示一个通信信息;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的通信特征向量的余弦相似度确定两个用户是否为相似用户。
21.根据权利要求20所述的装置,其特征在于,所述被动通信权重大于或等于所述主动通信权重。
22.根据权利要求18所述的装置,其特征在于,所述装置还包括:
标签相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;
所述资源获取单元还用于获取所述标签相似用户对应的资源;所述资源整合单元,还用于将所述目标用户的标签相似用户对应的部分或者全部资源一并整合进所述目标用户的资源包。
23.根据权利要求22所述的装置,其特征在于,所述装置还包括:
资源包调整单元,在整合后的资源低于资源包容量情况下,用于通过目标用户的归属地查找到热门资源,和/或,目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包;在整合后的资源高于资源包容量情况下,用于去除标签相似用户对应的资源的一部分,以满足资源包容量限制。
24.根据权利要求17所述的装置,其特征在于,所述相似用户确定单元,用于基于多个用户的被动通信信息和/或主动通信信息的标签相似度,确定所述目标用户的标签相似用户;并且,基于多个标签相似用户的被动通信信息和/或主动通信信息的相似度,确定所述目标用户的相似用户。
25.根据权利要求22或24所述的装置,其特征在于,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示被动通信次数或主动通信次数;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
26.根据权利要求25所述的装置,其特征在于,所述云端通信信息标签包括房产中介、广告推销、骚扰电话、推销电话、教育培训、贷款、外卖、猎头、和/或快递。
27.根据权利要求22或24所述的装置,其特征在于,所述标签相似用户确定单元或者相似用户确定单元,用于为每个用户建立标签特征向量,其中,每一维特征表示一个云端通信信息标签;每一维特征值表示:被动通信次数*被动通信权重+主动通信次数*主动通信权重;并通过判断两个用户的标签特征向量的余弦相似度确定两个用户是否为标签相似用户。
28.根据权利要求27所述的装置,其特征在于,所述被动通信权重大于或等于所述主动通信权重。
29.根据权利要求17所述的装置,其特征在于,还包括:
资源包调整单元,用于在通过目标用户及其相似用户获取的资源低于资源包容量时,通过目标用户的归属地或当前位置查找到热门资源和/或目标用户主动通信信息或被动通信信息的标签查找到热门资源,将全部或者部分所述热门资源补充进所述资源包。
30.根据权利要求18-24任一项所述的装置,其特征在于,
所述被动通信信息包括接电号码,所述主动通信信息包括拨电号码,所述通信特征向量包括号码特征向量,所述被动通信次数包括接电次数,所述主动通信次数包括拨电次数;或者,
所述被动通信信息包括所述用户接收到的短信或所述用户接收到的即时消息,所述主动通信信息包括所述用户发送的短信或所述用户发送的即时消息,所述通信特征向量包括短信特征向量或即时消息特征向量,所述被动通信次数包括用户接收到的短信的次数或即时消息的次数,所述主动通信次数包括用户发送短信或即时消息的次数。
31.根据权利要求17所述的装置,其特征在于,所述相似用户确定单元是基于云端记录的多个用户账号信息从而确定目标用户的相似用户,其中,所述用户账号信息包括电话号码和/或用户个人信息;所述资源包包括号码包、工具软件包、专业文档、会议资讯、音频资源、视频资料、和/或新闻资讯。
32.根据权利要求17所述的装置,其特征在于,根据用户客户端的IMEI或/和IMSI作为用户id识别出同一个用户。
CN201410158029.2A 2014-04-18 2014-04-18 为用户整合个性化资源的方法及装置 Active CN103929484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410158029.2A CN103929484B (zh) 2014-04-18 2014-04-18 为用户整合个性化资源的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410158029.2A CN103929484B (zh) 2014-04-18 2014-04-18 为用户整合个性化资源的方法及装置

Publications (2)

Publication Number Publication Date
CN103929484A CN103929484A (zh) 2014-07-16
CN103929484B true CN103929484B (zh) 2018-01-09

Family

ID=51147556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410158029.2A Active CN103929484B (zh) 2014-04-18 2014-04-18 为用户整合个性化资源的方法及装置

Country Status (1)

Country Link
CN (1) CN103929484B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410700B (zh) * 2014-12-04 2018-04-03 北京奇虎科技有限公司 下发骚扰电话列表的方法、骚扰电话拦截方法及系统
CN106843823A (zh) * 2015-12-07 2017-06-13 北京搜狗科技发展有限公司 一种信息处理方法、装置及终端
CN105898085B (zh) * 2016-04-05 2018-12-11 腾讯科技(深圳)有限公司 骚扰通信账号的识别方法及装置
CN106951068A (zh) * 2017-02-23 2017-07-14 咪咕音乐有限公司 一种音频推送方法及装置
CN108629609A (zh) * 2017-03-22 2018-10-09 中国移动通信集团河北有限公司 匹配终端的方法和装置
CN107766446A (zh) * 2017-09-22 2018-03-06 北京网众共创科技有限公司 资讯信息的推送方法、装置、存储介质及处理器
CN108090206A (zh) * 2017-12-28 2018-05-29 北京小米移动软件有限公司 评论信息的排序方法及装置、电子设备
CN110611689B (zh) * 2018-06-15 2022-06-28 中移动信息技术有限公司 一种信息识别方法、设备及计算机可读存储介质
CN113457108B (zh) * 2021-07-07 2022-07-15 首都体育学院 一种基于认知表征的运动成绩提高方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957834A (zh) * 2010-08-12 2011-01-26 百度在线网络技术(北京)有限公司 一种基于用户特征进行内容推荐的方法与设备
CN102411596A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种信息推荐方法及系统
CN102521249A (zh) * 2011-11-14 2012-06-27 百度在线网络技术(北京)有限公司 一种基于同质资源的展现方法及设备
CN103200279A (zh) * 2013-04-28 2013-07-10 百度在线网络技术(北京)有限公司 推荐方法和云端服务器
CN103218366A (zh) * 2012-01-20 2013-07-24 腾讯科技(深圳)有限公司 下载资源推荐方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957834A (zh) * 2010-08-12 2011-01-26 百度在线网络技术(北京)有限公司 一种基于用户特征进行内容推荐的方法与设备
CN102411596A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种信息推荐方法及系统
CN102521249A (zh) * 2011-11-14 2012-06-27 百度在线网络技术(北京)有限公司 一种基于同质资源的展现方法及设备
CN103218366A (zh) * 2012-01-20 2013-07-24 腾讯科技(深圳)有限公司 下载资源推荐方法及系统
CN103200279A (zh) * 2013-04-28 2013-07-10 百度在线网络技术(北京)有限公司 推荐方法和云端服务器

Also Published As

Publication number Publication date
CN103929484A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
CN103929484B (zh) 为用户整合个性化资源的方法及装置
US20210233319A1 (en) Context-aware tagging for augmented reality environments
CN105898794B (zh) 数据传输装置及方法
CN104199851B (zh) 通过黄页信息提取电话号码的方法及云端服务器
CN108540755B (zh) 身份识别方法和装置
CN103309998A (zh) 一种消息查询方法及装置、终端设备
US11537751B2 (en) Using machine learning algorithm to ascertain network devices used with anonymous identifiers
CN106686105B (zh) 推送消息的方法、计算设备、服务器及信息分享系统
CN104579909B (zh) 一种用户信息的分类、用户分组信息的获取方法和设备
CN113392158A (zh) 业务数据处理方法、装置及数据中台
CN101937547A (zh) 软件和/或软件信息推送方法、系统、获取装置、软件商店服务系统及移动终端
CN103501374A (zh) 电话簿排序方法及装置、终端
CN104113466A (zh) 一种骚扰电话的识别方法、客户端、服务器及系统
CN107770574A (zh) 视频传播的方法和装置
CN106776973A (zh) 黑名单数据生成方法和装置
US20160127542A1 (en) System, apparatus and method of providing phone call route information
CN102572139A (zh) 一种信息处理的方法、业务处理方法及装置
CN105681257B (zh) 一种基于即时通信交互平台的信息举报方法、装置、设备、系统及计算机存储介质
CN104811458A (zh) 一种信息的展示方法及装置
CN103944986B (zh) 为用户整合个性化资源的方法及装置
CN106803096A (zh) 一种短信类型识别方法、系统及短信管理平台
CN109525949A (zh) 注册方法及装置、存储介质、服务器、用户终端
CN104540114A (zh) 用于对端身份识别的方法、终端、服务器和系统
CN104639593A (zh) 信息分享方法、系统、浏览器及服务器
CN103944987A (zh) 为用户整合个性化资源的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant