CN105187237B - 查找相关联的用户标识的方法和装置 - Google Patents

查找相关联的用户标识的方法和装置 Download PDF

Info

Publication number
CN105187237B
CN105187237B CN201510494633.7A CN201510494633A CN105187237B CN 105187237 B CN105187237 B CN 105187237B CN 201510494633 A CN201510494633 A CN 201510494633A CN 105187237 B CN105187237 B CN 105187237B
Authority
CN
China
Prior art keywords
attribute information
user identifier
coefficient
user
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510494633.7A
Other languages
English (en)
Other versions
CN105187237A (zh
Inventor
叶青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510494633.7A priority Critical patent/CN105187237B/zh
Publication of CN105187237A publication Critical patent/CN105187237A/zh
Application granted granted Critical
Publication of CN105187237B publication Critical patent/CN105187237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5064Customer relationship management

Landscapes

  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种查找相关联的用户标识的方法和装置。所述方法的一具体实施方式包括:获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组;判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。该实施方式可以提高查找相关联的用户标识的有效性。

Description

查找相关联的用户标识的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及信息匹配技术领域,尤其涉及一种查找相关联的用户标识的方法和装置。
背景技术
随着互联网技术的发展,各种网络平台,例如网络社交平台(如QQ社交平台)、搜索平台(如必应搜索平台)、网上交易平台(如京东商城)等等,逐渐成为人们生活的重要组成部分。用户可以通过相同或不同的身份标识(identification,ID)访问各种网络平台。对这些ID之间的关联性进行分析,具有应用于各种领域的重要意义,例如网页广告推送、网络社交平台中的好友推荐、犯罪分子追踪等等。
现有的ID之间的关联性分析方法中,通常将ID两两之间的属性信息相匹配查找相关联的ID。然而,在这种匹配方法中,大量属性信息相差较大的ID之间的属性信息匹配是没有意义的,而且计算量较大,导致匹配效率较低。同时,这种匹配方法不考虑不同属性对匹配结果的影响,导致匹配结果准确度不高。因此,这种匹配方法存在着网络信息相关数据利用不足,查找相关联的ID的有效性不高的问题。
发明内容
本申请的目的在于提出一种改进的查找相关联的用户标识的方法和装置,来解决以上背景技术部分提到的技术问题。
一方面,本申请提供了一种查找相关联的用户标识的方法,所述方法包括:获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出相似度最高的属性信息,生成相似属性信息组;判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
在一些实施例中,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组之前,还包括:对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。
在一些实施例中,所述属性信息中的每一项还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。
在一些实施例中,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组包括:基于所述预测系数与所述重要度系数获得判断系数;基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
在一些实施例中,所述基于所述预测系数与所述重要度系数获得判断系数包括:对于所述属性信息中的每一项,将其预测系数与预测阈值相比较;如果所述预测系数小于所述预测阈值,则从所述属性信息中删除该项;对于所述属性信息中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。
在一些实施例中,所述判断系数为所述预测系数与所述重要度系数的乘积。
在一些实施例中,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。
在一些实施例中,所述属性信息中的每一项的历史记录包括:所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及,所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。
第二方面,本申请提供了一种查找相关联的用户标识的装置,所述装置包括:获取模块,配置用于获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;匹配模块,配置用于基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出相似度最高的属性信息,生成相似属性信息组;查找模块,配置用于判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
在一些实施例中,所述匹配模块之前,还包括比较模块,所述比较模块配置用于:对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;以及,如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。
在一些实施例中,所述属性信息中的每一项还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。
在一些实施例中,所述匹配模块包括:计算单元,配置用于基于所述预测系数与所述重要度系数获得判断系数;匹配单元,配置用于基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
在一些实施例中,所述计算单元包括:比较子单元,配置用于对于所述属性信息集合中的每一项,将其预测系数与预测阈值相比较;以及,如果所述预测系数小于所述预测阈值,则从所述属性信息集合中删除该项;所述计算单元配置用于对于所述属性信息集合中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。
在一些实施例中,所述判断系数为所述预测系数与所述重要度系数的乘积。
在一些实施例中,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。
在一些实施例中,所述属性信息中的每一项的历史记录包括:所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及,所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。
本申请提供的查找相关联的用户标识的方法和装置,通过获取至少两个用户标识对应的属性信息,其中,属性信息中的每一项具有根据其历史记录生成的重要度系数,接着基于重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组,接着判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识,由于引入了属性信息中的每一项的重要度系数,从而体现出不同用户标识对应的不同属性信息的重要性,提高了查找相关联的用户标识的有效性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请实施例的示例性系统架构;
图2是根据本申请的查找相关联的用户标识的方法的一个实施例的流程图;
图3是根据本申请的查找相关联的用户标识的方法的一个应用场景的效果示意图;
图4是根据本申请的查找相关联的用户标识的方法的又一个实施例的流程图;
图5是根据本申请的查找相关联的用户标识的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103分别可以通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如社交平台应用、包含搜索引擎的应用、邮箱客户端、即时通信工具等。服务器105可以通过网络104获取终端设备101、102、103上登录网络的用户标识(username or user ID,在因特网上用户登录时用于识别用户身份的名字),例如社交平台应用(如QQ应用)中的账号等。服务器还可以获取上述用户标识在终端设备101、102、103登录网络后的终端设备101、102、103上进行操作的历史记录。
终端设备101、102、103可以是支持社交平台应用和/或包含搜索引擎的应用等安装于其上的各种电子设备,包括但不限于智能手机、智能手表、平板电脑、个人数字助理、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如对终端设备101、102、103上的社交平台应用、包含搜索引擎的应用等提供支持的后台服务器等。服务器可以对接收到的数据进行存储、生成等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的查找相关联的用户标识的方法中的步骤可以由终端设备101、102、103执行,也可以由服务器105执行,查找相关联的用户标识的装置可以设置在终端设备101、102、103中,也可以设置在服务器105中。例如,在一些实施例中,获取至少两个用户标识对应的属性信息可以在服务器105中执行,也可以分别在终端设备101、102、103中执行。获取模块可以设置在服务器105中,也可以分别设置在终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,其示出了查找相关联的用户标识的方法的一个实施例的流程200。该查找相关联的用户标识的方法,包括以下步骤:
步骤201,获取至少两个用户标识对应的属性信息,其中,属性信息中的每一项具有根据其历史记录生成的重要度系数。
在本实施例中,电子设备(例如图1所示的终端设备或服务器)可以从本地或远程地获取用户标识对应的属性信息。具体而言,当上述电子设备就是用户标识登录网络经由的应用或页面加载于其上的终端设备时,其可以直接从本地获取上述属性信息;而当上述电子设备是对用户标识登录网络经由的应用或页面进行支持的后台服务器或者可以从这些后台服务器获取数据的其他服务器时,其可以通过有线连接方式或者无线连接方式从终端设备获取用户标识对应的属性信息。上述无线连接方式包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
用户标识(username or user ID),是因特网上用户登录时用于识别用户身份的符号,例如可以是用户电子邮件地址的第一部分(例如电子邮件地址xxxx@163.com中的xxxx)、用户登录网络平台使用的号码(例如QQ号码:591829091)或用户使用的终端设备的设备号(例如智能手机的移动设备国际身份码IMEI,International Mobile EquipmentIdentity)等等,本申请对此不做限定。
属性是对象的性质与对象之间关系的统称。这里,用户标识的属性信息可以是包括用户标识的性质或者用户标识的性质与用户标识之间的关系的信息。例如,用户标识信息可以包括但不限于以下至少一项:用户标识接入网络的地理位置信息、用户标识所关联的终端访问的页面的网址、用户标识所关联的终端接入互联网的互联网协议(InternetProtocol,IP)地址、用户标识所关联的终端的搜索特征,等等。其中,用户标识接入网络的地理位置信息,可以通过用户标识接入网络所经由的终端设备的地理位置信息来表示。终端设备的地理位置信息可以包括用经纬度坐标表示的位置(如北纬39.9度、东经116.3度的位置),也可以包括通过地理信息点(例如一个标志性建筑、两条道路的交叉路口等)表示的位置,等等。该地理位置信息可以通过全球卫星定位系统GPS等现在已知或未来开发的方式获取。用户标识所关联的终端可以是用户标识接入网络所经由的终端设备。用户标识所关联的终端的搜索特征可以是用户在用户标识接入网络所经由的终端设备上进行的搜索行为的特征,例如可以是搜索词。
在本实施例中,属性信息中的每一项还可以具有根据其历史记录生成的重要度系数。对同一个用户标识而言,每个不同的属性信息项都可以具有对应的历史记录。电子设备可以根据每个属性信息项的历史记录生成重要度系数。
例如,对于用户标识接入网络的地理位置信息,其历史记录可以是用户标识每次接入网络时的地理位置信息,和/或用户标识在每个地理位置信息接入网络时的时间(例如上午9点)等。电子设备可以将用户标识每次接入网络时的不同地理位置信息作为不同的属性信息项。举例而言,用户每天上午9点在A地(如公司)通过自己的用户标识登陆某个网络平台(例如开心网),每天下午19点在B地(如家里)通过同一个用户标识登陆该网络平台,则可以将“A地”、“B地”分别作为该用户标识的属性信息项。而用户标识在每个地点的在线时长可以作为生成重要度系数的基础。如,用户标识每天上午9点至下午17点在A地为在线状态,每天下午19点至下午21点在B地为在线状态,则电子设备可以将属性信息项“A地”的重要度系数设为8,可以将属性信息项“B地”的重要度系数设为2。
同理,对于用户标识所关联的终端访问的页面的网址(例如统一资源定位符URL),其历史记录可以包括对每个网址的访问次数和/或访问时长。电子设备可以将每个网址作为一个属性信息项,并根据终端对各网址的访问次数和/或访问时长生成各网址对应的重要度系数。其中,对各网址的访问次数越多和/或访问时长越长,所对应的网址的重要度系数越大。对于用户标识所关联的终端接入互联网的IP地址,其历史记录可以包括用户标识所关联的终端接入互联网的IP地址的时间和/或时长,电子设备可以将用户标识所关联的终端接入互联网的每个IP地址作为一个属性信息项,并根据终端从各个IP地址接入互联网的时间和/或时长生成重要度系数。终端从各个IP地址接入互联网的时长越长,对应的重要度系数越大。对于用户标识所关联的终端的搜索特征,其历史记录可以包括用户标识所关联的终端在执行搜索任务使用的搜索词及使用每个搜索词进行搜索的次数。电子设备可以将上述每个搜索词作为一个属性信息项,并根据使用各个搜索词进行搜索的次数生成对应搜索词的重要度系数。搜索词对应的搜索次数越多,对应的重要度系数越大。
步骤202,基于重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
在本实施例中,电子设备接着可以基于重要度系数,对不同用户标识所对应的属性信息进行相互匹配,从而查找出与每个用户标识所对应的属性信息相似度最高的属性信息,将每个用户标识所对应的属性信息及与其相似度最高的属性信息生成相似属性信息组。
电子设备可以通过各种方法完成不同用户标识所对应的属性信息之间的匹配。例如,对于每个用户标识所对应的属性信息,电子设备可以比较其他用户标识所对应的属性信息与该属性信息之间的相同属性信息项,根据相同属性信息项的数量,将与该属性信息包含的相同属性信息项的数量最多的属性信息确定为与该属性信息相似度最高的属性信息。电子设备可以通过采用余弦相似度(cosine similarity)算法、Jaccard系数之类的公知的相似度计算方法来对属性信息之间的进行相似度计算。以Jaccard系数方法为例,电子设备可以采用如下的公式计算两个用户标识A和B所对应的属性信息之间的相似度:用户标识A所对应的属性信息与用户标识B所对应的属性信息之间的相似度=用户标识A所对应的属性信息与用户标识B所对应的属性信息之间共有的属性信息项的数目/用户标识A所对应的属性信息与用户标识B所对应的属性信息一起包括的属性信息项的数目。电子设备还可以将各用户标识所对应的属性信息之间的各项按照重要度系数由高到低排序,并取排列靠前的N(N为正整数)项,比较不同用户标识所对应的属性信息之间的排列靠前的N项中相同项,则排列靠前的N项中相同项最多的属性信息确定为相似度最高的属性信息;或者计算不同用户标识所对应的属性信息中各项的重要度系数的方差,并将方差最小的属性信息作为相似度(此时,相似度例如可以是方差的倒数)最高的属性信息,等等,本申请对此不做限定。对各用户标识所对应的属性信息,在匹配到与其相似度最高的属性信息后,电子设备可以将该用户标识所对应的属性信息与匹配到的属性信息生成相似属性信息组。每个相似属性信息组可以包括至少两个用户标识所对应的属性信息。
根据上述的重要度系数的生成方法可知,如果一个用户标识的属性信息中某个属性信息项的重要度系数较小,则对该用户标识来说,在基于重要度系数计算其他用户标识的属性信息与该用户标识的属性信息的相似度时,该属性信息项对结果的影响较小。因此,在本实施例的一些可选实现方式中,电子设备在计算属性信息的相似度之前,还可以先去除一些重要度系数较小的属性信息项,以减小计算量。电子设备可以预先设定属性信息中的每一项的重要度阈值。对于一个用户标识所对应的属性信息中的每一项,电子设备可以将其重要度系数与预先设定的重要度阈值相比较,如果重要度系数小于重要度阈值,则从该用户标识所对应的属性信息中删除该项。可选地,该重要度阈值可以是一个与重要度系数相比较的数值,也可以是一个重要度系数的比值。当重要度阈值是一个重要度系数的比值时,如果一个用户标识所对应的属性信息中属性信息项a的重要度系数/该用户标识所对应的属性信息中个属性信息项的最大重要度系数小于该重要度阈值,则电子设备可以删除属性信息项a。
步骤203,判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
在本实施例中,电子设备接着可以将各相似属性信息组中不同用户标识对应的属性信息的相似度与预设的相似度阈值进行比较,若由此判断出不同用户标识对应的属性信息的相似度大于预设的相似度阈值,则查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
相似度阈值可以由人工根据经验设定,也可以基于一定数量样本集的训练结果获得。其中基于一定数量样本集的训练结果获得相似度阈值具体可以按照如下步骤进行:首先选定一定数量用户标识的属性信息,其中这些属性信息包括多组同一用户的不同用户标识的属性信息,接着将同一用户的不同用户标识的属性信息按照上面的方法计算相似度,然后,对这些相似度的分布密度或分布数量进行统计,根据对查找到的相关联的用户标识的期望概率确定相似度阈值。例如对查找到的相关联的用户标识的期望概率为90%,则将这些相似度从小到大依次舍弃掉10%的相似度数值,并将剩余的相似度中最小的相似度数值作为相似度阈值。
电子设备查找出相关联的用户标识后,可以根据用户标识之间的关联性对用户标识进行判断。当一个用户标识接入网络时,电子设备可以根据与其相关联的用户标识为其选择推送信息等。如图3所示,给出了本实施例的一个应用场景。在图3中,用户标识3011(张三)经常通过移动终端301登录第一网络平台(如××知识问答),用户标识3021(张十三)经常通过台式设备302登录第二网络平台(如××微博)。作为后台服务器的电子设备分别通过移动终端301和台式设备302获取用户标识3011和用户标识3021所对应的属性信息(例如经常使用的搜索词等),接着电子设备可以根据用户标识3011和用户标识3021所对应的属性信息及各属性信息项对应的重要度系数计算它们的相似度,假设用户标识3011所对应的属性信息与用户标识3021所对应的属性信息的相似度是用户标识3021所对应的属性信息与所有用户标识所对应的属性信息的相似度中最高的,且用户标识3011所对应的属性信息与用户标识3021所对应的属性信息的相似度大于相似度阈值,则电子设备可以将用户标识3011和用户标识3021判断为相关联的用户标识(或者同一用户的用户标识)。则如果用户标识3011通过移动终端301登录第一网络平台搜索了“翻译软件哪个好?”,电子设备可以将翻译类应用“××词霸”的推送信息推送至用户标识3021通过台式设备302登录第二网络平台所访问的页面。
本申请的上述实施例,通过充分利用用户标识所对应的属性信息的各属性信息项的历史记录,引入各属性信息项的重要度系数,从而体现出不同用户标识对应的不同属性信息的重要性,提高了查找相关联的用户标识的有效性。
进一步参考图4,其示出了本申请的查找相关联的用户标识的方法的又一个实施例的流程400。该查找相关联的用户标识的流程400,包括以下步骤:
步骤401,获取至少两个用户标识对应的属性信息,其中属性信息中的每一项具有根据其历史记录生成的重要度系数和通过预设的预测模型获取的预测系数。
在本实施例中,电子设备(例如图1所示的终端设备或服务器)可以从本地或远程地获取用户标识对应的属性信息。其中,属性信息中的每一项具有根据其历史记录生成的重要度系数和通过预设的预测模型获取的预测系数。上述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率。所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。
作为示例,以下给出一种获得预测系数的方法。假设样本集包括4个(样本集中应具有满足统计学数量的样本,这里仅为示例性说明)用户标识对应的属性信息,即:
用户标识A,对应的属性信息包括(属性1,属性2,属性3);
用户标识B,对应的属性信息包括(属性1,属性3,属性4);
用户标识C,对应的属性信息包括(属性1,属性2,属性5);
用户标识D,对应的属性信息包括(属性1,属性2,属性4);
对以上用户标识,建立按照属性信息项划分的集合:
属性1,对应的用户标识包括(A,B,C,D);
属性2,对应的用户标识包括(A,C,D);
属性3,对应的用户标识包括(A,B);
属性4,对应的用户标识包括(B,D);
属性5,对应的用户标识包括(C);
一般而言,对于有越多的用户标识对应的属性信息包含的属性信息项,其属于同一用户的概率越小。当只有一个用户标识对应的属性信息包含某个属性信息项时,其属于同一用户的概率最大。因此,电子设备可以先计算属性信息项对应的用户标识的数目与用户标识的总数目的比值,然后用与上述比值成反比的数值(如上述比值的倒数)作为预测系数。于是,各属性信息项的预测系数的计算过程可以如下:
属性1:1/(4/4)=1;
属性2:1/(3/4)=1.33;
属性3:1/(2/4)=2;
属性4:1/(2/4)=2;
属性5:1/(1/4)=4;
可选地,预测系数的最大值为1,将上述比值的倒数除以用户标识的总数目以进行归一化,则属性1的预测系数为1/4=0.25,属性2的预测系数为1.33/4=0.33,属性3的预测系数为2/4=0.5,属性3的预测系数为2/4=0.5,属性5的预测系数为4/4=1。
在本实施例的可选实现方式中,预测系数的计算还可以基于不同属性信息项的结合来进行。例如,按照上述方法计算得到属性1的预测系数为0.25,但是当同一个用户标识对应的属性信息中还包含属性3时,属性1的预测系数可以缩小至原来的1/10,即为0.025。这样计算的目的在于,充分考虑不同情况下预测系数对区分用户标识的影响。例如,属性1是用户标识所关联的终端在执行搜索任务使用的搜索词,如是“代码”,当属性3是用户标识接入网络的地理位置信息,如一个计算机行业的公司大楼所在的地理位置,则在属性3基础上,不同用户使用“代码”进行搜索的可能性很大,因此,包含属性1的用户标识所对应的属性信息同时包含属性3时,包括该项属性信息相同的不同用户标识属于同一用户的概率就可能大大降低。
步骤402,基于预测系数与重要度系数获得判断系数。
在本实施例中,电子设备可以接着对预测系数与重要度系数进行计算、处理,进而得到用户标识对应的属性信息中各属性信息项的判断系数。在可选的实现方式中,可以将预测系数与重要度系数相加或相乘得到判断系数。
步骤403,基于判断系数,对不同用户标识对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
在本实施例中,电子设备接着可以基于判断系数,对不同用户标识所对应的属性信息进行相互匹配,从而查找出与每个用户标识所对应的属性信息相似度最高的属性信息,将每个用户标识所对应的属性信息及与其相似度最高的属性信息生成相似属性信息组。电子设备可以通过与步骤202中相似的方法完成不同用户标识所对应的属性信息之间的匹配。
在本实施例的一些可选实现方式中,电子设备在步骤402和步骤403之间,还可以具有对属性信息中预测系数较小的项进行过滤的步骤,如下:对于属性信息中的每一项,将其预测系数与预测阈值相比较;如果预测系数小于预测阈值,则从所有的属性信息中删除该项;对于属性信息中剩余的每一项,基于预测系数与重要度系数获得判断系数。
步骤404,判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
在本实施例中,电子设备接着可以将各相似属性信息组中不同用户标识对应的属性信息的相似度与预设的相似度阈值进行比较,若由此判断出不同用户标识对应的属性信息的相似度大于预设的相似度阈值,则查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
在本实施例中,上述实现流程中的步骤403和步骤404分别与前述实施例中的步骤202和步骤203基本相同,在此不再赘述。
从图4中可以看出,与图1对应的实施例不同的是,本实施例中的查找相关联的用户标识的流程400的步骤401中,属性信息中的每一项增加了预测系数,流程400还增加了基于预测系数与重要度系数获得判断系数的步骤402,相应地在步骤403中,基于判断系数,对不同用户标识对应的属性信息进行相互匹配。通过增加的属性信息项的预测系数,及增加的步骤402,可以利用更多的网络信息相关数据,提高查找结果的准确度。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种查找相关联的用户标识的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于电子设备中。
如图5所示,本实施例所述的查找相关联的用户标识的装置500包括:获取模块501、匹配模块502和查找模块503。其中,获取模块501配置用于获取至少两个用户标识对应的属性信息,其中,属性信息中的每一项具有根据其历史记录生成的重要度系数;匹配模块502配置用于基于重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出相似度最高的属性信息,生成相似属性信息组;查找模块503配置用于判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
值得说明的是,查找相关联的用户标识的装置500中记载的诸模块或单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于查找相关联的用户标识的装置500及其中包含的模块或单元,在此不再赘述。
本领域技术人员可以理解,上述查找相关联的用户标识的装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、匹配模块及查找模块,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“配置用于获取至少两个用户标识对应的属性信息的模块”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的查找相关联的用户标识的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种查找相关联的用户标识的方法,其特征在于,所述方法包括:
获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;
基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组;
判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
2.根据权利要求1所述的方法,其特征在于,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组之前,还包括:
对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;
如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。
3.根据权利要求1所述的方法,其特征在于,所述属性信息中的每一项属性信息还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。
4.根据权利要求3所述的方法,其特征在于,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组包括:
基于所述预测系数与所述重要度系数获得判断系数;
基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
5.根据权利要求4所述的方法,其特征在于,所述基于所述预测系数与所述重要度系数获得判断系数包括:
对于所述属性信息中的每一项,将其预测系数与预测阈值相比较;
如果所述预测系数小于所述预测阈值,则从所述属性信息中删除该项;
对于所述属性信息中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。
6.根据权利要求4所述的方法,其特征在于,所述判断系数为所述预测系数与所述重要度系数的乘积。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。
8.根据权利要求7所述的方法,其特征在于,所述属性信息中的每一项的历史记录包括:
所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;
所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;
所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及
所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。
9.一种查找相关联的用户标识的装置,其特征在于,所述装置包括:
获取模块,配置用于获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;
匹配模块,配置用于基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组;
查找模块,配置用于判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。
10.根据权利要求9所述的装置,其特征在于,所述匹配模块之前,还包括比较模块,所述比较模块配置用于:
对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;以及
如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。
11.根据权利要求9所述的装置,其特征在于,所述属性信息中的每一项属性信息还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。
12.根据权利要求11所述的装置,其特征在于,所述匹配模块包括:
计算单元,配置用于基于所述预测系数与所述重要度系数获得判断系数;
匹配单元,配置用于基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。
13.根据权利要求12所述的装置,其特征在于,所述计算单元包括:
比较子单元,配置用于对于所述属性信息集合中的每一项,将其预测系数与预测阈值相比较;以及,如果所述预测系数小于所述预测阈值,则从所述属性信息集合中删除该项;
所述计算单元配置用于对于所述属性信息集合中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。
14.根据权利要求13所述的装置,其特征在于,所述判断系数为所述预测系数与所述重要度系数的乘积。
15.根据权利要求9-14中任一项所述的装置,其特征在于,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。
16.根据权利要求15所述的装置,其特征在于,所述属性信息中的每一项的历史记录包括:
所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;
所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;
所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及
所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。
CN201510494633.7A 2015-08-12 2015-08-12 查找相关联的用户标识的方法和装置 Active CN105187237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510494633.7A CN105187237B (zh) 2015-08-12 2015-08-12 查找相关联的用户标识的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510494633.7A CN105187237B (zh) 2015-08-12 2015-08-12 查找相关联的用户标识的方法和装置

Publications (2)

Publication Number Publication Date
CN105187237A CN105187237A (zh) 2015-12-23
CN105187237B true CN105187237B (zh) 2018-09-11

Family

ID=54909091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510494633.7A Active CN105187237B (zh) 2015-08-12 2015-08-12 查找相关联的用户标识的方法和装置

Country Status (1)

Country Link
CN (1) CN105187237B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934627B (zh) * 2015-12-28 2021-03-30 中国移动通信集团公司 一种电商行业作弊行为的检测方法及装置
US20170214674A1 (en) * 2016-01-25 2017-07-27 Google Inc. Reducing latency
CN105721629B (zh) * 2016-03-24 2019-04-26 百度在线网络技术(北京)有限公司 用户标识匹配方法和装置
CN109429178B (zh) * 2017-09-04 2021-06-25 腾讯科技(北京)有限公司 信息推送方法、装置、存储介质和电子装置
CN110019193B (zh) * 2017-09-25 2022-10-14 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质
CN110110172B (zh) * 2017-12-28 2021-09-14 北京京东尚科信息技术有限公司 信息展示方法和装置
CN108566434B (zh) * 2018-05-03 2020-04-17 北京邮电大学 一种基于流行度与节点重要度的缓存方法及装置
CN108734393A (zh) * 2018-05-14 2018-11-02 平安好房(上海)电子商务有限公司 房源信息的匹配方法、用户设备、存储介质及装置
CN108881513B (zh) * 2018-06-29 2021-07-27 深圳鼎盛电脑科技有限公司 一种设备码生成的方法、装置、设备及存储介质
CN110347930B (zh) * 2019-07-18 2020-05-05 杭州连银科技有限公司 一种基于统计分析方法的高维数据自动加工及处理方法
CN110706029A (zh) * 2019-09-26 2020-01-17 恩亿科(北京)数据科技有限公司 广告定向投放方法和装置、电子设备及存储介质
CN111125185A (zh) * 2019-11-25 2020-05-08 泰康保险集团股份有限公司 数据处理方法、装置、介质及电子设备
CN114820079B (zh) * 2022-05-20 2023-04-18 百度在线网络技术(北京)有限公司 人群确定方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329683A (zh) * 2008-07-25 2008-12-24 华为技术有限公司 推荐系统及方法
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN101770459A (zh) * 2008-12-31 2010-07-07 华为技术有限公司 一种推荐好友的方法和设备
CN104184654A (zh) * 2014-07-30 2014-12-03 小米科技有限责任公司 一种基于用户标识的匹配方法及装置
EP2879363A1 (en) * 2013-11-28 2015-06-03 Ricoh Company, Ltd. Apparatus, system, and method of managing counterpart terminal information, and carrier medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4259564B2 (ja) * 2006-10-24 2009-04-30 セイコーエプソン株式会社 サーバ装置、サーバ装置における方法、および、コンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN101329683A (zh) * 2008-07-25 2008-12-24 华为技术有限公司 推荐系统及方法
CN101360098A (zh) * 2008-08-29 2009-02-04 腾讯科技(北京)有限公司 用户行为属性确定方法、装置、系统及广告投放方法与系统
CN101770459A (zh) * 2008-12-31 2010-07-07 华为技术有限公司 一种推荐好友的方法和设备
EP2879363A1 (en) * 2013-11-28 2015-06-03 Ricoh Company, Ltd. Apparatus, system, and method of managing counterpart terminal information, and carrier medium
CN104184654A (zh) * 2014-07-30 2014-12-03 小米科技有限责任公司 一种基于用户标识的匹配方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于属性描述匹配的云制造服务资源搜索方法》;李成海;《计算机集成制造系统》;20140615;第20卷(第6期);第1499-1506页 *

Also Published As

Publication number Publication date
CN105187237A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
CN105187237B (zh) 查找相关联的用户标识的方法和装置
CN105608179B (zh) 确定用户标识的关联性的方法和装置
CN109145280B (zh) 信息推送的方法和装置
CN107784010B (zh) 一种用于确定新闻主题的热度信息的方法与设备
CN107679211A (zh) 用于推送信息的方法和装置
CN107515915B (zh) 基于用户行为数据的用户标识关联方法
US20120042020A1 (en) Micro-blog message filtering
CN103457975B (zh) 获取地图兴趣点评价数据的方法和装置
US20100082427A1 (en) System and Method for Context Enhanced Ad Creation
CN108182253B (zh) 用于生成信息的方法和装置
KR20090003270A (ko) 웹 리소스의 서비스 지역 검출
CN107885873B (zh) 用于输出信息的方法和装置
KR20180101472A (ko) 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스
WO2020018812A1 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
US20120084226A1 (en) Measuring or estimating user credibility
CN107861967A (zh) 一种智能匹配好友的方法、装置和系统
Kim et al. The accuracy of tourism forecasting and data characteristics: a meta-analytical approach
US9412092B2 (en) Generating a filtered view of a content stream
CN107944032B (zh) 用于生成信息的方法和装置
CN113971243A (zh) 应用于问卷调查的数据处理方法、系统、设备及存储介质
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
CN110083677B (zh) 联系人的搜索方法、装置、设备及存储介质
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
CN106682146B (zh) 一种根据关键词检索景区评价的方法及系统
CN105447148B (zh) 一种Cookie标识关联方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant