CN106713290A

CN106713290A - 一种识别主用户账号的方法及服务器

Info

Publication number: CN106713290A
Application number: CN201611130470.5A
Authority: CN
Inventors: 沈彦; 王艳茹; 李成俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-24
Anticipated expiration: 2036-12-09
Also published as: CN106713290B

Abstract

本发明公开了一种识别主用户账号的方法及服务器，其中，所述方法包括：在第一应用的标识(ID)与第二应用的用户账号间建立关联；基于所述关联收集基于所述用户账号所得到的第一数据源；基于所述用户账号自身收集基于所述用户账号所得到的第二数据源；根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。

Description

一种识别主用户账号的方法及服务器

技术领域

本发明涉及信息识别技术，尤其涉及一种识别主用户账号的方法及服务器。

背景技术

用户可以有多个用户账号，分别用于不同的登录需求及不同的社交群组的信息交互。在多个用户账号中存在一个主用户账号，主用户账号是多个用户账号中最常用和登录频率最高的用户账号。

考虑到用户账号的安全性，可以在电脑或手机上安装安全应用，并通过该安全应用对用户账号进行保护，用户通常是利用用户账号登录社交应用，为了通过安全应用为用户提供更好的安全监控服务，需要收集基于用户账号的行为等数据，并对数据进行分析，以对包括主用户账号和非主用户账号在内的所有用户账号进行监控和保护，尤其是从安全等级的角度考虑，对主用户账号更为关注。采用现有技术，可以收集到这些数据，然而，由于两个应用间收集数据的时效性、同步性等原因会导致数据收集的准确性存在缺陷，最终影响到数据分析的准确性，对需要重点关注的主用户账号的识别率不高，从而影响到对主用户账号监控的安全性。相关技术中，对于该问题，尚无有效解决方案。

发明内容

有鉴于此，本发明实施例提供了一种识别主用户账号的方法及服务器，至少解决了现有技术存在的问题。

本发明实施例的技术方案是这样实现的：

本发明实施例的一种识别主用户账号的方法，所述方法包括：

在第一应用的标识(ID)与第二应用的用户账号间建立关联；

基于所述关联收集基于所述用户账号所得到的第一数据源；

基于所述用户账号自身收集基于所述用户账号所得到的第二数据源；

根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；

根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；

根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。

上述方案中，根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，包括：

根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分得到每一个所述用户账号登录情况的权重值集合；

根据每一个所述用户账号登录情况的权重值集合进行建模后得到所述数据模型。

上述方案中，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合，包括：

从所述第一数据源中得到以第一预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第一预设时间段的至少一个第一码位值；

如果从所述至少一个第一码位值能得到指定参数，则根据每一个所述第一码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率；

将用户登录每一个所述用户账号的登录频率记入所述第一频率值集合。

将至少一个所述第一码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率；

上述方案中，根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合，包括：

从所述第二数据源中得到以第二预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第二预设时间段的至少一个第二码位值；

如果从所述至少一个第二码位值能得到指定参数，则根据每一个所述第二码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率；

将用户登录每一个所述用户账号的登录频率记入所述第二频率值集合。

将至少一个所述第二码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率；

本发明实施例的一种服务器，所述服务器包括：

关联建立单元，用于在第一应用的ID与第二应用的用户账号间建立关联；

第一数据收集单元，用于基于所述关联收集基于所述用户账号所得到的第一数据源；

第二数据收集单元，用于基于所述用户账号自身收集基于所述用户账号所得到的第二数据源；

第一处理单元，用于根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；

第二处理单元，用于根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；

识别单元，用于根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。

上述方案中，所述识别单元，进一步用于：

上述方案中，所述第一处理单元，进一步用于：

上述方案中，所述第二处理单元，进一步用于：

采用本发明实施例，通过在第一应用的ID与第二应用的用户账号间建立关联，可以基于所述关联收集基于所述用户账号所得到的第一数据源，并且还可以基于所述用户账号自身收集基于所述用户账号所得到的第二数据源，从而能通过多种渠道收集到与用户账号有关的数据，确保了数据的完整性，时效性，提高了数据收集的准确性。根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合，根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合，对多种渠道收集的数据进行分析，以得到各自的频率值集合，之后根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号，通过各自的频率值集合建模来对主用户账号，能提高识别准确率。

附图说明

图1为本发明实施例中进行信息交互的各方硬件实体的示意图；

图2为本发明实施例一方法的实现流程示意图；

图3为本发明实施例一系统架构的示意图；

图4-5为应用本发明实施例一登录场景的示意图；

图6为应用本发明实施例所构建的一评判矩阵的示意图；

图7为应用图6所示的评判矩阵得到的权重系数的示意图；

图8为应用本发明实施例来构建评分模型的示意图；

图9-10为应用图8所示构建评分模型的过程所涉及的具体实例的示意图。

具体实施方式

下面结合附图对技术方案的实施作进一步的详细描述。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明实施例的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

在下面的详细说明中，陈述了众多的具体细节，以便彻底理解本发明。不过，对于本领域的普通技术人员来说，显然可在没有这些具体细节的情况下实践本发明。在其他情况下，没有详细说明公开的公知方法、过程、组件、电路和网络，以避免不必要地使实施例的各个方面模糊不清。

另外，本文中尽管多次采用术语“第一”、“第二”等来描述各种元件(或各种阈值或各种应用或各种指令或各种操作)等，不过这些元件(或阈值或应用或指令或操作)不应受这些术语的限制。这些术语只是用于区分一个元件(或阈值或应用或指令或操作)和另一个元件(或阈值或应用或指令或操作)。例如，第一操作可以被称为第二操作，第二操作也可以被称为第一操作，而不脱离本发明的范围，第一操作和第二操作都是操作，只是二者并不是相同的操作而已。

本发明实施例中的步骤并不一定是按照所描述的步骤顺序进行处理，可以按照需求有选择的将步骤打乱重排，或者删除实施例中的步骤，或者增加实施例中的步骤，本发明实施例中的步骤描述只是可选的顺序组合，并不代表本发明实施例的所有步骤顺序组合，实施例中的步骤顺序不能认为是对本发明的限制。

本发明实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是：当用在本说明书中时，“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。

本发明实施例的智能终端(如移动终端)可以以各种形式来实施。例如，本发明实施例中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA，Personal Digital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP，Portable Media Player)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为本发明实施例中进行信息交互的各方硬件实体的示意图，图1中包括：终端设备1和服务器2。其中，终端设备1由终端设备11-14构成，终端设备通过有线网络或者无线网络与服务器进行信息交互。终端设备包括手机、台式机、PC机、一体机等类型。采用本发明实施例，借助各类终端，用户可以采用安全应用中的个人中心登录社交应用账号，用户还可以在社交应用直接登录社交应用账号，考虑到数据的完整性和时效性，在安全应用和社交应用间建立关联，在安全应用的ID与社交应用的社交用户账号间建立关联，从而，可以基于所述关联收集基于社交用户账号所得到的第一数据源，将基于社交应用自身收集基于所述用户账号所得到的数据源作为有别于该第一数据源的第二数据源，第一数据源和第二数据源构成多渠道收集的不同数据源并上报给服务器侧用于数据分析。之后按照服务器的处理逻辑10对数据进行处理后的分析，以根据得到的分析结果从社交用户账号中识别出主用户账号。服务器的处理逻辑10如图1所示，处理逻辑10包括：S1、在第一应用的ID与第二应用的用户账号间建立关联，基于所述关联收集基于所述用户账号所得到的第一数据源；S2、基于所述用户账号自身收集基于所述用户账号所得到的第二数据源；S3、根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；S4、根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；S5、根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。

上述图1的例子只是实现本发明实施例的一个系统架构实例，本发明实施例并不限于上述图1所述的系统结构，基于上述图1所述的系统架构，提出本发明方法各个实施例。

本发明实施例的一种识别主用户账号的方法，如图2所示，所述方法包括：在第一应用的ID与第二应用的用户账号间建立关联(101)，比如，第一应用可以为安全应用，第二应用可以为社交应用，基于所述关联收集基于所述用户账号所得到的第一数据源(102)，可以为：用户采用安全应用中的个人中心登录社交应用账号，用户还可以在社交应用直接登录社交应用账号，考虑到数据的完整性和时效性，在安全应用和社交应用间建立关联，在安全应用的ID与社交应用的社交用户账号间建立关联，从而，可以基于所述关联收集基于社交用户账号所得到的第一数据源；基于所述用户账号自身收集基于所述用户账号所得到的第二数据源(103)，基于社交应用自身收集基于所述用户账号所得到的数据源作为有别于该第一数据源的第二数据源，第一数据源和第二数据源构成多渠道收集的不同数据源并上报给服务器侧用于数据分析。服务器侧在进行数据分析的过程中，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合(104)；根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合(105)；根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号(106)。该数据模型可以为评分模型，用于计算每一个安全应用的ID对应的社交应用的得分情况，由得分情况确定与安全应用的ID对应的社交应用其各个用户账号的登录频率，登录频率高的用户账号，即为需要识别的主用户账号。

采用本发明实施例，根据第一应用可直接获取到第二应用的登录数据，结合直接通过第二应用得到的登录数据，实现了多渠道的数据收集，根据这两类登录数据建立用于计算登录频率的数据模型，以便根据登录频率识别出主用户账号。该数据模型可以是评分模型，建立评分模型后，可以计算每一个第一应用(如安全应用)ID对应的第二应用(如社交应用)登录情况的得分，由得分确定第一应用(如安全应用)对应第二应用的主用户账号。一方面，计算效率高。因为采用本发明实施例使用的全部数据通过第一应用(如安全应用)自身就可以获取到，沟通成本低，除了数据完整性得到保障之外，也不会因为多个应用间的数据同步而影响到数据的时效性。除此之外，本实施例中用到的计算方法规范了数据上报，可以快速计算预定时间内，如一个月内的数据情况，据此判定的主用户账号，识别率高，在实际应用中更具备实用价值。另一方面，计算结果准确性高。因为，通常一个用户即使拥有对应第二应用(如社交应用)的多个用户账号，但是在日常使用过程中，主用户账号的使用频率，登录次数，登录第一应用(如安全应用)个人中心的次数，都会比其他非主用户账号更高。而本实施例充分考虑了用户使用用户账号的行为特征，经过验证，获取主用户账号的准确率为92％。再一方面，由于第一应用(如安全应用)没有自身的账号体系，很多信息推广都需要与第二应用(如社交应用)相关联，以借助第二应用(如社交应用)的账号体系，以对应第二应用(如社交应用)的用户账号为维度进行操作，为信息推广的个性化服务提供了便利。对于用户账号中需要关注的主用户账号，由于可以借助这种关联找到第一应用(如安全应用)对应的主用户账号，因此，据此更容易对用户行为和特征进行分析，进一步提高信息推广服务的便利性和准确性。信息推广服务在实际应用中，可以是打广告，弹tips，发用户问卷等，采用本发明实施例可以精准的识别出用户的主用户账号，从而，基于主用户账号发起的上述信息推广服务才会得到用户更多的反馈和点击率，达到最好的信息推广效果。

本发明实施例的一种识别主用户账号的方法，所述方法包括：在第一应用的ID与第二应用的用户账号间建立关联，比如，第一应用可以为安全应用，第二应用可以为社交应用，基于所述关联收集基于所述用户账号所得到的第一数据源，可以为：用户采用安全应用中的个人中心登录社交应用账号，用户还可以在社交应用直接登录社交应用账号，考虑到数据的完整性和时效性，在安全应用和社交应用间建立关联，在安全应用的ID与社交应用的社交用户账号间建立关联，从而，可以基于所述关联收集基于社交用户账号所得到的第一数据源；基于所述用户账号自身收集基于所述用户账号所得到的第二数据源，基于社交应用自身收集基于所述用户账号所得到的数据源作为有别于该第一数据源的第二数据源，第一数据源和第二数据源构成多渠道收集的不同数据源并上报给服务器侧用于数据分析。服务器侧在进行数据分析的过程中，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分得到每一个所述用户账号登录情况的权重值集合，在实际应用中，为了精准的判定出第一应用(如安全应用)ID与第二应用(如社交应用)的用户账号之间的关系，用户在哪个时间区间登录是判定的关键，因此，根据所述第一频率值集合和所述第二频率值集合建立了评判矩阵，评分的依据为：对评判矩阵的两两(行、列)之间进行比较，对判定主用户账号更重要的评分为2，两者一样则得分为1，比较相对不重要的得分为0，最终根据评判矩阵两两之间的评分得到每一个登录情况的权重(w)，以根据每一个所述用户账号登录情况的权重值集合进行建模后得到所述数据模型。

该数据模型是用于表征用户采用每一个用户账号登录情况的数据模型，在实际应用中，可以计算每一个用户账号在计算机上登录时间的得分情况，该得分情况用于表征使用每一个用户账号的登录频率，登录频率高的用户账号，即为需要识别的主用户账号。

采用本发明实施例，根据第一应用可直接获取到第二应用的登录数据，结合直接通过第二应用得到的登录数据，实现了多渠道的数据收集，根据这两类登录数据建立用于计算登录频率的数据模型，以便根据登录频率识别出主用户账号。该数据模型可以是评分模型，建立评分模型后，可以计算每一个第一应用(如安全应用)ID对应的第二应用(如社交应用)登录情况的得分，由得分确定第一应用(如安全应用)对应第二应用的主用户账号。一方面，计算效率高。因为采用本发明实施例使用的全部数据通过第一应用(如安全应用)自身就可以获取到，沟通成本低，除了数据完整性得到保障之外，也不会因为多个应用间的数据同步而影响到数据的时效性。除此之外，本实施例中用到的计算方法规范了数据上报，可以快速计算预定时间内，如一个月内的数据情况，据此判定的主用户账号，识别率高，在实际应用中更具备实用价值。另一方面，计算结果准确性高。因为，通常一个用户即使拥有对应第二应用(如社交应用)的多个用户账号，但是在日常使用过程中，主用户账号的使用频率，登录次数，登录第一应用(如安全应用)个人中心的次数，都会比其他非主用户账号更高。而本实施例充分考虑了用户使用用户账号的行为特征，识别准确率高。再一方面，由于第一应用(如安全应用)没有自身的账号体系，很多信息推广都需要与第二应用(如社交应用)相关联，以借助第二应用(如社交应用)的账号体系，以对应第二应用(如社交应用)的用户账号为维度进行操作，为信息推广的个性化服务提供了便利。对于用户账号中需要关注的主用户账号，由于可以借助这种关联找到第一应用(如安全应用)对应的主用户账号，因此，据此更容易对用户行为和特征进行分析，进一步提高信息推广服务的便利性和准确性。信息推广服务在实际应用中，可以是打广告，弹tips，发用户问卷等，采用本发明实施例可以精准的识别出用户的主用户账号，从而，基于主用户账号发起的上述信息推广服务才会得到用户更多的反馈和点击率，达到最好的信息推广效果。

基于上述各个实施例，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合，有如下具体实现方式：

方式一，二进制的方式。具体的，从所述第一数据源中得到以第一预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第一预设时间段的至少一个第一码位值。如果从所述至少一个第一码位值能得到指定参数(比如，以指定参数“1”表示登录，指定参数“0”表示未登录)，则根据每一个所述第一码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率(比如登录天数)。将用户登录每一个所述用户账号的登录频率记入所述第一频率值集合。

在一个实际应用中，第一应用为安全应用(如电脑管家)，第二应用为社交应用(如QQ)的情况下，该第一数据源，是用户在安全应用的个人中心登录社交应用时对应采用的至少一个用户账号，该至少一个用户账号中包括待识别的主用户账号。预设时间段可以为5天，则以5天为时间段区分，记录每个用户账号(如QQ号)这5天登录个人中心的码位值。根据记录的码位值，计算每个用户账号(如QQ号)在每个时间段的统计区间内登录个人中心的实际天数。比如，码位值为01010，其中，0代表未登录，1代表登录，有两个“1”，则登录个人中心的实际天数为两天。又如，码位值为11000，同样道理，0代表未登录，1代表登录，有两个“1”，则登录个人中心的实际天数也为两天。

方式二，二进制转十进制的方式。具体的，从所述第一数据源中得到以第一预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第一预设时间段的至少一个第一码位值。将至少一个所述第一码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率。将用户登录每一个所述用户账号的登录频率记入所述第一频率值集合。

可以看出：通过方式一，虽然能统计出登录个人中心的实际天数，但是，对于上述的情况，采用二进制运算的码位值，实际还是无法区分出采用哪一个用户账号(如QQ号)使用频率高，转换为十进制，用0-9进行表示，就可以区分出不同的登录天数。而且，从数据存储的角度来看，二进制运算的结果比十进制运算所占的数据存储空间要大，因此，对上述采用二进制运算的码位值进行十进制运算的转换，将经十进制运算的转换结果作为用于表征用户账号(如QQ号)使用频率高的频率值，并将频率值存入第一频率集合中。

方式三，为了更好的用于统计分析，还可以将上述方式二中经十进制运算的转换结果取对数运算，得到指数值，将该指数值作为用于表征用户账号(如QQ号)使用频率高的频率值，并将频率值存入频率集合中，指数值的好处是：一个指数系数是非常有必要的，区分同一个时间区域内登录天数相同的QQ排序，但又不能影响登录天数不同的QQ排序。

基于上述各个实施例，根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合，其原理如上述三种具体方式，有如下三种具体实现方式：

方式一，从所述第二数据源中得到以第二预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第二预设时间段的至少一个第二码位值。如果从所述至少一个第二码位值能得到指定参数(比如，以指定参数“1”表示登录，指定参数“0”表示未登录)，则根据每一个所述第二码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率(比如登录天数)。将用户登录每一个所述用户账号的登录频率记入所述第二频率值集合。

在一个实际应用中，第一应用为安全应用(如电脑管家)，第二应用为社交应用(如QQ)的情况下，该第一数据源，是用户在安全应用的个人中心登录社交应用时对应采用的至少一个用户账号，该至少一个用户账号中包括待识别的主用户账号。预设时间段可以为5天，则以5天为时间段区分，记录每个用户账号(如QQ号)这5天登录个人中心的码位值。根据记录的码位值，计算每个用户账号(如QQ号)在每个时间段的统计区间内登录个人中心的实际天数。比如，码位值为11100，其中，0代表未登录，1代表登录，有三个“1”，则登录个人中心的实际天数为三天。又如，码位值为11010，同样道理，0代表未登录，1代表登录，有三个“1”，则登录个人中心的实际天数也为三天。

方式二，从所述第二数据源中得到以第二预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第二预设时间段的至少一个第二码位值。将至少一个所述第二码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率。将用户登录每一个所述用户账号的登录频率记入所述第二频率值集合。

可以看出：通过方式一，虽然能统计出登录个人中心的实际天数，但是，对于上述的情况，采用二进制运算的码位值，实际还是无法区分出采用哪一个用户账号(如QQ号)使用频率高，转换为十进制，用0-9进行表示，就可以区分出不同的登录天数。而且，从数据存储的角度来看，二进制运算的结果比十进制运算所占的数据存储空间要大，因此，对上述采用二进制运算的码位值进行十进制运算的转换，将经十进制运算的转换结果作为用于表征用户账号(如QQ号)使用频率高的频率值，并将频率值存入第二频率集合中。

本发明实施例的一种识别主用户账号的系统，如图3所示，包括终端41和服务器42，借助终端41，用户可以采用安全应用中的个人中心登录社交应用账号，用户还可以在社交应用直接登录社交应用账号，考虑到数据的完整性和时效性，在安全应用和社交应用间建立关联，在安全应用的ID与社交应用的社交用户账号间建立关联，从而，可以基于所述关联收集基于社交用户账号所得到的第一数据源，将基于社交应用自身收集基于所述用户账号所得到的数据源作为有别于该第一数据源的第二数据源，第一数据源和第二数据源构成多渠道收集的不同数据源并上报给服务器侧用于数据分析。之后通过服务器42对数据进行处理后的分析，以根据得到的分析结果从社交用户账号中识别出主用户账号。服务器42包括：关联建立单元421，用于在第一应用的标识ID与第二应用的用户账号间建立关联；第一数据收集单元422，用于基于所述关联收集基于所述用户账号所得到的第一数据源；第二数据收集单元423，用于基于所述用户账号自身收集基于所述用户账号所得到的第二数据源；第一处理单元424，用于根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合；第二处理单元425，用于根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合；识别单元426，用于根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，根据所述数据模型的输出结果识别出与所述第一应用的ID所关联第二应用的用户账号中的主用户账号。

采用本发明实施例，根据第一应用可直接获取到第二应用的登录数据，结合直接通过第二应用得到的登录数据，实现了多渠道的数据收集，根据这两类登录数据建立用于计算登录频率的数据模型，以便根据登录频率识别出主用户账号。该数据模型可以是评分模型，建立评分模型后，可以计算每一个第一应用(如安全应用)ID对应的第二应用(如社交应用)登录情况的得分，由得分确定第一应用(如安全应用)对应第二应用的主用户账号。一方面，计算效率高。因为采用本发明实施例使用的全部数据通过第一应用(如安全应用)自身就可以获取到，沟通成本低，除了数据完整性得到保障之外，也不会因为多个应用间的数据同步而影响到数据的时效性。除此之外，本实施例中用到的计算方法规范了数据上报，可以快速计算预定时间内，如一个月内的数据情况，据此判定的主用户账号，识别率高，在实际应用中更具备实用价值。另一方面，计算结果准确性高。因为，通常一个用户即使拥有对应第二应用(如社交应用)的多个用户账号，但是在日常使用过程中，主用户账号的使用频率，登录次数，登录第一应用(如安全应用)个人中心的次数，都会比其他非主用户账号更高。而本实施例充分考虑了用户使用用户账号的行为特征，识别准确率高。再一方面，由于第一应用(如安全应用)没有自身的账号体系，很多信息推广都需要与第二应用(如社交应用)相关联，以借助第二应用(如社交应用)的账号体系，以对应第二应用(如社交应用)的用户账号为维度进行操作，为信息推广的个性化服务提供了便利。对于用户账号中需要关注的主用户账号，由于可以借助这种关联找到第一应用(如安全应用)对应的主用户账号，因此，据此更容易对用户行为和特征进行分析，进一步提高信息推广服务的便利性和准确性。信息推广服务在实际应用中，可以是打广告，弹tips，发用户问卷等，采用本发明实施例可以精准的识别出用户的主用户账号，从而，基于主用户账号发起的上述信息推广服务才会得到用户更多的反馈和点击率，达到最好的信息推广效果

在本发明实施例一实施方式中，所述识别单元，进一步用于：根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分得到每一个所述用户账号登录情况的权重值集合；根据每一个所述用户账号登录情况的权重值集合进行建模后得到所述数据模型。

在本发明实施例一实施方式中，所述第一处理单元，进一步用于：从所述第一数据源中得到以第一预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第一预设时间段的至少一个第一码位值；如果从所述至少一个第一码位值能得到指定参数，则根据每一个所述第一码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率；将用户登录每一个所述用户账号的登录频率记入所述第一频率值集合。

在本发明实施例一实施方式中，所述第一处理单元，进一步用于：从所述第一数据源中得到以第一预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第一预设时间段的至少一个第一码位值；将至少一个所述第一码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率；将用户登录每一个所述用户账号的登录频率记入所述第一频率值集合。

在本发明实施例一实施方式中，所述第二处理单元，进一步用于：从所述第二数据源中得到以第二预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第二预设时间段的至少一个第二码位值；如果从所述至少一个第二码位值能得到指定参数，则根据每一个所述第二码位值中所述指定参数的个数来确定出用户登录每一个所述用户账号的登录频率；将用户登录每一个所述用户账号的登录频率记入所述第二频率值集合。

在本发明实施例一实施方式中，所述第二处理单元，进一步用于：从所述第二数据源中得到以第二预设时间段区分的每一个所述用户账号的登录记录，将所述登录记录以二进制码位的方式进行运算，得到对应所述第二预设时间段的至少一个第二码位值；将至少一个所述第二码位值以十进制码位的方式进行运算，将得到的运算结果用于表征用户登录每一个所述用户账号的登录频率；将用户登录每一个所述用户账号的登录频率记入所述第二频率值集合。

其中，对于用于数据处理的处理器而言，在执行处理时，可以采用微处理器、中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SingnalProcessor)或可编程逻辑阵列(FPGA，Field－Programmable Gate Array)实现；对于存储介质来说，包含操作指令，该操作指令可以为计算机可执行代码，通过所述操作指令来实现上述本发明实施例信息处理方法流程中的各个步骤。

这里需要指出的是：以上涉及终端和服务器项的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明终端和服务器实施例中未披露的技术细节，请参照本发明方法流程描述的实施例所描述内容。

以一个现实应用场景为例对本发明实施例阐述如下：

本应用场景中，当第一应用为安全应用，如电脑管家或手机管家等管家应用，第二应用为社交应用，如QQ的情况下，采用本发明实施例，可以建立一个将管家应用与QQ号相关联的评价模型。首先，对本文中涉及的名称解释如下：

1)个人中心：指的是管家应用的个人中心登录入口；

2)QQ号：优选为PC端的QQ账号；

3)主QQ号：如果用户如果有多个QQ，将最常用、登录频率最高的QQ作为主QQ；

4)bit_count：为SQL中对码位的计算函数，用户计算码位中1的个数，例如bit_count(52)＝bit_count(110100)＝3。其中，>>表示位运算中的右移运算。

5)bit2dec：表示将二进制数转换为十进制数的运算，例如，bit2dec(11111)＝31。

6)dec2bit：表示将二进制数转换为十进制数的运算，例如，bit2dec(31)＝11111。

7)管家ID：以管家应用中的电脑管家为例，电脑管家没有要求用户必须通过账号登录才能使用，但是电脑管家会计算机的相关信息计算一个唯一的ID，作为每一位用户的标志，此ID对用户不可见。

8)登录管家或者登录个人中心：是指用户使用QQ号码登录腾讯电脑管家的个人中心，如图4所示。

9)登录QQ：是指在安装了腾讯电脑管家的环境下，登录PC端QQ账号，如图5所示。

现有技术中，一台电脑只能安装一个电脑管家，作为安全应用来保护计算机安全。但是一台电脑却可以登录多个QQ，例如临时到某台电脑上登录QQ与他人联系或者有些用户会对不同生活场景申请多个QQ，也就是常说的“使用小号”。除此之外，同一个QQ也可能会在多台电脑上登录。以上的几个场景，都有可能对管家在判别用户主QQ产生影响。为了判定究竟哪一个QQ才是这台电脑上的主QQ，现有技术方案一般是根据QQ具体操作情况，比如QQ等级，聊天情况，登录时长等，建立数学评分模型，对每一个QQ进行评分，取适当分值的QQ作为主QQ。虽然，采用现有技术，可以找到管家ID对应的主QQ，但是也存在如下几个问题。

1，算法准确性不高

首先，由于用户登录QQ的不确定性比较大，QQ等级，聊天情况等一些QQ自身的属性只能说明QQ是否活跃，与管家用来计算管家ID对应的自身属性，口径匹配度不高；其次，电脑管家并没有自身的用户账号体系，不像QQ可以让用户填写自身的年龄、性别，城市等，管家只能通过获取到的一些计算机信息来判断，例如IP信息判断所在城市等。因此直接用着两款软件的用户属性情况来判断与电脑管家的关联性，逻辑上并不是有很紧密的关系。这样的算法计算出来的主QQ，准确度不高，使用价值也比较低。

2，数据规范不同

由于电脑管家与QQ在很多数据规则与规范的业务定义上都不同，在应用间交互以获取QQ的相关数据成本很高。此外，出于保密用户敏感数据的原因，目前相当一部分数据无法对外提供，这对建立评分模型增加了很大难度，在仅有的数据条件下，通过模型评分的准确性也很难保证。

3，同步数据时效性低

由于业务规范不同，电脑管家和QQ处于完全不同的数据库，拿到一批QQ数据的时效也很难。拿到后做数据清洗等工作也需要耗费大量的时间，这对时效影响很大。

对于上述问题，可以考虑将管家ID与用户的QQ账号相关联，以便精准的对用户进行更好的服务。本应用场景中，利用电脑管家ID与QQ账号之间关联的评分模型算法，通过大数据分析，可以提高识别对QQ账号中主QQ账号的识别准确率，以精准提取一台电脑上电脑管家用户对应的主QQ。

该评分模型算法，是根据电脑管家可直接获取到的QQ登录数据对用户的主QQ进行判定所得到的评分模型。电脑管家获取到与QQ使用频率相关的数据，有登录电脑管家个人中心和在PC上登录QQ账号的两种情况。通过这两种情况得到的不同数据源来建立该评分模型，以计算每一个管家ID对应的QQ的得分情况，由得分情况识别出管家ID对应的主QQ。具体实现过程如下所示。

一，在电脑管家的数据上报中，记录用户在电脑管家个人中心登录的每一个QQ，以二进制码位的方式，记录用户一个月内的操作并保留每一个QQ登录记录，把任一个QQ的登录码位记为：login_mask_center；

二，记录用户在pc登录QQ的次数，以二进制码位的方式，记录用户一个月内的操作并保留每一个QQ登录记录，把任一个QQ在PC端的登录码位记为：login_mask_pc；

三，根据登录个人中心的码位login_mask_center，以5天为一个时间段区分，记录最近1-5日,近6-10日,近11-15日,近16-20日,近21-25日,近26-30日登录管家个人中心的实际天数。六个时间段的计算公式如下表1所示：

记录值中文说明	计算方法
		近1-5日登录管家个人中心天数	bit_count((login_mask_center>>(d-4))&31)
近6-10日登录管家个人中心天数	bit_count((login_mask_center>>(d-9))&31)
		近11-15日登录管家个人中心天数	bit_count((login_mask_center>>(d-14))&31)
近16-20日登录管家个人中心天数	bit_count((login_mask_center>>(d-19))&31)
		近21-25日登录管家个人中心天数	bit_count((login_mask_center>>(d-24))&31)
近26-30日登录管家个人中心天数	bit_count((login_mask_center>>(d-29))&31)

表1

注：表1中，d表示计算当天的日期(如计算1月1号到1月18号guid和QQ的匹配度，则d＝18)。

同样，根据登录个人中心的码位login_mask_center，为了能够对具体的登录情况做出区分，根据下表2的方式，计算每个QQ登录管家个人中心的指数系数，计算方式如下：

记录值中文说明	计算方法
		近1-5日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-4))&31)))
近6-10日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-9))&31)))
		近11-15日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-14))&31)))
近16-20日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-19))&31)))
		近21-25日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-24))&31)))
近26-30日登录管家个人中心指数系数	log₂(bit2dec(login_mask_center>>(d-29))&31)))

表2

说明：忽略了五天内具体的时间信息，例如，若管家ID对应的QQ账号分别为QQ1和QQ2，QQ1在1天前登录了一次，那么记录的二进制码位为：00001，QQ2在2天前登录了一次，那么记录的二进制码位为：00010，则两个QQ的登录实际天数是一样的。希望选择最新登录的QQ号作为首要QQ号，即需要使QQ1的分数比QQ2的分数略高。因此，需要引入一个指数系数是非常有必要的，区分同一个时间区域内登录天数相同的QQ排序，但又不能影响登录天数不同的QQ排序。

四，根据登录PC端QQ的码位，以5天为一个时间段区分，记录最近1-5日,近6-10日,近11-15日,近16-20日,近21-25日,近26-30日登录管家个人中心的实际天数。六个时间段的计算公式如下表3所示：

记录值中文说明	计算方法
		近1-5日登录QQ天数	bit_count((login_mask_pc>>(d-4))&31)
近6-10日登录QQ天数	bit_count((login_mask_pc>>(d-9))&31)
		近11-15日登录QQ天数	bit_count((login_mask_pc>>(d-14))&31)
近16-20日登录QQ天数	bit_count((login_mask_pc>>(d-19))&31)
		近21-25日登录QQ天数	bit_count((login_mask_pc>>(d-24))&31)
近26-30日登录QQ天数	bit_count((login_mask_pc>>(d-29))&31)

表3

注：表3中，d表示计算当天的日期(如计算1月1号到1月18号guid和QQ的匹配度，则d＝18)。

同样，根据在pc端登录QQ的码位login_mask_center，为了能够对具体的登录情况做出区分，根据下表4的方式，计算每个QQ在pc端登录QQ的指数系数，计算方式如下：

记录值中文说明	计算方法
		近1-5日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-4))&31)))
近6-10日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-9))&31)))
		近11-15日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-14))&31)))
近16-20日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-19))&31)))
		近21-25日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-24))&31)))
近26-30日在pc端登录QQ指数系数	log₂(bit2dec(login_mask_pc>>(d-29))&31)))

表4

说明：此处引入指数系数的意义与第三步的意义一样，引入一个指数系数是要区分同一个时间区域内登录天数相同的QQ排序，但又不能影响登录天数不同的QQ排序。

五，为了精准的判定出管家ID与QQ之间的关系，用户在哪个时间区间登录是判定的关键，因此，建立如图6所示的评判矩阵，以便根据两两之间评分得到每一个登录情况的权重(w)。此表中，评分的依据为：两两(行、列)之间进行比较，对判定主QQ号更重要的评分为2，两者一样则得分为1，比较相对不重要的得分为0。由图6所示的表，可以得到如图7所示的权重系数对应的图表。其中，w1＝w7，w2＝w8，w3＝w9，w4＝w10，w5＝w11，w6＝w12。

例如上表中，其他条件同等的情况下，近1-5日登录个人中心，与近6-10日登录个人中心相比，最新登录的QQ更有可能是用户的主QQ。因此近1-5日登录个人中心此项得分为2。

由上述步骤，可以得到如下的评分模型，用于计算每一个QQ在计算机上登录时间的得分情况：

图8为应用本发明实施例的一个流程图，基于多渠道收集的不同数据源，有两种不同的分支，以分别用于数据源的收集和分析，最终，汇总分析结果来建立上述评分模型，包括如下内容：

第一条分支：步骤1101-1104

步骤1101、记录用户在电脑管家个人中心登录的每一个QQ；

步骤1102、以5天为时间段区分,记录每个QQ这5天登录个人中心的码位置；

步骤1103、根据记录的码位,计算QQ每个时间区间登录个人中心的实际天数；

步骤1104、将登录码位转为十进制值,计算QQ每个时间区间登录个人中心的指数值；

第二条分支：步骤1201-1204

步骤1201、记录用户每天在pc端登录QQ的情况；

步骤1202、以5天为时间段区分,记录每个QQ在pc端登录的码位置；

步骤1203、根据记录的码位,记录QQ在每个时间区间内登录pc端的实际天数；

步骤1204、将登录码位转为十进制值,计算QQ每个时间区间登录pc端的指数值；

最终，将这两条分支得到的运算结果进行汇总分析，包括：

步骤1301、根据评判矩阵,获取QQ登录个人中心和pc端频率的两两评分得到权重系数；

步骤1302、由以上步骤的结果，建立电脑管家与QQ的关联的评分模型。

以下举一个实际的例子，说明一下以上的步骤。假设管家ID：a，假设当前日期是31号，对应的QQ账号有QQ1，QQ2，QQ3，下表5记录了三个QQ最近一个月的登录情况。

QQ号	login_mask_cente	login_mask_pc
			QQ1	1101101101110010111011110011101	0010111010101010111000101100011
QQ2	1010101011001011010101011101101	1101001100001101001000110011001
			QQ3	1110101100110101010001010110011	0101100001010110011101111100111

表5

根据上面的登录码位，和当前日期，d＝31，计算登录管家个人中心的具体流程如下，登录管家中心的计算细节如图9所示，登录PC端QQ的流程与之类似，得到的权重系数如图10所示。由此，对于QQ1，评分模型的计算如下：

QQ2与QQ3的计算方法与上述相同，假设评分结果为score_QQ₂和score_QQ₃。对比三个QQ的评分结果，得分最高的作为主QQ。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种识别主用户账号的方法，其特征在于，所述方法包括：

在第一应用的标识ID与第二应用的用户账号间建立关联；

基于所述关联收集基于所述用户账号所得到的第一数据源；

2.根据权利要求1所述的方法，其特征在于，根据所述第一频率值集合和所述第二频率值集合中频率值两两之间的评分进行建模后得到数据模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合，包括：

4.根据权利要求1或2所述的方法，其特征在于，根据所述第一数据源和第一预设策略得到用户登录每一个所述用户账号对应的第一频率值集合，包括：

5.根据权利要求1或2所述的方法，其特征在于，根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合，包括：

6.根据权利要求1或2所述的方法，其特征在于，根据所述第二数据源和第二预设策略得到用户登录每一个所述用户账号对应的第二频率值集合，包括：

7.一种服务器，其特征在于，所述服务器包括：

关联建立单元，用于在第一应用的标识ID与第二应用的用户账号间建立关联；

8.根据权利要求7所述的服务器，其特征在于，所述识别单元，进一步用于：

9.根据权利要求7或8所述的服务器，其特征在于，所述第一处理单元，进一步用于：

10.根据权利要求7或8所述的服务器，其特征在于，所述第一处理单元，进一步用于：

11.根据权利要求7或8所述的服务器，其特征在于，所述第二处理单元，进一步用于：

12.根据权利要求7或8所述的服务器，其特征在于，所述第二处理单元，进一步用于：