CN111581235B

CN111581235B - 识别常见关联关系的方法及系统

Info

Publication number: CN111581235B
Application number: CN202010219522.6A
Authority: CN
Inventors: 李君阳
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-08-03
Anticipated expiration: 2040-03-25
Also published as: CN111581235A

Abstract

本发明实施例提供一种识别常见关联关系的方法及系统，其中方法包括从数据库中选取基础样本；将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集；获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本。本发明实施例相比现有技术的查找效率大幅提高，并且通过验证，准确率达到98％，召回率达到87％。

Description

识别常见关联关系的方法及系统

技术领域

本发明涉及大数据检索技术领域，更具体地，涉及识别常见关联关系的方法及系统。

背景技术

随着通信技术的不断发展，使用应用程序越来越便利，而注册应用程序和登录应用程序是使用应用程序必须要完成的步骤，目前很多应用程序对于注册应用程序以及登录应用程序并没有做成较多的限制，比如一个身份证号、手机号等信息可以注册一个应用程序的多个账号，而一个账号也被允许登录多台电子设备。

应用程序在使用时通常会在后台采集一些用户标识，例如应用程序所在的电子设备的唯一标识——比如手机的IMEI码(International Mobile Equipment Identity，国际移动设备识别码)、应用程序的账号信息、注册该账号信息的手机号、身份证号码、照片等等。

目前常见的用户识别主要通过采集用户的姓名、身份证号，再通过手机号、设备号等与身份证号的共现，来判断上述id背后的用户是否为同一人。但该方法主要有两点问题：

1.身份证号获取困难，只有银行、金融等行业才可合法采集，这就导致获取的注册信息并不准确。

2.不同标识信息的共用情况较为常见，比如手机号和设备IMEI码共现，仅通过共现的方式进行标识的归属判别，会带来大量的错误。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的识别常见关联关系的方法及系统。

第一个方面，本发明实施例提供一种识别常见关联关系的方法，包括：

从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系；

将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；

从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系；

获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本；

其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数。

进一步地，所述根据所述用户行为日志，从第一样本集中确定目标样本，具体为：

根据所述第一样本集中的样本的用户行为日志以及所述第二样本集中所有样本的用户行为日志，计算所述第一样本集中的样本与所述第二样本集的相似度，作为所述第一样本集中的样本记录的第一标识与第二标识呈常见关联关系的概率，将第一样本集中具有最高概率的样本作为所述目标样本。

进一步地，所述计算所述第一样本集中的样本与所述第二样本集的相似度，具体为：

对所述第一样本集和第二样本集中的任意一个样本，根据所述样本的用户行为日志，获得所述样本的样本特征；

根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征；

计算所述第一样本集中样本的样本特征与所述第二样本集的样本特征的相似度，获得所述第一样本集中的样本与所述第二样本集的相似度。

进一步地，所述根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征，具体为：

将所述第二样本集中所有样本的样本特征的平均值作为所述第一样本集的样本特征。

进一步地，所述相似度以余弦相似度、欧氏距离、马氏距离中的一种进行表征。

进一步地，所述用户行为日志包括：预设时间内的使用总次数、白天使用次数、夜间使用次数、首次和末次使用间隔、末次使用距今间隔、近7天使用次数、近15天使用次数、近30天使用次数、周使用平均次数、周使用最小次数和周使用最大次数；所述预设时间至少为30天。

进一步地，所述从第一样本集中确定目标样本，之后还包括：

构建连通图，所述连通图中的节点为数据库中样本的标识，样本通过所述连通图中首尾不相连的M个节点连接成的多段线进行表征，相同的标识共用一个节点；

若所述连通图中的节点连接至少两个同一种标识的其他节点，则计算所述节点与所述至少两个同一种标识的其他节点间的相似度；

在所述连通图中获取所有连通分量，若连通分量中的节点连接至少两个同一种标识的其他节点，则仅保留所述节点与最大相似度的其他节点的连线，以获得重构后的连通图；

根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识。

进一步地，所述根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识，具体为：

将所述重构后的连通图中的连通分量压缩为一个超节点；

根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度；

将关联度大于预设阈值的两两超节点合并为一个超节点，获得再次重构的连通图，所述再次重构后的连通图中的超节点表示一个用户，超节点中包含的所有节点表示用户的所有常用标识。

进一步地，所述根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度，具体为：

将所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度的平均值，作为所述超节点与另一个超节点间的关联度。

第二个方面，本发明实施例提供一种识别常见关联关系的系统，包括：

基础样本获取装置，用于从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系；

标识确定装置，用于将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；

样本集获取装置，用于从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系；

关联关系确定装置，用于获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本；

其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数。

进一步地，所述关联关系确定装置包括用于根据所述用户行为日志，从第一样本集中确定目标样本的目标样本确定模块；

其中，所述目标样本确定模块具体用于：根据所述第一样本集中的样本的用户行为日志以及所述第二样本集中所有样本的用户行为日志，计算所述第一样本集中的样本与所述第二样本集的相似度，作为所述第一样本集中的样本记录的第一标识与第二标识呈常见关联关系的概率，将第一样本集中具有最高概率的样本作为所述目标样本

进一步地，所述目标样本确定模块包括用于计算所述第一样本集中的样本与所述第二样本集的相似度的相似度计算单元；所述相似度计算单元具体包括：

样本特征二级单元，用于对所述第一样本集和第二样本集中的任意一个样本，根据所述样本的用户行为日志，获得所述样本的样本特征；

样本集特征二级单元，用于根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征；

样本相似度二级单元，用于计算所述第一样本集中样本的样本特征与所述第二样本集的样本特征的相似度，获得所述第一样本集中的样本与所述第二样本集的相似度。

进一步地，所述样本集特征二级单元具体用于：将所述第二样本集中所有样本的样本特征的平均值作为所述第一样本集的样本特征。

进一步地，所述识别常见关联关系的系统还包括：

连通图构建装置，用于构建连通图，所述连通图中的节点为数据库中样本的标识，样本通过所述连通图中首尾不相连的M个节点连接成的多段线进行表征，相同的标识共用一个节点；

节点相似度计算装置，用于若所述连通图中的节点连接至少两个同一种标识的其他节点，则计算所述节点与所述至少两个同一种标识的其他节点间的相似度；

连通图重构装置，用于在所述连通图中获取所有连通分量，若连通分量中的节点连接至少两个同一种标识的其他节点，则仅保留所述节点与最大相似度的其他节点的连线，以获得重构后的连通图；

常用标识获取装置，用于根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识

进一步地，所述常用标识获取装置具体包括：

超节点压缩模块，用于将所述重构后的连通图中的连通分量压缩为一个超节点；

超节点关联度模块，用于根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度；

常用标识获取模块，用于将关联度大于预设阈值的两两超节点合并为一个超节点，获得再次重构的连通图，所述再次重构后的连通图中的超节点表示一个用户，超节点中包含的所有节点表示用户的所有常用标识。

进一步地，所述超节点关联度模块具体用于：将所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度的平均值，作为所述超节点与另一个超节点间的关联度。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的识别常见关联关系的方法及系统，借助了用户画像的思想，将一个样本中的标识作为描述用户的要素，若一个样本中的所有标识在数据库中呈唯一关联关系，则说明该样本可以完整地描述或界定一个用户，而如果一个样本中有至少部分标识在数据库中呈多关联关系，则说明一个样本无法唯一地描述或界定一个用户，而本发明的目的则是找出哪个样本中具有多关联关系的标识与其他的标识呈常见关联关系，本发明实施例通过构建第二样本集，基于多个能够完整描述用户的样本，从第一样本集中找出表征所述第一标识与所述第二标识呈常见关联关系的样本，由于每个样本都对应着一个用户，因此通过本发明确定记录常见关联关系的标识的样本的方法也意味着识别出用户的常用标识，相比现有技术的查找效率大幅提高，并且通过验证，准确率达到98％，召回率达到87％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的识别常见关联关系的方法的流程示意图；

图2为本发明实施例确定用户及用户的所有标识的流程示意图；

图3为本发明实施例的连通图的示意图；

图4为本发明实施例的重构后的连通图的示意图；

图5为本发明实施例的识别常见关联关系的系统的结构示意图；

图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例的发明构思为：从用户的使用行为来说，标识具有唯一关联关系和多关联关系是完全相反的使用行为，若一个样本的所有标识在数据库中都具有唯一关联关系，则说明该样本能够唯一地描述出用户的画像，而如果一个样本中有至少一种标识在数据库中具有多关联关系，则表明一个样本无法唯一地描述用户的画像，本发明实施例以多个具有唯一关联关系的标识的样本作为参考，从多关联关系的多个样本中找出预设的两个标识呈常用关系的样本，准确率达到98％，召回率达到87％。

图1为本发明实施例提供的识别常见关联关系的方法的流程示意图，如图1所示，该方法包括：

S101、从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系。

用户在使用应用程序或者登录网站时，服务器会记录用户的用户标识，作为样本存储在数据库中。样本的标识数量是一样的，均为M个，M为不小于2的正数。可选地，本发明实施例的样本都记录了账号名称、设备标识、身份证号码、手机号等标识。

现实情况中会出现部分用户使用同一个手机号/身份证号注册多个账号的情况，或者使用同一个账号登陆多个设备的情况，这就导致本发明实施例出现不同的样本中记录了相同的标识的情况。也就是说，如果一个样本记录的所有标识均没有出现在其他样本记录的标识中，则称之为该样本记录的M种标识在所述数据库中呈唯一关联关系，而如果一个样本记录的某种标识存在和其他样本记录的标识相同，则称该种标识在数据库中呈多关联关系。可以理解的是，本发明实施例所述的关联，是针对一个具体的标识来说的，如果一个标识仅出现在一个样本中，则称作为唯一关系，反之则称作为多关联，即一个标识关联了多个样本。

例如，某样本记录了以下4(M＝4)种标识：

账号名称：bjlj888

设备标识：aaaaaaaa

身份证号码：111111111111111111

手机号：13111111111

如果该样本记录的账号名称、设备标识、身份证号码和手机号均没有记载在数据库中的其他样本中，则说明该样本记录的M种标识在所述数据库中呈唯一关联关系。

本发明实施例从数据库中可以随机选出一个基础样本，只要该基础样本满足：m种标识在所述数据库中呈多关联关系即可，本发明实施例对m的数值不做具体限定，但显然可以理解的是，m为不小于1的整数，同时m也不大于M。本发明实施例确定基础样本的目的在于确定一个具体的多关联的标识，为后续确定标识的常见关联关系做准备。常见关联关系是指标识在某一个样本中出现的情况，相比其他样本更常见，举个简单的例子，用户通常在自己的手机上登录微信，某个特殊情况下，该用户在别人的手机上也登录了自己的微信，此时服务器共产生了两个样本，两个样本的区别就在于设备标识出现了差异，那么此时就需要判断出哪个设备标识所在的样本是常用样本，以及一个设备标识到底跟另一个标识(例如账号标识)是不是常见关联关系，常见关联关系是指多(两)个标识较常见地同时出现在一个样本中，比如某个微信号通常登录与手机1中，但偶尔会登录与手机2中，那么数据库中会收集到至少两个样本，一个样本中记录了微信号和手机1的设备标识，另一个样本中记录了微信号和手机2的设备标识，从以上说明可知，微信号和手机1的设备标识是常见关联关系。

S102、将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；

本发明实施例从基础样本中的m种标识(即存在多关联关系的多个标识)中任选一个标识作为第一标识，但对第二标识的限定只需要是与第一标识不同即可，即i的取值范围为：1≤i≤m，且i为整数。可以理解的是，本发明实施例中的第一标识和第二标识都是标识的种类，并不是一个具体的标识信息。

S103、从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系。

由上述说明可知，从数据库中查找出的N(N为不小于1的整数)个样本都具备相同的第一标识，但是第二标识则不尽相同。举例来说，若本发明实施例的样本记录有A、B、C、D共4种标识，其中：

样本1记录的标识为：A₁、B₁、C₁、D₁；

样本2记录的标识为：A₁、B₂、C₂、D₂；

样本3记录的标识为：A₁、B₁、C₃、D₁；

样本4记录的标识为：A₂、B₂、C₄、D₂；

样本5记录的标识为：A₃、B₃、C₅、D₄。

其中，标识的下标表示该种标识的不同值，比如A₁和A₂就是标识A的两种不同值。那么如果确定基础样本为样本1，第一标识为A，由于样本2和样本3中的标识A与样本1中的标识A相同，所以样本2和样本3都是与基础样本的第一标识关联的样本，构建的第一样本集包括样本1、样本2和样本3。

S104、获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本。

通过观察样本1～5可知，样本1和样本3中的标识B均为B₁，而样本2和样本4中的标识B为B₂。第二样本集则只包含一个样本——样本5。若想确定A和B的常见关联关系，实际上就是计算出标识A₁到底和B₁是常见关联关系，还是和B₂是常见关联关系。如果A₁和B₁是常见关联关系，则样本1和样本3均是目标样本。如果A₁和B₂是常见关联关系，则样本2是目标样本。

用户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待的数据转化联结起来。作为实际用户的虚拟代表，用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的，形成的用户角色需要有代表性能代表产品的主要受众和目标群体。

本发明实施例借助了用户画像的思想，将一个样本中的标识作为描述用户的要素，若一个样本中的所有标识在数据库中呈唯一关联关系，则说明该样本可以完整地描述一个用户，而如果一个样本中有至少部分标识在数据库中呈多关联关系，则说明有多个样本描述同一个用户，且每个样本都无法唯一完整地描述用户，而本发明的目的则是找出哪个样本中具有多关联关系的标识与其他的标识呈常见关联关系，本发明实施例通过构建第二样本集，基于多个能够完整描述用户的样本，获取能够表征任意两个标识之间呈唯一关联关系的信息并判断计算第一样本集每个样本中第一标识和第二标识是否符合/接近该信息，如果某些样本符合/接近该信息，则说明这些样本中的第一标识和第二标识呈常见关联关系，即从第一样本集中找出表征所述第一标识与所述第二标识呈常见关联关系的样本，由于每个样本都对应着一个用户，因此通过本发明确定记录常见关联关系的标识的样本的方法也意味着识别出用户的常用标识，相比现有技术的查找效率大幅提高，并且通过验证，准确率达到98％，召回率达到87％，以两个标识：账号标识和设备标识为例，说明准确率和召回率的计算方法：其中准确率的分母是所有账号数量，分子是找到的所属设备都正确的账号数量；召回率的分母是所有账号数量，分子是找全了该账号全部设备的账号数量。

在上述各实施例的基础上，作为一种可选实施例，所述根据所述用户行为日志，从第一样本集中确定目标样本，具体为：

根据所述第一样本集中的样本的用户行为日志以及所述第二样本集中所有样本的用户行为日志，计算所述第一样本集中的样本与所述第二样本集的相似度，作为所述第一样本集中的样本记录的第一标识与第二标识呈常见关联关系的概率；

将第一样本集中具有最高概率的样本作为所述目标样本。

本发明实施例在确定目标样本的过程中，会遍历第一样本集中的样本，利用该样本的用户行为日志和第二样本集中所有样本的用户行为日志，计算出该样本和第二样本集的相似度，由于第二样本集中的样本都能够完整反映出一个用户，因此计算第一样本集中的样本的用户行为日志与第二样本集中所有样本的用户行为日志的相似度就能够反映出第一样本集中的样本的两个标识是否是常用的关联关系的概率，并最终将第一样本集中具有最高概率的样本作为所述目标样本。本发明实施例的基于用户行为日志的相似度来确定目标样本的方法，相比现有技术能够更准确、更高效的找出目标样本以及呈常见关联关系的两个标识。

作为一种可选实施例，本发明实施例的相似度以余弦相似度、欧氏距离、马氏距离中的一种进行表征，余弦相似度是通过测量两个向量之间的夹角的余弦值来度量他们之间的一个相似度。0度角的余弦值是1，其他的任何角度的余弦值都不大于1，最小值是-1，从而两个向量之间角度的余弦值确定了两个向量是否指向同一个方向。两个向量的指向相同时，余弦相似度为1。当两个向量的夹角是90度时，余弦相似度的值为0。两个向量的指向完全相反时，余弦相似度的值为-1。这个结果与向量的长度无关,仅仅与向量的指向有关。本发明实施例可以将用户行为日志中的各个具体行为量化为一个具体的值，然后基于所有值构建出一个向量。

在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离，欧氏空间成为度量空间。欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。

马氏距离(Mahalanobis distance)，表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是，它考虑到各种特性之间的联系(例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的)，并且是尺度无关的(scale-invariant)，即独立于测量尺度。

可选地，本发明实施例的用户行为日志包括：预设时间内的使用总次数、白天使用次数、夜间使用次数、首次和末次使用间隔、末次使用距今间隔、近7天使用次数、近15天使用次数、近30天使用次数、周使用平均次数、周使用最小次数和周使用最大次数；所述预设时间至少为30天。显然，上述行为都是以一个具体的数值进行描述，那么将上述的每种类型的数值作为一个元素，就可以获得一个11维的向量。利用向量进行余弦相似度计算的具体方法本发明实施例不再赘述。

在上述各实施例的基础上，作为一种可选实施例，根据所述第一样本集中的样本的用户行为日志以及所述第二样本集中所有样本的用户行为日志，计算所述第一样本集中的样本与所述第二样本集的相似度，具体为：

S201、对所述第一样本集和第二样本集中的任意一个样本，根据所述样本的用户行为日志，获得所述样本的样本特征。

具体地，本发明实施例对第一样本集和第二样本集中的样本，根据样本的用户行为日志，获得样本的样本特征。由于用户行为日志中记录了样本访问网站产生的各种行为数据(访问、浏览、搜索、点击等)。那么将上述各种行为数据进行量化，将各种行为数据的量化结果组成一个多维数组，即可获得多维的样本特征。

S202、根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征。

本发明实施例在获得样本的样本特征后，会根据第二样本集中所有样本的样本特征，进一步获得第二样本集的样本特征。第二样本集的样本特征是由第二样本集中所有样本的样本特征获得的，因此第二样本集的样本特征综合反映了能够表征一个样本中所有标识之间是常见关联关系(显然唯一关联关系属于常见关联关系)的特征。

S203、计算所述第一样本集中样本的样本特征与所述第二样本集的样本特征的相似度，获得所述第一样本集中的样本与所述第二样本集的相似度。

通过比较第一样本集中的样本的样本特征和第二样本集的样本特征的相似度，相当于将第一样本集中的样本记录的第一标识与第二标识呈常见关联关系的概率进行量化。

在上述各实施例的基础上，作为一种可选实施例，所述根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征，具体为：

将所述第二样本集中所有样本的样本特征的平均值作为所述第二样本集的样本特征。

具体地，样本的样本特征均为R(R为正整数)维特征向量，那么对于每一维度的元素，以所有样本的该维度的元素的平均值，作为第二样本集的样本特征的该维度的元素，以此获得第二样本集的样本特征。

通过上述各实施例，本发明实施例能够从存在多关联关联的标识中识别出具有常见关联关系的两个标识，在此基础上，本发明实施例还能够进一步识别出一个用户所拥有的所有标识，图2为本发明实施例确定用户及用户的所有标识的流程示意图，如图2所示，包括：

S200、构建连通图，所述连通图中的节点为数据库中样本的标识，样本通过所述连通图中首尾不相连的M个节点连接成的多段线进行表征，相同的标识共用一个节点。

下面结合一个具体的例子说明本发明实施例的连通图，本发明实施例用于构建连通图的样本记录有A、B、C、D共4种标识，其中：

样本1记录的标识为：A₁、B₁、C₁、D₁；

样本2记录的标识为：A₁、B₂、C₂、D₂；

样本3记录的标识为：A₁、B₁、C₃、D₁；

样本4记录的标识为：A₂、B₂、C₄、D₂；

样本5记录的标识为：A₃、B₃、C₅、D₄。

上述标识的下标表示该种标识的不同值，比如A₁和A₂就是标识A的两种不同值。图3为本发明实施例的连通图的示意图，如图3所示，尽管A₁在3个样本中都有出现，但在连通图中共用一个节点，每一个样本均可以连通图中首尾不相连的M个节点连接成的多段线进行表征，例如样本1可以通过A₁、B₁、C₁、D₁节点连成的多线段进行表示。

S210、若所述连通图中的节点连接至少两个同一种标识的其他节点，则计算所述节点与所述至少两个同一种标识的其他节点间的相似度。

以图3为例，B₁和B₂表示B标识的两个不同节点，由于A₁节点同时连接了B₁和B₂，所以需要分别计算A₁和B₁的相似度，A₁和B₂的相似度，其中，A₁和B₁的相似度是通过样本1与样本5之间或者样本3与样本5之间的用户行为日志的相似度计算而来，而A₁和B₂的相似度是通过样本2与样本5的用户行为日志的相似度计算而来。同理，还需要计算B₁与C₁的相似度、B₁与C₃的相似度等等。

S220、在所述连通图中获取所有连通分量，若连通分量中的节点连接至少两个同一种标识的其他节点，则仅保留所述节点与最大相似度的其他节点的连线，从而获得重构后的连通图。

在图论中，如果其中的任何两个节点之间都存在一条路径，并且他们都不与子图之外的节点相连，则这样的子图称之为连通分量，在本发明实施例中，节点即为标识，而节点之间的连线即表示连通分量中的路径，也表示两个节点在同一个样本中具有关联关系。利用图论中的标记扩散方法，就可以获取连通图中的连通分量。当然，也可以采用图论中的其他方法寻找连通图中的连通分量，本发明对此不作限定。通过图3可知，图中共有两个连通分量，其中样本1-4中的标识组成了一个连通分量，而样本5中的标识组成了一个连通分量。

本发明实施例在获得连通图中的连通分量后，会对连通分量和连通图进行重构，具体地，利用上一步获得的节点间的相似度计算结果，将连通分量中连接至少两个同一种标识的其他节点的节点，仅保留所述节点与最大相似度的其他节点的连线，从而获得重构后的连通图。以图3为例，若通过计算得知A₁与B₁的相似度高于A₁与B₂的相似度，则切断A1与B2间的线段，基于类似的操作处理连通分量中的其他节点，获得重构后的连通图。图4为本发明实施例的重构后的连通图的示意图，由图4可以明显得知，C₂和C₃变为了两个孤立的节点，由此可以理解为C₂和C₃很可能是用户并不常使用的标识，并且从图4可以看出，原本仅有的两个连通分量，变成了3个连通分量——连通分量1：A₂、B₂、C₄、D₂；连通分量2：A₁、B₁、C₁、D₁；连通分量3：A₃、B₃、C₅、D₄。

S204、根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识。

本发明实施例通过保留最大相似度的节点间的线段实现对连通图的重构，重构后的连通图更容易反映准确度更高的常用标识以及常用的样本。以图4为例，重构后的连通图最终形成了三个连通分量，意味着3个用户，而连通分量中的标识即为用户的常用标识。

在上述各实施例的基础上，作为一种可选实施例，所述根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识，具体为：

S300、将所述重构后的连通图中的连通分量压缩为一个超节点，根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度。

将连通分量压缩为一个超节点，就意味着隐藏了连通分量内部各节点的关联关系，但由于超节点压缩了的节点在重构前的连通图中和另一个超节点压缩了的节点之间存在关联，本发明实施例进一步挖掘超节点和超节点之间的关联度，从而挖掘出可能属于同一个用户的样本的超节点，在本发明实施例中，超节点和超节点之间的关联度通过超节点中节点与另一个超节点的其他节点间在重构前的连通图中的相似度进行表征。

S301、将关联度大于预设阈值的两两超节点合并为一个超节点，获得再次重构的连通图，所述再次重构后的连通图中的超节点表示一个用户，超节点中包含的所有节点表示用户的所有常用标识。

具体地，本发明实施例讲两两超节点合并为一个超节点，是指将原本两个超节点中包含的节点进行汇总，从而获得一个新的超节点，新的超节点包含了原本两个超节点中包含的节点。

经验证，本发明实施例通过对连通图进行两次重构，最终实现用户识别率高达96％，召回率达到90％。需要注意的是，之所以本发明实施例的召回率要低一些，是因为前述实施例仅计算的两个标识之间的关联程度，而在计算用户的常用标识时，考虑的是所有M个标识，所以召回率要低一些，但其效率和准确程度要明显优于现有技术。

在上述各实施例的基础上，作为一种可选实施例，根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度，具体为：

具体地，由于一个超节点对应的连通分量中一个节点只会与其他的一个节点呈关联关系，所以超节点1中有k(k为不大于m的正整数)个节点与超节点2对应的连通分量呈关联关系，则超节点2中也必然是k个节点与超节点1呈关联关系，即两个超节点中节点间的关联关系是一一对应的。所以获取k个相似度的值，然后求取平均值，即为超节点与另一个超节点间的关联度。

图5为本发明实施例的识别常见关联关系的系统的结构示意图，如图5所示，包括：基础样本获取装置201、标识确定装置202、样本集获取装置203、关联关系确定装置204，具体地：

基础样本获取装置201，用于从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系；

标识确定装置202，用于将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；

样本集获取装置203，用于从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系；

关联关系确定装置204，用于获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本；

其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数。

本发明实施例提供的识别常见关联关系的系统，具体执行上述各识别常见关联关系的方法实施例流程，具体请详见上述各识别常见关联关系的方法实施例的内容，在此不再赘述。本发明实施例提供的识别常见关联关系的系统通过构建第二样本集，基于多个能够完整描述用户的样本，从第一样本集中找出表征所述第一标识与所述第二标识呈常见关联关系的样本，由于每个样本都对应着一个用户，因此通过本发明确定记录常见关联关系的标识的样本的方法也意味着识别出用户的常用标识，相比现有技术的查找效率大幅提高，并且通过验证，准确率达到98％，召回率达到87％。

在上述各实施例的基础上，作为一种可选实施例，所述关联关系确定装置包括用于根据所述用户行为日志，从第一样本集中确定目标样本的目标样本确定模块；

在上述各实施例的基础上，作为一种可选实施例，所述目标样本确定模块包括用于计算所述第一样本集中的样本与所述第二样本集的相似度的相似度计算单元；所述相似度计算单元具体包括：

在上述各实施例的基础上，作为一种可选实施例，所述样本集特征二级单元具体用于：将所述第二样本集中所有样本的样本特征的平均值作为所述第二样本集的样本特征。

在上述各实施例的基础上，作为一种可选实施例，所述相似度以余弦相似度、欧氏距离、马氏距离中的一种进行表征。

在上述各实施例的基础上，作为一种可选实施例，所述用户行为日志包括：预设时间内的使用总次数、白天使用次数、夜间使用次数、首次和末次使用间隔、末次使用距今间隔、近7天使用次数、近15天使用次数、近30天使用次数、周使用平均次数、周使用最小次数和周使用最大次数；所述预设时间至少为30天。

在上述各实施例的基础上，作为一种可选实施例，所述识别常见关联关系的系统还包括：

常用标识获取装置，用于根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识。

在上述各实施例的基础上，作为一种可选实施例，所述常用标识获取装置具体包括：

在上述各实施例的基础上，作为一种可选实施例，所述超节点关联度模块具体用于：将所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度的平均值，作为所述超节点与另一个超节点间的关联度。

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序，以执行上述各实施例提供的识别常见关联关系的方法，例如包括：从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系；将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系；获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本；其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的识别常见关联关系的方法，例如包括：从数据库中选取基础样本，所述数据库中的样本均记录M种标识，所述基础样本记录的m种标识在所述数据库中呈多关联关系；将所述基础样本的m种标识中的第i种标识作为第一标识，将所述基础样本中除所述第一标识外的任意一种标识作为第二标识；从数据库中查找与所述基础样本的第一标识关联的N个样本，结合所述基础样本构建第一样本集，从数据库中获取第二样本集，所述第二样本集中的样本记录的M种标识在所述数据库中呈唯一关联关系；获取所述第一样本集和第二样本集中所有样本的用户行为日志，根据所述用户行为日志，从第一样本集中确定目标样本，所述目标样本为用于表征所述第一标识与所述第二标识呈常见关联关系的样本；其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种识别常见关联关系的方法，其特征在于，包括：

其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数；

如果一个样本记录的所有标识均没有出现在其他样本记录的标识中，则所述样本记录的M种标识在所述数据库中呈唯一关联关系；如果一个样本记录的某种标识存在和其他样本记录的标识相同，则所述标识在数据库中呈多关联关系；常见关联关系是指标识在某一个样本中出现的情况，相比其他样本更常见。

2.根据权利要求1所述的识别常见关联关系的方法，其特征在于，所述根据所述用户行为日志，从第一样本集中确定目标样本，具体为：

3.根据权利要求2所述的识别常见关联关系的方法，其特征在于，所述计算所述第一样本集中的样本与所述第二样本集的相似度，具体为：

对所述第一样本集和第二样本集中的样本，根据所述样本的用户行为日志，获得所述样本的样本特征；

4.根据权利要求3所述的识别常见关联关系的方法，其特征在于，所述根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征，具体为：

5.根据权利要求3或4所述的识别常见关联关系的方法，其特征在于，所述第一样本集中样本的样本特征与所述第二样本集的样本特征的相似度以余弦相似度、欧氏距离、马氏距离中的一种进行表征。

6.根据权利要求1-4任意一项所述的识别常见关联关系的方法，其特征在于，所述用户行为日志包括：预设时间内的使用总次数、白天使用次数、夜间使用次数、首次和末次使用间隔、末次使用距今间隔、近7天使用次数、近15天使用次数、近30天使用次数、周使用平均次数、周使用最小次数和周使用最大次数；所述预设时间至少为30天。

7.根据权利要求1-4任意一项所述的识别常见关联关系的方法，其特征在于，所述从第一样本集中确定目标样本，之后还包括：

在所述连通图中获取所有连通分量，若连通分量中的节点连接至少两个同一种标识的其他节点，则仅保留所述连通分量中的节点与最大相似度的其他节点的连线，以获得重构后的连通图；

8.根据权利要求7所述的识别常见关联关系的方法，其特征在于，所述根据重构后的连通图确定数据库中记录的所有用户以及用户的所有常用标识，具体为：

将所述重构后的连通图中的连通分量压缩为超节点；

将关联度大于预设阈值的两两超节点合并为一个超节点，获得再次重构的连通图，所述再次重构后的连通图中的超节点表示一个用户，超节点中包含的所有节点表示用户的所有常用标识；所述两两超节点合并为一个超节点，是指将原本两个超节点中包含的节点进行汇总，从而获得一个新的超节点，新的超节点包含了原本两个超节点中包含的节点。

9.根据权利要求8所述的识别常见关联关系的方法，其特征在于，所述根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度，具体为：

10.一种识别常见关联关系的系统，其特征在于，包括：

其中，1≤i≤m；2≤M；m≤M；1≤N；i、m、M和N均为整数；

11.根据权利要求10所述的识别常见关联关系的系统，其特征在于，所述关联关系确定装置，包括：用于根据所述用户行为日志，从第一样本集中确定目标样本的目标样本确定模块，所述目标样本确定模块用于根据所述第一样本集中的样本的用户行为日志以及所述第二样本集中所有样本的用户行为日志，计算所述第一样本集中的样本与所述第二样本集的相似度，作为所述第一样本集中的样本记录的第一标识与第二标识呈常见关联关系的概率，将第一样本集中具有最高概率的样本作为所述目标样本。

12.根据权利要求11所述的识别常见关联关系的系统，其特征在于，所述目标样本确定模块，包括：用于计算所述第一样本集中的样本与所述第二样本集的相似度的相似度计算单元，所述相似度计算单元，包括：

样本特征二级单元，用于对所述第一样本集和第二样本集中的样本，根据所述样本的用户行为日志，获得所述样本的样本特征；

13.根据权利要求12所述的识别常见关联关系的系统，其特征在于，所述用于根据所述第二样本集中样本的样本特征获得所述第二样本集的样本特征，具体用于：将所述第二样本集中所有样本的样本特征的平均值作为所述第二样本集的样本特征。

14.根据权利要求12或13所述的识别常见关联关系的系统，其特征在于，所述第一样本集中样本的样本特征与所述第二样本集的样本特征的相似度以余弦相似度、欧氏距离、马氏距离中的一种进行表征。

15.根据权利要求10-13任意一项所述的识别常见关联关系的系统，其特征在于，所述用户行为日志包括：预设时间内的使用总次数、白天使用次数、夜间使用次数、首次和末次使用间隔、末次使用距今间隔、近7天使用次数、近15天使用次数、近30天使用次数、周使用平均次数、周使用最小次数和周使用最大次数；所述预设时间至少为30天。

16.根据权利要求10-13任意一项所述的识别常见关联关系的系统，其特征在于，所述识别常见关联关系的系统，还包括：

连通图重构装置，用于在所述连通图中获取所有连通分量，若连通分量中的节点连接至少两个同一种标识的其他节点，则仅保留所述连通分量中的节点与最大相似度的其他节点的连线，以获得重构后的连通图；

17.根据权利要求16所述的识别常见关联关系的系统，其特征在于，所述常用标识获取装置，包括：

常用标识获取模块，用于将关联度大于预设阈值的两两超节点合并为一个超节点，获得再次重构的连通图，所述再次重构后的连通图中的超节点表示一个用户，超节点中包含的所有节点表示用户的所有常用标识；所述两两超节点合并为一个超节点，是指将原本两个超节点中包含的节点进行汇总，从而获得一个新的超节点，新的超节点包含了原本两个超节点中包含的节点。

18.根据权利要求17所述的识别常见关联关系的系统，其特征在于，所述用于根据所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度，确定所述超节点与另一个超节点间的关联度，具体用于：将所述超节点的节点与另一个超节点的节点间在重构前的连通图中的相似度的平均值，作为所述超节点与另一个超节点间的关联度。

19.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述识别常见关联关系的方法的步骤。

20.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述识别常见关联关系的方法的步骤。