CN107515937B

CN107515937B - 差分账户的归类方法及系统、服务终端、存储器

Info

Publication number: CN107515937B
Application number: CN201710759353.3A
Authority: CN
Inventors: 万景琨
Original assignee: Chihiro Location Network Co Ltd
Current assignee: Chihiro Location Network Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2020-10-27
Anticipated expiration: 2037-08-29
Also published as: CN107515937A

Abstract

一种差分账户的归类方法及系统、服务终端、存储器，所述归类方法包括：分别将每一差分账号的用户行为转化为一组特征向量，所述一组特征向量对应一个差分账号，所述一组特征向量包括多维特征向量；基于所转化的特征向量构造哈希函数族，所述哈希函数族包括两组以上哈希函数，每一组哈希函数对应一个差分账号；基于所构造的哈希函数族对所述差分账号进行归类。本发明中，将用户行为转为特征向量，并映射到哈希函数族中，然后进行用户行为分析，可有效地提高数据分析的效率。

Description

差分账户的归类方法及系统、服务终端、存储器

技术领域

本发明属于互联网技术领域，尤其涉及一种差分账户的归类方法及系统、服务终端、存储器。

背景技术

随着信息技术和网络技术的不断发展，互联网上的信息和资源出现了爆炸性的增长。例如普通差分账户几乎每天产生海量的关于行为应用的数据，而如何从庞大的差分用户数据中挖掘出有用的信息是一个难题。而上述海量数据中，由于数据格式各异、没有统一规范的描述方法，因而难以同步化；此外数据信息的更新速度非常快，如何有效地利用这些海量数据资源，并且全方位且深层次地实现资源共享，使数据发挥出最大的效益时迫切需要解决的问题。

现有技术的差分数据分析方法，往往局限于操作方式及操作对象的分析，而操作方式及操作对象的关联松散，导致工作繁琐且工作量巨大，分析挖掘效率较低，浪费了大量的人力。

发明内容

本发明实施例提供了一种差分账户的归类方法及系统、服务终端、存储器，旨在解决现有技术中数据分析挖掘的效率较低的问题。

本发明实施例是这样实现的，一种差分账户的归类方法，包括：

分别将每一差分账号的用户行为转化为一组特征向量，所述一组特征向量对应一个差分账号，所述一组特征向量包括多维特征向量；

基于所转化的特征向量构造哈希函数族，所述哈希函数族包括两组以上哈希函数，每一组哈希函数对应一个差分账号；

基于所构造的哈希函数族对所述差分账号进行归类。

优选地，所述基于所转化的特征向量构造哈希函数族具体包括：

分别基于每一组特征向量构造对应的一组哈希函数；

将构造的每一组哈希函数组成所述哈希函数族。

优选地，所述基于所构造的哈希函数族对所述差分账号进行归类具体包括：

基于所构造的哈希函数族，构造对应的整型向量；

构造二维哈希空间；

基于所述整型向量及二维哈希空间对所述差分账号进行归类。

优选地，所述基于所构造的哈希函数族，构造对应的整型向量具体为：

基于所述哈希函数族构造哈希函数组；

将所述哈希函数组映射成整型向量。

优选地，所述构造二维哈希空间具体包括：

设定第一哈希函数及第二哈希函数；

基于所述整型向量、所述第一哈希函数及第二哈希函数获取两组以上二元组值。

优选地，所述基于所述整型向量及二维哈希空间对所述差分账号进行分类具体包括：

分析所述两组以上二元组值的任意两组二元组值；

当有两组二元组值相等时，确认二元组值相等对应差分账号为同一类差分账号。

优选地，所述第一哈希函数及第二哈希函数分别为：

其中，所述H1为所述第一哈希函数，所述H2为第二哈希函数，所述r_i′、r_i″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子，所述k为哈希函数配置的数量，所述tSize表示哈希空间的大小，所述prime为质数，所述Ai表示第i维整型向量。

本发明还提供一种差分账户的归类系统，包括：

转化模块，用于分别将每一差分账号的用户行为转化为一组特征向量，所述一组特征向量对应一个差分账号，所述一组特征向量包括多维特征向量；

构造模块，用于基于所转化的特征向量构造哈希函数族，所述哈希函数族包括两组以上哈希函数，每一组哈希函数对应一个差分账号；

归类模块，用于基于所构造的哈希函数族对所述差分账号进行归类。

本发明还提供一种存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行如下步骤：

基于所构造的哈希函数族对所述差分账号进行归类。

本发明还提供一种服务终端，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

基于所构造的哈希函数族对所述差分账号进行归类。

在本发明实施例中，将用户行为转为特征向量，并映射到哈希函数族中，然后进行用户行为分析，可有效地提高数据分析的效率。

附图说明

图1是本发明第一实施例提供的一种差分账户的归类方法的流程图；

图2是本发明第一实施例提供的一种差分账户的归类方法的步骤S2的具体流程图；

图3是本发明第一实施例提供的一种差分账户的归类方法的步骤S3的具体流程图；

图4是本发明第二实施例提供的一种差分账户的归类系统的结构图；

图5是本发明第三实施例提供的一种服务终端的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中，一种差分账户的归类方法，包括：分别将每一差分账号的用户行为转化为一组特征向量，所述一组特征向量对应一个差分账号，所述一组特征向量包括多维特征向量；基于所转化的特征向量构造哈希函数族，所述哈希函数族包括两组以上哈希函数，每一组哈希函数对应一个差分账号；基于所构造的哈希函数族对所述差分账号进行归类。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种差分账户的归类方法的流程图，包括：

步骤S1、分别将每一差分账号的用户行为转化为一组特征向量；

具体地，首先需要采集每一差分账号的信息，该信息包括用户行为等信息，而每一差分账号对应的用户会根据自身情况产生对应的用户行为，每一用户行为代表一个维度的特征向量，每个用户的用户行为会有多种，所以一个差分账号对应一组特征向量，该一组特征向量包括多维特征向量，记录下每一差分账号下的用户行为，将用户行为转为特征向量，获得一组特征向量，通常情况下，该一组特征向量为二维以上特征向量(如维度向量)，优选地，该一组特征向量包括多维特征向量。进一步地，根据柯西分布产生d维随机变量(特征向量)。

步骤S2，基于所转化的特征向量构造哈希函数族；

具体地，基于上述的特征向量构造对应的哈希函数族，其中，该哈希函数族包括两组以上哈希函数，每一组哈希函数对应一个差分账号。

步骤S3，基于所构造的哈希函数族对差分账号进行归类；

具体地，分析该哈希函数族及特征向量，基于分析结果对对应的差分账号进行归类，例如，分析那些差分账号相似，那些差分账号不相似，根据最终分析结果来进行账号归类。

本实施例中，将用户行为转为特征向量，并映射到哈希函数族中，然后再进行用户行为分析，可有效地提高数据分析的效率。

在本实施例的一个优选方案中，如图2所示，为本发明第一实施例提供的一种差分账户的归类方法的步骤S2的具体流程图，该步骤S2具体包括：

步骤S21，分别基于每一组特征向量构造对应的一组哈希函数；

具体地，首先构造一基础哈希函数，将每一组特征向量分别代入所述基础哈希函数，得到一组哈希函数，该基础哈希函数为：

其中，所述a为上述特征向量，b为减噪因子，r为实数变量，所述a、b、r作为哈希函数配置参数，所述v为差分账号的维度向量，优选地，每一差分账号对应有k(大于0的自然数)组哈希函数配置参数(每一哈希函数对应不同的a、b、r，例如(a₁、b₁、r₁)、(a₂、b₂、r₂)、、、(a_k、b_k、r_k))，即可获得k个哈希函数，即一组哈希函数中包括K个哈希函数，也可认为获得L组k维哈希函数，其中，所述L为差分账号的数量。

步骤S22，将所构造的每一组哈希函数组成哈希函数族；

具体地，将所构造的每一组哈希函数组合起来形成哈希函数族，优选地，总共有L个差分账号，即可获得L组哈希函数，该L组哈希函数即为哈希函数族，其中，所述L小于k，二者均为大于0的整数，优选地，k大于10，所述L、k可根据实际情况而设，此处对此不作限制。

在本实施例的一个优选方案中，如图3所示，为本发明第一实施例提供的一种差分账户的归类方法的步骤S3的具体流程图，该步骤S3具体包括：

步骤S31，基于所构造的哈希函数族，构造对应的整型向量；

具体地，基于哈希函数族构造哈希函数组，将每一哈希函数组映射成一个整型向量；

进一步地，该哈希函数组为{g₁(·)，g₂(·)，g₃(·)，..，g_i(·)，...，gL(·)}，其中，所述g_i(·)＝(h₁(·)，h₂(·)，…，h_k(·))，所述h₁(·)、、、h_k(·)即为上述在不同哈希函数配置参数下对应的h_a，b(v)，g_i(·)对应一个差分账号，i为大于0的自然数。

进一步地，将{g₁(·)，g₂(·)，g₃(·)，..，g_i(·)，...，g_L(·)}映射成整型向量(A₁、A₂、A₃、、、A_i、、、A_k)，其中A_i表示第i维整型向量。

步骤S32，构造二维哈希空间；

具体地，首先设定第一哈希函数及第二哈希函数；该第一哈希函数及第二哈希函数分别为：

其中，所述H1为所述第一哈希函数，所述H2为第二哈希函数，所述r_i′、r_i″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子，所述k为哈希函数配置的数量，所述tSize表示哈希空间的大小(优选地，tSize为差分账号的数量L*75％)，所述prime为随机选取的质数，用于减少哈希碰撞概率，所述Ai表示所述整型向量。

接着，基于整型向量、第一哈希函数及第二哈希函数获取两组以上二元组值。

具体地，基于整型向量、第一哈希函数及第二哈希函数获得L组二元组值(index_i，address_i)。其中，所述index_i表示第i差分账号对应的由第一哈希函数所获取的值，所述address_i表示第i差分账号对应的由第二哈希函数所获取的值，上述两个值构成二元组值，一个差分账号对应一组二元组值，总共有L组二元组值。

步骤S33，基于整型向量及二维哈希空间对差分账号进行归类；

具体地，首先分析两组以上二元组值的任意两组二元组值，即将每一组二元组值分别与其他二元组值进行比较，当一组二元组值的index，address分别与另一组的index，address相等时(例如：第一组二元组值(index₁，address₁)与第三组二元组值相等(index₃，address₃)，此时，index₁＝index₃，且address₁＝address₃)，确认二元组值相等对应差分账号为同一类差分账号，即差分账号对应的用户相似(例如有近似的用户行为)，将相似的用户进行归类，获得归类结果并存储下来，便于后续利用归类结果进行推荐等操作。

本实施例中，将用户行为转为特征向量，并映射到哈希函数族中，然后进行用户行为分析，可有效地提高数据分析的效率。

其次，构造二维哈希空间，基于该二维哈希空间来进行差分账号的相似性分析，减少查询比对时间，降低复杂度，可节省存储空间，降低成本。

实施例二：

图4示出了本发明第二实施例提供的一种差分账户的归类系统的结构图，该系统包括：转化模块1、与转化模块1连接的构造模块2、与构造模块2连接的归类模块3，其中：

转化模块1，用于分别将每一差分账号的用户行为转化为一组特征向量；

具体地，每一差分账号对应的用户会根据自身情况产生对应的用户行为，每一用户行为代表一个维度的特征向量，每个用户的用户行为会有多种，所以一个差分账号对应一组特征向量，该一组特征向量包括多维特征向量，记录下每一差分账号下的用户行为，将用户行为转为特征向量，获得一组特征向量，通常情况下，该一组特征向量为二维以上特征向量(如维度向量)，优选地，该一组特征向量包括多维特征向量。进一步地，根据柯西分布产生d维随机变量(特征向量)。

构造模块2，用于基于所转化的特征向量构造哈希函数族；

归类模块3，用于基于所构造的哈希函数族对差分账号进行归类；

在本实施例的一个优选方案中，该构造模块2具体包括：第一构造单元、与第一构造单元连接的组合单元，其中：

第一构造单元，用于分别基于每一组特征向量构造对应的一组哈希函数；

其中，所述a为上述特征向量，b为减噪因子，r为实数变量，所述a、b、r作为哈希函数配置参数，所述v为差分账号的维度向量，每一差分账号对应有k(大于0的自然数)组哈希函数配置参数(每一哈希函数对应不同的a、b、r，例如(a₁、b₁、r₁)、(a₂、b₂、r₂)、、、(a_k、b_k、r_k))，即可获得k个哈希函数，即一组哈希函数中包括K个哈希函数，也可认为获得L组k维哈希函数，其中，所述L为差分账号的数量。

组合单元，用于将所构造的每一组哈希函数组成哈希函数族；

在本实施例的一个优选方案中，该归类模块3具体包括：第二构造单元、与第二构造单元连接的第三构造单元、与第三构造单元连接的归类单元，其中：

第二构造单元，用于基于所构造的哈希函数族，构造对应的整型向量；

进一步地，该哈希函数组为{g₁(·)，g₂(·)，g₃(·)，..，g_i(·)，...，g_L(·)}，其中，所述g_i(·)＝(h₁(·)，h₂(·)，…，h_k(·))，所述h₁(·)、、、h_k(·)即为上述在不同哈希函数配置参数下对应的h_a，b(v)，g_i(·)对应一个差分账号，i为大于0的自然数。

第三构造单元，用于构造二维哈希空间；

归类单元，用于基于整型向量及二维哈希空间对差分账号进行归类；

实施例三：

图5示出了本发明第三实施例提供的一种服务终端的结构图，该处服务终端包括：存储器(memory)51、处理器(processor)52、通信接口(Communications Interface)53和总线54，该处理器52、存储器51、通信接口53通过总线54完成相互之间的交互通信。

存储器51，用于存储各种数据；

具体地，存储器51用于存储各种数据，例如通信过程中的数据、接收的数据等，此处对此不作限制，该存储器还包括有多个计算机程序。

通信接口53，用于该服务终端的通信设备之间的信息传输；

处理器52，用于调用存储器51中的各种计算机程序，以执行上述实施例一所提供的一种差分账户的归类方法，例如：

基于所构造的哈希函数族对所述差分账号进行归类。

本实施例中，将用户行为转为特征向量，并映射到哈希函数族中，然后进行用户行为分析，可有效地提高数据分析的效率；

本发明还提供一种存储器，该存储器存储有多个计算机程序，该多个计算机程序被处理器调用执行上述实施例一所述的一种差分账户的归类方法。

本发明中，将用户行为转为特征向量，并映射到哈希函数族中，然后进行用户行为分析，可有效地提高数据分析的效率。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种差分账户的归类方法，其特征在于，包括：

基于所构造的哈希函数族对所述差分账号进行归类，具体包括：

基于所构造的哈希函数族，构造对应的整型向量；

构造二维哈希空间，具体包括：

设定第一哈希函数及第二哈希函数；

基于所述的整型向量、所述第一哈希函数及第二哈希函数获取两组以上二元组值；

基于所述整型向量及二维哈希空间对所述差分账号进行归类；

所述第一哈希函数及第二哈希函数分别为：

2.根据权利要求1所述的归类方法，其特征在于，所述基于所转化的特征向量构造哈希函数族具体包括：

分别基于每一组特征向量构造对应的一组哈希函数；

将构造的每一组哈希函数组成所述哈希函数族。

3.根据权利要求1所述的归类方法，其特征在于，所述基于所构造的哈希函数族，构造对应的整型向量具体为：

基于所述哈希函数族构造哈希函数组；

将所述哈希函数组映射成整型向量。

4.根据权利要求1所述的归类方法，其特征在于，所述基于所述整型向量及二维哈希空间对所述差分账号进行分类具体包括：

分析所述两组以上二元组值的任意两组二元组值；

5.一种差分账户的归类系统，用于实施权利要求1所述的归类方法，其特征在于，包括：

6.一种存储器，用于实施权利要求1所述的归类方法，所述存储器存储有计算机程序，其特征在于，所述计算机程序被处理器执行如下步骤：

基于所构造的哈希函数族对所述差分账号进行归类。

7.一种服务终端，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1项所述的差分账户的归类方法的步骤。