CN107515937B - 差分账户的归类方法及系统、服务终端、存储器 - Google Patents

差分账户的归类方法及系统、服务终端、存储器 Download PDF

Info

Publication number
CN107515937B
CN107515937B CN201710759353.3A CN201710759353A CN107515937B CN 107515937 B CN107515937 B CN 107515937B CN 201710759353 A CN201710759353 A CN 201710759353A CN 107515937 B CN107515937 B CN 107515937B
Authority
CN
China
Prior art keywords
hash function
hash
group
feature vectors
differential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710759353.3A
Other languages
English (en)
Other versions
CN107515937A (zh
Inventor
万景琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chihiro Location Network Co Ltd
Original Assignee
Chihiro Location Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chihiro Location Network Co Ltd filed Critical Chihiro Location Network Co Ltd
Priority to CN201710759353.3A priority Critical patent/CN107515937B/zh
Publication of CN107515937A publication Critical patent/CN107515937A/zh
Application granted granted Critical
Publication of CN107515937B publication Critical patent/CN107515937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种差分账户的归类方法及系统、服务终端、存储器,所述归类方法包括:分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;基于所构造的哈希函数族对所述差分账号进行归类。本发明中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率。

Description

差分账户的归类方法及系统、服务终端、存储器
技术领域
本发明属于互联网技术领域,尤其涉及一种差分账户的归类方法及系统、服务终端、存储器。
背景技术
随着信息技术和网络技术的不断发展,互联网上的信息和资源出现了爆炸性的增长。例如普通差分账户几乎每天产生海量的关于行为应用的数据,而如何从庞大的差分用户数据中挖掘出有用的信息是一个难题。而上述海量数据中,由于数据格式各异、没有统一规范的描述方法,因而难以同步化;此外数据信息的更新速度非常快,如何有效地利用这些海量数据资源,并且全方位且深层次地实现资源共享,使数据发挥出最大的效益时迫切需要解决的问题。
现有技术的差分数据分析方法,往往局限于操作方式及操作对象的分析,而操作方式及操作对象的关联松散,导致工作繁琐且工作量巨大,分析挖掘效率较低,浪费了大量的人力。
发明内容
本发明实施例提供了一种差分账户的归类方法及系统、服务终端、存储器,旨在解决现有技术中数据分析挖掘的效率较低的问题。
本发明实施例是这样实现的,一种差分账户的归类方法,包括:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类。
优选地,所述基于所转化的特征向量构造哈希函数族具体包括:
分别基于每一组特征向量构造对应的一组哈希函数;
将构造的每一组哈希函数组成所述哈希函数族。
优选地,所述基于所构造的哈希函数族对所述差分账号进行归类具体包括:
基于所构造的哈希函数族,构造对应的整型向量;
构造二维哈希空间;
基于所述整型向量及二维哈希空间对所述差分账号进行归类。
优选地,所述基于所构造的哈希函数族,构造对应的整型向量具体为:
基于所述哈希函数族构造哈希函数组;
将所述哈希函数组映射成整型向量。
优选地,所述构造二维哈希空间具体包括:
设定第一哈希函数及第二哈希函数;
基于所述整型向量、所述第一哈希函数及第二哈希函数获取两组以上二元组值。
优选地,所述基于所述整型向量及二维哈希空间对所述差分账号进行分类具体包括:
分析所述两组以上二元组值的任意两组二元组值;
当有两组二元组值相等时,确认二元组值相等对应差分账号为同一类差分账号。
优选地,所述第一哈希函数及第二哈希函数分别为:
Figure BDA0001392818900000021
Figure BDA0001392818900000031
其中,所述H1为所述第一哈希函数,所述H2为第二哈希函数,所述ri′、ri″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子,所述k为哈希函数配置的数量,所述tSize表示哈希空间的大小,所述prime为质数,所述Ai表示第i维整型向量。
本发明还提供一种差分账户的归类系统,包括:
转化模块,用于分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
构造模块,用于基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
归类模块,用于基于所构造的哈希函数族对所述差分账号进行归类。
本发明还提供一种存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行如下步骤:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类。
本发明还提供一种服务终端,包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类。
在本发明实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率。
附图说明
图1是本发明第一实施例提供的一种差分账户的归类方法的流程图;
图2是本发明第一实施例提供的一种差分账户的归类方法的步骤S2的具体流程图;
图3是本发明第一实施例提供的一种差分账户的归类方法的步骤S3的具体流程图;
图4是本发明第二实施例提供的一种差分账户的归类系统的结构图;
图5是本发明第三实施例提供的一种服务终端的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例中,一种差分账户的归类方法,包括:分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;基于所构造的哈希函数族对所述差分账号进行归类。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种差分账户的归类方法的流程图,包括:
步骤S1、分别将每一差分账号的用户行为转化为一组特征向量;
具体地,首先需要采集每一差分账号的信息,该信息包括用户行为等信息,而每一差分账号对应的用户会根据自身情况产生对应的用户行为,每一用户行为代表一个维度的特征向量,每个用户的用户行为会有多种,所以一个差分账号对应一组特征向量,该一组特征向量包括多维特征向量,记录下每一差分账号下的用户行为,将用户行为转为特征向量,获得一组特征向量,通常情况下,该一组特征向量为二维以上特征向量(如维度向量),优选地,该一组特征向量包括多维特征向量。进一步地,根据柯西分布产生d维随机变量(特征向量)。
步骤S2,基于所转化的特征向量构造哈希函数族;
具体地,基于上述的特征向量构造对应的哈希函数族,其中,该哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号。
步骤S3,基于所构造的哈希函数族对差分账号进行归类;
具体地,分析该哈希函数族及特征向量,基于分析结果对对应的差分账号进行归类,例如,分析那些差分账号相似,那些差分账号不相似,根据最终分析结果来进行账号归类。
本实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后再进行用户行为分析,可有效地提高数据分析的效率。
在本实施例的一个优选方案中,如图2所示,为本发明第一实施例提供的一种差分账户的归类方法的步骤S2的具体流程图,该步骤S2具体包括:
步骤S21,分别基于每一组特征向量构造对应的一组哈希函数;
具体地,首先构造一基础哈希函数,将每一组特征向量分别代入所述基础哈希函数,得到一组哈希函数,该基础哈希函数为:
Figure BDA0001392818900000051
其中,所述a为上述特征向量,b为减噪因子,r为实数变量,所述a、b、r作为哈希函数配置参数,所述v为差分账号的维度向量,优选地,每一差分账号对应有k(大于0的自然数)组哈希函数配置参数(每一哈希函数对应不同的a、b、r,例如(a1、b1、r1)、(a2、b2、r2)、、、(ak、bk、rk)),即可获得k个哈希函数,即一组哈希函数中包括K个哈希函数,也可认为获得L组k维哈希函数,其中,所述L为差分账号的数量。
步骤S22,将所构造的每一组哈希函数组成哈希函数族;
具体地,将所构造的每一组哈希函数组合起来形成哈希函数族,优选地,总共有L个差分账号,即可获得L组哈希函数,该L组哈希函数即为哈希函数族,其中,所述L小于k,二者均为大于0的整数,优选地,k大于10,所述L、k可根据实际情况而设,此处对此不作限制。
在本实施例的一个优选方案中,如图3所示,为本发明第一实施例提供的一种差分账户的归类方法的步骤S3的具体流程图,该步骤S3具体包括:
步骤S31,基于所构造的哈希函数族,构造对应的整型向量;
具体地,基于哈希函数族构造哈希函数组,将每一哈希函数组映射成一个整型向量;
进一步地,该哈希函数组为{g1(·),g2(·),g3(·),..,gi(·),...,gL(·)},其中,所述gi(·)=(h1(·),h2(·),…,hk(·)),所述h1(·)、、、hk(·)即为上述在不同哈希函数配置参数下对应的ha,b(v),gi(·)对应一个差分账号,i为大于0的自然数。
进一步地,将{g1(·),g2(·),g3(·),..,gi(·),...,gL(·)}映射成整型向量(A1、A2、A3、、、Ai、、、Ak),其中Ai表示第i维整型向量。
步骤S32,构造二维哈希空间;
具体地,首先设定第一哈希函数及第二哈希函数;该第一哈希函数及第二哈希函数分别为:
Figure BDA0001392818900000071
Figure BDA0001392818900000072
其中,所述H1为所述第一哈希函数,所述H2为第二哈希函数,所述ri′、ri″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子,所述k为哈希函数配置的数量,所述tSize表示哈希空间的大小(优选地,tSize为差分账号的数量L*75%),所述prime为随机选取的质数,用于减少哈希碰撞概率,所述Ai表示所述整型向量。
接着,基于整型向量、第一哈希函数及第二哈希函数获取两组以上二元组值。
具体地,基于整型向量、第一哈希函数及第二哈希函数获得L组二元组值(indexi,addressi)。其中,所述indexi表示第i差分账号对应的由第一哈希函数所获取的值,所述addressi表示第i差分账号对应的由第二哈希函数所获取的值,上述两个值构成二元组值,一个差分账号对应一组二元组值,总共有L组二元组值。
步骤S33,基于整型向量及二维哈希空间对差分账号进行归类;
具体地,首先分析两组以上二元组值的任意两组二元组值,即将每一组二元组值分别与其他二元组值进行比较,当一组二元组值的index,address分别与另一组的index,address相等时(例如:第一组二元组值(index1,address1)与第三组二元组值相等(index3,address3),此时,index1=index3,且address1=address3),确认二元组值相等对应差分账号为同一类差分账号,即差分账号对应的用户相似(例如有近似的用户行为),将相似的用户进行归类,获得归类结果并存储下来,便于后续利用归类结果进行推荐等操作。
本实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率。
其次,构造二维哈希空间,基于该二维哈希空间来进行差分账号的相似性分析,减少查询比对时间,降低复杂度,可节省存储空间,降低成本。
实施例二:
图4示出了本发明第二实施例提供的一种差分账户的归类系统的结构图,该系统包括:转化模块1、与转化模块1连接的构造模块2、与构造模块2连接的归类模块3,其中:
转化模块1,用于分别将每一差分账号的用户行为转化为一组特征向量;
具体地,每一差分账号对应的用户会根据自身情况产生对应的用户行为,每一用户行为代表一个维度的特征向量,每个用户的用户行为会有多种,所以一个差分账号对应一组特征向量,该一组特征向量包括多维特征向量,记录下每一差分账号下的用户行为,将用户行为转为特征向量,获得一组特征向量,通常情况下,该一组特征向量为二维以上特征向量(如维度向量),优选地,该一组特征向量包括多维特征向量。进一步地,根据柯西分布产生d维随机变量(特征向量)。
构造模块2,用于基于所转化的特征向量构造哈希函数族;
具体地,基于上述的特征向量构造对应的哈希函数族,其中,该哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号。
归类模块3,用于基于所构造的哈希函数族对差分账号进行归类;
具体地,分析该哈希函数族及特征向量,基于分析结果对对应的差分账号进行归类,例如,分析那些差分账号相似,那些差分账号不相似,根据最终分析结果来进行账号归类。
本实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后再进行用户行为分析,可有效地提高数据分析的效率。
在本实施例的一个优选方案中,该构造模块2具体包括:第一构造单元、与第一构造单元连接的组合单元,其中:
第一构造单元,用于分别基于每一组特征向量构造对应的一组哈希函数;
具体地,首先构造一基础哈希函数,将每一组特征向量分别代入所述基础哈希函数,得到一组哈希函数,该基础哈希函数为:
Figure BDA0001392818900000091
其中,所述a为上述特征向量,b为减噪因子,r为实数变量,所述a、b、r作为哈希函数配置参数,所述v为差分账号的维度向量,每一差分账号对应有k(大于0的自然数)组哈希函数配置参数(每一哈希函数对应不同的a、b、r,例如(a1、b1、r1)、(a2、b2、r2)、、、(ak、bk、rk)),即可获得k个哈希函数,即一组哈希函数中包括K个哈希函数,也可认为获得L组k维哈希函数,其中,所述L为差分账号的数量。
组合单元,用于将所构造的每一组哈希函数组成哈希函数族;
具体地,将所构造的每一组哈希函数组合起来形成哈希函数族,优选地,总共有L个差分账号,即可获得L组哈希函数,该L组哈希函数即为哈希函数族,其中,所述L小于k,二者均为大于0的整数,优选地,k大于10,所述L、k可根据实际情况而设,此处对此不作限制。
在本实施例的一个优选方案中,该归类模块3具体包括:第二构造单元、与第二构造单元连接的第三构造单元、与第三构造单元连接的归类单元,其中:
第二构造单元,用于基于所构造的哈希函数族,构造对应的整型向量;
具体地,基于哈希函数族构造哈希函数组,将每一哈希函数组映射成一个整型向量;
进一步地,该哈希函数组为{g1(·),g2(·),g3(·),..,gi(·),...,gL(·)},其中,所述gi(·)=(h1(·),h2(·),…,hk(·)),所述h1(·)、、、hk(·)即为上述在不同哈希函数配置参数下对应的ha,b(v),gi(·)对应一个差分账号,i为大于0的自然数。
进一步地,将{g1(·),g2(·),g3(·),..,gi(·),...,gL(·)}映射成整型向量(A1、A2、A3、、、Ai、、、Ak),其中Ai表示第i维整型向量。
第三构造单元,用于构造二维哈希空间;
具体地,首先设定第一哈希函数及第二哈希函数;该第一哈希函数及第二哈希函数分别为:
Figure BDA0001392818900000101
Figure BDA0001392818900000102
其中,所述H1为所述第一哈希函数,所述H2为第二哈希函数,所述ri′、ri″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子,所述k为哈希函数配置的数量,所述tSize表示哈希空间的大小(优选地,tSize为差分账号的数量L*75%),所述prime为随机选取的质数,用于减少哈希碰撞概率,所述Ai表示所述整型向量。
接着,基于整型向量、第一哈希函数及第二哈希函数获取两组以上二元组值。
具体地,基于整型向量、第一哈希函数及第二哈希函数获得L组二元组值(indexi,addressi)。其中,所述indexi表示第i差分账号对应的由第一哈希函数所获取的值,所述addressi表示第i差分账号对应的由第二哈希函数所获取的值,上述两个值构成二元组值,一个差分账号对应一组二元组值,总共有L组二元组值。
归类单元,用于基于整型向量及二维哈希空间对差分账号进行归类;
具体地,首先分析两组以上二元组值的任意两组二元组值,即将每一组二元组值分别与其他二元组值进行比较,当一组二元组值的index,address分别与另一组的index,address相等时(例如:第一组二元组值(index1,address1)与第三组二元组值相等(index3,address3),此时,index1=index3,且address1=address3),确认二元组值相等对应差分账号为同一类差分账号,即差分账号对应的用户相似(例如有近似的用户行为),将相似的用户进行归类,获得归类结果并存储下来,便于后续利用归类结果进行推荐等操作。
本实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率。
其次,构造二维哈希空间,基于该二维哈希空间来进行差分账号的相似性分析,减少查询比对时间,降低复杂度,可节省存储空间,降低成本。
实施例三:
图5示出了本发明第三实施例提供的一种服务终端的结构图,该处服务终端包括:存储器(memory)51、处理器(processor)52、通信接口(Communications Interface)53和总线54,该处理器52、存储器51、通信接口53通过总线54完成相互之间的交互通信。
存储器51,用于存储各种数据;
具体地,存储器51用于存储各种数据,例如通信过程中的数据、接收的数据等,此处对此不作限制,该存储器还包括有多个计算机程序。
通信接口53,用于该服务终端的通信设备之间的信息传输;
处理器52,用于调用存储器51中的各种计算机程序,以执行上述实施例一所提供的一种差分账户的归类方法,例如:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类。
本实施例中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率;
其次,构造二维哈希空间,基于该二维哈希空间来进行差分账号的相似性分析,减少查询比对时间,降低复杂度,可节省存储空间,降低成本。
本发明还提供一种存储器,该存储器存储有多个计算机程序,该多个计算机程序被处理器调用执行上述实施例一所述的一种差分账户的归类方法。
本发明中,将用户行为转为特征向量,并映射到哈希函数族中,然后进行用户行为分析,可有效地提高数据分析的效率。
其次,构造二维哈希空间,基于该二维哈希空间来进行差分账号的相似性分析,减少查询比对时间,降低复杂度,可节省存储空间,降低成本。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种差分账户的归类方法,其特征在于,包括:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类,具体包括:
基于所构造的哈希函数族,构造对应的整型向量;
构造二维哈希空间,具体包括:
设定第一哈希函数及第二哈希函数;
基于所述的整型向量、所述第一哈希函数及第二哈希函数获取两组以上二元组值;
基于所述整型向量及二维哈希空间对所述差分账号进行归类;
所述第一哈希函数及第二哈希函数分别为:
Figure FDA0002601673420000011
Figure FDA0002601673420000012
其中,所述H1为所述第一哈希函数,所述H2为第二哈希函数,所述ri′、ri″为所述第一哈希函数及第二哈希函数对应的减小碰撞频率的因子,所述k为哈希函数配置的数量,所述tSize表示哈希空间的大小,所述prime为质数,所述Ai表示第i维整型向量。
2.根据权利要求1所述的归类方法,其特征在于,所述基于所转化的特征向量构造哈希函数族具体包括:
分别基于每一组特征向量构造对应的一组哈希函数;
将构造的每一组哈希函数组成所述哈希函数族。
3.根据权利要求1所述的归类方法,其特征在于,所述基于所构造的哈希函数族,构造对应的整型向量具体为:
基于所述哈希函数族构造哈希函数组;
将所述哈希函数组映射成整型向量。
4.根据权利要求1所述的归类方法,其特征在于,所述基于所述整型向量及二维哈希空间对所述差分账号进行分类具体包括:
分析所述两组以上二元组值的任意两组二元组值;
当有两组二元组值相等时,确认二元组值相等对应差分账号为同一类差分账号。
5.一种差分账户的归类系统,用于实施权利要求1所述的归类方法,其特征在于,包括:
转化模块,用于分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
构造模块,用于基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
归类模块,用于基于所构造的哈希函数族对所述差分账号进行归类。
6.一种存储器,用于实施权利要求1所述的归类方法,所述存储器存储有计算机程序,其特征在于,所述计算机程序被处理器执行如下步骤:
分别将每一差分账号的用户行为转化为一组特征向量,所述一组特征向量对应一个差分账号,所述一组特征向量包括多维特征向量;
基于所转化的特征向量构造哈希函数族,所述哈希函数族包括两组以上哈希函数,每一组哈希函数对应一个差分账号;
基于所构造的哈希函数族对所述差分账号进行归类。
7.一种服务终端,包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1项所述的差分账户的归类方法的步骤。
CN201710759353.3A 2017-08-29 2017-08-29 差分账户的归类方法及系统、服务终端、存储器 Active CN107515937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710759353.3A CN107515937B (zh) 2017-08-29 2017-08-29 差分账户的归类方法及系统、服务终端、存储器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710759353.3A CN107515937B (zh) 2017-08-29 2017-08-29 差分账户的归类方法及系统、服务终端、存储器

Publications (2)

Publication Number Publication Date
CN107515937A CN107515937A (zh) 2017-12-26
CN107515937B true CN107515937B (zh) 2020-10-27

Family

ID=60724522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710759353.3A Active CN107515937B (zh) 2017-08-29 2017-08-29 差分账户的归类方法及系统、服务终端、存储器

Country Status (1)

Country Link
CN (1) CN107515937B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034296B (zh) * 2019-12-24 2023-09-22 腾讯科技(深圳)有限公司 用户账号的选择方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218441A (zh) * 2013-04-22 2013-07-24 北京邮电大学 一种基于内容和反馈的图像检索方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104978521A (zh) * 2014-04-10 2015-10-14 北京启明星辰信息安全技术有限公司 一种实现恶意代码标注的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218441A (zh) * 2013-04-22 2013-07-24 北京邮电大学 一种基于内容和反馈的图像检索方法
CN103617233A (zh) * 2013-11-26 2014-03-05 烟台中科网络技术研究所 一种基于语义内容多层表示的重复视频检测方法与装置
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN104978521A (zh) * 2014-04-10 2015-10-14 北京启明星辰信息安全技术有限公司 一种实现恶意代码标注的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩晓光 等.基于图像纹理聚类的恶意代码家族标注方法.《解放军理工大学学报(自然科学版)》.2014,第15卷(第5期),440-449. *

Also Published As

Publication number Publication date
CN107515937A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN110428058B (zh) 联邦学习模型训练方法、装置、终端设备及存储介质
CN111565205A (zh) 网络攻击识别方法、装置、计算机设备和存储介质
CN109597822B (zh) 一种用户数据的存储及查询方法和用户数据处理装置
WO2017128868A1 (zh) 程序文件的分类方法、分类装置和分类系统
CN116188805B (zh) 海量图像的图像内容分析方法、装置和图像信息网络
CN112261038B (zh) 大数据采集方法、系统、计算机设备及其存储介质
CN112990583B (zh) 一种数据预测模型的入模特征确定方法及设备
CN113900810A (zh) 分布式图处理方法、系统及存储介质
CN110019205B (zh) 一种数据存储、还原方法、装置及计算机设备
CN107515937B (zh) 差分账户的归类方法及系统、服务终端、存储器
Bhartiya et al. Forgery detection using feature-clustering in recompressed JPEG images
CN114362988A (zh) 网络流量的识别方法及装置
WO2017065795A1 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
CN110874481A (zh) 一种基于gbdt模型的预测方法和装置
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN108241639A (zh) 一种数据去重方法
CN115834257A (zh) 一种云端电力数据安全防护方法及防护系统
CN112613055A (zh) 基于分布式云服务器和数图转换的图像处理系统及方法
Lee et al. Implement of MapReduce-based Big Data Processing Scheme for Reducing Big Data Processing Delay Time and Store Data
Kumar et al. Knowledge discovery in databases (kdd) with images: A novel approach toward image mining and processing
Yang Computer Network Information Security Threat Identification Technology Based on Big Data Clustering Algorithm
CN117033889B (zh) 一种智慧园区生产数据统计方法及相关装置
CN112015922B (zh) 多媒体文件的检索方法、装置、设备及存储介质
CN115545107B (zh) 一种基于海量电力数据的云计算方法、系统
CN112242983B (zh) 一种数字资产认证处理系统

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant