CN105117733A - 一种确定聚类样本差异的方法及装置 - Google Patents

一种确定聚类样本差异的方法及装置 Download PDF

Info

Publication number
CN105117733A
CN105117733A CN201510446969.6A CN201510446969A CN105117733A CN 105117733 A CN105117733 A CN 105117733A CN 201510446969 A CN201510446969 A CN 201510446969A CN 105117733 A CN105117733 A CN 105117733A
Authority
CN
China
Prior art keywords
property value
binary code
layer
attribute
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510446969.6A
Other languages
English (en)
Inventor
王淑玲
冯伟斌
王志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201510446969.6A priority Critical patent/CN105117733A/zh
Publication of CN105117733A publication Critical patent/CN105117733A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种确定聚类样本差异的方法及装置,涉及计算机领域,能够确定样本的属性值之间的差异。将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;获取第一属性值的二进制码和第二属性值的二进制码;获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。用于确定样本的属性值之间的差异。

Description

一种确定聚类样本差异的方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种确定聚类样本差异的方法及装置。
背景技术
目前,利用云计算、大数据等技术对用户的终端类型、社交信息和消费信息等数据信息进行数据处理分析,可以为运营商的运营提供参考和依据。聚类为一种数据处理方法,即从一个样本空间中,按照衡量准则,将该样本空间划分为k个不相交的子集合,并使得子集合内样本的差异最小及子集合间样本的差异较大。为了衡量样本的差异,现有技术中采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来表示样本的差异。例如,样本是n维空间中的一个点,两个样本的差异可以用这两者的距离来表示。示例的,如图1所示,二维样本空间中用夹角余弦表征两个样本的差异。
需要说明的是,现有技术中采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来表示样本的差异均有一个共性,即数值性。样本的差异通过距离来衡量,并且在衡量差异时每一维有相同的权值,因此,样本的每一维属性均需要通过有意义的数值来表示,并且每一维的权值要均等。
但是,样本的属性还可以是颜色或性别等特征,即标称属性样本;或者,样本的属性为军阶等样本的值之间具有一定的顺序,但是样本的属性值之间的差未知,即序数属性样本。对于样本的属性值没有特定的数值意义的样本采用几何空间中的欧式距离、曼哈顿距离、夹角余弦和切比雪夫距离等来进行运算表示样本的差异并无意义,因此,如何确定样本的属性值之间的差异是一个亟待解决的问题。
发明内容
本发明的实施例提供一种确定聚类样本差异的方法及装置,能够确定样本的属性值之间的差异。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种确定聚类样本差异的方法,包括:
将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取第一属性值的二进制码和第二属性值的二进制码;
获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
第二方面,提供一种确定聚类样本差异的装置,包括:
映射单元,用于将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取单元,用于获取第一属性值的二进制码和第二属性值的二进制码;
所述获取单元还用于获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
本发明实施例提供一种确定聚类样本差异的方法及装置。首先,将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;获取第一属性值的二进制码和第二属性值的二进制码;获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。相对于现有技术,通过距离来衡量样本的差异,本发明通过将不同属性的样本映射为二进制码,通过获取二进制码之间的差异,反应样本间或样本内的差异。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术提供一种二维样本空间中用夹角余弦表征两个样本的差异的示意图;
图2为本发明实施例提供一种确定聚类样本差异的方法流程图;
图3为本发明实施例提供另一种确定聚类样本差异的方法流程图;
图4为本发明实施例提供一种二叉树示意图;
图5为本发明实施例提供又一种确定聚类样本差异的方法流程图;
图6为本发明实施例提供一种二叉树示意图;
图7为本发明实施例提供一种确定聚类样本差异的装置结构示意图;
图8为本发明实施例提供另一种确定聚类样本差异的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种确定聚类样本差异的方法,如图2所示,包括:
步骤101、将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值。
步骤102、获取第一属性值的二进制码和第二属性值的二进制码。
步骤103、获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
这样一来,首先,将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;获取第一属性值的二进制码和第二属性值的二进制码;获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。相对于现有技术,通过距离来衡量样本的差异,本发明通过将不同属性的样本映射为二进制码,通过获取二进制码之间的差异,反应样本间或样本内的差异。
本发明实施例提供一种确定聚类样本差异的方法,如图3所示,包括:
步骤201、获取地址属性样本。
步骤202、将地址属性样本的属性值映射为s层2k树。
地址属性可以分为国家、省市、区域和街道等。对于其中的每一层,如国家的属性值可以为美国、中国、日本等。如图4所示,假设地址属性A的第1层取4个属性值,则为2,第1层的属性值的二进制码为2位,例如00表示中国,01表示美国,10表示日本,11表示韩国。第2层的每个属性取2个属性值,由于因此,第2层的属性值的二进制码为一个0,1位和一个F位组成,例如0F表示陕西,1F表示山西。需要说明的是,当所述第i层的属性值可以由h位(h<k)的二进制码完全表示时,该层属性值对应的k位二进制码为:1)前h位为属性值对应的h位二进制码;2)后k-h位由F补齐。在上述例子中,对于第二层的属性,由于属性取值数为2,仅需1位即能表示所有的取值。因此,h=1。后k-h=2-1=1位二进制码由F位补齐。
步骤203、获取第一属性值的二进制码和第二属性值的二进制码。
具体的,沿着树根往下遍历,找到属性值所属的层次L,该属性值的二进制码为:从根到该属性值所属位置经过的路径上所有节点的二进制码的连接。如图4所示,中国陕西属性值的二进制码为000F。
需要说明的是,在实际的应用中,如果标称属性的概念分层太多,导致越往底层,属性值相同的样本越少。例如,地址属性分层为国家、省市、区县、街道、小区和单元楼。由于单元楼相同的样本会比较少,比对所有概念层的取值意义不大。因而,若两个属性的二进制码前缀相同位越多,则表示这两个属性的相似性越大,差异越小,相应地,其二进制码对应的数值也越接近。
步骤204、获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
标称属性的差异计算方法转换为计算二进制码的匹配数。若标称属性分别为attr1和attr2,则这两个样本的标称属性差异可以用公式(1)表示:
d i s = &Sigma; i = 1 k attr 1 i &CircleTimes; attr 2 i / k - - - ( 1 )
其中,attr1i表示attr1的二进制编号中的第i位。
示例的,中国陕西属性值的二进制码为000F,中国山西属性值的二进制码为001F。F表示0或1,中国陕西属性值的二进制码为0001或0000,中国山西属性值的二进制码为0011或0010。中国陕西属性值0001与中国山西属性值0011的差异为1/4。中国陕西属性值0001与中国山西属性值0010的差异为1/2。中国陕西属性值0000与中国山西属性值0011的差异为1/2。中国陕西属性值0000与中国山西属性值0010的差异为1/4。
确定序数属性样本差异的方法与确定标称属性样本差异的方法相同。
本发明实施例提供一种确定聚类样本差异的方法,如图5所示,包括:
步骤301、获取数值属性样本。
步骤302、将数值属性样本的属性值映射为s层二叉树。
所述s为大于等于1的整数,其中,当第i层的属性值小于中值,所述属性值记为0,当第i层的属性值大于中值,所述属性值记为1,所述中值为第i层属性值的最大属性值与最小属性值之和的一半,i大于等于1且小于等于s。
假设数值属性A的取值范围为[min,max]。首先,获取[min,max]的中值mid0=(lowi+highi)/2=(min+max)/2,将区间[min,max]划分为相同大小的两个区间[min,mid]和[mid,max]。比较A与mid的值,如果A<mid,则进入左子树,此次迭代后得到的编号为0,如果A>mid,进入右子树,此次迭代后得到的编号为1。如果对于精度要求比较高,则可以多次对子区间进行划分。对于第1层的左子树区间[min,max]的中值mid1=(lowi+highi)/2=(low1+mid0)/2,对于第1层的右子树区间[min,max]的中值mid1=(lowi+highi)/2=(mid0+high1)/2,如果A<mid1,则进入左子树,此次迭代后得到的编号为0,如果A>mid1,进入右子树,此次迭代后得到的编号为1。同理,若定义的逼近迭代次数为k,则二叉树的高度为k。进行第i次迭代时,子区间为[lowi,highi]。则此时比较A与midi=(lowi+highi)/2的值,若attr<midi,则attr此次迭代的编号为0,并进入左子树。否则,编号为1,进入右子树。
如图6所示,数值属性的二叉树。
步骤303、获取第一属性值的二进制码和第二属性值的二进制码。
具体的,沿着树根往下遍历,获取属性值的二进制码。例如获取第2层左子树的属性值的二进制码为00。
步骤304、获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
数值属性的差异计算方法转换为计算二进制码的匹配数。若标称属性分别为attr1和attr2,则这两个样本的标称属性差异可以用公式(1)表示:
d i s = &Sigma; i = 1 k attr 1 i &CircleTimes; attr 2 i / k - - - ( 1 )
其中,attr1i表示attr1的二进制编号中的第i位。
进一步的,借助于空间填充曲线的相关理论,可以将n维样本空间Ω映射成为二维空间中的填充曲线线段,并且保证在样本空间中相邻的区域位于线段中的相近位置。
具体的映射方法f与空间填充曲线的选择有关。
可选的,Z曲线映射方法f的构建过程如下:
1)对于每一维的属性,记录其逼近迭代次数ki,1≤i≤n,n大于等于1;
2)记录最大的ki为k;
3)每一维属性可以表示为k维属性可以表示为也即前ki位与attri的ki位相同,后k-ki位由F补齐。F表示取值可为0或1。
4)样本A对应的二进制码生成方式为:第一组n位二进制码分别为n维属性的第一位构成,第二组n位二进制码由n维属性的第二位构成,依次执行k次。最后生成的二进制码串为(attr11,attr21,...,attrn1,...,attr1k,attr2k,...,attrnk)。
5)将A的二进制串转换成十进制数,并按照十进制数的大小,用一条曲线连接起来。最终生成的线则为样本空间Ω对应的Z曲线。若某个样本A的二进制串中有某些位为F,则将F依次取值为0或1,并计算相应的十进制数。
6)两个样本的差异值则可以表示为相应的十进制数的大小。对于存在F位的样本,为F选择不同取值,并将差异表示为较小的一个。
可选的,hilbert曲线映射方法f的构建过程如下:
1)对于每一维的属性,记录其逼近迭代次数ki,1≤i≤n;
2)记录最大的ki为k;
3)每一维属性可以表示为k维属性可以表示为也即前ki位与attri的ki位相同,后k-ki位由F补齐。F表示取值可为0或1。
4)样本A对应的二进制码生成方式为:第一组n位二进制码分别为n维属性的第一位构成,第二组n位二进制码由n维属性的第二位构成,依次执行k次。最后生成的二进制码串为(attr11,attr21,...,attrn1,...,attr1k,attr2k,...,attrnk)。
5)从第一位开始,将A的二进制位划分成2位一组。
6)从左到右以4位为一组进行处理:
左边两位若为00:则将右边所有的01变为11,11变为01;
左边两位若为11:则将右边所有的00变为10,10变为00;
对于出现F的位,分别取值为0或1,并按上述方法进行处理。
7)将上述二进制转换为十进制数,两个样本差异通过十进制数的差值来表示。对于存在F位的样本,为F选择不同取值,并将差异表示为较小的一个。
本发明实施例提供一种确定聚类样本差异的装置40,如图7所示,包括:
映射单元401,用于将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取单元402,用于获取第一属性值的二进制码和第二属性值的二进制码;
所述获取单元402还用于获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
这样一来,首先,将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;获取第一属性值的二进制码和第二属性值的二进制码;获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。相对于现有技术,通过距离来衡量样本的差异,本发明通过将不同属性的样本映射为二进制码,通过获取二进制码之间的差异,反应样本间或样本内的差异。
当所述第一属性样本为标称属性样本,所述映射单元401具体用于:将所述第一属性样本的属性值映射为s层2k树,所述s为大于等于1的整数,i大于等于1且小于等于s,所述i用于表示s层2k树的第i层,ki用于表示第i层的属性值的个数,第i层的属性值的二进制码为k位。
当所述第i层的属性值由h位的二进制码表示时,所述第i层的属性值对应的k位二进制码为h位的二进制码和k-h位的F,所述h小于k,所述F表示0或1。
当所述第一属性样本为数值属性样本,所述映射单元401具体用于:将所述第一属性样本的属性值映射为s层二叉树,所述s为大于等于1的整数,其中,当第i层的属性值小于中值,所述属性值记为0,当第i层的属性值大于中值,所述属性值记为1,所述中值为第i层属性值的最大属性值与最小属性值之和的一半,i大于等于1且小于等于s。
如图8所示,当所述第一属性样本包括多维属性的属性值时,所述装置40还包括:生成单元403,用于采用空间填充曲线将多维属性的属性值生成二进制码串。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种确定聚类样本差异的方法,其特征在于,包括:
将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取第一属性值的二进制码和第二属性值的二进制码;
获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
2.根据权利要求1所述的方法,其特征在于,当所述第一属性样本为标称属性样本,所述将第一属性样本的属性值映射为二进制码包括:
将所述第一属性样本的属性值映射为s层2k树,所述s为大于等于1的整数,i大于等于1且小于等于s,所述i用于表示s层2k树的第i层,ki用于表示第i层的属性值的个数,第i层的属性值的二进制码为k位。
3.根据权利要求2所述的方法,其特征在于,当所述第i层的属性值由h位的二进制码表示时,所述第i层的属性值对应的k位二进制码为h位的二进制码和k-h位的F,所述h小于k,所述F表示0或1。
4.根据权利要求1所述的方法,其特征在于,当所述第一属性样本为数值属性样本,所述将第一属性样本的属性值映射为二进制码包括:
将所述第一属性样本的属性值映射为s层二叉树,所述s为大于等于1的整数,其中,当第i层的属性值小于中值,所述属性值记为0,当第i层的属性值大于中值,所述属性值记为1,所述中值为第i层属性值的最大属性值与最小属性值之和的一半,i大于等于1且小于等于s。
5.根据权利要求1-4任意一项权利要求所述的方法,其特征在于,当所述第一属性样本包括多维属性的属性值时,
采用空间填充曲线将多维属性的属性值生成二进制码串。
6.一种确定聚类样本差异的装置,其特征在于,包括:
映射单元,用于将第一属性样本的属性值映射为二进制码,所述第一属性样本包括多个属性值;
获取单元,用于获取第一属性值的二进制码和第二属性值的二进制码;
所述获取单元还用于获取所述第一属性值的二进制码和所述第二属性值的二进制码之间的差异。
7.根据权利要求6所述的装置,其特征在于,当所述第一属性样本为标称属性样本,所述映射单元具体用于:
将所述第一属性样本的属性值映射为s层2k树,所述s为大于等于1的整数,i大于等于1且小于等于s,所述i用于表示s层2k树的第i层,ki用于表示第i层的属性值的个数,第i层的属性值的二进制码为k位。
8.根据权利要求7所述的装置,其特征在于,当所述第i层的属性值由h位的二进制码表示时,所述第i层的属性值对应的k位二进制码为h位的二进制码和k-h位的F,所述h小于k,所述F表示0或1。
9.根据权利要求6所述的装置,其特征在于,当所述第一属性样本为数值属性样本,所述映射单元具体用于:
将所述第一属性样本的属性值映射为s层二叉树,所述s为大于等于1的整数,其中,当第i层的属性值小于中值,所述属性值记为0,当第i层的属性值大于中值,所述属性值记为1,所述中值为第i层属性值的最大属性值与最小属性值之和的一半,i大于等于1且小于等于s。
10.根据权利要求6-9任意一项权利要求所述的装置,其特征在于,当所述第一属性样本包括多维属性的属性值时,所述装置还包括:
生成单元,用于采用空间填充曲线将多维属性的属性值生成二进制码串。
CN201510446969.6A 2015-07-27 2015-07-27 一种确定聚类样本差异的方法及装置 Pending CN105117733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510446969.6A CN105117733A (zh) 2015-07-27 2015-07-27 一种确定聚类样本差异的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510446969.6A CN105117733A (zh) 2015-07-27 2015-07-27 一种确定聚类样本差异的方法及装置

Publications (1)

Publication Number Publication Date
CN105117733A true CN105117733A (zh) 2015-12-02

Family

ID=54665716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510446969.6A Pending CN105117733A (zh) 2015-07-27 2015-07-27 一种确定聚类样本差异的方法及装置

Country Status (1)

Country Link
CN (1) CN105117733A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840080A (zh) * 2018-12-28 2019-06-04 东软集团股份有限公司 字符属性比较方法、装置、存储介质及电子设备
CN110019193A (zh) * 2017-09-25 2019-07-16 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030297A (zh) * 2007-03-29 2007-09-05 杭州电子科技大学 一种复杂性测度的图像纹理分割方法
CN102509332A (zh) * 2011-10-19 2012-06-20 清华大学 流体模拟渲染方法及装置
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
CN102819582A (zh) * 2012-07-26 2012-12-12 华数传媒网络有限公司 一种海量图片快速检索方法
CN102982103A (zh) * 2012-11-06 2013-03-20 东南大学 一种olap海量多维数据维存储方法
CN104021229A (zh) * 2014-06-25 2014-09-03 厦门大学 一种用于商标图像检索的形状表示与匹配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030297A (zh) * 2007-03-29 2007-09-05 杭州电子科技大学 一种复杂性测度的图像纹理分割方法
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
CN102509332A (zh) * 2011-10-19 2012-06-20 清华大学 流体模拟渲染方法及装置
CN102819582A (zh) * 2012-07-26 2012-12-12 华数传媒网络有限公司 一种海量图片快速检索方法
CN102982103A (zh) * 2012-11-06 2013-03-20 东南大学 一种olap海量多维数据维存储方法
CN104021229A (zh) * 2014-06-25 2014-09-03 厦门大学 一种用于商标图像检索的形状表示与匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FOROUZAN.B. 等: "《计算机科学导论》", 31 December 2008, 机械工业出版社 *
陈曦 等: "基于分布式哈希表的协作式Web 服务组合", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019193A (zh) * 2017-09-25 2019-07-16 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质
CN110019193B (zh) * 2017-09-25 2022-10-14 腾讯科技(深圳)有限公司 相似帐号识别方法、装置、设备、系统及可读介质
CN109840080A (zh) * 2018-12-28 2019-06-04 东软集团股份有限公司 字符属性比较方法、装置、存储介质及电子设备
CN109840080B (zh) * 2018-12-28 2022-08-26 东软集团股份有限公司 字符属性比较方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US9965821B2 (en) Fully parallel in-place construction of 3D acceleration structures in a graphics processing unit
CN103283247B (zh) 用于编索引、相似度搜索和分类的矢量变换
US20130235050A1 (en) Fully parallel construction of k-d trees, octrees, and quadtrees in a graphics processing unit
CN107341191B (zh) 一种三维空间的多尺度整数化编码方法和装置
CN104424254A (zh) 获取相似对象集合、提供相似对象信息的方法及装置
CN108304409B (zh) 一种基于进位的Sketch数据结构的数据频度估计方法
CN102750268A (zh) 一种对象序列化方法、对象反序列化方法、装置及系统
CN105787126B (zh) k-d树生成方法和k-d树生成装置
CN103077228B (zh) 一种基于集合特征向量的快速聚类方法和装置
CN103002061A (zh) 一种长域名与短域名互相转化的方法及装置
CN103345496A (zh) 多媒体信息检索方法和系统
CN103970769A (zh) 图像检索方法及装置
CN114048204A (zh) 基于数据库倒排索引的北斗网格空间索引方法和装置
CN113806601B (zh) 一种周边兴趣点检索方法及存储介质
CN105117733A (zh) 一种确定聚类样本差异的方法及装置
CN105138527A (zh) 一种数据分类回归方法及装置
CN111507430B (zh) 基于矩阵乘法的特征编码方法、装置、设备及介质
US9471612B2 (en) Data processing method, data query method in a database, and corresponding device
CN105302833A (zh) 一种基于内容的视频检索数学模型建立方法
Panagiotopoulos et al. A group-based space-filling design of experiments algorithm
CN109697234B (zh) 实体的多属性信息查询方法、装置、服务器和介质
CN114281950B (zh) 基于多图加权融合的数据检索方法与系统
CN104850591A (zh) 一种数据的转换存储方法及装置
CN104573696A (zh) 用于处理人脸特征数据的方法和装置
CN113901616A (zh) 一种零件的搜索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151202

RJ01 Rejection of invention patent application after publication