CN107729338B - 数据节点相似度计算方法和装置 - Google Patents

数据节点相似度计算方法和装置 Download PDF

Info

Publication number
CN107729338B
CN107729338B CN201610663018.9A CN201610663018A CN107729338B CN 107729338 B CN107729338 B CN 107729338B CN 201610663018 A CN201610663018 A CN 201610663018A CN 107729338 B CN107729338 B CN 107729338B
Authority
CN
China
Prior art keywords
data node
data
association
similarity
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610663018.9A
Other languages
English (en)
Other versions
CN107729338A (zh
Inventor
武娟
庞涛
钱锋
刘晓军
陈学亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201610663018.9A priority Critical patent/CN107729338B/zh
Publication of CN107729338A publication Critical patent/CN107729338A/zh
Application granted granted Critical
Publication of CN107729338B publication Critical patent/CN107729338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据节点相似度计算方法和装置,涉及大数据计算领域。其中的方法包括:去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表;对简化数据节点关联表进行关联数据节点归集分区,形成关联路由表;建立关联路由表分区内的关系集合与数据节点特征向量的关联关系;根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中节点及数据复制量,因此提升了数据节点相似度计算效率和成功率。

Description

数据节点相似度计算方法和装置
技术领域
本发明涉及大数据计算领域,尤其涉及一种数据节点相似度计算方法和装置。
背景技术
节点相似度计算,在大数据时代作用日益突出,通过对比分布式数据节点间的数据关联性,并通过关联性逻辑进行相似度标识、对比和聚合的处理过程。在信息检索、数据挖掘等领域有着广泛的应用。随着互联网用户数目和内容的爆炸性增长,对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算,通常采用节点遍历模式进行相似度对比、汇总,造成了繁重的计算量,而且产生众多的中间过程数据表,带来了计算量和存储空间的双重压力,不仅效率低下,而且很有可能导致硬件资源不足、计算挂死等现象。
如图1所示,传统的MapReduce节点相似度计算流程包括两次关联操作,生成一张临时表,其中临时表中包括对应两个节点标识和特征向量。遍历临时表,对每个计算临时过程表中的两个节点计算相似度。
但两次关联操作成为性能的主要瓶颈,在两次关联过程中,网络数据传输和磁盘读写呈现指数级提升,集群多数结点的硬盘无法支持,任务失败经常发生,导致计算时间无法保证。
发明内容
本发明要解决的一个技术问题是提供一种提升数据节点相似度计算效率的方案。
根据本发明一方面,提出一种数据节点相似度计算方法,包括:去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表;对简化数据节点关联表进行关联数据节点归集分区,形成关联路由表;建立关联路由表分区内的关系集合与数据节点特征向量的关联关系;根据关联关系计算各数据节点之间的相似度。
进一步地,对简化数据节点关联表进行关联数据节点归集分区包括:根据简化数据节点关联表,以数据节点为索引建立关联路由表,并对关联路由表中的数据节点进行分区。
进一步地,该方法还包括:按照预定顺序将各数据节点相应关联数据节点进行归集,以各数据节点为索引建立关联路由表。
进一步地,建立关联路由表分区内的关系集合与数据节点特征向量的关联关系包括:根据关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。
进一步地,计算各数据节点之间的相似度包括:遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
根据本发明的另一方面,还提出一种数据节点相似度计算装置,包括:数据节点去重单元,用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表;归集分区单元,用于对简化数据节点关联表进行关联数据节点归集分区,形成关联路由表;关联关系建立单元,用于建立关联路由表分区内的关系集合与数据节点特征向量的关联关系;相似度计算单元,用于根据关联关系计算各数据节点之间的相似度。
进一步地,归集分区单元用于根据简化数据节点关联表,以数据节点为索引建立关联路由表,并对关联路由表中的数据节点进行分区。
进一步地,归集分区单元还用于按照预定顺序将各数据节点相应关联数据节点进行归集,以各数据节点为索引建立关联路由表。
进一步地,关联关系建立单元用于根据关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。
进一步地,相似度计算单元用于遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
与现有技术相比,本发明首先去除具有相互关联数据节点的多个重复映射关系,将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表,建立关联路由表分区内的关系集合与数据节点特征向量的关联关系,根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量,因此提升了大数据节点相似度计算效率和成功率。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为传统MapReduce节点相似度计算流程图。
图2为本发明数据节点相似度计算方法的一个实施例的流程示意图。
图3为本发明数据节点相似度计算方法的另一个实施例的流程示意图。
图4为本发明数据节点相似度计算方法的一个实施例的计算流程示意图。
图5为本发明数据节点相似度计算装置的一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图2为本发明数据节点相似度计算方法的一个实施例的流程示意图。该方法包括以下步骤:
在步骤210,去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表。例如原关联表中同时出现数据节点1、2及2、1关联情况,则可以仅保留1、2的映射关系,去重2、1的映射关系。
在步骤220,对简化数据节点关联表进行关联数据节点归集分区,形成关联路由表。即可以按照一定顺序将简化数据节点关联表中各数据节点相应关联数据节点进行归集,分别以各数据节点为索引,构建按照各数据节点分区的数据节点关联路由表。
在步骤230,建立关联路由表分区内的关系集合与数据节点特征向量的关联关系。可以根据关联路由表将每个数据节点的特征向量发送至每个分区,保证每个分区中一个数据节点只保存一份特征向量,并将该分区的关系集合与该分区中所有结点的特征向量进行关联。
在步骤240,根据关联关系计算各数据节点之间的相似度。例如,遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点的相似度。
在该实施例中,引入递归简化方法,即首先去除具有相互关联数据节点的多个重复映射关系,将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表,建立关联路由表分区内的关系集合与数据节点特征向量的关联关系,根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量,因此提升了数据节点相似度计算效率和成功率。
图3为本发明数据节点相似度计算方法的另一个实施例的流程示意图。该方法包括以下步骤:
在步骤310,去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表。例如,分别以1~8个阿拉伯数量代表不同的数据节点,原始数据节点关联表如表1所示,将具有相似关联的重复数据节点映射情况去重,结果如表2所示,形成简化数据节点关联表。
Figure BDA0001076363590000051
Figure BDA0001076363590000061
表1原始数据节点关联表
ID fid
1 3
2 1
2 3
2 4
2 6
3 5
4 6
4 8
5 6
6 7
7 5
8 7
表2简化数据节点关联表
从表2中可以看出,通过去重计算,简化数据节点关联表中减少了29%的相似关联数据。
在步骤320,根据简化数据节点关联表,按照预定顺序将各数据节点相应关联数据节点进行归集。
在步骤330,以数据节点为索引建立关联路由表,并对关联路由表中的数据节点进行分区。其中关联路由表如表3所示:
ID fid-list
1 2,3
2 3,4,6
3 5
4 6,8
5 6
6 7
7 5
8 7
表3关联路由表
在步骤340,根据所述关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。其中,数据节点特征表如表4所示,将表4中的各数据节点的特征向量带入表3中,形成表5,其中,每个分区中一个数据节点对应一份特征向量。
ID Feature
1 (x1,x2,x3,…,xn)
2 (y1,y2,y3,…,yn)
3 (z1,z2,z3,…,zn)
4 (a1,a2,a3,…,an)
5 (b1,b2,b3,…,bn)
6 (c1,c2,c3,…,cn)
7 (d1,d2,d3,…,dn)
8 (e1,e2,e3,…,en)
表4数据节点特征表
ID fid-list feature-list
1 2,3 1-&gt;x<sub>1</sub> 2-&gt;y<sub>1</sub> 3-&gt;z<sub>1</sub>
2 3,4,6 2-&gt;y<sub>1</sub> 3-&gt;z<sub>1</sub> 4-&gt;a<sub>1</sub> 6-&gt;c<sub>1</sub>
3 5 3-&gt;z<sub>1</sub> 5-&gt;b<sub>1</sub>
4 6,8 4-&gt;a<sub>1</sub> 6-&gt;c<sub>1</sub> 8-&gt;e<sub>1</sub>
5 6 5-&gt;b<sub>1</sub> 6-&gt;c<sub>1</sub>
6 7 6-&gt;c<sub>1</sub> 7-&gt;d<sub>1</sub>
7 5 7-&gt;d<sub>1</sub> 5-&gt;b<sub>1</sub>
8 7 8-&gt;e<sub>1</sub> 7-&gt;d<sub>1</sub>
表5分区数据节点特征向量带入表
在步骤350,遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
以本实施例所列数据节点为例,如果采用传统的MapReduce方式计算,需要首先将数据节点特征表与数据节点关系表关联,将数据节点关系表中数据节点特种向量全部导入生成12个临时表,之后该12个临时表需要数据节点特征表关联,进行内部的相似度遍历计算,其中数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7等都执行了两次计算。而采用本实施例的数据节点相似度计算方法后,如图4所示,在相似度计算之前,仅进行重复数据节点关联去重和关系数据节点归集传递,不会生成过程数据表,按照上述划分可有效避免数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7的重复计算,大大提升了计算效率,减少了存储压力。
图5为本发明数据节点相似度计算装置的一个实施例的结构示意图。该数据节点相似度计算装置包括数据节点去重单元510、归集分区单元520、关联关系建立单元530和相似度计算单元540,其中:
数据节点去重单元510用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表。例如原关联表中同时出现数据节点1、2及2、1关联情况,则可以仅保留1、2的映射关系,去重2、1的映射关系。
归集分区单元520用于对简化数据节点关联表进行关联数据节点归集分区,形成关联路由表。即可以按照一定顺序将简化数据节点关联表中各数据节点相应关联数据节点进行归集,分别以各数据节点为索引,构建按照各数据节点分区的数据节点关联路由表。
关联关系建立单元530用于建立关联路由表分区内的关系集合与数据节点特征向量的关联关系。可以根据关联路由表将每个数据节点的特征向量发送至每个分区,保证每个分区中一个数据节点只保存一份特征向量,并将该分区的关系集合与该分区中所有结点的特征向量进行关联。
相似度计算单元540用于根据关联关系计算各数据节点之间的相似度。例如,遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点的相似度。
在该实施例中,首先去除具有相互关联数据节点的多个重复映射关系,将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表,建立关联路由表分区内的关系集合与数据节点特征向量的关联关系,根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量,因此提升了数据节点相似度计算效率和成功率。
在本发明的另一个实施例中,数据节点去重单元510用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表。例如,分别以1~8个阿拉伯数量代表不同的数据节点,原始数据节点关联表如表1所示,将具有相似关联的重复数据节点映射情况去重,结果如表2所示,形成简化数据节点关联表。从表2中可以看出,通过去重计算,简化数据节点关联表中减少了29%的相似关联数据。
归集分区单元520用于根据简化数据节点关联表,按照预定顺序将各数据节点相应关联数据节点进行归集,以数据节点为索引建立关联路由表,并对关联路由表中的数据节点进行分区,其中关联路由表如表3所示。
关联关系建立单元530用于根据所述关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。其中,数据节点特征表如表4所示,将表4中的各数据节点的特征向量带入表3中,形成表5,其中,每个分区中一个数据节点对应一份特征向量。
相似度计算单元540用于遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
在该实施例中,在相似度计算之前,仅进行重复数据节点关联去重和关系数据节点归集传递,不会生成过程数据表,按照上述划分可有效避免数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7的重复计算,大大提升了计算效率,减少了存储压力。
至此,已经详细描述了本发明。为了避免遮蔽本发明的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本发明的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (6)

1.一种数据相似度计算方法,其特征在于,包括:
去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表;
按照预定顺序将所述简化数据节点关联表中各数据节点相应关联数据节点进行归集,以所述各数据节点为索引,建立按照各数据节点分区的数据节点关联路由表;
建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系;
根据所述关联关系计算各数据节点之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系包括:
根据所述关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。
3.根据权利要求1-2任一所述的方法,其特征在于,所述计算各数据节点之间的相似度包括:
遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
4.一种数据节点相似度计算装置,其特征在于,包括:
数据节点去重单元,用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系,以便形成简化数据节点关联表;
归集分区单元,用于按照预定顺序将所述简化数据节点关联表各数据节点相应关联数据节点进行归集,以所述各数据节点为索引,建立按照各数据节点分区的数据节点关联路由表;
关联关系建立单元,用于建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系;
相似度计算单元,用于根据所述关联关系计算各数据节点之间的相似度。
5.根据权利要求4所述的装置,其特征在于,所述关联关系建立单元用于根据所述关联路由表,将数据节点特征表中各数据节点的特征向量发送至每个分区,以便将分区内的关系集合与数据节点特征向量进行关联。
6.根据权利要求4-5任一所述的装置,其特征在于,所述相似度计算单元用于遍历每对数据节点关系,利用相似度函数和特征向量计算各数据节点之间的相似度。
CN201610663018.9A 2016-08-12 2016-08-12 数据节点相似度计算方法和装置 Active CN107729338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610663018.9A CN107729338B (zh) 2016-08-12 2016-08-12 数据节点相似度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610663018.9A CN107729338B (zh) 2016-08-12 2016-08-12 数据节点相似度计算方法和装置

Publications (2)

Publication Number Publication Date
CN107729338A CN107729338A (zh) 2018-02-23
CN107729338B true CN107729338B (zh) 2020-09-04

Family

ID=61200929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610663018.9A Active CN107729338B (zh) 2016-08-12 2016-08-12 数据节点相似度计算方法和装置

Country Status (1)

Country Link
CN (1) CN107729338B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2751441C1 (ru) * 2020-09-11 2021-07-13 Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М.В.Ломоносова» (МГУ) Способ формирования вычислительного комплекса
CN114785727B (zh) * 2022-05-06 2023-04-25 河海大学 一种剔除重复路由的计算方法
CN114978992B (zh) * 2022-05-30 2023-09-12 中国联合网络通信集团有限公司 一种安全命名数据网络的通信方法、节点及网络

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342376B2 (en) * 2012-06-27 2016-05-17 Intel Corporation Method, system, and device for dynamic energy efficient job scheduling in a cloud computing environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615714A (zh) * 2015-02-05 2015-05-13 北京中搜网络技术股份有限公司 基于文本相似度和微博频道特征的博文排重方法
CN105069111A (zh) * 2015-08-10 2015-11-18 广东工业大学 云存储中基于相似性的数据块级数据去重方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"千台Spark集群对千亿量级节点的相似度计算";sy51518;《https://blog.csdn.net/sy51518/article/details/44935917》;20150408;第1-5页 *

Also Published As

Publication number Publication date
CN107729338A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN104156380B (zh) 一种分布式存储器哈希索引方法及系统
WO2015106711A1 (zh) 一种为半结构化数据构建NoSQL数据库索引的方法及装置
US9558199B2 (en) Efficient data deduplication
EP2146292B1 (en) Method and apparatus for extracting information from a database
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
JP2013541083A (ja) 重複排除に基づくストレージシステムにおけるスケーラブル参照管理のためのシステム及び方法
CN107729338B (zh) 数据节点相似度计算方法和装置
WO2012174268A1 (en) Processing repetitive data
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
WO2014021978A4 (en) Aggregating data in a mediation system
CN113901279B (zh) 一种图数据库的检索方法和装置
CN106407224A (zh) 一种键值存储系统中文件压实的方法和装置
US20210081171A1 (en) Effectively fusing database tables
CN103500183A (zh) 一种基于多个相关字段组合索引存储结构及建立、查询与维护方法
US10599614B1 (en) Intersection-based dynamic blocking
CN114138181B (zh) 一种绑定池放置组选主的方法、装置、设备及可读介质
CN114281989B (zh) 基于文本相似度的数据去重方法、装置及存储介质和服务器
JP6202929B2 (ja) リレーショナル・データベースにおける時間的に一意のインデックス内のギャップ検出
WO2016119276A1 (zh) 基于Hadoop框架的大规模对象识别方法
US9135300B1 (en) Efficient sampling with replacement
CN109597807A (zh) 数仓表处理方法和装置
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备
CN110413617B (zh) 一种根据数据量的大小动态调节哈希表组的方法
CN107145601B (zh) 一种高效的引用关系发现方法
CN103810209B (zh) 一种保存数据的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant