CN107729338B

CN107729338B - 数据节点相似度计算方法和装置

Info

Publication number: CN107729338B
Application number: CN201610663018.9A
Authority: CN
Inventors: 武娟; 庞涛; 钱锋; 刘晓军; 陈学亮
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2020-09-04
Anticipated expiration: 2036-08-12
Also published as: CN107729338A

Abstract

本发明公开了一种数据节点相似度计算方法和装置，涉及大数据计算领域。其中的方法包括：去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表；对简化数据节点关联表进行关联数据节点归集分区，形成关联路由表；建立关联路由表分区内的关系集合与数据节点特征向量的关联关系；根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中节点及数据复制量，因此提升了数据节点相似度计算效率和成功率。

Description

数据节点相似度计算方法和装置

技术领域

本发明涉及大数据计算领域，尤其涉及一种数据节点相似度计算方法和装置。

背景技术

节点相似度计算，在大数据时代作用日益突出，通过对比分布式数据节点间的数据关联性，并通过关联性逻辑进行相似度标识、对比和聚合的处理过程。在信息检索、数据挖掘等领域有着广泛的应用。随着互联网用户数目和内容的爆炸性增长，对大规模数据进行相似度计算的需求变得日益强烈。在传统的MapReduce框架下进行相似度计算，通常采用节点遍历模式进行相似度对比、汇总，造成了繁重的计算量，而且产生众多的中间过程数据表，带来了计算量和存储空间的双重压力，不仅效率低下，而且很有可能导致硬件资源不足、计算挂死等现象。

如图1所示，传统的MapReduce节点相似度计算流程包括两次关联操作，生成一张临时表，其中临时表中包括对应两个节点标识和特征向量。遍历临时表，对每个计算临时过程表中的两个节点计算相似度。

但两次关联操作成为性能的主要瓶颈，在两次关联过程中，网络数据传输和磁盘读写呈现指数级提升，集群多数结点的硬盘无法支持，任务失败经常发生，导致计算时间无法保证。

发明内容

本发明要解决的一个技术问题是提供一种提升数据节点相似度计算效率的方案。

根据本发明一方面，提出一种数据节点相似度计算方法，包括：去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表；对简化数据节点关联表进行关联数据节点归集分区，形成关联路由表；建立关联路由表分区内的关系集合与数据节点特征向量的关联关系；根据关联关系计算各数据节点之间的相似度。

进一步地，对简化数据节点关联表进行关联数据节点归集分区包括：根据简化数据节点关联表，以数据节点为索引建立关联路由表，并对关联路由表中的数据节点进行分区。

进一步地，该方法还包括：按照预定顺序将各数据节点相应关联数据节点进行归集，以各数据节点为索引建立关联路由表。

进一步地，建立关联路由表分区内的关系集合与数据节点特征向量的关联关系包括：根据关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。

进一步地，计算各数据节点之间的相似度包括：遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。

根据本发明的另一方面，还提出一种数据节点相似度计算装置，包括：数据节点去重单元，用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表；归集分区单元，用于对简化数据节点关联表进行关联数据节点归集分区，形成关联路由表；关联关系建立单元，用于建立关联路由表分区内的关系集合与数据节点特征向量的关联关系；相似度计算单元，用于根据关联关系计算各数据节点之间的相似度。

进一步地，归集分区单元用于根据简化数据节点关联表，以数据节点为索引建立关联路由表，并对关联路由表中的数据节点进行分区。

进一步地，归集分区单元还用于按照预定顺序将各数据节点相应关联数据节点进行归集，以各数据节点为索引建立关联路由表。

进一步地，关联关系建立单元用于根据关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。

进一步地，相似度计算单元用于遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。

与现有技术相比，本发明首先去除具有相互关联数据节点的多个重复映射关系，将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表，建立关联路由表分区内的关系集合与数据节点特征向量的关联关系，根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量，因此提升了大数据节点相似度计算效率和成功率。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为传统MapReduce节点相似度计算流程图。

图2为本发明数据节点相似度计算方法的一个实施例的流程示意图。

图3为本发明数据节点相似度计算方法的另一个实施例的流程示意图。

图4为本发明数据节点相似度计算方法的一个实施例的计算流程示意图。

图5为本发明数据节点相似度计算装置的一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图2为本发明数据节点相似度计算方法的一个实施例的流程示意图。该方法包括以下步骤：

在步骤210，去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表。例如原关联表中同时出现数据节点1、2及2、1关联情况，则可以仅保留1、2的映射关系，去重2、1的映射关系。

在步骤220，对简化数据节点关联表进行关联数据节点归集分区，形成关联路由表。即可以按照一定顺序将简化数据节点关联表中各数据节点相应关联数据节点进行归集，分别以各数据节点为索引，构建按照各数据节点分区的数据节点关联路由表。

在步骤230，建立关联路由表分区内的关系集合与数据节点特征向量的关联关系。可以根据关联路由表将每个数据节点的特征向量发送至每个分区，保证每个分区中一个数据节点只保存一份特征向量，并将该分区的关系集合与该分区中所有结点的特征向量进行关联。

在步骤240，根据关联关系计算各数据节点之间的相似度。例如，遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点的相似度。

在该实施例中，引入递归简化方法，即首先去除具有相互关联数据节点的多个重复映射关系，将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表，建立关联路由表分区内的关系集合与数据节点特征向量的关联关系，根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量，因此提升了数据节点相似度计算效率和成功率。

图3为本发明数据节点相似度计算方法的另一个实施例的流程示意图。该方法包括以下步骤：

在步骤310，去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表。例如，分别以1～8个阿拉伯数量代表不同的数据节点，原始数据节点关联表如表1所示，将具有相似关联的重复数据节点映射情况去重，结果如表2所示，形成简化数据节点关联表。

表1原始数据节点关联表

ID	fid
		1	3
2	1
		2	3
2	4
		2	6
3	5
		4	6
4	8
		5	6
6	7
		7	5
8	7

表2简化数据节点关联表

从表2中可以看出，通过去重计算，简化数据节点关联表中减少了29％的相似关联数据。

在步骤320，根据简化数据节点关联表，按照预定顺序将各数据节点相应关联数据节点进行归集。

在步骤330，以数据节点为索引建立关联路由表，并对关联路由表中的数据节点进行分区。其中关联路由表如表3所示：

ID	fid-list
		1	2，3
2	3，4，6
		3	5
4	6，8
		5	6
6	7
		7	5
8	7

表3关联路由表

在步骤340，根据所述关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。其中，数据节点特征表如表4所示，将表4中的各数据节点的特征向量带入表3中，形成表5，其中，每个分区中一个数据节点对应一份特征向量。

ID	Feature
		1	(x1，x2，x3，…，xn)
2	(y1，y2，y3，…，yn)
		3	(z1，z2，z3，…，zn)
4	(a1，a2，a3，…，an)
		5	(b1，b2，b3，…，bn)
6	(c1，c2，c3，…，cn)
		7	(d1，d2，d3，…，dn)
8	(e1，e2，e3，…，en)

表4数据节点特征表

ID	fid-list	feature-list
			1	2，3	1->x<sub>1</sub> 2->y<sub>1</sub> 3->z<sub>1</sub>
2	3，4，6	2->y<sub>1</sub> 3->z<sub>1</sub> 4->a<sub>1</sub> 6->c<sub>1</sub>
			3	5	3->z<sub>1</sub> 5->b<sub>1</sub>
4	6，8	4->a<sub>1</sub> 6->c<sub>1</sub> 8->e<sub>1</sub>
			5	6	5->b<sub>1</sub> 6->c<sub>1</sub>
6	7	6->c<sub>1</sub> 7->d<sub>1</sub>
			7	5	7->d<sub>1</sub> 5->b<sub>1</sub>
8	7	8->e<sub>1</sub> 7->d<sub>1</sub>

表5分区数据节点特征向量带入表

在步骤350，遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。

以本实施例所列数据节点为例，如果采用传统的MapReduce方式计算，需要首先将数据节点特征表与数据节点关系表关联，将数据节点关系表中数据节点特种向量全部导入生成12个临时表，之后该12个临时表需要数据节点特征表关联，进行内部的相似度遍历计算，其中数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7等都执行了两次计算。而采用本实施例的数据节点相似度计算方法后，如图4所示，在相似度计算之前，仅进行重复数据节点关联去重和关系数据节点归集传递，不会生成过程数据表，按照上述划分可有效避免数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7的重复计算，大大提升了计算效率，减少了存储压力。

图5为本发明数据节点相似度计算装置的一个实施例的结构示意图。该数据节点相似度计算装置包括数据节点去重单元510、归集分区单元520、关联关系建立单元530和相似度计算单元540，其中：

数据节点去重单元510用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表。例如原关联表中同时出现数据节点1、2及2、1关联情况，则可以仅保留1、2的映射关系，去重2、1的映射关系。

归集分区单元520用于对简化数据节点关联表进行关联数据节点归集分区，形成关联路由表。即可以按照一定顺序将简化数据节点关联表中各数据节点相应关联数据节点进行归集，分别以各数据节点为索引，构建按照各数据节点分区的数据节点关联路由表。

关联关系建立单元530用于建立关联路由表分区内的关系集合与数据节点特征向量的关联关系。可以根据关联路由表将每个数据节点的特征向量发送至每个分区，保证每个分区中一个数据节点只保存一份特征向量，并将该分区的关系集合与该分区中所有结点的特征向量进行关联。

相似度计算单元540用于根据关联关系计算各数据节点之间的相似度。例如，遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点的相似度。

在该实施例中，首先去除具有相互关联数据节点的多个重复映射关系，将各数据节点关联关系进行归集形成以数据节点索引的关联简化路由表，建立关联路由表分区内的关系集合与数据节点特征向量的关联关系，根据关联关系计算各数据节点之间的相似度。由于大幅减少数据节点相似度计算过程中数据节点及数据复制量，因此提升了数据节点相似度计算效率和成功率。

在本发明的另一个实施例中，数据节点去重单元510用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表。例如，分别以1～8个阿拉伯数量代表不同的数据节点，原始数据节点关联表如表1所示，将具有相似关联的重复数据节点映射情况去重，结果如表2所示，形成简化数据节点关联表。从表2中可以看出，通过去重计算，简化数据节点关联表中减少了29％的相似关联数据。

归集分区单元520用于根据简化数据节点关联表，按照预定顺序将各数据节点相应关联数据节点进行归集，以数据节点为索引建立关联路由表，并对关联路由表中的数据节点进行分区，其中关联路由表如表3所示。

关联关系建立单元530用于根据所述关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。其中，数据节点特征表如表4所示，将表4中的各数据节点的特征向量带入表3中，形成表5，其中，每个分区中一个数据节点对应一份特征向量。

相似度计算单元540用于遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。

在该实施例中，在相似度计算之前，仅进行重复数据节点关联去重和关系数据节点归集传递，不会生成过程数据表，按照上述划分可有效避免数据节点2与3、数据节点3和5、数据节点8和4、数据节点6和7的重复计算，大大提升了计算效率，减少了存储压力。

至此，已经详细描述了本发明。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种数据相似度计算方法，其特征在于，包括：

去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表；

按照预定顺序将所述简化数据节点关联表中各数据节点相应关联数据节点进行归集，以所述各数据节点为索引，建立按照各数据节点分区的数据节点关联路由表；

建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系；

根据所述关联关系计算各数据节点之间的相似度。

2.根据权利要求1所述的方法，其特征在于，所述建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系包括：

根据所述关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。

3.根据权利要求1-2任一所述的方法，其特征在于，所述计算各数据节点之间的相似度包括：

遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。

4.一种数据节点相似度计算装置，其特征在于，包括：

数据节点去重单元，用于去除数据节点关联表中具有相似关联的重复数据节点的映射关系，以便形成简化数据节点关联表；

归集分区单元，用于按照预定顺序将所述简化数据节点关联表各数据节点相应关联数据节点进行归集，以所述各数据节点为索引，建立按照各数据节点分区的数据节点关联路由表；

关联关系建立单元，用于建立所述关联路由表分区内的关系集合与数据节点特征向量的关联关系；

相似度计算单元，用于根据所述关联关系计算各数据节点之间的相似度。

5.根据权利要求4所述的装置，其特征在于，所述关联关系建立单元用于根据所述关联路由表，将数据节点特征表中各数据节点的特征向量发送至每个分区，以便将分区内的关系集合与数据节点特征向量进行关联。

6.根据权利要求4-5任一所述的装置，其特征在于，所述相似度计算单元用于遍历每对数据节点关系，利用相似度函数和特征向量计算各数据节点之间的相似度。