CN103970738B

CN103970738B - 一种产生数据的方法和装置

Info

Publication number: CN103970738B
Application number: CN201310027416.8A
Authority: CN
Inventors: 罗纯杰; 王磊; 詹剑锋; 张立新
Original assignee: Huawei Technologies Co Ltd; Institute of Computing Technology of CAS
Current assignee: Huawei Technologies Co Ltd; Institute of Computing Technology of CAS
Priority date: 2013-01-24
Filing date: 2013-01-24
Publication date: 2017-08-29
Anticipated expiration: 2033-01-24
Also published as: WO2014114112A1; CN103970738A

Abstract

本发明提供一种产生数据的方法和装置，涉及计算机领域，能够利用小规模的样本数据生成大数据，同时还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，并且不需要进行数据的大规模移动，有效节省了存储和网络开销。其方法为：通过主节点根据样本数据制定数据生成的策略，并将数据生成的策略分发至至少一个从节点，以便主节点和从节点根据数据生成策略产生数据，并将产生的数据上传至文件系统。使得最终产生的数据具有样本数据的数值规律，并且在此基础上提高了生成数据的参考价值，同时避免了数据的大规模移动，有效的节省了存储和网络开销。本发明用于产生大数据。

Description

一种产生数据的方法和装置

技术领域

本发明涉及计算机领域，尤其涉及一种产生数据的方法和装置。

背景技术

随着互联网的不断发展，大数据(Big Data)通常用来形容一个公司创造的大量非结构化和半结构化数据，现在对大数据的研究已经扩展到生活的方方面面，通过对大数据进行分析发掘，进而获得更有价值的信息。大数据已成为当前很多行业研究的主题。

在对大数据进行处理时，需要处理的数据量是极其庞大的，然而处于保密性的考虑，大数据处理方案的提供者只能得到小规模的样本数据，往往不能获取到实际的大数据来进行测试，并且获取和传输大数据的过程中，会占用更多的资源，对相应的存储和网络资源都有较高的要求。

现有大规模数据生成技术主要包括以下几种：基于Hadoop(一个分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序)基准测试程序集，利用完全随机的方式来产生大规模的数据；或者，采用zipfian分布生成数据，或按照均匀分布和高斯分布生成数据。

但是上述三种现有技术生成的大数据都不能反应样本数据的原有的规律性，使得新生成的数据参考性较低。

发明内容

本发明的实施例提供一种产生数据的方法和装置，能够利用小规模的样本数据生成大数据，同时还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，并且不需要进行数据的大规模移动，有效节省了存储和网络开销。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种产生数据的方法，所述方法包括：

根据已获得的样本数据制定数据生成策略；

根据所述数据生成策略生成第一数据，并将所述第一数据上传至文件系统；

将所述数据生成策略发送至从节点，以便所述从节点根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统。

在第一种可能的实现方式中，结合第一方面，所述样本数据为m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

在第二种可能的实现方式中，结合第一种可能的实现方式，所述根据已获得的样本数据制定数据生成策略包括：

确定数据生成的方向为沿所述矩阵的横向扩展和/或沿所述矩阵的纵向扩展；

若确定的数据生成的方向为沿所述矩阵的横向扩展，则在所述矩阵的n列向量中选取至少一列作为第一参考向量集；或

若确定的数据生成的方向为沿所述矩阵的纵向扩展，则在所述矩阵的m行向量中选取至少一行作为第一参考向量集。

在第三种可能的实现方式中，结合第一种可能的实现方式，所述根据已获得的样本数据制定数据生成策略还包括：

若确定的数据生成的方向为沿所述矩阵的横向扩展，则对所述矩阵的n列向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第一参考向量集；或

若确定的数据生成的方向为沿所述矩阵的纵向扩展，则对所述矩阵的m行向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第一参考向量集。

在第四种可能的实现方式中，根据第二种或第三种可能的实现方式，所述根据所述数据生成策略生成第一数据包括：

记录所述第一参考向量集中每个向量中的非空元素的位置信息；

根据所述第一参考向量集中每个向量中的非空元素选取第一向量集，所述第一向量集中的每个向量不包含空元素；

利用向量相似性根据所述第一向量集生成第二向量集，所述第二向量集中的每个向量不包含空元素；

根据所述参考向量中每个向量中的非空元素的位置信息以及所述第二向量集生成第三向量集；

将所述第三向量集加入所述矩阵中形成新矩阵，将所述新矩阵作为所述第一数据。

在第五种可能的实现方式中，结合第一方面至第一方面的第四种可能的实现方式中的任意一项，在所述将所述数据生成策略发送至从节点时，所述方法还包括：

将所述从节点需要生成数据的数据量及所述从节点向主节点返回完成生成数据消息的时间间隔至所述从节点；

按照所述时间间隔，从所述从节点接收所述数据生成结果，所述完成生成数据消息包括所述从节点已生成的数据量和已完成数据生成的信息。

在第六中可能的实现方式中，结合第五种可能的实现方式，所述方法还包括：

若在所述时间间隔内，没有接收到所述从节点发送的所述完成生成数据消息，则指定除所述从节点之外的其他从节点按照所述数据生成策略生成数据并将生成的数据上传至所述文件系统。

第二方面，提供一种产生数据的方法，所述方法包括：

从主节点接收数据生成策略；

根据所述数据生成策略生成第二数据，并将所述第二数据上传至文件系统。

在第一种可能的实现方式中，结合第二方面，所述数据生成策略中包括：m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

在第二种可能的实现方式中，结合第一种可能的实现方式，所述从主节点接收的数据生成策略包括：

若确定的数据生成的方向为沿所述矩阵的横向扩展，则在所述矩阵的n列向量中选取至少一列作为第二参考向量集；或

若确定的数据生成的方向为沿所述矩阵的纵向扩展，则在所述矩阵的m行向量中选取至少一行作为第二参考向量集。

在第三种可能的实现方式中，结合第一种可能的实现方式，所述从主节点接收的数据生成策略包括：

若确定的数据生成的方向为沿所述矩阵的横向扩展，则对所述矩阵的n列向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第二参考向量集；或

若确定的数据生成的方向为沿所述矩阵的纵向扩展，则对所述矩阵的m行向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第二参考向量集。

在第四种可能的实现方式中，结合第二种或第三种可能的实现方式，所述根据所述数据生成策略生成第二数据包括：

记录所述第二参考向量集中每个向量中的非空元素的位置信息；

选取所述第二参考向量集中每个向量中的非空元素作为第四向量集，所述第四向量集中的每个向量不包含空元素；

利用向量相似性根据所述第四向量集生成第五向量集，所述第五向量集中的每个向量不包含空元素；

根据所述参考向量中每个向量中的非空元素的位置信息以及所述第五向量集生成第六向量集；

将所述第六向量集加入所述矩阵中形成新矩阵，将所述新矩阵作为所述第二数据。

第三方面，提供一种产生数据的装置，所述装置包括：

策略制定单元，用于根据已获得的样本数据制定数据生成策略；

第一数据生成单元，用于根据所述数据生成策略生成第一数据，并将所述第一数据上传至文件系统；

策略分发单元，用于将所述数据生成策略发送至从节点，以便所述从节点根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统。

在第一种可能的实现方式中，结合第三方面，所述样本数据为m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

在第三种可能的实现方式中，结合第二可能的实现方式，所述策略制定单元具体用于：

在第四种可能的实现方式中，结合第二种可能的实现方式，所述策略制定单元还用于：

在第五种可能的实现方式中，结合第二或第三种可能的实现方式，所述第一数据生成单元包括：

第一位置记录单元，用于记录所述第一参考向量集中每个向量中的非空元素的位置信息，并将所述位置信息发送至第一向量生成单元；

第一向量生成单元，用于根据所述第一参考向量集中每个向量中的非空元素选取第一向量集，所述第一向量集中的每个向量不包含空元素；

所述第一向量生成单元还用于利用向量相似性根据所述第一向量集生成第二向量集，所述第二向量集中的每个向量不包含空元素；

所述第一向量生成单元还用于根据所述参考向量中每个向量中的非空元素的位置信息以及所述第二向量集生成第三向量集，将所述第三向量集发送至第一合成子单元；

第一合成子单元，用于从所述第一向量生成单元接收所述第三向量集，将所述第三向量集加入所述矩阵中形成新矩阵，将所述新矩阵作为所述第一数据。

在第六种可能的实现方式中，结合第一方面至第一方面的第五种可能的实现方式中的任意一项，所述策略分发单元还用于：

在第七种可能的实现方式中，结合第六种可能的实现方式，所述策略分发单元还用于：

第四方面，提供一种产生数据的装置，所述装置包括：

策略接收单元，用于从主节点接收数据生成策略；

第二数据生成单元，用于根据所述数据生成策略生成第二数据，并将所述第二数据上传至文件系统。

在第一种可能的实现方式中，结合第四方面，所述数据生成策略中包括：m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

在第二种可能的实现方式中，结合第一种可能的实现方式，所述策略接收单元接收到的所述数据生成策略包括：

在第三种可能的实现方式中，结合第一种可能的实现方式，所述策略接收单元接收到的所述数据生成策略包括：

在第四种可能的实现方式中，结合第四方面的第二种或第四方面第三种可能的实现方式，所述第二数据生成单元包括：

第二位置记录单元，用于记录所述第二参考向量集中每个向量中的非空元素的位置信息，并将所述位置信息发送至第二向量生成单元；

第二向量生成单元，用于选取所述第二参考向量集中每个向量中的非空元素作为第四向量集，所述第四向量集中的每个向量不包含空元素；

所述第二向量生成单元还用于利用向量相似性根据所述第四向量集生成第五向量集，所述第五向量集中的每个向量不包含空元素；

所述第二向量生成单元还用于根据所述参考向量中每个向量中的非空元素的位置信息以及所述第五向量集生成第六向量集，并将所述第六向量集发送至第二合成子单元；

第二合成子单元，用于从所述第二向量生成单元接收所述第六向量集，将所述第六向量集加入所述矩阵中形成新矩阵，将所述新矩阵作为所述第二数据。

本发明提供一种产生数据的方法和装置，通过主节点根据样本数据制定数据生成的策略，并将数据生成的策略分发至至少一个从节点，以便主节点和从节点根据数据生成策略产生数据，并将产生的数据上传至文件系统。能够利用小规模的样本数据生成大数据，还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，同时避免了数据的大规模移动，有效的节省了存储和网络开销。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供另一种产生数据的方法的流程示意图；

图2为本发明实施例提供一种产生数据的方法的流程示意图；

图3为本发明实施例提供一种产生数据的方法的系统结构示意图；

图4为本发明实施例提供一种产生数据的方法的示意图；

图5为本发明实施例提供一种产生数据的方法的示意图；

图6本发明实施例提供一种产生数据的装置的结构示意图；

图7为本发明另一实施例提供另一种产生数据的装置的结构示意图；

图8为本发明实施例提供一种产生数据的装置的结构示意图；

图9为本发明实施例提供一种产生数据的装置的结构示意图；

图10为本发明实施例提供一种产生数据的装置的结构示意图；

图11为本发明实施例提供一种产生数据的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种产生数据的方法，如图1所示，基于主节点侧的方法包括：

101、根据已获得的样本数据制定数据生成策略。

此处的数据生成策略为包含主节点和从节点在内的所有节点生成数据的算法，是由主节点根据数据生成需求和对样本数据类型进行分析得到的方法，并将该方法发送给至少一个从节点，以便包括主节点和至少一个从节点生成符合要求的大规模数据，数据生成策略具体包括：

选取出的在样本数据中进行扩展的方向，例如可以在横向或纵向进行扩展；

根据扩展方向选取出的作为参考向量的向量集合。

102、根据数据生成策略生成第一数据，并将所述第一数据上传至文件系统。

103、将数据生成策略发送至从节点。

需要说明的是，主节点向从节点发送数据生成策略和主节点本身根据数据生成策略生成数据两个步骤之间没有特定的时间先后顺序，两者发生的顺序可以同时发生也可以互有先后。

本发明实施例提供另一种产生数据的方法，如图2所示，基于从节点侧的方法包括：

201、从主节点接收数据生成策略。

202、根据数据生成策略生成第二数据，并将第二数据上传至所述文件系统。

上述的文件系统为一个计算机集群，为便于设备存储和用户访问，可以采用分布式文件系统的方案，在本发明中文件系统用来接收并存储主节点和从节点生成的数据，并将上述数据整合成一个完整的大规模数据矩阵。

上述的主节点和从节点可以为服务器和客户机的关系，如图3所示，主节点向从节点发送数据生成策略，从节点接收主节点发送的数据生成策略，主节点根据数据生成策略生成数据，并将生成的数据发送至文件系统，从节点也根据数据生成策略生成数据，并将生成的数据发送至文件系统。

为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面通过具体的实施例，对本发明实施例提供的另一种产生数据的方法进行详细说明。

本发明实施例提供另一种产生数据的方法，如图4，该方法包括：

301、主节点根据已获得的样本数据制定数据生成策略。

示例性的，上述样本数据可以为一个m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，矩阵中元素为r(u，i)，r(u，i)表示第u个第一对象对第i个第二对象的评分。

示例性的，上述m行n列矩阵中的具体内容可以如表1所示：

表1

1

2

3

4

5

…

n

1

r

2

r

3

r

4

r

…

m

r

其中，根据已获得的样本数据制定数据生成策略可以具体包括：

数据生成策略包括主节点和从节点在内的所有节点生成数据的算法，是由主节点根据数据生成需求和对样本数据类型进行分析得到的方法，并将该方法发送给至少一个从节点，以便包括主节点和至少一个从节点生成符合要求的大规模数据，数据生成策略具体包括：

根据扩展方向选取出的作为参考向量的向量集合。

302、主节点将数据生成策略发送至从节点。

303、主节点确定数据生成的方向为沿矩阵的横向扩展和/或沿矩阵的纵向扩展。

若确定的数据生成的方向为沿矩阵的横向扩展，则在矩阵的n列向量中选取至少一列作为第一参考向量集；或

若确定的数据生成的方向为沿矩阵的纵向扩展，则在矩阵的m行向量中选取至少一行作为第一参考向量集。

例如，对矩阵进行行扩展后的结果如表2所示、对矩阵进行列扩展后的结果如表3所示。

表2

1

2

3

4

5

…

n

1

r

2

r

3

r

4

r

m

r

…

m+a

r

表3

1

2

3

4

5

…

n

…

n+a

1

r

2

r

3

r

4

r

…

m

r

上述沿着矩阵的某一方向扩展，即在原有矩阵的基础上，在行或列上生成新的数据，构成新的矩阵。其中在行或列上生成新数据的步骤，没有特定的先后顺序，两者发生顺序可互有先后，也可以同时发生。

优选的，根据已获得的样本数据制定的数据生成策略还可以有另一种实现方式：

确定数据生成的方向为沿矩阵的横向扩展和/或沿矩阵的纵向扩展；

若确定的数据生成的方向为沿矩阵的横向扩展，则对矩阵的n列向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第一参考向量集；或

若确定的数据生成的方向为沿矩阵的纵向扩展，则对矩阵的m行向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第一参考向量集。

其中，采用聚类处理可以将矩阵中选取的向量按照事先规定的大小进行分类，在每个分类中进行求平均值的运算，并以最终得到的所有平均值作为参考向量集中的元素。

304、主节点记录第一参考向量集中每个向量中的非空元素的位置信息。

其中，每个向量中非空元素的位置信息为上述元素在矩阵的行或列中所在的序号。

示例性的，为了方便说明，如表4所示，选取的参考向量集中的一个向量进行说明：

表4

3

5

1

由于上述向量中非空元素所在的位置依次为第2、第4、第5个位置，因此上述参考向量中元素的位置信息为：2、4、5。

305、主节点根据第一参考向量集中每个向量中的非空元素选取第一向量集，第一向量集中的每个向量不包含空元素。

示例性的，根据表4所示向量中的非空元素为3、5、1，因此，新生成向量中包含的元素为3、5、1，如表5所示。

表5

3

5

1

同理，按照上述方法就可以根据参考向量集中所有向量得到第一向量集。

306、主节点利用向量相似性根据第一向量集生成第二向量集，所述第二向量集中的每个向量不包含空元素。

利用向量相似性根据第一向量集生成第二向量具体包括：

首先，根据公式得到与第一向量集中各元素附近的点到第一向量中各元素的距离，d表示空间中两点的距离，x₁、y₁、z₁表示第一向量集中的各个元素。

其次，将得到的距离与规定的数值进行比较，并选取距离小于规定的数值的点，其中，规定的数值是由主节点向从节点发送的。

最后，将已选取的点的坐标值作为第二向量中的元素。

示例性的，假设选取第一向量集的某一向量中的元素为3、5、1，规定的数值为2，根据上述公式，得到点(2，4，1)与点(3，5，1，)的空间距离为小于规定的距离2，因此，点(2，4，1)的坐标值2、4、1可以作为第二向量中的元素。其中，得到的点的坐标值的取值要大于等于矩阵中已有数值的最小值，并且小于等于矩阵中已有数值的最大值。

同理，按照上述方法就可以根据第一向量集中所有向量得到第二向量集。

307、主节点根据参考向量中每个向量中的非空元素的位置信息以及第二向量集生成第三向量集。

示例性的，选取的第一向量集为第2行，其中，元素为3，5，1。元素所在矩阵的位置如表6中第三行所示。

表6

1

2

3

4

5

…

n

1

r

2

3

5

1

3

r

4

r

…

m

r

而后，根据之前记录的参考向量集中的位置信息，将第二向量中的元素根据位置信息生成第三向量，例如，已得到的表4所示向量的位置信息为2、4、5，则根据表4所示向量的位置信息为2、4、5以及步骤306中已得到的第二向量集中的向量(2，4，1)可以得到的向量如表7所示：

表7

2

4

1

同理，按照上述方法就可以根据第二向量集中所有向量得到第三向量集。

308、主节点将第三向量集加入矩阵中形成新矩阵，将新矩阵作为第一数据。

示例性的，将307中得到的第三向量集中的向量(2，4，1)添加到原有的矩阵中，形成新矩阵如表8所示：

表8

	1	2	3	4	5	…	n
								1			r	r	r	r
2		3		5	1
								3	r	r	r	r		r
…
								m	r	r	r	r	r
m+1	r	2	r	4	1

309、主节点将形成的新矩阵上传至文件系统。

310、主节点将从节点需要生成数据的数据量及从节点向主节点返回完成生成数据消息的时间间隔发送至从节点。

其中，同时发送的还包括在生成数据所规定的数值，以便生成符合要求的数据。

311、主节点按照时间间隔，从从节点接收完成生成数据消息。完成生成数据消息包括从节点已生成的数据量和已完成数据生成的信息。

示例性的，从节点在规定时间间隔向主节点发送数据生成结果，该数据生成结果可以为：“当前本节点已生成数据2789组，完成率为87％。”或“本节点已完成数据生成任务”。

312、主节点从节点将生成的矩阵上传至文件系统。

313、主节点若在时间间隔内，没有接收到从节点发送的完成生成数据消息，则指定除从节点之外的其他从节点按照数据生成策略生成数据并将生成的数据上传至文件系统。

其中，当主节点在规定的时间间隔内没有接受到从节点发送的数据生成信息，则认为该从节点存在故障，因此，主节点将终止该从节点的数据生成任务，并在其他节点中重新选择从节点，重复发送数据生成策略，并接收对应节点的数据生成信息。

本发明实施例提供一种产生数据的方法，通过主节点根据样本数据制定数据生成的策略，并将数据生成的策略分发至至少一个从节点，以便主节点和从节点根据数据生成策略产生数据，并将产生的数据上传至文件系统。能够利用小规模的样本数据生成大数据，同时还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，同时避免了数据的大规模移动，有效的节省了存储和网络开销。

本发明实施例还提供另一种产生数据的方法，如图5所示，该方法包括：

401、从节点从主节点接收数据生成策略。

其中，从节点接收到的数据生成策略与301中提供的数据生成策略完全相同，这里不再赘述。

402、从节点确定数据生成的方向为沿矩阵的横向扩展和/或沿矩阵的纵向扩展。

具体的，若确定的数据生成的方向为沿矩阵的横向扩展，则在矩阵的n列向量中选取至少一列作为第二参考向量集；或

若确定的数据生成的方向为沿矩阵的纵向扩展，则在矩阵的m行向量中选取至少一行作为第二参考向量集。

可选的，还可以通过以下方式：

若确定的数据生成的方向为沿矩阵的横向扩展，则对矩阵的n列向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第二参考向量集；或

若确定的数据生成的方向为沿矩阵的纵向扩展，则对矩阵的m行向量进行聚类处理，并将聚类处理结果的中心点中的向量作为第二参考向量集。

403、从节点记录第二参考向量集中每个向量中的非空元素的位置信息。

404、从节点选取第二参考向量集中每个向量中的非空元素作为第四向量集，第四向量集中的每个向量不包含空元素。

405、从节点利用向量相似性根据第四向量集生成第五向量集，第五向量集中的每个向量不包含空元素。

406、从节点根据参考向量中每个向量中的非空元素的位置信息以及第五向量集生成第六向量集。

407、从节点将第六向量集加入矩阵中形成新矩阵，将新矩阵作为第二数据。

408、从节点将第二数据上传至文件系统中。

以上402～408中的详细内容，与上个实施例中303～309的实现方法完全相同，在此不再赘述。

本发明实施例提供一种产生数据的装置01，如图6所示，该装置包括：

策略制定单元011，用于根据已获得的样本数据制定数据生成策略。

第一数据生成单元012，用于根据数据生成策略生成第一数据，并将第一数据上传至文件系统。

策略分发单元013，用于将数据生成策略发送至从节点，以便从节点根据数据生成策略生成第二数据，并将第二数据上传至文件系统。

其中，上述样本数据为m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，矩阵中元素为r(u，i)，r(u，i)表示第u个第一对象对第i个第二对象的评分。

可选的，策略制定单元011可以具体用于：

可选的，策略制定单元011还可以用于：

可选的，如图7所示，第一数据生成单元012包括：

第一位置记录子单元0121，用于记录第一参考向量集中每个向量中的非空元素的位置信息，并将位置信息发送至第一向量生成单元013。

第一向量生成单元0122，用于根据第一参考向量集中每个向量中的非空元素选取第一向量集，并将第一向量集发送至第二生成子单元0123，第一向量集中的每个向量不包含空元素。

第一向量生成单元0122，用于利用向量相似性根据第一向量集生成第二向量集，第二向量集中的每个向量不包含空元素。

第一向量生成单元0122，还用于根据参考向量中每个向量中的非空元素的位置信息以及第二向量集生成第三向量集，将第三向量集发送至第一合成子单元0123。

第一合成子单元0123，用于接收第三向量集，将第三向量集加入矩阵中形成新矩阵，将新矩阵作为第一数据。

可选的，策略分发单元013还可以用于：

将从节点需要生成数据的数据量及从节点向主节点返回完成生成数据消息的时间间隔至从节点；

按照时间间隔，从从节点接收数据生成结果，完成生成数据消息包括从节点已生成的数据量和已完成数据生成的信息。

可选的，策略分发单元013还可以用于：

若在时间间隔内，没有接收到从节点发送的完成生成数据消息，则指定除从节点之外的其他从节点按照数据生成策略生成数据并将生成的数据上传至文件系统。

本发明实施例提供一种产生数据的装置，通过主节点根据样本数据制定数据生成的策略，并将数据生成的策略分发至至少一个从节点，以便主节点和从节点根据数据生成策略产生数据，并将产生的数据上传至文件系统。能够利用小规模的样本数据生成大数据，同时还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，同时避免了数据的大规模移动，有效的节省了存储和网络开销。

本发明另一实施例提供另一种产生数据的装置02，如图8所示，该装置包括：

策略接收单元021，用于从主节点接收数据生成策略。

第二数据生成单元022，用于根据数据生成策略生成第二数据，并将第二数据上传至文件系统。

其中，生成数据生成策略的样本数据为一m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，矩阵中元素为r(u，i)，r(u，i)表示第u个第一对象对第i个第二对象的评分。

其中，策略接收单元021具接收到的所述数据生成策略包括：

若确定的数据生成的方向为沿矩阵的横向扩展，则在矩阵的n列向量中选取至少一列作为第二参考向量集；或

可选的，策略接收单元021接收到的所述数据生成策略包括：

可选的，如图9所示，第二数据生成单元022包括：

第二位置记录单元0221，用于记录第二参考向量集中每个向量中的非空元素的位置信息，并将位置信息发送至第二向量生成单元023。

第二向量生成单元0222，用于选取第二参考向量集中每个向量中的非空元素作为第四向量集，第四向量集中的每个向量不包含空元素。

第二向量生成单元0222，用于利用向量相似性根据第四向量集生成第五向量集，第五向量集中的每个向量不包含空元素。

第二向量生成单元0222，还用于根据参考向量中每个向量中的非空元素的位置信息以及第五向量集生成第六向量集，并将第六向量集发送至第二合成子单元0223。

第二合成子单元0223，用于从第二向量生成单元0222接收第六向量集，将第六向量集加入矩阵中形成新矩阵，将新矩阵作为第二数据。

本发明实施例还提供了一种产生数据的装置03，可作为主节点，如图10所示，该装置03包括：总线031，以及连接到总线031的存储器032、发射器033、接收器034、处理器035；其中存储器032用于存储指令，处理器035执行该指令用于根据已获得的样本数据制定数据生成策略；处理器035执行该指令用于根据所述数据生成策略生成第一数据，并将所述第一数据上传至文件系统；处理器035执行该指令用于将所述数据生成策略发送至从节点，以便所述从节点根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统。

在本发明实施例中，可选的，该处理器035执行该指令用于根据已获得的样本数据制定数据生成策略包括：

在本发明实施例中，可选的，该处理器035执行该指令用于根据所述数据生成策略生成第一数据包括：

在本发明实施例中，可选的，该处理器035执行该指令用于将所述数据生成策略发送至从节点时，所述方法包括：

将所述从节点需要生成数据的数据量及所述从节点向主节点返回完成生成数据消息的时间间隔发送至所述从节点；

在本发明实施例中，可选的，该处理器035执行该指令用于将所述数据生成策略发送至从节点时，所述方法还包括：

因此，本发明实施例的产生数据的装置，根据已获得的样本数据制定数据生成策略，根据所述数据生成策略生成第一数据，并将所述第一数据上传至文件系统，以及将所述数据生成策略发送至从节点，以便所述从节点根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统，从而能够产生所需的大数据。

本发明实施例还提供了一种产生数据的装置04，可作为从节点，如图11所示，该装置04包括：总线041，以及连接到总线041的存储器042、发射器043、接收器044、处理器045；其中存储器042用于存储指令，处理器045执行该指令用于从主节点接收数据生成策略；处理器045执行该指令还用于根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统。

在本发明实施例中，可选的，该处理器045执行该指令用于从主节点接收的数据生成策略包括：

m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

在本发明实施例中，可选的，该处理器045执行该指令用于根据所述数据生成策略生成第二数据包括：

因此，本发明实施例的产生数据的装置，通过从主节点接收数据生成策略，并根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统，从而能够产生所需的大数据。

本发明实施例提供一种产生数据的方法，从通过主节点接收数据生成策略，并根据所述数据生成策略生成第二数据，并将所述第二数据上传至所述文件系统，从而能够产生所需的大数据，能够利用小规模的样本数据生成大数据，同时还保留了原有小规模数据的特征规律，提高了生成的大数据的参考价值，同时避免了数据的大规模移动，有效的节省了存储和网络开销。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法，装置，和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种产生数据的方法，其特征在于，所述方法包括：

根据已获得的样本数据制定数据生成策略；

所述数据生成策略包括：选取出的在样本数据中进行扩展的方向，根据扩展方向选取出的作为参考向量的向量集合；

2.根据权利要求1所述的方法，其特征在于，所述样本数据为m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

3.根据权利要求2所述的方法，其特征在于，所述根据已获得的样本数据制定数据生成策略包括：

4.根据权利要求2所述的方法，其特征在于，所述根据已获得的样本数据制定数据生成策略还包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述数据生成策略生成第一数据包括：

6.根据权利要求1至4任意一项所述的方法，其特征在于，在所述将所述数据生成策略发送至从节点时，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种产生数据的方法，其特征在于，所述方法包括：

从主节点接收数据生成策略；

9.根据权利要求8所述的方法，其特征在于，所述数据生成策略中包括：m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

10.根据权利要求9所述的方法，其特征在于，所述从主节点接收的数据生成策略包括：

11.根据权利要求9所述的方法，其特征在于，所述从主节点接收的数据生成策略包括：

12.根据权利要求10或11所述的方法，其特征在于，所述根据所述数据生成策略生成第二数据包括：

13.一种产生数据的装置，其特征在于，所述装置包括：

14.根据权利要求13所述的装置，其特征在于，所述样本数据为m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

15.根据权利要求14所述的装置，其特征在于，所述策略制定单元具体用于：

16.根据权利要求14所述的装置，其特征在于，所述策略制定单元具体用于：

17.根据权利要求15或16所述的装置，其特征在于，所述第一数据生成单元包括：

所述第一向量生成单元，还用于利用向量相似性根据所述第一向量集生成第二向量集，所述第二向量集中的每个向量不包含空元素；

所述第一向量生成单元，还用于从根据所述参考向量中每个向量中的非空元素的位置信息以及所述第二向量集生成第三向量集，将所述第三向量集发送至第一合成子单元；

18.根据权利要求13所述的装置，其特征在于，所述策略分发单元还用于：

19.根据权利要求18所述的装置，其特征在于，所述策略分发单元还用于：

20.一种产生数据的装置，其特征在于，所述装置包括：

策略接收单元，用于从主节点接收数据生成策略；

21.根据权利要求20所述的装置，其特征在于，所述数据生成策略中包括：m行n列的矩阵，其中m表示第一对象的总数，n表示第二对象的总数，所述矩阵中元素为r(u，i)，所述r(u，i)表示第u个第一对象对第i个第二对象的评分。

22.根据权利要求21所述的装置，其特征在于，所述策略接收单元接收到的所述数据生成策略包括：

23.根据权利要求21所述的装置，其特征在于，所述策略接收单元接收到的所述数据生成策略包括：

24.根据权利要求22或23所述的装置，其特征在于，所述第二数据生成单元包括：