CN108932266A

CN108932266A - 大数据处理方法、装置及系统和机器可读介质

Info

Publication number: CN108932266A
Application number: CN201710386010.7A
Authority: CN
Inventors: 藏迪; 吴江; 戚威; 刘康
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2018-12-04
Also published as: WO2018215651A1

Abstract

本发明提供了大数据处理方法、装置及系统和机器可读介质，该大数据处理方法包括：接收大数据处理请求，所述大数据处理请求用于请求对一项大数据进行处理；根据所述大数据处理请求，从所述大数据的存储设备获取所述大数据；根据所述大数据处理请求，确定对所述大数据进行处理的处理逻辑；根据所述处理逻辑，从一个R服务库中调用至少一个R服务；通过所述至少一个R服务对所述大数据进行处理，获取处理结果。该大数据处理装置包括：一个请求接收模块、一个数据获取模块、一个请求解析模块、一个服务调用模块和一个数据处理模块。本方案能够提高大数据处理结果的准确性。

Description

大数据处理方法、装置及系统和机器可读介质

技术领域

本发明涉及大数据技术领域，尤其涉及大数据处理方法、装置及系统和机器可读介质。

背景技术

大数据(Big Data)为数据的集合，通常数据量较大，可用于实现对特定领域的发展趋势、行为模式等进行分析。通过对大数据进行分析，可以获得智能、深入且有价值的信息，因此大数据分析广泛应用于人工智能、市场分析、产品优化等领域。

R语言是一种用于统计计算和统计制图的工具，能够用于大数据分析。

目前，在利用R语言对大数据进行分析时，R语言调用大数据，从大数据中抽取有限数量的数据样本，通过对所抽取的数据样本进行分析获得处理模型，进而利用获得的处理模型对大数据进一步分析获得分析结果。

针对上述对大数据进行处理的方法，由于处理模型通过对有限数量的数据样本分析获得，而有限数量的数据样本并不能完全反映待处理的大数据的数据规律，因此通过有限数量的数据样本所获得的处理模型会存在一定误差，通过存在误差的处理模型对大数据进行处理，会导致大数据处理结果的准确性较低。

发明内容

有鉴于此，本发明提供的大数据处理方法、装置及系统和计算机可读介质，能够提高大数据处理结果的准确性。

第一方面，本发明实施例提供了一种大数据处理方法，包括：

接收请求对一项大数据进行处理的大数据处理请求后，根据大数据处理请求从大数据的存储设备获取大数据，并根据大数据处理请求确定对大数据进行处理的处理逻辑。根据处理逻辑从一个R服务库中调用至少一个R服务，通过调用的至少一个R服务对大数据进行处理，获取处理结果。

根据大数据的处理逻辑调用至少一个R服务，通过调用的至少一个R服务直接对大数据进行处理获得处理结果。由于无需从大数据中抽取数据样本形成处理模型，利用获得的处理模型对大数据进行处理而获得处理结果，避免了由于有限数量数据样本所形成处理模型存在误差，导致大数据处理结果准确性较低的情况出现。因此，通过大数据调用R服务，通过R服务直接对大数据进行处理，可以提高大数据处理结果的准确性。

可选地，在根据处理逻辑从一个R服务库中调用至少一个R服务时，根据处理逻辑，确定对大数据进行处理时所包括的至少一个处理步骤，从R服务库中依次调用用于实现至少一个处理步骤中的每一个处理步骤的R服务。

R服务库中包括有多个R服务，每个R服务都可以实现相对应的处理步骤。在对大数据进行处理时，根据对大数据进行处理的处理逻辑，确定对大数据进行处理时所需的至少一个处理步骤后，从R服务库中调用相对应的R服务完成各个处理步骤，实现对大数据的处理。通过不同R服务的组合和排序可以实现对大数据进行不同类型的处理，从而增加了该大数据处理方法可以处理的大数据类型，提高了该大数据处理方法的适用性。

可选地，在从R服务库中依次调用用于实现至少一个处理步骤中的每一个处理步骤的R服务之前，获取至少一个开发语言接口，每一个开发语言接口用于供相对应的开发语言对R服务库中的R服务进行调用。从R服务库中依次调用用于实现至少一个处理步骤中的每一个处理步骤的R服务时，依次针对至少一个处理步骤中的每一个处理步骤，从R服务库中确定用于实现处理步骤的目标R服务，通过预先设定的与目标R服务相对应的开发语言，利用与开发语言相对应的开发语言接口，从R服务库中调用目标R服务。

获取对应于各种开发语言的开发语言接口，并为R服务库中的每一个R服务预先定义相对应的开发语言。针对每一个处理步骤，在确定可以实现该处理步骤的目标R服务后，通过与该目标R服务相对应的开发语言，利用与该开发语言相对应的开发语言接口从R服务库中调用目标R服务。通过获取开发语言接口，并为每一个R服务定义相对应的开发语言，可以通过各种开发语言调用R服务库中的R服务，充分利用了各种开发语言的优势调用R服务来对大数据进行处理，提升对大数据进行处理的效率。

可选地，从大数据的存储设备获取大数据，包括：

向存储设备中的分布式文件系统发送获取请求，获取请求用于通过分布式文件系统从存储设备中的数据库中获取大数据，接收来自分布式文件系统的大数据。

分布式文件系统是通用的大数据管理系统，在获取大数据时通过分布式文件系统从数据库中获取大数据，提升了该大数据处理方法的适用性。

第二方面，本发明实施例还提供了一种大数据处理装置，包括：

一个请求接收模块，用于接收大数据处理请求，大数据处理请求用于请求对一项大数据进行处理；

一个数据获取模块，用于根据请求接收模块接收到的大数据处理请求，从大数据的存储设备获取大数据；

一个请求解析模块，用于根据请求接收模块接收到的大数据处理请求，确定对大数据进行处理的处理逻辑；

一个服务调用模块，并根据请求解析模块确定的处理逻辑，从一个R服务库中调用至少一个R服务；

一个数据处理模块，用于通过服务调用模块调用的至少一个R服务对数据获取模块获取到的大数据进行处理，获取处理结果。

其中，数据处理模块根据服务调用模块调用的至少一个R服务，直接通过调用的至少一个R服务对数据获取模块获取到的大数据进行处理，获得处理结果。由于无需从大数据中抽取数据样本形成处理模型，进而利用获得的处理模型对大数据进行处理而获得处理结果，避免了由于有限数量数据样本所形成处理模型存在误差，导致大数据处理结果准确性较低的情况出现。因此，服务调用模块根据大数据调用R服务，数据处理模块通过R服务直接对大数据进行处理，可以提高大数据处理结果的准确性。

可选地，服务调用模块包括：

一个步骤分解单元，用于根据处理逻辑，确定对大数据进行处理时所包括的至少一个处理步骤；

一个服务调用单元，用于依次从R服务库中调用用于实现步骤分解单元确定出的至少一个处理步骤中的每一个处理步骤的R服务。

其中，步骤分解单元根据请求解析模块确定的处理逻辑，确定对大数据进行处理时需要进行的至少一个处理步骤，服务调用单元依次从R服务库中调用用于实现各个处理步骤的R服务。R服务库中包括有多个R服务，每个R服务可以实现相对应的处理步骤。因此，服务调用单元可以根据步骤分解单元确定的处理步骤，从R服务库中调用不同的R服务以对大数据进行不同类型的处理，从而增加了该大数据处理方法可以处理的大数据类型，提高了该大数据装置方法的适用性。

可选地，

大数据处理装置还可以包括：一个接口获取模块，用于获取至少一个开发语言接口，每一个开发语言接口用于供相对应的开发语言对R服务库中的R服务进行调用；

服务调用单元，用于依次针对至少一个处理步骤中的每一个处理步骤，从R服务库中确定用于实现处理步骤的目标R服务，通过预先设定的与目标R服务相对应的开发语言，利用由接口获取模块获取的与开发语言相对应的开发语言接口，从R服务库中调用目标R服务。

其中，R服务库本身提供有对应部分开发语言的开发语言接口，接口获取单元获取R服务库提供的开发语言接口，并创建R服务库没有提供的开发语言接口。服务调用单元通过与每一个目标R服务相对应的开发语言，利用与开发语言相对应的开发语言接口从R服务库中调用R服务。接口获取单元通过获取开发语言接口，服务调用单元可以通过各种开发语言调用R服务库中的R服务，充分利用了各种开发语言的优势调用R服务来对大数据进行处理，提升对大数据进行处理的效率。

可选地，

数据获取模块，用于向存储设备中的分布式文件系统发送获取请求，获取请求用于通过分布式文件系统从存储设备中的数据库中获取大数据，并接收来自分布式文件系统的大数据。

其中，由于分布式文件系统是通用的大数据管理系统，数据获取模块可以通过分布式文件系统从数据库中获取大数据，提升了该大数据处理装置的适用性。

第三方面，本发明实施例还提供了一种大数据处理装置，包括：至少一个存储器和至少一个处理器；

至少一个存储器，用于存储机器可读程序；

至少一个处理器，用于调用机器可读程序，执行上述第一方面或第一方面的任一可能实现方式所提供的方法。

其中，存储器中存储有机器可读程序，处理器通过调用存储器中存储的机器可读程序，可以执行上述第一方面或第一方面的任意一种可实现方式所提供的方法，通过大数据调用R服务，无需抽取数据样本形成处理模型，直接通过R服务对大数据进行处理而获得处理结果，避免了处理模型存在误差导致处理结果不准确的情况发生，从而可以提高对大数据进行处理的准确性。

第四方面，本发明实施例还提供了一种大数据处理系统，包括：一个存储设备和一个上述第二方面、第二方面的任一种可能的实现方式、第三方面或第三方面的任一种可能的实现方式提供的任意一种大数据处理装置；

存储设备，用于存储待处理的大数据。.

其中，存储设备中存储大数据，大数据处理装置根据大数据处理请求从存储设备中获取待处理的大数据，通过大数据调用R服务，直接通过R服务对大数据进行处理，无需抽取数据样本形成处理模型，避免了处理模型存在误差导致处理结果不准确的情况发生，从而可以提高对大数据进行处理的准确性。

可选地，存储设备包括：

一个数据库，用于存储大数据；

一个分布式文件系统，用于根据来自大数据处理装置的获取请求，从数据库中获取大数据，并将大数据发送给大数据处理装置。

其中，存储设备可以包括数据库和分布式文件系统，数据库用于存储大数据，分布式文件系统从数据库中获取大数据发送给大数据处理装置。由于分布式文件系统是通用的大数据管理系统，可以通过分布式文件系统从数据库中获取大数据，进一步提升了该大数据处理系统的应用范围。

第五方面，本发明实施例还提供了一种机器可读介质，机器可读介质上存储有计算机指令，计算机指令在被处理器执行时，使处理器执行上述第一方面或第一方面的任一种可能的实现方式所提供的方法。

其中，机器可读介质上存储有计算机指令，当计算机指令被处理器执行时，处理器会执行上述第一方面以及第一方面的任意一种可能的实现方式所提供的大数据处理方法，通过大数据调用R服务，直接利用R服务对大数据进行处理，无需抽取数据样本形成处理模型，避免了处理模型存在误差导致处理结果不准确的情况发生，以达到提高大数据处理结果准确性的目的。

附图说明

图1是本发明一个实施例提供的一种大数据处理系统的示意图；

图2是本发明一个实施例提供的一种大数据处理系统的另一示意图；

图3是本发明一个实施例提供的一种大数据处理方法的流程图；

图4是本发明一个实施例提供的一种调用R服务的方法流程图；

图5是本发明一个实施例提供的一种调用R服务的方法的另一流程图；

图6是本发明一个实施例提供的一种大数据处理装置的示意图；

图7是本发明一个实施例提供的另一种大数据处理装置的示意图；

图8是本发明一个实施例提供的又一种大数据处理装置的示意图；

图9是本发明一个实施例提供的再一种大数据处理装置的示意图；

图10是本发明一个实施例提供的另一种大数据处理方法流程图。

附图标记列表：

10：大数据处理装置 20：存储设备 101：请求接收模块

102：数据获取模块 103：请求解析模块 104：服务调用模块

105：数据处理模块 106：接口获取模块 1041：步骤分解单元

1042：服务调用单元 201：数据库 202：分布式文件系统

901：存储器 902：处理器

301：接收大数据处理请求

302：根据大数据处理请求获取大数据

303：根据大数据处理请求确定处理逻辑

304：根据处理逻辑调用至少一个R服务

401：根据处理逻辑确定对大数据进行处理的至少一个处理步骤

402：依次调用用于实现每一个处理步骤的R服务

501：分别确定用于实现每一个处理步骤的目标R服务

502：确定用于实现目标R服务的开发语言

503：利用与开发语言相对应的接口调用目标R服务

1001：获取至少一个开发语言接口

1002：接收大数据处理请求

1003：根据大数据处理请求从存储设备获取大数据

1004：根据大数据处理请求确定处理逻辑

1005：根据大数据处理请求确定至少一个处理步骤

1006：依次确定用于实现每一个处理步骤的目标R服务

1007：确定每一个目标R服务对应的开发语言

1008：通过相对应的开发语言，利用相对应的开发语言接口调用各个目标R服务

1009：依次通过各个目标R服务对大数据进行处理

1010：将对大数据进行处理的处理结果输出

具体实施方式

如前所述，利用R语言对大数据进行分析时，处理模型是通过对有限数量的数据样本分析获得的，而有限数量的数据样本并不能完全反映待处理的大数据的数据规律，因此通过有限数量的数据样本所获得的处理模型会存在一定误差，通过存在误差的处理模型对大数据进行处理，会导致大数据处理结果的准确性较低。

本发明实施例中，通过R语言构建一个R服务库，R服务库中包括用于对大数据进行分析、挖掘、计算、统计、制图等处理的R服务，并获取对应各种开发语言的开发语言接口。在对大数据进行处理时，根据对大数据进行处理的处理逻辑，通过相应的开发语言，利用与开发语言相对应的开发语言接口，从R服务库中调用至少一个R服务对大数据进行处理，获得处理结果。一方面，通过大数据调用R服务，利用R服务直接对大数据进行处理，无需从大数据中抽取数据样本形成处理模型，从而避免了由于处理模型存在误差导致大数据处理结果不准确的情况发生，提高了大数据处理结果的准确性。另一方面，通过获取对应于各种开发语言的开发语言接口，可以通过各种开发语言调用R服务库中的R服务对大数据进行处理，在大数据处理过程中充分利用各种开发语言的优势，提升对大数据进行处理的效率，并扩大所能够处理的大数据的类型。

下面结合附图对本发明实施例提供的方法和设备进行详细说明。

如图1所示，本发明实施例提供了一种大数据处理系统，包括：一个大数据处理装置10和一个存储设备20；

存储设备20用于存储大数据，大数据处理装置10从存储设备20获取大数据后，从一个R服务库中调用至少一个R服务对获取到的大数据进行处理，以获取处理结果。

可选地，如图2所示，

存储设备20包括一个数据库201和一个分布式文件系统202，其中，

数据库201用于存储大数据，分布式文件系统202用于根据来自大数据处理装置10的获取请求，从数据库201中获取大数据，并将大数据发送给大数据处理装置10。

可选地，存储设备20除了可以为图2所示的形式外，还可以为其他的形式。比如，存储设备20可以仅包括数据库，此时，大数据处理装置10可以根据大数据处理请求直接从数据库中读取待处理的大数据。

下面，介绍本发明实施例提供的大数据处理方法，该方法可由前述的大数据处理装置10来执行。如图3所示，该方法可以包括以下步骤：

步骤301：接收大数据处理请求，其中，大数据处理请求用于请求对一项大数据进行处理；

步骤302：根据大数据处理请求，从大数据的存储设备获取大数据；

步骤303：根据大数据处理请求，确定对大数据进行处理的处理逻辑；

步骤304：根据处理逻辑，从一个R服务库中调用至少一个R服务；

步骤305：通过调用的至少一个R服务对大数据进行处理，获取处理结果。

本发明实施例提供了一种大数据处理方法，在接收到请求对一项大数据进行处理的大数据处理请求后，根据大数据处理请求从大数据的存储设备获取大数据，并根据大数据处理请求确定对大数据进行处理的处理逻辑，进而根据对大数据进行处理的处理逻辑，从R服务库中调用至少一个R服务，通过调用的至少一个R服务对大数据进行处理，获得处理结果。由此可见，在对大数据进行处理时，根据大数据的处理逻辑，从R服务库中调用至少一个R服务直接对大数据进行处理，实现通过大数据调用R服务，无需从大数据中抽取数据样本形成处理模型后对大数据进行处理，直接将大数据作为样本进行处理，避免了处理模型存在误差对大数据处理结果造成的影响，从而提高了大数据处理结果的准确性。

可选地，步骤304中根据处理逻辑从一个R服务库中调用至少一个R服务，如图4所示，该步骤具体地可以通过以下子步骤实现：

步骤401：根据处理逻辑，确定对大数据进行处理时所包括的至少一个处理步骤；

步骤402：从R服务库中依次调用用于实现至少一个处理步骤中的每一个处理步骤的R服务。

其中，在对大数据进行处理的处理逻辑确定后，可以根据处理逻辑确定对大数据进行处理的处理步骤，通常对一项大数据进行处理需要多个处理步骤。比如，在对大数据X进行处理时，根据对大数据X进行处理的处理逻辑，确定对大数据X进行处理时需要依次执行处理步骤A、处理步骤B和处理步骤C共计3个处理步骤。

R服务库中包括有可以实现各种处理逻辑的多个处理步骤的R服务，在确定对大数据进行处理的至少一个处理步骤后，从R服务库中依次调用用于实现每一个处理步骤的R服务。比如，R服务库中包括有100个R服务，其中，R服务A可以实现处理步骤A的数据处理目的，R服务B可以实现处理步骤B的数据处理目的，R服务C可以实现处理步骤C的数据处理目的。在确定处理大数据X需要依次经过处理步骤A、处理步骤B和处理步骤C后，从R服务库中依次调用R服务A、R服务B和R服务C，以通过R服务A实现处理步骤A，通过R服务B实现处理步骤B，通过R服务C实现处理步骤C。

R服务库中包括有多个R服务，每一个R服务都能够实现一定的处理步骤，而不同的处理步骤顺序组合可以实现不同的处理逻辑，实现对大数据进行不同的处理。因此，通过改变所调用R服务类型和顺序，可以对大数据进行不同类型的处理，满足不同用户的需求，提高了该大数据处理方法的适用性。

可选地，为了可以充分利用各种开发语言的优势，在步骤402之前可以获取R服务库的至少一个开发语言接口，每一个开发语言接口用于供相对应的开发语言对R服务库中的R服务进行调用。比如，获取C语言接口、C++接口和Java接口，利用C语言接口可以通过C语言对R服务库中的R服务进行调用，利用C++接口可以通过C++对R服务库中的R服务进行调用，利用Java接口可以通过Java对R服务库中的R服务进行调用。

相应地，步骤402中从R服务库中依次调用用于实现至少一个处理步骤中的每一个处理步骤的R服务，如图5所示，该步骤具体地可以通过以下子步骤实现：

步骤501：依次针对至少一个处理步骤中的每一个处理步骤，从R服务库中确定用于实现该处理步骤的目标R服务；

步骤502：通过预先定义的与该目标R服务相对应的开发语言，利用与该开发语言相对应的开发语言接口，从R服务库中调用该目标R服务。

由于不同开发语言具有各自的优势，比如，C++具有较快的运算速率，C语言能够解决内存溢出的问题，Java服务能够实现跨平台操作。通过获取R服务库提供的对应各种开发语言的开发语言接口，并根据每一个R服务的特点分别为各个R服务定义相对应的开发语言。比如，R服务1的调用速率较慢，可以将R服务1对应的开发语言设定为C++，R服务2运行时占用的内存比较大，可以加个R服务2的对应的开发语言设定为C语言。在确定R服务1为目标R服务后，通过开发语言C++，利用C++接口从R服务库中调用R服务1；在确定R服务2为目标R服务后，通过开发语言C语言，利用C语言接口从R服务库中调用R服务2。利用各种开发语言的优势，通过多种开发语言从R服务库中调用多个R服务对大数据进行处理，提高对大数据进行处理的速率，并扩大所能够处理大数据的类型，即提升了该大数据处理方法的适用性。

具体地，R服务库本身提供有对应部分开发语言的开发语言接口，比如对应开发语言C++、C语言、Java、PHP、BASIC、C#和Python等的开发语言接口。对于R服务库没有提供的开发语言接口，可以通过对应的开发语言为R服务库扩展开发语言接口，使得可以通过更多类型的开发语言对R服务库中的R服务进行调用，比如，通过开发语言Perl为R服务库创建Perl接口，使得可以通过开发语言Perl对R服务库中的R服务进行调用。这样，可以通过C++、C语言、Java、PHP、BASIC、C#、Python和Perl等各种开发语言从R服务库中调用R服务。一方面，可以满足不同用户的需求，提高该大数据处理方法的适用性；另一方面，通过多种开发语言调用多个R服务对同一项大数据进行处理，充分利用各个开发语言的优势执行大数据处理过程中的各个处理步骤，提高对大数据进行处理的速率和质量。

可选地，步骤302中从大数据的存储设备获取大数据时，具体可以向存储设备中的分布式文件系统发送获取请求，分布式文件系统在接收到获取请求后，从存储设备中的数据库中读取大数据，并将读取到的大数据返回。

由于大数据通常具有较大的数据量，分布式文件系统是通用的大数据管理系统，通过分布式文件系统获取所需处理的大数据，提升了该大数据处理方法的适用性。当然，除了可以通过分布式文件系统获取大数据外，还可以直接从数据库获取大数据。

如图6所示，本发明一个实施例提供了一种大数据处理装置10，包括：

一个请求接收模块101，接收大数据处理请求，其中，大数据处理请求用于请求对一项大数据进行处理；

一个数据获取模块102，用于根据请求接收模块101接收到的大数据处理请求，从大数据的存储设备获取大数据；

一个请求解析模块103，用于根据请求接收模块101接收到的大数据处理请求，确定对大数据进行处理的处理逻辑；

一个服务调用模块104，并根据请求解析模块103确定的处理逻辑，从一个R服务库中调用至少一个R服务；

一个数据处理模块105，用于通过服务调用模块104调用的至少一个R服务对数据获取模块102获取到的大数据进行处理，获取处理结果。

在本发明实施例中，请求接收模块101可用于执行上述方法实施例中的步骤301，数据获取模块102可用于执行上述方法实施例中的步骤302，请求解析模块103可用于执行上述方法实施例中的步骤303，服务调用模块104可用于执行上述方法实施例中的步骤304，数据处理模块105可用于执行上述方法实施例中的步骤305。

可选地，如图7所示，

服务调用模块104可以包括一个步骤分析单元1041和一个服务调用单元1042，其中，

步骤分解单元1041，用于根据处理逻辑，确定对大数据进行处理时所包括的至少一个处理步骤；

服务调用单元1042，用于依次从R服务库中调用用于实现步骤分解单元1041确定出的至少一个处理步骤中的每一个处理步骤的R服务。

在本发明实施例中，步骤分解单元1041可用于执行上述方法实施例中的步骤401，服务调用单元1042可用于执行上述方法实施例中的步骤402。

可选地，如图8所示，该大数据处理装置进一步包括：一个接口获取模块106；

接口获取模块106，用于获取至少一个开发语言接口，每一个开发语言接口用于供相对应的开发语言对R服务库中的R服务进行调用；

服务调用单元1042，用于依次针对至少一个处理步骤中的每一个处理步骤，从R服务库中确定用于实现处理步骤的目标R服务，通过预先设定的与目标R服务相对应的开发语言，利用由接口获取模块106获取的与开发语言相对应的开发语言接口，从R服务库中调用目标R服务。

在本发明实施例中，服务调用单元1042可用于执行上述方法实施例中的步骤501至503。

可选地，如图6-8中任意一所示，

数据获取模块102，用于向存储设备(比如存储设备20)中的分布式文件系统(比如分布式文件系统202)发送获取请求，获取请求用于通过分布式文件系统从存储设备中的数据库(比如数据库201)中获取大数据，并接收来自分布式文件系统的大数据。

如图9所示，本发明一个实施例提供一种大数据处理装置10，包括：至少一个存储器901和至少一个处理器902；

至少一个存储器901，用于存储机器可读程序；

至少一个处理器902，用于调用至少一个存储器801中存储的机器可读程序，执行上述方法实施例中各个步骤。

下面结合上述实施例提供的大数据处理装置和大数据处理系统，对本发明实施例提供的大数据处理方法作进一步详细说明，如图10所示，该方法可以包括以下步骤：

步骤1001：获取至少一个开发语言接口。

在本发明一个实施例中，获取R服务库提供的至少一个开发语言接口，每一个开发语言接口用于供相对应的开发语言从R服务库中调用R服务。对于R服务库没有提供的开发语言接口，可以通过相对应的开发语言对R服务库扩展相应的开发语言接口。比如，R服务库本身提供C++接口、C语言接口、Java接口、PHP接口、BASIC接口、C#接口和Python接口，其中，C++接口可供开发语言C++对R服务库中的R服务进行调用，C语言接口可供开发语言C语言对R服务库中的R服务进行调用，Java接口可供开发语言Java对R服务库中的R服务进行调用，PHP接口可供开发语言PHP对R服务库中的R服务进行调用，BASIC接口可供开发语言BASIC对R服务库中的R服务进行调用，C#接口可供开发语言C#对R服务库中的R服务进行调用，Python接口可供开发语言Python对R服务库中的R服务进行调用。对于R服务库没有提供对应开发语言Perl的接口，通过开发语言Perl为R服务库扩展Perl接口，使得可以通过开发语言Perl对R服务库中的R服务进行调用。

步骤1002：接收大数据处理请求。

在本发明一个实施例中，大数据处理装置接收来至用户终端或存储设备的大数据处理请求，其中，大数据处理请求用于请求对一项大数据进行处理。比如，用户在需要对一项大数据进行处理时，通过使用的用户终端向大数据处理装置发送大数据处理请求，或者，存储设备中设置有定时器，每经过一定时间向大数据处理装置发送一次数据处理请求。

步骤1003：根据大数据处理请求从存储设备获取大数据。

在本发明一个实施例中，在接收到大数据处理请求后，根据大数据处理请求从存储设备获取待处理的大数据。比如，存储设备包括根据大数据处理请求，向分布式文件系统发送获取请求，分布式文件系统根据接收都的获取请求，从其所管理的数据库中获取大数据，并将获取到的大数据发送给大数据处理装置。

步骤1004：根据大数据处理请求确定处理逻辑。

在本发明一个实施例中，在接收到大数据处理请求后，根据大数据处理请求确定对大数据进行处理的处理逻辑。比如，用户需要对大数据进行挖掘分析，则根据接收到的大数据处理请求，确定对大数据进行处理的处理逻辑为挖掘分析。

步骤1005：根据处理逻辑确定至少一个处理步骤。

在本发明一个实施例中，在确定对大数据进行处理的处理逻辑后，根据处理逻辑确定对大数据进行处理时所包括的至少一个处理步骤。比如，在确定对大数据进行处理的处理逻辑为挖掘分析后，根据处理逻辑确定对大数据进行挖掘分析需要依次经过3个处理步骤，3个处理步骤依次为处理步骤A、处理步骤B和处理步骤C。

步骤1006：依次确定用于实现每一个处理步骤的目标R服务。

在本发明一个实施例中，在确定对大数据进行处理的至少一个处理步骤后，针对至少一个处理步骤中的每一个处理步骤，从R服务库中确定可以实现该处理步骤的目标R服务。比如，从R服务中确定可以实现处理步骤A的R服务A作为处理步骤A的目标R服务，从R服务库中确定可以实现处理步骤B的R服务B作为处理步骤B的目标R服务，从R服务库中确定可以实现处理步骤C的R服务C作为处理步骤C的目标R服务。

步骤1007：确定每一个目标R服务对应的开发语言。

在本发明一个实施例中，根据用户的触发，确定每一个目标R服务对应的开发语言，即由用户指定对目标R服务进行调用的开发语言。或者，根据各个R服务对大数据进行处理的特点，预先对R服务库中各个R服务定义相对应的开发语言，进而根据预先定义的开发语言确定每一个目标R服务对应的开发语言。其中，根据R服务对大数据进行处理的特点，包括根据调用R服务对大数据进行处理时的调用速率、R服务对内存的占用情况以及是否需要跨平台操作等。比如，确定服务A对应的开发语言为C++，确定服务B的开发语言为C语言，确定服务C的开发语言为Java。

步骤1008：通过相对应的开发语言，利用与开发语言相对应的开发语言接口依次调用各个目标R服务。

在本发明一个实施例中，在确定各个目标R服务对应的开发语言之后，依次针对每一个目标R服务，通过与该目标R服务对应的开发语言，利用与该开发语言相对应的开发语言接口，从R服务库中调用该目标R服务。比如，首先通过开发语言C++，利用C++接口从R服务库中调用服务A，然后通过开发语言C语言，利用C语言接口从R服务库中调用服务B，最后通过开发语言Java，利用Java接口从R服务库中调用服务C。

步骤1009：依次通过各个目标R服务对大数据进行处理。

在本发明一个实施例中，在从R服务库中调用到各个目标R服务后，依次通过各个目标R服务对大数据进行处理，获取处理结果。比如，首先通过开发语言C++调用服务A对大数据进行处理，获得初级处理结果；然后通过开发语言C语言调用服务B对处级处理结果进行处理，获得中级处理结果；最后通过开发语言Java调用C服务对中级处理结果进行处理，获得对大数据进行处理的最终结果。

步骤1010：将对大数据进行处理的处理结果输出。

在本发明一个实施例中，在对大数据进行处理完成后，如果大数据处理请求是用户终端发送的，则将处理结果发送给用户终端，如果大数据处理请求是由存储设备发送的，则将处理结果存储到存储设备中，比如将处理结果存储到分布式文件系统中。

需要说明的是，图10所示实施例中各个步骤，是为了更加清楚地说明该大数据处理方法的实现过程，在实际业务实现过程中，各个步骤之间没有绝对的先后顺序，比如，步骤1004可以在步骤1003之前执行，或者可以与步骤1003同时执行。

本发明还提供了一种机器可读介质，存储用于使一机器执行如本文所述的大数据处理方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元可以通过机械方式或电气方式实现。例如，一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.大数据处理方法，其特征在于，包括：

接收大数据处理请求，所述大数据处理请求用于请求对一项大数据进行处理；

根据所述大数据处理请求，从所述大数据的存储设备(20)获取所述大数据；

根据所述大数据处理请求，确定对所述大数据进行处理的处理逻辑；

根据所述处理逻辑，从一个R服务库中调用至少一个R服务；

通过所述至少一个R服务对所述大数据进行处理，获取处理结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述处理逻辑，从一个R服务库中调用至少一个R服务，包括：

根据所述处理逻辑，确定对所述大数据进行处理时所包括的至少一个处理步骤；

从所述R服务库中依次调用用于实现所述至少一个处理步骤中的每一个处理步骤的R服务。

3.根据权利要求2所述的方法，其特征在于，

在所述从所述R服务库中依次调用用于实现所述至少一个处理步骤中的每一个处理步骤的R服务之前，进一步包括：

获取至少一个开发语言接口，每一个所述开发语言接口用于供相对应的开发语言对所述R服务库中的R服务进行调用；

所述从所述R服务库中依次调用用于实现所述至少一个处理步骤中的每一个处理步骤的R服务，包括：

依次针对所述至少一个处理步骤中的每一个处理步骤，执行如下操作：

从所述R服务库中确定用于实现所述处理步骤的目标R服务；

通过预先设定的与所述目标R服务相对应的开发语言，利用与所述开发语言相对应的开发语言接口，从所述R服务库中调用所述目标R服务。

4.根据权利要求1至3中任一所述的方法，其特征在于，所述从所述大数据的存储设备(20)获取所述大数据，包括：

向所述存储设备(20)中的分布式文件系统(202)发送获取请求，所述获取请求用于通过所述分布式文件系统(202)从所述存储设备(20)中的数据库(201)中获取所述大数据；

接收来自所述分布式文件系统(202)的所述大数据。

5.大数据处理装置(10)，其特征在于，包括：

一个请求接收模块(101)，用于接收大数据处理请求，所述大数据处理请求用于请求对一项大数据进行处理；

一个数据获取模块(102)，用于根据所述请求接收模块(101)接收到的所述大数据处理请求，从所述大数据的存储设备(20)获取所述大数据；

一个请求解析模块(103)，用于根据所述请求接收模块(101)接收到的所述大数据处理请求，确定对所述大数据进行处理的处理逻辑；

一个服务调用模块(104)，用于根据所述请求解析模块(103)确定的所述处理逻辑，从一个R服务库中调用至少一个R服务；

一个数据处理模块(105)，用于通过所述服务调用模块(104)调用的所述至少一个R服务对所述数据获取模块(102)获取到的所述大数据进行处理，获取处理结果。

6.根据权利要求5所述的装置，其特征在于，所述服务调用模块(104)包括：

一个步骤分解单元(1041)，用于根据所述处理逻辑，确定对所述大数据进行处理时所包括的至少一个处理步骤；

一个服务调用单元(1042)，用于依次从所述R服务库中调用用于实现所述步骤分解单元(1041)确定出的所述至少一个处理步骤中的每一个处理步骤的R服务。

7.根据权利要求6所述的装置，其特征在于，进一步包括：一个接口获取模块(106)，用于获取至少一个开发语言接口，每一个所述开发语言接口用于供相对应的开发语言对所述R服务库中的R服务进行调用；

所述服务调用单元(1042)，用于依次针对所述至少一个处理步骤中的每一个处理步骤，从所述R服务库中确定用于实现所述处理步骤的目标R服务，通过预先设定的与所述目标R服务相对应的开发语言，利用由所述接口获取模块(106)获取的与所述开发语言相对应的开发语言接口，从所述R服务库中调用所述目标R服务。

8.根据权利要求5至7中任一所述的装置，其特征在于，

所述数据获取模块(102)，用于向所述存储设备(20)中的分布式文件系统(202)发送获取请求，所述获取请求用于通过所述分布式文件系统(202)从所述存储设备(20)中的数据库(201)中获取所述大数据，并接收来自所述分布式文件系统的所述大数据。

9.大数据处理装置(10)，其特征在于，包括：至少一个存储器(801)和至少一个处理器(802)；

所述至少一个存储器(801)，用于存储机器可读程序；

所述至少一个处理器(802)，用于调用所述机器可读程序，执行上述权利要求1至4中任一所述的方法。

10.大数据处理系统，其特征在于，包括：一个存储设备(20)和一个权利要求5至9中任一所述的大数据处理装置(10)，其中，

所述存储设备(20)，用于存储待处理的所述大数据。

11.根据权利要求10所述的系统，其特征在于，所述存储设备(20)包括：

一个数据库(201)，用于存储所述大数据；

一个分布式文件系统(202)，用于根据来自所述大数据处理装置(10)的获取请求，从所述数据库(201)中获取所述大数据，并将所述大数据发送给所述大数据处理装置(10)。

12.机器可读介质，其特征在于，所述机器可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4中任一所述的方法。