CN109598289B

CN109598289B - 跨平台的数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN109598289B
Application number: CN201811368229.5A
Authority: CN
Inventors: 张钧波; 郑宇�; 刘洋; 刘志洁
Original assignee: Jingdong City (nanjing) Technology Co Ltd
Current assignee: Jingdong City (nanjing) Technology Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2020-02-07
Anticipated expiration: 2038-11-16
Also published as: CN109598289A; CN111191738A

Abstract

本公开提供一种跨平台的数据处理方法、装置、设备及可读存储介质。本公开提供的跨平台的数据处理方法、装置、设备及可读存储介质中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

Description

跨平台的数据处理方法、装置、设备及可读存储介质

技术领域

本公开涉及数据处理技术，尤其涉及一种跨平台的数据处理方法、装置、设备及可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着互联网技术的快速发展使得各种数据海量爆发，推进了人工智能技术的迅猛发展。

现有技术中，在对人工智能模型进行训练时，需要将训练所用到的数据集中到一个服务器上进行训练和学习；另外，若数据分散在各个企业、各个政府部门，则要把不同企业与政府机构的数据汇聚起来，再对人工智能模型进行训练。

将大量数据进行汇聚，易引发泄露用户隐私的风险。而将不同渠道获得的数据进行汇聚，则会引发会泄露企业与政府数据的安全隐患。因此，如何在不对数据进行汇聚的情况下，依据这些数据对人工智能模型进行训练，是本领域技术人员亟需解决的技术问题。

发明内容

本公开提供一种跨平台的数据处理方法、装置、设备及可读存储介质，以解决现有技术中对模型进行训练时，需要将训练数据汇聚到一台服务器中，导致容易泄露用户隐私的问题。

本公开的第一个方面是提供一种跨平台的数据处理方法，包括：

向多个平台发送数据标识，以使所述平台根据所述数据标识对应的数据，确定出目标属性信息；

接收多个所述平台发送的目标属性信息，根据所述目标属性信息确定最终属性；

根据所述最终属性向所述平台发送判断标签，以使发送所述最终属性的所述平台根据所述判断标签对所述数据进行分类；

接收发送所述最终属性的平台发送的数据分类结果，并将所述数据分类结果同步至全部的所述平台。

本公开的第二个方面是提供一种跨平台的数据处理方法，包括：

接收服务器发送的数据标识，根据所述数据标识对应的数据确定目标属性信息；

向所述服务器发送所述目标属性信息，以使所述服务器根据所述目标属性信息确定最终属性；

接收所述服务器发送的判断标签，根据所述判断标签确定所述目标属性信息是否包括所述最终属性，若是，则根据所述目标属性信息对所述数据进行分类；

向所述服务器发送数据分类结果，以使所述服务器将所述分类结果同步至全部的所述平台。

本公开的第三个方面是提供一种跨平台的数据处理装置，包括：

标识发送模块，用于向多个平台发送数据标识，以使所述平台根据所述数据标识对应的数据，确定出目标属性信息；

属性接收模块，用于接收多个所述平台发送的目标属性信息，根据所述目标属性信息确定最终属性；

标签发送模块，用于根据所述最终属性向所述平台发送判断标签，以使发送所述最终属性的所述平台根据所述判断标签对所述数据进行分类；

结果接收模块，用于接收发送所述最终属性的平台发送的数据分类结果，并将所述数据分类结果同步至全部的所述平台。

本公开的第四个方面是提供一种跨平台的数据处理装置，包括：

标识接收模块，用于接收服务器发送的数据标识，根据所述数据标识对应的数据确定目标属性信息；

属性发送模块，用于向所述服务器发送所述目标属性信息，以使所述服务器根据所述目标属性信息确定最终属性；

标签接收模块，用于接收所述服务器发送的判断标签，根据所述判断标签确定所述目标属性信息是否包括所述最终属性，若是，则分类模块根据所述目标属性信息对所述数据进行分类；

结果发送模块，用于向所述服务器发送数据分类结果，以使所述服务器将所述分类结果同步至全部的所述平台。

本公开的第五个方面是提供一种跨平台的数据处理设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上述第一方面所述的跨平台的数据处理方法。

本公开的第六个方面是提供一种跨平台的数据处理设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如上述第二方面所述的跨平台的数据处理方法。

本公开的第七个方面是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述第一方面所述的跨平台的数据处理方法。

本公开的第八个方面是提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如上述第二方面所述的跨平台的数据处理方法。

本公开提供的跨平台的数据处理方法、装置、设备及可读存储介质的技术效果是：

本公开提供的跨平台的数据处理方法、装置、设备及可读存储介质，包括向多个平台发送数据标识，以使平台根据数据标识对应的数据，确定出目标属性信息；接收多个平台发送的目标属性信息，根据目标属性信息确定最终属性；其中，最终属性是目标属性信息中包括的一个数据属性；根据最终属性向平台发送判断标签，以使发送最终属性的平台根据判断标签对数据进行分类；接收发送最终属性的平台发送的数据分类结果，并将数据分类结果同步至全部的平台。本公开提供的方法、装置、设备及可读存储介质中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

附图说明

图1为本发明一示例性实施例示出的跨平台的数据处理方法的流程图；

图2为本发明另一示例性实施例示出的跨平台的数据处理方法的流程图；

图3为本发明又一示例性实施例示出的跨平台的数据处理方法的流程图；

图4为本发明再一示例性实施例示出的跨平台的数据处理方法的流程图；

图5为本发明一示例性实施例示出的跨平台的数据处理装置的结构图；

图6为本发明另一示例性实施例示出的跨平台的数据处理装置的结构图；

图7为本发明又一示例性实施例示出的跨平台的数据处理装置的结构图；

图8为本发明再一示例性实施例示出的跨平台的数据处理装置的结构图；

图9为本发明一示例性实施例示出的跨平台的数据处理设备的结构图；

图10为本发明另一示例性实施例示出的跨平台的数据处理设备的结构图。

具体实施方式

在训练人工智能模型时，需要以大量的训练数据作为基础，将数据包括的属性以及该数据对应的分类结果输入模型，模型通过训练，获知哪些数据属性与哪个数据类别对应，从而再将未分类的数据输入模型时，模型能够输出分类结果，从而实现通过人工智能模型对数据进行分类的效果。

为了使模型训练的更为准确，需要将大量带有分类结果的训练数据输入模型。因此，需要将这些数据汇聚到用于训练模型的服务器中。另外，有些训练数据属性较为丰富，需要从多个数据平台获取，此时，就需要将这些数据的属性信息都汇聚到用于训练模型的服务器中。而这种汇聚训练数据的方式，将所有数据都汇集到一台服务器中，存在的数据风险较大，并且，还给服务器带来较大的计算负担。

本实施例提供的方法，通过多个数据平台基于已有的数据属性进行训练，再将训练结果汇聚到同一台服务器，再由服务器综合各个平台的训练结果确定最终的训练结果，并同步至各个数据平台，从而实现跨平台的数据处理方式，无需将训练数据汇集到一台服务器中。

图1为本发明一示例性实施例示出的跨平台的数据处理方法的流程图。

如图1所示，本实施例提供的跨平台的数据处理方法包括：

步骤101，向多个平台发送数据标识，以使平台根据数据标识对应的数据，确定出目标属性信息。

其中，本实施例提供的方法由服务器执行，服务器与多个平台通过网络连接，该网络可以是局域网，也可以是互联网。二者可以通过有线或无线的方式连接。平台中存储有用于训练模型的数据，这些数据可以是基于平台获取的，也可以是与平台连接的数据统计服务器获取的。例如，平台1与第一统计服务器连接，第一统计服务器能够统计用户数据。平台2与第二统计服务器连接，第二统计服务器能够统计用户数据。平台1、2分别与执行本实施例提供的方法的服务器连接。

具体的，不同平台中可以存储相同数据标识数据对应的不同属性信息，例如，用户数据1-100均包括属性A-Z，其中，属性A-N存储在平台1中，属性O-Z存储在平台2中。服务器可以先确定训练模型所需的数据，并确定数据属性存储的平台。可以由平台向服务器上报其存储的数据标识以及数据属性标识。

进一步的，服务器可以向存储有训练所需数据的平台发送数据标识。例如，训练所需数据是用户近30天的购物信息，数据标识可以包括用户的身份标识(ID)，如可以是用户的手机号。另外，由于本实施例提供的方法中，不同平台存储的数据属性不同，在对模型进行训练时，应保持数据完整，才能够使训练结果准确，因此，服务器还可以确定各个平台共有的训练所需数据，并向服务器发送共有的训练数据标识。例如，平台1存储有数据标识1-100，平台2存储有数据标识1-150，则数据标识1-100是二者共有的训练所需数据。

若在对模型进行训练时，只需要数据中的部分属性，则服务器向平台发送的数据标识中还可以包括属性标识，例如，数据1-100，属性A-T，则各个平台可以根据数据标识获取平台中存储的相应数据，并确定出数据的目标属性信息。

其中，平台在接收到服务器发送的数据标识后，可以获取相应的数据。数据标识中可以包括数据ID，则平台可以获取数据ID对应的训练数据。数据标识还可以包括属性标识，则平台可以根据属性标识获取训练数据对应的属性。由于平台中仅存储部分数据属性，因此，可以仅获取自身存储的那部分数据属性，并在这部分属性中确定目标属性。例如，数据标识中包括数据1-100，属性A-Z，则平台1可以获取数据1-100的属性A-N的具体信息，并根据这些数据的A-N的属性，确定出目标属性信息。

具体的，平台可以计算每个属性对应的信息增益或信息增益率或基尼指数等指标，并根据计算的指标确定出目标属性，再根据目标属性及其指标确定目标属性信息。这些指标用于评价属性对于数据分类的影响程度，若指标是信息增益或信息增益率或基尼指数的话，则指标越大，属性对于数据分类结果影响越大。若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。

在另一种实施方式中，指标还可以包括根据预先设定的公式进行确定的值，例如，可以预先设置计算指标的公式，再由根据平台内存储的数据计算每个属性对应的指标值。

进一步的，根据指标包括的具体参数，平台可以将指标最大或最小的属性作为目标属性，若根据预设公式确定指标，则还可以根据具体的公式确定哪个指标与目标属性对应，并将目标属性及其指标发送给服务器，例如平台确定的目标属性是C，则对于该平台当前存储的数据及其属性来说，C是影响数据分类结果的最重要的指标。每个平台都能够根据相同的方式确定出目标属性，再向服务器反馈其确定的目标属性信息。

步骤102，接收多个平台发送的目标属性信息，根据目标属性信息确定最终属性；其中，最终属性是目标属性信息中包括的一个数据属性。

服务器可以接收各个平台反馈的目标属性信息，目标属性信息中包括目标属性及其对应的指标。目标属性是平台通过计算自身存储的数据属性的指标，再根据指标确定得到的。

其中，由于平台间存储的数据属性不同，其确定出的目标属性信息也不尽相同，因此，服务器能够接收到多个不同的目标属性信息。服务器可以获取各个目标属性信息中包括的指标，通过比对指标，在目标属性中确定出最终属性。例如，平台1反馈的目标属性信息中包括属性C及其指标，平台2反馈的目标属性信息中包括属性Y及其指标，则服务器可以比对这两个指标，将指标最大或最小的目标属性确定为最终属性。若根据预设公式确定指标，则还可以根据具体的公式确定哪个指标与目标属性对应

具体的，若指标是信息增益或信息增益率或基尼指数的话，则指标更大的属性，对于数据分类结果的影响越大，若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。因此，服务器可以根据平台计算完成的指标，确定出最终属性。在这一过程中，不需要将各个平台内存储的数据都汇聚到服务器中，就能够确定出最终指标。并且，服务器与平台传输的数据内容是数据标识，无需传输数据的具体内容，能够避免在传输过程中造成的数据泄露。

在另一种实施方式中，指标还可以包括根据预先设定的公式进行确定的值，例如，可以预先设置计算指标的公式，再由平台根据平台内存储的数据计算每个属性对应的指标值。

步骤103，根据最终属性向平台发送判断标签，以使发送最终属性的平台根据判断标签对数据进行分类。

进一步的，服务器在目标属性中确定出最终属性后，可以将确定结果反馈至各个平台。具体可以向各个平台发送判断标签。

在一种实施方式中，服务器可以向平台发送其确定的目标属性是否为最终属性的标识，此时，判断标签中可以包括1或0，是或否这类标识。若平台确定的目标属性即是最终属性，则服务器向平台发送的判断标签中包括是或1，若平台确定的目标属性不是最终属性，则服务器向平台发送的判断标签中包括否或0。

在另一种实施方式中，服务器可以直接将最终属性发送到各个平台，此时，判断标签中包括最终属性。由各个平台自行比对确定的目标属性是否就是最终属性。

平台接收到判断标签后，可以确定出最终属性与自身确定的目标属性是否一致。若一致，则可以根据该目标属性，也就是最终属性对数据进行分类。例如服务器在目标属性C、目标属性Y中确定出最终属性是C，则平台1确定的目标属性就是最终属性，可以由平台1对数据进行分类。其中，若平台确定的目标属性与最终属性一致，这说明最终属性对应的数据内容存储在该平台中，因此，可以由该平台根据当前的最终属性对数据进行分类。例如，平台1根据数据的属性C，将数据1-50分为一类，将数据51-100分为一类。

具体的，还可以将最终属性作为节点，并根据节点将数据进行分类，从而构架决策树，可以认为决策树上具有枝杈，每个枝杈具有一类数据。

进一步的，发送最终属性的平台对数据进行分类后，还可以将分类结果反馈给服务器。由于平台已经根据最终属性对数据进行了分类，因此，可以保留分类结果并删除该属性，从而再后续确定目标属性时，不考虑已经确定的最终属性。

步骤104，接收发送最终属性的平台发送的数据分类结果，并将数据分类结果同步至全部的平台。

由于只有具有最终属性的平台才能够基于最终属性的数据内容对数据进行分类，因此，其他平台是不确定当前的分类结果的，还需要服务器将分类结果同步至其他的平台。

其中，服务器可以直接将数据0-50为一类，数据51-100为一类的分类结果发送至其他平台。各个平台以及服务器都可以根据这一分类结果构架决策树，从而使服务器以及各个平台内存储的决策树相同。

具体的，在步骤104之后，还可以继续对数据进行分类。例如，将数据分类为第一类、第二类后，还可以对第一类数据继续分成第一子类、第二子类，直到分类结果满足需求为止。

进一步的，本实施例提供的方法可以构架决策树的第一层，也可以是其它层。即可以根据全部的数据确定第一个最终属性，也可以是在其中一个数据分支中，确定最终属性。

本实施例提供的方法用于跨平台的对数据进行处理，该方法由设置有本实施例提供的方法的设备执行，该设备通常以硬件和/或软件的方式来实现。

本实施例提供的跨平台的数据处理方法，包括向多个平台发送数据标识，以使平台根据数据标识对应的数据，确定出目标属性信息；接收多个平台发送的目标属性信息，根据目标属性信息确定最终属性；其中，最终属性是目标属性信息中包括的一个数据属性；根据最终属性向平台发送判断标签，以使发送最终属性的平台根据判断标签对数据进行分类；接收发送最终属性的平台发送的数据分类结果，并将数据分类结果同步至全部的平台。本实施例提供的方法中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

图2为本发明另一示例性实施例示出的跨平台的数据处理方法的流程图。

如图2所示，本实施例提供的跨平台的数据处理方法包括：

步骤201，创建公钥、私钥，向平台发送公钥。

其中，服务器可以创建公钥、私钥。公钥(Public Key)与私钥(Private Key)是通过一种算法得到的一个密钥对，公钥是密钥对中公开的部分，私钥则是非公开的部分。公钥通常用于加密会话密钥、验证数字签名，或加密可以用相应的私钥解密的数据。通过这种算法得到的密钥对能保证在世界范围内是唯一的。使用这个密钥对的时候，如果用其中一个密钥加密一段数据，必须用另一个密钥解密。比如用公钥加密数据就必须用私钥解密，如果用私钥加密也必须用公钥解密，否则解密将不会成功。

可以将公钥发送给各个平台，服务器可以使用私钥对向平台发送的信息进行签名，平台可以通过公钥对签名信息进行校验。例如，服务器向平台发送的信息是M，则可以根据M生产哈希字符串，再使用私钥对哈希字符串进行签名得到签名信息，并将M以及签名信息一同发送到平台。平台接收到服务器发送的信息后，可以使用私钥对签名进行解密得到第一字符串，再根据M生产哈希字符串，比对哈希字符串与第一字符串是否相同，若相同，则认为这一消息合法，验证通过。

步骤202，向多个平台发送数据标识，以使平台根据数据标识对应的数据，确定出目标属性信息。

其中，发送的数据标识可以用私钥进行签名，平台用公钥对签名信息进行校验。

步骤203，接收多个平台发送的目标属性信息。

其中，平台向服务器发送的目标属性信息可以用公钥进行签名，服务器可以用私钥对签名信息进行校验。

步骤202、203与步骤101、102的具体原理和实现方式类似，此处不再赘述。

步骤204，根据指标在目标属性中确定最终属性。

本实施例提供的方法中，平台向服务器发送的目标属性信息包括目标属性及其对应的指标。指标是每个属性对应的信息增益或信息增益率或基尼指数或错误率或误差等参数，指标用于评价属性对于数据分类的影响程度，若指标是信息增益或信息增益率或基尼指数的话，则指标越大，则属性对于数据分类结果影响越大。若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。

由于每个平台都可以根据自身存储的数据属性确定出目标属性，并将目标属性及其指标发送给服务器，因此，服务器需要在这些目标属性中确定出最终属性。而指标是用于评价属性对于数据分类结果的影响程度，因此，可以根据指标在各个目标属性中确定最终属性。若指标是信息增益或信息增益率或基尼指数的话，则指标越大，属性对数据分类结果的影响越大，则可以将指标最大的目标属性确定为最终属性。若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大，因此，可以将指标最小的目标属性确定为最终属性。若根据预设公式确定指标，则还可以根据具体的公式确定哪个指标与目标属性对应。

对于目标属性来说，其对应的指标可以包括目标属性的信息增益、信息增益率、基尼指数、错误率、误差中的一种或多种。

步骤205，根据最终属性向平台发送判断标签，以使发送最终属性的平台根据判断标签对数据进行分类。

其中，服务器发送的判断标签可以用私钥进行签名。

步骤206，接收发送最终属性的平台发送的数据分类结果，并将数据分类结果同步至全部的平台。

其中，平台向服务器发送的数据分类结果可以用公钥进行签名，服务器向平台同步的分类结果可以用私钥进行签名。

步骤205、206与步骤103、104的具体原理和实现方式类似，此处不再赘述。

步骤207，接收平台发送的结点信息，并根据节点信息中止计算。

其中，平台向服务器发送的结点信息可以用公钥进行签名。

服务器还可以接收平台发送的结点信息，结点信息是指当前的数据不需要进一步的进行分类。可以在平台侧设置建立结点的规则，例如，当数据分类的层数达到预设层数，则可以建立结点。其中，将数据(第0层)分为N份后，这N份数据可以是认为是第1层，将N份数据中的数据再次进行划分，则得到第2层，以此类推。另外，还可以在分类数据中，数据量小于预设值时，建立结点，不再继续划分。例如，当数据量小于30个时，可以停止划分。

平台可以在向服务器反馈分类结果后，确定是否符合建立结点的规则，若符合，则向服务器发送结点信息。平台还可以在对数据分类得到分类结果后，确定是否符合建立结点的规则，若是，则可以将分类结果与结点信息一同发送给服务器。

可以将结点信息看作是叶子结点，在决策树上构建枝杈，若枝杈上设置有叶子结点，则枝杈不再对枝杈继续分叉，相当于不对枝杈的数据进行再次划分。因此，当服务器接收到结点信息后，停止当前的数据分类计算。

在步骤206或步骤207之后，还可以继续执行步骤202。步骤206为同步数据的分类结果，例如数据分为第一类和第二类，在此之后，服务器可以继续向平台发送数据标识，以使平台根据新的数据标识继续进行分类。该数据标识可以是第一类数据的标识，则平台根据对第一类数据进行再次分类。步骤207为接收结点信息，即当前数据不再继续划分，此后，服务器可以再次向平台发送数据标识，以使平台对其他数据进行分类。例如，在对第一类数据进行再次划分完成后，服务器接收到结点信息，则可以向平台发送第二类数据的标识，以使平台对第二类数据进行再次划分，而不对第一类数据的子类进行再次划分。

本实施例提供的方法中，服务器向平台发送的数据标识对应的数据是当前确定的一类数据，例如，数据未划分时，则所有的训练数据是一个大类，将其分为第一类、第二类后，则得到两类数据，第一类数据又可以分为几个子类。本实施例提供的方法，是对一类数据进行多次划分，从而建立决策树，使得决策树设置有节点，用于对数据进行划分。

图3为本发明又一示例性实施例示出的跨平台的数据处理方法的流程图。

如图3所示，本实施例提供的跨平台的数据处理方法包括：

步骤301，接收服务器发送的数据标识，根据数据标识对应的数据确定目标属性信息。

其中，本实施例提供的方法由平台执行，平台与服务器通过网络连接，该网络可以是局域网，也可以是互联网，该服务器可以与多个执行本实施例提供的方法的平台连接。二者可以通过有线或无线的方式连接。平台中存储有用于训练模型的数据，这些数据可以是基于平台获取的，也可以是与平台连接的数据统计服务器获取的。例如，平台1与第一统计服务器连接，第一统计服务器能够统计用户数据。平台2与第二统计服务器连接，第二统计服务器能够统计用户数据。执行本实施例提供的方法的平台1、2分别与服务器连接。

进一步的，平台可以接收服务器发送的训练所需数据的标识。例如，训练所需数据是用户近30天的购物信息，数据标识可以包括用户的身份标识(ID)，如可以是用户的手机号。另外，由于本实施例提供的方法中，不同平台存储的数据属性不同，在对模型进行训练时，应保持数据完整，才能够使训练结果准确，因此，服务器还可以确定各个平台共有的训练所需数据，并向平台发送共有的训练数据的标识，从而使平台接收到这些数据标识。例如，平台1存储有数据标识1-100，平台2存储有数据标识1-150，则数据标识1-100是二者共有的训练所需数据。

若在对模型进行训练时，只需要数据中的部分属性，则服务器向平台发送的数据标识中还可以包括属性标识，例如，数据1-100，属性A-T，此时，平台可以根据数据标识获取存储的相应数据，并确定出数据的目标属性信息。

其中，在接收到服务器发送的数据标识后，平台可以获取相应的数据。数据标识中可以包括数据ID，则平台可以获取数据ID对应的训练数据。数据标识还可以包括属性标识，则平台可以根据属性标识获取训练数据对应的属性。由于平台中仅存储部分数据属性，因此，可以仅获取自身存储的那部分数据属性，并在这部分属性中确定目标属性。例如，数据标识中包括数据1-100，属性A-Z，则平台1可以获取数据1-100的属性A-N的具体信息，并根据这些数据的A-N的属性，确定出目标属性信息。

具体的，平台可以计算每个属性对应的信息增益或信息增益率或基尼指数或错误率或误差等指标，并根据计算的指标确定出目标属性，再根据目标属性及其指标确定目标属性信息。这些指标用于评价属性对于数据分类的影响程度，若指标是信息增益或信息增益率或基尼指数的话，则指标越大，则属性对于数据分类结果影响越大；若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。

在另一种实施方式中，指标还可以包括根据预先设定的公式进行确定的值，例如，可以预先设置计算指标的公式，再根据平台内存储的数据计算每个属性对应的指标值。

进一步的，平台可以将指标最大或最小的属性作为目标属性，并将目标属性及其指标发送给服务器，例如平台确定的目标属性是C，则对于该平台当前存储的数据及其属性来说，C是影响数据分类结果的最重要的指标。每个平台都能够根据相同的方式确定出目标属性，再向服务器发送确定的目标属性信息。若根据预设公式确定指标，则还可以根据具体的公式确定哪个指标与目标属性对应

步骤302，向服务器发送目标属性信息，以使服务器根据目标属性信息确定最终属性。

每个平台都可以向服务器发送确定的目标属性信息，目标属性信息中包括目标属性及其对应的指标。目标属性是平台通过计算自身存储的数据属性的指标，再根据指标确定得到的。

其中，由于平台间存储的数据属性不同，其确定出的目标属性信息也不尽相同，因此，服务器能够接收到多个不同的目标属性信息。服务器可以获取各个目标属性信息中包括的指标，通过比对指标，在目标属性中确定出最终属性。例如，平台1反馈的目标属性信息中包括属性C及其指标，平台2反馈的目标属性信息中包括属性Y及其指标，则服务器可以比对这两个指标，将指标更大的目标属性确定为最终属性。

具体的，若指标是信息增益或信息增益率或基尼指数的话，则指标越大指标更大的属性，对于数据分类结果的影响越大，若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。因此，服务器可以根据平台计算完成的指标，确定出最终属性。在这一过程中，不需要将各个平台内存储的数据都汇聚到服务器中，就能够确定出最终指标。并且，服务器与平台传输的数据内容是数据标识，无需传输数据的具体内容，能够避免在传输过程中造成的数据泄露。

步骤303，接收服务器发送的判断标签，根据判断标签确定目标属性信息是否包括最终属性，若是，则根据目标属性信息对数据进行分类。

进一步的，服务器在目标属性中确定出最终属性后，可以将确定结果反馈至各个平台。具体可以向各个平台发送判断标签，以使平台接收到判断标签。

在一种实施方式中，服务器可以向平台发送其确定的目标属性是否为最终属性的标识，此时，判断标签中可以包括1或0，是或否这类标识。若平台确定的目标属性即是最终属性，则服务器向平台发送的判断标签中包括是或1，若平台确定的目标属性不是最终属性，则服务器向平台发送的判断标签中包括否或0。在这种实施方式中，平台接收到判断标签后，可以识别判断标签中包括的标识，根据标识确定自身确定的目标属性是否最终属性。

在另一种实施方式中，服务器可以直接将最终属性发送到各个平台，此时，判断标签中包括最终属性。在这种实施方式中，平台接收到判断标签后，可以读取标签中包括的最终属性，并与确定的目标属性进行比对，确定二者是否一致。

平台接收到判断标签后，可以确定出最终属性与自身确定的目标属性是否一致。若一致，则可以根据该目标属性，也就是最终属性对数据进行分类。例如服务器在目标属性C、目标属性Y中确定出最终属性是C，则平台1确定的目标属性就是最终属性，可以由平台1对数据进行分类。其中，若平台确定的目标属性与最终属性一致，这说明最终属性对应的数据内容存储在该平台中，因此，可以由该平台根据当前的最终属性对数据进行分类。例如，平台1根据数据的属性C，将数据1-50分为一类，将数据51-100分为一类。例如，属性C是用户性别，则可以根据用户性别对数据进行分类，可以将男性表示为1，女性表示为0，那么可以将属性C是1的数据分为一类，例如数据1-50的属性C为1，可以将属性C是0的数据分为一类，例如数据51-100的属性C为0。

具体将数据分为几类与属性的值有关，例如，若最终属性是年龄，则年龄可以划分为三个阶段，如老年、中年、青年，此时，可以按照这三个年龄阶段将数据分为三类。

可以将最终属性作为节点，并根据节点将数据进行分类，从而构架决策树，可以认为决策树上具有枝杈，每个枝杈具有一类数据。

进一步的，发送最终属性的平台对数据进行分类后，还可以将分类结果反馈给服务器。由于平台已经根据最终属性对数据尽心了分类，因此，可以保留分类结果并删除该属性，从而再后续确定目标属性时，不考虑已经确定的最终属性。

步骤304，向服务器发送数据分类结果，以使服务器将分类结果同步至全部的平台。

具体的，在步骤304之后，还可以继续对数据进行分类。例如，将数据分类为第一类、第二类后，还可以对第一类数据继续分成第一子类、第二子类，直到分类结果满足需求为止。

本实施例提供的跨平台的数据处理方法，包括接收服务器发送的数据标识，根据数据标识对应的数据确定目标属性信息；向服务器发送目标属性信息，以使服务器根据目标属性信息确定最终属性；接收服务器发送的判断标签，根据判断标签确定目标属性信息是否包括最终属性，若是，则根据目标属性信息对数据进行分类；向服务器发送数据分类结果，以使服务器将分类结果同步至全部的平台。本实施例提供的方法中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

图4为本发明再一示例性实施例示出的跨平台的数据处理方法的流程图。

如图4所示，本实施例提供的跨平台的数据处理方法包括：

步骤401，接收服务器发送的公钥，根据公钥对服务器发送的信息进行校验。

服务器可以将公钥发送给各个平台，平台接收到公钥后，可以存储该公钥，服务器可以使用私钥对向平台发送的信息进行签名，平台可以通过公钥对签名信息进行校验。例如，服务器向平台发送的信息是M，则可以根据M生产哈希字符串，再使用私钥对哈希字符串进行签名得到签名信息，并将M以及签名信息一同发送到平台。平台接收到服务器发送的信息后，可以使用私钥对签名进行解密得到第一字符串，再根据M生产哈希字符串，比对哈希字符串与第一字符串是否相同，若相同，则认为这一消息合法，验证通过。相似的，平台也可以使用公钥对向服务器发送的信息进行签名，由服务器使用私钥对这一签名信息进行校验。

步骤402，接收服务器发送的数据标识。

其中，接收的数据标识可以包括服务器用私钥进行签名得到的签名信息，平台用公钥对签名信息进行校验。

步骤402与步骤101中接收数据标识的具体原理和实现方式类似，此处不再赘述。

步骤403，确定数据标识对应的数据中各个属性的指标，根据指标在各个属性中确定目标属性。

对于一个平台来说，其存储有数据标识对应的数据的一部分属性，可以确定这些属性的指标。例如平台1存储有数据的A-N的属性，则可以计算A-N的指标，具体可以计算每个属性的信息增益、信息增益率、基尼指数、错误率、误差等指标参数。

这些指标用于评价属性对于数据分类的影响程度，若指标是信息增益或信息增益率或基尼指数的话，则指标越大，属性对于数据分类结果影响越大。若指标是错误率、误差，则指标越小，属性对于数据分类结果的影响越大。因此，可以将指标最大或最小的属性确定为目标属性。每个平台都可以确定出一个目标属性。

步骤404，根据目标属性及其对应的指标确定目标属性信息。

其中，可以将目标属性与对应的指标进行拼接，得到目标属性信息。

步骤405，向服务器发送目标属性信息，以使服务器根据目标属性信息确定最终属性。

步骤406，接收服务器发送的判断标签，根据判断标签确定目标属性信息是否包括最终属性。

其中，服务器发送的判断标签可以用私钥进行签名。

步骤405-406与步骤302-303的具体原理和实现方式类似，此处不再赘述。

若是，则执行步骤407，否则，执行步骤409。

步骤407，根据目标属性信息对数据进行分类。

步骤408，向服务器发送数据分类结果，以使服务器将分类结果同步至全部的平台。

步骤407与步骤303-304的具体原理和实现方式类似，此处不再赘述。

步骤409，接收服务器发送的数据分类结果。

其中，服务器可以用私钥对数据分类结果进行签名，再将签名信息以及数据分类结果一同发送给平台。

若平台确定的目标属性与最终属性一致，则平台可以根据该属性对应的数据内容，对数据标识对应的数据进行分类，并向服务器发送分类结果。若平台确定的目标属性与最终属性不一致，则平台等待服务器同步的分类结果。例如，平台1根据属性C将数据分为1-50为一类，51-100为一类，则平台2也能够接收服务器发送的这一分类结果。此时，平台2可以基于这一分类结果对存储的数据进行分类，即数据1-50为一类，51-100为一类，其拥有的数据属性是O-Z。

具体的，平台可以根据分类结果构建决策树，可以将1-50这一类构建为左子树，将51-100这一类构建为右子树。对于平台1来说，左子树为数据1-50，数据属性为A-B、D-N(可以删除已经作为过分类基础的属性)，右子树为数据51-100，数据属性是A-B、D-N。对于平台2来说，左子树为数据1-50，数据属性为O-Z，右子树为数据51-100，数据属性为O-Z。

进一步的，本实施例提供的方法，通过分类结果同步的方式，可以在不同平台中构架相同的决策树，从而在不需要具体的训练数据内容进行传输的情况下，多个平台能够同时对模型进行训练并汇聚训练结果。

步骤410，判断是否符合预设的结束分类条件，若是，则向服务器发送结点信息，以使服务器根据节点信息中止计算。

其中，平台向服务器发送的结点信息可以用公钥进行签名。

图5为本发明一示例性实施例示出的跨平台的数据处理装置的结构图。

如图5所示，本实施例提供的跨平台的数据处理装置，包括：

标识发送模块51，用于向多个平台发送数据标识，以使所述平台根据所述数据标识对应的数据，确定出目标属性信息；

属性接收模块52，用于接收多个所述平台发送的目标属性信息，根据所述目标属性信息确定最终属性；

标签发送模块53，用于根据所述最终属性向所述平台发送判断标签，以使发送所述最终属性的所述平台根据所述判断标签对所述数据进行分类；

结果接收模块54，用于接收发送所述最终属性的平台发送的数据分类结果，并将所述数据分类结果同步至全部的所述平台。

本实施例提供的跨平台的数据处理装置，包括标识发送模块，用于向多个平台发送数据标识，以使平台根据数据标识对应的数据，确定出目标属性信息；属性接收模块，用于接收多个平台发送的目标属性信息，根据目标属性信息确定最终属性；标签发送模块，用于根据最终属性向平台发送判断标签，以使发送最终属性的平台根据判断标签对数据进行分类；结果接收模块，用于接收发送最终属性的平台发送的数据分类结果，并将数据分类结果同步至全部的平台。本实施例提供的装置中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

本实施例提供的跨平台的数据处理装置的具体原理和实现方式均与图1所示的实施例类似，此处不再赘述。

图6为本发明另一示例性实施例示出的跨平台的数据处理装置的结构图。

如图6所示，在图5所述实施例的基础上，本实施例提供的跨平台的数据处理装置，所述目标属性信息包括目标属性及其对应的指标；

所述属性接收模块52具体用于：

根据所述指标在所述目标属性中确定所述最终属性。

所述指标包括以下是至少一种信息：

所述目标属性的信息增益、所述目标属性信息增益率、所述目标属性基尼指数、所述目标属性的误差、所述目标属性的错误率。

所述装置，还包括：

结点接收模块55，用于接收所述平台发送的结点信息，并根据所述结点信息中止计算。

所述结点接收模块55接收所述平台发送的结点信息，或所述结果接收模块54将所述数据分类结果同步至全部的所述平台之后，所述标识发送模块51还用于继续执行向多个平台发送数据标识的步骤。

所述装置还包括创建模块56，用于：

创建公钥、私钥，向所述平台发送所述公钥；

使用所述私钥对向所述平台发送的信息进行签名得到签名信息，以使所述平台使用所述公钥对所述签名信息进行校验。

本实施例提供的跨平台的数据处理装置的具体原理和实现方式均与图2所示的实施例类似，此处不再赘述。

图7为本发明又一示例性实施例示出的跨平台的数据处理装置的结构图。

如图7所示，本实施例提供的跨平台的数据处理装置，包括：

标识接收模块71，用于接收服务器发送的数据标识，根据所述数据标识对应的数据确定目标属性信息；

属性发送模块72，用于向所述服务器发送所述目标属性信息，以使所述服务器根据所述目标属性信息确定最终属性；

标签接收模块73，用于接收所述服务器发送的判断标签，根据所述判断标签确定所述目标属性信息是否包括所述最终属性，若是，则分类模块74根据所述目标属性信息对所述数据进行分类；

结果发送模块75，用于向所述服务器发送数据分类结果，以使所述服务器将所述分类结果同步至全部的所述平台。

本实施例提供的跨平台的数据处理装置，包括标识接收模块，用于接收服务器发送的数据标识，根据数据标识对应的数据确定目标属性信息；属性发送模块，用于向服务器发送目标属性信息，以使服务器根据目标属性信息确定最终属性；标签接收模块，用于接收服务器发送的判断标签，根据判断标签确定目标属性信息是否包括最终属性，若是，则分类模块根据目标属性信息对数据进行分类；结果发送模块，用于向服务器发送数据分类结果，以使服务器将分类结果同步至全部的平台。本实施例提供的装置中，在各个平台中根据数据进行模型训练，再将训练结果汇聚到服务器，由服务器确定最终的训练结果，并将训练结果同步到其他的平台，能够在不汇聚具体数据内容、不传输具体数据内容的前提下，实现模型训练，并且能够同步训练完成的模型，从而解决现有技术的模型训练中存在的数据聚集、数据传输引发数据泄露的问题。

本实施例提供的跨平台的数据处理装置的具体原理和实现方式均与图3所示的实施例类似，此处不再赘述。

图8为本发明再一示例性实施例示出的跨平台的数据处理装置的结构图。

如图8所示，在图7所述实施例的基础上，本实施例提供的跨平台的数据处理装置，若所述目标属性信息不包括所述最终属性，则所述装置还包括：

结果接收模块76，用于接收所述服务器发送的数据分类结果。

所述标识接收模块71具体用于：

确定所述数据标识对应的数据中各个属性的指标，根据所述指标在各个所述属性中确定目标属性；

根据所述目标属性及其对应的所述指标确定所述目标属性信息。

所述指标包括以下是至少一种信息：

所述目标属性的信息增益、所述目标属性信息增益率、所述目标属性基尼指数。

所述装置，还包括判断模块77，用于：

判断是否符合预设的结束分类条件，若是，则向所述服务器发送结点信息，以使所述服务器根据所述结点信息中止计算。

所述装置还包括：

秘钥接收模块78，用于接收所述服务器发送的公钥，根据所述公钥对所述服务器发送的信息进行校验。

本实施例提供的跨平台的数据处理装置的具体原理和实现方式均与图4所示的实施例类似，此处不再赘述。

图9为本发明一示例性实施例示出的跨平台的数据处理设备的结构图。

如图9所示，本实施例提供的跨平台的数据处理设备包括：

存储器91；

处理器92；以及

计算机程序；

其中，所述计算机程序存储在所述存储器91中，并配置为由所述处理器92执行以实现如图1-2所示的任一种跨平台的数据处理方法。

如图10所示，本实施例提供的跨平台的数据处理设备包括：

存储器1001；

处理器1002；以及

计算机程序；

其中，所述计算机程序存储在所述存储器1001中，并配置为由所述处理器1002执行以实现如图3-4所示的任一种跨平台的数据处理方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如图1-2所示的任一种跨平台的数据处理方法。

所述计算机程序被处理器执行以实现如图3-4所示的任一种跨平台的数据处理方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种跨平台的数据处理方法，其特征在于，包括：

接收发送所述最终属性的平台发送的数据分类结果，并将所述数据分类结果同步至全部的所述平台；

其中，所述目标属性信息包括目标属性及其对应的指标；

所述根据所述目标属性信息确定最终属性，包括：

根据所述指标在所述目标属性中确定所述最终属性。

2.根据权利要求1所述的方法，其特征在于，所述指标包括以下至少一种信息：

所述目标属性的信息增益、所述目标属性信息增益率、所述目标属性基尼指数、所述目标属性的误差、所述目标属性的错误率、所述平台根据预设指标公式确定的指标值。

3.根据权利要求1所述的方法，其特征在于，还包括：

接收所述平台发送的结点信息，并根据所述结点信息中止计算。

4.根据权利要求3所述的方法，其特征在于，所述接收所述平台发送的结点信息，或将所述数据分类结果同步至全部的所述平台之后，还包括：

继续执行向多个平台发送数据标识的步骤。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

创建公钥、私钥，向所述平台发送所述公钥；

6.一种跨平台的数据处理方法，其特征在于，包括：

向所述服务器发送数据分类结果，以使所述服务器将所述分类结果同步至全部的所述平台；

其中，若所述目标属性信息不包括所述最终属性，则所述方法还包括：

接收所述服务器发送的数据分类结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述数据标识对应的数据确定目标属性信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述指标包括以下是至少一种信息：

信息增益、信息增益率、基尼指数、误差、错误率、根据预设公式确定的指标值。

9.根据权利要求6所述的方法，其特征在于，还包括：

10.根据权利要求6所述的方法，其特征在于，还包括：

接收所述服务器发送的公钥，根据所述公钥对所述服务器发送的信息进行校验。

11.一种跨平台的数据处理装置，其特征在于，包括：

结果接收模块，用于接收发送所述最终属性的平台发送的数据分类结果，并将所述数据分类结果同步至全部的所述平台；

其中，所述目标属性信息包括目标属性及其对应的指标；

所述属性接收模块具体用于：

根据所述指标在所述目标属性中确定所述最终属性。

12.一种跨平台的数据处理装置，其特征在于，包括：

结果发送模块，用于向所述服务器发送数据分类结果，以使所述服务器将所述分类结果同步至全部的所述平台；

其中，若所述目标属性信息不包括所述最终属性，则所述装置还包括：

结果接收模块，用于接收所述服务器发送的数据分类结果。

13.一种跨平台的数据处理设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求1-5任一种所述的方法。

14.一种跨平台的数据处理设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并配置为由所述处理器执行以实现如权利要求6-10任一种所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-5任一种所述的方法。

16.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求6-10任一种所述的方法。