CN111666576A

CN111666576A - 数据处理模型生成方法和装置、数据处理方法和装置

Info

Publication number: CN111666576A
Application number: CN202010356458.6A
Authority: CN
Inventors: 周学立; 朱恩东; 张茜; 蔡满天
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-15
Anticipated expiration: 2040-04-29
Also published as: WO2021218167A1; CN111666576B

Abstract

本发明公开了一种数据处理模型生成方法和装置、数据处理方法和装置。在数据处理模型生成阶段，通过对确定的第一ID信息和第二ID信息进行交集处理，得到包含交集ID的引擎计算结果；根据与交集ID对应的第一ID信息均对应服务数据和支持数据生成交集训练集，并在联邦成功状态下，根据交集训练集进行联邦学习训练，生成联邦数据处理模型。在数据处理阶段，在联邦成功时，将待处理ID信息输入至联邦学习模型中进行联邦预测，生成联邦预测结果，在保证数据传输安全性的同时解决了数据孤岛问题。另外还在数据处理模型生成阶段生成一本地数据处理模型，通过将待处理ID信息输入至本地数据处理模型，生成本地预测结果，提高了数据预测结果的准确性和全面性。本发明还涉及人工智能技术及区块链技术。

Description

数据处理模型生成方法和装置、数据处理方法和装置

技术领域

本发明涉及数据处理领域，尤其涉及一种数据处理模型生成方法和装置、数据处理方法和装置。

背景技术

随着大数据时代的来临，数据处理技术发展也越来越迅速，例如：推荐系统、语音助手或者精准广告系统等应用，如此，对应用中的用户数据的处理变得尤为重要。

目前，在对应用中的用户数据进行处理的过程中，往往需要有充足的样本数据作为数据处理过程的支撑，但是，样本数据存储的位置是不确定的，比如，同一个用户的数据往往存储在各个部门中，而每个部门为了保护自身存储的样本数据的隐私安全，不会将数据样本进行公开。如此，在对应用中的用户数据进行处理时，往往会出现样本数据不全的问题，进而导致数据孤岛问题，且无法生成准确的需求信息。

发明内容

本发明实施例提供一种数据处理模型生成方法和装置以及数据处理方法和装置，以解决数据孤岛问题。

一种数据处理模型生成方法，包括：

通过数据支持终端获取服务终端发送的包含服务分区的模型训练请求，确定所述数据支持终端中与所述服务分区对应的数据分区，通过所述数据支持终端根据所述数据分区确定第二ID信息；其中，所述服务分区中包含服务数据以及与其对应的第一ID信息，所述数据分区中包含支持数据以及与其对应的第二ID信息；

在通过所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后，指示所述数据支持终端获取所述服务终端发送的包含交集ID的引擎计算结果，每一个引擎计算结果为交集ID的第一ID信息均对应一个与其存在交集的第二ID信息；

在联邦成功时，通过所述数据支持终端和所述服务终端，根据引擎计算结果为所述交集ID的所述第一ID信息以及与所述交集ID均对应的所述服务数据和所述支持数据，生成交集训练集；

通过所述服务终端和所述数据支持终端根据所述交集训练集进行联邦学习训练，得到联邦数据处理模型，所述联邦数据处理模型用于在联邦成功时，接收输入的待处理ID信息之后，输出联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据。

一种数据处理模型生成装置，其特征在于，包括：

信息确定模块，用于通过数据支持终端获取服务终端发送的包含服务分区的模型训练请求，确定所述数据支持终端中与所述服务分区对应的数据分区，通过所述数据支持终端根据所述数据分区确定第二ID信息；其中，所述服务分区中包含服务数据以及与其对应的第一ID信息，所述数据分区中包含支持数据以及与其对应的第二ID信息；

第一引擎计算模块，用于在通过所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后，所述数据支持终端获取所述服务终端发送的包含交集ID的引擎计算结果，每一个引擎计算结果为交集ID的第一ID信息均对应一个与其存在交集的第二ID信息；

交集训练集生成模块，用于在联邦成功时，通过所述数据支持终端和所述服务终端根据引擎计算结果为所述交集ID的所述第一ID信息以及与所述交集ID均对应的所述服务数据和所述支持数据，生成交集训练集；

联邦学习模块，用于通过所述服务终端和所述数据支持终端根据所述交集训练集进行联邦学习训练，得到联邦数据处理模型，所述联邦数据处理模型用于在联邦成功时，接收输入的待处理ID信息之后，输出联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据。

一种数据处理方法，包括：

在数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求，检测当前是否处于联邦成功状态；

在当前处于联邦成功状态时，将所述待处理ID信息输入至预设的联邦数据处理模型中，获取所述预设的联邦数据处理模型输出的联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据；所述预设的联邦数据处理模型根据上述数据处理模型生成方法生成。

一种数据处理装置，包括：

联邦状态检测模块，用于在数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求时，检测当前是否处于联邦成功状态；

联邦预测模块，用于在当前处于联邦成功状态时，将所述待处理ID信息输入至预设的联邦数据处理模型中，获取所述预设的联邦数据处理模型输出的联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据；所述预设的联邦数据处理模型根据上述数据处理模型生成方法生成。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据处理模型生成方法，或所述处理器执行所述计算机程序时实现上述数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理模型生成方法，或所述计算机程序被处理器执行时实现上述数据处理方法。

上述数据处理模型生成方法、装置、计算机设备及存储介质，通过对服务终端和数据支持终端中的ID信息进行交集处理，将交集ID信息对应的服务数据和支持数据生成交集数据集，能够在确保服务终端和数据支持终端的数据的安全性的前提，找到双方共同拥有的ID信息，并在双方ID信息不进行泄露的情况下，协同作业完成了联邦模型的训练和联邦预测建设，使得联邦预测结果与双方数据透明训练的模型得到的预测结果极大的接近，从而解决了数据孤岛问题。并且采用交集数据集进行联邦学习训练，在数据处理上提升了效率。最后采用训练得到的联邦数据处理模型进行联邦预测工作，提高整个系统完整性，并且在多方数据支持下，预测结果会更加准确。

上述数据处理方法、装置、计算机设备及存储介质，通过在当前状态处于联邦成功状态时，采用联邦数据处理模型进行预测，能够在保证数据安全前提下，解决了数据孤岛问题，还提高了数据预测的准确性。在当前状态处于联邦中断状态时，采用本地数据处理模型进行预测，使得本地数据处理模型预测方法作为应急方案，保证系统任务能够完成的前提下，提升了系统的全面性，降低了由于通信失败或者通信中断带来的风险。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中数据处理模型生成方法和数据处理方法的一应用环境示意图；

图2是本发明一实施例中数据处理模型生成方法的一流程图；

图3是本发明一实施例中数据处理模型生成方法的另一流程图；

图4是本发明一实施例中数据处理模型生成装置的一原理框图；

图5是本发明一实施例中数据处理模型生成装置的另一原理框图；

图6是本发明一实施例中数据处理方法的一流程图；

图7是本发明一实施例中数据处理装置的一原理框图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

本发明实施例提供一数据处理模型生成方法，该数据处理模型生成方法可应用如图1所示的应用环境中。具体地，该数据处理模型生成方法应用在数据处理模型生成系统中，该数据处理模型生成系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于数据孤岛问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。进一步地，服务器中包括了服务终端和数据支持终端。

在一实施例中，如图2所示，提供一种数据处理模型生成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：通过数据支持终端获取服务终端发送的包含服务分区的模型训练请求，确定数据支持终端中与服务分区对应的数据分区，通过数据支持终端根据数据分区确定第二ID信息；其中，服务分区中包含服务数据以及与其对应的第一ID信息，数据分区中包含支持数据以及与其对应的第二ID信息。

其中，数据支持终端为接收服务终端的服务请求并提供数据支持与模型计算的终端，数据支持终端可以为但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和计算机集群。服务终端为向数据支持终端发送服务请求的终端，服务终端可以但不限于各种个人计算机、笔记本电脑、智能手机和平板电脑。基于人工智能技术进行模型训练，模型训练请求为服务终端向数据支持终端发送的获取相应的数据支持的请求。第一ID信息为服务终端的服务分区中服务数据对应的ID信息。服务数据为服务终端中的数据，每一第一ID信息都存在相对应的服务数据。数据分区为数据支持终端对支持数据对应的ID信息进行计算分类后得到的区域，数据分区的分区数量是根据数据支持终端中所包含的分箱机器的数量和第二ID信息的数据量来确定的。服务分区为服务终端对服务数据对应的ID信息进行与数据支持终端中相同的计算分类后得到的区域，每一个服务分区可能对应着一个数据分区。第二ID信息为数据支持终端中与第一ID信息相对应的数据分区中的支持数据对应的ID信息。支持数据为数据支持终端中的数据，每一第二ID信息都存在相对应的支持数据。

具体地，通过数据支持终端获取服务终端发送的包含服务分区的模型训练请求，确定数据支持终端中与服务分区对应的数据分区，并通过数据支持终端根据数据分区确定第二ID信息。其中，服务分区包含服务数据以及与其对应的第一ID信息，数据分区中包含支持数据以及与其对应的第二ID信息。

在一具体实施例中，在通过数据支持终端获取服务终端发送的包含服务分区的数模型训练请求之前，包括：

通过数据支持终端接收服务终端发送的预设的规则，采用预设的规则对数据支持终端中支持数据对应的ID信息进行一致化操作，再采用均匀加密算法对一致化操作后的ID信息和该ID信息对应的支持数据进行均匀分布处理，得到待分箱数据。

通过数据支持终端根据预设的分箱策略对待分箱数据进行分箱处理，得到待分箱数据对应的分箱信息和数据分区。

通过数据支持终端将分箱信息发送至服务终端，服务终端根据分箱信息对服务数据对应的ID信息进行哈希运算，得到分箱号。

通过数据支持终端获取服务终端发送的数据支持请求，所述数据支持请求为所述服务终端从与服务分区中服务数据对应的ID信息中确定出第一ID信息之后，根据分箱号和第一ID信息生成。

其中，预设的规则为服务终端发送至数据支持终端的规则，预设的规则的实质为对服务终端的ID信息和数据支持终端的ID信息的数据格式进行统一的规则，使得服务终端和数据支持终端中的ID信息的数据格式保持一致。一致化操作指的是数据支持终端对数据库中的数据的ID信息的数据格式进行与服务终端的ID信息进行统一的操作。均匀加密算法用于保证处理得到的待分箱数据的不可回溯性，并且使得待分箱数据能够均匀分布，均匀加密算法可以为均匀哈希算法。待分箱数据指的是数据库中等待进行分箱处理的数据，待分箱数据可以包括ID身份信息和该ID对应搜索记录的关键词数据，ID身份信息和该ID对应访问页面的数据或者ID身份信息和该ID对应下载应用软件的数据，待分箱数据还可以包括ID身份信息和该ID对应的静态数据等，静态数据可以为ID身份信息的年龄、性别或者居住地区等。哈希运算为把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出的运算方法。

S12：在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理后，通过数据支持终端获取服务终端发送的包含交集ID的引擎计算结果，每一个引擎计算结果为交集ID的第一ID信息均对应一个与其存在交集的第二ID信息。

其中，交集处理指的是确定第一ID信息和第二ID信息的共有ID信息的处理方法。引擎计算结果为对第一ID信息和第二ID信息进行交集处理后得到的结果。交集ID为服务终端和数据支持终端共有的ID信息，即第一ID信息和第二ID信息相同。

具体地，在确定第一ID信息和第二ID信息之后，通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理，以得到引擎计算结果。其中，引擎计算结果包含交集ID和非交集ID。在通过服务终端得到引擎计算结果之后，通过数据支持终端获取通过服务终端发送的包含交集ID的引擎计算结果。可选地，可以采用RSA加密方法对第一ID信息和第二ID信息进行交集处理。其中，非交集ID为服务终端拥有，但数据支持终端不用有的ID信息，即第一ID信息和第二ID信息不相同。

进一步地，在服务终端中的一个服务分区中包含至少一个第一ID信息，数据支持终端中的一个数据分区中也包含至少一个第二ID信息。因此，引擎计算结果中可能包含多个交集ID和多个非交集ID。

S13：在联邦成功时，通过数据支持终端和服务终端，根据引擎计算结果为交集ID的第一ID信息以及与该交集ID均对应的服务数据和支持数据，生成交集训练集。

其中，交集训练集的实质为数据训练集合，交集训练集中的数据为服务终端和数据支持终端共同拥有的ID信息以及该ID信息对应的服务数据和支持数据。进一步地，上述的服务数据仍存储在服务终端中，支持数据仍存储在数据支持终端中，此处的交集训练集为服务终端和数据支持终端共同协作生成的数据集合。

具体地，在通过数据支持终端获取服务终端包含交集ID的引擎计算结果之后，在联邦成功时，通过数据支持终端和服务终端根据引擎计算结果为交集ID的第一ID信息以及该第一ID信息均对应的服务数据和支持数据，生成交集训练集。

其中，由于交集ID即为服务终端和数据支持终端共有的ID信息，即第一ID信息和第二ID信息是相同的情况的ID集合，因此仅在上述说明第一ID信息均对应的服务数据和支持数据。

S14：通过服务终端和数据支持终端根据交集训练集进行联邦学习训练，得到联邦数据处理模型，联邦数据处理模型用于在联邦成功时，接收输入的待处理ID信息之后，输出联邦预测结果，联邦预测结果中包含与待处理ID信息存在交集的第二ID信息对应的支持数据。

其中，联邦学习训练是可以在不直接访问训练数据的情况下构建机器学习系统的训练方式。联邦数据处理模型为对交集训练集进行联邦学习训练之后得到的模型，该联邦数据处理模型用于后续的预测步骤。待处理ID信息为等待输入模型进行联邦预测得到的结果信息。待处理ID信息可以为可以为多平台的文档下载信息对应的ID信息、多平台的历史访问信息对应的ID信息或者多平台的历史购买记录对应的ID信息。联邦预测结果为采用联邦数据处理模型对待处理ID信息进行联邦预测之后得到的结果，联邦预测结果可以为目标分类信息、推荐信息，该目标分类信息或者推荐信息包含与交集ID对应的服务数据和支持数据。

具体地，在通过数据支持终端和服务终端根据引擎计算结果为交集ID的第一ID信息以及与该第一ID信息均对应的服务数据和支持数据，生成交集训练集之后，通过服务终端和数据支持终端根据交集训练集进行联邦学习训练，以达到保护交集训练集中的服务数据和支持数据不被公开，从而生成联邦数据处理模型。该联邦数据处理模型可用于对待处理ID信息进行预测，以获取联邦预测结果。联邦预测结果中包含了与待处理ID信息存在交集的第二ID信息对应的支持数据，此外还包含了引擎计算结果为交集ID对应的服务数据。

进一步地，为进一步保证样本数据的私密和安全性，本实施例还包括以下步骤：将联邦预测结果存储于区块链中。

需要说明的是，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在本实施例中，通过对服务终端和数据支持终端中的ID信息进行交集处理，将交集ID信息对应的服务数据和支持数据生成交集数据集，能够在确保服务终端和数据支持终端的数据的安全性的前提，找到双方共同拥有的ID信息，并在双方ID信息不进行泄露的情况下，协同作业完成了联邦模型的训练和联邦预测建设，使得联邦预测结果与双方数据透明训练的模型得到的预测结果极大的接近，从而解决了数据孤岛问题。并且采用交集数据集进行联邦学习训练，在数据处理上提升了效率。最后采用训练得到的联邦数据处理模型进行联邦预测工作，提高整个系统完整性，并且在多方数据支持下，预测结果会更加准确。

在一实施例中，如图3所示，步骤S20中，即对第一ID信息和第二ID信息进行交集处理之后，指示数据支持终端获取服务终端发送的包含交集ID的引擎计算结果具体包括如下步骤：

S121：通过数据支持终端将加密钥匙发送至服务终端中，并获取服务终端采用加密钥匙和第一私密钥匙对第一ID信息进行加密之后得到的第一加密信息。

其中，加密钥匙为数据支持终端提供给服务终端的公共钥匙，加密钥匙用于服务终端对第一ID信息进行加密。第一私密钥匙为服务终端对第一ID信息进行加密的钥匙，该第一私密钥匙仅服务终端拥有。第一加密信息为服务终端采用加密钥匙和第一私密钥匙对第一ID信息进行加密后得到的信息。

具体地，在服务终端在数据支持终端中与第一ID信息对应的数据分区的第二ID信息之后，通过数据支持终端将加密钥匙发送至服务终端中，服务终端在接收到加密钥匙后，通过服务终端采用加密钥匙和第一私密钥匙对第一ID信息进行加密，得到第一加密信息；通过服务终端将第一加密信息发送至数据支持终端中。

S122：通过数据支持终端采用第二私密钥匙对第一加密信息进行加密，得到第二加密信息。

其中，第二私密钥匙为数据支持终端仅有的加密钥匙。第二加密信息为数据支持终端采用第二私密钥匙对第一加密信息进行加密得到的信息。

具体地，在通过数据支持终端获取服务终端采用加密钥匙和第一私密钥匙对第一ID信息进行加密之后得到的第一加密信息之后，通过数据支持终端采用第二私密钥匙对第一加密信息进行加密，得到第二加密信息，进一步提高数据的安全性。

S123：通过数据支持终端采用加密钥匙和第二私密钥匙对第二ID信息进行加密，得到第三加密信息。

其中，第三加密信息为数据支持终端采用加密钥匙和第二私密钥匙对第二ID信息进行加密得到的信息。

具体地，在确定服务终端获取在数据支持终端中与第一ID信息对应的数据分区的第二ID信息之后，通过数据支持终端采用加密钥匙和第二私密钥匙对第二ID信息进行加密，得到第三加密信息。

进一步地，若在服务终端每次发送数据支持请求之后，再通过数据支持终端再采用加密钥匙和第二私密钥匙对第二ID信息进行加密，这些操作会极大的增加响应时间，浪费大量的计算资源，并对数据支持终端计算的峰值有了更高的要求。

故可选地，可以通过数据支持终端提前采用加密钥匙和第二私密钥匙对所有支持数据对应ID信息进行加密，待通过数据支持终端获取到服务终端发送的数据支持请求之后，通过数据支持终端从数据分区中确定与服务终端的服务分区中第一ID信息对应的分区。采用上述方式，就不必通过数据支持终端在服务终端发送请求时候再进行S123步骤，降低了响应时间。

同时，考虑到服务终端在请求访问数据终端时的安全性，在一定周期之后，可以通过数据支持终端更新加密钥匙，进一步保证了数据的安全性。

进一步地，通过服务终端生成第一加密信息和通过数据支持终端生成第三加密信息，这两个步骤的顺序不是固定，可以先通过服务终端得到第一加密信息，也可以先通过数据支持终端得到第三加密信息或者上述两个步骤同时进行。

S124：通过数据支持终端将第二加密信息和第三加密信息发送至服务终端中，并通过数据支持终端获取通过服务终端对第二加密信息和第三加密信息进行交集引擎计算后得到的第一中间结果，第一中间结果包含交集ID。

其中，第一中间结果为服务终端对第二加密信息和第三加密信息进行交集引擎计算后得到的结果。交集引擎计算的实质为确定服务终端和数据支持终端中交集ID信息的计算方式。

具体地，在通过数据支持终端将第二加密信息和第三加密信息发送至服务终端之后，通过服务终端对第二加密信息和第三加密信息进行交集引擎计算，得到第一中间结果，并通过服务终端将第一中间结果发送至数据支持终端，该第一中间结果包含交集ID。

S125：通过数据支持终端对第一中间结果进行解密计算，得到第二中间结果，并通过数据支持终端将第二中间结果发送至服务终端中，通过数据支持终端获取通过服务终端对第二中间结果进行整合之后得到的包含交集ID的引擎计算结果。

其中，解密计算为数据支持终端对第一中间结果进行解密的计算。第二中间结果为对第一中间结果进行解密后得到的结果。

具体地，在通过数据支持终端获取到第一中间结果之后，由于第一中间结果包含了交集ID，因此，通过数据支持终端对第一中间结果进行解密计算，得到第二中间结果，并通过数据支持终端将该第二中间结果发送至服务终端中；在通过数据支持终端将第二中间结果发送至服务终端之后，通过数据支持终端获取通过服务终端对第二中间结果进行整合之后得到的引擎计算结果。

在一具体实施例中，若第一中间结果不包含交集ID，则在通过数据支持终端获取到第一中间结果后，通过数据支持终端对第一中间结果继续进行交集引擎计算，以确定是否存在交集ID，得到第三中间结果，并通过数据支持终端将第三中间结果发送至服务终端。其中，若第三中间结果不包含交集ID，则通过数据支持终端将第三中间结果发送至服务终端，通过服务终端继续进行交集引擎计算，直到确定交集ID为止。若第三中间结果中包含交集ID，则通过数据支持终端对第三中间结果进行解密计算，再通过数据支持终端将解密后的第三中间结果发送至服务终端。

在本实施例中，采用加密钥匙、第一私密钥匙和第二私密钥匙对数据信息加密的方式，保证服务终端和数据支持终端的ID信息不可见的情况下，找到服务终端和数据支持终端的共有的ID信息，进一步提高了双方数据的安全性，同时保证了服务终端的用户的隐私性。

在一实施例中，在步骤S12之后，也即在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理之后，数据处理模型生成方法还包括：

在联邦成功时，通过服务终端根据服务分区中引擎计算结果为非交集ID的第一ID信息，以及与非交集ID对应的服务数据，生成补集训练集。

其中，补集训练集的实质为数据训练集合，补集训练集中的数据包括服务终端的所述服务分区中引擎计算结果为非交集ID的的第一ID信息以及与该第一ID信息对应的服务数据；也即，所述补集训练集中的第一ID信息不与数据支持终端的所述数据分区中的第二ID信息产生交集。

具体地，在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理之后，由于引擎计算结果中包含交集ID和非交集ID，因此，在联邦成功时，通过服务终端根据服务分区中引擎计算结果为非交集ID的第一ID信息以及该第一ID信息对应的服务数据，生成补集训练集。

在一实施例中，在步骤S12之后，即在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理之后，该数据处理模型生成方法还包括如下步骤：

通过服务终端根据服务分区中的所有第一ID信息以及服务终端的服务分区中与各第一ID信息对应的所有服务数据，生成本地训练集。

其中，本地训练集的实质为数据训练集合，本地训练集中的数据为服务终端的服务分区中的所有第一ID信息以及服务终端的服务分区中各第一ID信息对应的所有服务数据。

具体地，在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理之后，通过服务终端根据服务分区中所有第一ID信息以及服务终端的服务分区中与各第一ID信息对应的所有服务数据，生成本地训练集。

本实施例中，在得到交集ID和非交集ID之后，将交集ID部分生成交集训练集，非交集ID部分生成补集训练集，再将服务终端的ID信息和对应的服务数据生成本地训练集。能够避免传统上只使用交集ID而舍去了非交集ID的情况，如果舍去非交集ID则需要另外的机器学习平台进行额外的工作，而将交集ID、非交集ID和服务终端所有ID信息都生成相对应的数据训练集，使得能够有效使用全部数据，且节省了成本。

在一实施例中，数据处理模型生成方法还包括：

通过服务终端根据补集训练集进行本地学习训练，得到第一本地数据处理模型，第一本地数据处理模型用于接收输入的待处理ID信息之后，输出第一本地预测结果，第一本地预测结果中包含所述非交集ID对应的所述服务数据；和/或

通过所述服务终端根据所述本地训练集进行本地学习训练，得到第二本地数据处理模型，所述第二本地数据处理模型用于在接收输入的待处理ID信息之后，输出第二本地预测结果，所述第二本地预测结果中包含与所述服务终端的所述服务分区中所述第一ID信息对应的所述服务数据。

其中，本地学习训练为使用服务终端的服务数据进行训练的方法。第一本地数据处理模型和第二本地数据处理模型均是用于进行本地预测的模型。本地预测结果可以为目标分类信息、推荐信息等，该目标分类信息或者推荐信息包含非交集ID对应的服务数据或者服务终端的服务分区中的所有服务数据。

具体地，在生成补集训练集和本地训练集之后，通过服务终端根据补集训练集进行本地学习训练，得到第一本地数据处理模型；通过所述服务终端根据所述本地训练集进行本地学习训练，得到第二本地数据处理模型。其中，该第一本地数据处理模型和第二本地数据处理模型均可用于联邦成功时，接收输入的待处理ID之后，对待处理ID信息进行本地预测，以获取本地预测结果，此时的本地预测结果可以与上述实施例中生成的联邦预测结果进行融合，以提高准确率。进一步地，该第一本地数据处理模型和第二本地数据处理模型主要用于在联邦中断时，接收输入的待处理ID之后，对待处理ID信息进行本地预测，以获取本地预测结果。在联邦中断时，本地预测结果能够作为应急方案，弥补联邦中断时不能生成联邦预测结果的情况，使得系统更加全面。

可选地，本地学习训练可以支持并使用多种机器学习算法，示例性地，LR、XGB、NB或者DNN等。本地学习训练的任务可以为有监督的回归问题、有监督的分类问题或者非监督的机器学习问题等。

在本实施例中，通过根据补集训练集和/或本地训练集进行本地学习训练，得到本地数据处理模型，本地数据处理模型用于对待处理ID信息进行本地预测，以获取本地预测结果。通过补集训练集和本地训练集进行本地学习训练，能够得到全部数据的预测结果，使得预测结果更加全面，避免需要增加额外的机器学习平台进行本地训练工作的情况，提高系统的全面性和灵活性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种数据处理模型生成装置，该数据处理模型生成装置与上述实施例中数据处理模型生成方法一一对应。如图4所示，该数据处理模型生成装置包括信息确定模块11、第一引擎计算模块12、交集训练集生成模块13和联邦学习模块14。各功能模块详细说明如下：

信息确定模块11，用于通过数据支持终端获取服务终端发送的包含服务分区的模型训练请求，确定数据支持终端中与服务分区对应的数据分区，通过数据支持终端根据数据分区确定第二ID信息；其中，服务分区中包含服务数据以及与其对应的第一ID信息，数据分区中包含支持数据以及与其对应的第二ID信息。

交集处理模块12，用于在通过数据支持终端和服务终端对第一ID信息和第二ID信息进行交集处理后，通过数据支持终端获取服务终端发送的包含交集ID的引擎计算结果，每一个引擎计算结果为交集ID的第一ID信息均对应一个与其存在交集的第二ID信息。

交集训练集生成模块13，用于在联邦成功时，通过数据支持终端和服务终端，根据引擎计算结果为交集ID的第一ID信息以及与交集ID对应的第一ID信息均对应的服务数据和支持数据，生成交集训练集。

联邦学习模块14，用于通过服务终端和数据支持终端根据交集训练集进行联邦学习训练，得到联邦数据处理模型，联邦数据处理模型用于在联邦成功时，接收输入的待处理ID信息之后，输出联邦预测结果，联邦预测结果中包含与待处理ID信息存在交集的第二ID信息对应的支持数据。

可选地，如图5所示，交集处理模块12还包括：

第一加密信息生成模块121，用于通过数据支持终端将加密钥匙发送至服务终端中，并通过数据支持终端获取服务终端采用加密钥匙和第一私密钥匙对第一ID信息进行加密之后得到的第一加密信息。

第二加密信息生成模块122，用于通过数据支持终端采用第二私密钥匙对第一加密信息进行加密，得到第二加密信息。

第三加密信息生成模块123，通过数据支持终端采用加密钥匙和第二私密钥匙对第二ID信息进行加密，得到第三加密信息。

交集引擎计算模块124，用于通过数据支持终端将第二加密信息和第三加密信息发送至服务终端中，并通过数据支持终端获取通过服务终端对第二加密信息和第三加密信息进行交集引擎计算后得到的第一中间结果，第一中间结果包含交集ID。

解密计算模块125，用于通过数据支持终端对第一中间结果进行解密计算，得到第二中间结果，并通过数据支持终端将第二中间结果发送至服务终端中，并通过数据支持终端获取通过服务终端对第二中间结果进行整合之后得到的包含交集ID的引擎计算结果。

可选地，数据处理模型生成装置还包括：

补集训练集生成模块，用于在联邦成功时，通过服务终端根据服务分区中引擎计算结果为非交集ID的第一ID信息以及与非交集ID对应的第一ID信息对应的服务数据，生成补集训练集。

可选地，数据处理模型生成装置还包括：

本地训练集生成模块，用于通过服务终端根据服务分区中的所有第一ID信息以及服务终端的服务分区中与各第一ID信息对应的所有服务数据，生成本地训练集。

可选地，数据处理模型生成装置还包括：

本地学习模块，用于通过服务终端根据补集训练集进行本地学习训练，得到第一本地数据处理模型，第一本地数据处理模型用于接收输入的待处理ID信息之后，输出第一本地预测结果，第一本地预测结果中包含与所述非交集ID对应的所述服务数据；和/或

通过所述服务终端根据所述本地训练集进行第二本地学习训练，得到第二本地数据处理模型，第二本地数据处理模型用于在接收输入的待处理ID信息之后，输出第二本地预测结果，第二本地预测结果中包含与所述服务终端的所述服务分区中所述第一ID信息对应的所述服务数据。

关于数据处理模型生成装置的具体限定可以参见上文中对于数据处理模型生成方法的限定，在此不再赘述。上述数据处理处理模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供一数据处理方法，该数据处理方法可应用如图1所示的应用环境中。具体地，该数据处理方法应用在数据处理系统中，该数据处理系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于数据孤岛问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。进一步地，服务器中包括了服务终端和数据支持终端。

在一实施例中，如图6所示，提出一种数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S21：在数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求时，检测当前是否处于联邦成功状态。

其中，包含待处理ID信息的数据支持请求为服务终端请求数据支持终端对待处理ID信息进行预测处理的支持请求。待处理ID信息为等待输入模型进行联邦预测得到的结果信息。

具体地，在数据支持终端接收到服务终端发送的包含待处理ID信息的数据支持请求之后，对当前联邦状态进行检测，检测当前是否处于联邦成功状态。

S22：在当前处于联邦成功状态时，通过将待处理ID信息输入至预设的联邦数据处理模型中，获取预设的联邦数据处理模型输出的联邦预测结果，联邦预测结果中包含与待处理ID信息存在交集的第二ID信息对应的支持数据；其中，预设的联邦数据处理模型根据上述实施例中的数据处理模型生成方法生成。

具体地，在数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求，并检测当前处于联邦成功状态之后，将接收到的待处理ID信息输入至预设的联邦数据处理模型中，采用该联邦数据处理模型对待处理ID信息进行联邦预测，生成联邦预测结果。该联邦预测结果中包含与待处理ID信息存在交集的第二ID信息对应的支持数据。

其中，预设的联邦数据处理模型根据上述实施例中的数据处理模型生成方法生成。

在一具体实施方式中，数据处理方法还包括：

将待处理ID信息输入至预设的本地数据处理模型中，获取本地数据处理模型输出的本地预测结果。

具体地，在通过数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求，将接收到的待处理ID信息输入预设的本地数据处理模型中，采用该本地数据处理模型对待处理ID信息进行本地预测，生成本地预测结果。

其中，本地数据处理模型是根据上述实施例中的数据处理模型生成方法生成的，进一步地，本地数据处理模型可以为第一本地数据处理模型，也可以为第二本地数据处理模型。该本地数据处理模型可用于在联邦成功时，也可用于在联邦中断时，接收输入的待处理ID信息之后，输出本地预测结果。在联邦成功时，采用本地数据处理模型对待处理ID信息进行本地预测，得到本地预测结果，能够使得预测结果更加全面；在联邦中断时，接收输入的待处理ID信息之后，输出本地预测结果。使得在联邦中断时，联邦数据处理模型失效，而本地数据处理模型能够作为应急方案，增加系统容错率。其中，联邦中断状态可以为联邦学习过程中通信出现截断或者通信不稳定的状态，也可以为联邦学习过程中联邦学习没有响应的状态。

在一具体实施例中，在得到联邦预测结果或者得到本地预测结果之后，服务数据预测方法还包括：

可选地，在服务终端中设置一个评估模型，该评估模型用于对待处理ID信息在联邦数据处理模型或者本地数据处理模型中预测得到的结果进行评估。可选地，得到该评估模型的方法可以为将联邦预测结果或者本地预测结果与待处理ID信息进行融合。其中，进行融合的方法包括但不限于通过投票机制、stacking训练机制、reinforcement learning或者bandit等等。

进一步地，在评估模型中存在PSI指数，该PSI指数用于衡量联邦数据处理模型或者本地数据处理模型的稳定性和准确度。PSI指数中包含一个阈值，如果PSI指数超过该阈值，则会考虑对服务终端和数据支持终端更新数据客群，并根据更新后的数据客群进行重新训练。可选地，在接收到联邦预测结果或者本地预测结果之后，对联邦预测结果或者本地预测结果进行准确度分析，根据准确度分析结果，对评估模型进行更新或者对评估模型中评估权重进行调整。

在本实施例中，在当前状态处于联邦成功状态时，采用联邦数据处理模型进行预测，能够在保证数据安全前提下，解决了数据孤岛问题，还提高了数据预测的准确性。在当前状态处于联邦中断状态时，采用本地数据处理模型进行预测，使得本地数据处理模型预测方法作为应急方案，保证系统任务能够完成的前提下，提升了系统的全面性，降低了由于通信失败或者通信中断带来的风险。

在一实施例中，提供一种数据处理装置，该数据处理装置与上述实施例中数据处理方法一一对应。如图7所示，该数据处理装置包括联邦状态检测21模块和联邦预测模块22。各功能模块详细说明如下：

联邦状态检测模块21，用于在数据支持终端接收服务终端发送的包含待处理ID信息的数据支持请求时，检测当前是否处于联邦成功状态；

联邦预测模块22，用于在当前处于联邦成功状态时，通过将待处理ID信息输入至预设的联邦数据处理模型中，获取预设的联邦数据处理模型输出的联邦预测结果，联邦预测结果中包含与待处理ID信息存在交集的第二ID信息对应的支持数据；预设的联邦数据处理模型根据上述实施例中的数据处理模型生成方法生成。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述数据处理模型生成方法和上述数据处理方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理模型生成方法，或该计算机程序被处理器执行时以实现一种数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中数据处理模型生成方法，或处理器执行计算机程序时实现上述实施例中数据处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中数据处理模型生成方法，或处理器执行计算机程序时实现上述实施例中数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理模型生成方法，其特征在于，包括：

在通过所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后，通过所述数据支持终端获取所述服务终端发送的包含交集ID的引擎计算结果，每一个引擎计算结果为交集ID的第一ID信息均对应一个与其存在交集的第二ID信息；

2.如权利要求1所述的数据处理模型生成方法，其特征在于，在所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后，指示所述数据支持终端获取所述服务终端发送的包含交集ID的引擎计算结果，包括：

通过所述数据支持终端将加密钥匙发送至所述服务终端中，并通过所述数据支持终端获取所述服务终端采用所述加密钥匙和第一私密钥匙对所述第一ID信息进行加密之后得到的第一加密信息；

通过所述数据支持终端采用第二私密钥匙对所述第一加密信息进行加密，得到第二加密信息；

通过所述数据支持终端采用所述加密钥匙和第二私密钥匙对所述第二ID信息进行加密，得到第三加密信息；

通过所述数据支持终端将所述第二加密信息和所述第三加密信息发送至所述服务终端中，并通过所述数据支持终端获取通过所述服务终端对所述第二加密信息和所述第三加密信息进行交集引擎计算后得到的第一中间结果，所述第一中间结果包含交集ID；

通过所述数据支持终端对所述第一中间结果进行解密计算，得到第二中间结果，并通过所述数据支持终端将所述第二中间结果发送至所述服务终端中，并通过所述数据支持终端获取通过所述服务终端对所述第二中间结果进行整合之后得到的包含交集ID的引擎计算结果。

3.如权利要求1所述的数据处理模型生成方法，所述引擎计算结果还包含非交集ID，其特征在于，在所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后之后，所述数据处理模型生成方法还包括：

在联邦成功时，通过所述服务终端根据所述服务分区中引擎计算结果为非交集ID的第一ID信息，以及与所述非交集ID对应的服务数据，生成补集训练集。

4.如权利要求3所述的数据处理模型生成方法，其特征在于，在所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后之后，所述数据处理模型生成方法还包括：

通过所述服务终端根据所述服务分区中的所有所述第一ID信息以及所述服务终端的所述服务分区中与各所述第一ID信息对应的所有服务数据，生成本地训练集。

5.如权利要求4所述的数据处理模型生成方法，其特征在于，所述数据处理模型生成方法还包括：

通过所述服务终端根据所述补集训练集进行本地学习训练，得到第一本地数据处理模型，所述第一本地数据处理模型用于在接收输入的待处理ID信息之后，输出第一本地预测结果，所述第一本地预测结果中包含与所述非交集ID对应的所述服务数据；和/或

6.一种数据处理方法，包括：

在数据支持终端接收到服务终端发送的包含待处理ID信息的数据支持请求时，检测当前是否处于联邦成功状态；

在当前处于联邦成功状态时，将所述待处理ID信息输入至预设的联邦数据处理模型中，获取所述预设的联邦数据处理模型输出的联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据；所述预设的联邦数据处理模型是指根据权利要求1至5中任一项所述的数据处理模型生成方法生成。

7.一种数据处理模型生成装置，其特征在于，包括：

第一引擎计算模块，用于在通过所述数据支持终端和所述服务终端对所述第一ID信息和所述第二ID信息进行交集处理后，通过所述数据支持终端获取所述服务终端发送的包含交集ID的引擎计算结果，每一个所述引擎计算结果为交集ID的所述第一ID信息均对应一个与其存在交集的所述第二ID信息；

交集训练集生成模块，用于在联邦成功时，通过所述数据支持终端和所述服务终端，根据引擎计算结果为所述交集ID的所述第一ID信息以及与所述交集ID均对应的所述服务数据和所述支持数据，生成交集训练集；

8.一种数据处理装置，其特征在于，包括：

联邦预测模块，用于在当前处于联邦成功状态时，将所述待处理ID信息输入至预设的联邦数据处理模型中，获取所述预设的联邦数据处理模型输出的联邦预测结果，所述联邦预测结果中包含与所述待处理ID信息存在交集的第二ID信息对应的支持数据；所述预设的联邦数据处理模型根据权利要求1至5中任一项所述的数据处理模型生成方法生成。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述数据处理模型生成方法，或所述处理器执行所述计算机程序时实现如权利要求6中一项数据处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据处理模型生成方法，或所述处理器执行所述计算机程序时实现如权利要求6中一项数据处理方法。