CN114091067A

CN114091067A - 一种样本对齐方法、装置、设备及存储介质

Info

Publication number: CN114091067A
Application number: CN202111399429.9A
Authority: CN
Inventors: 周雍恺; 杨燕明; 刘红宝; 郑建宾; 杨阳; 邱震尧; 欧阳琛; 金灵; 高鹏飞; 程栋; 邹奋; 袁航; 王琪
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-02-25
Also published as: TW202321962A; WO2023093090A1

Abstract

本申请实施例提供了一种样本对齐方法、装置、设备及存储介质，涉及数据处理技术领域，该方法包括：第一参与方系统通过第一可信执行环境，从第二可信执行环境中获取第二参与方系统的至少一个第二样本标识，并在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。基于第一目标交集，确定第一样本对齐结果。由于样本对齐过程是在可信执行环境中进行的，故在不使用硬件加密机的情况下，也保证了样本标识不被泄露。同时，可信执行环境的通用性高，满足不同应用场景的需求。

Description

一种样本对齐方法、装置、设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种样本对齐方法、装置、设备及存储介质。

背景技术

在大数据时代，不同参与方在进行多方合作时，首先进行样本对齐操作，即确定各个参与方的样本ID(Identity Document)的交集，便于后续的模型训练或者处理。但是各个参与方对数据隐私的保护越来越重视，因此，参与方在进行样本对齐时，保证不泄露参与方样本ID的情况下，获取各个参与方的样本ID交集。

相关技术一般采用硬件加密机对样本ID进行加密，基于加密后的样本ID进行样本对齐操作。但是硬件加密机不够灵活，必须针对不同的应用场景进行定制，通用性不高。

发明内容

本申请实施例提供了一种样本对齐方法、装置、设备及存储介质，用于提高不同应用场景下进行样本对齐的通用性。

一方面，本申请实施例提供了一种样本对齐方法，应用于第一参与方系统，所述第一参与方系统中部署第一可信执行环境，该方法包括：

在所述第一可信执行环境中，获得所述第一参与方系统的至少一个第一样本标识；

通过所述第一可信执行环境，从第二可信执行环境中获取第二参与方系统的至少一个第二样本标识，所述第二可信执行环境部署于所述第二参与方系统；

在所述第一可信执行环境中，确定所述至少一个第一样本标识和所述至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集；

基于所述第一目标交集，确定第一样本对齐结果。

一方面，本申请实施例提供了一种样本对齐装置，所述样本对齐装置中部署第一可信执行环境，该装置包括：

获取模块，用于在所述第一可信执行环境中，获得所述第一参与方系统的至少一个第一样本标识；

还用于通过所述第一可信执行环境，从第二可信执行环境中获取第二参与方系统的至少一个第二样本标识，所述第二可信执行环境部署于所述第二参与方系统；

样本对齐模块，用于在所述第一可信执行环境中，确定所述至少一个第一样本标识和所述至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集；基于所述第一目标交集，确定第一样本对齐结果。

可选地，所述至少一个第一样本标识是所述第一参与方系统在所述第一可信执行环境中，通过加密算法对第一原始样本标识加密获得的；

所述至少一个第二样本标识是所述第二参与方系统在所述第二可信执行环境中，通过加密算法对第二原始样本标识加密获得的。

可选地，还包括验证模块，所述验证模块具体用于：

所述在所述第一可信执行环境中，获得所述第一参与方系统的至少一个第一样本标识之前，

通过所述第一可信执行环境，验证所述第二可信执行环境的安全性，并在验证通过后，建立连接所述第一可信执行环境和所述第二可信执行环境的安全信道。

可选地，所述加密算法是所述第一可信执行环境和所述第二可信执行环境通过所述安全信道确定的。

可选地，所述样本对齐模块还用于：

在所述第一可信执行环境中，基于所述第一目标交集包含的各个第一目标样本标识，获得对应的第一目标样本属性；

将各个第一目标样本标识和相应的第一目标样本属性，作为第一样本对齐结果。

可选地，还包括输出模块，所述输出模块具体用于：

从所述第一可信执行环境中输出获得的各个第一目标样本属性。

可选地，还包括发送模块，所述发送模块具体用于：

所述在所述第一可信执行环境中，确定所述至少一个第一样本标识和所述至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集之后，

通过所述第一可信执行环境，将所述第一目标交集发送至所述第二可信执行环境，以使所述第二参与方系统，在所述第二可信执行环境中，基于所述第一目标交集包含的各个第一目标样本标识，获得对应的第二目标样本属性；将各个第一目标样本标识和相应的第二目标样本属性，作为第二样本对齐结果。

可选地，所述至少一个第一样本标识的数量大于所述至少一个第二样本标识的数量。

在本申请实施例中，第一参与方系统通过第一可信执行环境，从第二可信执行环境中获取第二参与方系统的至少一个第二样本标识，并在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。基于第一目标交集，确定第一样本对齐结果。由于本申请实施例中的样本对齐过程是在可信执行环境中进行的，故在不使用硬件加密机的情况下，也保证了样本标识不被泄露。同时，可信执行环境的通用性高，可以灵活地根据不同的应用场景定制不同的样本对齐方法，满足不同应用场景的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种样本对齐方法的流程示意；

图3为本申请实施例提供的一种样本对齐方法的流程示意；

图4为本申请实施例提供的一种样本对齐方法的流程示意；

图5为本申请实施例提供的一种样本对齐方法的流程示意；

图6为本申请实施例提供的一种样本对齐装置的结构示意图；

图7为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

可信执行环境：Trusted Execution Environment，TEE，通常用来进行数字版权管理、移动支付和敏感数据保护。

参考图1，其为本申请实施例适用的一种系统架构图，该系统架构至少包括第一参与系统101、第二参与系统102。

第一参与系统101用于在第一参与方执行样本对齐方法。第一参与系统101可以是智能手机、平板电脑、笔记本电脑、台式计算机、服务器等，但并不局限于此。第一参与系统101中部署第一可信执行环境。

第二参与系统102用于在第二参与方执行样本对齐方法。第二参与系统102可以是智能手机、平板电脑、笔记本电脑、台式计算机、服务器等，但并不局限于此。第二参与系统102中部署第二可信执行环境。

第一参与系统101和第二参与系统102可以通过有线或无线的方式直接连接，也可以通过中间服务器建立连接。中间服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网路(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

第一参与系统101通过第一可信执行环境，验证第二可信执行环境的安全性。第二参与系统102通过第二可信执行环境，验证第一可信执行环境的安全性。双方在验证通过后，建立连接第一可信执行环境和第二可信执行环境的安全信道。

第一可信执行环境和第二可信执行环境通过安全信道确定加密算法。该加密算法可以是Hash算法、MAC算法、HMAC算法(Hash-based message authentication code)等任意一种。由于加密算法是第一可信执行环境和第二可信执行环境通过安全信道确定的，无需人工协商确定，减小了加密算法泄露的风险。

基于图1所述的系统架构图，本申请实施例提供了一种样本对齐方法的流程，如图2所示，该方法的流程由图1所示的第一参与系统101和第二参与方系统102交互执行，包括以下步骤：

步骤S201，在第一可信执行环境中获得第一参与方系统的至少一个第一样本标识。

可选地，第一样本标识可以是第一原始样本标识，也可以是第一参与方系统在第一可信执行环境中，通过加密算法对第一原始样本标识加密获得的标识。

第一参与方系统同时将各个第一样本标识对应的第一样本属性，添加至第一可信执行环境中，其中，样本属性可以是样本特征。

步骤S202，在第二可信执行环境中获得第二参与方系统的至少一个第二样本标识。

可选地，第二样本标识可以是第二原始样本标识，也可以是第二参与方系统在第二可信执行环境中，通过加密算法对第二原始样本标识加密获得的标识。

第二参与方系统同时将各个第二样本标识对应的第二样本属性，添加至第二可信执行环境中。

步骤S201和步骤S202的执行不分先后。

一种可能的实施方式，第一参与方系统在第一可信执行环境中对第一原始样本标识进行加密获得第一样本标识之后，第一参与方系统在第一可信执行环境中对至少一个第一样本标识进行乱序处理，并将乱序后的至少一个第一样本标识和对应的第一样本属性输出至第三方系统。

第二参与方系统在第二可信执行环境中对第二原始样本标识进行加密获得第二样本标识之后，第二参与方系统在第二可信执行环境中对至少一个第二样本标识进行乱序处理，并将乱序后的至少一个第二样本标识和对应的第二样本属性输出至第三方系统。

第三方系统确定至少一个第一样本标识和至少一个第二样本标识的第一目标交集，基于第一目标交集，即可确定出样本对齐结果。

由于第一可信执行环境中使用的加密算法和第二可信执行环境中使用的加密算法相同，因此，对相同的原始样本标识分别进行加密，所获得的第一样本标识和第二样本标识相同，保证了样本对齐操作的基本前提。同时，将加密获得的第一样本标识输出至第一参与方系统中，第一参与方系统也无法反向破解出第一样本标识和第一原始样本标识之间的对应关系。将加密获得的第二样本标识输出至第二参与方系统中，第二参与方系统也无法反向破解出第二样本标识和第二原始样本标识之间的对应关系，故在保证原始样本标识不泄露的同时，实现了样本对齐。

步骤S203，第二参与方系统通过第二可信执行环境，发送至少一个第二样本标识至第一可信执行环境。

具体地，第二参与方系统通过第二可信执行环境，经过安全信道，发送至少一个第二样本标识和对应的第二样本属性至第一可信执行环境。

第二参与方系统的至少一个第二样本标识保存在第一可信执行环境中。同时，第一参与方系统不能直接从第一可信执行环境中获取第二参与方系统的至少一个第二样本标识。

步骤S204，第一参与方系统在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集。

步骤S205，第一参与方系统在第一可信执行环境中，对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。

举例来说，第一可信执行环境中的包括3个第一样本标识，每个第一样本标识对应一个第一样本属性。3个第一样本标识分别为标识1、标识2和标识3，相对应的第一样本属性分别为属性A、属性B和属性C，具体如表1所示。

同时，第一参与方系统通过第一可信执行环境，获取到4个第二样本标识，每个第二样本标识对应一个第二样本属性。在第一可信执行环境中，4个第二样本标识分别为标识1、标识2、标识4和标识3，相对应的第二样本属性分别为属性D、属性E、属性F和属性G，具体如表2所示。

表1.

第一样本标识	第一样本属性
		标识1	属性A
标识2	属性B
		标识3	属性C

表2.

确定表1中3个第一样本标识和表2中4个第二样本标识的交集，作为第一初始交集，此时，第一目标交集中包括标识1、标识2和标识3，如表3所示。

表3.

第一目标样本标识
	标识1
标识2
	标识3

对表3中的3个第一目标样本标识进行乱序处理，结果如表4所示。

表4.

第一目标样本标识
	标识3
标识1
	标识2

在本申请实施例中，第一参与方系统在第一可信执行环境中，对第一初始交集中的各个第一目标样本标识进行乱序处理，增强了数据的保密性。

步骤S206，第一参与方系统在第一可信执行环境中，基于第一目标交集，确定第一样本对齐结果。

可选地，第一参与方系统在第一可信执行环境中，基于第一目标交集包含的各个第一目标样本标识，获得对应的第一目标样本属性；并将各个第一目标样本标识和相应的第一目标样本属性，作为第一样本对齐结果。第一参与方系统从第一可信执行环境中输出获得的各个第一目标样本属性，并将获得的各个第一目标样本属性应用于其他环境中，进行后续的操作。

举例来说，第一可信执行环境中的第一目标交集如表4所示，根据表4中的3个第一目标样本标识，通过查找表1确定对应的第一目标样本属性，分别为属性C、属性A、属性B，如表5所示。将表4中的各个第一目标样本标识和表5中相对应的第一目标样本属性，作为第一样本对齐结果，如表6所示。从第一可信执行环境中输出表5中的3个第一目标样本属性，并将获得的各个第一目标样本属性应用于其他环境中，进行后续的操作。

表5.

第一目标样本属性
	属性C
属性A
	属性B

表6.

第一目标样本标识	第一目标样本属性
		标识3	属性C
标识1	属性A
		标识2	属性B

在本申请实施例中，第一参与方系统通过第一可信执行环境，从第二可信执行环境中获取第二参与方系统的至少一个第二样本标识，并在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集，并对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。基于第一目标交集，确定第一样本对齐结果。由于本申请实施例中的样本对齐过程是在可信执行环境中进行的，故在不使用硬件加密机的情况下，也保证了样本标识不被泄露。同时，可信执行环境的通用性高，可以灵活地根据不同的应用场景定制不同的样本对齐方法，满足不同应用场景的需求。

可选地，针对第二参与方系统，本申请实施例至少提供以下两种获得样本对齐结果的实施方式：

一种可能的实施方式，第二参与方系统通过第二可信执行环境，从第一可信执行环境中获取第一参与方系统的至少一个第一样本标识，并在第二可信执行环境中，确定至少一个第二样本标识和至少一个第一样本标识的第二初始交集，并对第二初始交集中的各个第二目标样本标识进行乱序处理，获得第二目标交集；基于第二目标交集，确定第二样本对齐结果。

具体来说，基于图1所述的系统架构图，本申请实施例提供了一种样本对齐方法的流程，如图3所示，该方法的流程由图1所示的第一参与系统101和第二参与方系统102交互执行，包括以下步骤：

步骤S301，在第一可信执行环境中获得第一参与方系统的至少一个第一样本标识。

步骤S302，在第二可信执行环境中获得第二参与方系统的至少一个第二样本标识。

步骤S303，第一参与方系统通过第一可信执行环境，发送至少一个第一样本标识至第二可信执行环境。

具体地，第一参与方系统通过第一可信执行环境，经过安全信道，发送至少一个第一样本标识和对应的第一样本属性至第二可信执行环境。

第一参与方系统的至少一个第一样本标识保存在第二可信执行环境中。同时，第二参与方系统不能直接从第二可信执行环境中获取第一参与方系统的至少一个第一样本标识。

步骤S304，第二参与方系统通过第二可信执行环境，发送至少一个第二样本标识至第一可信执行环境。

步骤S301和步骤S302的执行不分先后。步骤S303和步骤S304的执行不分先后。

步骤S305，第一参与方系统在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集。

步骤S306，第一参与方系统在第一可信执行环境中，对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。

步骤S307，第一参与方系统在第一可信执行环境中，基于第一目标交集，确定第一样本对齐结果。

步骤S308，第二参与方系统在第二可信执行环境中，确定至少一个第二样本标识和至少一个第一样本标识的第二初始交集。

步骤S309，第二参与方系统可以在第二可信执行环境中，对第二初始交集中的各个第二目标样本标识进行乱序处理，获得第二目标交集。

举例来说，第二可信执行环境中的包括4个第二样本标识，每个第二样本标识对应一个第二样本属性。4个第二样本标识分别为标识1、标识2、标识4和标识3，相对应的第二样本属性分别为属性D、属性E、属性F和属性G，具体如表2所示。

同时，第二参与方系统通过第二可信执行环境，获取到3个第一样本标识，每个第一样本标识对应一个第一样本属性。在第二可信执行环境中，3个第一样本标识分别为标识1、标识2和标识3，相对应的第一样本属性分别为属性A、属性B和属性C，具体如表1所示。

确定表2中4个第二样本标识和表1中3个第一样本标识的交集，作为第二初始交集，此时，第二初始交集中包括标识1、标识2和标识3，如表7所示。

表7.

第二目标样本标识
	标识1
标识2
	标识3

对表7中的3个第二目标样本标识进行乱序处理，结果如表8所示。

表8.

第二目标样本标识
	标识1
标识3
	标识2

在本申请实施例中，第二参与方系统在第二可信执行环境中，对第二初始交集中的各个第二目标样本标识进行乱序处理，增强了数据的保密性。

步骤S310，第二参与方系统在第二可信执行环境中，基于第二目标交集，确定第二样本对齐结果。

可选地，第二参与方系统在第二可信执行环境中，基于第二目标交集包含的各个第二目标样本标识，获得对应的第二目标样本属性；并将各个第二目标样本标识和相应的第二目标样本属性，作为第二样本对齐结果。第二参与方系统从第二可信执行环境中输出获得的各个第二目标样本属性，将获得的各个第二目标样本属性应用于其他环境中，进行后续的操作。

举例来说，第二可信执行环境中的第二目标交集如表8所示，根据表8中的3个第二目标样本标识，通过查找表2确定对应的第二目标样本属性，分别为属性D、属性G、属性E，如表9所示。将表8中的各个第二目标样本标识和表9中相对应的第二目标样本属性，作为第二样本对齐结果，如表10所示。从第二可信执行环境中输出表9中的3个第二目标样本属性，并将获得的各个第二目标样本属性应用于其他环境中，进行后续的操作。

表9.

第二目标样本属性
	属性D
属性G
	属性E

表10.

第二目标样本标识	第二目标样本属性
		标识1	属性D
标识3	属性G
		标识2	属性E

由于本申请实施例中的样本对齐过程是在可信执行环境中进行的，保证了样本标识不被泄露。同时，可信执行环境的通用性高，可以灵活地根据不同的应用场景定制不同的样本对齐方法，满足不同应用场景的需求。

另一种可能的实施方式，第一参与方系统在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集，并对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集之后，第一参与方系统通过第一可信执行环境，将第一目标交集发送至第二可信执行环境。第二参与方系统通过第二可信执行环境，基于第一目标交集包含的各个第一目标样本标识，获得对应的第二目标样本属性，并将各个第一目标样本标识和相应的第二目标样本属性，作为第二样本对齐结果。

具体地，基于图1所述的系统架构图，本申请实施例提供了另一种样本对齐方法的流程，如图4所示，该方法的流程由图1所示的第一参与系统101和第二参与方系统102交互执行，包括以下步骤：

步骤S401，在第一可信执行环境中获得第一参与方系统的至少一个第一样本标识。

步骤S402，在第二可信执行环境中获得第二参与方系统的至少一个第二样本标识。

步骤S401和步骤S402的执行不分先后。

步骤S403，第二参与方系统通过第二可信执行环境，发送至少一个第二样本标识至第一可信执行环境。

具体地，第二参与方系统通过第二可信执行环境，经过安全信道，发送至少一个第二样本标识至第一可信执行环境。

步骤S404，第一参与方系统在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集。

步骤S405，第一参与方系统在第一可信执行环境中，对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。

步骤S406，第一参与方系统在第一可信执行环境中，基于第一目标交集，确定第一样本对齐结果。

步骤S407，第一参与方系统通过第一可信执行环境，发送第一目标交集至第二可信执行环境。

具体地，第一参与方系统通过第一可信执行环境，经过安全信道，发送第一目标交集至第二可信执行环境。

步骤S408，第二参与方系统通过第二可信执行环境，基于第一目标交集包含的各个第一目标样本标识，获得对应的第二目标样本属性。

具体地，第一目标交集保存在第二可信执行环境中，第二参与方系统不能直接从第一可信执行环境中获取第一目标交集。

举例来说，第一参与方系统对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集如表4所示。第一参与方系统通过第一可信执行环境，发送表4所示的3个第一目标样本标识至第二可信执行环境。通过表4所示的3个第一目标样本标识查询表2，获得对应的第二目标样本属性，分别为属性G、属性D和属性E。如表11所示。

表11.

第二目标样本属性
	属性G
属性D
	属性E

步骤S409，第二参与方系统将各个第一目标样本标识和相应的第二目标样本属性，作为第二样本对齐结果。

具体地，第二参与方系统从第二可信执行环境中输出获得的各个第二目标样本属性，将获得的各个第二目标样本属性应用于其他环境中，进行后续的操作。

举例来说，将表4中的各个第一目标样本标识和表11中相对应的第二目标样本属性，作为第二样本对齐结果，如表12所示。从第二可信执行环境中输出表11中的3个第二目标样本属性，并将获得的各个第二目标样本属性应用于其他环境中，进行后续的操作。

表12.

第一目标样本标识	第二目标样本属性
		标识3	属性G
标识1	属性D
		标识2	属性E

针对选取生成第一目标交集的可信执行环境，本申请实施例至少提供以下几种实施方式：

方式一，随机选择任何一方的可信执行环境，进行至少一个第一样本标识和至少一个第二样本标识求交集，获得第一初始交集，并对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集，然后将第一目标样交集发送至另一方的可信执行环境。

方式二，通过比较至少一个第一样本标识的数量和至少一个第二样本标识的数量，若至少一个第一样本标识的数量小于至少一个第二样本标识的数量，则选择第二可信执行环境，进行至少一个第一样本标识和至少一个第二样本标识求交集，获得第一初始交集；否则，则选择第一可信执行环境，进行至少一个第一样本标识和至少一个第二样本标识求交集，获得第一初始交集。

在本申请实施例中，选择样本标识较多的参与方系统的可信执行环境进行样本求交，样本标识较少的参与方系统，将样本标识通过可信执行环境发送至另一参与方系统的可信执行环境中，可以有效地节约发送样本标识的时间。

由于本申请实施例中的样本对齐过程是在可信执行环境中进行的，保证了样本标识不被泄露。其次，可信执行环境的通用性高，可以灵活地根据不同的应用场景定制不同的样本对齐方法，满足不同应用场景的需求。

再者，在可信执行环境中，并不要求第一样本标识和第二样本标识是加密处理后的，因此，弥补了可信执行环境中首先样本对齐的时间开销，提升了样本对齐的性能。同时，由于第二参与方系统通过第二可信执行环境，只发送第二样本标识至第一可信执行环境中，并不发送第二样本属性，因此，可以有效地节约发送样本数据的时间。

为了更好的解释本申请实施例，下面结合具体实施场景，描述本申请实施例提供的一种样本对齐方法，如图5所示，第一参与方系统中包括第一数据库、第一可信执行环境和第一建模系统，第一数据库中保存至少一个第一原始样本标识和对应的第一样本属性。第二参与方系统中包括第二数据库、第二可信执行环境和第二建模系统，第二数据库中保存至少一个第二原始样本标识和对应的第二样本属性。同时，第一数据库中的样本标识数量大于第二数据库中的样本标识数量。

步骤S501，第一参与方系统，将第一数据库中的至少一个第一原始样本标识和对应的第一样本属性发送至第一可信执行环境中。

第一参与方系统在第一可信执行环境中，通过加密算法对第一原始样本标识进行加密，获得第一样本标识。

步骤S502，第二参与方系统，将第二数据库中的至少一个第二样本标识和对应的第一样本属性发送至第一可信执行环境中。

第二参与方系统，在第二可信执行环境中，通过加密算法对第二原始样本标识进行加密，获得第二样本标识。

步骤S503，第二参与方系统通过第二可信执行环境，发送至少一个第二样本标识至第一可信执行环境。

第一参与方系统在第一可信执行环境中，确定至少一个第一样本标识和至少一个第二样本标识的第一初始交集，并对第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。

第一参与方系统在第一可信执行环境中，基于第一目标交集包含的各个第一目标样本标识，获得对应的第一目标样本属性；并将各个第一目标样本标识和相应的第一目标样本属性，作为第一样本对齐结果。第一参与方系统从第一可信执行环境中输出获得的各个第一目标样本属性，将获得的各个第一目标样本属性应用于其他环境中，进行后续的操作。

步骤S504，第一参与方系统通过第一可信执行环境，发送第一目标交集至第二可信执行环境。

第二参与方系统在第二可信执行环境中，基于第一目标交集包含的各个第一目标样本标识，获得对应的第二目标样本属性；并将各个第一目标样本标识和相应的第二目标样本属性，作为第二样本对齐结果。第二参与方系统从第二可信执行环境中输出获得的各个第二目标样本属性，将获得的各个第二目标样本属性应用于其他环境中，进行后续的操作。

步骤S505，第一参与方系统将第一可信执行环境输出的各个第一目标样本属性输入至第一建模系统中，进行后续的建模应用。

步骤S506，第二参与方系统将第二可信执行环境输出的各个第二目标样本属性输入至第二建模系统中，进行后续的建模应用。

在本申请实施例中，由于本申请实施例中的样本对齐过程是在可信执行环境中进行的，保证了样本标识不被泄露。其次，可信执行环境的通用性高，可以灵活地根据不同的应用场景定制不同的样本对齐方法，满足不同应用场景的需求。第一参与方系统在第一可信执行环境中，对第一初始交集中的各个第一目标样本标识进行乱序处理，增强了数据的保密性。

选择样本标识较多的参与方系统的可信执行环境进行样本求交，样本标识较少的参与方系统，将样本标识通过可信执行环境发送至另一参与方系统的可信执行环境中，可以有效地节约发送样本标识的时间。

基于相同的技术构思，本申请实施例提供了一种样本对齐装置，该样本对齐装置中部署第一可信执行环境，如图6所示，该装置600包括：

获取模块601，用于在所述第一可信执行环境中，获得所述第一参与方系统的至少一个第一样本标识；

样本对齐模块602，用于在所述第一可信执行环境中，确定所述至少一个第一样本标识和所述至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集。

还用于基于所述第一目标交集，确定第一样本对齐结果。

可选地，还包括验证模块603，所述验证模块603具体用于：

可选地，所述样本对齐模块602还用于：

可选地，还包括输出模块604，所述输出模块604具体用于：

可选地，还包括发送模块605，所述发送模块605具体用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，计算机设备可以是终端或服务器，如图7所示，包括至少一个处理器701，以及与至少一个处理器连接的存储器702，本申请实施例中不限定处理器701与存储器702之间的具体连接介质，图7中处理器701和存储器702之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器702存储有可被至少一个处理器701执行的指令，至少一个处理器701通过执行存储器702存储的指令，可以执行上述样本对齐方法中所包括的步骤。

其中，处理器701是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器702内的指令以及调用存储在存储器702内的数据，从而进行样本对齐。可选的，处理器701可包括一个或多个处理单元，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。在一些实施例中，处理器701和存储器702可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器701可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述样本对齐方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种样本对齐方法，应用于第一参与方系统，所述第一参与方系统中部署第一可信执行环境，其特征在于，包括：

基于所述第一目标交集，确定第一样本对齐结果。

2.如权利要求1所述的方法，其特征在于，所述至少一个第一样本标识是所述第一参与方系统在所述第一可信执行环境中，通过加密算法对第一原始样本标识加密获得的；

3.如权利要求2所述的方法，其特征在于，所述在所述第一可信执行环境中，获得所述第一参与方系统的至少一个第一样本标识之前，还包括：

4.如权利要求3所述的方法，其特征在于，所述加密算法是所述第一可信执行环境和所述第二可信执行环境通过所述安全信道确定的。

5.如权利要求1所述的方法，其特征在于，所述基于所述第一目标交集，确定第一样本对齐结果，包括：

6.如权利要求5所述的方法，其特征在于，还包括：

7.如权利要求1所述的方法，其特征在于，所述在所述第一可信执行环境中，确定所述至少一个第一样本标识和所述至少一个第二样本标识的第一初始交集，并对所述第一初始交集中的各个第一目标样本标识进行乱序处理，获得第一目标交集之后，还包括：

8.如权利要求1至7任一所述的方法，其特征在于，所述至少一个第一样本标识的数量大于所述至少一个第二样本标识的数量。

9.一种样本对齐装置，所述样本对齐装置中部署第一可信执行环境，其特征在于，包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～8任一权利要求所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～8任一所述方法的步骤。