CN113902135A

CN113902135A - 样本数据量联合扩充方法、装置、设备、系统及存储介质

Info

Publication number: CN113902135A
Application number: CN202111265684.4A
Authority: CN
Inventors: 刘国柄; 刘嘉; 吕宏强
Original assignee: Xinzhi I Lai Network Technology Co ltd
Current assignee: Xinzhi I Lai Network Technology Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-07

Abstract

本公开涉及机器学习技术领域，提供了样本数据量联合扩充方法、装置、系统、设备及存储介质。该方法包括：根据原始数据生成第一时间序列数据；根据第一时间序列数据中的全部或部分数据，生成第一特征向量；对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。本公开能够经由服务器实现第一终端与第二终端的本地样本数据的非泄露横向联合，从而帮助缺少训练数据的终端获得足够数量且与其本地数据相似的样本数据。

Description

样本数据量联合扩充方法、装置、设备、系统及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种样本数据量联合扩充方法、装置、设备、系统及存储介质。

背景技术

通常训练机器学习应用程序或算法模型需要大量的样本数据。而如何获取到足够数量的样本数据以提供给机器进行学习，从而得到能够解决某特定问题的应用程序或算法模型，是一项十分具有挑战性的工作。

例如，当发起方想要训练得到可解决某特定问题的算法模型(例如，为解决道路拥堵问题而想要构建预测交通流量的算法模型)时，由于冷启动或其他原因导致其拥有的样本数据量较少，而仅采用发起方自身拥有的样本数据来训练机器学习算法，得到的算法模型的泛化能力和识别精度往往较差，因而无法投入实际应用。

因此，如何获取到足够数量的样本数据，从而提高机器学习得到的模型的泛化能力和识别精度是目前机器学习亟待解决的热点问题之一。

发明内容

有鉴于此，本公开实施例提供了一种样本数据量联合扩充方法、装置、设备、系统及存储介质，以获得足够数量的样本数据提供给机器学习使用，从而提高机器学习得到的模型的泛化能力和识别精度。

本公开实施例的第一方面，提供了一种样本数据量联合扩充方法，应用于第一终端，包括：

获取原始数据，根据原始数据生成第一时间序列数据；

根据第一时间序列数据中的全部或部分数据，生成第一特征向量；

对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例的第二方面，提供了另一种样本数据量联合扩充方法，应用于服务器，包括：

接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，第一样本数据集包括至少一个第一加密数据，第二样本数据集包括多个第二加密数据；

从第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例的第三方面，提供了一种样本数据量联合扩充装置，包括：

数据获取模块，被配置为获取原始数据，根据原始数据生成第一时间序列数据；

特征向量生成模块，被配置为根据第一时间序列数据中的全部或部分数据，生成第一特征向量；

数据量扩充模块，被配置为对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例的第四方面，提供了另一种样本数据量联合扩充装置，包括：

数据接收模块，被配置为接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，第一样本数据集包括至少一个第一加密数据，第二样本数据集包括多个第二加密数据；

数据筛选模块，被配置为从第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例的第五方面，提供了一种样本数据量联合扩充系统，包括：

服务器，服务器包括上述(第一)样本数据量联合扩充装置；

与服务器通信连接的第一终端，第一终端包括上述(第二)样本数据量联合扩充装置；以及

与服务器通信连接的至少一个第二终端。

本公开实施例的第六方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第七方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果至少包括：当发起方(第一终端)想要训练得到可解决某特定问题的算法模型，且目前所拥有的样本数据量较少时，为了提高其算法模型的泛化能力和识别精度，可通过获取原始数据，根据原始数据生成第一时间序列数据；根据第一时间序列数据中的全部或部分数据，生成第一特征向量；对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。通过上述方法，第一终端(缺少样本数据的发起方)可以经由服务器将其本地所拥有的样本数据与第二终端(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种样本数据量联合扩充方法的流程示意图；

图3是本公开实施例提供的另一种样本数据量联合扩充方法的流程示意图；

图4是本公开实施例提供的一种样本数据量联合扩充装置的结构示意图；

图5是本公开实施例提供的另一种样本数据量联合扩充装置的结构示意图；

图6是本公开实施例提供的一种样本数据量联合扩充系统的结构示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种样本数据量联合扩充方法和装置。

图1是本公开实施例的一种联邦学习的架构示意图。如图1所示，联邦学习的架构可以包括服务器101以及至少一个第一终端102、至少一个第二终端103。

具体地，联邦学习(Federated Learning)也称为联合学习，是一种带有隐私保护、安全加密技术的分布式机器学习框架，可以让分散的各参与方在满足不向其他参与者披露隐私数据的前提下，协作进行机器学习的模型训练。

在联邦学习过程中，服务器101建立基本模型，并将该模型的基本结构和模型参数发送至与其建立通信连接的至少一个第一终端102、至少一个第二终端103。第一终端102和第二终端103根据下载的基本结构和模型参数构建模型，利用本地数据进行模型训练，获得更新的模型参数，并将更新的模型参数加密上传至服务器101。服务器101对第一终端102和第二终端103根发送的模型参数进行聚合，获得全局模型参数，并将全局模型参数传回至第一终端102和第二终端103。第一终端102和第二终端103根根据接收的全局模型参数对各自的模型进行更新，从而实现对模型的训练。由于联邦学习过程中的第一终端102和第二终端103上传的数据为模型参数，本地数据并不会上传至服务器101，且所有参与方可以共享最终的模型参数，因此可以在保证数据隐私的基础上实现共同建模。

需要说明的是，第一终端102、第二终端103的数量不限于如上所述的一个或两个，而是可以根据需要进行设置，本公开实施例对此不作限制。

本公开实施例提供的样本数据量联合扩充方法，可应用于上述联邦学习架构中，具体的，第一终端102通常是缺少样本数据的一方，例如，A城市的a电力公司。当a电力公司为构建智慧城市项目所需的电力输送预测算法模型时，发现其本地样本数据量不满足训练该电力输送预测算法模型使用时，第一终端102可通过将其本地的原始数据先转换生第一时间序列数据，再根据第一时间序列数据中的全部或部分数据生成第一特征向量，并对第一特征向量进行加密后得到第一加密数据，然后将包含该第一加密数据的第一样本数据集上传给服务器101，以经由服务器101(第三方)与至少一个第二终端103所提供的第二样本数据集中的数据进行非泄露式地横向联合，从而获得足够数量且与其本地数据相似的样本数据以供机器进行联邦学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

虽然一些发起方通过联合采用其他参与方(例如，其他城市或区域的同行)所拥有的样本数据，能够在一定程度上增加样本数据量，但是在联合采用参与方提供的样本数据时，并未深入考虑到各方数据的内在联系，机器利用这些样本数据学习到的模型的泛化能力仍然较差。而本公开提供的技术方案，第一终端102在经由服务器101(第三方)与至少一个第二终端103所提供的第二样本数据集中的数据进行横向联合时，充分考虑到了己方本地样本数据与对方(第二终端103)提供的样本数据的相似度，并选择与己方本地样本数据相似的样本数据进行联合扩充其本地样本数据量，并将这些联合后的样本数据集提供给机器进行联邦学习，构建目标算法模型，所得到的目标算法模型的泛化能力较好，识别精度较高。

图2是本公开实施例提供的一种样本数据量联合扩充方法的流程示意图。图2的样本数据量联合扩充方法可以由图1的第一终端102执行。如图2所示，该样本数据量联合扩充方法包括：

步骤S201，获取原始数据，根据原始数据生成第一时间序列数据。

其中，原始数据，通常是指第一终端102(发起方，如某城市的燃气公司、电力公司、天气预报公司等)存储在其本地的数据。例如，某天气预报公司通过部署在一些气象站的数据采集器实时所采集到的天气数据(包括温度、湿度、光线强度等)，并存储在其本地。而这些存储在其本地的数据即为原始数据。

作为一示例，某天气预报公司通过气象站的数据采集器实时采集的数据通常是时序数据，即系时间序列数据，是指同一统一指标按时间顺序记录的数据列。其中，该时间序列数据可以是时期数，也可以是时点数。例如，该时间序列数据可以是某个月份或者某年份的天气数据，也可以是某天的某个时间点的天气数据。

步骤S202，根据第一时间序列数据中的全部或部分数据，生成第一特征向量。

作为一示例，结合前述，假设某天气预报公司的本地存储的原始数据为20XX年1～12月份，共12个月份所采集的天气数据，其中每个月份的天气数据中包括每天24小时每个时间点所采集的天气数据。将这12个月份的天气数据按照从1月至12月份的顺序进行排序，则可得到第一时间序列数据。

示例性的，根据第一时间序列数据中的全部或部分数据，生成第一特征向量，具体可以是，根据上述第一时间序列数据中的12个月份的所有天气数据，生成第一特征向量，也可以是根据上述第一时间序列数据中的一个或多个月份的天气数据，生成第一特征向量。

其中，第一特征向量，是指对第一时间序列数据进行特征提取，生成该第一时间序列数据的新特征，并将这些新特征依次往后排开，即生成第一特征向量。例如，第一时间序列数据为12月份的天气数据，对12月份的每天的每个时间点(以小时为单位)所采集的数据，即一共31*24＝744个时间点数据进行特征抽取(如，求这744个数据的平方和、均值、方差等)，得到新的特征(即平方和、均值、方差)，再将平方和、均值、方差依次往后排开，即生成第一特征向量。

步骤S203，对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

其中，第二终端103，通常为可能拥有第一终端102在构建或改善其目标算法模型时所需要的更多样本数据的一方。或者，是第一终端102合作开发某项目的合作方等。例如，第一终端102是项目的发起方，第二终端103是项目的参与方。

作为一示例，可采用局部敏感哈希(Locality Sensitive Hashing，LSH)算法对上述第一特征向量进行加密处理，得到第一加密数据。类似的，第二终端103(参与方)在将第二样本数据集上传至服务器101之前，也可以采用与第一终端102对其原始数据进行处理，并加密得到第一加密数据的方式来对其原始数据进行处理，得到第二加密数据，再将第二加密数据打包成第二样本数据集上传至服务器101中。

第一终端102将经过上述处理得到的第一加密数据，打包成第一样本数据集，并上传至服务器101中，服务器101在接收到第一终端102上传的第一样本数据集后，可从接收到的至少一个第二终端上传的第二样本数据集中筛选出与该第一加密数据相似的第二加密数据，并将该第二加密数据增加至第一样本数据集中，从而扩充第一样本数据集的数据量，以为后续的机器学习提供充足的样本数据，进而提高模型的泛化能力和识别精度。

本公开实施例提供的技术方案，通过获取原始数据，根据原始数据生成第一时间序列数据；根据第一时间序列数据中的全部或部分数据，生成第一特征向量；对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。通过上述方法，第一终端(缺少样本数据的发起方)可以经由服务器将其本地所拥有的样本数据与第二终端(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量，且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

在一些实施例中，上述步骤S202，包括：

从第一时间序列数据中选取排在最后一位的最新数据，根据最新数据生成第一特征向量。

作为一示例，结合前述，可从上述第一时间序列数据(包括1～12月份共12个月的天气数据)中选取排在最后一位的最新数据，即12月份的天气数据，并根据该12月份的天气数据生成第一特征向量。

通常时间越接近当前时间点或时期的数据更能反映最近的数据变化情况，通过选取第一时间序列数据中的排在最后一位的最新数据，生成第一特征向量，并对该第一特征向量进行加密，得到第一加密数据，并经由服务器101从第二终端103提供的第二样本数据集中筛选出与该第一加密数据相似的第二加密数据，并将该第二加密数据增加至第一样本数据集中，后续采用该第一样本数据集的样本数据训练模型，得到的模型能够更好的预测下一时间点或时期的变化。

在一些实施例中，上述步骤S203，包括：

从第一时间序列数据中选取排在最后M位的近期数据，根据近期数据生成第三特征向量，对第三特征向量进行加密，获得第三加密数据，其中，M为≥2的正整数；

将包含第一加密数据和第三加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据和/或第三加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中。

作为一示例，结合前述例子，可从第一时间序列数据中选取排在最后的2位的(即11月份和12月份)天气数据作为近期数据，并根据该近期数据生成第三特征向量。具体的，对11月份和12月份的天气数据汇总后进行特征抽取，得到至少2个新特征，并将这些新特征依次往后排开，即生成第三特征向量。

同样的，可以采用局部敏感哈希算法对上述第三特征向量进行加密处理，得到第三加密数据。

第一终端102将包含上述第一加密数据和第三加密数据的第一样本数据集上传至服务器101，服务器101在接收到第一样本数据集后，可从第二终端上传的第二样本数据集中筛选出与第一加密数据和/或第三加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中。

例如，第一样本数据集中包含有A(第一加密数据)、B(第三加密数据)，第二样本数据集中包括a、b、c、d、e、f，共六个第二加密数据，服务器101将A分别与a、b、c、d、e、f进行比较，得出与A相似的数据有a、b；将B分别与a、b、c、d、e、f进行比较，得出与B相似的数据有f，那么可将a、b和f增加至第一样本数据集中，得到包含A，B，a，b，f的新的第一样本数据集，即将原来的第一样本数据集的数据量由2个联合扩充至5个。

本公开实施例提供的技术方案，通过选取第一时间序列数据中的排在最后M位的近期数据，生成第三特征向量，并对该第三特征向量进行加密，得到第三加密数据，并将包含第一加密数据和第三加密数据的第一样本数据集上传至服务器101，经由服务器101从第二终端103提供的第二样本数据集中筛选出与第一加密数据和/或第三加密数据(最新和/或近期数据)相似的第二加密数据，从而可快速扩充其第一样本数据集的数据量，并降低数据采集的成本。

在一些实施例中，上述步骤S203中，对第一特征向量进行加密，获得第一加密数据，具体可以是：

初始化随机生成二维矩阵，其中，二维矩阵的行数与第一特征向量的维数相同，列数为随机数；

将第一特征向量与随机生成的二维矩阵相乘，得到第一加密数据，第一加密数据为哈希编码。

作为一示例，假设第一特征向量为1*3维的向量[0.1,0.3,0.5]，初始化随机生成的二维矩阵为3*4的矩阵

将第一特征向量与该二维矩阵相乘，即

该1*4为的矩阵[1.4,1.9,3.8,5.2]即为第一加密数据(哈希编码)。

本公开实施例提供的技术方案，通过采用局部哈希敏感哈希算法对第一特征向量进行加密，得到第一加密数据，具体的，通过随机生成的行数与第一特征向量的维数相同的二维特征向量对第一特征向量进行加密，得到第一加密数据，再将第一加密数据打包成第一样本数据集上传至服务器101，同样的，第二终端103在上传第二样本数据集时，也可以采用上述方法对其本地数据进行加密后上传。第一终端102和第二终端103通过对其本地数据加密后再上传，并经由第三方(服务器101)筛选出第一终端102所需要的样本数据，可达到非泄露式地联合扩充第一样本数据集的目的，即既保护了第一终端102和第二终端103双方的本地数据的私有性，同时又可解决第一终端102缺少训练模型的样本数据的问题。

图3是本公开实施例提供的另一种样本数据量联合扩充方法的流程示意图。图3的样本数据量联合扩充方法可以由图1的服务器101执行。如图2所示，该样本数据量联合扩充方法包括：

步骤S301，接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，第一样本数据集包括至少一个第一加密数据，第二样本数据集包括多个第二加密数据。

步骤S302，从第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

具体地，当发起方(第一终端102)想要训练得到可解决某特定问题的算法模型，且目前所拥有的样本数据量较少时，可向服务器101发送横向联合其他参与方的数据的请求，该请求中包含有第一样本数据集，该第一样本数据集中包含第一加密数据。服务器101在接收到第一终端102上传的第一样本数据集，以及至少一个第二终端上传的包含多个第二加密数据的第二样本数据集后，可通过比较第一加密数据与每个第二加密数据的相似度等方式来筛选出与该第一加密数据相似的第二加密数据，并将该第二加密数据增加至第一样本数据集中，从而扩充第一样本数据集的数据量。

本公开实施例提供的技术方案，通过上述方法，服务器101作为第三方，可帮助第一终端102(缺少样本数据的发起方)与第二终端(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量，且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

在一些实施例中，上述步骤S302，包括：

分别计算每个第二加密数据与第一加密数据的相似度，将与第一加密数据的相似度符合预设阈值范围的第二加密数据增加至第一样本数据集中。

其中，预设阈值范围可以根据实际情况进行设置，例如，可以设置为大于等于85％，或者大于等于90％等。

作为一示例，假设预设阈值范围为大于等于85％，第一样本数据集中包含第一加密数据A，第二样本数据集中包含3个第二加密数据a、b、c，那么分别计算A与a，A与b，以及A与c的相似度，得到三个相似度。例如，A与a，A与b，以及A与c的相似度分别为90％，75％和60％，则将与A的相似度≥85％的a增加至第一样本数据集中。

在一些实施例中，上述的分别计算每个第二加密数据与第一加密数据的相似度，将与第一加密数据的相似度符合预设阈值范围的第二加密数据增加至第一样本数据集中，具体可为：

分别对每个第二加密数据的字符串与第一加密数据的字符串进行异或运算，得到每个第二加密数据与第一加密数据之间的汉明距离；

将与第一加密数据的汉明距离符合预设阈值范围的第二加密数据增加至第一样本数据集中。

其中，异或是一个数学运算符。它应用于逻辑运算。异或的数学符号为

计算机符号为“xor”。其运算法则为：

如果a、b两个值不相同，则异或结果为1。如果a、b两个值相同，异或结果为0。异或也叫半加运算，其运算法则相当于不带进位的二进制加法。

汉明距离，是使用在数据传输差错控制编码里面的，汉明距离是一个概念，它表示两个(相同长度)字对应位不同的数量，以d(x,y)表示两个字x,y之间的汉明距离。对两个字符串进行异或运算，并统计结果为1的个数，那么这个数就是汉明距离。

作为一示例，当根据上述加密处理后得到的第一加密数据A的字符串为[1,0.8,0.7,0.5]，第二加密数据a的字符串为[1,0.3,0.7,0.5]、b的字符串为[1.2,0.4,0.8,0.5]、c的字符串为[0.2,2.4,1,0.7]。分别对第一加密数据和第二加密数据进行异或运算，具体的，第一加密数据A的字符串[1,0.8,0.7,0.5]与第二加密数据a的字符串[1,0.3,0.7,0.5]经异或运算后得到的汉明距离为1；第一加密数据A的字符串[1,0.8,0.7,0.5]与第二加密数据b的字符串[1.2,0.4,0.8,0.5]经异或运算后得到的汉明距离为3；第一加密数据A的字符串[1,0.8,0.7,0.5]与第二加密数据c的字符串[0.2,2.4,1,0.7]经异或运算后得到的汉明距离为4。

这里的预设阈值范围也可以根据实际情况灵活设置，比如，可以是汉明距离小于等于3，也可以是汉明距离小于等于2等。

作为一示例，结合前述例子，假设预设阈值范围为明距离小于等于3，那么第二加密数据a和b与第一加密数据A之间的汉明距离符合该预设阈值范围，此时，可将第二加密数据a和b加至第一样本数据集中。

在另一些实施例中，上述的分别计算每个第二加密数据与第一加密数据的相似度，将与第一加密数据的相似度符合预设阈值范围的第二加密数据增加至第一样本数据集中，还可具体为：

按照从高至低对每个第二加密数据与第一加密数据的相似度进行排序，得到排序结果；

按照排序结果，将与第一加密数据的相似度符合预设阈值范围的第二加密数据逐一增加至第一样本数据集中，直至第一样本数据集中的当前数据量达到训练模型所需的预设数据量。

作为一示例，结合前述例子，汉明距离越小，表明两数据越相似。按照从高至低的顺序，对上述第二加密数据a、b、c分别与第一加密数据A的相似度进行排序，得到的排序结果为a＞b＞c。

假设训练模型所需的预设数据量为5，第一样本数据集中的当前数据量为3，即还缺2个数据。预设阈值范围为汉明距离小于等于3，那么可先将第二加密数据a增加至第一样本数据集中，再将第二加密数据b增加至第一样本数据集中，直至第一样本数据集的数据量达到5个，即完成对第一样本数据集的联合扩充。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图4是本公开实施例提供的一种样本数据量联合扩充装置的示意图。如图4所示，该样本数据量联合扩充装置包括：

数据获取模块401，被配置为获取原始数据，根据原始数据生成第一时间序列数据；

特征向量生成模块402，被配置为根据第一时间序列数据中的全部或部分数据，生成第一特征向量；

数据量扩充模块403，被配置为对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例提供的技术方案，通过数据获取模块401获取原始数据，根据原始数据生成第一时间序列数据；特征向量生成模块402根据第一时间序列数据中的全部或部分数据，生成第一特征向量；数据量扩充模块403对第一特征向量进行加密，获得第一加密数据，并将包含第一加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。通过上述装置，第一终端(缺少样本数据的发起方)可以经由服务器将其本地所拥有的样本数据与第二终端(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量，且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

在一些实施例中，上述特征向量生成模块402包括：

第一向量生成单元，被配置为从第一时间序列数据中选取排在最后一位的最新数据，根据最新数据生成第一特征向量。

在一些实施例中，上述数据量扩充模块403包括：

第一加密单元，被配置为从第一时间序列数据中选取排在最后M位的近期数据，根据近期数据生成第三特征向量，对第三特征向量进行加密，获得第三加密数据，其中，M为≥2的正整数；

数据上传单元，被配置为将包含第一加密数据和第三加密数据的第一样本数据集上传至服务器，以使服务器从至少一个第二终端上传的第二样本数据集中筛选出与第一加密数据和/或第三加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中。

在一些实施例中，上述数据量扩充模块403还包括：

矩阵生成单元，被配置为初始化随机生成二维矩阵，其中，二维矩阵的行数与第一特征向量的维数相同，列数为随机数；

第二加密单元，被配置为将第一特征向量与随机生成的二维矩阵相乘，得到第一加密数据，第一加密数据为哈希编码。

图5是本公开实施例提供的另一种样本数据量联合扩充装置的示意图。如图5所示，该样本数据量联合扩充装置包括：

数据接收模块501，被配置为接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，第一样本数据集包括至少一个第一加密数据，第二样本数据集包括多个第二加密数据；

数据筛选模块502，被配置为从第二样本数据集中筛选出与第一加密数据相似的第二加密数据，并将第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例提供的技术方案，通过上述装置，可帮助第一终端102(缺少样本数据的发起方)与第二终端(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量，且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

在一些实施例中，上述数据筛选模块502包括：

第一数据增加单元，被配置为分别计算每个第二加密数据与第一加密数据的相似度，将与第一加密数据的相似度符合预设阈值范围的第二加密数据增加至第一样本数据集中。

在一些实施例中，上述数据筛选模块502还包括：

汉明距离计算单元，被配置为分别对每个第二加密数据的字符串与第一加密数据的字符串进行异或运算，得到每个第二加密数据与第一加密数据之间的汉明距离；

第二数据增加单元，被配置为将与第一加密数据的汉明距离符合预设阈值范围的第二加密数据增加至第一样本数据集中。

在一些实施例中，上述数据筛选模块502还包括：

排序单元，被配置为按照从高至低对每个第二加密数据与第一加密数据的相似度进行排序，得到排序结果；

第三数据增加单元，被配置为按照排序结果，将与第一加密数据的相似度符合预设阈值范围的第二加密数据逐一增加至第一样本数据集中，直至第一样本数据集中的当前数据量达到训练模型所需的预设数据量。

图6是本公开实施例提供的一种样本数据量联合扩充系统的结构示意图。

如图6所示，该样本数据量联合扩充系统包括：

服务器101，服务器101包括如图4所示的样本数据量联合扩充装置；与服务器101通信连接的第一终端102，第一终端102包括如图3所示的样本数据量联合扩充装置；以及与服务器101通信连接的至少一个第二终端103。

具体地，第一终端102(发起方)与服务器101可通过网络、蓝牙等方式通信，第一终端102可对其本地原始数据经过上述加密方法处理后得到第一加密数据，并将第一加密数据打包成第一样本数据集后上传至服务器101。至少一个第二终端103(参与方)与服务器101可通过网络、蓝牙等方式通信，第二终端103可参照第一终端102对其本地原始数据的加密处理方式，对其本地原始数据进行加密处理，得到第二加密数据，并将第二加密数据打包成第二样本数据集后上传至服务器101。服务器101在接收到第一终端102上传的第一样本数据集以及第二终端103上传的第二样本数据集后，可通过将第一样本数据集中的第一加密数据分别与第二样本数据集中的每个第二加密数据进行相似度比较，然后筛选出与第一加密数据相似的第二加密数据，并将该第二加密数据增加至第一样本数据集中，以扩充第一样本数据集的数据量。

本公开实施例提供的技术方案，能够通过将服务器101作为第三方，帮助第一终端102(缺少样本数据的发起方)与第二终端103(其他参与方)的样本数据进行非泄露式地横向联合，从而获得足够数量，且与其本地数据相似的样本数据以供机器学习使用，进而提高所想要构建的算法模型的泛化能力和识别精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图7是本公开实施例提供的电子设备700的示意图。如图7所示，该实施例的电子设备700包括：处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。

示例性地，计算机程序703可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器702中，并由处理器701执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序703在电子设备7中的执行过程。

电子设备700可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备700可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是电子设备700的示例，并不构成对电子设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，电子设备还可以包括输入输出设备、网络接入设备、总线等。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器702可以是电子设备700的内部存储单元，例如，电子设备700的硬盘或内存。存储器702也可以是电子设备700的外部存储设备，例如，电子设备700上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器702还可以既包括电子设备700的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。存储器702还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种样本数据量联合扩充方法，其特征在于，应用于第一终端，包括：

获取原始数据，根据所述原始数据生成第一时间序列数据；

根据所述第一时间序列数据中的全部或部分数据，生成第一特征向量；

对所述第一特征向量进行加密，获得第一加密数据，并将包含所述第一加密数据的第一样本数据集上传至服务器，以使所述服务器从至少一个第二终端上传的第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，以扩充所述第一样本数据集的数据量。

2.根据权利要求1所述的样本数据量联合扩充方法，其特征在于，所述根据所述第一时间序列数据中的全部或部分数据，生成第一特征向量，包括：

从所述第一时间序列数据中选取排在最后一位的最新数据，根据所述最新数据生成第一特征向量。

3.根据权利要求2所述的样本数据量联合扩充方法，其特征在于，所述对所述第一特征向量进行加密，获得第一加密数据，并将包含所述第一加密数据的第一样本数据集上传至服务器，以使所述服务器从至少一个第二终端上传的第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，包括：

从所述第一时间序列数据中选取排在最后M位的近期数据，根据所述近期数据生成第三特征向量，对所述第三特征向量进行加密，获得第三加密数据，其中，M为≥2的正整数；

将包含所述第一加密数据和所述第三加密数据的第一样本数据集上传至服务器，以使所述服务器从至少一个第二终端上传的第二样本数据集中筛选出与所述第一加密数据和/或所述第三加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中。

4.根据权利要求1～3中任意一项所述的样本数据量联合扩充方法，其特征在于，所述对所述第一特征向量进行加密，获得第一加密数据，包括：

初始化随机生成二维矩阵，其中，所述二维矩阵的行数与所述第一特征向量的维数相同，列数为随机数；

将所述第一特征向量与随机生成的二维矩阵相乘，得到第一加密数据，所述第一加密数据为哈希编码。

5.一种样本数据量联合扩充方法，其特征在于，应用于服务器，包括：

接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，所述第一样本数据集包括至少一个第一加密数据，所述第二样本数据集包括多个第二加密数据；

从所述第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，以扩充所述第一样本数据集的数据量。

6.根据权利要求5所述的样本数据量联合扩充方法，其特征在于，所述从所述第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，包括：

分别计算每个所述第二加密数据与所述第一加密数据的相似度，将与所述第一加密数据的相似度符合预设阈值范围的第二加密数据增加至所述第一样本数据集中。

7.根据权利要求6所述的样本数据量联合扩充方法，其特征在于，所述分别计算每个所述第二加密数据与所述第一加密数据的相似度，将与所述第一加密数据的相似度符合预设阈值范围的第二加密数据增加至所述第一样本数据集中，包括：

分别对每个所述第二加密数据的字符串与所述第一加密数据的字符串进行异或运算，得到每个所述第二加密数据与所述第一加密数据之间的汉明距离；

将与所述第一加密数据的汉明距离符合预设阈值范围的第二加密数据增加至所述第一样本数据集中。

8.根据权利要求6所述的样本数据量联合扩充方法，其特征在于，所述分别计算每个所述第二加密数据与所述第一加密数据的相似度，将与所述第一加密数据的相似度符合预设阈值范围的第二加密数据增加至所述第一样本数据集中，包括：

按照从高至低对每个所述第二加密数据与所述第一加密数据的相似度进行排序，得到排序结果；

按照所述排序结果，将与所述第一加密数据的相似度符合预设阈值范围的第二加密数据逐一增加至所述第一样本数据集中，直至所述第一样本数据集中的当前数据量达到训练模型所需的预设数据量。

9.一种样本数据量联合扩充装置，其特征在于，包括：

数据获取模块，被配置为获取原始数据，根据所述原始数据生成第一时间序列数据；

特征向量生成模块，被配置为根据所述第一时间序列数据中的全部或部分数据，生成第一特征向量；

数据量扩充模块，被配置为对所述第一特征向量进行加密，获得第一加密数据，并将包含所述第一加密数据的第一样本数据集上传至服务器，以使所述服务器从至少一个第二终端上传的第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，以扩充所述第一样本数据集的数据量。

10.一种样本数据量联合扩充装置，其特征在于，包括：

数据接收模块，被配置为接收第一终端上传的第一样本数据集，以及至少一个第二终端上传的第二样本数据集，其中，所述第一样本数据集包括至少一个第一加密数据，所述第二样本数据集包括多个第二加密数据；

数据筛选模块，被配置为从所述第二样本数据集中筛选出与所述第一加密数据相似的第二加密数据，并将所述第二加密数据增加至所述第一样本数据集中，以扩充所述第一样本数据集的数据量。

11.一种样本数据量联合扩充系统，其特征在于，包括：

服务器，所述服务器包括如权利要求10所述的样本数据量联合扩充装置；

与所述服务器通信连接的第一终端，所述第一终端包括如权利要求9所述的样本数据量联合扩充装置；以及

与所述服务器通信连接的至少一个第二终端。

12.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。