CN112396084A

CN112396084A - 数据处理方法、装置、设备及存储介质

Info

Publication number: CN112396084A
Application number: CN201910765590.XA
Authority: CN
Inventors: 鲍媛媛; 马丽秋; 李杨
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2021-02-23

Abstract

本申请公开了一种数据处理方法、装置、设备及存储介质。方法包括：确定从历史样本中筛选的特征样本和所述特征样本的类型；所述特征样本的类型构成第一类型集合；确定目标样本和所述目标样本的类型；所述目标样本的类型构成第二类型集合；所述第二类型集合与所述第一类型集合不同；根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型；所述第一分类模型能够识别所述第一类型集合所包括的类型；所述第二分类模型能够识别第三类型集合所包括的类型；所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。

Description

数据处理方法、装置、设备及存储介质

技术领域

本申请涉及机器学习领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术

目前，当分类模型存在不能识别的新类型时，基于新类型对应的训练数据和原有类型对应的原始数据重新进行模型的训练，从而得到能够识别新类型的分类模型，而存储所有原始数据以便支持模型的更新，占用了大量的存储资源，尤其在物联网设备等资源受限的条件下，造成存储资源的浪费。

发明内容

本申请实施例提供一种数据处理方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供了一种数据处理方法，包括：

确定从历史样本中筛选的特征样本和所述特征样本的类型；所述特征样本的类型构成第一类型集合；

确定目标样本和所述目标样本的类型；所述目标样本的类型构成第二类型集合；所述第二类型集合与所述第一类型集合不同；

根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型；所述第一分类模型能够识别所述第一类型集合所包括的类型；所述第二分类模型能够识别第三类型集合所包括的类型；所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。

第二方面，本申请实施例提供了一种数据处理装置，包括：

第一确定单元，用于确定从历史样本中筛选的特征样本和所述特征样本的类型；所述特征样本的类型构成第一类型集合；

第二确定单元，用于确定目标样本和所述目标样本的类型；所述目标样本的类型构成第二类型集合；所述第二类型集合与所述第一类型集合不同；

调整单元，用于根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型；所述第一分类模型能够识别所述第一类型集合所包括的类型；所述第二分类模型能够识别第三类型集合所包括的类型；所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。

第三方面，本申请实施例提供一种数据处理设备，所述设备至少包括：处理器和配置为存储可执行指令的存储介质，其中：所述处理器配置为执行存储的可执行指令；

所述可执行指令配置为执行上述的数据处理方法。

第八方面，本申请实施例提供一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令配置为执行上述的数据处理方法。

本申请实施例提供的数据处理方法，结合从历史样本中筛选的特征样本和涉及新类型的目标样本对已有的能够识别历史样本的第一分类模型进行训练，得到能够识别历史样本的类型和目标样本所涉及的新类型的第二分类模型，从而充分利用已有的第一分类模型，结合从历史样本中筛选的特征样本以及目标样本的联合训练机制，自动化构建出新的第二分类模型，确保学习的准确率的同时，减少了训练第二分类模型所使用的数据的数量，从而节省了存储资源。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本申请实施例的数据处理方法的一种可选的流程示意图；

图2为本申请实施例的数据处理方法的一种可选的流程示意图；

图3为本申请实施例的分类模型的一种可选的结构示意图；

图4为本申请实施例的数据处理方法的一种可选的流程示意图；

图5为本申请实施例的可持续学习的一种可选的流程示意图；

图6为本申请实施例所提供的种数据处理装置的一种可选的组成结构示意图；

图7为本申请实施例所提供的种数据处理设备的一种可选的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

为了便于理解本申请实施例的方案，首先对本申请实施例所应用的持续学习进行说明：

持续学习为能够根据新的训练数据学习新的概念，同时不会忘记已经学习到的概念。例如，对于一个家用机器人，一开始仅能识别跑步、走路等行为，但当增加了“摔倒”的训练数据后，其能够以较高准确率识别“摔倒”行为的同时，仍然能够以较高的准确率识别已能够识别的“跑步”、“走路”等行为。

目前持续学习的方案包括以下几种：

方案一、基于原标签数据和新获得的标签数据重新进行模型训练，以得到更新后的模型；

方案二、通过训练数据的更新和隐马尔科夫模型实现的模型的更新。

在上述方案一中，需要存储所有原数据以便支持模型的更新，造成存储资源的浪费；在上述方案二中，需要对训练数据进行不断的更新，且需要存储原有的数据以支持模型的更新，造成存储资源的浪费。

基于相关技术所存在的上述问题，本申请实施例提供一种数据处理方法，充分利用已有的第一分类模型，结合从历史样本中筛选的特征样本以及目标样本的联合训练机制，自动化构建出新的第二分类模型，确保学习的准确率的同时，减少了训练第二分类模型所使用的数据的数量，从而节省了存储资源。

本申请实施例提供的数据处理方法可应用于各种形式的作为数据处理设备的电子设备中，本申请实施提供的电子设备可以实施为各种终端，例如移动电话(手机)、平板电脑、笔记本电脑、物联网设备等具有无线通信能力的移动终端，又例如台式计算机、桌面电脑等。另外，电子设备也可以实施为一台服务器或由多台服务器构成的服务器集群，在此不加以限定。

图1为本申请实施例提供的数据处理方法的流程示意图，如图1所示，包括以下步骤：

步骤S101，确定从历史样本中筛选的特征样本和所述特征样本的类型；所述特征样本的类型构成第一类型集合。

历史样本为样本中已经被用于训练分类模型的样本。对历史样本进行筛选，将保留的历史样本称为特征样本。这里，所有特征样本的类型构成第一类型集合。

本申请实施例中，根据设定的筛选规则从历史样本中筛选特征样本，筛选规则包括以下之一：

规则1、随机选取；

规则2、根据样本的类型，每一类型的样本中选取设定数量的样本作为该类型对应的特征样本；

规则3、根据样本的类型，每一类型的样本中选取密度大于设定值的样本作为该类型对应的特征样本。

筛选规则的规则内容可根据实际需求进行设施，本申请实施例对此不进行限定。

这里，将历史样本数据训练的分类模型称为第一分类模型，第一分类模型能够识别每一历史样本的类型，即第一分类模型能够识别特征样本的类型构成的第一分类模型中的类型。

在本申请实施例中，数据处理设备可以任务的方式确定样本所在的样本集合，将不同任务包括的样本称为不同的样本集合，且每一样本集合中的数量可为一个或多个，且不同样本集合中的数量可不同，也可相同。将第i个任务的样本集合即第i个样本集合称为D_i，其中，D_i＝{X_ij，j＝1,2,...,n}，X_ij为样本集合D_i的第j个样本，且样本集合D_i包括有n个样本，n为大于1的整数。样本集合中的样本的类型构成的类型集合为Y_i，Y_i＝{y_ij，j＝1,2,...,n}，其中，y_ij为样本X_ij的类型。这里，将从样本集合D_i中抽取的特征样本构成的特征样本集合可称为E_i。

在本申请实施例中，每一样本可包括至少一个维度的参数，比如：不同样本为不同用户的身体指标，每个用户的身体指标包括：身高、体重、性别三个维度的参数。在本申请实施例中，对样本表征的含义以及样本所包括的维度的数量以及不同维度的参数不进行任何的限定。此时，

为样本X_ij的第s维度的参数，X_ij的维度的数量为m，m为大于0的整数。类型y_ij可通过l维度的数据进行表征，即

步骤S102，确定目标样本和所述目标样本的类型；所述目标样本的类型构成第二类型集合；所述第二类型集合与所述第一类型集合不同。

目标样本为未被用于训练分类模型的样本。其中，目标样本为新的任务对应的样本集合中的样本，这里，将目标样本所在的样本集合称为目标样本集合，目标样本集合中的目标样本的类型构成第二分类集合。第一分类集合和第二分类集合不同。第二分类集合中包括有第一分类集合中不具有的类型，即包括有第一分类模型无法识别的类型。比如：第一分类集合中的类型包括：类型1、类型2和类型3，第二分类集合中的类型包括：类型4。又比如：第一分类集合中的类型包括：类型1、类型2和类型3，第二分类集合中的类型包括：类型2和类型4。再比如：第一分类集合中的类型包括：类型1、类型2和类型3，第二分类集合中的类型包括：类型4和类型5。

在本申请实施例中，可将目标样本所在的目标样本集合定义为D_i，将D_i中的目标样本的类型构成的第二类型集合定义为Y_i。将目标样本结集合之前的D₁、D₂至D_i-1分别称为历史样本集合，将历史样本集合D₁、D₂至D_i-1中的历史样本训练的第一分类模型定义为N_i-1。从D₁、D₂至D_i-1中进行特征样本的抽取得到的特征样本集合分别为：E₁、E₂至E_i-1。第一类型集合T_i-1包括E₁、E₂至E_i-1中各特征样本的类型，即T_i-1＝Y₁∪Y₂∪…∪Y_i-1。N_i-1

步骤S103，根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型。

所述第一分类模型能够识别所述第一类型集合所包括的类型；所述第二分类模型能够识别第三类型集合所包括的类型；所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。

本申请实施例中，根据E₁、E₂至E_i-1中的特征样本和目标样本集合D_i中的目标样本，以及E₁、E₂至E_i-1中的特征样本的类型构成的第一类型集合T_i-1和D_i中的目标样本的类型构成的第二类型集合Y_i，对第一分类模型N_i-1的参数进行调整，直到第一分类模型N_i-1收敛，将收敛后的第一分类模型N_i-1称为第二分类模型定义为N_i，第二分类模型N_i能够识别的第三分类集合T_i为第一分类集合T_i-1和第二分类集合Y_i的并集，即T_i＝T_i-1∪Y_i＝Y₁∪Y₂∪…∪Y_i-1∪Y_i，从而得到既能够识别历史样本的类型又能识别新的样本中的新类型的分类模型。

这里，可将E₁、E₂至E_i-1中的特征样本和目标样本集合D_i中的目标样本作为第一分类模型N_i-1的输入，将得到的输出分别和第一类型集合T_i-1和第二类型集合Y_i中各样本的类型进行比较，并根据比较结果对第一分类模型N_i-1的参数进行调整，再次将E₁、E₂至E_i-1中的特征样本和目标样本集合D_i中的目标样本作为参数调整后的第一分类模型N_i-1的输入，直到第一分类模型N_i-1收敛，即将E₁、E₂至E_i-1中的特征样本和目标样本集合D_i中的目标样本输入第一分类模型N_i-1后得出的输出结果与第一类型集合T_i-1和第二类型集合Y_i中各样本的类型相同且不再变化，得到第二分类模型N_i。

这里，第二分类模型N_i的目标函数可如公式(1)所示：

其中，Ψ是候选模型集合，t_i为特征样本集合中特征样本的个数；

是E₁、E₂、E_i-1的交叉熵损失函数，

是D_i的交叉损失函数；

其中，

如公式(2)所示：

如公式(3)所示：

本申请实施例中，对第一分类模型N_i-1训练时所使用的目标函数不进行任何的限定。

需要说明的是，在本申请实施例中，分类模型N_i-1的训练方法也可参见步骤S101至步骤S103描述的方法，此时，历史样本集合为D₁、D₂至D_i-2，对应的特征集合分别为E₁、E₂至E_i-2，目标样本集合为E_i-1，根据E₁、E₂至E_i-2中的特征样本和D_i-1中的目标样本，以及E₁、E₂至E_i-1中的特征样本的类型构成的类型集合T_i-2和D_i-1中的目标样本的类型构成的类型集合Y_i-1，对分类模型N_i-2的参数进行调整，直到分类模型N_i-2收敛，得到分类模型定义为N_i-1，分类模型N_i-1能够识别的分类集合T_i-1为分类集合T_i-2和分类集合Y_i-1的并集，即T_i-1＝T_i-2∪Y_i-1＝Y₁∪Y₂∪…∪Y_i-1。

本申请实施例中，当样本数据中出现当前分类模型无法识别的新的类型时，将新的类型对应的任务的样本数据作为目标样本数据，将当前分类模型的训练所使用的即当前分类模型能够识别的类型对应的任务的样本数据作为历史样本数据，通过从历史样本数据中筛选的特征样本和目标样本数据对当前分类模型进行训练，直到分类模型收敛，得到能够识别新的类型的分类模型。

本申请实施例中的分类模型所采用的学习算法和网络结构可根据实际需求进行设置，本申请实施例对此不进行限定。

在一些实施例中，在执行S101之前，所述方法还包括：

将所述历史样本进行降维；从降维后的历史样本中选取所述特征样本。

历史样本集合D₁、D₂至D_i-1中的历史样本X_1j、X_2j、X_(i-1)j进行降维，将维度数量m变换为m'，从而对历史样本的大小进行压缩和加密。这里，将降维后的X_1j、X_2j、X_(i-1)(j)可定义为

且

以此类推。此时，在选取特征样本时，从降维后的历史样本构成的历史样本集合中筛选各历史样本集合中的特征样本。

这里，将历史样本集合D₁、D₂至D_i-1中的历史样本X_1j、X_2j、X_(i-1)j进行降维后，构成的历史样本集合可定义为

其中，

至

中的降维后的历史样本可分别定义为f(X_1j)、f(X_2j)至f(X_(i-1)j)。其中，f(x)对历史样本进行降维所采用的降维函数。

在本申请实施例中，对历史样本进行降维所采用的降维方法可包括：主成分分析(Principal Component Analysis，PCA)、线性判别分析(Discriminant Analysis，LDA)等线性映射方法，以及核方法(核+线性)，二维化和张量化(二维+线性)，流形学习等非线性映射方法。本发明实施例对降维所采用的降维方法不进行任何的限定。

在一些实施例中，在执行S101之前，所述方法还包括：从历史样本中筛选特征样本。从历史样本中筛选特征样本的执行可如图2所示，包括：

步骤S100a，根据不同历史样本的类型，将所述历史样本构成的历史样本集合划分为至少一个样本子集合。

这里，历史样本集合为未降维的原始的历史样本构成的历史样本集合D₁、D₂至D_i-1，也可为降维后的历史样本构成的历史样本集合

至

根据一历史样本集合中不同历史样本的类型，对历史样本集合中的历史样本进行分类，将类型相同的历史样本划分至同一样本子集合中，此时，属于同一样本子集合的历史样本的类型相同，属于不同样本子集合的历史样本的类型不同。

比如：历史样本集合D_i-1中的历史样本包括：样本1、样本2、样本3至样本10，对应的类型分别为：类型1、类型2、类型3、类型2、类型2、类型3、类型1、类型2、类型3、和类型1，则将样本1、样本7和样本10归为一个样本子集合，将样本2、样本4、样本5、样本8归为一个样本子集合，将样本3、样本6和样本9归为一个样本子集合。

当一个历史样本集合中所有的历史样本相同即包括的历史样本的类型为一种时，则该历史样本集合中的历史样本集合为一个样本子集合。当一个历史样本集合中的历史样本的类型为两种时，将历史样本集合划分为两个样本子集合。当一个历史样本集合中的历史样本的类型为三种时，将历史样本集合划分为三个样本子集合。可见，所划分的样本子集合的数量同历史样本集合中的历史样本的类型的数量。

步骤S100b，从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本。

将历史样本集合划分为样本子集合后，从各样本子集合中进行各类型的特征样本的筛选，比如：从各样本子集合中随机筛选设定数量的特征样本，又比如：根据样本子集合中各历史样本的密度筛选密度大的设定数量的特征样本。

需要说明的是，在本申请实施例中，各样本子集合中筛选的特征样本的数量可相同，也可不同。本申请实施例中对筛选特征样本的筛选方法以及所筛选的数量不进行任何的限定。

在一些实施例中，步骤S100b从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本，可执行为：

对于每一样本子集合，分别执行以下处理，得到相应样本子集合中的特征样本：确定所述样本子集合中各历史样本的密度；根据各历史样本的密度对所述样本子集合中的历史样本进行排序；将排序在前的设定数量个历史样本作为所述样本子集合的特征样本。

在从至少一个样本子集合中进行特征样本的筛选时，以样本子集合为筛选单位，分别从每一个样本子集合中筛选相应样本子集合中所包括的特征样本，即以类型为筛选单位，筛选历史样本集合中每种类型所对应的特征样本。

这里，定义历史样本集合D_i-1或

中类别为k的历史样本构成的样本子集合为I_k，分别计算I_k中每一历史样本的密度，并基于各历史样本的密度对I_k中的所有历史样本进行排序，将排序在前的设定数量个历史样本作为特征样本，构成I_k对应的特征样本集合e_(i-1)k。

比如：同上例，一个样本子集合中的样本包括：样本2、样本4、样本5和样本8，在而分别计算样本2、样本4、样本5和样本8的密度，并根据密度对样本2、样本4、样本5和样本8进行排序，得到的排序为：样本2>样本8>样本5>样本4，当设定的数量为2时，则该样本子集合中的特征样本为样本2和样本8。

历史样本集合合D_i-1或

中筛选的特征样本构成的特征样本集合E_i-1为

在一示例中，当通过上述筛选特征样本的方法分别从包括将样本1、样本7和样本10的一个样本子集合以及包括样本3、样本6和样本9的样本子集合中提供筛选的特征样本分别为：(样本7、样本10)、以及(样本3、样本9)时，历史样本集合合D_i-1或

中的特征样本包括：样本2、样本8、样本7、样本10、样本3和样本9。

在一些实施例中，所述确定所述样本子集合中各历史样本的密度，包括：

对于所述样本子集合中的每一历史样本，分别执行以下处理，得到相应历史样本的密度：确定所述历史样本分别与所述样本子集合中其他历史样本之间的距离；将所确定的距离相加，得到所述历史样本的密度。

这里，历史样本集合合D_i-1或

中类别为k的历史样本构成的样本子集合为I_k，I_k中的样本g与I_k中其它样本h的距离为d_gh，d为距离阈值，则其中样本g的密度ρ_g可由公式(4)计算得到：

其中，

在一些实施例中，所述根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型，包括：

对所述目标样本进行降维；

根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型。

在本申请实施例中，在对第一分类模型进行训练时所使用的目标样本也可为经过降维的目标样本。

目标样本集合D_i中的目标样本X_ij进行降维，将维度数量m变换为m'，从而对历史样本的大小进行压缩和加密，得到降维后的

且

此时，在进行第二分类模型的训练时，基于降维后的目标样本、从历史样本中筛选的特征样本以及各样本的类型对第一分类模型的参数进行调整，得到第二分类模型。

这里，将目标样本集合D_i中的目标样本X_ij进行降维后，构成的样本集合可定义为

当将对目标样本X_ij进行降维所采用的降维函数定义为f(x)，则对目标样本X_ij进行降维后得到的降维后的目标样本为

需要说明的是，特征样本可为从合D₁、D₂至D_i-1中筛选的，也可为从

至中筛选的。

在本申请实施例中，对历史样本进行降维所采用的降维方法可包括：PCA、LDA等线性映射方法，以及核方法(核+线性)，二维化和张量化(二维+线性)，流形学习等非线性映射方法。本发明实施例中，对历史样本进行降维和对目标样本进行降维所采用的降维方法可相同，也可不同。

在一些实施例中，所述根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型，包括：

对所述降维后的目标样本进行升维，得到更新后的目标样本；

将所述更新后的目标样本作为第三分类模型的输入，得到所述第三分类模型输出的将所述更新后的目标样本识别为对应类型的概率；所述第三分类模型能够识别第二类型集合所包括的类型；

根据所述特征样本、所述特征样本的类型、降维后的目标样本以及相应的更新后的目标样本对应概率，调整第一分类模型的参数，得到第二分类模型。

对降维后的目标样本f(X_ij)进行升维，将f(X_ij)的维度扩展至m维，得到更新后的目标样本g(f(X_ij))。其中，g(x)为对降维后的目标样本进行升维所采用的升维函数。本申请中对降维后的目标样本f(X_ij)进行升维所采用的升维方法不进行任何限定。

第三分类模型可定义为

能够识别的类型为目标样本的类型构成的第二类型集合Y_i。将更新后的目标样本g(f(X_ij))作为第三分类模型的输入，得到第三分类模型将g(f(X_ij))识别为Y_ij的概率

其中，Y_ij为X_ij的类型。

此时，根据E₁、E₂至E_i-1中的特征样本和

中的降维后目标样本f(X_ij)，以及E₁、E₂至E_i-1中的特征样本的类型构成的第一类型集合T_i-1和

中各f(X_ij)对应的g(f(X_ij))，对第一分类模型N_i-1的参数进行调整，直到第一分类模型N_i-1收敛，得到第二分类模型定义为N_i。

此时，公式(2)可替换为公式(5)：

公式(3)可替换为公式(6)：

在一些实施例中，可通过以下步骤的执行得到第三训练模型：

将所述目标样本输入设置的网络模型，得到所述网络模型的输出结果；

将所述目标样本对应的输出结果和相应目标样本的类型进行比较，根据比较结果调整所述网络模型的参数，直到所述网络模型收敛，得到所述第三分类模型。

将目标样本集合D_i和各目标样本的类型作为第三分类模型的训练数据，对第三分类模型

能够识别的类型为目标样本的类型构成的第二类型集合Y_i。

将目标样本集合D_i中的目标样本作为设置的网络模型的输入，将得到的输出分别和第二类型集合Y_i中各样本的类型进行比较，并根据比较结果对设置的网络模型的参数进行调整，再次将目标样本集合D_i中的目标样本作为参数调整后的设置的网络模型的输入，直到设置的网络模型收敛，即将目标样本集合D_i中的目标样本输入设置的网络模型N_i-1后得出的输出结果与第二类型集合Y_i中各样本的类型相同且不再变化，得到第三分类模型

这里，第三分类模型

的目标函数可如公式(7)所示：

其中，l是交叉熵损失函数，如公式(8)表示：

设置的网络模型的结构可如图3所示，包括：卷积层1、池化层1、卷积层2、池化层2、全连接层和输出层。其中，卷积层1的卷积核的大小可为5×5，且卷积核的数量为32，池化层1的卷积核的大小可为2×2，卷积层1的卷积核的大小可为5×5，且卷积核的数量为64，池化层1的卷积核的大小可为2×2，全连接层的维度可为1024。

需要说明的是，本申请实施例中，对设置的网络模型的网络结构和目标函数不进行任何的限定，可根据实际需求进行限定。

下面，通过具体的应用场景对本申请实施例提供的数据处理方法进行说明。

如图4所示，包括：

步骤S401，基于原始数据D_i-1以及Y_i-1训练得到分类器

并确定满足T_i-1的分类器N_i-1。

其中，N₁同

步骤S402，利用降维函数f(x)对D_i-1中的样本进行降维压缩到m'维，得到f(X_i-1)，利用函数g(x)将f(X_i-1)扩展到m维，得到g(f(X_i-1))，更新压缩后的数据集为

步骤S403，基于数据集

得到数据集的特征点集合E_i-1。

步骤S404，联合E₁、E₂至E_i-1、N_i-1和

训练得到新的分类器N_i。

其中，在步骤S401中，训练数据集为D_i-1＝{X_(i-1)j，j＝1,2,...,n}，其中，

根据训练数据集D_i-1及对应标记集Y_(i-1)＝{y_(i-1)j，j＝1,2,...,n}，

其中，分类器为

可采用的如图3所示的深度学习模型的网络结构。

分类器为

的目标函数可为：

使用随机梯度下降算法训练得到最优模型

其中Φ是模型集合，l是交叉熵损失函数，如下表示：

步骤S402中，利用随机函数f(x)对原始数据D_i-1中的样本X_i-1进行压缩加密，得到压缩后的数据f(X_i-1)，压缩到m'维；利用函数g(x)将f(X_i-1)扩展到m维，得到g(f(X_i-1))，将

作用于g(f(X_i-1))，构建压缩后的数据集

在步骤S403中，基于数据集

得到数据集的特征点集合E_i-1；假设数据集

中包括有类别c_i-1个，类别为k的特征样本集合为e_(i-1)k，假设数据集

中类别为k的数据样本I_k中样本g与I_k中其它样本h的距离为d_gh，d为距离阈值，则其中样本g的密度ρ_g可由下式计算得到：

其中，

将I_k中的样本按照密度高低进行排序，将排列于前t个的样本添加到数据集

中类别为k的特征样本集合e_(i-1)k中，并进一步得到所有类别的特征集合E_i-1；其中，

则E_i-1中的类别的总数为t_i-1＝c_i-1*t。

在步骤S404中，联合E₁、E₂至E_i-1、N_i-1及对应的分类器

和

训练得到新的分类器N_i；其中，损失函数如下式：

以上述损失函数为目标函数，使用随机梯度下降算法训练得到新的分类器N_i，如下式所示：

其中，Ψ是候选模型集合，

是E₁,E₂,…,E_i-1的交叉熵损失函数，

是

的交叉损失函数。

通过本申请实施例提供的数据处理方法，可实现如图5所示的持续学习方法，如图5所示：

通过数据集D_i得到分类器

对数据集D_i中的样本进行降维，得到降维后的样本构成的数据集

利用

特征点集合E_i-1以及分类器N_i-1得到分类器N_i。

通过数据集D_i+1得到分类器

对数据集D_i+1中的样本进行降维，得到降维后的样本构成的数据集

基于

得到特征点集合E_i。利用

特征点集合E_i以及分类器N_i得到分类器N_i+1。

通过图5所示的学习方法，结合之前任务的特征样本集合和现任务样本集合进行联合训练得到模型的机制能够在涉及到新的类别、新的训练数据增加时，充分利用已有的模型、数据，自动化构建出新的模型，以较高的准确率完成之前所有任务。

本发明实施例提供的方法中，一方面，通过原始样本中筛选的特征样本对已有模型进行训练，能够减少存储训练数据所需的存储空间，节省存储设备的资源，尤其在物联网设备的存储资源有限的条件下，效果尤为明显。另一方面，对样本进行压缩加密，降低了数据存储量的同时，保护了数据隐私。

基于前述的实施例，本申请实施例提供一种数据处理装置，该装置包括所包括的各模块、以及各模块所包括的各部件，可以通过数据处理设备中的处理器来实现；当然也可通过逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图6为本申请实施例所提供的一种数据处理装置的组成结构示意图，如图6所示，该数据处理装置600包括：

第一确定单元601，用于确定从历史样本中筛选的特征样本和所述特征样本的类型；所述特征样本的类型构成第一类型集合；

第二确定单元602，用于确定目标样本和所述目标样本的类型；所述目标样本的类型构成第二类型集合；所述第二类型集合与所述第一类型集合不同；

调整单元603，用于根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型；所述第一分类模型能够识别所述第一类型集合所包括的类型；所述第二分类模型能够识别第三类型集合所包括的类型；所述第三类型集合为所述第一类型集合和所述第二类型集合的并集。

在其他实施例中，所述装置还包括：第一筛选单元，用于：

将所述历史样本进行降维；

从降维后的历史样本中选取所述特征样本。

在其他实施例中，所述装置还包括：第二筛选单元，用于：

根据不同历史样本的类型，将所述历史样本构成的历史样本集合划分为至少一个样本子集合；属于同一样本子集合的历史样本的类型相同，属于不同样本子集合的历史样本的类型不同；

从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本。

在其他实施例中，第二筛选单元，还用于：

对于每一样本子集合，分别执行以下处理，得到相应样本子集合中的特征样本：

确定所述样本子集合中各历史样本的密度；

根据各历史样本的密度对所述样本子集合中的历史样本进行排序；

将排序在前的设定数量个历史样本作为所述样本子集合的特征样本。

在其他实施例中，第二筛选单元，还用于：

对于所述样本子集合中的每一历史样本，分别执行以下处理，得到相应历史样本的密度：

确定所述历史样本分别与所述样本子集合中其他历史样本之间的距离；

将所确定的距离相加，得到所述历史样本的密度。

在其他实施例中，调整单元603，还用于：

对所述目标样本进行降维；

在其他实施例中，调整单元603，还用于：

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的数据处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

对应的，本申请实施例提供一种数据处理设备，图7为本申请实施例所提供的数据处理设备的组成结构示意图，如图7所示，所述数据处理设备700至少包括：处理器701、通信接口702和配置为存储可执行指令的存储介质703，其中：处理器701通常控制所述数据处理设备700的总体操作。

通信接口702可以使数据处理设备通过网络与其他终端或服务器通信。

存储介质703配置为存储由处理器701可执行的指令和应用，还可以缓存待处理器701和数据处理设备700中各模块待处理或已处理的数据，可以通过闪存(FLASH)或随机访问存储器(Random Access Memory，RAM)实现。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由数据处理设备的处理器701执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述历史样本进行降维；

从降维后的历史样本中选取所述特征样本。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述至少一个样本子集合所包括的历史样本中选取相应样本子集合中的特征样本，包括：

确定所述样本子集合中各历史样本的密度；

5.根据权利要求4所述的方法，其特征在于，所述确定所述样本子集合中各历史样本的密度，包括：

将所确定的距离相加，得到所述历史样本的密度。

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述特征样本、所述特征样本的类型、所述目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型，包括：

对所述目标样本进行降维；

7.根据权利要求6所述的方法，其特征在于，所述根据所述特征样本、所述特征样本的类型、降维后的目标样本以及所述目标样本的类型，调整第一分类模型的参数，得到第二分类模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种数据处理设备，其特征在于，所述设备至少包括：处理器和配置为存储可执行指令的存储介质，其中：所述处理器配置为执行存储的可执行指令；

所述可执行指令配置为执行上述权利要求1至8任一项所提供的数据处理方法。

11.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令配置为执行上述权利要求1至8任一项所提供的数据处理方法。