CN109766922B

CN109766922B - 数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN109766922B
Application number: CN201811554828.6A
Authority: CN
Inventors: 侯广健
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2021-10-12
Anticipated expiration: 2038-12-18
Also published as: CN109766922A

Abstract

本公开涉及一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。该方法包括：获取样本数据的特征参数，该样本数据是数据集合中的带有标签的数据；根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，模型输入参数是部分或者全部样本数据的特征参数；根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度，从数据集合中选取用于训练数学模型的目标样本数据；根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

Description

数据处理方法、装置、存储介质及电子设备

技术领域

本公开涉及机器学习领域，具体地，涉及一种数据处理方法、装置、存储介质及电子设备。

背景技术

机器学习技术广泛应用于各个领域，在某些特殊的应用场景中，由于带标签的样本数据获取成本高、周期长等因素，致使项目面临着样本数量不足的问题。在现有技术中，通常采用如下方法在小样本数据下完成模型训练：

1、通过meta-learning的方式。在该方式中，事先从与本次问题相近的若干问题中获得先验知识，并以此作为初始建模参数对模型进行训练。然而，寻找与本次问题相近的问题较为困难，且依然基于现有的少量样本数据进行模型训练，所得到的模型泛化能力不佳。

2、通过人工标注数据扩充样本数量。该方式依赖于人工随机选取样本数据并进行数据标注，数据选取的目的性不强，对于提升模型训练效果的作用可能不大。

发明内容

本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。

为了实现上述目的，本公开第一方面提供一种数据处理方法，所述方法包括：

获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；

根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；

根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；

根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练。

可选地，所述根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，包括：

设定一初始建模参数θ₁；

根据所述初始建模参数θ₁和所述样本数据的特征参数θ₂通过公式

进行迭代更新，并确定满足如下目标函数的参数θ′：

其中，θ＝[θ₁,θ₂]，θ′＝[θ₁′,θ₂′]，θ₁′为本次迭代计算得到的建模参数，θ₂′为本次迭代选用的特征参数，α为超参数，L(f_θ)表示当前迭代在参数θ下的Loss值；

将满足所述目标函数的θ₁′和θ₂′分别作为所述满足预设条件的建模参数以及模型输入参数。

可选地，所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据，包括：

计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息；

将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。

可选地，所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息，包括：

通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X,Y)：

其中，X为所述无标签数据的特征参数，Y为所述样本数据的特征参数，n为特征参数的长度。

可选地，所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据，所述方法还包括：

将所述样本数据的标签作为与所述样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签；

将与所述样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户，以提醒用户对该无标签数据添加标签。

本公开第二方面提供一种数据处理装置，所述装置包括：

特征参数获取模块，用于获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；

建模参数确定模块，用于根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；

目标样本选取模块，用于根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；

数学模型训练模块，用于根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练。

可选地，所述建模参数确定模块包括：

参数设定子模块，用于设定一初始建模参数θ₁；

参数更新子模块，用于根据所述初始建模参数θ₁和所述样本数据的特征参数θ₂通过公式

进行迭代更新，并确定满足如下目标函数的参数θ′：

参数确定子模块，用于将满足所述目标函数的θ₁′和θ₂′分别作为所述满足预设条件的建模参数以及模型输入参数。

可选地，所述目标样本选取模块包括：

距离计算子模块，用于计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息；

样本确定子模块，用于将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。

可选地，所述距离计算子模块用于通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X，Y):

可选地，所述装置还包括：

第一标记模块，用于将所述样本数据的标签作为与所述样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签；

第二标记模块，用于将与所述样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户，以提醒用户对该无标签数据添加标签。

本公开第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的数据处理方法的步骤。

本公开第四方面提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的数据处理方法的步骤。

根据本公开提供的技术方案，从带有标签的样本数据中获取特征参数对数学模型进行预训练，即使带有标签的样本数量较少，也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数，然后根据无标签数据的特征参数与模型输入参数的相似度大小选取用于训练数学模型的目标样本数据，以扩充用于训练数学模型的样本数量。值得说明的是，所得到的目标样本数据对训练当前数学模型的针对性较强，因而利用目标样本数据训练得到的数学模型泛化能力较好。并且，根据预训练得到的建模参数对数学模型进行初始化，可以加快数学模型的收敛速度，提高了数学模型的训练效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开实施例提供的一种数据处理方法的流程图；

图2是本公开实施例提供的一种数据处理方法的流程图；

图3是本公开实施例提供的一种数据处理装置的框图；

图4是本公开实施例提供的一种数据处理装置的框图；

图5是本公开实施例提供的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是本公开实施例提供的一种数据处理方法的流程图，如图1所示，该方法包括以下步骤：

S11、获取样本数据的特征参数。

其中，样本数据是数据集合中的带有标签的数据。每一带有标签的样本数据的特征参数可以表示为特征参数长度为L的向量，例如特征参数长度L等于4，样本数据A的特征参数为[a₁,a₂,a₃，a₄]，则N个样本数据的特征参数可以表示为矩阵[N，L]。

S12、根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数。

示例地，从带有标签的样本数据中每次随机选择N个样本作为样本子集，若N等于5，也就是说，500个带有标签的样本数据可以随机分为100组分别包括5个样本数据的样本子集。然后，将每一组样本子集的特征参数作为训练输入样本，相应的标签作为训练输出样本对数学模型进行预训练，并在预训练结果满足一定预设条件时，确定当前预训练得到建模参数以及模型输入参数。例如，预设条件可以是预训练得到的数学模型达到准确度阈值或者建模参数以及模型输入参数满足预设函数关系。其中，模型输入参数可以是部分或者全部样本数据的特征参数，表示为矩阵[N，L]，N为样本数据个数，L为特征参数长度。

在一种可能的实施方式中，设定数学模型的初始化参数为θ，该参数θ包括初始建模参数θ₁以及样本数据的特征参数θ₂，通过公式

进行一次或者多次迭代更新，其中，α为超参数，L(f_θ)表示当前迭代在参数θ下的Loss值，这样，可以得到本次迭代计算所更新的参数θ′，该参数θ′包括建模参数θ₁′以及样本数据的特征参数θ₂′。若参数θ′满足目标函数

则将满足目标函数的θ₁′和θ₂′分别作为满足预设条件的建模参数以及模型输入参数。

S13、根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度，从数据集合中选取用于训练数学模型的目标样本数据。

示例地，在确定模型输入参数θ₂′之后，针对模型输入参数中每一样本数据的特征参数，从数据集合中分别选取与该特征参数距离相近的多个无标签数据，并将这些无标签数据作为目标样本数据用于训练数学模型。目标样本数据的具体数量可以根据实际任务需求确定。

S14、根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

通过步骤S12可以确定建模参数θ₁′，基于建模参数θ₁′对数学模型进行初始化，并将目标样本数据作为训练样本对数学模型进行训练，可以使得数学模型在几次甚至一次迭代更新后就能达到很好的收敛效果，加快了数学模型的训练速度。

采用上述方法，从带有标签的样本数据中获取特征参数对数学模型进行预训练，即使带有标签的样本数量较少，也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数，然后根据无标签数据的特征参数与模型输入参数的相似度大小选取用于训练数学模型的目标样本数据，以扩充用于训练数学模型的样本数量。值得说明的是，所得到的目标样本数据对训练当前数学模型的针对性较强，因而利用目标样本数据训练得到的数学模型泛化能力较好。并且，根据预训练得到的建模参数对数学模型进行初始化，可以加快数学模型的收敛速度，提高了数学模型的训练效率。

图2是本公开实施例提供的一种数据处理方法的流程图，如图2所示，该方法包括以下步骤：

S21、获取样本数据的特征参数。

其中，样本数据是数据集合中的带有标签的数据。

S22、根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数。

S23、计算每一无标签数据的特征参数与模型输入参数中任一样本数据的特征参数的距离信息。

示例地，可以通过如下公式计算无标签数据的特征参数与模型输入参数中任一样本数据的特征参数的距离信息dist(X,Y)：

也就是说，对于包括m个样本数据，每一样本数据的特征参数长度为n的模型输入参数矩阵[m，n]中的任一样本数据的特征参数Y＝[y₁,y₂,…y_n]^T，与无标签数据的特征参数X＝[x₁,x₂,…x_n]^T之间的距离等于dist(X,Y)。

S24、将距离信息小于预设距离阈值的无标签数据作为目标样本数据。

针对模型输入参数的某一样本数据的特征参数Y，从数据集合中选取一定数量的与该特征参数Y距离相近的多个无标签数据。例如，预设距离阈值为a，确定与该特征参数Y之间的距离信息小于a的无标签数据为目标样本数据；或者计算每一无标签数据的特征参数与该特征参数Y之间的距离信息，选取与特征参数Y距离最近的N个无标签数据作为目标样本数据。对于模型输入参数中其他任一特征参数，确定目标样本数据的方法与上述过程类似，此处便不再赘述。

S25、根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

S26、将样本数据的标签作为与样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签。

在一种可能的实施方式中，若无标签数据的特征参数与样本数据的特征参数之间的距离信息小于第一预设距离阈值，可以直接将样本数据的标签作为该无标签数据的标签，其中，第一预设距离阈值小于上述预设距离阈值。这样，对样本数据进行自动标注，可以减少人力成本，提高样本数据打标的效率。

S27、将与样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户，以提醒用户对该无标签数据添加标签。

此外，若无标签数据的特征参数与样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值，可以将无标签数据推荐给用户，通过人工标注的方式完成无标签数据的打标过程，其中，第二预设阈值小于或者等于上述预设距离阈值。这样，对选取的样本数据进行人工标注，提高了标签的准确性，有利于提高模型的准确率。

采用上述方法，从带有标签的样本数据中获取特征参数对数学模型进行预训练，即使带有标签的样本数量较少，也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数，然后根据无标签数据的特征参数与模型输入参数中特征参数的距离大小确定可以用于训练数学模型的目标样本数据，还可以确定对无标签数据的打标方式，在扩充用于训练数学模型的样本数量的同时提高了目标样本数据的标注效率。由于所得到的目标样本数据对训练当前数学模型的针对性较强，因而利用目标样本数据训练得到的数学模型泛化能力较好。并且，根据预训练得到的建模参数对数学模型进行初始化，可以加快数学模型的收敛速度，提高了数学模型的训练效率。

图3是根据一示例性实施例示出的一种数据处理装置的框图，该装置300可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。参照图3，该装置300包括：

特征参数获取模块31，用于获取样本数据的特征参数，样本数据是数据集合中的带有标签的数据；

建模参数确定模块32，用于根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，模型输入参数是部分或者全部样本数据的特征参数；

目标样本选取模块33，用于根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度，从数据集合中选取用于训练数学模型的目标样本数据；

数学模型训练模块34，用于根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

具体地，建模参数确定模块32包括：

参数设定子模块，用于设定一初始建模参数θ₁；

参数更新子模块，用于根据初始建模参数θ₁和样本数据的特征参数θ₂通过公式

进行迭代更新，并确定满足如下目标函数的参数θ′：

参数确定子模块，用于将满足目标函数的θ₁′和θ₂′分别作为满足预设条件的建模参数以及模型输入参数。

具体地，目标样本选取模块33包括距离计算子模块，用于计算每一无标签数据的特征参数与模型输入参数中任一样本数据的特征参数的距离信息；样本确定子模块，用于将距离信息小于预设距离阈值的无标签数据作为目标样本数据。

可选地，距离计算子模块用于通过如下公式计算任一无标签数据的特征参数与模型输入参数中任一样本数据的特征参数的距离信息dist(X,Y)：

其中，X为无标签数据的特征参数，Y为样本数据的特征参数，n为特征参数的长度。

采用上述装置，从带有标签的样本数据中获取特征参数对数学模型进行预训练，即使带有标签的样本数量较少，也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数，然后根据无标签数据的特征参数与模型输入参数的相似度大小选取用于训练数学模型的目标样本数据，以扩充用于训练数学模型的样本数量。值得说明的是，所得到的目标样本数据对训练当前数学模型的针对性较强，因而利用目标样本数据训练得到的数学模型泛化能力较好。并且，根据预训练得到的建模参数对数学模型进行初始化，可以加快数学模型的收敛速度，提高了数学模型的训练效率。

图4是根据一示例性实施例示出的一种数据处理装置的框图，该装置400可以通过软件、硬件或者两者结合实现成为电子设备的部分或者全部。参照图4，该装置400包括特征参数获取模块41、建模参数确定模块42、目标样本选取模块43、数学模型训练模块44、第一标记模块45以及第二标记模块46。

其中，第一标记模块45，用于将样本数据的标签作为与样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签；第二标记模块46，用于将与样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户，以提醒用户对该无标签数据添加标签。

采用上述装置，从带有标签的样本数据中获取特征参数对数学模型进行预训练，即使带有标签的样本数量较少，也可以得到初步满足任务要求的数学模型的建模参数以及模型输入参数，然后根据无标签数据的特征参数与模型输入参数中特征参数的距离大小确定可以用于训练数学模型的目标样本数据，还可以确定对无标签数据的打标方式，在扩充用于训练数学模型的样本数量的同时提高了目标样本数据的标注效率。由于所得到的目标样本数据对训练当前数学模型的针对性较强，因而利用目标样本数据训练得到的数学模型泛化能力较好。并且，根据预训练得到的建模参数对数学模型进行初始化，可以加快数学模型的收敛速度，提高了数学模型的训练效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的数据处理方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的数据处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的数据处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的数据处理方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据，所述样本数据为图片数据；

根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据，其中，所述目标样本数据为未标注标签的图片数据；

根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练；

所述根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，包括：

设定一初始建模参数θ₁；

进行迭代更新，并确定满足如下目标函数的参数θ′：

2.根据权利要求1所述的方法，其特征在于，所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息，包括：

其中，X为所述无标签数据的特征参数，Y为所述样本数据的特征参数，n为特征参数的长度，x_i为所述无标签数据的特征参数X中第i个特征参数，y_i为模型输入参数中所述样本数据的特征参数Y中第i个特征参数。

4.根据权利要求2所述的方法，其特征在于，所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据，所述方法还包括：

5.一种数据处理装置，其特征在于，所述装置包括：

特征参数获取模块，用于获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据，所述样本数据为图片数据；

目标样本选取模块，用于根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据，其中，所述目标样本数据为未标注标签的图片数据；

数学模型训练模块，用于根据所述建模参数对所述数学模型进行初始化，并根据所述目标样本数据对所述数学模型进行训练；

所述建模参数确定模块包括：

参数设定子模块，用于设定一初始建模参数θ₁；

进行迭代更新，并确定满足如下目标函数的参数θ′：

6.根据权利要求5所述的装置，其特征在于，所述目标样本选取模块包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至4中任一项所述方法的步骤。