CN117035048A

CN117035048A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN117035048A
Application number: CN202210475998.5A
Authority: CN
Inventors: 刘汶霖; 胡玉鹏; 邢静怡; 鹿存哲
Original assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Current assignee: Wuhan TCL Group Industrial Research Institute Co Ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-11-10

Abstract

本发明公开了一种数据处理方法、装置、电子设备及存储介质，该方法包括获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据，采用增强模型对有标签数据和无标签数据进行增强，得到有标签数据集和无标签数据集，通过分类模型对有标签数据集和无标签数据集进行预测处理，以得到增强前后的有标签数据的预测结果、增强前后的无标签数据的预测结果，然后根据预测结果确定第一损失值、第二损失值、第三损失值，并基于确定的损失值，对预设的增强模型的模型参数进行优化以得到完成训练的半监督模型。采用本发明实施例提供的方法训练得到的半监督模型，能够实现同时对有标签数据和无标签数据进行增强，解决了深度学习中样本少的困境。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

深度学习的模型训练通常依赖大量的标签数据，在只有少量数据上通常表现不好。在这种背景下，数据增强应运而生。数据增强是一种通过让有限的数据产生更多的数据来人工扩展数据集的技术，它既可以缓解数据量不足的问题，也可以用于提高模型的性能。

以训练数据的类型作为划分节点，数据增强可以分为有监督的数据增强和无监督的数据增强。有监督的数据增强是只针对标注数据进行数据扩增，而有标签的数据通常是少量的，监督式数据增强只能提高有限的性能。无监督数据增强通过在总损失函数中加入一致性损失函数，将有监督的数据增强扩展到未标注数据中，此方法能保证增强前后数据分布的一致性，但未充分利用监督数据的数据信息。因此，现有技术仍无法解决深度学习中样本少的困境。

发明内容

本发明实施例的目的是提供一种数据处理方法、装置、电子设备及存储介质，以解决深度学习中样本少的困境。

在第一方面，为实现上述目的，本发明实施例提供了一种数据处理方法，包括：

获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据；

采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集；

通过所述训练后的分类模型对所述有标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果和所述增强后的有标签数据的第二预测结果，并通过所述训练后的分类模型对所述无标签数据集进行预测处理，得到所述增强前的无标签数据的第三预测结果和所述增强后的无标签数据的第四预测结果；

根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，根据所述第三预测结果与所述第四预测结果确定第三损失值；

基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，以得到完成训练的半监督模型。

进一步的，在所述通过所述训练后的分类模型对所述有标签数据集进行预测处理的步骤之前，所述数据处理方法还包括：

通过所述有标签数据集对待训练的分类模型进行第一训练，得到第一分类模型，并通过所述无标签数据集对所述第一分类模型进行第二训练，得到训练后的分类模型。

进一步的，所述采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集，包括：

采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，并将增强前的有标签数据和所述增强后的有标签数据作为有标签数据集；

采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，并将增强前的无标签数据和所述增强后的无标签数据作为无标签数据集。

进一步的，所述采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，包括：

对任意两个增强前的有标签数据进行mixup处理，得到增强后的有标签数据，并对进行mixup处理的两个增强前的有标签数据对应的两个标签进行mixup处理，得到所述增强后的有标签数据的标签。

进一步的，所述采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，包括：

对增强前的无标签数据进行回译增强处理，得到增强后的无标签数据。

进一步的，在所述获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据的步骤之前，所述数据处理方法还包括：

获取预设的标注数据集，所述标注数据集包括标注数据和标注数据对应的标注标签；

对所述标注数据进行编码处理，得到所述标注数据对应的第一嵌入数据；

对所述标注标签进行转化处理，得到所述标注标签的独热编码；

将所述第一嵌入数据和所述独热编码作为有标签数据。

获取预设的未标注数据；

对所述未标注数据进行编码处理，得到所述未标注数据对应的第二嵌入数据；

将所述第二嵌入数据作为无标签数据。

进一步的，所述根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，包括：

根据所述第一预测结果与增强前的有标签数据的标签的差异，确定第一损失值，根据所述第二预测结果与增强后的有标签数据的标签的差异，确定第二损失值；

所述根据所述第三预测结果与所述第四预测结果确定第三损失值，包括：

根据所述第三预测结果和所述第四预测结果之间的差异，确定第三损失值。

进一步的，所述数据处理方法还包括：

对所有的嵌入数据的数据长度进行调整，以使所有的嵌入数据的数据长度相同。

进一步的，所述基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，包括：

将所述第一损失值、所述第二损失值以及所述第三损失值相加，得到总损失值；

基于所述总损失值，对所述预设的增强模型的模型参数进行优化。

进一步的，所述通过所述无标签数据集对所述第一分类模型进行第二训练，包括：

将所述无标签数据集输入至所述第一分类模型进行预测，得到增强前的无标签数据的第五预测结果和增强后的无标签数据的第六预测结果；

根据所述第五预测结果和所述第六预测结果的分类类别的一致性，对所述第一分类模型进行训练。

在第二方面，本发明实施例提供了一种数据处理装置，包括：

获取模块，用于获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据；

增强模块，用于采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集；

预测模块，用于通过所述训练后的分类模型对所述有标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果和所述增强后的有标签数据的第二预测结果，并通过所述训练后的分类模型对所述无标签数据集进行预测处理，得到所述增强前的无标签数据的第三预测结果和所述增强后的无标签数据的第四预测结果；

确定模块，用于根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，根据所述第三预测结果与所述第四预测结果确定第三损失值；

优化模块，用于基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，以得到完成训练的半监督模型。

在第三方面，为了解决相同的技术问题，本发明实施例提供了一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现上述任一项所述的数据处理方法中的步骤。

在第四方面，为了解决相同的技术问题，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的数据处理方法中的步骤。

本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质，该方法通过获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据，采用预设的增强模型对有标签数据和无标签数据进行增强，得到有标签数据集和无标签数据集，再通过训练后的分类模型对有标签数据集和无标签数据集进行预测处理，以得到增强前的有标签数据的第一预测结果、增强后的有标签数据的第二预测结果、增强前的无标签数据的第三预测结果、增强后的无标签数据的第四预测结果，然后根据第一预测结果确定第一损失值、第二预测结果确定第二损失值、第三预测结果与第四预测结果确定第三损失值，并基于第一损失值、第二损失值以及第三损失值，对预设的增强模型的模型参数进行优化，得到完成训练的半监督模型。采用本发明实施例提供的方法训练得到的半监督模型，能够实现同时对含有标签的有标签数据和不含有标签的无标签数据进行数据增强，解决了深度学习中样本少的困境。

附图说明

图1是本发明实施例提供的数据处理方法的一种流程示意图；

图2是本发明实施例提供的有标签数据增强处理的一种流程示意图；

图3是本发明实施例提供的计算总损失值的一种流程示意图；

图4是本发明实施例提供的基于半监督模型的处理方法的一种流程示意图；

图5a是本发明实施例提供的数据处理装置的一种结构示意图；

图5b是本发明实施例提供的数据处理装置的另一种结构示意图；

图6是本发明实施例提供的电子设备的一种结构示意图；

图7是本发明实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示 “至少一些实施例”。其他术语的相关定义将在下文描述中给出。

请参见图1，图1是本发明实施例提供的数据处理方法的一种流程示意图，如图1所示，该数据处理方法包括步骤101至步骤105；

步骤101，获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据。

在本实施例中，训练后的分类模型为具有一定分类能力的网络模型，具体的，由于本实施例主要是对文本数据进行数据增强，因此，所述训练后的分类模型包括有BERT模型。

在一些实施例中，有标签数据是经过第一预处理得到的，即在步骤101之前，还包括：获取预设的标注数据集，所述标注数据集包括标注数据和标注数据对应的标注标签；对所述标注数据进行编码处理，得到所述标注数据对应的第一嵌入数据；对所述标注标签进行转化处理，得到所述标注标签的独热编码；将所述第一嵌入数据和所述独热编码作为有标签数据。

需要说明的是，第一预处理主要包括对标注数据进行编码处理，以得到标注数据的句嵌入/句向量(即第一嵌入数据)，以及将标注数据对应的标签转化为对应的独热编码，以此构建有标签数据。

在另一些实施例中，无标签数据是经过第二预处理得到的，即在步骤101之前，还包括：获取预设的未标注数据；对所述未标注数据进行编码处理，得到所述未标注数据对应的第二嵌入数据；将所述第二嵌入数据作为无标签数据。

本实施例中的第二预处理则仅是对无标签数据进行编码处理，以得到未标注数据的句嵌入/句向量(即第二嵌入数据)，并将第二嵌入数据作为无标签数据。

可选的，在对数据进行编码处理之前，还需要对数据进分词处理，在本实施例中，通过搜狗中文词典对数据进行分词处理。具体的，当未经过分词处理的数据为“国家A总理决定取消访问国家B”，则经过分词处理后得到的数据为“国家A/总理/决定/取消/访问/国家B”。

优选的，在得到编码处理后生成的嵌入数据之后，本实施例提供的方法还包括：对所有的嵌入数据的数据长度进行调整，以使所有的嵌入数据的数据长度相同。通过将所有嵌入数据的数据长度设置为相同的长度，能够提高后续的数据增强效率。

步骤102，采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集。

在本实施例中，步骤102具体为：采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，并将增强前的有标签数据和所述增强后的有标签数据作为有标签数据集；采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，并将增强前的无标签数据和所述增强后的无标签数据作为无标签数据集。

具体的，对所述有标签数据进行增强的步骤，具体包括：对任意两个增强前的有标签数据进行mixup处理，得到增强后的有标签数据，并对进行mixup处理的两个增强前的有标签数据对应的两个标签进行mixup处理，得到所述增强后的有标签数据的标签。

其中，由于本发明实施例主要是对文本数据进行增强处理，因此，本发明实施例采用的mixup算法为senMixup算法。

需要说明的是，本实施例是通过mixup算法在网络的最后一层的隐藏层上进行样本插值，以此完成样本混合过程。具体的，本实施例提供的有标签数据包括 x′_i和x′_j，经过编码处理后的有标签数据为f(x′_i)和f(x′_j)，在mixup处理过程中将随机生成一个样本的混合权重λ，λ取值于beta分布，范围为0-1，因此，mixup 的处理过程如下：

y^ij_a＝λyⁱ+(1-λ)y^j

其中，k表示编码器隐藏层的层数，和y^ij_a分别为mixup混合之后生成的新数据与新标签。

在本实施例中，由于标签是经过转化处理后的独热编码，因此，对标签的独热编码进行的mixup处理，能够更好的实现标签的融合，以得到新数据对应的新标签。

具体的，由于编码处理之前是需要对标注样本进行分词处理的，因此x′_i和x′_j均为分词处理之后的数据。在本实施例，当随机生成的λ＝0.4时，假定x′_i和x′_j分别为“国家A/总理/决定/取消/访问/国家B”和“个体户/如何/年捞/百万”，则x′_i和x′_j经过编码处理后，将得到对应的句向量“[u₀,u₁,u₂,…,u₁₂₇]”和“[v₀,v₁,v₂,…,v₁₂₇]”，而x′_i和x′_j的原始标签(独热编码)分别为“[0,0,0,0,0,1,0,0]”(表征政治)和 “[1,0,0,0,0,0,0,0]”(表征财经)，则经过mixup处理后得到的新数据为“[0.4* u0+0.6*v0,…,0.4*u127+0.6*v127]”，经过mixup处理后得到的新标签为 “[0.6,0,0,0,0,0.4,0,0]”。

在得到mixup处理生成的新数据和新标签后，将新数据与新标签作为增强后的有标签数据，然后将增强后的有标签数据与增强前的有标签数据进行混合，得到完整的有标签数据集，由此实现了有标签数据的数据增强。

具体的，请参见图2，图2是本发明实施例提供的有标签数据增强处理的一种流程示意图，如图2所示，mixup增强处理的过程为：首先，获取有标签数据 (x′,y′)，然后对有标签数据进行预处理，以得到任意两个经过分词和编码处理后的句嵌入f((x_i′),yⁱ)和f((x_j′),y^j)，再对这两个句嵌入进行mixup处理，得到增强后的新的数据(x′_a,y′_a)，最后将增强前后的有标签数据进行混合，得到完整的有标签数据集。

在另一些实施例中，所述对所述无标签数据进行增强的步骤，具体包括：对增强前的无标签数据进行回译增强处理，得到增强后的无标签数据。

在本实施例中，在对无标签数据进行增强处理之后，本实施例将增强前的无标签数据和增强后的无标签数据进行混合，得到完整的无标签数据集，由此实现了无标签数据的数据增强。

具体的，例如当未经过回译增强处理的无标签数据为“8月全国房价同比涨幅扩大”，则经过中译英翻译为“National housing prices increase year-on-year inAugust”，进一步的，对中译英后的数据进行英译中，得到回译数据“8月全国房价同比上涨”。

步骤103，通过所述训练后的分类模型对所述有标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果和所述增强后的有标签数据的第二预测结果，并通过所述训练后的分类模型对所述无标签数据集进行预测处理，得到所述增强前的无标签数据的第三预测结果和所述增强后的无标签数据的第四预测结果。

在完成对有标签数据和无标签数据的数据增强后，本实施例通过所述训练后的分类模型对所述有标签数据集和无标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果、所述增强后的有标签数据的第二预测结果、所述增强前的无标签数据的第三预测结果，以及所述增强后的无标签数据的第四预测结果。

在本实施例中，在步骤103之前，本发明实施例提供的数据处理方法，还包括：通过所述有标签数据集对待训练的分类模型进行第一训练，得到第一分类模型，并通过所述无标签数据集对所述第一分类模型进行第二训练，得到训练后的分类模型。

其中，本实施例首先是采用有标签数据集对待训练的分类模型进行第一训练，得到第一分类模型，使得训练后的第一分类模型学习到对数据进行正确类的预测的能力。在所述第一分类模型具备预测能力之后，通过所述无标签数据集对该第一分类模型进行第二训练，得到训练后的分类模型。

具体的，通过所述无标签数据集对所述第一分类模型进行第二训练的步骤，具体为：将所述无标签数据集输入至所述第一分类模型进行预测，得到增强前的无标签数据的第五预测结果和增强后的无标签数据的第六预测结果；根据所述第五预测结果和所述第六预测结果的分类类别的一致性，对所述第一分类模型进行训练。由于增强后的无标签数据是通过增强前的无标签数据进行回译增强处理得到的，且回译增强只会改变文本的表达方式，并不会改变文本的具体含义，即经过回译增强后的无标签数据对应的正确类，一定是与回译增强前的无标签数据对应的正确类相同的。因此，本实施例采用回译增强前后的无标签数据对应的正确类一定相同的特性，将增强前后的无标签数据输入到第一分类模型中，并以第一分类模型输出的两个预测结果是否一致，来判断第一分类模型是否进行了正确的预测。如此，通过第一分类模型输出的两个预测结果的一致性，即可完成第一分类模型对无标签数据进行正确分类的第二训练，得到训练后的分类模型。

需要说明的是，本实施例主要采用了少量的有标签数据对待训练的分类模型进行第一训练，以得到第一分类模型。然后再采用大量的无标签数据对第一分类模型进行第二训练，从而得到能够同时对有标签数据和无标签数据进行分类的训练后的分类模型。采用本发明实施例对待训练的分类模型进行训练，能够避免因有标签数据的数据量过少而影响模型识别精度的问题发生，同时还能对无标签数据进行正确类的打标。如此，本实施例能够有效的利用了监督数据(有标签数据) 的标签信息，给无监督数据(无标签数据)进行打标签。实现了在对无标签数据进行增强的同时，为无标签数据打标签的目的。有效的解决了有标签数据的数据量少、未充分利用监督数据的标签信息的技术问题。

可选的，通过在分类模型中加入Linear+Softmax层，从而能够完成对有标签数据或无标签数据的正确类的预测。其中，对无标签数据集进行预测处理后，将会得到增强前的无标签数据的正确类的预测概率为p_θ(y*|x″)，增强后的无标签数据的正确类的预测概率为p_θ(y*|x″_a)。为了对低质量的无监督数据进行掩盖，本实施通过对无标签数据的正确类的预测概率值进行筛选，选择预测概率值大于预设阈值β的预测结果，从而能够最大程度的掩盖低质量的无监督数据。具体的，本实施例设定的预设阈值β设为0.6。

步骤104，根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，根据所述第三预测结果与所述第四预测结果确定第三损失值。

在本实施例中，在步骤104之前，本实施例提供的数据处理方法，还包括：对各预测结果对应的预测概率值进行锐化处理，得到进行锐化处理后的预测结果。

通过对预测结果对应的预测概率值进行锐化处理，能够使得分类更加的清晰，提高了模型的识别准确度。

具体的，锐化处理所采用的公式如下：

其中，τ设置为0.4，对于增强前的无标签数据和增强后的无标签数据，本申请使用KL散度作为损失函数。

在一种实施方式中，计算有标签数据的损失值主要是将增强前后的所有有标签数据的句向量传入进Linear+Softmax层，生成目标类的分布。其中，本实施例使用交叉熵损失作为有标签数据的损失函数。mixup算法相当于正则项，它选择所有模型中最接近线性函数的模型，因此，运用mixup算法即可避免模型的过拟合，无需再使用训练信号退火算法。具体的，有标签数据的损失函数如下：

其中，y*是给定时的预测类别，B为带标签数据集，Z为归一化因子。

具体的，在完成锐化处理之后，所述根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值的步骤，具体为：根据所述第一预测结果与增强前的有标签数据的标签的差异，确定第一损失值，根据所述第二预测结果与增强后的有标签数据的标签的差异，确定第二损失值。在本实施例中，通过将第一损失值与第二损失值相加，以此得到有标签数据，即有监督数据的损失值。

在另一种实施方式中，由于设有预设阈值β，则在计算无标签数据的损失值时需要引入示性函数，以此计算出每个无标签数据在分类类别中的最高概率值对应的结果，具体的，示性函数I为：

因此，加入示性函数I和锐化操作后的无监督数据的一致性损失为：

其中，B′是无标签数据集的样本空间，为增强前后的无标签数据，KL为 KL散度。

具体的，在完成锐化处理之后，所述根据所述第三预测结果与所述第四预测结果确定第三损失值的步骤，具体为：根据所述第三预测结果和所述第四预测结果之间的差异，确定第三损失值。在本实施例中，根据第三预测结果和第四预测结果之间的一致性，来确定无标签数据的损失值。

步骤105，基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，以得到完成训练的半监督模型。

在本实施例中，步骤105具体为：将所述第一损失值、所述第二损失值以及所述第三损失值相加，得到总损失值；基于所述总损失值，对所述预设的增强模型的模型参数进行优化。

作为本发明的优选实施例，本发明实施例通过将有监督数据的交叉熵损失函数得到的有标签数据的损失值(第一损失值和第二损失值之和)，加上无监督数据的一致性损失函数得到的无标签数据的损失值(第三损失值)，得到的总损失值，并将该总损失值作为预设的增强模型的损失值。具体的，步骤105具体可包括：通过预设的加权因子对所述第一损失值、所述第二损失值以及第三损失值进行平衡处理；将平衡处理后的第一损失值、第二损失值以及第三损失值相加，得到总损失值；基于所述总损失值，对所述预设的增强模型的模型参数进行优化。

在将有标签数据的损失值和无标签数据的损失值相加时，通过设置一预设的加权因子γ，能够平衡监督数据的交叉熵损失和无监督数据的一致性损失，具体的，总损失值的计算方式为：

loss＝loss_sup+γloss_unsup

其中，加权因子γ通常设为1。

在本实施例中，通过总损失值进行反向传播，并利用梯度下降法对模型的分类器参数进行优化更新，能够对模型进行微调，以此构建训练后的半监督模型。

具体的，请参见图3，图3是本发明实施例提供的计算总损失值的一种流程示意图，如图3所示，本实施例提供的总损失值的计算过程为：首先获取有标签数据和无标签数据，并分别对有标签数据和无标签数据进行数据增强，具体的，对有标签数据进行mixup增强处理，对无标签数据进行回译增强处理，然后通过将增强前后的数据进行相加，得到完整的有标签数据集(即有监督数据)和完整的无标签数据集(即无监督数据)，然后对预测概率值进行锐化操作，再分别计算有监督数据的交叉熵损失值，以及计算无监督数据的一致性损失值，最后将有监督数据的交叉熵损失值加上无监督数据的一致性损失值，得到模型的总损失值。

为了更好的说明书本发明实施例训练得到的半监督模型，本实施例提供了完成训练的半监督模型的应用方法。具体的，请参见图4，图4是本发明实施例提供的基于半监督模型的数据处理方法的一种流程示意图，如图4所示，本发明实施例提供的基于半监督模型的数据处理方法包括步骤401至步骤402；

步骤401，获取待增强数据。

其中，所述待增强数据包括含有标签的待增强标签数据和不含有标签的待增强无标签数据中的至少之一。

在现有技术中，数据增强通常分为有监督的数据增强和无监督的数据增强，其中，有监督的数据增强只针对有标签数据进行数据增强，而有标签数据通常是少量的，因此，有监督的数据增强只能够增加有限的训练样本；无监督的数据增强是通过在总损失函数中加入一致性损失函数，将有监督的数据增强扩展到无标签数据中，以保证增强前后数据分布的一致性，但无监督的数据增强却无法利用到有监督数据的数据信息，因此，目前亟需一种能够同时对有标签数据和无标签数据进行数据增强的半监督模型，以此实现对少量的有标签样本的数据扩充，并通过学习有标签样本的标签信息，对无标签样本进行打标签，同时解决了数据量不足和无监督数据的打标签问题。

需要说明的是，在能够同时对有标签数据和无标签数据进行数据增强的情况下，本领域技术人员很容易想到能够采用本发明实施例提供的基于半监督模型的处理方法，来增强其中一种数据，即采用本发明实施例提供的基于半监督模型的处理方法对有标签数据进行数据增强，或对无标签数据进行数据增强，均是可以预见的。

步骤402，调用训练后的半监督模型对所述待增强数据进行增强处理，以得到增强后的目标数据。

其中，所述目标数据均含有标签，所述半监督模型包括用于增强所述待增强标签数据的标签数据增强层，和用于增强所述待增强无标签数据的无标签数据增强层，以及为无标签数据打标签的打标签层。

在本实施例中，通过训练后的半监督模型，不仅能够对含有标签的待增强标签数据进行增强处理，还能对不含有标签的待增强无标签数据进行增强处理，以此通过将含有标签的数据和不含有标签的数据进行混合以充分扩大数据规模，同时自动为不含有标签的数据赋予标签，从而能够为深度学习模型提供训练数据的支撑。

在一些实施例中，在步骤402之前，所述基于半监督模型的数据处理方法还包括：

对所述待增强数据进行编码处理，以得到编码处理后的待增强数据。

需要指出的是，在对待增强数据进行数据增强之前，需要对待增强数据进行编码处理，其中，编码处理主要是为了得到向量化表示的待增强数据，具体的，可以通过编码器对待增强数据进行编码处理，以得到向量化表示的待增强数据。

需要说明的是，本实施例主要是对文本数据进行数据增强，因此，本实施例是通过构建好的中文词典对文本数据进行向量化表示。其中，该中文词典包括搜狗中文词典。

在另一些实施例中，在对文本数据进行向量化表示之前，还需要将文本数据进行分词，本实施例是通过对文本数据运用python的jieba分词库进行分词。

根据上述实施例所描述的方法，本实施例将从数据处理装置的角度进一步进行描述，该数据处理装置具体可以作为独立的实体来实现，也可以集成在电子设备，比如终端中来实现，该终端可以包括手机、平板电脑等。

请参见图5a，图5a是本发明实施例提供的数据处理装置的一种结构示意图，如图5a所示，本发明实施例提供的数据处理装置500，包括：

获取模块501，用于获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据。

增强模块502，用于采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集。

在一些实施例中，增强模块502具体用于：采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，并将增强前的有标签数据和所述增强后的有标签数据作为有标签数据集；采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，并将增强前的无标签数据和所述增强后的无标签数据作为无标签数据集。

具体的，增强模块502具体还用于：对任意两个增强前的有标签数据进行 mixup处理，得到增强后的有标签数据，并对进行mixup处理的两个增强前的有标签数据对应的两个标签进行mixup处理，得到所述增强后的有标签数据的标签。

在另一些实施例中，增强模块502具体还用于：对增强前的无标签数据进行回译增强处理，得到增强后的无标签数据。

预测模块503，用于通过所述训练后的分类模型对所述有标签数据集进行预测处理，得到所述增强前的有标签数据的第一预测结果和所述增强后的有标签数据的第二预测结果，并通过所述训练后的分类模型对所述无标签数据集进行预测处理，得到所述增强前的无标签数据的第三预测结果和所述增强后的无标签数据的第四预测结果。

确定模块504，用于根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，根据所述第三预测结果与所述第四预测结果确定第三损失值。

在本实施例中，确定模块504具体用于：根据所述第一预测结果与增强前的有标签数据的标签的差异，确定第一损失值，根据所述第二预测结果与增强后的有标签数据的标签的差异，确定第二损失值。确定模块504具体还用于：根据所述第三预测结果和所述第四预测结果之间的差异，确定第三损失值。

优化模块505，用于基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，以得到完成训练的半监督模型。

在本实施例中，优化模块505具体用于：将所述第一损失值、所述第二损失值以及所述第三损失值相加，得到总损失值；基于所述总损失值，对所述预设的增强模型的模型参数进行优化。

可选的，请参见图5b，图5b是本发明实施例提供的数据处理装置的另一种结构示意图，如图5b所示，本发明实施例提供的数据处理装置500，还包括：训练模块506，第一编码模块507、第二编码模块508、调整模块509；

训练模块506，用于通过所述有标签数据集对待训练的分类模型进行第一训练，得到第一分类模型，并通过所述无标签数据集对所述第一分类模型进行第二训练，得到训练后的分类模型。

在本实施例中，训练模块506具体用于：将所述无标签数据集输入至所述第一分类模型进行预测，得到增强前的无标签数据的第五预测结果和增强后的无标签数据的第六预测结果；根据所述第五预测结果和所述第六预测结果的分类类别的一致性，对所述第一分类模型进行训练。

第一编码模块507，用于获取预设的标注数据集，所述标注数据集包括标注数据和标注数据对应的标注标签；对所述标注数据进行编码处理，得到所述标注数据对应的第一嵌入数据；对所述标注标签进行转化处理，得到所述标注标签的独热编码；将所述第一嵌入数据和所述独热编码作为有标签数据。

第二编码模块508，用于获取预设的未标注数据；对所述未标注数据进行编码处理，得到所述未标注数据对应的第二嵌入数据；将所述第二嵌入数据作为无标签数据。

调整模块509，用于对所有的嵌入数据的数据长度进行调整，以使所有的嵌入数据的数据长度相同。

具体实施时，以上各个模块和/或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块和/或单元的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，请参见图6，图6是本发明实施例提供的电子设备的一种结构示意图，该电子设备可以是移动终端如智能手机、平板电脑等设备。如图6所示，电子设备600包括处理器601、存储器602。其中，处理器601与存储器602电性连接。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器602内的应用程序，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据，从而对电子设备600进行整体监控。

在本实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

该电子设备600可以实现本发明实施例所提供的数据处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

请参见图7，图7是本发明实施例提供的电子设备的另一种结构示意图，如图7所示，图7示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的数据处理方法。该电子设备700可以为移动终端如智能手机或笔记本电脑等设备。

RF电路710用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路710可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路710可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced Data GSM Environment,EDGE)，宽带码分多址技术(Wideband Code DivisionMultiple Access,WCDMA)，码分多址技术(Code Division Access,CDMA)、时分多址技术(Time Division Multiple Access,TDMA)，无线保真技术(Wireless Fidelity， Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b, IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器720可用于存储软件程序以及模块，如上述实施例中数据处理方法对应的程序指令/模块，处理器780通过运行存储在存储器720内的软件程序以及模块，从而执行各种功能应用以及数据增强，即实现如下功能：

存储器720可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器720可进一步包括相对于处理器780远程设置的存储器，这些远程存储器可以通过网络连接至电子设备700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元730可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元730可包括触敏表面731以及其他输入设备732。触敏表面731，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面731上或在触敏表面731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面731。除了触敏表面731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及电子设备700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元740可包括显示面板741，可选的，可以采用 LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode, 有机发光二极管)等形式来配置显示面板741。进一步的，触敏表面731可覆盖显示面板741，当触敏表面731检测到在其上或附近的触摸操作后，传送给处理器 780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741 上提供相应的视觉输出。虽然在图中，触敏表面731与显示面板741是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面731 与显示面板741集成而实现输入和输出功能。

电子设备700还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与电子设备700之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器 761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一终端，或者将音频数据输出至存储器720以便进一步处理。音频电路760还可能包括耳塞插孔，以提供外设耳机与电子设备700的通信。

电子设备700通过传输模块770(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块 770，但是可以理解的是，其并不属于电子设备700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是电子设备700的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行电子设备700的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器780可包括一个或多个处理核心；在一些实施例中，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器780中。

电子设备700还包括给各个部件供电的电源790(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源790还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备700还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，移动终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的数据处理方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的数据处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种数据处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。并且，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.如权利要求1所述的数据处理方法，其特征在于，在所述通过所述训练后的分类模型对所述有标签数据集进行预测处理的步骤之前，所述数据处理方法还包括：

3.如权利要求1所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述有标签数据和所述无标签数据进行增强，得到有标签数据集和无标签数据集，包括：

4.如权利要求3所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述有标签数据进行增强，得到增强后的有标签数据，包括：

5.如权利要求3所述的数据处理方法，其特征在于，所述采用所述预设的增强模型对所述无标签数据进行增强，得到增强后的无标签数据，包括：

6.如权利要求1所述的数据处理方法，其特征在于，在所述获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据的步骤之前，所述数据处理方法还包括：

将所述第一嵌入数据和所述独热编码作为有标签数据。

7.如权利要求1所述的数据处理方法，其特征在于，在所述获取预设的增强模型、训练后的分类模型、有标签数据以及无标签数据的步骤之前，所述数据处理方法还包括：

获取预设的未标注数据；

将所述第二嵌入数据作为无标签数据。

8.如权利要求1所述的数据处理方法，其特征在于，所述根据第一预测结果确定第一损失值，根据所述第二预测结果确定第二损失值，包括：

9.如权利要求6或7所述的数据处理方法，其特征在于，所述数据处理方法还包括：

10.如权利要求1所述的数据处理方法，其特征在于，所述基于所述第一损失值、所述第二损失值以及所述第三损失值，对所述预设的增强模型的模型参数进行优化，包括：

11.如权利要求2所述的数据处理方法，其特征在于，所述通过所述无标签数据集对所述第一分类模型进行第二训练，包括：

12.一种数据处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时，实现如权利要求1至11任一项所述的数据处理方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至11任一项所述的数据处理方法中的步骤。