CN114022737A

CN114022737A - 对训练数据集进行更新的方法和设备

Info

Publication number: CN114022737A
Application number: CN202111355323.9A
Authority: CN
Inventors: 凌悦
Original assignee: Shengdoushi Shanghai Technology Development Co Ltd
Current assignee: Shengdoushi Shanghai Science and Technology Development Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-08

Abstract

本申请涉及一种对训练数据集进行更新的方法，其包括：获取初始训练数据集以及未标注数据集；对训练数据进行数据增强和/或根据预设的关键信息对未标注数据进行筛选以获得第一扩充数据，其包括满足预设类别条件的类别标注信息；根据第一扩充数据和初始训练数据集，对分类模型进行训练；用训练后的分类模型预测未标注数据集中待预测数据的类别，将所预测的类别满足预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据，其中，待预测数据包括未标注数据集中第一扩充数据以外的未标注数据；根据第一扩充数据和/或第二扩充数据，对初始训练数据集进行更新，得到更新后的训练数据集。

Description

对训练数据集进行更新的方法和设备

技术领域

本申请涉及数据预处理，特别是涉及对训练数据集进行更新、尤其是对训练数据集中样本数不足的类别的训练数据进行扩充的方法和设备。

背景技术

近些年，代替以往的人工分类，在企业的业务流程中越来越多地使用基于算法的分类模型来对业务数据自动进行分类，以便后续由业务数据的类别所对应的业务部门或业务人员对其进行处理。在此，分类模型的参数训练得越精确，模型预测结果就越准确，分类效果也就越好。因此用于训练分类模型的训练数据十分重要。如果用于对分类模型建模或调整模型参数的训练数据过少，将无法获得确定模型参数的足够信息。

但在实践中，所能得到的用于训练分类模型的有标签训练数据(在本文中也简称为训练数据)往往数量有限，而存在大量的未标注数据，其通常为历史数据。有标签训练数据或者说训练数据是指具有指示其所对应类别的类别标注信息的数据。相应地，未标注数据是指不具有这样的类别标注信息的数据。此外，训练数据集中常见类别样本不均衡现象。类别样本不均衡现象指的是训练数据集中各类别的训练数据的样本数不近似相等。如果各类别的训练数据的数量之间相差很大，会影响分类模型的分类效果，这是因为训练数据可能不能覆盖所有待预测类别，或者某一或某些类别的训练数据的样本数不足以使分类模型将该类别分辨出来。为简单起见，下文中样本数不足的类别也被称为小类，反之则称为大类。一个训练数据集中的训练数据可能覆盖多个小类和多个大类。假如小类样本的数量极少，如仅占总体的1％，则即使小类样本被错误地全部识别为大类样本，在经验风险最小化的策略下分类器识别准确率仍能达到99％，但由于没有学习到小类样本的特征，实际分类效果就会很差。

为了处理类别样本不均衡的问题，目前已经提出了多种方法，例如过采样、欠采样、类别权重、样本权重、focal loss、人工标注等等。然而目前的方法各自都有自身的缺陷，不能在任何情况下都很好地解决类别样本不均衡问题。

因此，存在对现有的小类样本扩充方案进行改进的需求。

发明内容

为了克服上文中所提及的现有技术中存在的至少一个缺陷，本申请的实施例提出用于更新训练数据集的方法、设备及其计算机可读存储介质，以及文本数据分类方法。

根据本申请的一方面，提出一种对训练数据集进行更新的方法，该方法包括：获取初始训练数据集以及未标注数据集，初始训练数据集中的训练数据包括类别标注信息；获取第一扩充数据，该第一扩充数据包括满足预设类别条件的类别标注信息，其中，第一扩充数据通过对初始训练数据集中的训练数据进行数据增强和/或根据预设的关键信息对未标注数据集中的未标注数据进行筛选所得到；根据第一扩充数据和初始训练数据集，对分类模型进行训练，得到训练后的分类模型；用训练后的分类模型预测未标注数据集中待预测数据的类别，将所预测的类别满足预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据，其中，待预测数据包括未标注数据集中第一扩充数据以外的未标注数据；根据第一扩充数据和/或第二扩充数据，对初始训练数据集进行更新，得到更新后的训练数据集。

根据本申请的另一方面，提出一种分类方法，该方法包括：获取文本数据；通过目标分类模型，对文本数据进行分类，得到分类结果，其中，该目标分类模型基于由如上所述的方法所得的更新后的训练数据集进行训练。

根据本申请的另一方面，提出一种计算机可读存储介质，其上存储有计算机程序，该计算机程序包括可执行指令，当可执行指令被处理器执行时，实施如上所述的训练数据集更新方法。

根据本申请的另一方面，提出一种对用于训练分类模型的训练数据集进行更新的设备，其包括处理器以及用于存储处理器的可执行指令的存储器，其中，处理器被配置为执行可执行指令以实施如上所述的训练数据集更新方法。

本申请提供的训练数据集更新方案，由于是对于训练数据集的直接补充，因此更新后的训练数据集可以适用于任何分类模型，即，用训练数据训练的目标分类模型可以是任何分类模型，而不必一定是在更新训练数据集的过程中用到的用于获得第二扩充数据的分类模型。此外，该训练数据集更新方案不仅仅局限于补充小类样本，而是可用来补充用户想要扩充其数量的任何类别的样本数据，同时不减少模型对其它类别的样本数据的学习。因此在补充小类样本时，本申请的训练数据集更新方案不会像通过减少大类类别的样本的方法一样，使得模型减少了对于大类样本的学习因而可能导致对大类样本预测精度的损失。本申请的训练数据集更新方案也可应用于任何规模的样本集，不受场景、行业的限制。另外，本申请的训练数据集更新方案无需请标注人员进行额外标注来补充训练数据集，成本较低。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请的保护范围。

附图说明

下面参照附图详细描述本申请的示例性实施例。在附图中：

图1示出根据本申请的一个实施例的用于扩充小类训练数据的流程的示例性示意图；

图2示出根据本申请的一个实施例的用于更新训练数据集的方法的示例性框图；

图3示出根据本申请的一个实施例的用于更新训练数据集的电子设备的示例性结构框图。

具体实施方式

现在将参考附图更全面地描述本申请的示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本申请的内容更加全面和完整，并将示例性实施例的构思全面地传达给本领域的技术人员。在图中，为了清晰起见，可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、元件等。在其它情况下，不详细示出或描述公知结构、方法或者操作以避免模糊本申请的关键内容。

在现有的用于处理类别样本不均衡现象的方法中，比较基本的有过采样和欠采样方法。在过采样方法中，对样本数不足的类别的样本(即小类样本)进行拓展。该拓展例如可通过直接复制小类样本或采用插值法来进行，在插值法中，通过对小类样本归一化求得样本分布、极值和均值等，然后根据所求得的样本分布、极值和均值生成新样本来扩充小类样本的数目。欠采样方法与过采样类似，但是在此是减少具有足够样本数的类别的样本(即大类样本)的数量。这种减少例如可通过随机删除一部分大类样本或者对大类样本进行聚类来实现。

过采样与欠采样在文本分类上的效果非常有限。这是因为，过采样虽然看似增加了小类样本的数目，但小类样本的样本特征或关键信息事实上并未增多。并且，过采样方法在样本特征少时可能导致过拟合。而欠采样是通过减少大类样本的数量来缓解类别样本不均衡现象，它会丢失大类样本中的一些重要信息。

在另外的方法中，还可通过为每一类别或每个样本设置不同权重，用权重来弥补类别样本不均衡现象。例如，可为大类样本设置小的权重，这也会使大类样本总含的关键信息减少。并且，所设置的权重非常关键，错误权重会对模型训练和预测结果造成很大影响，因此模型训练和预测结果依赖于训练和使用模型的人员的经验和业务水平。

或者另选地，可使用focal loss作为目标损失函数，通过减少易分类样本的权重，使得分类模型在训练时更专注于难分类的样本。focal loss方法针对如深度神经网络等复杂的模型，具有很好的使用价值，但是在传统分类器或小样本集情况下，实施有一定的难度。

另外，还可采用人工标注法，请标注人员额外进行数据标注，即以人工为数据给出类别标注信息(俗称打标签)，以补充小类样本。人工标注法成本较高、耗时耗力，这是因为小类样本在全样本中所占比例较少，因此若要对小类补充足够多的样本，需要标注很多数据。

因此，现有的处理类别样本不均衡的方法，或者对分类模型预测结果的提升效果有限，或者只能应用于有限范围内的分类模型，或者成本较高，无法低成本地应用于任何分类模型或任何规模的样本集情况。

为了更优地实现对训练数据集的更新、尤其是对其中的小类训练数据的扩充，需要增加小类训练数据的数量且不对大类的预测效果造成损失，而且这种增加应是在无需标注人员的额外标注的情况下低成本地实现的。

下面参照图1，以服务行业、例如餐饮行业的客户评价情感分析场景为例，介绍根据本申请的一个实施例的对训练数据集中的要扩充其数量的训练数据、例如小类训练数据进行扩充的流程100。

对于客户评价情感分析场景，客户的评价数据共有好评和差评两种类别。也就是说，在本实施例中，训练数据是评价数据，其所对应的类别有两种，“好评/正面情感评价”和“差评/负面情感评价”。评价数据通常为文本数据，其例如通过文字和/或语音方式输入或者由图片或符号转化而得到。因此涉及简单的文本二分类模型。假设在初始训练数据集中差评训练数据的数量比好评训练数据的数量少得多，例如，差评训练数据的数量仅为总训练数据量的8％。此时，差评训练数据和好评训练数据的数量比例达到1:11.5，面临类别样本不均衡现象。即，分类模型可能难以对差评数据准确分类。而对于服务行业，来自客户的差评数据往往比好评数据更为重要，这是因为差评数据中包含了对产品服务提供商(例如餐饮业的门店)所提供的产品、服务等的更有建议性的信息，可供产品服务提供商及时获取自身产品和服务的缺陷，从而相应地调整服务、生产和市场策略。因此，为更好地训练分类模型，需要对差评训练数据进行扩充。

流程100可包括对初始训练数据集中的样本数不足的训练数据(在此即为差评训练数据)进行数据增强得到第一扩充数据的步骤。对于文本数据，已经提出了多种文本数据增强技术。文本数据增强技术既可在词层面也可在句子层面实施，即，既可以按照某种策略对文本数据局部进行调整，如词汇短语替换(例如同义词替换、基于词向量的相邻词替换、基于MLM(Masked Language model，掩码语言模型)的替换、基于TF-IDF的词替换)、随机噪声注入(例如随机插入、随机交换、随机删除、句子位置随机替换)、混合交叉增强、对抗增强等操作，也可以在保持语义不变的情况下，变换文本数据的表达形式，如回译、文本复述等操作。

此外，文本数据增强可分为有监督的和无监督的方式。所谓有监督的文本数据增强，就是对有限的训练数据通过某种变换操作，扩充出类似于真实训练数据的扩充数据。该扩充数据具有能确定的、指示扩充数据所对应的类别的类别标注信息。有监督方式例如有加噪和回译两个思路。无监督方式例如包括无监督数据增强(Unsupervised DataAugmentation，UDA)。UDA同时使用有标签数据和未标注数据，通过最小化一致性损失，将标签信息从有标签数据引入未标注数据中，从而将未标注数据变成有标签数据。

简单数据增强(Easy Data Augmentation，EDA)和回译是经典的文本数据增强方法。EDA包括同义词替换、随机插入、随机交换、随机删除和句子位置随机替换。回译是指对句子多次翻译，将原始训练数据翻译成一个或甚至多个别的国家的语言，再译回原始训练数据所属的语言。回译可使用在线或离线的机器翻译模型来实现。

对差评训练数据进行文本数据增强的步骤可使用上述文本数据增强技术中的一种或多种来执行。每种文本数据增强技术也可执行不止一次、即重复地执行。在使用多种文本数据增强技术的情况中，它们可以被并行地执行，也可被顺序地执行。在顺序地执行时，这些文本数据增强技术可以按随机顺序来执行，也可以具有固定的先后顺序。但这种先后顺序本身是可任意设定的。

特别地，由于回译技术会产生中间数据、即与原始数据所属语言不同的别国语言的数据，因此可以将其它文本数据增强技术嵌套在回译技术中，即，使用其它文本数据增强技术对在回译过程中产生的中间数据进行增强。例如，以EDA为例，可在将原始的例如中文的训练数据译成别国语言、例如英语后，对英语的中间数据做EDA，由此可得到多个英语数据，再将所述多个英语数据译回中文。当然，这种嵌套也可多重实施。即，例如在上例中，在得到多个英语数据后，不是译回中文，而是将多个英语数据又译成另一国家的语言、例如德语，并且对所得到的同样数量的多个德语数据进行文本数据增强、例如EDA，然后将这些由EDA得到的德语数据译回中文。与顺序执行相比，嵌套执行尤其是在数据多样性方面对于文本数据增强效果要更好些。

一般地，通过文本数据增强技术得到的第一扩充数据通常与用于得到该第一扩充数据的原始训练数据具有相同的类别标注信息。这是因为，文本数据增强技术本质上还是对于待增强的文本数据的信息的裁剪、拼接、交换和同义替代。因此，当待增强的文本数据和增强后的第一扩充数据在后续模型训练过程中被文本向量化后，它们的文本特征仍是近似相同的，因此当然具有相同的类别标注信息。

但是，也可设想，由原始训练数据增强出的第一扩充数据具有与该原始训练数据不同的类别标注信息，尤其是具有与原始训练数据相反的类别标注信息。例如可设想，可通过对好评训练数据进行反义词替换而得到差评扩充数据。

对于数据增强后的第一扩充数据，可通过机器程序将第一扩充数据与相应的类别标注信息关联在一起，换句话说，给第一扩充数据加上或打上相应的标签。

另选地或附加地，第一扩充数据也可通过关键词筛选步骤得到，在该关键词筛选步骤中，使用预设的关键词对大量未标注评价数据、例如历史评价数据进行筛选，选取其中包含预设关键词的评价数据作为所述扩充数据。所述筛选可通过在评价数据的原始文本中搜索关键词来进行。在此，为了扩充差评训练数据，关键词可以是与类别“差评”相对应的词语，例如“差评”、“投诉”、“体验差”等。优选地，当一个评价数据包含多个关键词时，即，当该评价数据中所包含的关键词的数量大于等于预设的阈值时，才认为该评价数据的类别与关键词所对应的类别一致。例如，在本例中，当评价数据包括上述关键词“差评”、“投诉”、“体验差”中的至少两个时(即阈值为2)，才认为该评价数据属于差评评价数据，从而可为这样的评价数据加上或打上对应的标签，即将评价数据与对应的类别标注信息关联在一起。通过将关键词的数量的阈值设置为大于1，可大大排除误打标签的可能性。

上述数据增强的步骤和关键词筛选的步骤可以择一执行或者同时存在。当同时存在时，它们可以被顺序地或并行地执行。在被顺序地执行时，这两个步骤可按随机顺序执行，也可具有固定的先后顺序。但这种先后顺序本身是可任意设定的。在某些情况下，并行执行可以显著提高整个流程100的效率。

根据通过上述数据增强和/或关键词筛选的步骤获得的第一扩充数据和初始训练数据集，对分类模型进行训练，得到训练后的分类模型。在此，例如可使用机器学习模型或深度学习模型。例如可使用经典的深度学习模型BERT作为分类模型进行文本分类。BERT模型对文本数据进行文本向量化，其中，向量化后的数值表示文本特征，然后根据文本特征与对应类别标注信息之间的映射关系，确定与该文本数据对应的类别标注信息。使用BERT进行文本分类有两种方式，分别是feature-based和fine-tuning。feature-based指利用语言模型的中间结果也就是LM embedding(即提取出的文本特征，可理解为句向量),将其作为额外的特征，引入到原模型中。fine-tuning方式是指在已经训练好的语言模型的基础上，增加少量的神经网络层(如一层softmax网络)来完成分类任务，然后在新的语料上重新训练。因此，在训练以BERT为基础的分类模型时，可以是对整个模型的所有参数进行调整，也可以仅对一部分神经网络层的参数进行更新，此时训练速度较快。

在此，除了BERT模型外，也可使用任何具有分类功能的NLP模型。更一般地，对于非文本数据如图像数据或语音数据，作为分类模型，可使用具有分类能力的神经网络模型(如CNN卷积神经网络或DNN深度神经网络)或其它深度学习模型。

然后，用训练后的分类模型对未标注评价数据集中刨除了基于关键词筛选出的第一扩充数据以外的剩余未标注评价数据、即待预测评价数据预测其类别标注信息，将被判为差评的未标注评价数据中预测结果置信度高的那个/那些未标注评价数据确定为第二扩充数据。

在本实施例中，例如，所述预测结果置信度的大小、即预测结果的可靠程度可使用未标注评价数据被判断为差评的条件概率的统计学百分位数来判断，即，选取被判断为差评的条件概率大于等于第q％分位数的未标注评价数据作为第二扩充数据。例如，以BERTfine-tuning方式的分类模型为例。该分类模型对于每个所输入的未标注评价数据的相应输出(即为未标注评价数据所预测的对应的类别标注信息)是一个二维向量，其两个分量分别表示类别标注信息落入差评类别和好评类别范围内的条件概率，并且这两个条件概率的值的和为1。即，对于每个被预测的未标注评价数据，模型预测的输出为(该评价数据被判断为差评的条件概率值，该评价数据被判断为好评的条件概率值)，其中，该评价数据被判断为差评的条件概率值与被判断为好评的条件概率值之和为1。对于所有待预测评价数据(即不属于第一扩充数据的未标注评价数据)的输出，可为每个评价数据的被判断为差评的条件概率值x求得其出现的概率p，由此可拟合出概率p随值x变化的概率函数p(x)，其提供了值x在最小值a₀与最大值a₁之间如何分布的信息。因此，如果在所有x值上对概率函数p(x)进行积分，则其值为1，即，

形象地来看，如果以评价数据被判断为差评的条件概率值x为横轴，每个值x出现的概率p为纵轴，则积分

表示概率函数p(x)的曲线在横坐标a₀与x之间所覆盖的面积。因此，第q％分位数即为当概率函数p(x)在从a₀开始的x上的积分达到q％时所对应的x的值x_q，其意义为，在所有的值x中，至少有q％的值x小于或等于x_q，而至少有1-q％的值x大于或等于x_q。因此，可将被判断为差评的条件概率值大于或等于x_q的未标注评价数据确定为第二扩充数据。

在此，q的设置可如下考虑。利用分类模型对现有的训练数据集(即已知其类别标注信息的数据)进行预测，可以获得所有训练数据在该模型下的被判断为差评的条件概率值。选取训练数据集中的差评训练数据的被判断为差评的条件概率值的均值，记为A，假设A为所有训练数据在该模型下的被判断为差评的条件概率的B％分位数，则要求q大于B即可。也就是说，在此认为，被判断为差评的待预测评价数据具有与初始训练数据集中的差评训练数据相同的分布。

预测结果置信度的高低也可使用其它指标来判断。例如，可设置a₁*q％作为指标，选取被判断为差评的条件概率值大于该指标a₁*q％的未标注评价数据作为第二扩充数据，其中，a₁是被判断为差评的条件概率的最大值，q的设置如上所述。

此外，考虑到在真实数据集中差评数据所占比例，所选取的第二扩充数据的数量还应控制在初始训练数据集中差评训练数据的数量占训练数据总数量的比例(如前述例子中的8％)之下，例如为5％。因此，通过同时满足两个条件，即，待预测评价数据被判为差评的置信度高于置信度阈值，并且被确定为第二扩充数据的待预测评价数据的数量与通过分类模型预测的待预测评价数据的数量的比例不超过预设的比例阈值，确保了所选第二扩充数据的正确性。

然后，根据第一扩充数据和/或第二扩充数据，对初始训练数据集进行更新，得到更新后的训练数据集。由此完成一次迭代。

可选地，这种迭代也可多次执行。于是，以未标注数据集中第一扩充数据和第二扩充数据以外的未标注数据构成新的未标注数据集，以更新后的训练数据集作为新的初始训练数据集，回到获得第一扩充数据的步骤，开始对新的初始训练数据集的更新，直至更新的次数累计达到预设更新次数和/或更新后的训练数据集中差评训练数据的数量达到预设数量条件。在此，预设次数可由用户预先设定，其可以是一次，也可以是多次。预设数量条件可例如是：差评训练数据的数量至少应扩充到使分类模型足以正确预测出该样本数不足的类别“差评”的程度，优选扩充到分类模型预测效果最佳的程度。例如，对于该二分类模型，理论上而言，当好评训练数据和差评训练数据的数量各占总训练数据量的50％时，模型预测效果最佳。但也可能的是，如果在该二分类模型计算中赋予好评训练数据的权重较小而差评训练数据的权重较大，则为使模型预测效果最佳，更新后的训练数据集中差评训练数据的数量所占的比例也可低于50％至少使得模型能正确预测出差评的类别。

训练数据集和/或未标注数据集可随着时间的变化而更新。这是因为，随着时间的流逝，一段时间内业务平台的业务变化会使得客户的评价信息涉及的主题发生变化。例如，餐饮门店在一段时间内更新推出新的菜品，提供新的服务等，使得客户和市场对门店的产品和服务等产生新的诉求。为使模型分类性能在时间上实时跟踪业务数据，必须随着时间对未标注数据集和/或训练数据集进行更新。即，把新出现的包含新的主题的有标签数据和/或未标注数据添加到相应的训练数据集和/或未标注数据集中。

因此，可以使用初始训练数据和不断增加的、更新的训练数据(如第一和第二扩充数据和/或新出现的有标签数据)叠加构成累加的训练数据集，和/或可以使用初始的未标注数据和不断增加的、新出现的未标注历史评价数据叠加构成累加的未标注数据集。

此外，训练数据集也可以是由从当前时刻起之前的一段时间(也称为时间窗)内的更新的第一和第二训练数据构成的训练数据集，此时在该时间窗之前的训练数据将随着时间的流逝被从训练数据集中移除，和/或未标注数据集可以是由从当前时刻起之前的时间窗内的新出现的未标注历史数据构成的未标注数据集，此时在该时间窗之前的未标注数据将随着时间的流逝被从未标注数据集中移除。采用时间窗内的扩充数据/新的未标注历史数据更新训练数据集/未标注数据集可以更快速地跟随业务数据的实时变化(例如与时间窗这段时间内的客户评价信息相适应)，体现分类性能在时间上的对业务数据的跟踪。

虽然上述实施例中是以服务行业的客户评价情感分析场景为例来介绍本申请的小类训练数据扩充方案，但是由以上步骤可看出，该小类训练数据扩充方案不仅适用于服务行业的客户评价数据，还可以适用于其它任何行业的文本数据；并且不仅适用于二分类模型，还适用于多分类模型。此外，本申请的训练数据扩充方案不仅可以用于扩充小类训练数据、即样本数不足的类别的训练数据，而且也可以用于扩充具有足够样本数的类别的训练数据。

另外，可以设想，本申请的上述训练数据集扩充方法并不局限于文本数据，而是可以毫无困难地扩展应用到其它类型的数据上、诸如图像数据或语音数据，此时采用适用于其数据类型的数据增强、关键信息筛选和分类模型即可。图2示出了根据本申请另一实施例的对训练数据集进行更新的方法200的流程框图。

在步骤S210中，获取初始训练数据集以及未标注数据集。初始训练数据集中的每个训练数据具有相应的类别标注信息，该类别标注信息指示相应训练数据所对应的类别。在此，初始训练数据集中的训练数据和未标注数据集中的未标注数据可以是任何类型的数据，例如文本数据、图像数据或语音数据。

在步骤S220中，获取第一扩充数据，该第一扩充数据包括满足预设类别条件的类别标注信息。第一扩充数据通过对初始训练数据集中的训练数据进行数据增强和/或根据预设的关键信息对未标注数据集中的未标注数据进行筛选而得到。也就是说，将由数据增强得到的或者筛选得到的、其类别满足预设类别条件的数据作为第一扩充数据。

在本申请一实施例中，预设类别条件例如可以是：在初始的训练数据集中，该类别的训练数据的数量不足以使分类模型将该类别正确预测出来，即，该类别的训练数据为小类训练数据。通常来说，其类别满足所述预设类别条件的训练数据的数量小于其类别不满足所述预设类别条件的训练数据中的至少一个类别的训练数据的数量。

在本申请一实施例中，所述数据增强可以以有监督的和/或无监督的方式进行。有监督的数据增强，就是对有限的训练数据通过某种变换操作，扩充出类似于真实训练数据的扩充数据，并且该扩充数据具有能确定的、指示扩充数据所对应的类别的类别标注信息。有监督的数据增强可包括单样本数据增强和多样本数据增强。单样本数据增强是指，在增强一个样本的时候，全部围绕着该样本本身进行操作，多样本数据增强是指利用多个样本来产生新的样本。

无监督的数据增强分为生成新的数据和学习增强策略两个方向。在生成新数据的情况中，通过模型学习数据的分布，随机生成与训练数据集分布一致的数据。在学习增强策略的情况中，通过模型学习出适合当前任务的数据增强方法。

在此，数据增强技术是适用于相应类型的数据、例如文本数据、图像数据或语音数据的数据增强技术，相应地，关键信息可以是适用于相应类型的数据、例如文本数据、图像数据或语音数据的关键信息，如关键词、关键图像信息或关键语言信息。上文已经给出了多个文本数据增强技术的例子，如EDA、回译、文本复述、UDA等。对图像数据的增强例如可以是对图像进行几何变换，包括翻转、平移、旋转、裁剪、变形、缩放等操作，以及对图像叠加噪声、模糊、颜色变换、擦除、填充等。对语音数据进行增强例如有加噪、过滤、裁剪等操作。无论是文本数据、语音数据还是图像数据，数据增强虽然有不同的方法，但这些方法本质上是相似的：传统直观的方法是对不同信号的裁剪、拼接、交换、旋转、拉伸等方式，采用深度学习模型的方法主要为生成和原数据相类似的数据。

在本申请一实施例中，在用数据增强方式获得第一扩充数据的情况下，对其类别满足预设类别条件的训练数据进行数据增强以获得第一扩充数据，或者对其类别不满足预设类别条件的训练数据进行数据增强以获得第一扩充数据。由此，由数据增强得到的第一扩充数据的类别标注信息可以与得到该第一扩充数据的原始训练数据的类别标注信息一致，也可以与之不同、尤其是相反。现有的数据增强技术所得到的第一扩充数据通常具有与原始训练数据相同的类别标注信息，这是因为，数据增强技术本质上还是对原始数据的信息的裁剪、拼接和交换，因此，原始训练数据和增强后的第一扩充数据可提取出近似相同的特征，因而也对应于相同的类别标注信息。但是，也可设想对原始训练数据的信息进行某种操作、例如反义替代，使得增强后的第一扩充数据具有与原始训练数据相反的特征，则此时增强后的第一扩充数据显然具有与原始数据相反的类别标注信息。

在上述步骤S220中，筛选可通过在未标注数据的数据内容(例如文本数据的原始文本或图像数据的原始图像)中搜索关键信息来进行。搜索可通过计算机程序模块来实现。在本申请一实施例中，在用筛选方式获得第一扩充数据的情况下，将关键信息的数量大于或等于关键信息阈值的未标注数据筛选为第一扩充数据。关键信息阈值例如可为2或大于2的自然数。通过将关键信息的数量的阈值设置为大于1，可大大排除误打标签的可能性。

根据本申请一实施例，所述筛选步骤以有监督和/或无监督的方式实施。有监督的筛选例如可通过对筛选结果进行人工复核或利用精度更高的程序进行复筛来进行。

在本申请一实施例中，在用数据增强方式以及筛选方式获得第一扩充数据的情况下，顺序地或并行地对训练数据进行数据增强和对未标注数据进行筛选。在此，数据增强和筛选能以固定的先后顺序进行(当然，这种先后顺序本身是可以任意设定的)，也能以随机顺序进行。在某些情况下，并行执行可以显著提高整个方法200流程的效率。

接着，在步骤S230中，根据第一扩充数据和初始训练数据集，对分类模型进行训练，得到训练后的分类模型。在此，分类模型一般可分为多个功能子模型，例如提取数据关键特征的子模型和建立关键特征与类别标注信息之间的映射的分类子模型。对分类模型的训练可以是对整个分类模型的参数进行训练，也可以仅训练分类模型的一部分功能子模型、尤其是分类子模型。

在步骤S240中，用训练后的分类模型预测未标注数据集中待预测数据的类别，所述待预测数据包括所述未标注数据集中第一扩充数据以外的未标注数据。将所预测的类别满足所述预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据。

例如，在本申请一实施例中，预设属性条件包括：待预测数据的被预测出的类别的置信度等于或大于预设的置信度阈值，和/或，被确定为第二扩充数据的待预测数据的数量与通过分类模型预测的待预测数据的数量的比例不超过预设的比例阈值。例如，置信度阈值可为统计学百分位数阈值，即，将其所预测的类别标注信息的值大于等于第q％分位数的待预测数据确定为第二扩充数据，其中q为1与100之间的数，例如为99。第q％分位数是当对类别标注信息的每个值所出现的概率进行描述的概率函数p(x)在类别标注信息的值上的积分达到q％(例如为99％)时所对应的类别标注信息的值。比例阈值小于在初始训练数据集中其类别满足预设类别条件的训练数据的数量与该初始训练数据集中训练数据的总数量的比例。通过同时满足与置信度阈值和比例阈值有关的条件，可进一步确保所选出的第二扩充数据的正确性。

接着，在步骤S250中，根据第一扩充数据和/或第二扩充数据，对初始训练数据集进行更新，得到更新后的训练数据集。由此完成了一次更新、即一次迭代。

可选地，上述更新过程可多次进行。例如，在每次迭代后，可判断：更新次数是否达到预先规定的次数和/或更新后的训练数据集中其类别满足预设类别条件的训练数据的数量是否满足预先规定的数量条件(S260)。当未达到预设更新次数和/或未满足预设数量条件时，将未标注数据集中第一扩充数据和第二扩充数据以外的未标注数据作为新的未标注数据集，以更新后的训练数据集作为新的初始训练数据集，重新回到获取第一扩充数据的步骤S220，开始对新的初始训练数据集的更新，即，重复上述步骤S220至S250。由此进行迭代，直至更新的次数达到预设更新次数和/或更新后的训练数据集中的其类别满足预设类别条件的训练数据的数量达到预设数量条件。例如，在本申请一实施例中，预设数量条件可以为：其类别满足预设类别条件的训练数据的数量至少足以使分类模型正确地预测出满足预设类别条件的类别，并且优选为使模型预测效果最好。例如，假如训练数据集中有n个类别的训练数据，可使每个类别的训练数据的数量占训练数据总数量的1/n。

通过不断重复步骤S220至S250，基于由数据增强和/或筛选得到第一扩充数据和由分类模型预测得到的第二扩充数据彼此的相互作用，训练数据的数量及其所含的特征信息可爆炸式地增长。

可选地，在多次迭代过程中，还可以在某次迭代时删除步骤S220至S250中的部分步骤。例如，可以在某次迭代时删除步骤S220，仅通过步骤S240中得到的第二扩充数据来更新训练数据集。

在本申请一实施例中，随着时间的变化对训练数据集和/或未标注数据集进行更新。随着时间的流逝，会出现可能包含新的主题的、新的训练数据和/或新的未标注历史数据，因此，可将这些新的训练数据添加入训练数据集中和/或将新的未标注历史数据添加入未标注数据集中。这种添加可以持续地进行，也可以每隔一段时间来进行。当未标注数据集在一段时间内未被添加新数据时，在多次重复步骤S220至S250的过程中，在步骤S220中可仅执行一次利用关键信息的筛选，由此还可提高整个方法200流程的效率。

特别是，能以预设时间期间内的更新数据来更新训练数据集和/或未标注数据集。在此，训练数据集和/或未标注数据集由从当前时刻起之前的一段时间(也称为时间窗)内的更新的训练数据(如第一和第二扩充数据以及新出现的有标签数据)和/或未标注数据(如新出现的未标注历史数据)构成，在该时间窗之前的训练数据和/或未标注数据将随着时间的流逝被从训练数据集和/或未标注数据集中移除。采用时间窗内的训练数据和/或未标注数据更新训练数据集和/或未标注数据集可以更快速地跟随业务数据的实时变化(例如与时间窗这段时间内的业务数据相适应)，体现分类性能在时间上的对业务数据的跟踪。

因此，本申请的训练数据集更新方案具有多个优点。例如，不会像通过减少大类类别的样本的方法一样，使得模型减少了对于大类样本的学习。减少对于大类样本的学习可能导致对大类样本预测精度的损失。例如，无需请标注人员进行额外标注，因而成本较低。此外，更重要的是，由于是对于训练数据集的直接补充，以本申请的方法更新得到的训练数据集可以适用于任何分类模型，而且本申请所提供的训练数据集更新方法可以适用于任何规模的样本集，并且不受场景、行业的限制。

在本申请的训练数据集更新方案应用于文本数据的情况下，训练数据和未标注数据包括文本数据，关键信息包括关键词。训练数据和未标注数据例如可包括评价数据，预设类别条件可包括：类别为差评。此时，数据增强包括文本数据增强，所述文本数据增强包括回译、简单数据增强、基于词向量的相邻词替换、基于掩码语言模型的替换、基于TF-IDF的词替换、混合交叉增强、对抗增强、文本复述、无监督数据增强中的至少一项。当包括上述中的至少两项时，文本数据增强通过顺序、嵌套以及重复中的一种或多种方式来执行。在步骤S230和S240中所使用的分类模型包括第一子模型和第二子模型，第一子模型被配置为对训练数据或未标注数据提取文本特征；第二子模型被配置为根据文本特征与类别之间的映射关系，确定与训练数据或未标注数据对应的类别。

在用本申请的上述训练数据集更新方法得到了更新后的训练数据集后，可用该训练数据集训练任一目标分类模型，也就是说，目标分类模型可以是任何分类模型，而非在更新训练数据集的过程中所用到的分类模型。训练好的目标分类模型可用于对数据进行分类，即预测数据的类别标注信息。因此，在本申请的示例性实施例中，还提供了一种对文本数据进行分类的方法，该方法包括：

-获取文本数据；

-通过目标分类模型，对文本数据进行分类，得到分类结果，

其中，所述目标分类模型基于由本申请的训练数据集更新方法得到的更新后的训练数据集进行训练。

在一实施例中，文本数据特别是包括评价数据。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行指令，该可执行指令被例如处理器执行时可以实现上述实施例中所述用于对训练数据集进行更新的方法的步骤。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书中训练数据集更新方法中描述的根据本申请各种示例性实施例的步骤。

程序代码可以完全地在用户计算设备上执行、部分地在用户计算设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

在本申请的示例性实施例中，还提供一种电子设备，该电子设备可以包括处理器，以及用于存储所述处理器的可执行指令的存储器。其中，所述处理器配置为经由执行所述可执行指令来执行上述实施例中的用于对业务数据进行分类的方法的步骤。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图3来描述根据本申请的这种实施方式的电子设备300。图3示出的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于：至少一个处理单元310、至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330、显示单元340等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元310执行，使得所述处理单元310执行本说明书训练数据集更新方法中描述的根据本申请各种示例性实施方式的步骤。例如，所述处理单元310可以执行如图2所示的方法的相应步骤。

所述存储单元320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202，还可以进一步包括只读存储单元(ROM)3203。

所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204，这样的程序模块3205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备300交互的设备通信，和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且，电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白，尽管图中未示出，但可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的训练数据集更新方法。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请真正的范围和精神由所附的权利要求指出。

Claims

1.一种对训练数据集进行更新的方法，该方法包括：

获取初始训练数据集以及未标注数据集，所述初始训练数据集中的训练数据包括类别标注信息；

获取第一扩充数据，所述第一扩充数据包括满足预设类别条件的类别标注信息，其中，所述第一扩充数据通过对所述初始训练数据集中的训练数据进行数据增强和/或根据预设的关键信息对所述未标注数据集中的未标注数据进行筛选所得到；

根据所述第一扩充数据和所述初始训练数据集，对分类模型进行训练，得到训练后的分类模型；

用训练后的分类模型预测所述未标注数据集中待预测数据的类别，将所预测的类别满足所述预设类别条件并且其数据属性满足预设属性条件的待预测数据确定为第二扩充数据，其中，所述待预测数据包括所述未标注数据集中所述第一扩充数据以外的未标注数据；

根据所述第一扩充数据和/或所述第二扩充数据，对所述初始训练数据集进行更新，得到更新后的训练数据集。

2.根据权利要求1所述的方法，其特征在于，以所述未标注数据集中第一扩充数据和第二扩充数据以外的未标注数据构成新的未标注数据集，以更新后的训练数据集作为新的初始训练数据集，回到获取第一扩充数据的步骤，开始对新的初始训练数据集的更新，直至更新的次数达到预设更新次数和/或更新后的训练数据集中其类别满足所述预设类别条件的训练数据的数量达到预设数量条件。

3.根据权利要求1或2所述的方法，其特征在于，在初始训练数据集中，类别满足所述预设类别条件的训练数据的数量小于类别不满足所述预设类别条件的训练数据中的至少一个类别的训练数据的数量。

4.根据权利要求1或2所述的方法，其特征在于，所述数据增强以有监督的和/或无监督的方式进行。

5.根据权利要求1或2所述的方法，其特征在于，在用数据增强方式获得第一扩充数据的情况下，对其类别满足预设类别条件的训练数据进行数据增强以获得第一扩充数据，或者对其类别不满足预设类别条件的训练数据进行数据增强以获得第一扩充数据。

6.根据权利要求1或2所述的方法，其特征在于，在用筛选方式获得第一扩充数据的情况下，将关键信息的数量大于或等于关键信息阈值的未标注数据筛选为所述第一扩充数据。

7.根据权利要求1或2所述的方法，其特征在于，在用数据增强方式以及筛选方式获得第一扩充数据的情况下，顺序地或并行地对训练数据进行数据增强和对未标注数据进行筛选。

8.根据权利要求1或2所述的方法，其特征在于，在获得第二扩充数据的步骤中，所述预设属性条件包括：待预测数据的被预测出的类别的置信度等于或大于预设的置信度阈值，和/或，被确定为第二扩充数据的待预测数据的数量与通过所述分类模型预测的待预测数据的数量的比例不超过预设的比例阈值。

9.根据权利要求8所述的方法，其特征在于，所述比例阈值小于在初始训练数据集中其类别满足所述预设类别条件的训练数据的数量与初始训练数据集中训练数据的总数量的比例。

10.根据权利要求1或2所述的方法，其特征在于，以预设时间期间内的更新数据来更新初始训练数据集和/或未标注数据集。

11.根据权利要求1或2所述的方法，其特征在于，所述训练数据和所述未标注数据包括文本数据，所述关键信息包括关键词。

12.根据权利要求11所述的方法，其特征在于，所述数据增强包括文本数据增强，所述文本数据增强包括回译和/或其它文本数据增强，其中，所述其它文本数据增强包括简单数据增强、基于词向量的相邻词替换、基于掩码语言模型的替换、基于TF-IDF的词替换、混合交叉增强、对抗增强、文本复述、无监督数据增强中的至少一项。

13.根据权利要求12所述的方法，其特征在于，通过顺序、嵌套以及重复中的一种或多种方式，执行所述回译和/或所述其它文本数据增强。

14.根据权利要求11所述的方法，其特征在于，所述分类模型包括第一子模型和第二子模型，第一子模型被配置为对所述训练数据或未标注数据提取文本特征；第二子模型被配置为根据文本特征与类别之间的映射关系，确定与训练数据或未标注数据对应的类别。

15.根据权利要求11所述的方法，其特征在于，所述训练数据和未标注数据包括评价数据，所述预设类别条件包括：类别为差评。

16.一种分类方法，该分类方法包括：

获取文本数据；

通过目标分类模型，对所述文本数据进行分类，得到分类结果，

其特征在于，所述目标分类模型基于由根据权利要求1至15中任一项所述的方法所得的更新后的训练数据集进行训练。

17.根据权利要求16所述的分类方法，其特征在于，所述文本数据包括评价数据。

18.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括可执行指令，其特征在于，当所述可执行指令被处理器执行时使所述处理器实施根据权利要求1至15中任一项所述的方法。

19.一种用于对训练数据集进行扩充的设备，该设备包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其特征在于，

所述处理器被配置为执行所述可执行指令以实施根据权利要求1至15中任一项所述的方法。