CN111783902A

CN111783902A - 数据增广、业务处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111783902A
Application number: CN202010752613.6A
Authority: CN
Inventors: 任抒怀; 张金超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-16
Anticipated expiration: 2040-07-30
Also published as: CN111783902B

Abstract

本申请涉及一种数据增广、业务处理方法、装置、计算机设备和存储介质。数据增广方法包括：根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略；基于当前增广策略得到的当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；获取训练业务处理模型对应的模型性能验证值；根据当前增广策略以及训练业务处理模型对应的模型性能验证值更新当前策略选取模型；选取满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略。增广后的样本可以用于人工智能模型的训练。采用本方法能够得到与第一训练样本集合匹配的目标增广策略。

Description

数据增广、业务处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种数据增广、业务处理方法、装置、计算机设备和存储介质。

背景技术

随着信息技术的发展，在很多情况下需要基于人工智能的业务处理模型进行业务的处理，例如基于文本分类模型对文本进行分类，或者基于图像检测模型对图像进行目标检测等。

传统技术中，可以基于训练样本对业务处理模型进行训练，然而由于训练样本数量比较少，或者是存在类别不均衡的问题，导致训练得到的模型的业务处理性能比较差，业务数据处理准确度低。

发明内容

基于此，有必要针对上述技术问题，提供一种的数据增广、业务处理方法、装置、计算机设备和存储介质。

一种数据增广方法，所述方法包括：根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略；基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合；根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；对所述训练业务处理模型的模型性能进行验证，得到所述训练业务处理模型对应的模型性能验证值；根据当前增广策略以及所述训练业务处理模型对应的模型性能验证值更新当前策略选取模型，返回所述根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤，直至满足增广策略选取停止条件；从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

一种数据增广装置，所述装置包括：当前增广策略选取模块，用于根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略；第一增广模块，用于基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合；业务处理模型训练模块，用于根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；验证模块，用于对所述训练业务处理模型的模型性能进行验证，得到所述训练业务处理模型对应的模型性能验证值；策略选取模型更新模块，用于根据当前增广策略以及所述训练业务处理模型对应的模型性能验证值更新当前策略选取模型，返回所述根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤，直至满足增广策略选取停止条件；目标增广策略得到模块，用于从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

在一些实施例中，所述策略选取模型更新模块包括：加入单元，用于将当前增广策略以及所述训练业务处理模型对应的模型性能验证值加入到历史验证结果集合中；概率分布更新单元，用于基于所述历史验证结果集合中的各个增广策略以及对应的模型性能验证值，更新增广策略对应的模型性能验证值的概率分布，得到当前策略选取模型。

在一些实施例中，所述当前增广策略选取模块包括：预测模型性能验证值确定单元，用于基于当前策略选取模型中增广策略对应的模型性能验证值的概率分布，确定各个候选增广策略对应的预测模型性能验证值；当前增广策略选取单元，用于获取对应的预测模型性能验证值满足验证值选取条件的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

在一些实施例中，所述预测模型性能验证值为模型损失值，所述当前增广策略选取单元用于：获取所述候选增广策略对应的预测模型性能验证值减去验证阈值得到的差值，获取对应的差值最小的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

在一些实施例中，所述验证模块用于：获取验证样本集合，将所述验证样本集合中的各个验证样本输入到所述训练业务处理模型中，得到所述验证样本对应的业务预测值；基于所述验证样本对应的业务预测值与所述验证样本对应的标准业务处理值的差异，得到所述验证样本对应的模型损失值；对所述验证样本集合中，各个所述验证样本对应的模型损失值进行统计，得到综合损失值；根据所述综合损失值得到所述训练业务处理模型对应的模型性能验证值。

在一些实施例中，所述业务处理模型训练模块用于：获取第二训练样本集合；其中，所述第一训练样本集合中的样本为第一类型，所述第二训练样本集合中的样本为第二类型；所述第一训练样本集合中的样本数量小于所述第二训练样本集合中的样本数量根据所述第二训练样本集合以及当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

在一些实施例中，当前增广策略包括多个子策略，所述第一增广模块包括：第一训练样本获取单元，用于获取第一训练样本集合中的第一训练样本；目标子策略选取单元，用于从当前增广策略的多个子策略中选取得到所述第一训练样本对应的目标子策略；目标增广操作确定单元，用于根据所述目标子策略中各个候选增广操作对应的增广概率确定目标增广操作；增广单元，用于根据所述目标增广操作对所述第一训练样本进行数据增广，得到当前增广样本。

在一些实施例中，所述目标增广操作包括第一增广操作以及第二增广操作，所述第一增广操作的操作顺序在所述第二增广操作之前，所述增广单元用于：对所述第一训练样本执行所述第一增广操作，得到中间增广样本；对所述中间增广样本执行所述第二增广操作，得到第一增广样本。

在一些实施例中，所述目标增广策略得到模块用于：从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值最优的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述数据增广方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据增广方法的步骤。

上述数据增广方法、装置、计算机设备和存储介质，由于模型性能验证值是基于当前增广策略进行增广得到的样本集合对初始的业务处理模型进行训练，所得到的训练业务处理模型的性能验证结果，因此该模型性能验证值能够评判当前增广策略的优劣，故基于当前增广策略以及对应的模型性能验证值能够优化策略选取模型，使得策略选取模型尽可能的选取到更好的策略，因此当满足增广策略选取停止条件后，从各个策略选取轮次对应的训练业务处理模型中，获取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略，能够得到与第一训练样本集合匹配的增广策略，策略获取准确度高。

一种业务处理方法，所述方法包括：获取第一训练样本集合，所述第一训练样本集合包括多个第一训练样本，所述第一训练样本为图像或者文本；获取所述第一训练样本集合对应的目标增广策略，其中，所述目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，所述训练业务处理模型所对应的增广策略是策略选取模型选取的，利用所述策略选取模型选取的增广策略对所述第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到所述训练业务处理模型，所述策略选取模型根据所述训练业务处理模型对应的增广策略以及模型性能验证值进行更新；根据所述目标增广策略对所述第一训练样本集合进行增广，得到增广后的第一训练样本集合；根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于所述目标业务处理模型对业务数据进行处理，所述业务数据为图像业务数据或者文本业务数据。

一种业务处理装置，所述装置包括：第一训练样本集合获取模块，用于获取第一训练样本集合，所述第一训练样本集合包括多个第一训练样本，所述第一训练样本为图像或者文本；策略获取模块，用于获取所述第一训练样本集合对应的目标增广策略，其中，所述目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，所述训练业务处理模型所对应的增广策略是策略选取模型选取的，利用所述策略选取模型选取的增广策略对所述第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到所述训练业务处理模型，所述策略选取模型根据所述训练业务处理模型对应的增广策略以及模型性能验证值进行更新；第二增广模块，用于根据所述目标增广策略对所述第一训练样本集合进行增广，得到增广后的第一训练样本集合；目标业务处理模型得到模块，用于根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于所述目标业务处理模型对业务数据进行处理，所述业务数据为图像业务数据或者文本业务数据。

在一些实施例中，所述业务处理装置还包括：业务数据获取模块，用于获取待识别的业务数据；业务分类模块，用于根据所述目标业务处理模型对所述业务数据进行业务分类，得到业务分类结果，所述业务分类结果为文本分类结果或者图像分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述业务处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述业务处理方法的步骤。

上述业务数据处理方法、装置、计算机设备和存储介质，由于模型性能验证值是基于策略选取模型选取得到增广策略进行增广得到的样本集合，对初始的业务处理模型进行训练得到的模型的性能验证结果，因此该模型性能验证值能够评判所使用的增广策略的优劣，基于训练业务模型对应的增广策略以及对应的模型性能验证值能够优化策略选取模型，使得策略选取模型能够尽可能选取到更好的策略，故选取的满足性能条件的训练业务处理模型所对应的增广策略的与第一训练样本集合匹配度，基于与第一训练样本集合匹配的目标增广策略对第一训练样本集合进行增广，能够增加样本数量且提高样本的增广质量，通过增广后的第一训练样本集合对业务处理模型进行训练，提高了训练得到的模型的业务性能，提高了业务处理准确度。

附图说明

图1为一些实施例中数据增广方法以及业务处理方法的应用环境图；

图2为一些实施例中数据增广方法的流程示意图；

图3为一些实施例中数据增广方法的原理示意图；

图4为一些实施例中基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合的流程示意图；

图5为一些实施例中基于当前增广策略对第一训练样本进行增的原理示意图；

图6为一些实施例中数据增广方法的流程示意图；

图7为一些实施例中对图像进行检测的界面示意图；

图8为一些实施例中数据增广装置的结构框图；

图9为一些实施例中业务处理装置的结构框图；

图10为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一样本称为第二样本，且类似地，可将第二样本称为第一样本。

本申请实施例中的业务处理模型为人工智能模型，在通过机器学习算法进行学习后，可以用于对业务数据进行处理，例如对文本进行分类，或者对图像进行目标检测等。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请提供的数据增广方法以及业务处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104中可以部署有基于目标增广策略对训练样本进行增广，基于增广后的样本训练得到的目标业务处理模型，目标业务处理模型可以是图像处理模型或者文本处理模型，即目标业务处理模型可以用于对图像或者文本进行处理，例如对图像进行分类，得到图像分类结果，或者对文本进行分类，得到文本分类结果。当需要进行业务处理时，例如当需要确定文本对应的类别时，则可以通过终端102发送业务处理请求，例如文本分类请求，服务器104获取文本分类请求对应的待分类的文本，利用训练后的目标业务处理模型对待分类的文本进行文本分类，得到文本分类结果。服务器104可以向终端102返回文本分类结果。例如，当需要对某部电影的电影评论进行情感分类时，可以通过终端102发送对该电影的电影评论的进行情感分类的情感分类请求，服务器104接收到情感分类请求，获取该电影的电影评论，利用情感分类模型(目标业务处理模型)分别对每条电影评论进行情感分析，输出的情感类别为正面或者负面。从而可以对各条电影评论的情感进行统计，得到该电影对应的评论统计结果。又例如，业务数据可以是图像，可以通过图像检测模型(目标业务处理模型)对图像进行目标检测，检测图像中是否包括特定的对象例如人、动物、物品或者植物的至少一种，得到图像检测结果。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一些实施例中，如图2所示，提供了一种数据增广方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略。

具体地，数据增广(DataAugmentation)是指对数据施加一个或多个数据变换操作，来获得新的数据。例如，对图片数据，可以旋转一个角度。对文本数据，可以是删除句子中的一个或者多个单词。对于训练样本，数据增广后对应的标签可以保持不变。增广策略是指进行数据增广的策略，增广策略对应的策略参数可以包括增广操作的类型、增广操作的选择概率或者增广操作的强度的至少一个。增广操作的类型根据数据的类型确定。例如对于文本，可以包括单词随机删除、单词随机交换、同义词替换、基于TF-IDF(TermFrequency–Inverse Document Frequency，词频-逆文档频率)的单词替换、基于TF-IDF的单词插入、回译、基于GPT-2(Generative Pre-Training)语言模型的改写或者基于WordNet的单词替换(WordNet Substitute)的至少一个。对于图像，可以包括旋转变换、平移变换或者区域裁剪的至少一个。

增广操作的选择概率是指增广操作在增广策略中被执行的概率。例如，假设增广操作的概率为0.2，则表示该增广操作被选中的概率为0.2。增广操作的强度是指对数据进行增广操作时所采用的强度。对于文本，强度可以用词语变换的个数或者比例确定。例如，对于一个句子，如果增广操作为单词删除，强度为2，则表示这个句子中有2个单词需要删除。对于图像，强度可以用旋转的角度的大小、裁剪的区域的大小或者平移的大小确定。例如，假设旋转强度为60度，则表示选择执行图像旋转操作时，需要旋转图像60度。

策略选取模型用于选取得到策略。当前策略选取轮次是指当前所在的策略选取轮次，在更新策略选取模型时，每更新一次为一轮。当前策略选取模型是指当前策略选取轮次所对应的策略选取模型。当前增广策略是根据当前策略选择模型选取得到的增广策略。

策略选取模型可以是根据增广策略的策略参数以及利用该增广策略训练得到的模型对应的模型性能验证值更新的。策略例如包括增广操作对应的类型、概率或者强度的至少一个。策略选取模型的目标是选取到使得模型性能验证值最小的增广策略。

具体地，在当前策略选取轮次，服务器可以根据历史的增广策略的策略参数以及利用该增广策略训练得到的模型对应的模型性能验证值更新策略选取模型，得到当前策略选取模型。然后利用当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略。

步骤S204，基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合。

其中，训练样本是用于进行模型训练的样本。例如可以是图像也可以是文本。第一训练样本集合中包括多个训练样本。多个是指至少两个。例如，可以包括100个训练样本。

具体地，得到当前增广策略之后，服务器可以获取第一训练样本集合中的各个第一训练样本，根据该增广策略对各个第一训练样本进行增广，第一训练样本与增广后的第一训练样本组成当前增广样本集合。

例如，第一训练样本集合中有100个句子。对于每一个句子，可以利用当前增广策略对该句子进行增广。假设其中的一个句子为“今天是周五”，当前增广策略中包括的增广操作为词语的随机删除(Random Delete，RD)以及基于WordNet的单词替换(WordNetSubstitute)，则可以删除“今天是周五”的“是”，得到“今天周五”。再将“今天周五”中的“天”替换为“日”，得到“今日周五”。

步骤S206，根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

其中，业务处理模型是指用于进行业务处理的模型，例如可以是进行图像检测的神经网络模型或者进行文本处理的神经网络模型的至少一个。如进行文本处理的业务处理模型，可以是基于BERT(Bidirectional Encoder Representation from Transformers，双向编码器表示)的神经网络模型。初始的业务处理模型是指初始化的业务处理模型，初始的业务处理模型例如是从未训练过的业务处理模型。训练业务处理模型是指训练得到的业务处理模型，在每个策略选取轮次，业务处理模型都是由初始的业务处理模型开始进行训练的。

具体地，服务器在每个当前策略选取轮次中，当需要利用当前增广样本集合训练业务处理模型时，可以对业务处理模型重新进行初始化，并重新训练业务处理模型，在每个策略选取轮次中，训练得到收敛的业务处理模型。模型收敛条件可以是模型损失值小于预设损失值或者训练次数达到预设次数的至少一个。即在每个当前策略选取轮次中，服务器可以对初始的业务处理模型进行多次的模型训练，得到收敛的业务处理模型。

在训练时，服务器可以朝着损失值变小的方向调整业务处理模型中的模型参数，可以经过多次迭代训练，得到训练业务处理模型。例如，根据模型损失值进行反向传播，并在反向传播的过程中，沿梯度下降方向更新业务处理模型的模型参数，得到训练后的收敛的业务处理模型。其中，反向是指参数的更新与业务数据处理的识别的方向是相反的，由于参数的更新是反向传播的，因此可以根据模型损失值得到下降梯度，从业务处理模型的最后一层开始，根据下降梯度开始进行模型参数的梯度更新，直至到达业务处理模型的第一层。梯度下降方法可以是随机梯度下降法和批量梯度下降法等等。

步骤S208，对训练业务处理模型的模型性能进行验证，得到训练业务处理模型对应的模型性能验证值。

其中，模型性能验证值是指对模型的性能进行验证得到的值，可以用于表示模型性能的好坏，模型的性能可以用模型对业务数据进行处理的准确度或者模型在验证训练样本集合的模型损失值的至少一个表示。例如，服务器可以将验证样本集合中的各个验证样本输入到训练业务处理模型中，得到验证样本的预测类别，将验证样本的预测类别与验证样本的标准类别(标签)进行对比，如果对比一致，则为预测准确，如果对比不一致，则为预测不准确。可以获取验证训练样本集合中的预测准确的样本比例，作为模型性能验证值。

在一些实施例中，对训练业务处理模型的模型性能进行验证，得到训练业务处理模型对应的模型性能验证值包括：获取验证样本集合，将验证样本集合中的各个验证样本输入到训练业务处理模型中，验证样本对应的业务预测值；基于验证样本对应的业务预测值与验证样本对应的标准业务处理值的差异，得到验证样本对应的模型损失值；对验证样本集合中，各个验证样本对应的模型损失值进行统计，得到综合损失值，根据综合损失值得到训练业务处理模型对应的模型性能验证值。

其中，验证样本集合中的样本是用于对模型的性能进行验证的样本。验证样本集合与第一训练样本集合是不同的集合，这样可以验证训练业务处理模型的泛化性能。损失值是根据损失函数得到的，损失函数(loss function)是用于表示事件的“风险”或“损失”的函数。模型损失值越大，则说明性能越差。业务预测值是指利用训练业务处理模型对验证样本进行处理，所预测得到的值，例如概率值。标准业务处理值是指标准的业务处理值，是该验证样本对应的实际的业务处理值。例如，对于文本分类而言，业务预测值可以是一个文本的情绪类别为各个情绪类别的概率，例如正面情绪为0.7，负面情绪为0.3，假设该文本对应的情绪类别为正面情绪，则标准业务处理值为正面情绪对应的概率为1，负面情绪对应的概率为0。对于图像处理而言，业务预测值可以是图像中包括各种对象的概率，例如包括狗的概率为0.8，包括猫的概率为0.3。假设该图像实际上包括狗，不包括猫，则标准业务处理值为包括狗的概率为1，包括猫的概率为0。模型损失值是根据业务预测值与验证样本对应的标准业务处理值的差异得到的，差异越大，则模型损失值越大，例如模型损失值可以是预测得到的概率与标准的概率的差的平方和。

具体地，服务器可以将验证样本集合中的每个验证样本分别输入到训练业务处理模型中，得到每个验证样本对应的业务预测结果，计算业务预测值与验证样本对应的标准业务处理值的差值的平方和，得到该验证样本对应的模型损失值，然后将验证样本集合中，验证样本对应的模型损失值相加，得到综合损失值，可以将该综合损失值作为模型性能验证值，也可以是根据综合损失值进一步计算，得到模型性能验证值。例如，还可以计算验证样本集合的预测准确的样本比例，基于预测准确的样本比例得到对应的性能分数，基于综合损失值得到对应的性能分数，将两个性能分数相加，得到的分数作为模型性能验证值。

举个实际的例子，假设验证样本集合中有3个验证样本，第一个验证样本对应的模型损失值为a，第二个验证样本对应的模型损失值为b，第三个验证样本对应的模型损失值为c，则综合损失值为a+b+c。

步骤S210，判断是否满足增广策略选取停止条件。

具体地，增广策略选取停止条件可以是训练时长达到时长阈值或者增广策略选取轮次达到轮次阈值的至少一个。例如，当前策略选取轮次达到第12轮时，则停止进行训练。如果不满足增广策略选取停止条件，则进入步骤S212。如果满足增广策略选取停止条件，则进入步骤214。

步骤212，根据当前增广策略以及训练业务处理模型对应的模型性能验证值更新当前策略选取模型。

具体地，如果不满足增广策略选取停止条件，则可以根据当前增广策略以及对应的模型性能验证值更新当前策略选取模型，并进入根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤。通过利用当前增广策略以及对应的模型性能验证值更新当前策略选取模型，能够优化策略选取模型。

在一些实施例中，根据当前增广策略以及对应的模型性能验证值更新当前策略选取模型包括：将当前增广策略以及训练业务处理模型对应的模型性能验证值加入到历史验证结果集合中；基于历史验证结果集合中的各个增广策略以及对应的模型性能验证值，更新增广策略对应的模型性能验证值的概率分布，得到当前策略选取模型。

其中，由于增广策略的策略参数与模型性能数据之间的关系函数(关系模型)很难找到，是一个黑盒问题。因此可以构建该关系模型对应的代理模型以及依据代理模型进行策略选择的采集函数，作为策略选取模型。该代理模型可以是概率模型，概率模型可以是依据历史的增广策略对应的参数以及利用该增广策略训练得到的模型对应的模型性能验证值更新的，代理模型为对关系模型的概率表征(probabilityrepresentation)。例如当根据增广策略对应的策略参数x以及策略参数x对应的模型性能验证值，代理模型可以建模关系模型不同取值的概率p(y|x)，p(y|x)表示给定策略参数x，模型性能验证值为y的概率，即得到增广策略对应的性能验证值的概率分布。因此利用当前增广策略以及对应的模型性能验证值更新当前策略选取模型时，可以根据当前增广策略以及对应的模型性能验证值更新在不同的策略参数x处，得到的验证值为y的概率，即更新增广策略与性能验证值之间的概率分布(更新代理模型)。代理模型例如可以是高斯过程(GaussianProcesses)模型、随机森林回归(RandomForestregression)模型或者树形Parzen估计(Tree-structuredParzenEstimator,TPE)模型等。采集函数(AcquisitionFunction)查找当前策略选取轮次中，使得采集函数最大的策略参数，将该策略参数对应的策略作为当前增广策略。采集函数例如可以是最大改进概率(maximumprobability ofimprovement,MPI)、期望增量(expected improvement,EI)或者置信度上界(upperconfidencebound,UCB)。

历史验证结果集合中存储的是历史的增广策略与对应的模型性能验证值。即在每个策略选取轮次中，将得到的增广策略的参数与对应的模型性能验证值加入到历史验证结果集合中，以根据历史验证结果集合中的增广策略与模型性能验证值的对应关系更新增广策略与模型性能验证值之间的概率分布，从而使得代理模型可以更好的表示出在给定的x的情况下，关系模型输出不同取值的概率p(y|x)。从而可以根据采集函数尽可能采集得到更优的增广策略。策略选取的目标为采集得到使采集函数对应的值最大的策略参数，即极值点对应的策略参数。

本申请实施例中，通过将每个策略选取轮次中的增广策略以及对应的模型性能验证值加入到历史验证结果集合中，利用了历史的经验信息更新代理模型，能够使得代理模型越来越准确，从而提高了策略选取的准确度。

在一些实施例中，根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略包括：基于当前策略选取模型中增广策略对应的模型性能验证值的概率分布，确定各个候选增广策略对应的预测模型性能验证值；获取对应的预测模型性能验证值满足验证值选取条件的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

具体地，服务器得到增广策略对应的模型性能验证值的概率分布后，对于给定的策略参数x，可以得到其对应的取值为y值的概率，而根据高斯过程回归，可以假设关系模型在各个点处的函数值f(x)都是随机变量，它们构成的随机向量服从多维正态分布，因此可以根据正态分布确定数学期望的公式预测得到策略参数x对应的数学期望，即策略参数x对应的预测的模型验证损失值。验证值选取条件例如可以是损失值最小。例如可以将预测的模型损失值最小的策略参数作为当前策略选取轮次对应的当前策略参数，从而得到当前增广策略。

在一些实施例中，预测模型性能验证值为模型损失值，获取候选增广策略对应的预测模型性能验证值减去验证阈值得到的差值，获取对应的差值最小的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

具体地，验证阈值可以是预先设置的，也可以随着策略选取轮次的更新而更新。例如，当模型性能验证值为模型损失值时，可以是获取历史验证结果集合中，最小的模型性能验证值，作为验证阈值。即可以将历史的策略选取轮次中，最小的模型损失值作为验证阈值。服务器可以将预测模型性能验证值减去验证阈值，得到差值，获取所对应的差值最小的候选增广策略，作为当前增广策略。由于差值越小，则说明候选增广策略对应的预测模型性能验证值(预测模型损失值)相对于损失值阈值(验证阈值)越小，即采集函数的目标为获取得到比损失值阈值越小越好的预测模型损失值，从而尽可能得到更优的增广策略。本申请实施例中，当将历史验证结果集合，最小的模型损失值(综合损失值)，作为验证阈值时，能够使得获取得到的当前增广策略，所对应的预测模型损失值是比历史验证结果集合中，最小的综合损失值越小越好的，因此可以使得所选取的当前增广策略为尽可能优化的增广策略。

在一些实施例中，选取当前增广策略的采集函数EI的公式可以表示如公式(1)，其中，

指验证阈值，可以是历史验证结果集合中，最小的模型损失值，L(F,D_aug(φ),D_val)代表基于当前增广样本集合D_aug(φ)训练得到的训练业务模型F在验证样本集合D_val得到的损失，即综合损失值。公式(1)代表了在代理模型M的条件下，当前增广策略φ的预测的损失值会小于阈值的期望，min表示求最小值。

步骤S214，从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略。

其中，性能条件可以包括性能验证值优于预设验证值或者在预设排序之前的至少一个，验证值的排序是从按照从优到劣的进行排序的，验证值表示的性能越优，则排序越前。预设验证值和预设排序可以根据需要设置。例如，当性能验证值为准确度，可以是0.8。服务器可以选取模型性能验证值最优的训练业务处理模型。其中，当模型性能验证值为损失值时，则损失值最小为最优。当模型性能验证值为模型的预测准确度时，则准确度最大为最优。

具体地，由于已经经过了多轮的策略选取，每轮都对应有训练得到的训练业务处理模型，因此可以选取模型验证性能最优的训练业务处理模型，该最优的训练业务处理模型对应的增广策略为目标增广策略。例如，假设进行了20轮的增广策略选取，如果利用第28轮得到的增广策略对第一训练样本集合进行增广，利用增广得到的增广样本集合对初始的业务处理模型进行训练，所得到的训练业务处理模型为最优的业务处理模型，则可以将第28轮所使用的增广策略作为目标增广策略。

在一些实施例中，得到目标增广策略的公式可以表示如公式(2)，其中L(F,D_aug(φ),D_val)代表基于当前增广样本集合D_aug(φ)上训练得到的训练业务模型F在验证样本集合D_val得到的损失，即综合损失值。S1是策略φ的搜索空间，即增广策略对应的参数的选取空间，S2是训练业务模型的搜索空间，S2＝{F₁,...,F_N},N表示策略选取的总轮次。即S2是每个策略选取轮次得到的训练业务处理模型的集合。φ^*表示最佳的增广策略(目标增广策略)，F^*表示性能最佳的训练业务处理模型。公式(2)表示通过最佳的增广策略φ^*进行训练样本的增广，基于增广后的样本集合训练业务处理模型，能够得到最佳的业务处理模型F^*，即F^*在验证样本集合上的损失最小。arg是变元(即自变量argument)的英文缩写。argmin是指使式子达到最小值时的变量的取值

本申请实施例中，在每轮的策略选取中更新策略选取模型，而业务处理模型在每轮的策略选取中都是重新从初始的业务处理模型开始训练的，因此训练业务处理模型的模型性能验证值能够表示所选取的增广策略的优劣，因此通过不断的更新策略选取模型，能够使得选取的策略朝着越来越好的方向前进，而通过选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略，而并非将策略选取模型最后选取得到的增广策略，能够减少更新策略选取模型过拟合的情况，因此能够选取得到与第一训练样本集合匹配的增广策略。

上述数据增广方法，由于模型性能验证值是基于当前增广策略进行增广得到的样本集合对初始的业务处理模型进行训练，所得到的训练业务处理模型的性能验证结果，因此该模型性能验证值能够评判当前增广策略的优劣，故基于当前增广策略以及对应的模型性能验证值能够优化策略选取模型，使得策略选取模型尽可能的选取到更好的策略，因此当满足增广策略选取停止条件后，从各个策略选取轮次对应的训练业务处理模型中，获取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略，能够得到与第一训练样本集合匹配的增广策略，策略获取准确度高。

如图3所示，为一些实施例中数据增广方法的原理示意图。可以通过策略优化器(策略选取模型)输出第i轮策略选取轮次中，第一训练样本集合对应的策略φi，利用φi对第一训练样本集合进行数据增广，基于增广后的样本集合训练初始的业务处理模型，得到第i轮策略选取轮次中，所训练得到的训练业务处理模型F_i，可以利用验证样本集合确定训练业务处理模型F_i对应的验证损失值(综合损失值)，基于综合损失值以及对应的策略更新策略优化器，如此的往复循环，直至满足增广训练条件，例如策略优化器已经更新了10次。

在一些实施例中，当前增广策略包括多个子策略，如图4所示，步骤S204即基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合包括：

步骤S402，获取第一训练样本集合中的第一训练样本。

具体地，第一训练样本集合中包括多个第一训练样本，对于第一训练样本集合中的任一个训练样本，可以执行步骤S402～408。

步骤S404，从当前增广策略的多个子策略中选取得到第一训练样本对应的目标子策略。

具体地，当前增广策略中包括多个子策略，多个是指至少两个，子策略中可以包括多个增广操作，子策略中的增广操作是按照顺序执行的。可以按照预设的规则从当前增广策略的多个子策略中，选取其中的一个子策略，作为第一训练样本对应的目标子策略。预设规则可以是随机选取或者是按照顺序选取。例如，对于第一个第一训练样本，可以选取子策略1作为目标子策略，对于第二个第一训练样本，可以选取子策略2作为目标子策略。

在一些实施例中，增广策略中子策略的个数以及子策略中增广操作的个数可以是固定的。这样可以减少策略对应的参数的个数，提高得到满足条件例如最优的策略的速度。例如，子策略的个数可以为4个，子策略中增广操作的个数可以为2个。

步骤S406，根据目标子策略中各个候选增广操作对应的增广概率确定目标增广操作。

具体地，子策略中包括多个增广操作，称为候选增广操作。一个子策略中的增广操作并不一定是必须执行的，需要按照其概率确定。例如，假设一个增广操作的概率为0.5，则表示当选定其对应的子策略作为目标子策略时，该增广操作有50％的几率会被执行。服务器在基于候选增广操作对应的增广概率确定目标增广操作时，可以随机产生一个1至10的整数，如果该整数小于等于5，则该候选增广操作被选中，为目标增广操作。

步骤S408，根据目标增广操作对第一训练样本进行数据增广，得到当前增广样本。

具体地，得到目标增广操作后，可以利用目标增广操作对第一训练样本进行数据增广，得到当前增广样本。当目标增广操作为多个时，可以按照在子策略中的顺序依次执行。可以理解，由于一个子策略中的每个增广操作可以被执行也可以不执行，因此，假设子策略中有j个子操作，则利用子策略对第一训练样本进行增广的样本存在2的j次方种可能。且当子策略中的候选增广操作都没有被选中为目标增广操作时，则当前增广样本与第一训练样本是一致的。

在一些实施例中，还可以根据增广操作的强度对训练样本进行增广，对于文本，增广操作的强度可以用修改的单词的比例或者个数表示，当按照比例得到的单词个数不是整数时，可以向上或者向下取整。

在一些实施例中，目标增广操作包括第一增广操作以及第二增广操作，根据目标增广操作对第一训练样本进行数据增广，得到第一增广样本包括：对第一训练样本执行第一增广操作，得到中间增广样本；对中间增广样本执行第二增广操作，得到第一增广样本。

具体地，第一增广操作在目标子策略中的操作顺序在第二增广操作之前。得到第一增广操作和第二增广操作后，可以先利用第一增广操作对第一训练样本进行数据增广，得到中间增广样本，再利用第二增广操作对中间增广样本进行数据增广，得到第一增广样本。可以理解，第一增广样本可以是第二增广操作对中间增广样本进行数据增广之后得到的样本，再继续进行增广得到的，即目标增广操作还可以包括第三增广操作。

本申请实施例中，一个增广策略中包含多个子策略，子策略中的增广操作根据概率确定是否执行，因此可以提高增广后得到的增训练样本集合中训练样本的多样性，扩大对训练数据分布的支撑。

如图5所示，为一些实施例中，基于当前增广策略对第一训练样本进行增广的原理示意图。假设第一训练样本(原始文本)为“Plays like a volatile and overlongWmagazine fashion spread”。当前增广策略表示为P，当前增广策略P包括4个子策略，p1、p2、p3以及p4。O1代表第一个增广操作，O2代表第二个增广操作。RS表示增广操作的类型为随机交换(Random Swap)。TI表示增广操作的类型为基于IF-TDF的单词插入(TF-IDFSubstitute)，RD表示增广操作的类型为随机删除(Random Delete)。RS(0.2,0.1)表示随机交换操作对应的概率为0.2，强度为0.1，即可以修改10％的单词。图5中，灰色方框中的增广操作表示该操作被选为目标增广操作。白色方框表示该操作没有被选为目标增广操作，即不执行该操作。根据图5，当采用p1策略作为目标子策略，且TI操作被选中为目标增广操作时，则对原始文本执行基于IF-TDF的单词插入(TF-IDF Substitute)，得到的增广文本为“Discovered plays like a volatile and overlong W magazine fashion spread”。当采用p2策略作为目标子策略，且RD操作被选中为目标增广操作时，则对原始文本执行基于随机删除，得到的增广文本为“a and overlong Wmagazine fashion”。

在一些实施例中，步骤S206即根据当前增广样本集合对初始的业务处理模型进行训练，得到训练业务处理模型包括：获取第二训练样本集合；根据第二训练样本集合以及当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；其中，第一训练样本集合中的样本为第一类型，第二训练样本集合中的样本为第二类型；第一训练样本集合中的样本数量小于第二训练样本集合中的样本数量。

具体地，第二训练样本集合与第二训练样本集合中的样本类型是不同的，样本类型根据样本对应的标签确定。例如，对于情感分类，第一训练样本集合中的文本样本对应的情感类别是正面情绪，第二训练样本集合中的文本样本对应的情感类别是负面情绪。第一训练样本集合中的样本数量小于第二训练样本集合中的样本数量，即第一类型对应的训练样本是样本数量相对比较少的样本。本申请实施例中，在确定第一训练样本集合对应的目标增广策略时，不仅仅是只利用增广后的第一训练样本集合进行训练，而是通过联合不需要进行增广的第二类型的训练样本进行训练，因此能够体现模型的真实的性能，而由于确定的是第一训练样本集合对应的目标增广策略，因此在获取到第一训练样本集合和第二训练样本集合时，服务器利用目标增广策略对数量少的第一训练样本集合进行增广，提高数量少的训练样本的样本数量，减少由于样本类别不均衡影响模型性能的情况，能够提高业务处理模型的性能。

在一些实施例中，对于每次得到的训练业务模型，由于训练业务处理模型的模型参数比较多，为了减少存储成本，可以删除该训练业务处理模型的模型参数，当得到目标增广策略后，再基于目标增广策略以及第一训练样本集合训练得到目标业务处理模型。如图6所示，提供了一种业务处理处理方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S602，获取第一训练样本集合。

具体地，当需要进行模型训练时，可以获取第一训练样本集合。第一训练样本集合中包括多个第一训练样本，训练样本为图像或者文本。例如第一训练样本集合中可以包括多个语句。

步骤S604，获取第一训练样本集合对应的目标增广策略。

其中，目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，训练业务处理模型所对应的增广策略是策略选取模型选取的，利用策略选取模型选取的增广策略对第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到训练业务处理模型，策略选取模型根据训练业务处理模型对应的增广策略以及模型性能验证值进行更新。

具体地，目标增广策略是根据数据增广方法得到的，在此不再赘述。

步骤S606，根据目标增广策略对第一训练样本集合进行增广，得到增广后的第一训练样本集合。

具体地，根据目标增广策略对第一训练样本集合进行增广，与根据当前增广策略对第一训练样本集合进行增广的原理是一致的，在此不再赘述。增广后的第一训练样本集合包括增广前的第一训练样本以及增广后的第一训练样本。

步骤S608，根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于目标业务处理模型对业务数据进行处理。

具体地，可以利用增广后的第一训练样本集合对业务处理模型进行多轮的训练，直至业务处理模型收敛，得到目标业务处理模型。目标业务处理模型用于对业务数据进行处理，业务数据为图像业务数据或者文本业务数据。例如，当目标业务处理模型为文本翻译模型时，则可以利用文本翻译模型对文本进行翻译。

上述业务数据处理方法，由于模型性能验证值是基于策略选取模型选取得到增广策略进行增广得到的样本集合，对初始的业务处理模型进行训练得到的模型的性能验证结果，因此该模型性能验证值能够评判所使用的增广策略的优劣，基于训练业务模型对应的增广策略以及对应的模型性能验证值能够优化策略选取模型，使得策略选取模型能够尽可能选取到更好的策略，故选取的满足性能条件的训练业务处理模型所对应的增广策略的与第一训练样本集合匹配度，基于与第一训练样本集合匹配的目标增广策略对第一训练样本集合进行增广，能够增加样本数量且提高样本的增广质量，通过增广后的第一训练样本集合对业务处理模型进行训练，提高了训练得到的模型的业务处理性能。

在一些实施例中，第一训练样本集合中的样本为第一类型，第二训练样本集合中的样本为第二类型。可以基于第二训练样本集合以及增广后的第一训练样本集合对业务处理模型进行训练。

在一些实施例中，业务处理方法还可以包括以下步骤:获取待识别的业务数据；根据目标业务处理模型对业务数据进行业务分类，得到业务分类结果。

具体地，业务分类结果可以为文本分类结果或者图像分类结果。业务数据可以是文本数据或者图像数据。例如，目标业务处理模型为对文本进行分类的模型，分类的类别可以根据需要设置，例如可以分为正面情绪或者负面情绪。分类的类别也可以是用户的评分，或者当业务文本为问题时，分类的类别可以是问题的类型，例如是关于人的、关于位置的或者是关于数字的。当问题是关于人的问题，则可以做出与人相关的回复。目标业务处理模型还可以是意图识别模型，可以确定文本对应的意图类别或者对图像进行目标检测的图像处理模型。

本申请实施例中，通过利用目标增广策略增广得到的样本训练得到目标业务处理模型，能够提高目标业务处理模型的泛化性能，因此得到的文本分类效果好。

例如，假设业务文本为电影评论“我已经看了这部电影很多遍了，非常非常非常的喜欢，整个电影的突破和改革让人眼前一亮”，则通过目标业务处理模型对该电影评论进行识别，可以识别该电影评论表达的为正面情绪，表示喜爱该电影。

如图7所示，为一些实施例中对图像进行目标检测的界面示意图，包括图片上传区域602、图像分类结果显示区域604以及概率显示区域606。“图像检测”为图像识别业务的业务名称。当用户需要对图像进行识别时，可以点击“上传”按钮，进入图像上传界面选择图片，当图片选择完毕，接收到确认操作后，终端可以触发向服务器发送图像识别请求，服务器将终端上传的图片输入到图像识别模型(目标业务处理模型)中，如果识别得到图片中包括玫瑰花，则服务器向终端返回图像分类结果“图片中的花为玫瑰花”，还可以返回图像识别模型输出的图像中的动物为玫瑰花的概率。

本申请实施例提供的数据增广方法可以应用于对文本数据进行处理的应用场景中，例如文本分类、文本匹配或者对话系统中。文本匹配是指根据一个文本匹配得到另一个文本，例如根据一个问题匹配得到问题的答案，或者匹配得到一个文本的相似文本。

以下以对图像数据或者文本数据进行处理为例，对本申请实施例提供的数据增广方法以及业务处理方法进行说明，包括以下步骤：

1.获取第一训练样本集合以及第二训练样本集合。

具体地，训练样本集合中的训练样本可以是图像或者文本。例如，第一训练样本集合中的样本可以是表达负面情绪的电影评论，例如可以为1000个评论。第二训练样本集合可以是表达正面情绪的电影评论，例如可以包括10000个评论。由于表达负面情绪的电影评论远远少于表达正面情绪的电影评论，因此需要对第一训练样本集合进行增广。又例如，第一训练样本集合中的样本可以是图像采集得到的图像，例如视频监控采集得到的视频帧，需要对视频帧进行目标检测。

2.根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略。

具体地，在第一次选择当前增广策略时，可以是随机的选取。在一次或者多次随机的选取之后，可以利用当前策略选取模型选取策略。不同的数据对应的增广策略可以不同。例如，对于文本，增广策略对应的增广操作的类型可以为单词替换或者单词删除。对于图像，增广策略对应的增广操作的类型可以为图像旋转或者图像裁剪。

3、基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合。

具体地，服务器可以根据得到的增广策略对第一训练样本集合进行数据增广。例如，对图像进行裁剪或者旋转。对文本中的单词进行随机替换。举个实际的例子，选取得到增广策略后，可以对表达负面情绪的电影评论进行增广，得到增广样本集合，增广后的电影评论对应的标签为表达负面情绪。

6、根据当前增广样本集合以及第二训练样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

具体地，可以基于表达正面情绪的电影评论以及增广后的表达负面情绪的电影评论对电影评论情绪确定模型进行训练，得到训练后的电影评论情绪确定模型。

7、利用验证样本集合对训练业务处理模型进行性能验证，得到验证样本集合对应的模型损失值。

具体地，验证样本集合中包括第一类型的训练样本以及第二类型的训练样本。模型损失值可以用于表示电影评论情绪确定模型的泛化能力，损失值越大，则泛化能力越差。

8、根据当前增广策略以及对应的模型性能验证值更新当前策略选取模型。

具体地，可以利用当前增广策略以及对应的模型性能验证值对代理模型进行更新，得到更新后的代理模型。

具体地，步骤2～8可以重复多次，例如10次。当达到10次时，则进入步骤9。

9、从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略。

具体地，假设第9轮对应的电影评论情绪确定模型的泛化性能最好，则可以将第9轮所采用的策略作为目标增广策略。

10、获取第一训练样本集合，基于目标增广策略对第一训练样本集合进行增广，得到增广后的第一训练样本集合。

11、根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型。

具体地，目标业务处理模型可以是图像处理模型，也可以是文本处理模型。图像处理模型可以用于对图像进行处理，得到图像处理结果。文本处理模型可以用于对文本进行处理，得到文本处理结果。

应该理解的是，虽然图2以及6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2以及6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请实施例提供的数据增广方法可以为文本数据增广算法Text Auto Augment(TAA)。数据增广作为一项强效技术，被广泛应用于自然语言处理领域的许多实际任务中。当训练数据不充足或数据类别不均衡时，使用数据增广技术可以提高深度神经网络的泛化能力，帮助其避免过拟合问题。本申请实施例提供的数据增广方法可以实现自动的机器学习(Auto Machine Learning)，为增广策略搜索建模了一个全新的优化目标，能够显著减轻人工选择、设计增广操作和精调参数的负担，提高数据增广的易用性。本申请实施例提供的数据增广方法对应的算法可以表述如下：

在一些实施例中，如图8所示，提供了一种数据增广装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：当前增广策略选取模块802、第一增广模块804、业务处理模型训练模块806、验证模块808、策略选取模型更新模块810和目标增广策略得到模块812，其中：

当前增广策略选取模块802，用于根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略。

第一增广模块804，用于基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合。

业务处理模型训练模块806，用于根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

验证模块808，用于对训练业务处理模型的模型性能进行验证，得到训练业务处理模型对应的模型性能验证值。

策略选取模型更新模块810，用于根据当前增广策略以及训练业务处理模型对应的模型性能验证值更新当前策略选取模型，返回根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤，直至满足增广策略选取停止条件。

目标增广策略得到模块812，用于从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略。

在一些实施例中，策略选取模型更新模块包括：加入单元，用于将当前增广策略以及训练业务处理模型对应的模型性能验证值加入到历史验证结果集合中；概率分布更新单元，用于基于历史验证结果集合中的各个增广策略以及对应的模型性能验证值，更新增广策略对应的模型性能验证值的概率分布，得到当前策略选取模型。

在一些实施例中，当前增广策略选取模块包括：预测模型性能验证值确定单元，用于基于当前策略选取模型中增广策略对应的模型性能验证值的概率分布，确定各个候选增广策略对应的预测模型性能验证值；当前增广策略选取单元，用于获取对应的预测模型性能验证值满足验证值选取条件的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

在一些实施例中，预测模型性能验证值为模型损失值，当前增广策略选取单元用于：获取候选增广策略对应的预测模型性能验证值减去验证阈值得到的差值，获取对应的差值最小的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

在一些实施例中，验证模块用于：获取验证样本集合，将验证样本集合中的各个验证样本输入到训练业务处理模型中，得到验证样本对应的业务预测值；基于验证样本对应的业务预测值与验证样本对应的标准业务处理值的差异，得到验证样本对应的模型损失值；对验证样本集合中，各个验证样本对应的模型损失值进行统计，得到综合损失值；根据综合损失值得到训练业务处理模型对应的模型性能验证值。

在一些实施例中，业务处理模型训练模块用于：获取第二训练样本集合；其中，第一训练样本集合中的样本为第一类型，第二训练样本集合中的样本为第二类型；第一训练样本集合中的样本数量小于第二训练样本集合中的样本数量根据第二训练样本集合以及当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

在一些实施例中，当前增广策略包括多个子策略，第一增广模块包括：第一训练样本获取单元，用于获取第一训练样本集合中的第一训练样本；目标子策略选取单元，用于从当前增广策略的多个子策略中选取得到第一训练样本对应的目标子策略；目标增广操作确定单元，用于根据目标子策略中各个候选增广操作对应的增广概率确定目标增广操作；增广单元，用于根据目标增广操作对第一训练样本进行数据增广，得到当前增广样本。

在一些实施例中，目标增广操作包括第一增广操作以及第二增广操作，第一增广操作的操作顺序在第二增广操作之前，增广单元用于：对第一训练样本执行第一增广操作，得到中间增广样本；对中间增广样本执行第二增广操作，得到第一增广样本。

在一些实施例中，目标增广策略得到模块用于：从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值最优的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为第一训练样本集合对应的目标增广策略。

在一些实施例中，如图9所示，提供了一种业务处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：第一训练样本集合获取模块902、策略获取模块904、第二增广模块906和目标业务处理模型得到模块908，其中：

第一训练样本集合获取模块902，用于获取第一训练样本集合。

策略获取模块904，用于获取第一训练样本集合对应的目标增广策略，其中，目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，训练业务处理模型所对应的增广策略是策略选取模型选取的，利用策略选取模型选取的增广策略对第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到训练业务处理模型，策略选取模型根据训练业务处理模型对应的增广策略以及模型性能验证值进行更新。

第二增广模块906，用于根据目标增广策略对第一训练样本集合进行增广，得到增广后的第一训练样本集合。

目标业务处理模型得到模块908，用于根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于目标业务处理模型对业务数据进行处理。

关于数据增广装置以及业务处理装置的具体限定可以参见上文中对于数据增广方法以及业务处理方法的限定，在此不再赘述。上述数据增广装置以及业务处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据增广或者业务处理方法的至少一种。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据增广方法或者业务处理方法的至少一种。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种业务处理方法，其特征在于，所述方法包括：

获取第一训练样本集合，所述第一训练样本集合包括多个第一训练样本，所述第一训练样本为图像或者文本；

获取所述第一训练样本集合对应的目标增广策略，其中，所述目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，所述训练业务处理模型所对应的增广策略是策略选取模型选取的，利用所述策略选取模型选取的增广策略对所述第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到所述训练业务处理模型，所述策略选取模型根据所述训练业务处理模型对应的增广策略以及模型性能验证值进行更新；

根据所述目标增广策略对所述第一训练样本集合进行增广，得到增广后的第一训练样本集合；

根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于所述目标业务处理模型对业务数据进行处理，所述业务数据为图像业务数据或者文本业务数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别的业务数据；

根据所述目标业务处理模型对所述业务数据进行业务分类，得到业务分类结果，所述业务分类结果为文本分类结果或者图像分类结果。

3.一种数据增广方法，其特征在于，所述方法包括：

根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略；

基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合；

根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；

对所述训练业务处理模型的模型性能进行验证，得到所述训练业务处理模型对应的模型性能验证值；

根据当前增广策略以及所述训练业务处理模型对应的模型性能验证值更新当前策略选取模型，返回所述根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤，直至满足增广策略选取停止条件；

从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

4.根据权利要求3所述的方法，其特征在于，所述根据当前增广策略以及所述训练业务处理模型对应的模型性能验证值更新当前策略选取模型包括：

将当前增广策略以及所述训练业务处理模型对应的模型性能验证值加入到历史验证结果集合中；

基于所述历史验证结果集合中的各个增广策略以及对应的模型性能验证值，更新增广策略对应的模型性能验证值的概率分布，得到当前策略选取模型。

5.根据权利要求4所述的方法，其特征在于，所述根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略包括：

基于当前策略选取模型中增广策略对应的模型性能验证值的概率分布，确定各个候选增广策略对应的预测模型性能验证值；

获取对应的预测模型性能验证值满足验证值选取条件的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

6.根据权利要求5所述的方法，其特征在于，所述预测模型性能验证值为模型损失值，所述获取对应的预测模型性能验证值满足验证值选取条件的候选增广策略，作为当前策略选取轮次对应的当前增广策略包括：

获取所述候选增广策略对应的预测模型性能验证值减去验证阈值得到的差值，获取对应的差值最小的候选增广策略，作为当前策略选取轮次对应的当前增广策略。

7.根据权利要求3所述的方法，其特征在于，所述对所述训练业务处理模型的模型性能进行验证，得到所述训练业务处理模型对应的模型性能验证值包括：

获取验证样本集合，将所述验证样本集合中的各个验证样本输入到所述训练业务处理模型中，得到所述验证样本对应的业务预测值；

基于所述验证样本对应的业务预测值与所述验证样本对应的标准业务处理值的差异，得到所述验证样本对应的模型损失值；

对所述验证样本集合中，各个所述验证样本对应的模型损失值进行统计，得到综合损失值；

根据所述综合损失值得到所述训练业务处理模型对应的模型性能验证值。

8.根据权利要求3所述的方法，其特征在于，所述根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型包括：

获取第二训练样本集合；其中，所述第一训练样本集合中的样本为第一类型，所述第二训练样本集合中的样本为第二类型；所述第一训练样本集合中的样本数量小于所述第二训练样本集合中的样本数量

根据所述第二训练样本集合以及当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型。

9.根据权利要求3所述的方法，其特征在于，当前增广策略包括多个子策略，所述基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合包括：

获取第一训练样本集合中的第一训练样本；

从当前增广策略的多个子策略中选取得到所述第一训练样本对应的目标子策略；

根据所述目标子策略中各个候选增广操作对应的增广概率确定目标增广操作；

根据所述目标增广操作对所述第一训练样本进行数据增广，得到当前增广样本。

10.根据权利要求9所述的方法，其特征在于，所述目标增广操作包括第一增广操作以及第二增广操作，所述第一增广操作的操作顺序在所述第二增广操作之前，所述根据所述目标增广操作对所述第一训练样本进行数据增广，得到第一增广样本包括：

对所述第一训练样本执行所述第一增广操作，得到中间增广样本；

对所述中间增广样本执行所述第二增广操作，得到第一增广样本。

11.根据权利要求3所述的方法，其特征在于，所述从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略包括：

从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值最优的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

12.一种数据增广装置，其特征在于，所述装置包括：

当前增广策略选取模块，用于根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略；

第一增广模块，用于基于当前增广策略对第一训练样本集合进行数据增广，得到当前增广样本集合；

业务处理模型训练模块，用于根据当前增广样本集合对初始的业务处理模型进行训练，得到当前策略选取轮次对应的训练业务处理模型；

验证模块，用于对所述训练业务处理模型的模型性能进行验证，得到所述训练业务处理模型对应的模型性能验证值；

策略选取模型更新模块，用于根据当前增广策略以及所述训练业务处理模型对应的模型性能验证值更新当前策略选取模型，返回所述根据当前策略选取模型选取得到当前策略选取轮次对应的当前增广策略的步骤，直至满足增广策略选取停止条件；

目标增广策略得到模块，用于从各个策略选取轮次对应的训练业务处理模型中，选取模型性能验证值满足性能条件的训练业务处理模型，将所选取的训练业务处理模型对应的增广策略作为所述第一训练样本集合对应的目标增广策略。

13.一种业务处理装置，其特征在于，所述装置包括：

第一训练样本集合获取模块，用于获取第一训练样本集合；

策略获取模块，用于获取所述第一训练样本集合对应的目标增广策略，其中，所述目标增广策略是满足性能条件的训练业务处理模型所对应的增广策略，所述训练业务处理模型所对应的增广策略是策略选取模型选取的，利用所述策略选取模型选取的增广策略对所述第一训练样本集合进行增广，根据增广得到的样本集合对初始的业务处理模型进行训练，得到所述训练业务处理模型，所述策略选取模型根据所述训练业务处理模型对应的增广策略以及模型性能验证值进行更新；

第二增广模块，用于根据所述目标增广策略对所述第一训练样本集合进行增广，得到增广后的第一训练样本集合；

目标业务处理模型得到模块，用于根据增广后的第一训练样本集合对业务处理模型进行模型训练，得到目标业务处理模型，以基于所述目标业务处理模型对业务数据进行处理。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。