CN114462628A - 数据增强方法、装置、计算设备以及计算机可读存储介质 - Google Patents

数据增强方法、装置、计算设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN114462628A
CN114462628A CN202011606784.4A CN202011606784A CN114462628A CN 114462628 A CN114462628 A CN 114462628A CN 202011606784 A CN202011606784 A CN 202011606784A CN 114462628 A CN114462628 A CN 114462628A
Authority
CN
China
Prior art keywords
data enhancement
target
node
policy
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011606784.4A
Other languages
English (en)
Inventor
罗罡
李庆瑞
李俊明
陶韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to EP21888178.7A priority Critical patent/EP4235525A4/en
Priority to PCT/CN2021/103015 priority patent/WO2022095476A1/zh
Publication of CN114462628A publication Critical patent/CN114462628A/zh
Priority to US18/313,869 priority patent/US20230273914A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种数据增强方法、装置、计算设备以及计算机可读存储介质,属于人工智能技术领域。本方法通过数据增强策略中的多种数据增强操作,对样本进行处理,能够得到多个目标增强样本,从而达到了扩充样本的目的,并且由于是在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对样本进行多种数据增强操作,从而得到的多个目标增强样本能够在多种数据增强操作的目标操作等级所指示的操作强度变化区间之内具有变化,提高了样本的多样性。

Description

数据增强方法、装置、计算设备以及计算机可读存储介质
本申请要求于2020年11月09日提交的申请号为202011237954.6、发明名称为“实现数据增强策略的方法和系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,特别涉及一种数据增强方法、装置、计算设备以及计算机可读存储介质。
背景技术
随着人工智能(artificial intelligence,AI)技术的发展,深度学习模型作为人工智能的主流算法模型,被广泛运用在计算机视觉、自然语言处理、语言识别等领域,而且都取得了优异的表现。比起传统机器学习模型,深度学习模型能从大量标注数据(即由标签标注的样本)中萃取阶层性的表征(representation)。这些通过学习得到的、分层次的表征正是深度学习模型取得优越表现(不管是分类或回归)的关键。
例如具有识别功能的深度学习模型(简称识别模型)在学习的过程中需要大量的样本,在很多情况下,样本的数量、质量对训练出的识别模型的表现起到至关重要甚至决定性的影响。然而现有样本(包括公开的或私有的样本)并不能完全满足某些业务场景在数量和质量方面的需求。例如,在很多特殊或复杂业务场景下的样本的数据量不足或样本类别单一,致使训练出的识别模型出现准确度低、泛化能力低等问题。
目前,一般通过数据增强技术来扩充样本,例如按照数据增强策略中每种数据增强操作的操作强度,对样本进行每种数据增强操作,将得到的增强样本作为应用场景下实际的样本,以扩充该应用场景的样本量。通过这种数据增强操作策略中每种数据增强操作的操作强度,对样本进行每种数据增强操作,所得到的增强样本的类别单一,缺乏多样性。
发明内容
本申请实施例提供了一种数据增强方法、装置、计算设备、芯片及计算机存储介质,能够提高样本的多样性。该技术方案如下:
第一方面,提供了一种数据增强方法,由第一节点执行,所述方法包括:
获取第一目标数据增强策略;基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作,得到所述第一样本的多个目标增强样本,其中,所述第一目标数据增强策略用于指示数据增强操作的目标操作等级,一个目标操作等级用于指示一个操作强度变化区间。
本方法通过数据增强策略所指示的多种数据增强操作,对样本进行处理,能够得到多个目标增强样本,从而达到了扩充样本的目的,并且由于是在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对样本进行多种数据增强操作,从而得到的多个目标增强样本能够在多种数据增强操作的目标操作等级所指示的操作强度变化区间之内具有变化,提高了样本的多样性。
在一种可能的实现方式中,对于所述第一样本中的任一数据,所述多个目标增强样本中所述任一数据出现任一种数据增强操作对应的变化,在所述任一种数据增强操作的目标强度等级所指示的操作强度变化区间内。以所述第一样本为图像,所述任一数据为所述图像中的任一像素点,所述第一样本的目标增强样本为增强图像,任一种数据增强操作为旋转操作为例。旋转操作的目标强度等级所指示的操作强度变化区间内可以有无数个旋转角度(也即是操作强度),部分增强图像是第一节点在该操作强度变化区间内,对所述图像进行不同旋转角度的旋转操作得到,因此,对于该图像中的任一像素点,该任一像素点在这部分增强图像中的位置发生了旋转变化,且旋转变化体现在旋转角度上,旋转角度的变化是在旋转操作的目标强度等级所指示的操作强度变化区间之内的。可以理解的是,对于该图像中的某一个固定位置,由于这部分增强图像是对该图像进行不同旋转角度的旋转操作得到,因此,这部分增强图像中该固定位置的像素点发生了变化。
在一种可能的实现方式中,所述第一目标数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述第一目标数据增强策略基于多个数据增强策略确定,所述多个数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述多个数据增强策略由多个评估设备进行评估。
在一种可能的实现方式中,所述多个数据增强策略评估时所采用的第二样本的对象为同一个对象,或者为同一类型的对象。
在一种可能的实现方式中,所述任一种数据增强操作配置的多个操作等级基于所述任一种数据增强操作的目标操作强度变化范围得到,所述任一种数据增强操作的目标操作强度变化范围由配置设备进行配置。
在一种可能的实现方式中,所述任一种数据增强操作的配置过程包括:
对于所述多种数据增强操作中的任一种数据增强操作,将所述任一种数据增强操作对应的目标操作强度变化范围划分为多个操作强度变化区间;为所述多个操作强度变化区间中的每个操作强度变化区间配置操作等级。
基于上述可能的实现方式,第一节点将任一种数据增强操作的目标操作强度变化范围划分为多个操作强度变化区间后,为每个操作强度变化区间配置一个操作等级,从而在数据增强策略中可以用强度等级来指示操作强度变化区间,简化了操作强度变化区区间的表示形式。
在一种可能的实现方式中,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,所述任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;所述获取第一目标数据增强策包括:
基于多个数据增强策略,确定所述第一目标数据增强策略,任一数据增强策略用于指示所述多种数据增强操作中每种数据增强操作的操作概率以及操作等级,任一种数据增强操作的操作概率为对第二样本进行所述任一种数据增强操作的概率。
基于上述可能的实现方式中,该第一节点基于多种数据增强策略生成一个最优的数据增强策略,也即是第一目标数据增强策略,以便后续基于最优的目标数据增强策略来扩充样本以及提高样本的多样性。
在一种可能的实现方式中,所述基于多个数据增强策略,确定所述第一目标数据增强策略包括:
基于所述多个数据增强策略的评估值,从所述多个数据增强策略中选择出多个第二目标数据增强策略,基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略;
其中,所述多个第二目标数据增强策略的评估值均高于所述多个数据增强策略中除所述多个第二目标数据增强策略以外的数据增强策略的评估值,所述任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度。
基于上述可能的实现方式,该第一节点可以先根据所述多个数据增强策略的评估值,从所述多个数据增强策略中选取一些较优的数据增强策略,例如第二目标数据增强策略,再基于选取出的多个第二目标数据增强策略,生成最优的第一目标数据增强策略,从而能够保证第一目标数据增强策略的质量。
在一种可能的实现方式中,所述基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略包括:
基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级;基于确定出的所述多种数据增强操作的目标操作概率以及目标操作等级,生成所述第一目标数据增强策略。
在一种可能的实现方式中,所述基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级包括:
对于所述任一种数据增强操作,对所述多个第二目标数据增强策略中所述任一种数据增强操作的多个操作等级进行聚类,得到至少一个操作等级类别;对于所述至少一个操作等级类别中的任一操作等级类别,基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率,所述第三目标数据增强策略为所述任一操作等级类别的操作等级所属的第二目标数据增强策略。
在一种可能的实现方式中,所述基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率包括:
基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级;基于所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作概率。
在一种可能的实现方式中,所述基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级包括:
确定所述任一操作等级类别中的最小操作等级以及最大操作等级;将大于等于所述最小操作等级且小于等于所述最大操作等级的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
基于上述可能的实现方式中,第一节点将大于等于所述最小操作等级且小于等于所述最大操作等级的各个操作等级,确定为所述任一种数据增强操作的目标操作等级,从而使得所述任一种数据增强操作的多个目标操作等级是连续的,则连续的目标操作等级对应的强度变化区间也是连续的,从而后续该第一节点在该任一种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行该任一种数据增强操作,所得到的增强样本在连续的操作强度变化区间出现变化,从而进一步增加了样本的多样性,更加符合真实应用场景中样本的变化情况。
在一种可能的实现方式中,所述基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级包括:
将所述任一操作等级类别中的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
一种可能的实现方式中,所述任一种数据增强操作的目标操作概率为所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率的平均概率。
在一种可能的实现方式中,所述基于多个数据增强策略,确定所述第一目标数据增强策略之前,所述方法还包括:
基于初始数据增强策略进行迭代计算,得到所述多个数据增强策略。
在一种可能的实现方式中,所述基于初始数据增强策略进行迭代计算包括:
在第i次迭代计算的过程中,基于在前i-1次迭代计算过程中所确定出的数据增强策略以及所述初始数据增强策略中的各个数据增强策略,确定所述多个数据增强策略中的第i数据增强策略,其中,所述i为大于等于1或小于等于N的整数,所述i为迭代计算的总次数。
在一种可能的实现方式中,所述基于在前i-1次迭代计算过程中所确定出的数据增强策略以及所述初始数据增强策略中的各个数据增强策略,确定所述多个数据增强策略中的第i数据增强策略包括:
对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作等级以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作等级,任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作等级以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作等级,任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作概率以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作概率;
基于预测出的所述多种数据增强操作的操作等级以及操作概率,生成所述第i个数据增强策略。
基于上述可能的实现方式,第一节点基于所述各个数据策略中任一种数据增强操作的操作等级、操作概率以及所述各个数据策略中评估值,来预测新的数据增强策略中任一种数据增强操作的操作等级以及操作概率,以便后续预测出的数据增强策略能够具有较高的评价值。
在一种可能的实现方式中,所述基于所述各个数据增强策略中所述任一种数据增强操作的多个操作等级以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作等级包括:
基于所述多个操作等级以及所述多个评估值,确定所述任一种数据增强操作的操作等级所服从的多元高斯分布;
在所述任一种数据增强操作的操作等级所服从的多元高斯分布下,将令采集函数取最大值的操作等级确定为所述第i数据增强策略中所述任一种数据增强操作的操作等级。
在一种可能的实现方式中,所述基于所述各个数据增强策略中所述任一种数据增强操作的多个操作概率以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作概率包括:
基于所述多个操作概率以及所述多个评估值,确定所述任一种数据增强操作的操作概率所服从的多元高斯分布;
在所述任一种数据增强操作的操作概率所服从的多元高斯分布下,将令采集函数取最大值的操作概率确定为所述第i数据增强策略中所述任一种数据增强操作的操作概率。
在一种可能的实现方式中,所述确定所述多个数据增强策略中的第i数据增强策略之后,所述方法还包括:
基于所述第i数据增强策略中所述多种数据增强操作的操作概率以及操作等级,对多个所述第二样本进行所述多种数据增强操作,得到所述多个第二样本的多个增强样本;
基于所述多个增强样本训练得到第i识别模型;
基于所述第i识别模型,获取所述第i数据增强策略的评估值。
在一种可能的实现方式中,所述基于所述多个增强样本训练得到第i识别模型包括:
基于所述多个增强样本,对预训练模型进行训练,得到所述第i识别模型,所述预训练模型由不同种类的多个对象的多个第三样本训练得到,所述预训练模型的精确度小于精确度阈值。
在一种可能的实现方式中,所述第一样本的对象与所述第二样本的对象属于同一种类,或所述第一样本的对象与所述第二样本的对象为同一对象。
基于上述可能的实现方式,该迭代计算过程中的各个数据增强策略均是采用同一个对象的样本或同一类型的对象的样本所进行的评估,从而使得各个数据增强策略的评估结果与同一个对象或同一类型的对象相关,因此,基于各个数据增强策略所最终生成的第一目标数据增强策略与同一个对象或同一类型的对象对应,则后续采用这种第一目标数据增强策略所训练的识别模型,在识别同一个对象或同一类型的对象时识别效果最优。
在一种可能的实现方式中,所述第i数据增强策略具有多个,所述生成所述第i数据增强策略之后,所述方法还包括:
向多个评估设备分别发送至少一个第i数据增强操作策略;
从所述多个评估设备分别接收所述至少一个第i数据增强操作策略的评估值。
在一种可能的实现方式中,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作包括:
基于所述多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对所述第一样本进行所述多种数据增强操作,其中,所述任一种数据增强操作的目标操作概率的目标增强样本进行过所述任一种数据增强操作。
基于上述可能的实现方式,进行过各种数据增强操作的增强样本在所述多个增强样本中均有一定的占比,从而使得所述多个增强样本更加符合真实的应用场景。
在一种可能的实现方式中,所述基于所述多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对所述第一样本进行所述多种数据增强操作包括:
对于所述任一种数据增强操作,基于所述任一种数据增强操作的目标操作概率,在所述任一种数据增强操作的目标操作等级所指示的操作强度变化区间范围内,对所述第一样本进行所述任一种数据增强操作。
在一种可能的实现方式中,通过目标接口从应用节点获取所述第一样本;
通过所述目标接口向所述应用节点发送所述多个目标增强样本。
第二方面,提供了一种数据增强装置,所述装置包括:
获取模块,用于获取第一目标数据增强策略,所述第一目标数据增强策略用于指示数据增强操作的目标操作等级,一个目标操作等级用于指示一个操作强度变化区间;
增强模块,用于基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作,得到所述第一样本的多个目标增强样本。
在一种可能的实现方式中,对于所述第一样本中的任一数据,所述多个目标增强样本中所述任一数据出现任一种数据增强操作对应的变化,在所述任一种数据增强操作的目标强度等级所指示的操作强度变化区间内。
在一种可能的实现方式中,所述第一目标数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述第一目标数据增强策略基于多个数据增强策略确定,所述多个数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述多个数据增强策略由多个评估设备进行评估。
在一种可能的实现方式中,所述多个数据增强策略评估时所采用的第二样本的对象为同一个对象,或者为同一类型的对象。
在一种可能的实现方式中,所述任一种数据增强操作配置的多个操作等级基于所述任一种数据增强操作的目标操作强度变化范围得到,所述任一种数据增强操作的目标操作强度变化范围由配置设备进行配置。
在一种可能的实现方式中,所述装置还包括:
划分模块,用于对于所述多种数据增强操作中的任一种数据增强操作,将所述任一种数据增强操作对应的目标操作强度变化范围划分为多个操作强度变化区间;
配置模块,用于为所述多个操作强度变化区间中的每个操作强度变化区间配置操作等级。
在一种可能的实现方式中,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,所述任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述获取模块用于:
基于多个数据增强策略,确定所述第一目标数据增强策略,任一数据增强策略用于指示所述多种数据增强操作中每种数据增强操作的操作概率以及操作等级,任一种数据增强操作的操作概率为对第二样本进行所述任一种数据增强操作的概率。
在一种可能的实现方式中,所述获取模块包括:
选择子模块,用于基于所述多个数据增强策略的评估值,从所述多个数据增强策略中选择出多个第二目标数据增强策略,所述多个第二目标数据增强策略的评估值均高于所述多个数据增强策略中除所述多个第二目标数据增强策略以外的数据增强策略的评估值,所述任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
生成子模块,用于基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略。
在一种可能的实现方式中,所述生成子模块包括:
确定单元,用于基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级;
生成单元,用于基于确定出的所述多种数据增强操作的目标操作概率以及目标操作等级,生成所述第一目标数据增强策略。
在一种可能的实现方式中,所述确定单元包括:
聚类子单元,用于对于所述任一种数据增强操作,对所述多个第二目标数据增强策略中所述任一种数据增强操作的多个操作等级进行聚类,得到至少一个操作等级类别;
确定子单元,用于对于所述至少一个操作等级类别中的任一操作等级类别,基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率,所述第三目标数据增强策略为所述任一操作等级类别的操作等级所属的第二目标数据增强策略。
在一种可能的实现方式中,所述确定子单元包括:
第一确定元件,用于基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级;
第二确定元件,用于基于所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作概率。
在一种可能的实现方式中,所述第一确定元件用于:
确定所述任一操作等级类别中的最小操作等级以及最大操作等级;
将大于等于所述最小操作等级且小于等于所述最大操作等级的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
在一种可能的实现方式中,所述第一确定元件用于:
将所述任一操作等级类别中的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
在一种可能的实现方式中,所述任一种数据增强操作的目标操作概率为所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率的平均概率。
所述装置还包括:
迭代模块,用于基于初始数据增强策略进行迭代计算,得到所述多个数据增强策略。
在一种可能的实现方式中,所述迭代模块用于:
在第i次迭代计算的过程中,基于在前i-1次迭代计算过程中所确定出的数据增强策略以及所述初始数据增强策略中的各个数据增强策略,确定所述多个数据增强策略中的第i数据增强策略,其中,所述i为大于等于1或小于等于N的整数,所述i为迭代计算的总次数。
在一种可能的实现方式中,所述迭代模块包括:
第一预测子模块,用于对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作等级以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作等级,任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
第二预测子模块,用于对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作概率以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作概率;
生成子模块,用于基于预测出的所述多种数据增强操作的操作等级以及操作概率,生成所述第i数据增强策略。
在一种可能的实现方式中,所述第一预测子模块用于:
基于所述多个操作等级以及所述多个评估值,确定所述任一种数据增强操作的操作等级所服从的多元高斯分布;
在所述任一种数据增强操作的操作等级所服从的多元高斯分布下,将令采集函数取最大值的操作等级确定为所述第i数据增强策略中所述任一种数据增强操作的操作等级。
在一种可能的实现方式中,所述第二预测子模块用于:
基于所述多个操作概率以及所述多个评估值,确定所述任一种数据增强操作的操作概率所服从的多元高斯分布;
在所述任一种数据增强操作的操作概率所服从的多元高斯分布下,将令采集函数取最大值的操作概率确定为所述第i数据增强策略中所述任一种数据增强操作的操作概率。
所述装置还包括:
得到模块,用于基于所述第i数据增强策略中所述多种数据增强操作的操作概率以及操作等级,对多个所述第二样本进行所述多种数据增强操作,得到所述多个第二样本的多个增强样本;
训练模块,用于基于所述多个增强样本训练得到第i识别模型;
目标获取模块,用于基于所述第i识别模型,获取所述第i数据增强策略的评估值。
在一种可能的实现方式中,所述训练模块用于:
基于所述多个增强样本,对预训练模型进行训练,得到所述第i识别模型,所述预训练模型由不同种类的多个对象的多个第三样本训练得到,所述预训练模型的精确度小于精确度阈值。
在一种可能的实现方式中,所述第一样本的对象与所述第二样本的对象属于同一种类,或所述第一样本的对象与所述第二样本的对象为同一对象。
在一种可能的实现方式中,所述装置还包括:
第一发送模块,用于向多个评估设备分别发送至少一个第i数据增强操作策略;
第一接收模块,用于从所述多个评估设备分别接收所述至少一个第i数据增强操作策略的评估值。
在一种可能的实现方式中,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述增强模块用于:
基于所述多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对所述第一样本进行所述多种数据增强操作,其中,所述任一种数据增强操作的目标操作概率的目标增强样本进行过所述任一种数据增强操作。
在一种可能的实现方式中,所述增强模块用于:
对于所述任一种数据增强操作,基于所述任一种数据增强操作的目标操作概率,在所述任一种数据增强操作的目标操作等级所指示的操作强度变化区间范围内,对所述第一样本进行所述任一种数据增强操作。
在一种可能的实现方式中,所述装置还包括:
第二接收模块,用于通过目标接口从应用节点获取所述第一样本;
第二发送模块,用于通过所述目标接口向所述应用节点发送所述多个目标增强样本。
第三方面,提供了一种计算设备,该计算设备包括处理器和存储器,该存储器中存储有至少一条程序代码,该程序代码由该处理器加载并执行以实现如上述第一方面中的数据增强方法所执行的操作。
第四方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该程序代码由处理器加载并执行以实现如上述第一方面中的数据增强方法所执行的操作。
第五方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据增强系统的示意图;
图2是本申请实施例提供的一种第一节点的结构示意图;
图3是本申请实施例提供的一种数据增强策略的示意图;
图4是本申请实施例提供的另一种数据增强系统的结构示意图;
图5是本申请实施例提供的一种第二节点的工作原理图;
图6是本申请实施例提供的一种云端场景下的数据增强系统的示意图;
图7是本申请实施例提供的一种计算设备的结构示意图;
图8是本申请实施例提供的一种初始化配置的流程图;
图9是本申请实施例提供的一种数据增强方法的流程图;
图10是本申请实施例提供的一种样本标签、对象以及拍摄方式之间的因果关系示意图;
图11是本申请实施例提供的一种训练过程中识别模型的精确度变化曲线图;
图12是本申请实施例提供的一种数据增强操作的操作等级的分布拟合过程;
图13是本申请实施例提供的一种数据增强方法的流程图;
图14是本申请实施例提供的一种数据增强系统的示意;
图15是本申请实施例提供的一种数据变化分布的示意图;
图16是本申请实施例提供的一种锐化操作变化时特定像素值变化的分布示意图;
图17是本申请实施例提供的一种数据增强装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
图1是本申请实施例提供的一种数据增强系统的示意图,参见图1,数据增强系统100包括第一节点101、第二节点102以及第三节点103。在该数据增强系统100中,第一节点101基于至少一个数据增强策略的评估结果,预测能够达到更好评估结果的数据增强策略,并将预测到的数据增强策略反馈给第二节点102,由第二节点102对预测到的数据增强策略进行评估,并将该预测到的数据增强策略的评估结果反馈给第一节点101,其中,该至少一个数据增强策略为该第一节点历史预测到的数据增强策略。
此时对于该第一节点101而言,上一次预测到的且具有评估结果的数据增强策略为一个历史预测到的数据增强策略,说明第一节点101历史预测到的各个数据增强策略出现了更新。则该第一节点101基于历史预测到的各个数据增强策略的评估结果,再次预测能够达到更好评估结果的数据增强策略。以此类推,直至第一节点101历史预测到的各个数据增强策略满足预设条件,则该第一节点101将历史预测到的各个数据增强策略发送给第三节点103,由该第三节点103基于接收到的各个数据增强策略,生成至少一个第一目标数据增强策略。
之后,第三节点103将该至少一个第一目标数据增强策略提供给外部的应用节点,由该应用节点采用该任一第一目标数据增强策略,对多个样本进行数据增强,以得到大量的增强样本。以便应用节点后续采用大量的增强样本进行模型训练,以得到精度较高的识别模型。
为了进一步说明数据增强系统100中各个节点的工作原理,下面结合各个节点的物理架构,对各个节点进行如下描述。
(1)第一节点101
参见图2所示的本申请实施例提供的一种第一节点的结构示意图,该第一节点101包括操作池子1011、策略变化空间1012以及策略优化器1013。该操作池子1011用于为用户提供数据增强操作的配置。在一种可能的实现方式中,用户基于应用场景的需求,在操作池子1011中配置多种数据增强操作以及该多种数据增强操作中每种数据增强操作的目标操作强度变化范围。其中,该多种数据增强操作为该应用场景下的样本所需要的数据增强操作,一种数据增强操作的目标操作强度变化范围为:对该应用场景下的样本进行该数据增强操作的强度的变化范围。在该策略变化空间1012中,对于该多种数据增强操作中的任一种数据增强操作,第一节点基于操作池子1011中配置的该任一种数据增强操作的目标操作强度变化范围,为该任一种数据增强操作分配多个操作等级,并为该任一种数据增强操作分配概率变化区间,从而该任一种数据增强操作对应多个操作等级以及一个概率变化区间。该第一节点还能够将该多种数据增强操作中每种数据增强操作对应的操作等级以及概率变化区间,存储在策略变化空间1012中。其中,该任一种数据增强操作的一个操作等级用于指示一个操作强度变化区间,该操作强度变化区间为该种数据增强操作的目标操作强度变化范围的一个子区间。
初始时,对于该任一种数据增强操作,策略优化器1013从策略变化空间1012中随机选取该任一种数据增强操作的一个操作等级以及概率变化区间中的一个操作概率,以实现随机搜索出一个数据增强策略。其中,该数据增强策略包括策略变化空间1012中的多种数据增强操作中每种数据增强操作的操作概率以及操作等级。例如图3所示的本申请实施例提供的一种数据增强策略的示意图,图3所示的数据增强策略包括S种数据增强操作,分别为数据增强操1-S,数据增强策略还包括数据增强操作1-S的操作概率,分别为操作概率1-S,该数据增强策略还包括数据增强操作1-S的操作等级,分别为操作等级1-S,其中S为大于等于1的整数。需要说明的是,图3所示的数据增强策略中的任一种数据增强操作具有一个操作等级以及一个操作概率,而在另外一些实施例中,一个数据增强操作策略中的任一种数据增强操作的操作等级也可以具有多个操作等级。
当策略优化器1013搜索到第一个数据增强策略后,将该第一个数据增强策略发送给第二节点102,由第二节点102反馈该第一个数据增强策略的评估结果。策略优化器1013基于第一个数据增强策略的评估结果,在该策略变化空间1012中进行搜索,得到第二个数据增强策。由于第二个数据增强策略是基于第一个数据增强策略的评估结果所搜索到的,那么,对于第一个数据增强操作策略而言,第二个数据增强策略是未知的,因此,该第二个数据增强策略也即是该策略优化器1013预测的能够达到更好评估结果的数据增强策略。该策略优化器1013将该第二数据增强策略发送给第二节点102,由第二节点102反馈该第二数据增强策略的评估结果。该策略优化器1013基于该第一个数增强策略以及该第二个数据增强策略的评估结果,在该策略变化空间1012中进行继续搜索,得到第三个数据增强策略。以此类推,直至该策略优化器1013搜索到的各个数据增强策略满足预设条件,该策略优化器1013将各个数据增强策略发送给第三节点103,由第三节点103基于接收到的各个数据增强策略,生成至少一个第一目标数据增强策略。
在一些实施例中,该策略优化器1013还能够融合样本的样本标签,来预测数据增强策略。在一种可能的实现方式中,该策略优化器1013在迭代过程中预测到的数据增强策略面向的是具有相同样本标签的样本,或者面向的是属于同一类型的样本标签的样本。
在一些实施例中,一个对象的样本标签用于标识该对象以及该对象的种类,若训练集中样本的对象属于不同种类,该第一节点101可以最终生成不同类型的目标数据增强策略,其中,每种类型的目标数据增强策略对应一种类型的对象。例如,第一节点在生成任一类型的目标数据增强策略的迭代过程中,该策略优化器1013将预测到的数据增强策略以及该任一类型发送给第二节点102,以便第二节点102基于具有该任一类型的样本标签的样本,对接收到的数据增强策略进行评估。当任一类型的数据增强策略满足预设条件时,该策略优化器1013将该类型的各个数据增强策略发送给第三节点103,由各个第三节点103基于该类型的各个数据增强策略,生成针对该任一类型的最优数据增强策略(即目标数据增强策略),以便应用节点基于该任一类型的最优数据增强策略所得到增强样本,训练出适合该任一类型的各个对象的识别模型。
需要说明的是,图1所示的数据增强系统100是以第一节点101和第三节点103为两个独立的节点为例进行说明的,而在另外一些实施例中,该第一节点101和第三节点103为同一个节点,该第三节点103可以作为该第一节点101内的一个单元,存在于该第一节点101中,例如图2所示的第一节点101还可以包括策略生成器1014,该策略生成器1014也即是第三节点103。
(2)第二节点102
该数据增强系统100中第二节点102的个数可以是一个或多个,第二节点102可以视为评估设备。在一些实施例中,第一节点101在每一次的迭代过程(也即是搜索过程)中能够预测出多个数据增强策略,若在该数据增强系统100中的第二节点102有多个的情况下,该第一节点101可以将在每一次预测出的多个数据增强策略分散发送至多个第二节点102。由每个第二节点102对该多个数据增强策略中的部分数据增强策略进行评估,并由每个第二节点102将其负责评估的数据增强策略的评估结果均发送至第一节点101。如此,使得第一节点101能够获取每一次的迭代过程中所预测出的多个数据增强策略的评估结果,实现了分布式评估。在这种分布式评估的过程中,由多个第二节点102并行评估,因此提高了数据增强系统100的评估效率。例如图4所示的本申请实施例提供的另一种数据增强系统的结构示意图,第一节点将每一次迭代过程中的多个数据增强策略发送给多个第二节点,由多个第二节点对这多个数据增强策略进行评估,并返回各个数据增强策略的评估结果。之后,第一节点基于历史各个数据增强策略,生成第一目标数据增强策略,并将第一目标数据增强策略发送给应用节点。由应用节点采用该第一目标数据增强策略,对从数据服务器获取到样本进行数据增强,并基于增强后得到的增强样本进行模型训练,并将训练出的识别模型部署服务。
在一种可能的实现方式中,对于接收到的任一数据增强策略,第二节点102采用该任一数据增强策略,对多个样本进行数据增强操作,得到该多个样本的多个增强样本。之后,该第二节点102再使用该多个增强样本对初始模型训练,得到识别模型。其中,这多个样本可以是第二节点102从数据服务器获取的。进一步地,第二节点102对该识别模型的识别效果进行评估,将该识别模型的评估结果作为该任一数据增强策略的评估结果,反馈给第一节点101。
在一些实施例中,第二节点102可以先获取一个预训练模型,该预训练模型可以是快要训练完成的识别模型,例如表现为:该预训练模型的精确度小于精确度阈值,当该第二节点102基于一个数据增强策略得到的多个增强样本后,该第二节点102采用该多个增强样本对该预训练模型进行训练,得到识别模型。例如图5所示的本申请实施例提供的一种第二节点的工作原理图,第二节点接收到一个数据增强策略后,采用该数据增强策略所得到的增强样本,对预训练模型进行再训练微调,得到识别模型,并对该识别模型的识别效果进行评估,以得到该数据增强策略的评估结果。
(3)第三节点103
在一种可能的实现方式中,该第三节点103基于接收到的多个数据增强策略的评估结果,从该多个数据增强策略中选取多个较优的数据增强策略(例如多个数据增强策略中评估结果较高的数据增强策略),并基于该多个较优的数据增强策略,生成第一目标数据增强策略。
当该多个数据增强策略是基于一个对象的多个样本进行评估的,或者是基于一个类型下的多个对象的多个样本评估时,则该第三节点103基于该多个数据增强策略最终生成的第一目标数据增强策略与该对象或与该类型对应,则应用节点基于第一目标数据增强策略所得到增强样本,训练出识别模型,对该对象或者该类型下的对象的识别效果较佳。
需要说明的是,该数据增强系统100可以部署在多个计算设备,该多个计算设备分别用于实现第一节点101、第二节点102以及第三节点103的功能,此时该第一节点101、第二节点102以及第三节点103为相互独立的计算设备。而在一些实施例中,该第一节点101、第二节点102以及第三节点103中的部分节点或全部节点集成在一个计算设备中,那么该计算设备中的各个节点也即是该设备的一个单元,例如第一节点101还具有第二节点102以及第三节点103的功能。本申请实施例对该数据增强系统100中各个节点的部署方式不作限定。
在一些实施例中,第一节点101、第二节点102以及第三节点103也可以是云计算设备。当第一节点101、第二节点102以及第三节点103为云计算设备时,该数据增强系统100部署在云端。例如图6所示的本申请实施例提供的一种云端场景下的数据增强系统的示意图,应用节点通过目标接口向部署在云端的第一节点上传待增强的样本(如客户数据)。例如,该应用节点内显示有上传界面,用户在该上传界面内上传该待增强的样本,当该应用节点检测到用户在该上传界面内进行了确认操作后,该应用节点通过目标接口向第一节点发送待增强的样本,以实现上传。当该待增强的样本上传完成后,该第一节点在策略变化空间中随机搜索出多个数据增强策略,并向多个第二节点分别发送搜索出的至少一个数据增强策略以及该待增强的样本。当任一第二节点接收到该至少一个数据增强策略以及待增强的样本后,对于该至少一个数据增强策略中的任一数据增强策略,该任一第二节点基于该待增强的样本,对该任一数据增强策略进行评估,并向第一节点反馈该任一数据增强策略的评估结果。之后,该第一节点基于该多个数据增强策略的评估结果,生成多个新的数据增强策略,并再次由多个节点对该多个新的数据增强策略进行评估。以此类推,当历史生成的数据增强策略足够多时,该第一节点基于历史生成的各个数据增强策略,生成目标数据增强策略,该第一节点采用该目标数据增强策略,对该待增强的样本进行多种数据增强操作,得到该待增强样本的多个增强样本。该应用节点通过该目标接口下载该多个增强样本,以便后续该应用节点基于下载的该多个增强样本进行模型训练,得到识别模型,并将识别模型部署服务。其中,该目标接口为处于云端的数据增强系统与应用节点之间进行数据交互的软件接口或硬件接口。
在一种可能的实现方式中,该应用节点还可以直接通过该目标接口下载该目标数据增强策略,并解析该目标数据增强策略,基于解析出的该目标数据增强策略,对待增强样本进行多种数据增强操作,得到多个增强样本。
在一些实施例中,该第一节点包括中央处理器(central processing unit,CPU),由该CPU实现第一节点所执行的各个步骤,该第一节点包括图形处理器(graphicsprocessing unit,GPU),由该CPU实现第二节点所执行的各个步骤。
在一些实施例中,当数据增强系统未部署在云端时,该数据增强系统中的第一节点或第三节点也可以生成多个目标数据增强策略,任一目标数据增强策略为基于第一节点历史生成的各个数据增强策略所最终生成的数据增强策略,任一目标数据增强策略对应一种对象类型或者一个对象;生成该多个目标数据增强策略的节点将每个目标数据增强策略以及每个目标数据增强策略所对应的对象类型或对象的标识上传至云端,以便应用节点根据待增强样本,从云端下载对应的目标数据增强策略,之后该应用节点可以采用下载的目标数据增强策略,获取适用于待增强样本或该对象的识别模型。或者,该第一节点还可以基于每个目标数据增强策略分别训练出一个识别模型,并将每个识别模型与每个目标数据增强策略对应的对象类型或对象的标识关联,并上传至云端,由应用节点根据应用场景的需求,直接从云端下载所需的识别模型。再或者,该第一节点还可以基于每个目标数据增强策略所训练出一个识别模型,生成多个增强样本,并将多个增强样本以及每个增强样本的样本标签上传至云端,由应用节点根据应用场景的需求,直接从云端下载所需的每个增强样本。
本申请中的第一节点101、第二节点102以及第三节点103可以是服务器,该应用节点可以是终端、个人计算机(personal computer,PC)或者应用服务器等用户设备,本申请实施例对第一节点101、第二节点102、第三节点103以及应用节点的实现形式不作限定。
本申请实施例还提供一种计算设备的结构示意图,参见图7,计算设备700可被配置为第一节点、第二节点以及第三节点中的任一节点,该计算设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器701和一个或一个以上的存储器702,其中,该存储器702中存储有至少一条指令,该至少一条指令由该处理器701加载并执行以实现下述每个方法实施例提供的方法。例如,若该计算设备700被配置为第一节点,则该至少一个指令由该处理器701加载并执行以实现下述各个方法实施例中第一节点所执行的步骤。当然,该计算设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算设备700还可以包括其他用于实现设备功能的部件,在此不做赘述。该处理器701可以是CPU、GPU、张量处理器(tensor processing unit,TPU)、神经网络处理器(neural network processing unit,NPU)、大脑处理器(brain processingunit,BPU)、深度学习处理器(deep leaming processing unit,DPU)、全息图像处理器(holographic processing unit,HPU)、矢量处理器(vector processing unit,VPU)以及智能处理器(intelligence processing unit,IPU)等任一处理器。
处理器701可以采用通用的CPU、微处理器、应用专用集成电路(applicationspecific integrated circuit,ASIC),GPU或者一个或多个集成电路,用于执行相关程序,以实现下述的数据增强方法。
处理器701还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的数据增强方法中任一节点所执行的步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701还可以是通用处理器、数字信号处理器(digital signal processing,DSP)、ASI、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器(random access memory,RAM),闪存、只读存储器(read-only memory,ROM),可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成本申请实施例的数据增强装置中包括的模块所需执行的功能,或者执行本申请方法实施例的数据增强方法。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成下述实施例中的数据增强方法。例如,该计算机可读存储介质可以是ROM、RAM、只读光盘(compact disc read-only memory,CD-ROM)、磁带、软盘和光数据存储设备等。
以第一节点在获取应用于某一应用场景的最优数据增强策略之前,先针对该应用场景进行一下初始化配置为例,参见图8所示的本申请实施例提供的一种初始化配置的流程图。
801、第一节点配置多种数据增强操作以及该多种数据增强操作的目标操作强度变化范围。
该多种数据增强操作为某一应用场景下的样本所需要的数据增强操作,该应用场景为图像识别场景、音频视频场景、文本识别场景中的任一个,在此本申请实施例对该应用场景不作限定。
该样本由在该应用场景下采集到的数据组成,或者认为该样本是由真实数据组成,在本申请实施例中以该应用场景为图像识别场景为例进行说明,该样本可以是在该图像识别场景下具有拍摄功能的任一设备所拍摄到的图像。
为了扩充已有的样本,可以采用数据增强操作对已有的样本进行数据增强,得到增强样本,并将增强样本视为该应用场景中采集到的真实数据,以进行模型训练。但是在该应用场景下采集到的真实数据之间可能存在各种各样的变化,为了使得后续得到的增强样本能够高度模拟该应用场景下的真实数据,需要采用多种数据增强操作对已有的样本进行数据增强。例如在图像识别场景下,该多种数据增强操作包括翻转操作、旋转操作、缩放操作、剪裁操作、平移操作、添加噪声操作以及锐化操作中的至少一个,当然,还可以包括其他种类的数据增强操作。该多种数据增强操作可根据具体的应用场景进行适应性配置,在此,本申请实施例对该多种数据增强操作不作限定。
需要说明的是,在该应用场景中的真实数据的变化是一个分布,而不是特定的几个变化点。比如不同的人去拍摄同一只小猫,由于每个人拿手机的姿势不同,拍摄出的图像中猫的倾斜度和大小是会有无限多的变化的,而不仅是倾斜特定几个度数。当然,不仅是图像中猫的倾斜度的不同变化,在色彩饱和度,色温等方面,不同手机拍出来的图像都会有所不同。因此,为了模拟出真实数据的变化,需要对图像采取不同强度变化范围的数据增强操作,以便能够得到更多的增强样本,同时保证这些增强样本的变化分布能尽可能地与该应用场景中实际样本的变化分布一致。因此,该第一节点除了配置多种数据增强操作以外,还配置有该多种数据增强操作的目标操作强度变化范围,以便后续在每种数据增强操作的目标操作强度变化范围内,对样本进行每种数据操作,从而使得最终得到的增强样本的每种变化范围均在每种数据增强操作的目标操作强度变化范围内,以模拟该应用场景下的真实数据的变化分布。
其中,一种数据增强操作的目标操作强度变化范围包括多个操作强度,本申请实施例对每种数据增强操作的目标操作强度变化范围的操作强度范围不作限定,可根据实际应用场景进行适应性配置。以图像识别场景为例,一种数据增强操作为旋转操作,旋转操作的操作强度可以用旋转角度来表示。若该图像识别场景下的多个图像中的对象会发生旋转,且旋转范围为[0度,180度],则第一节点可以给旋转操作配置的目标操作强度变化范围为[0度,180度],以便后续在[0度,180度]范围内,对该图像识别场景下的图像进行旋转操作,得到多个数据增强图像(也即是多个增强样本)。且该多个数据增强图像中的对象在[0度,180度]范围内发生了旋转,从而使得该多个数据增强图像符合该图像识别场景下的真实图像的变化规律,则可以将该多个数据增强数据作为该图像识别场景下的真实样本,以进行模型训练。
在一些实施例中,该第一节点基于人工操作,配置多种数据增强操作以及该多种数据增强操作的目标操作强度变化范围。在一种可能的实现方式中,该第一节点显示数据增强操作配置界面,由用户在数据增强操作配置界面中配置多种数据增强操作以及每种数据增强操作的目标操作强度变化范围。当检测到该用户在该数据增强操作配置界面进行了确认操作后,该第一节点存储用户在该数据增强操作配置界面所配置的多种数据增强操作以及每种数据增强操作的目标操作强度变化范围,配置完成。
在一些实施例中,本步骤801所示的过程由该第一节点中的操作池子来执行,例如图2所示的第一节点101中的操作池子1011。
需要说明的是,本步骤801由第一节点来执行,该第一节点可以视为配置设备。在一些实施例中,本步骤801不是由该第一节点来执行,而是由该第一节点以外的任一配置设备来执行。
802、对于该多种数据操作中的任一种数据增强操作,该第一节点基于该任一种数据增强操作的目标操作强度变化范围,将该任一种数据增强操作的操作强度划分为多个强度等级。
一个强度等级用于指示一个强度变化区间。该强度变化区间可以是该目标操作强度变化范围的任一子集。
该第一节点将该任一种数据增强操作对应的目标操作强度变化范围划分成多个强度变化区间,该多个强度变化区间之间不存在交集,该第一节点为该多个操作强度变化区间中的每个操作强度变化区间配置操作等级。其中,该多个强度变化区间内的操作强度与操作强度变化区间的强度等级正相关。也即多个强度变化区间中操作强度越高的操作强度变化区间的强度等级越高,反之,强度等级越低。
例如该任一种数据增强操作为旋转操作,该旋转操作的目标操作强度变化范围为[0度,180度],该第一节点将该目标操作强度变化范围[0度,180度]划分为10个强度变化区间,依次为[0度,18度)、[18度,36度)、…、[162度,180度],按照10个强度变化区间中的操作强度的高低,第一节点将该10个强度变化区间对应的强度等级依次配置为强度等级1、2、…、10,且这个10强度等级依次增高。
在一些实施例中,本步骤802所示的过程由该第一节点在策略变化空间中完成的,例如图2所示的第一节点101中的策略变化空间1012。
需要说明的是,本步骤802由第一节点来执行,该第一节点可以视为配置设备。在一些实施例中,本步骤802不是由该第一节点来执行,而是由该第一节点以外的任一配置设备来执行。
803、该第一节点为该多种数据增强操作配置概率变化区间。
一个概率变化区间包括多个操作概率,任一种数据增强操作的一个操作概率为对样本进行该任一种数据增强操作的概率。
在一些实施例中,该第一节点为该多种数据增强操作中的每种数据增强操作配置相同的概率变化区间,或者为该多种数据增强操作配置不同的概率变化区间,本申请实施例对该第一节点为该多种数据增强操作配置的概率变化区间不作限定。
在一些实施例中,该第一节点直接将该多种数据增强操作配置相同的概率变化区间,例如[0,1]。
在一些实施例中,本步骤803所示的过程由该第一节点在策略变化空间中完成的,例如图2所示的第一节点101中的策略变化空间1012。
需要说明的是,本步骤803与步骤802的执行没有先后顺序,第一节点可以先执行本步骤803再执行上述步骤802,在此,本申请实施例对步骤802-803的执行顺序不作限定。
当该第一节点配置完该多种数据增强操作的强度等级以及概率变化区间后,初始化配置完成。而除了单独使用数据增强操作对样本实施变化,以增加样本的多样性并模拟真实场景所遇到的数据变化,还可以通过对不同的数据增强操作进行组合,形成多个数据增强策略,以达到更多样性的数据变化,并且第一节点还能够基于多个数据增强策略,来获取第一目标数据增强策略,以便后续采用这个第一目标数据增强策略,来扩充样本。为了进一步说明这个过程,参见图9所示的本申请实施例提供的一种数据增强方法的流程图。
901、第一节点获取初始数据增强策略,该初始数据增强策略用于指示多种数据增强操作的操作概率以及强度等级。
示例性地,该多种数据增强操作中的每种数据增强可以由一个操作标识来标识,不同数据增强操作的操作标识不同。在一种可能的实现方式中,该初始数据增强策略包括该多种数据增强操作的操作标识、操作概率和强度等级,每种数据增强操作的操作标识与每种数据增强操作的操作强度以及操作概率对应。在一种可能的实现方式中,该初始数据增强策略中该多种数据增强操作的操作概率之和为1,该初始数据增强策略中每种数据增强操作的强度等级具有至少一个,每种数据增强的操作概率为1个。需要说明的是,本申请实施例以初始数据增策略中每种数据增强操作具有一个强度等级为例进行说明。
在一些实施例中,该第一节点获取到的初始数据增策略可以是一个,也可以是多个。在此,本申请实施例对第一节点获取的初始数据增强策略的个数不作限定,需要说明的是,本申请实施例以第一节点获取一个初始数据增策略为例进行说明。
在一种可能的实现方式中,该第一节点获取一个初始数据增强策略的过程是:对于配置的多种数据增强操作中的任一种数据增强操作,该第一节点从配置的该任一种数据增强操作的多个强度等级中随机选择出一个强度等级,并从配置的该任一种数据增强操作的概率变化区间内随机选择出一个操作概率;该第一节点基于该多种数据增强操作的操作标识、所选择出的该多种数据增强操作中每种数据增强操作的强度等级以及操作概率,生成一个初始数据增强策略。
在一些实施例中,本步骤901所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
由于数据增强操作的种类比较多,而不同种类的数据增强操作的不同组合其实又是另一形式的数据增强操作,因此,第一节点要从获取到的多个数据增强策略中找到较优的数据增强策略,则需要对获取到的每个数据增强策略进行评估,以便基于获取到的多个数据增强策略的评估结果,获取较优的数据增强策略。其中,该初始数据增强策略为第一节点获取到的一个数据增强策略。在一种可能的实现方式中,该第一节点通过下述步骤902对该初始数据增强策略进行评估。
902、该第一节点对该初始数据增强策略进行评估,得到该初始数据增强策略的评估值,该初始数据增强策略的评估值用于指示基于该初始数据增强策略得到的增强样本所训练出的识别模型的优劣程度。
该初始数据增强策略的评估值也即是该第一节点对该初始数据增强策略的评估结果。可选地,该初始数据增强策略的评估值为基于该初始数据增强策略得到的增强样本所训练出的识别模型的精确度。
该第一节点采用该初始数据增强策略,对该应用场景下的样本进行数据增强,并基于数据增强后的增强样本进行模型训练,通过训练出的识别模型来评估该初始数据增强策略的好坏。在一种可能的实现方式中,本步骤902所示的过程由下述步骤9021-9023所示的过程来实现。
步骤9021、该第一节点基于该初始数据增强策略中该多种数据增强操作的操作概率以及操作等级,对多个第二样本进行该多种数据增强操作,得到该多个第二样本的多个增强样本。
对于该初始数据增强策略内该多种数据增强操作中的任一种数据增强操作,该多个增强样本中该任一种数据增强操作的操作概率的增强样本进行过该任一种数据增强操作。
该多个第二样本中的每个第二样本均由该应用场景下采集的数据组成,对于该多个第二样本中的任一第二样本,该任一第二样本具有一个样本标签,该任一第二样本的样本标签用于指示该任一第二样本的对象。可选地,该任一第二样本的样本标签包括对象标识,该对象标识用于标识该任一第二样本的对象。其中,该任一第二样本的对象是采集该任一第二样本时被采集的对象。例如,该任一第二样本是一只猫的图像,则这只猫也即是该任一第二样本的对象。在一些实施例中,多个第二样本的对象不同,或者该多个第二样本中部分第二样本的对象不同。
需要说明的是,本申请中所涉及到的样本均是在该应用场景下所采集的数据组成,为该应用场景下的真实数据。例如,上述的第二样本,下述的第一样本、第三样本以及第四样本等。本申请中所涉及到的增强样本均是对该应用场景下的真实数据进行数据增强操作所得到的,是用于模仿该应用场景下的真实数据的,以扩充该应用场景下的样本量。
本申请所涉及到的样本或者增强样本最终是用于模型训练的,而模型训练所用的样本的数据变化取决于产生这些样本的方式。例如,用不同手机拍摄的同一只猫,拍摄出来的图像在图像属性上都会有所不同,比如有的手机拍出来的图像色温偏暖,有些偏冷。又比如,拍静态的猫,和拍动态的鸟,猫的图和鸟的图像在图像属性上也会有明显的差别,鸟的图像比较模糊,照相机可能会自动加了更多的锐化操作,而猫的图像则不需要自动加锐化操作。例如图10所示的本申请实施例提供的一种样本标签、对象以及拍摄方式之间的因果关系示意图,其中,静态的旗杆和动态的蜂鸟作为对象,决定了拍摄方式的不同以及所拍摄的图像的样本标签不同,而拍摄方式不同决定了拍摄出的图像的变化分布不同,拍摄出的图像以及图像的标签来形成训练集,以进行模型训练。
而采用数据增强策略如果要生成具有与真实数据总体尽可能相似分布的数据的增强样本,就需要考虑到样本产生方式所带来的影响,然后针对不同样本产生方式计算出不同的数据增强策略。而样本产生的方式一般和样本的对象的种类或者样本的对象本身有关,因此,在一些实施例中,该多个第二样本的对象属于同一种类。例如,该多个第二样本的对象均为鸟类、两栖类或者爬行类型中的任一类。或者,在一些实施例中,该多个第二样本的对象为同一对象,例如该多个第二样本的对象均为猫或者均为鸟。可选地,该每个第二样本的样本标签还包括每个第二样本的对象的种类标识,若该多个第二样本的对象属于同一种类,则该多个第二样本的样本标签所包括的种类标识相同。为了便于描述将多个第二样本的对象所属的种类记为目标种类;若多个第二样本的对象为同一对象,则该多个第二样本的样本标签所包括的对象标识相同。
在一种可能的实现方式中,对于该初始数据增强策略内的多种数据增强操作中的任一种数据增强操作,该第一节点基于该任一种数据增强操作的操作概率,在该任一种数据增强操作的操作等级所指示的操作强度变化区间内,对该多个第二样本进行该任一种数据增强操作,从而得到进行过该任一种数据增强操作的多个增强样本。
对于该多个第二样本中的任一第二样本,该第一节点内设置有所需的该任一第二样本的增强样本的目标个数,该第一节点基于该目标个数以及该任一种数据增强操作的操作概率,在该任一种数据增强操作的强度等级所指示的操作强度变化区间内,对该任一第二样本多次进行该任一种数据增强操作,得到该任一第二样本的进行过该任一种数据增强操作的多个增强样本。其中,在该任一第二样本的多个增强样本中,进行过该任一种数据增强操作的增强样本的个数为该目标个数与该任一种数据增强操作的操作概率之间的积。
为了便于理解该过程,以多个第二样本的个数为M,该初始数据增强策略为图3所示的数据增强策略为例,对本步骤9021进行如下说明:对于该初始数据增强策略内的S种数据增强操作中的第j种数据增强操作以及该多个第二样本中的第r个第二样本,若第j种数据增强操作的操作概率为0.2,且该第一节点内设置的所需的该第r个第二样本的增强样本的目标个数为100,则在该初始数据增强策略中该第j种数据增强操作的强度等级所指示的强度变化区间内,该第一节点对该第r个第二样本进行20次第j种数据增强操作,得到该第r个第二样本的20个增强样本。其中,该j为大于等于1或小于等于S的整数,该r为大于等于1或小于等于M的整数。
在一种可能的实现方式中,在该任一种数据增强操作的强度等级所指示的操作强度变化区间内,第一节点对该任一第二样本多次进行该任一种数据增强操作的过程为:该第一节点等概率的按照该任一种数据增强操作的强度等级所指示的操作强度变化区间中的操作强度,对该任一第二样本多次进行该任一种数据增强操作。例如,若该任一种数据增强操作为旋转操作,该初始数据增强策略中该旋转操作的强度等级所对应的操作强度变化区间为[0度,18度),且需要对该任一第二样本进行18次旋转操作,则该第一节点等概率的从该操作强度变化区间[0,18度)中选取出18个旋转角度,分别为0,1度,…,17度,该第一节点基于选取出的每个旋转角度,对该任一第二样本分别进行一次旋转操作,得到该任一第二样本的18个增强样本,从而这18个增强样本在旋转角度上的变化分布近似于[0,18度)。
需要说明的是,对该任一第二样本进行数据增强操作所得到的各个增强样本的对象与该任一第二样本的对象相同,该第一节点可以将该任一第二样本的样本标签作为对该任一第二样本进行数据增强操作所得到的各个增强样本的样本标签。
步骤9022、该第一节点基于该多个第二样本的多个增强样本训练得到初始识别模型。
该初始识别模型用于对样本进行识别,可选地,该初始识别模型是神经网络模型,例如深度神经网络模型。
在一些实施例中,该第一节点将该多个增强样本输入初始模型,采用该多个增强样本对该初始模型进行模型训练,得到该初始识别模型。其中,该初始模型为未经过任何训练的神经网络模型。
在另外一些实施例中,该第一节点先获取预训练模型,再基于该多个增强样本,对预训练模型进行训练,得到该初始识别模型。其中,该预训练模型由不同种类的多个对象的多个第三样本训练得到,该预训练模型的精确度小于精确度阈值,该精确度阈值可根据实际应用场景来设置,本申请实施例对该精确度阈值不作限定。
该多个第三样本由在该应用场景下的采集的数据组成,由于该预训练模型的精确度小于精确度阈值,则认为该预训练模型是未训练完成的模型。那么,第一节点基于该多个增强样本,继续对该预训练模型进行训练,得到该初始识别模型的时间,相对于从初始模型训练到该初始识别模型的时间少很多,从而能够缩短该第一节点评估该初始数据增强策略的总时长,提高了数据增强操作的评估效率。例如图11所示的本申请实施例提供的一种训练过程中识别模型的精确度变化曲线图,若该第一节点基于该多个增强样本对初始模型训练,若想得到精确度在95%以上的初始识别模型,则训练时长要200分钟,若该第一节点提前用115分钟的时间先训练出预训练模型,当获取到该多个增强样本后,再基于该多个增强样本对该预训练模型进行训练,得到精确度在95%以上的初始识别模型的训练时长为95分钟,明显缩短了评估过程中模型训练所占用的时长,提高了数据增强操作的评估效率。
示例性地,该第一节点获取预训练模型的过程为:该第一节点基于该多个第三样本对初始模型进行训练,得到该预训练模型。或者,该预训练模型由除该第一节点以外的其他设备来训练,该第一节点从其他设备处获取该预训练模型。本申请实施例对第一节点获取预训练模型的方式不作限定。另外,该第一节点获取一次预训练模型即可,无需多次获取。
由不同种类的对象的多个第三样本所训练出的预训练模型,适用于不同种类的对象的增强样本,因此,即使多个增强样本的对象属于同一种类或者是同一个对象,第一节点基于该多个增强样本对该预训练模型进行训练,仍然能够训练出初始识别模型。由于多个增强样本的对象属于同一种类或者是同一个对象,因此,所训练的初始识别模型在识别目标类型的对象或该多个增强样本的对象的其他样本时识别效果较优。
步骤9023、该第一节点基于该初始识别模型,获取该初始数据增强策略的评估值。
示例性地,该第一节点采用多个第四样本对该初始识别模型进行测试,并基于测试结果获取该初始识别模型的精确度,该第一节点将该初始识别模型的精确度获取为该初始数据增强策略的评估值。其中,该多个第四样本由在该应用场景下采集的数据组成;若该多个第二样本的对象的种类不同,则该多个第四样本的对象的种类不同;若该多个第二样本的对象均属于目标种类,则多个第四样本的对象也均属于目标种类;若该多个第二样本的对象为同一对象,则多个第四样本的对象与该多个第二样本的对象相同。该初始识别模型也即是基于该初始数据增强策略得到的增强样本所训练出的识别模型,该初始识别模型的精确度为该初始识别模型正确识别出该多个第四样本的对象的准确率。
在一种可能的实现方式中,该第一节点将该多个第四样本输入该初始识别模型,该初始识别模型对输入的每个第四样本进行识别,并输出每个第四样本的识别结果。若一个第四样本的识别结果所指示的对象与该第四样本的样本标签所指示的对象相同,则该第四样本识别正确,否则该第四样本识别错误。该第一节点统计该初始模型正确识别的第四样本的个数,将正确识别的第四样本的个数除以该多个第四样本的总个数,得到该初始识别模型的精确度,该第一节点并将该精确度作为该初始数据增强策略的评估值。
在一些实施例中,该第一节点除了将该初始识别模型的精确度作为该初始数据增强策略的评估值以外,该第一节点还能够将该初始识别模型的其他评价指标作为该初始数据增强策略的评估值,例如召回率、F1值或线下面积(areaunder the curve,AUC)值,在此,本申请实施例对该其他评价指标不作限定。
在一些实施例中,本步骤902所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
903、该第一节点基于该初始数据增强策略进行迭代计算,得到多个数据增强策略。
任一数据增强策略用于指示该多种数据增强操作中每种数据增强操作的操作概率以及操作等级。第i次迭代计算的过程中,该第一节点基于在前i-1次迭代计算过程中所确定出的数据增强策略以及该初始数据增强策略中的各个数据增强策略,确定该多个数据增强策略中的第i数据增强策略。其中,该i为大于等于1或小于等于N的整数,该N为迭代计算的总次数。该第i数据增强策略为在该第i次迭代计算的过程中,该第一节点所确定出的数据增强策略。其中,在前i-1次迭代计算过程中所确定出的数据增强策略以及该初始数据增强策略中的各个数据增强策略,也即是在当前时刻该第一节点所确定出的各个历史数据增强策略。
当i等于1时,也即是第一次迭代计算的过程,则不存在前i-1次迭代计算过程,该第一节点基于该初始数据增强策略,确定该多个数据增强策略中的第i数据增强策略。
当i不等于1时,此时存在前i-1次迭代计算过程,则该第一节点基于在前i-1次迭代计算过程中所确定出的数据增强策略以及该初始数据增强策略中的各个数据增强策略,确定该多个数据增强策略中的第i-1数据增强策略。
在该第i次迭代计算的过程中,该第一节点能够确定出至少一个第i数据增强策略。在确定一个第i数据增强策略的过程中,该第一节点先预测每种数据增强操作在该第i数据增强策略中的操作等级以及操作概率,再基于预测出的每种数据增强操作在该第i数据增强策略中的操作等级以及操作概率,生成该第i数据增强策略。在一种可能的实现方式中,该第i次迭代计算的过程由下述步骤9031-9033所示的过程来实现。
步骤9031、对于该多种数据增强操作中的任一种数据增强操作,该第一节点基于该各个数据增强策略中该任一种数据增强操作的多个操作等级以及该各个数据增强策略的多个评估值,预测该第i数据增强策略中该任一种数据增强操作的操作等级,任一数据增强策略的评估值用于指示基于该任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度。
其中,该各个数据增强策略为在前i-1次迭代计算过程中所确定出的数据增强策略以及该初始数据增强策略中的各个数据增强策略,也即是各个历史数据增强策略。
为了使得最终获取到的增强样本的每种变化分布均符合在该应用场景下所采集到的各个样本的每种变化分布,则预测的第i数据增强策略中的每种数据增强操作的操作强度的变化分布以及操作概率的变化分布均要符合该应用场景下所采集到的各个样本的变化分布。一般认为该应用场景下所采集到的各个样本的每种变化分布均符合正态分布,也即是高斯分布。可选地,该第一节点通过该各个数据增强策略中每种数据增强操作的多个操作等级所服从的高斯分布,拟合出该各个数据增强策略中每种数据增强操作的操作等级所服从的多元高斯分布,以预测出每种数据增强操作新的操作等级。其中,每种数据增强操作新的操作等级也即是第i数据增强策略中每种数据增强操作的操作等级。
在一种可能的实现方式中,本步骤9031由下述步骤A1-A2来实现。
步骤A1、该第一节点基于该多个操作等级以及该多个评估值,确定该第i数据增强策略中该任一种数据增强操作的操作等级所服从的多元高斯分布。
该多个操作等级与该多个评估值一一对应,其中,该多个操作等级中的任一操作等级与该任一操作等级所属的数据增强策略的评估值对应。该多个操作等级中的每个操作等级均服从一个高斯分布,而每个操作等级所服从的高斯分布为每个操作等级对应的评估值的取值范围,将每个操作等级对应的评估值视为每个操作等级所服从的高斯分布的平均值。
高斯过程是多元高斯概率分布的泛化,先假设该多个数据增强策略中该任一种数据增强操作的强度等级存在一个先验分布p(f|X),如下述公式(1)所示。
Figure BDA0002873820740000221
其中,X为该多个数据增强策略中任一种数据增强操作的强度等级的集合,表示为X={x0,x1,...,xi-1},x0为初始数据增强策略中该任一种数据增强操作的强度等级,x1为第一数据增强策略中该任一种数据增强操作的强度等级,xi-1为第i-1数据增强策略中该任一种数据增强操作的强度等级;f为映射函数的函数值的集合,该映射函数为该任一种数据增强操作的强度等级与该任一种数据增强操作所属的数据增强策略的评估值之间的函数,或者认为:该任一种数据增强操作所属的数据增强策略的评估值也即是该映射函数的函数值,则f表示为f={f(x0),f(x1),...,f(xi-1)};μ为X的均值,K是由kpq所组成的协方差矩阵,其中,kpq=k(xp,xq),用于表示该X中xp与xq之间的相似距离(也即是相似程度),xp为X中的第p个强度等级,xq为该X中的第q个强度等级,0≤p≤i-1,0≤q≤i-1。可选地,k(xp,xq)=exp(-γ|||xp-xq||2),||xp-xq||为xp与xq之间的欧式距离,γ为平滑因子,一般为小数,以减少极值带来的不良影响。
由于高斯过程是一个随机变量的集合,任意有限个随机变量都满足一个联合高斯分布,则该第一节点基于该多个操作等级以及该多个评估值,确定该多个操作等级与第i数据增强操作策略中该任一种数据增强策略的操作等级之间服从下述公式(2)所示的联合分布。
Figure BDA0002873820740000222
其中,Y为观测到的未知函数的函数值集合,也即是各个历史数据增强策略的评估值的集合,则Y={f(x0),f(x1),…,f(xi-1)},
Figure BDA0002873820740000223
为预测的第i数据增强策略的评估值,
Figure BDA0002873820740000224
为预测的第i数据增强策略中该任一种数据增强策略的强度等级,m(X)为X的均值函数,
Figure BDA0002873820740000225
Figure BDA0002873820740000226
均值的均值函数,K**
Figure BDA0002873820740000227
Figure BDA0002873820740000228
之间的相似距离,K*
Figure BDA0002873820740000229
与X中各个x之间相似距离,
Figure BDA00028738207400002210
为X中的各个x与
Figure BDA00028738207400002211
均相似距离。
该第一节点基于上述公式(2),预测第i数据增强策略中该任一种数据增强操作的操作等级所服从的多元高斯分布,也即是预测该第i数据增强策略的评估值的取值范围。其中,预测的第i数据增强策略中该任一种数据增强操作的操作等级所服从的多元高斯分布
Figure BDA00028738207400002212
如下述公式(3)所示。
Figure BDA00028738207400002213
其中,μ*为预测的该第i数据增强策略的评估值的高斯分布的均值,∑*为预测的该第i数据增强策略的评估值的高斯分布的方差。
步骤A2、在该任一种数据增强操作的操作等级所服从的多元高斯分布下,该第一节点将令采集函数取最大值的操作等级确定为该第i数据增强策略中该任一种数据增强操作的操作等级。
在一种可能的实现方式中,该采集函数由下述公式(4)来表示。
α(x)=μ*+β∑* (4)
其中,β为控制因子。该第一节点将各个历史数据增强策略中该任一种数据增强操作的强度等级以及各个历史数据增强策略的评估值,代入上述公式(4),以获取在配置的该任一种数据增强操作的多个强度等级下该采集函数的各个函数值,由于令采集函数取最大值的x会有更大的概率使得y取最大值,因此把采集函数取最大值的x作为
Figure BDA0002873820740000231
能够使得
Figure BDA0002873820740000232
取更大值,则该第一节点将令该采集函数取最大值的强度等级确定为该第i数据增强策略中该任一种数据增强操作的操作等级。
在一些实施例中,配置的该任一种数据增强操作的多个强度等级的个数比较多,为了快速从配置的该任一种数据增强操作的多个强度等级确定出能够令该采集函数取最大值的强度等级,则该第一节点通过优化算法计算出令采集函数的取最大值的操作等级。可选地,该优化算法为拟牛顿算法。该拟牛顿算法由python包scipy来实现。在一种可能的实现方式中,该第一节点调用scipy.optimize.minimize()函数,由于拟牛顿算法用于求解最小化对应的x值,则第一节点将该各个数据增强策略的评估值以及该各个历史数据增强策略中该任一种数据增强操作的操作等级,以及-α(x)输入scipy.optimize.minimize()函数,即可求的该第i数据增强策略中该任一种数据增强操作的操作等级。
为了进一步说明本步骤9031所述的过程,参见图12所示的本申请实施例提供的一种数据增强操作的操作等级的分布拟合过程。假设搜索的数据增强策略只有一种随机变量x,x为强度等级,x对应的数据增强策略的评估值是y(也即是f(x)),对于任一种数据增强操作,第一节点先随机取i个强度等级x(图12中的黑色叉叉,也即是各个历史数据增强策略中任一种数据增强操作的操作等级),每个x对应的y都理解为一个x取值的概率分布(图12中的曲线1是这个概率分布预估的均值曲线,灰色区域是以特定均值为基础的概率分布,曲线2是表示评估出的强度等级x与评估值y之间的对应关系的函数曲线),在黑色叉叉处对应的y值由于是确定值,y值的方差会非常小,可见黑色叉叉上下的灰色区域几乎是没有的。
对于图12中的曲线1和灰色区域,假设当取某个强度等级x时,y的取值范围会在一定的高斯分布范围内变化,其中这个高斯分布的均值就是y取值的概率最高的值,比均值点高的y点的取值概率会逐渐降低,比均值低的y点的取值概率也是同样的逐渐降低,也就是每个强度等级x值对应的y的取值都是一个这样的高斯分布,区别在于它们的均值和方差不一样。曲线1是所有强度等级x对应的y的取值分布的均值所组成的曲线,灰色区域是所有强度等级x点对应的y值分布的均值上下的方差距离所覆盖的区域,也即是,不同强度等级x对应的y值会在其对应的灰色区域中出现,而在曲线1上出现的概率最大。而对于黑色叉叉,由于是已经确定了的强度等级x和y值,所以该强度等级x所对应的y值必然在曲线1所示的均值线上,同时由于已经确定其方差会非常小,也就是对应的y取确定值以外的值的概率是非常小的,所以黑色叉叉附近的灰色区域也几乎是没有的。
由于每个强度等级x对应的y的取值都是一个高斯分布,则可以用多元高斯分布对‘什么样的x该取什么样的y值’这个问题进行建模,也就是对于黑色叉叉服从上述公式(1)所述的多元高斯分布,这是基于已知的i个黑色叉叉组成的多元高斯分布。而当要取第i+1个强度等级x(也即是
Figure BDA0002873820740000241
)所对应的
Figure BDA0002873820740000242
值的分布时,第一节点通过公式(1)所示的多元高斯分布,预估出对应的
Figure BDA0002873820740000243
的分布,也即是得到上述公式(2)。那么对于一个新的
Figure BDA0002873820740000244
K-1,K**等都是能够计算出。因此,通过上述公式(3),第一节点能够预测出新点
Figure BDA0002873820740000245
时应的
Figure BDA0002873820740000246
的取值概率分布。
Figure BDA0002873820740000247
为上述公式(4)所示的采集函数α(x)取最大值所对应的x值,其中,β为控制因子,用于控制有多大比重考虑
Figure BDA0002873820740000248
在方差范围内的取值,当β=0时,第一节点仅取使得
Figure BDA0002873820740000249
取值分布中均值最大的x值,而忽略
Figure BDA00028738207400002410
在方差范围内取更大值的可能性,当β越大时,代表第一节点越考虑
Figure BDA00028738207400002411
在方差范围内取更大值的可能性,后续第一节点能够在确定出的
Figure BDA00028738207400002412
的基础上,继续评估求得对应的
Figure BDA00028738207400002413
的真实值,已知的x,y值就会又增加一对,这会使得第一节点利用多元高斯分布计算的y值会越来越准,所预估出来的x*就更有可能取得更高的y值。不断迭代,第一节点就能够得到越来越高的y值所对应的x值。而最高的y值所对应的x值就是所希望取得的x,也就是该任一数值增强操作的最优的强度等级。
步骤9032、对于该任一种数据增强操作,该第一节点基于该各个数据增强策略中该任一种数据增强操作的多个操作概率以及该各个数据增强策略的多个评估值,预测该第i数据增强策略中该任一种数据增强操作的操作概率。
该第一节点通过该各个数据增强策略中每种数据增强操作的多个操作概率所服从的高斯分布,拟合出该各个数据增强策略中每种数据增强操作的操作概率所服从的多元高斯分布,以预测出每种数据增强操作新的操作概率。其中,每种数据增强操作新的操作概率也即是第i数据增强策略中每种数据增强操作的操作概率。
在一种可能的实现方式中,本步骤9032由下述步骤B1-B2来实现。
步骤B1、该第一节点基于该多个操作概率以及该多个评估值,确定该任一种数据增强操作的操作概率所服从的多元高斯分布。
本步骤B1所示的过程与上述步骤A1所示的过程同理,其区别在于,本步骤B1是以该任一种数据增强操作的操作概率作为随机变量x,而上述步骤A1是以该任一种数据增强操作的操作强度作为随机变量x,在此,本申请实施例对本步骤B1所示的过程不作赘述。
步骤B2、在该任一种数据增强操作的操作概率所服从的多元高斯分布下,该第一节点将令采集函数取最大值的操作概率确定为该第i数据增强策略中该任一种数据增强操作的操作概率。
本步骤B2所示的过程与上述步骤A2所示的过程同理,其区别在于,本步骤B2是以该任一种数据增强操作的操作概率作为随机变量x,而上述步骤A2是以该任一种数据增强操作的操作强度作为随机变量x,在此,本申请实施例对本步骤B2所示的过程不作赘述。
步骤9033、该第一节点基于预测出的该多种数据增强操作的操作等级以及操作概率,生成该第i数据增强策略。
该第一节点对该多种数据增强操作中的每种数据增强操作均执行上述步骤9031-9032所示的过程,从而该第一节点能够得到预测的该多种数据增强操作的操作等级以及操作概率。当该第一节点预测到该多种数据增强操作的操作等级以及操作概率后,该第一节点将该多种数据增强操作的操作标识、预测的该多种数据增强操作的操作等级以及操作概率,打包成该第i数据增强策略。
当该第一节点确定出该第i数据增强策略后,该第一节点还要再获取第i数据增强策略的评估值。该第一节点采用该第i数据增强策略,对该应用场景下的样本进行数据增强,并基于数据增强后的增强样本进行模型训练,通过训练出的识别模型来评估该第i数据增强策略的好坏。其中,该第一节点对第i数据增强策略进行的评估值的过程由下述步骤C1-C3所述的过程来实现。
步骤C1、该第一节点基于该第i数据增强策略中该多种数据增强操作的操作概率以及操作等级,对多个第二样本进行该多种数据增强操作,得到该多个第二样本的多个增强样本。
本步骤C1所示的过程与步骤9011所示的过程同理,在此,本申请实施例对本步骤C1不作赘述。
步骤C2、该第一节点基于该多个增强样本训练得到第i识别模型。
该第i识别模式也即是基于该第i数据增强策略得到的增强样本所训练出的识别模型。本步骤C2所示的过程与步骤9022所示的过程同理,在此,本申请实施例对本步骤C2不作赘述。
步骤C3、该第一节点基于该第i识别模型,获取该第i数据增强策略的评估值。
本步骤C3所示的过程与步骤9023所示的过程同理,在此,本申请实施例对本步骤C3不作赘述。
当该第一节点获取到该第i数据增强策略的评估值后,若前i次迭代过程所确定出的数据增强策略满足预设条件,则该第一节点终止迭代计算,否则该第一节点进入第i+1次迭代计算的过程。其中,该预设条件包括下述至少一个:前i次迭代过程所确定出的数据增强策略的总个数达到目标个数;前i次迭代过程所确定出的数据增强策略的平均评估值达到目标评估值。
若前i次迭代过程所确定出的数据增强策略总个数达到目标个数,则说明该第一节点确定出的数据增强策略足够多,若前i次迭代过程所确定出的数据增强策略的平均评估值达到目标评估值,则说明该前i次迭代过程所确定出的数据增强策略足够优质,在数据增强策略已经足够多和/或足够优质的情况下,该第一节点终止迭代计算。
需要说明的是,本步骤903所示的过程为第一节点获取多个数据增强策略的过程。在一些实施例中,本步骤903所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
904、该第一节点基于多个数据增强策略,确定该第一目标数据增强策略,该第一目标数据增强策略包括多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级。
其中,该第一目标数据增强策略为该第一节点最终确定出的一个最优的数据增强策略。
在一种可能的实现方式中,该第一节点将该多个数据增强策略中评估值最高的数据增强策略作为该第一目标数据增强策略。由于该多个数据增强策略均是基于配置的多种数据增强操作多个操作等级搜索得到,此时该第一目标数据增强策略为该多个数据增强策略中一个,因此,该第一目标数据增强策略也是基于配置的多种数据增强操作多个操作等级搜索得到。
在另一种可能的实现方式中,该第一节点先从该多个数据增强策略中选取出部分数据增强策略,再基于选取出的这部分数据增强策略,确定出该第一目标数据增强策略。可选地,本步骤904所示的过程由下述步骤9041-9042所示的过程来实现。
步骤9041、该第一节点基于该多个数据增强策略的评估值,从该多个数据增强策略中选择出多个第二目标数据增强策略,该多个第二目标数据增强策略的评估值均高于该多个数据增强策略中除该多个第二目标数据增强策略之外的数据增强策略的评估值。
示例性地,该第一节点对该多个数据增强策略的评估值进行排序,基于排序结果确定该多个数据增强策略中的第二目标数据增强策略。
在一种可能的实现方式中,按照评估值从大到小的顺序,该第一节点对该多个数据增强策略的评估值进行排序,得到第一评估值序列,该第一节点将该第一评估值序列中排序位于前目标位的评估值作为第二目标数据增强策略的评估值,从而该第一节点从该多个数据增强策略中选取出多个第二目标数据增强策略。
在一种可能的实现方式中,按照评估值从小到大的顺序,该第一节点对该多个数据增强策略的评估值进行排序,得到第二评估值序列,该第一节点将该第二评估值序列中排序位于后目标位的评估值作为第二目标数据增强策略的评估值,从而该第一节点从该多个数据增强策略中选取出多个第二目标数据增强策略。
其中,目标位为大于1的整数,本申请实施例对目标位的个数不作限定。
步骤9042、该第一节点基于该多个第二目标数据增强策略,生成该第一目标数据增强策略。
在一种可能的实现方式中,本步骤9042所示的过程由下述步骤D1-D2所示的过程来实现。
步骤D1、该第一节点基于该多个第二目标数据增强策略中该多种数据增强操作的操作概率以及操作等级,确定该多种数据增强操作的目标操作概率以及目标操作等级。
该第一节点基于对任一种数据增强操作的强度等级的聚类结果,来确定该任一种数据增强操作的目标操作概率以及目标操作等级。在一种可能的实现方式中,本步骤D1由下述步骤D11-D12所示的过程来实现。
步骤D11、对于该多种数据增强操作中的任一种数据增强操作,该第一节点对该多个第二目标数据增强策略中该任一种数据增强操作的多个操作等级进行聚类,得到至少一个操作等级类别。
在一种可能的实现方式中,该第一节点基于密度聚类算法,对该多个第二目标数据增强策略中该任一种数据增强操作的多个操作等级进行聚类,得到该至少一个操作等级类别,其中,一个操作等级类别包括该任一种数据增强操作的至少一个操作等级。
可选地,该密度聚类算法为具有噪声的基于密度的聚类方法(density-basedspatialclustering ofapplications with noise,DBSCAN),DBSCAN是一种基于密度的空间聚类算法,能够将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,簇为密度相连的点(即操作等级)的最大集合,一个操作等级类别中该任一种数据增强操作的操作等级也即是一簇。
例如该多个第二目标数据增强策略中该任一种数据增强操作的强度等级有5个,分别为强度等级1、3、5、6以及7,通过DBSCAN,该第一节点对这5个强度等级进行聚类,得到操作等级类别(即簇)1和2,其中,操作等级类别1包括强度等级1和3,操作等级类别2包括强度等级5、6以及7。
需要说明的是,该第一节点还可以采用除DBSCAN以外的其他类型的聚类算法,对该任一种数据增强操作的多个操作等级进行聚类,在此,本申请实施例对除DBSCAN以外的其他类型的聚类算法不作限定。
步骤D12、对于该至少一个操作等级类别中的任一操作等级类别,该第一节点基于该任一操作等级类别中的操作等级、该多个第二目标数据增强策略中的第三目标数据增强策略内该任一种数据增强操作的操作概率,确定该任一种数据增强操作的目标操作强度以及目标操作概率,该第三目标数据增强策略为该任一操作等级类别的操作等级所属的第二目标数据增强策略。
在一种可能的实现方式中,该第一节点基于该任一操作等级类别中的操作等级,确定该任一种数据增强操作的目标操作等级。
在一些实施例中,该第一节点确定该任一操作等级类别中的最小操作等级以及最大操作等级;并将大于等于该最小操作等级且小于等于该最大操作等级的各个操作等级,确定为该任一种数据增强操作的目标操作等级。以上述的操作等级类别1为例,操作等级类别1中的最小操作等级为操作等级1,最大操作等级为操作等级3,则大于等于该最小操作等级且小于等于该最大操作等级的各个操作等级包括操作等级1、2以及3,该第一节点将该操作等级1-3确定为该任一种数据增强操作的目标操作等级。
在一些实施例中,该第一节点将该任一操作等级类别中的各个操作等级,确定为该任一种数据增强操作的目标操作等级。以上述的操作等级类别1为例,该第一节点将该操作等级类别1中的操作等级1和操作等级3,确定为该任一种数据增强操作的目标操作等级。
在一种可能的实现方式中,该第一节点基于该多个第二目标数据增强策略中的第三目标数据增强策略内该任一种数据增强操作的操作概率,确定该任一种数据增强操作的目标操作概率。
可选地,该第一节点将该多个第二目标数据增强策略中的第三目标数据增强策略内该任一种数据增强操作的操作概率的平均概率,确定为该任一种数据增强操作的目标操作概率。例如若操作等级1包括操作等级1和3,操作等级1所属的数据增强策略中该任一种数据增强操作的操概率为0.6,操作等级3所属的数据增强策略(也即是第三目标数据增强策略)中该任一种数据增强操作的操概率为0.4,当目标操作等级为操作等级1和3时,则该任一种数据增强操作的目标操作概率为0.6和0.4之间的平均概率0.5。
可选地,该目标操作概率与该任一种操作等级类别中操作等级的个数之积为该任一种操作等级类别中各个操作等级对应的操作概率之和,其中,一个操作等级对应的操作概率为该操作等级所属的数据增强策略中该任一种数据增强操作的操作概率。例如,若操作等级1包括操作等级1和3,操作等级1所属的数据增强策略中该任一种数据增强操作的操概率为0.6,操作等级3所属的数据增强策略中该任一种数据增强操作的操概率为0.3,当目标操作等级为操作等级1、2和3,且操作等级2并属于任何数据增强策略时,则默认该操作等级2对应的操作概率为0,则该任一种数据增强操作的目标操作概率=(0.6+0.3)/3=0.3。
步骤D2、该第一节点基于确定出的该多种数据增强操作的目标操作概率以及目标操作等级,生成该第一目标数据增强策略。
示例性地,该第一节点将该多种数据增强操作的操作标识、目标操作概率以及目标操作概率,打包为该第一目标数据增强策略。
需要说明的是,本步骤904所示的过程也即是第一节点获取第一目标数据增强策略的过程。
在一些实施例中,本步骤904所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的最优策略生成器1014。
905、该第一节点基于该第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行该多种数据增强操作,得到该第一样本的多个目标增强样本。
该第一样本为在该应用场景下采集的数据所组成的样本。在一些实施例中,该第一样本的对象与该第二样本的对象属于同一种类,或该第一样本的对象与该第二样本的对象为同一对象。在另外一些实施例中,该第一样本的对象与该第二样本的对象属于不同的种类。本申请实施例以该第一样本的对象与该第二样本的对象属于同一种类为例进行说明,也即是该第一样本的对象属于目标种类。
该第一节点在执行本步骤903之前,还可以获取该第一样本,例如在图6所示的云端场景下,该第一节点通过目标接口获取应用节点上传的该第一样本。当然,在一些实施例中,该第一样本还可以是第一节点本地存储的样本,该第一节点从本地存储的样本中获取该第一样本。
该第一节点基于该第一目标数据增强策略中多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对该第一样本进行该多种数据增强操作,得到该多个目标增强样本。其中,该多个目标增强样本中任一种数据增强操作的目标操作概率的目标增强样本进行过该任一种数据增强操作。
对于该任一种数据增强操作,该第一节点基于该任一种数据增强操作的目标操作概率,在该任一种数据增强操作的目标操作等级所指示的操作强度变化区间内,对该第一样本进行该任一种数据增强操作,该过程与上述步骤9021中该第一节点基于该任一种数据增强操作的操作概率,在该任一种数据增强操作的操作等级所指示的操作强度变化区间内,对该多个第二样本进行该任一种数据增强操作的过程同理,在此,本申请实施例对该过程不作赘述。
在一些实施例中,本步骤905所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的最优策略生成器1014。
906、该第一节点基于多个目标增强样本训练得到目标识别模型。
该目标识别模型为最终用于对该应用场景下的样本进行识别的模型,当获取到该目标识别模型后,该第一节点将该目标识别模型与该目标种类的类型标识进行关联存储,以便后续将该目标识别模型用于在该目标种类的对象的样本识别中。
本步骤906所示的过程与上述步骤9022中该第一节点基于该多个第二样本的多个增强样本训练得到初始识别模型过程同理,在此本申请实施例对本步骤906不作赘述。在一些实施例中,本步骤906所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的最优策略生成器1014。
需要说明的是,在云端场景下,该第一节点在获取到该第一目标数据增强策略后,该第一节点还可以通过目标接口向应用节点发送该多个目标增强样本,由该应用节点执行本步骤906所示的过程,例如图6所示的云端场景。
本申请实施例提供的数据增强方法,通过数据增强策略中的多种数据增强操作,对样本进行处理,能够得到多个目标增强样本,从而达到了扩充样本的目的,并且由于是在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对样本进行多种数据增强操作,从而得到的多个目标增强样本能够在多种数据增强操作的目标操作等级所指示的操作强度变化区间之内具有变化,因此提高了样本的多样性。
上述图9所示的过程为第一节点具有数据增强系统中各个节点的功能的情况下,由第一节点独自完成数据增强的过程。在另外一些实施例中,数据增强的过程是由数据增强系统中的各个节点协同完成,为了进一步说明该过程,参见图13所示的本申请实施例提供的一种数据增强方法的流程图。
1301、第一节点获取初始数据增强策略。
本步骤1301所示的过程与上述步骤901所示的过程同理,在此,本申请实施例对本步骤1301不作赘述。
在一些实施例中,本步骤904所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
1302、该第一节点向第二节点发送该初始数据增强策略。
1303、该第二节点对接收到的该初始数据增强策略进行评估,得到该初始数据增强策略的评估值。
本步骤1303所示的过程与上述步骤902所示的过程同理,在此,本申请实施例对本步骤1303不作赘述。
1304、该第二节点向该第一节点发送该初始数据增强策略的评估值。
1305、当i等于1时,在第一次迭代计算的过程中,该第一节点基于该初始数据增强策略,确定该多个数据增强策略中的第一数据增强策略。
本步骤1305所示的过程与上述步骤9031-9033所示的过程同理,在此,本申请实施例对本步骤1305不作赘述。
1306、该第一节点向第二节点发送该第一数据增强策略。
1307、该第二节点对接收到的该第一数据增强策略进行评估,得到该第一数据增强策略的评估值。
本步骤1307所示的过程与上述步骤902所示的过程同理,在此,本申请实施例对本步骤1307不作赘述。在一些实施例中,本步骤904所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
1308、该第二节点向该第一节点发送该第一数据增强策略的评估值。
1309、当i不等于1时,在第i次迭代计算的过程中,该第一节点基于在前i-1次迭代计算过程中所确定出的数据增强策略以及该初始数据增强策略中的各个数据增强策略,确定第i数据增强策略。
本步骤1309所示的过程与上述步骤9031-9033所示的过程同理,在此,本申请实施例对本步骤1309不作赘述。在一些实施例中,本步骤904所示的过程由该第一节点中的策略优化器来执行,例如图2所示的第一节点101中的策略优化器1013。
1310、该第一节点向第二节点发送该第i数据增强策略。
1311、该第二节点对接收到的该第i数据增强策略进行评估,得到该第i数据增强策略的评估值。
本步骤1311所示的过程与上述步骤902所示的过程同理,在此,本申请实施例对本步骤1311不作赘述。
1312、第二节点向第一节点发送该第i数据增强策略的评估值。
对于上述1309-1312所示的过程,在一些实施例中,当第一节点在每次的迭代过程中获取到多个数据增强策略后,该第一节点将该多个数据增强策略发送到不同的第二节点,由不同的第二节点对不同的数据增强策略进行评估,以实现分布式评估。
在一种可能的实现方式中,若第一节点获取的第i数据增强策略有多个,该第一节点向多个第二节点分别发送至少一个第i数据增强策略,由每个第二节点基于下述步骤1311所示的过程对接收到的每个第i数据增强策略进行评估,以便后续该第一节点从该多个第二节点分别接收至少一个第i数据增强策略的评估值。此时第二节点也即是评估设备,用于对第一节点发送的数据增强策略进行评估。
例如图14所示的本申请实施例提供的一种数据增强系统的示意图,该第一节点每生成一个数据增强策略,就将该数据增强策略发送给第二节点,由第二节点采用接收到的数据增强策略,对从数据服务器获取的样本进行数据增强,得到多个增强样本,并基于多个增强样本训练和测试识别模型,并向第一节点返回该数据增强策略的评估值。
在一些实施例中,该数据增强系统内还设置有调度节点,第二节点每对一个数据增强策略进行评估的过程中,该第二节点将该数据增强策略的评估值发送给调度节点;若该数据增强策略的评估值低于目标评估值,认为这个数据增强策略不优,则该调度节点指示第二节点不向该第一节点返回该数据增强策略的评估值。之后若第一节点从第二节点接收不到该数据增强策略的评估值,则该第一节点舍弃该数据增强策略,以便后续第一节点最终确定出的多个数据增强策略的评估值均大于或等于目标评估值,也即是第一节点最终确定出的多个数据增强策略都比较优。在一些实施例中,在该第二节点接收到一个数据增强策略后,若该调度节点长时间未获取到该数据增强策略的评估值,认为该第二节点在评估该数据增强策略的过程中出现了问题,例如第二节点基于该数据增强策略得到的增强样本长时间训练不出识别模型,则该调度节点指示第二节点结束对该数据增强策略的评估过程,进行下一个数据增强策略的评估过程。例如图14中的调度节点。
1313、当多次迭代过程后所确定出的多个数据增强策略满足预设条件时,该第一节点向第三节点发送该多个数据增强策略。
在一些实施例中,该第一节点不是在获取到该多个数据增强策略后,才向该第三节点发送该多个数据增强策略,而是该第一节点每获取到一个数据增强策略就向该第三节点发送,本申请实施例对该第一节点向该第三节点发送该多个数据增强策略的时机不作限定。
在一些实施例中,该第一节点除了向该第三节点发送该多个数据增强策略以外,还会向该第三节点发送该初始数据增强策略。
1314、该第三节点基于接收到的多个数据增强策略,确定该第一目标数据增强策略。
本步骤1314所示的过程与上述步骤904所示的过程同理,在此,本申请实施例对本步骤1314不作赘述。
1315、该第三节点向应用节点发送该第一目标数据增强策略。
1316、该应用节点基于该第一目标数据增强策略,获取目标识别模型。
在一种可能的实现方式中,该应用节点基于该第一目标数据增强策略,对第一样本进行多种数据增强操作,得到该第一样本的多个目标增强样本,该应用节点基于至少一个第一样本的多个目标增强样本,训练得到目标识别模型。此过程与上述步骤905和906所示的过程同理,在此,本申请实施例对本步骤1316不作赘述。
由于该第一目标数据增强策略中任一种数据增强操作的目标强度等级可能有多个,且每个目标强度等级对应一个强度变化区间,因此,基于该第一目标数据增强策略所得到的增强样本之间会呈现变化分布。例如图15所示的本申请实施例提供的一种数据变化分布的示意图,在图15中,横轴为旋转操作的各个旋转角度,纵轴为多个增强样本经过不同旋转角度的旋转操作的增强样本的占比,曲线1构成的分布是该应用场景下的真实数据的变化分布,曲线2构成的分布是采用该第一目标数据增强操作所得到增强样本的数据的变化分布,图15中的竖线是采用相关技术提供的数据增强策略所得到的增强样本的数据的变化分布。从图15可知,竖线仅能覆盖该应用场景下的真实数据变化分布的极小一部分,而采用该第一目标数据增强操作所得到增强样本的数据的变化分布能够覆盖真实数据变化分布的更大范围。因此,后续基于该第一目标数据增强策略所生成的增强样本,更能模拟真实数据,且基于该第一目标数据增强策略得到增强样本训练出的识别模型,泛化能力更强,更能适应真实的应用场景。
另外,在图像应用场景下,该第一目标数据增强策略中数据增强操作的变化分布,还可以表现为增强样本的像素值的变化分布。例如数据增强操作为锐化操作,在实施锐化操作时,会提升图像(样本)中对象的轮廓线条相关部位的轮廓两侧的颜色对比度。比如若样本为小鸟的图像,对个图像进行强锐化操作后,以强锐化操作后所得到的图像(增强样本)中鸟嘴附近的像素为例,原图像中鸟嘴附近的黑白对比并不强烈,强锐化操作后所得到的图像中鸟嘴附近的黑白对比会较为强烈,而这些对比可以反映在相关的每个像素的变化上。更进一步,因为像素都是由红绿蓝(red、green、blue,RGB)三元组组成,该三元组中有三个范围从0到256变化的数字组成,分别代表红、绿、蓝三种颜色在该像素位置上的强度,因此,数据增强操作的变化分布可以表现为增强样本的像素值的变化分布。
例如图16所示的本申请实施例提供的一种锐化操作变化时特定像素值变化的分布示意图。以锐化操作为例,在图16中显示了通过本申请的数据增强方法所增强的一张图像中某一特定像素点的数值的变化分布,并显示了相关技术提供的锐化操作所增强的这张图像中该特定像素点的数值的变化分布。横轴是将这张图像数据增强成若干张增强图像后该特定像素点的数值(由于制图原因,为了呈现出对比效果,横轴上的数值均乘100),纵轴是将这张图像数据增强成若干张增强图像后,在该特定像素点上取了该数值的增强图像的个数,也就是该图增强后在该特定像素点上的取值分布(即数据增强的变化分布)。可见,相关技术进行数据增强后只能带来有限的变化,而通过本申请所进行的数据增强带来的数据变化呈现为一个分布,在这个分布上有无限多个变化点。另一方面,由于本申请实施例中在对数据增强策略进行评估的过程中,不同数据增强策略是采用不同对象类型的样本进行评估的,因此,不同对象类型对应的数据增强策略是不一样的。如图16中,鸟和飞机的像素变化的分布是不同的,而相关技术对不同对象类型只能用相同的数据增强策略,所以无论鸟或飞机,相关技术数据增强后的像素变化都是相同的。
需要说明的是,步骤1314-1316所示的过程是第一节点将多个数据增强策略发送给第三节点,由第三节点基于接收到多个数据增强策略,确定第一目标数据增强策略,并发送给应用节点,由应用节点从第三节点获取第一目标数据增强策略。而在另外一些实施例中,第一节点基于多个数据增强策略,确定第一目标数据增强策略,并将确定出的第一目标数据增强策略发送给应用节点。由应用节点基于该第一目标数据增强策略,对从数据服务器器获取到的多个样本进行数据增强,得到增强样本,并基于该多个增强样本进行模型训练,并将训练出的识别模型部署服务,例如图14所示的数据增强系统中的第一节点以及应用节点。
本申请实施例提供的数据增强方法,通过多个节点协同完成数据增强的过程,由于多个节点并行工作,从而提高数据增强系统进行数据增强的效率。
需要说明的是,采用相关技术中提供的数据增强策略以及本申请提供的数据增强策略,分别对公共数据集CIFAR10NEI中的样本进行数据增强。在训练出的识别模型的准确率的人工基线均为92.1%的情形下,通过相关技术提供的数据增强策略得到的增强样本,所训练出的识别模型的准确率为92.3%,而通过本申请提供的数据增强策略得到的增强样本,所训练出的识别模型的准确率为96.1%,可见,通过本申请提供的数据增强策略所训练出的识别模型的准确率能够提高4%。并且,相关技术中搜索到最终的数据增强策略所使用的搜索时间为5000GPU小时,而本申请在搜索最终的数据增强策略的过程中,进行了分布式评估,且在评估过程中是基于预训练模型进行训练的,本申请搜索到最终的数据增强策略所使用搜索时间为114GPU小时,相比相关技术中的搜索时间节省了50倍。其中,识别模型的准确率和数据增强策略的搜索时间对比,如下表1所示。
表1
对比参数 人工基线 相关技术 本申请
准确率 92.1% 92.3% 96.1%
搜索时间 5000GPU小时 114GPU小时
图17是本申请实施例提供的一种数据增强装置的结构示意图,该装置1700包括:
获取模块1701,用于获取第一目标数据增强策略,所述第一目标数据增强策略用于指示数据增强操作的目标操作等级,一个目标操作等级用于指示一个操作强度变化区间;
增强模块1702,用于基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作,得到所述第一样本的多个目标增强样本。
在一种可能的实现方式中,对于所述第一样本中的任一数据,所述多个目标增强样本中所述任一数据出现任一种数据增强操作对应的变化,在所述任一种数据增强操作的目标强度等级所指示的操作强度变化区间内。
在一种可能的实现方式中,所述第一目标数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述第一目标数据增强策略基于多个数据增强策略确定,所述多个数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
在一种可能的实现方式中,所述多个数据增强策略由多个评估设备进行评估。
在一种可能的实现方式中,所述多个数据增强策略评估时所采用的第二样本的对象为同一个对象,或者为同一类型的对象。
在一种可能的实现方式中,所述任一种数据增强操作配置的多个操作等级基于所述任一种数据增强操作的目标操作强度变化范围得到,所述任一种数据增强操作的目标操作强度变化范围由配置设备进行配置。
可选地,所述装置1700还包括:
划分模块,用于对于所述多种数据增强操作中的任一种数据增强操作,将所述任一种数据增强操作对应的目标操作强度变化范围划分为多个操作强度变化区间;
配置模块,用于为所述多个操作强度变化区间中的每个操作强度变化区间配置操作等级。
可选地,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,所述任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述获取模块1701用于:
基于多个数据增强策略,确定所述第一目标数据增强策略,任一数据增强策略用于指示所述多种数据增强操作中每种数据增强操作的操作概率以及操作等级,任一种数据增强操作的操作概率为对第二样本进行所述任一种数据增强操作的概率。
可选地,所述获取模块1701包括:
选择子模块,用于基于所述多个数据增强策略的评估值,从所述多个数据增强策略中选择出多个第二目标数据增强策略,所述多个第二目标数据增强策略的评估值均高于所述多个数据增强策略中除所述多个第二目标数据增强策略以外的数据增强策略的评估值,所述任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
生成子模块,用于基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略。
可选地,所述生成子模块包括:
确定单元,用于基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级;
生成单元,用于基于确定出的所述多种数据增强操作的目标操作概率以及目标操作等级,生成所述第一目标数据增强策略。
可选地,所述确定单元包括:
聚类子单元,用于对于所述任一种数据增强操作,对所述多个第二目标数据增强策略中所述任一种数据增强操作的多个操作等级进行聚类,得到至少一个操作等级类别;
确定子单元,用于对于所述至少一个操作等级类别中的任一操作等级类别,基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率,所述第三目标数据增强策略为所述任一操作等级类别的操作等级所属的第二目标数据增强策略。
可选地,所述确定子单元包括:
第一确定元件,用于基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级;
第二确定元件,用于基于所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作概率。
可选地,所述第一确定元件用于:
确定所述任一操作等级类别中的最小操作等级以及最大操作等级;
将大于等于所述最小操作等级且小于等于所述最大操作等级的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
可选地,所述第一确定元件用于:
将所述任一操作等级类别中的各个操作等级,确定为所述任一种数据增强操作的目标操作等级。
可选地,所述任一种数据增强操作的目标操作概率为所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率的平均概率。
所述装置1700还包括:
迭代模块,用于基于初始数据增强策略进行迭代计算,得到所述多个数据增强策略。
可选地,所述迭代模块用于:
在第i次迭代计算的过程中,基于在前i-1次迭代计算过程中所确定出的数据增强策略以及所述初始数据增强策略中的各个数据增强策略,确定所述多个数据增强策略中的第i数据增强策略,其中,所述i为大于等于1或小于等于N的整数,所述i为迭代计算的总次数。
可选地,所述迭代模块包括:
第一预测子模块,用于对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作等级以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作等级,任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
第二预测子模块,用于对于所述任一种数据增强操作,基于所述各个数据增强策略中所述任一种数据增强操作的多个操作概率以及所述各个数据增强策略的多个评估值,预测所述第i数据增强策略中所述任一种数据增强操作的操作概率;
生成子模块,用于基于预测出的所述多种数据增强操作的操作等级以及操作概率,生成所述第i数据增强策略。
可选地,所述第一预测子模块用于:
基于所述多个操作等级以及所述多个评估值,确定所述任一种数据增强操作的操作等级所服从的多元高斯分布;
在所述任一种数据增强操作的操作等级所服从的多元高斯分布下,将令采集函数取最大值的操作等级确定为所述第i数据增强策略中所述任一种数据增强操作的操作等级。
可选地,所述第二预测子模块用于:
基于所述多个操作概率以及所述多个评估值,确定所述任一种数据增强操作的操作概率所服从的多元高斯分布;
在所述任一种数据增强操作的操作概率所服从的多元高斯分布下,将令采集函数取最大值的操作概率确定为所述第i数据增强策略中所述任一种数据增强操作的操作概率。
所述装置1700还包括:
得到模块,用于基于所述第i数据增强策略中所述多种数据增强操作的操作概率以及操作等级,对多个所述第二样本进行所述多种数据增强操作,得到所述多个第二样本的多个增强样本;
训练模块,用于基于所述多个增强样本训练得到第i识别模型;
目标获取模块,用于基于所述第i识别模型,获取所述第i数据增强策略的评估值。
可选地,所述训练模块用于:
基于所述多个增强样本,对预训练模型进行训练,得到所述第i识别模型,所述预训练模型由不同种类的多个对象的多个第三样本训练得到,所述预训练模型的精确度小于精确度阈值。
可选地,所述第一样本的对象与所述第二样本的对象属于同一种类,或所述第一样本的对象与所述第二样本的对象为同一对象。
可选地,所述装置1700还包括:
第一发送模块,用于向多个评估设备分别发送至少一个第i数据增强操作策略;
第一接收模块,用于从所述多个评估设备分别接收所述至少一个第i数据增强操作策略的评估值。
可选地,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述增强模块1702用于:
基于所述多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对所述第一样本进行所述多种数据增强操作,其中,所述任一种数据增强操作的目标操作概率的目标增强样本进行过所述任一种数据增强操作。
可选地,所述增强模块1702用于:
对于所述任一种数据增强操作,基于所述任一种数据增强操作的目标操作概率,在所述任一种数据增强操作的目标操作等级所指示的操作强度变化区间范围内,对所述第一样本进行所述任一种数据增强操作。
可选地,所述装置1700还包括:
第二接收模块,用于通过目标接口从应用节点获取所述第一样本;
第二发送模块,用于通过所述目标接口向所述应用节点发送所述多个目标增强样本。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的数据增强装置在进行数据增强时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据增强方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述数据增强方法。
需要说明的是,本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元、模块、芯片及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置、模块或者单元的具体工作过程,可以参考数据增强方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,装置内的模块或者模块中的单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的模块或者单元可以是或者也可以不是物理上分开的,作为模块或单元显示的部件可以是或者也可以不是物理模块或者物理单元,即可以位于一个地方,或者也可以分布到多个计算设备。可以根据实际的需要选择其中的部分或者全部模块或单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能模块或者单元可以集成在一个目标处理模块中,也可以是各个模块或者单元单独物理存在,也可以是两个或两个以上模块或者单元集成在一个目标处理模块中。上述集成的模块或者单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (21)

1.一种数据增强方法,其特征在于,由第一节点执行,所述方法包括:
获取第一目标数据增强策略,所述第一目标数据增强策略用于指示数据增强操作的目标操作等级,一个目标操作等级用于指示一个操作强度变化区间;
基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作,得到所述第一样本的多个目标增强样本。
2.根据权利要求1所述的方法,其特征在于,所述第一目标数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
3.根据权利要求1所述的方法,其特征在于,所述第一目标数据增强策略基于多个数据增强策略确定,所述多个数据增强策略基于配置的所述多种数据增强操作的多个操作等级搜索得到,任一种数据增强操作配置有多个操作等级,一个操作等级用于指示一个强度变化区间。
4.根据权利要求3所述的方法,其特征在于,所述多个数据增强策略由多个评估设备进行评估。
5.根据权利要求4所述的方法,其特征在于,所述多个数据增强策略评估时所采用的第二样本的对象为同一个对象,或者为同一类型的对象。
6.根据权利要求2-5任一项权利要求所述的方法,其特征在于,所述任一种数据增强操作配置的多个操作等级基于所述任一种数据增强操作的目标操作强度变化范围得到,所述任一种数据增强操作的目标操作强度变化范围由配置设备进行配置。
7.根据权利要求6所述的方法,其特征在于,所述任一种数据增强操作的配置过程包括:
将所述任一种数据增强操作的目标操作强度变化范围划分为多个操作强度变化区间;
为所述多个操作强度变化区间中的每个操作强度变化区间配置操作等级。
8.根据权利要求3所述的方法,其特征在于,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,所述任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述多个数据增强策略中的任一数据增强策略用于指示所述多种数据增强操作中每种数据增强操作的操作概率以及操作等级,任一种数据增强操作的操作概率为对第二样本进行所述任一种数据增强操作的概率。
9.根据权利要求8所述的方法,其特征在于,基于所述多个数据增强策略,确定所述第一目标数据增强策略包括:
基于所述多个数据增强策略的评估值,从所述多个数据增强策略中选择出多个第二目标数据增强策略,所述多个第二目标数据增强策略的评估值均高于所述多个数据增强策略中除所述多个第二目标数据增强策略以外的数据增强策略的评估值,所述任一数据增强策略的评估值用于指示基于所述任一数据增强策略得到的增强样本所训练出的识别模型的优劣程度;
基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略。
10.根据权利要求9所述的方法,其特征在于,所述基于所述多个第二目标数据增强策略,生成所述第一目标数据增强策略包括:
基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级;
基于确定出的所述多种数据增强操作的目标操作概率以及目标操作等级,生成所述第一目标数据增强策略。
11.根据权利要求10所述的方法,其特征在于,所述基于所述多个第二目标数据增强策略中所述多种数据增强操作的操作概率以及操作等级,确定所述多种数据增强操作的目标操作概率以及目标操作等级包括:
对于所述任一种数据增强操作,对所述多个第二目标数据增强策略中所述任一种数据增强操作的多个操作等级进行聚类,得到至少一个操作等级类别;
对于所述至少一个操作等级类别中的任一操作等级类别,基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率,所述第三目标数据增强策略为所述任一操作等级类别的操作等级所属的第二目标数据增强策略。
12.根据权利要求11所述的方法,其特征在于,所述基于所述任一操作等级类别中的操作等级、所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作强度以及目标操作概率包括:
基于所述任一操作等级类别中的操作等级,确定所述任一种数据增强操作的目标操作等级;
基于所述多个第二目标数据增强策略中的第三目标数据增强策略内所述任一种数据增强操作的操作概率,确定所述任一种数据增强操作的目标操作概率。
13.根据权利要求8-12任一项权利要求所述的方法,其特征在于,所述基于所述多个数据增强策略,确定所述第一目标数据增强策略之前,所述方法还包括:
基于初始数据增强策略进行迭代计算,得到所述多个数据增强策略。
14.根据权利要求13所述的方法,其特征在于,所述基于初始数据增强策略进行迭代计算包括:
在第i次迭代计算的过程中,基于在前i-1次迭代计算过程中所确定出的数据增强策略以及所述初始数据增强策略中的各个数据增强策略,确定所述多个数据增强策略中的第i数据增强策略,其中,所述i为大于等于1或小于等于N的整数,所述i为迭代计算的总次数。
15.根据权利要求14任一项权利要求所述的方法,其特征在于,所述确定所述多个数据增强策略中的第i数据增强策略之后,所述方法还包括:
基于所述第i数据增强策略中所述多种数据增强操作的操作概率以及操作等级,对多个所述第二样本进行所述多种数据增强操作,得到所述多个第二样本的多个增强样本;
基于所述多个增强样本训练得到第i识别模型;
基于所述第i识别模型,获取所述第i数据增强策略的评估值。
16.根据权利要求15所述的方法,其特征在于,所述基于所述多个增强样本训练得到第识别模型包括:
基于所述多个增强样本,对预训练模型进行训练,得到所述第i识别模型,所述预训练模型由不同种类的多个对象的多个第三样本训练得到,所述预训练模型的精确度小于精确度阈值。
17.根据权利要求1-16任一项权利要求所述的方法,其特征在于,所述第一目标数据增强策略还用于指示所述多种数据增强操作中每种数据增强操作的目标操作概率,任一种数据增强操作的目标操作概率为对所述第一样本进行所述任一种数据增强操作的概率;
所述基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作包括:
基于所述多种数据增强操作中每种数据增强操作的目标操作概率以及目标操作等级,对所述第一样本进行所述多种数据增强操作,其中,所述任一种数据增强操作的目标操作概率的目标增强样本进行过所述任一种数据增强操作。
18.根据权利要求1-17任一项权利要求所述的方法,其特征在于,所述方法还包括:
通过目标接口从应用节点获取所述第一样本;
通过所述目标接口向所述应用节点发送所述多个目标增强样本。
19.一种数据增强装置,其特征在于,所述装置包括:
获取模块,用于获取第一目标数据增强策略,所述第一目标数据增强策略用于指示数据增强操作的目标操作等级,一个目标操作等级用于指示一个操作强度变化区间;
增强模块,用于基于所述第一目标数据增强策略,在多种数据增强操作的目标操作等级所指示的操作强度变化区间内,对第一样本进行所述多种数据增强操作,得到所述第一样本的多个目标增强样本。
20.一种计算设备,其特征在于,所述计算设备包括处理器,所述处理器用于执行程序代码,使得所述计算设备执行如权利要求1至权利要求18中任一项所述的方法。
21.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器读取以使计算设备执行如权利要求1至权利要求18中任一项所述的方法。
CN202011606784.4A 2020-11-09 2020-12-30 数据增强方法、装置、计算设备以及计算机可读存储介质 Pending CN114462628A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21888178.7A EP4235525A4 (en) 2020-11-09 2021-06-29 METHOD AND APPARATUS FOR DATA ENHANCEMENT, COMPUTER DEVICE AND COMPUTER-READABLE STORAGE MEDIUM
PCT/CN2021/103015 WO2022095476A1 (zh) 2020-11-09 2021-06-29 数据增强方法、装置、计算设备以及计算机可读存储介质
US18/313,869 US20230273914A1 (en) 2020-11-09 2023-05-08 Data augmentation method and apparatus, computing device, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011237954 2020-11-09
CN2020112379546 2020-11-09

Publications (1)

Publication Number Publication Date
CN114462628A true CN114462628A (zh) 2022-05-10

Family

ID=81404373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011606784.4A Pending CN114462628A (zh) 2020-11-09 2020-12-30 数据增强方法、装置、计算设备以及计算机可读存储介质

Country Status (4)

Country Link
US (1) US20230273914A1 (zh)
EP (1) EP4235525A4 (zh)
CN (1) CN114462628A (zh)
WO (1) WO2022095476A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503737A (zh) * 2023-05-10 2023-07-28 中国人民解放军61646部队 基于空间光学图像的船舶检测方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117424813B (zh) * 2023-12-11 2024-03-22 北京云成金融信息服务有限公司 一种用于区块链的节点扩充方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120337B2 (en) * 2017-10-20 2021-09-14 Huawei Technologies Co., Ltd. Self-training method and system for semi-supervised learning with generative adversarial networks
CN110889457B (zh) * 2019-12-03 2022-08-19 深圳奇迹智慧网络有限公司 样本图像分类训练方法、装置、计算机设备和存储介质
CN111611790B (zh) * 2020-04-13 2022-09-16 华为技术有限公司 数据处理的方法与装置
CN111626342B (zh) * 2020-05-13 2023-07-18 Oppo广东移动通信有限公司 一种图像样本处理方法、装置及存储介质
CN111695624B (zh) * 2020-06-09 2024-04-16 北京市商汤科技开发有限公司 数据增强策略的更新方法、装置、设备及存储介质
CN111754494A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 小样本图像扩充方法、电子设备及存储介质
CN111832511A (zh) * 2020-07-21 2020-10-27 中国石油大学(华东) 一种增强样本数据的无监督行人重识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503737A (zh) * 2023-05-10 2023-07-28 中国人民解放军61646部队 基于空间光学图像的船舶检测方法和装置
CN116503737B (zh) * 2023-05-10 2024-01-09 中国人民解放军61646部队 基于空间光学图像的船舶检测方法和装置

Also Published As

Publication number Publication date
US20230273914A1 (en) 2023-08-31
EP4235525A4 (en) 2024-04-24
WO2022095476A1 (zh) 2022-05-12
EP4235525A1 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
Oliva et al. Metaheuristic algorithms for image segmentation: theory and applications
CN110728179A (zh) 一种采用多路卷积神经网络的猪脸识别方法
CN111639755B (zh) 一种网络模型训练方法、装置、电子设备及存储介质
CN110942012A (zh) 图像特征提取方法、行人重识别方法、装置和计算机设备
US20230273914A1 (en) Data augmentation method and apparatus, computing device, and computer-readable storage medium
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN110610143A (zh) 多任务联合训练的人群计数网络方法、系统、介质及终端
CN113283404B (zh) 行人属性识别方法、装置、电子设备及存储介质
CN111291773A (zh) 特征识别的方法及装置
CN113569895A (zh) 图像处理模型训练方法、处理方法、装置、设备及介质
Tan et al. Rapid fine-grained classification of butterflies based on FCM-KM and mask R-CNN fusion
US11495020B2 (en) Systems and methods for stream recognition
CN111222546A (zh) 一种多尺度融合的食品图像分类模型训练及图像分类方法
Goyal et al. Leaf Bagging: A novel meta heuristic optimization based framework for leaf identification
García-Lamont et al. Color image segmentation using saturated RGB colors and decoupling the intensity from the hue
CN111598000A (zh) 基于多任务的人脸识别方法、装置、服务器和可读存储介质
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
Zhang et al. WOA-DBSCAN: Application of Whale Optimization Algorithm in DBSCAN Parameter Adaption
CN113837062A (zh) 一种分类方法、装置、存储介质及电子设备
CN113704528A (zh) 聚类中心确定方法、装置和设备及计算机存储介质
CN111414922B (zh) 特征提取方法、图像处理方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination