CN110717529A - 一种数据采样方法及装置 - Google Patents

一种数据采样方法及装置 Download PDF

Info

Publication number
CN110717529A
CN110717529A CN201910911876.4A CN201910911876A CN110717529A CN 110717529 A CN110717529 A CN 110717529A CN 201910911876 A CN201910911876 A CN 201910911876A CN 110717529 A CN110717529 A CN 110717529A
Authority
CN
China
Prior art keywords
network
sample
samples
weight
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910911876.4A
Other languages
English (en)
Other versions
CN110717529B (zh
Inventor
周博言
崔权
宋仁杰
赵博睿
陈钊民
谢烟平
魏秀参
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Kuang Shi Data Technology Co Ltd
Nanjing Kuanyun Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Xuzhou Kuang Shi Data Technology Co Ltd
Nanjing Kuanyun Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Kuang Shi Data Technology Co Ltd, Nanjing Kuanyun Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Xuzhou Kuang Shi Data Technology Co Ltd
Priority to CN201910911876.4A priority Critical patent/CN110717529B/zh
Publication of CN110717529A publication Critical patent/CN110717529A/zh
Application granted granted Critical
Publication of CN110717529B publication Critical patent/CN110717529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别技术领域,解决目前解决训练数据集存在长尾问题的数据采样方法,从网络训练开始至结束,每一次网络训练过程中,训练样本相同,进而导致网络对特征学习不全面的问题,本发明提供一种数据采样方法及装置,该方法包括:获取网络当前迭代轮次;基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本。通过网络迭代轮次的增加,训练数据集中的样本权重均增加,但是尾部类样本权重增加幅度大,尾部类样本被选择为训练样本的概率增加,可有效缓解从长尾问题,网络特征学习效果好。

Description

一种数据采样方法及装置
技术领域
本发明一般地涉及图像识别技术领域,特别是涉及一种数据采样方法及装置。
背景技术
数据采样,即从训练数据集中选择部分或全部图片作为图像识别网络训练时的训练样本。目前图像识别网络训练过程中使用的训练数据集大多数存在长尾问题。长尾问题为,小部分类别样本包含训练数据集的样本数量多,称为头部类样本,大部分类别样本包含训练数据集的样本数量少,称为尾部类样本。基于存在长尾问题的训练数据集进行数据采样,数据采样过程中往往采样头部类样本,作为图像识别网络训练的训练样本,因此训练后的网络倾向于将样本预测为头部类。
目前解决长尾问题主要方式为,对训练数据集的每一类别的样本均衡采样,或为训练数据集的每一个样本设置一个固定被采样概率,被采样概率为权重,即为训练数据集的每一个样本设置一个固定权重。上述解决存在长尾问题的数据采样方法,从网络训练开始至网络训练结束,每一次网络迭代过程中,采样的样本相同,所以网络训练的训练样本相同,进而导致网络对特征学习不全面,图像识别准确率低。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种数据采样方法及装置。
第一方面,本发明实施例提供一种数据采样方法,包括:获取网络当前迭代轮次;基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,其中,随着网络当前迭代轮次的增加,尾部类样本权重逐步增加;根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,样本权重越大,被采样的概率越大。
在一例中,基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,通过样本权重更新函数得到,样本权重更新函数公式为:
Figure BDA0002214971250000021
其中,w为更新后的每类样本的样本权重,α为预设参数,Nmax为每类样本中的最大样本数,Ni为每类样本的样本数,M为网络迭代总轮次,j为网络当前迭代轮次。
在一例中,根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本,包括:查找更新后的每类样本的样本权重中的最大权重;根据最大权重,得到权重阈值;随机选择训练数据集中的样本,若随机选择的样本权重大于或等于权重阈值,将随机选择的样本,作为目标样本。
在一例中,根据最大权重,得到权重阈值,包括:最大权重与一个随机数的乘积作为权重阈值,其中,随机数为在0至1之间的随机数。
在一例中,第一方面的数据采样方法还包括:判断当前采样的样本数量是否小于设定数量,若当前采样的样本数量小于设定数量,继续随机选择训练数据集中的样本,计算随机选择的样本权重阈值,将权重大于或等于权重阈值的随机选择的样本,作为目标样本,若当前采样的样本数量大于或等于设定数量,停止采样。
在一例中,第一方面的数据采样方法还包括:统计训练数据集的样本类别及每类样本的样本数。
第二方面,本发明提供一种图像识别网络训练方法,包括:基于第一方面的数据采样方法,采样网络训练样本;利用训练样本训练网络;判断网络当前迭代的轮次是否达到网络迭代总次数,若网络当前迭代的轮次达到网络迭代总次数,完成网络的训练,若网络当前迭代的轮次未达到网络迭代总次数,执行第一方面的数据采样方法,得到下一轮次网络训练样本。
第三方面,本发明提供一种图像识别方法,包括:输入待识别样本至网络,其中,网络为通过第二方面的图像识别网络训练方法训练后的网络;通过网络,得到待识别样本中每个样本所属的类别。
第四方面,本方面提供一种数据采样装置,包括:获取单元,用于获取网络当前迭代轮次;更新单元,用于基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,其中,随着网络当前迭代轮次的增加,尾部类样本权重逐步增加;第一采样单元,用于根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,样本权重越大,被采样的概率越大。
第五方面,本发明提供一种图像识别网络训练装置,包括:第二采样单元,用于基于第一方面的数据采样方法,采样网络训练样本;训练单元,用于利用训练样本训练网络;第二判断单元,用于判断网络当前迭代的轮次是否达到网络迭代总次数,若网络当前迭代的轮次达到网络迭代总次数,完成网络的训练,若网络当前迭代的轮次未达到网络迭代总次数,执行第一方面的数据采样方法,得到下一轮次网络训练样本。
第六方面,本发明提供一种图像识别装置,包括:输入单元,用于输入待识别样本至网络,其中,网络为通过第二方面的图像识别网络训练方法训练后的网络;识别单元,用于通过网络,得到待识别样本中每个样本所属的类别。
第七方面,本发明实施例提供一种电子设备,其中,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面所述的一种数据采样方法或第二方面所述的一种图像识别网络训练方法或第三方面所述的一种图像识别方法。
第八方面,本发明实施例提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行第一方面所述的一种数据采样方法或第二方面所述的一种图像识别网络训练方法或第三方面所述的一种图像识别方法。
本发明提供的一种数据采样方法及装置,基于迭代轮次的增加,训练数据集中的样本权重均增加,但是尾部类样本权重增加幅度相比于头部类样本增加幅度大,进而渐进式的增大尾部类样本被选择为训练样本的概率,可渐进式的平衡头部类样本、尾部类样本的权重。在保证网络对头部类样本特征的学习效果的同时,有效缓解训练数据集长尾问题而导致网络特征学习结果偏向于头部类样本的情况,可更好的平衡头部类样本、尾部类样本的权重,网络训练效果好。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了本发明实施例提供的一种数据采样方法示意图;
图2示出了本发明实施例提供的第二种数据采样方法示意图;
图3示出了本发明实施例提供的第三种数据采样方法示意图;
图4示出了本发明实施例提供的第四种数据采样方法示意图;
图5示出了本发明实施例提供的一种图像识别网络训练方法示意图;
图6示出了本发明实施例提供的一种图像识别方法示意图;
图7示出了本发明实施例提供的一种数据采样装置示意图;
图8示出了本发明实施例提供的另一种数据采样装置示意图;
图9示出了本发明实施例提供的又一种数据采样装置示意图;
图10示出了本发明实施例提供的一种图像识别网络训练装置示意图;
图11示出了本发明实施例提供的一种图像识别装置示意图;
图12示出了本发明实施例提供的一种电子设备示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
目前,解决长尾问题主要方式为,对训练数据集的每一类别的样本均衡采样,或为训练数据集的每一个样本设置一个固定权重。上述解决长尾问题的方法,从网络训练开始至网络训练结束,网络每一次迭代过程中,每个样本权重固定,即每个样本被采样的概率相同,可理解为每一次采样的样本相同,所以网络每一次训练的训练样本相同,进而导致网络对特征学习不充分,图像识别准确率低。另外,若尾部类样本的权重设置过小,长尾问题不能很好的解决,若尾部类样本的权重设置过大,造成网络对头部类样本的特征学习效果减弱,即网络对头部类样本特征学习不充分。因此,平衡头部类样本、尾部类样本的权重,是解决训练数据集存在长尾问题的关键。其中,训练数据集可为图片等任意类型的数据集。
本公开提供的数据采样方法,数据采样的过程中对网络没有限制,可使用任何网络结构的网络,如深度神经网络等,本公开不做具体限定。
图1为本公开实施例示出的一种数据采样方法的示意图,如图1所示,该方法包括步骤S101至步骤S103。
在步骤S101中,获取网络当前迭代轮次。
在本公开中,在训练网络之前预先设定网络迭代轮次。
在本公开中,获取网络当前迭代轮次的目的为:首先基于网络当前迭代轮次判断网络训练是否完成。其次,基于网络当前迭代轮次为每类样本的权重更新做准备。
在步骤S102中,基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重。
在本公开中,随着网络迭代轮次的增加,样本权重会增加,尾部类样本权重增加幅度相比于头部类样本权重增加幅度大,进而渐进式增加尾部类样本被选择为训练样本的概率。
在步骤S103中,根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本。
在本公开中,样本权重越大,被采样为目标样本的概率越大。
在本公开中,在网络每一迭代轮次中,选择的目标样本保存在采样池中,采样池中的目标样本的集合,即为网络当前迭代轮次中网络的训练样本。
基于本公开提供的数据采样方法,通过迭代轮次的增加,训练数据集中的样本权重均增加,但是尾部类样本权重增加幅度相比于头部类样本增加幅度大,进而渐进式的增大尾部类样本被选择为训练样本的概率,可渐进式的平衡头部类样本、尾部类样本的权重。在保证网络对头部类样本特征的学习效果的同时,有效缓解训练数据集长尾问题而导致网络特征学习结果偏向于头部类样本的问题。可更好的平衡头部类样本、尾部类样本的权重,网络训练效果好。
在本公开提供的一种实施方式中,基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,通过样本权重更新函数得到,样本权重更新函数公式为:
其中,w为更新后的每类样本的样本权重。α为超参数,通常设置为1。Nmax为每类样本中的最大样本数。Ni为每类样本的样本数。M为网络迭代总轮次,网络迭代总轮次为预先设定。j为网络当前迭代轮次。
基于样本权重更新函数公式,在网络第一次迭代时,训练数据集的每个样本权重均为α,可理解为在网络第一次迭代时,每个样本的权重相同,即训练数据集中每个样本被选择为训练样本的概率相同,此时训练数据集中的每个样本均被选择为训练样本,能够让网络特征学习较全面。由于头部类样本数多、尾部类样本数少,可得到头部类样本的
Figure BDA0002214971250000062
的比值小于尾部类样本的的比值。且随着网络迭代轮次j逐渐增大,使得
Figure BDA0002214971250000064
的比值越大,进而尾部类样本的的值大于头部类样本的
Figure BDA0002214971250000066
的值。由此可知,从网络第一次迭代开始,尾部类样本权重等于头部类样本权重,随着网络迭代轮次的增加,尾部类样本权重和头部类样本权重均增加,但是尾部类样本权重的增长速度高于头部类样本权重的增长速度。因此,在保证网络对于头部类样本的学习效果的同时,尾部类样本被选择为训练样本的概率增加,进而平衡头部类样本、尾部类样本的权重,从而使得网络特征学习效果好。
在本公开提供的一种实施方式中,根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本,包括:查找更新后的每类样本的样本权重中的最大权重。根据最大权重,得到本次迭代的权重阈值。随机选择训练数据集中的样本,若随机选择的样本的权重大于或等于权重阈值,采样随机选择的样本,作为目标样本。
在本公开中,网络每一迭代轮次中,均重新确定最大权重,基于最大权重确定本次迭代过程的权重阈值。
基于本公开提供的第二种实施方式,得到图2示出的本公开实施例第二种数据采样方法示意图,如图2所示,该方法包括步骤S201至步骤S205。图2所示的数据采样方法中,步骤S201、步骤S202,与图1所示数据采样方法中的步骤S101、步骤S102分别相同,在此处不再赘述。
在步骤S203中,查找更新后的每类样本的样本权重中的最大权重。
在本公开中,网络每一迭代轮次中,查找网络当前迭代轮次中更新后的所有样本中样本权重的最大权重,最大权重在网络每一次迭代过程中,会存在差异。
在步骤S204中,根据最大权重,得到权重阈值。
在本公开中,最大权重与一个随机数的乘积作为权重阈值,其中,随机数为在均匀分布X~U(0,1)中产生一个随机数,或在0至1之间随机选择的数。
在步骤S205中,随机选择训练数据集中的样本,若随机选择的样本的权重大于或等于权重阈值,采样随机选择的样本,作为目标样本。
在本公开中,随机选择训练数据集中的一个样本,若随机选择的一个样本的权重大于或等于权重阈值,采样随机选择的一个样本,作为目标样本,通过数据采样计算公式实现,数据采样计算公式为:
wmax*x≤wi
在数据采样计算公式中,wmax为最大权重,X为随机数,wi为在训练数据集中随机选择的一个样本的权重。只有当在训练数据集中随机选择的样本的权重大于或等于最大权重与随机数的乘积时,随机选择的样本才可作为目标样本,并基于目标样本的集合作为网络的训练样本,训练网络。
基于本公开实施例第二种数据采样方法,随着网络迭代轮次的增加,尾部类样本权重增加幅度高于头部类样本权重增加幅度,则尾部类样本中满足数据采样计算公式的个数会增加,使得网络选择尾部类样本作为训练样本的数量增加,网络对于尾部类样本的特征学习效果提高,进而使得网络特征学习效果好。
图3为本公开实施例示出的第三种数据采样方法示意图,如图3所示,该方法包括步骤S301至步骤S306。图3所示的数据采样方法中,步骤S301、步骤S302、步骤S303、步骤S304、步骤S305,与图2所示数据采样方法中的步骤S201、步骤S202、步骤S203、步骤S204分别相同,在此处不再赘述。
在步骤S306中,判断当前采样的样本数量是否小于设定数量,若当前采样的样本数量小于设定数量,继续随机选择训练数据集中的样本,计算随机选择的样本权重阈值,将权重大于或等于权重阈值的随机选择的样本,作为目标样本,若当前采样的样本数量大于或等于设定数量,停止采样。
在本公开中,在网络当前迭代轮次中,同一样本可被多次选择为目标样本。
在本公开中,目标样本采样数量通常设定为训练数据集中样本数或训练数据集中样本数的两倍。例如训练数据集数据中样本数为5000,则可设定采样目标样本数为10000个。若网络当前迭代轮次中,采样的目标样本数满足10000个,则停止采样目标样本。若采样的目标样本数未达到设定的10000个,继续随机选择训练数据集中的样本,采样权重大于或等于权重阈值的随机选择的样本,作为目标样本。
基于步骤S306的判断步骤,可统一网络每一次迭代中数据采样的目标样本数量。避免网络每次迭代中目标样本数量不统一,即训练样本数量不统一而影响网络特征学习效果。
图4为本公开实施例示出的第四种数据采样方法示意图,如图4所示,该方法包括步骤S401至步骤S407。图4所示的数据采样方法中,步骤S402、步骤S403、步骤S404、步骤S405、步骤S406及步骤S407,与图3所示数据采样方法中的步骤S301、步骤S302、步骤S303、步骤S304、步骤S305及步骤S306分别相同,在此处不再赘述。
在步骤S401中,统计训练数据集的样本类别及每类样本的样本数。
统计训练数据集的样本类别及每类样本的样本数,为网络每次迭代中更新每个样本的样本权重做准备工作。
图5为本公开实施例示出的一种图像识别网络训练方法的示意图,如图5所示,该方法包括步骤S501至步骤S503。
在步骤S501中,基于数据采样方法,采样网络训练样本。
在步骤S502中,利用训练样本训练网络。
在步骤S503中,判断网络当前迭代的轮次是否达到网络迭代总次数。
在本公开中,若网络当前迭代的轮次达到网络迭代总次数,完成网络的训练,若网络当前迭代的轮次未达到网络迭代总次数,执行步骤S501。
基于数据采样方法采样的样本作为训练样本,完成网络的训练,使网络特征学习效果好,缓解了训练数据集的长尾问题对网络特征学习效果的影响。
图6为本公开实施例示出的一种图像识别方法的示意图,如图6所示,该方法包括步骤S601至步骤S602。
在步骤S601中,输入待识别样本至网络。
在本公开中,网络为经过图像识别网络训练方法训练后的网络。
在步骤S602中,通过网络,得到待识别样本中每个样本所属的类别。
基于经过图像识别网络训练方法训练后的网络进行图形识别,对待识别样本进行图像识别的准确率高。
表1为在相同网络结构、损失函数的设置下,基于本公开提供的数据采样方法采样的目标样本,经过采样的目标样本作为训练样本,基于训练样本训练后的网络进行图像识别的识别准确率,与普通数据采样方法、均衡数据采样方法采样的训练样本训练后网络进行图像的识别准确率比较,结果如表1所示。
表1各数据采样方法在相同数据集上的识别准确率
采样方法 识别准确率
普通数据采样方法 83.25%
均衡数据采样方法 84.14%
本公开的数据采样方法 85.28%
由表1可看出,利用本公开提供的数据采样方法训练后的网络进行图像识别,相比于普通数据采样方法、均衡数据采样方法的图像识别准确率分别高出2.03%、1.14%。
基于与一种数据采样方法相同的发明构思,本公开实施例提供一种数据采样装置。图7示出了本公开实施例提供的一种数据采样装置的示意图。如图7所示,一种数据采样装置包括:
获取单元110,用于获取网络当前迭代轮次。
更新单元120,用于基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,其中,随着网络当前迭代轮次的增加,尾部类样本权重逐步增加。
第一采样单元130,用于根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,样本权重越大,被采样的概率越大。
在本公开一实施方式中,更新单元120通过样本权重更新函数,基于网络当前迭代轮次及每类样本的样本数,更新每类样本的样本权重,样本权重更新函数公式为:
Figure BDA0002214971250000101
其中,w为更新后的每类样本的样本权重,α为预设参数,Nmax为每类样本中的最大样本数,Ni为每类样本的样本数,M为网络迭代总轮次,j为网络当前迭代轮次。
在本公开一实施方式中,第一采样单元130采用如下方式根据更新后的每类样本的样本权重,采样符合预设条件的样本,作为目标样本:
查找更新后的每类样本的样本权重中的最大权重。
根据最大权重,得到权重阈值。
随机选择训练数据集中的样本,若随机选择的样本权重大于或等于权重阈值,将随机选择的样本,作为目标样本。
在本公开一实施方式中,第一采样单元130采用如下方式根据最大权重,得到权重阈值:
最大权重与一个随机数的乘积作为权重阈值,其中,随机数为在0至1之间的随机数。
在本公开一实施方式中,图8示出了本公开实施例提供的另一种数据采样装置的示意图。如图8所示,一种数据采样装置还包括:
第一判断单元140,用于判断当前采样的样本数量是否小于设定数量,若当前采样的样本数量小于设定数量,继续随机选择训练数据集中的样本,计算随机选择的样本权重阈值,将权重大于或等于权重阈值的随机选择的样本,作为目标样本,若当前采样的样本数量大于或等于设定数量,停止采样。
本公开一实施方式中,图9示出了本公开实施例提供的又一种数据采样装置的示意图。如图9所示,一种数据采样装置还包括:
统计单元150,用于统计训练数据集的样本类别及每类样本的样本数。
基于与一种图像识别网络训练方法相同的发明构思,本公开实施例提供一种图像识别网络训练装置。图10示出了本公开实施例提供的一种图像识别网络训练装置的示意图。如图10所示,一种图像识别网络训练装置包括:
第二采样单元210,基于数据采样方法,采样网络训练样本。
训练单元220,用于利用训练样本训练网络。
第二判断单元230,用于判断网络当前迭代的轮次是否达到网络迭代总次数,若网络当前迭代的轮次达到网络迭代总次数,完成网络的训练,若网络当前迭代的轮次未达到网络迭代总次数,执行数据采样方法,得到下一轮次网络训练样本。
基于与一种图像识别方法相同的发明构思,本公开实施例提供一种图像识别装置。图11示出了本公开实施例提供的一种图像识别装置的示意图。如图11所示,一种图像识别装置包括:
输入单元310,用于输入待识别样本至网络,其中,网络为通过一种图像识别网络训练方法训练后的网络。
识别单元320,用于通过网络,得到待识别样本中每个样本所属的类别。
装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
如图12所示,本发明的一个实施方式提供了一种电子设备40。其中,该电子设备40包括存储器410、处理器420、输入/输出(Input/Output,I/O)接口430。其中,存储器410,用于存储指令。处理器420,用于调用存储器410存储的指令执行本发明实施例的用于一种数据采样方法或一种图像识别网络训练方法或一种图像识别方法。其中,处理器420分别与存储器410、I/O接口430连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器410可用于存储程序和数据,包括本发明实施例中涉及的用于一种数据采样方法或一种图像识别网络训练方法或一种图像识别方法的程序,处理器420通过运行存储在存储器410的程序从而执行电子设备40的各种功能应用以及数据处理。
本发明实施例中处理器420可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器420可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器410可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口430可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备40的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口430可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。

Claims (11)

1.一种数据采样方法,其中,所述方法包括:
获取网络当前迭代轮次;
基于所述网络当前迭代轮次及每类样本的样本数,更新所述每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;
根据更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,所述样本权重越大,被采样的概率越大。
2.根据权利要求1所述的方法,其中,所述基于所述网络当前迭代轮次及所述每类样本的样本数,更新所述每类样本的样本权重,通过样本权重更新函数得到,所述样本权重更新函数公式为:
Figure FDA0002214971240000011
其中,w为更新后的所述每类样本的样本权重,α为预设参数,Nmax为每类样本中的最大样本数,Ni为所述每类样本的样本数,M为网络迭代总轮次,j为所述网络当前迭代轮次。
3.根据权利要求1或2所述的方法,其中,所述根据所述更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,包括:
查找更新后的所述每类样本的样本权重中的最大权重;
根据所述最大权重,得到权重阈值;
随机选择训练数据集中的样本,若随机选择的样本权重大于或等于所述权重阈值,将所述随机选择的样本,作为目标样本。
4.根据权利要求3所述的方法,其中,所述根据所述最大权重,得到权重阈值,包括:
所述最大权重与一个随机数的乘积作为所述权重阈值,其中,所述随机数为在0至1之间的随机数。
5.根据权利要求4所述的方法,其中,所述方法还包括
判断当前采样的样本数量是否小于设定数量,若当前采样的样本数量小于设定数量,继续随机选择所述训练数据集中的样本,计算所述随机选择的样本权重阈值,将权重大于或等于所述权重阈值的所述随机选择的样本,作为目标样本,若当前采样的样本数量大于或等于设定数量,停止采样。
6.根据权利要求4或5所述的方法,其中,所述方法还包括:
统计所述训练数据集的样本类别及所述每类样本的样本数。
7.一种图像识别网络训练方法,其中,所述方法包括:
基于权利要求1至6中任一项所述的数据采样方法,采样网络训练样本;
利用所述训练样本训练所述网络;
判断所述网络当前迭代的轮次是否达到所述网络迭代总次数,若所述网络当前迭代的轮次达到所述网络迭代总次数,完成所述网络的训练,若所述网络当前迭代的轮次未达到所述网络迭代总次数,执行所述基于权利要求1至6中任一项所述的数据采样方法,得到下一轮次网络训练样本。
8.一种图像识别方法,其中,所述方法包括:
输入待识别样本至网络,其中,所述网络为通过权利要求7所述的图像识别网络训练方法训练后的网络;
通过所述网络,得到所述待识别样本中每个样本所属的类别。
9.一种数据采样装置,其中,所述装置包括:
获取单元,用于获取网络当前迭代轮次;
更新单元,用于基于所述网络当前迭代轮次及每类样本的样本数,更新所述每类样本的样本权重,其中,随着所述网络当前迭代轮次的增加,尾部类样本权重逐步增加;
采样单元,用于根据所述更新后的所述每类样本的样本权重,采样符合预设条件的样本,作为目标样本,其中,所述样本权重越大,被采样的概率越大。
10.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-6中任一项所述的一种数据采样方法或权利要求7所述的一种图像识别网络训练方法或权利要求8所述的一种图像识别方法。
11.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-6中任一项所述的一种数据采样方法或权利要求7所述的一种图像识别网络训练方法或权利要求8所述的一种图像识别方法。
CN201910911876.4A 2019-09-25 2019-09-25 一种数据采样方法及装置 Active CN110717529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910911876.4A CN110717529B (zh) 2019-09-25 2019-09-25 一种数据采样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910911876.4A CN110717529B (zh) 2019-09-25 2019-09-25 一种数据采样方法及装置

Publications (2)

Publication Number Publication Date
CN110717529A true CN110717529A (zh) 2020-01-21
CN110717529B CN110717529B (zh) 2022-09-30

Family

ID=69210874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910911876.4A Active CN110717529B (zh) 2019-09-25 2019-09-25 一种数据采样方法及装置

Country Status (1)

Country Link
CN (1) CN110717529B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931768A (zh) * 2020-08-14 2020-11-13 中国科学院重庆绿色智能技术研究院 一种自适应样本分布的车辆识别方法及系统
CN112348110A (zh) * 2020-11-18 2021-02-09 北京市商汤科技开发有限公司 模型训练及图像处理方法、装置、电子设备和存储介质
WO2022166325A1 (zh) * 2021-02-05 2022-08-11 华为技术有限公司 多标签的类均衡方法及其装置
CN118378164A (zh) * 2024-06-21 2024-07-23 广汽埃安新能源汽车股份有限公司 一种车辆故障预测方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108242A1 (en) * 2001-12-08 2003-06-12 Conant Stephen W. Method and apparatus for processing data
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN105787046A (zh) * 2016-02-28 2016-07-20 华东理工大学 一种基于单边动态下采样的不平衡数据分类系统
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
CN108565004A (zh) * 2018-04-24 2018-09-21 吉林大学 一种引入Adaboost概率矩阵分解糖尿病个性化饮食推荐方法
CN109102077A (zh) * 2018-07-05 2018-12-28 杭州电子科技大学 一种在线高维不平衡流数据的学习方法
CN109472302A (zh) * 2018-10-29 2019-03-15 中国石油大学(华东) 一种基于AdaBoost的支持向量机集成学习方法
US20190095704A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108242A1 (en) * 2001-12-08 2003-06-12 Conant Stephen W. Method and apparatus for processing data
CN103337028A (zh) * 2013-06-21 2013-10-02 中国科学院深圳先进技术研究院 一种推荐方法、装置
CN105787046A (zh) * 2016-02-28 2016-07-20 华东理工大学 一种基于单边动态下采样的不平衡数据分类系统
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
US20190095704A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption
CN108565004A (zh) * 2018-04-24 2018-09-21 吉林大学 一种引入Adaboost概率矩阵分解糖尿病个性化饮食推荐方法
CN109102077A (zh) * 2018-07-05 2018-12-28 杭州电子科技大学 一种在线高维不平衡流数据的学习方法
CN109472302A (zh) * 2018-10-29 2019-03-15 中国石油大学(华东) 一种基于AdaBoost的支持向量机集成学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIN CUI 等: "Class-Balanced Loss Based on Effective Number of Samples", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
陈圣灵 等: "基于样本权重更新的不平衡数据集成学习方法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931768A (zh) * 2020-08-14 2020-11-13 中国科学院重庆绿色智能技术研究院 一种自适应样本分布的车辆识别方法及系统
CN112348110A (zh) * 2020-11-18 2021-02-09 北京市商汤科技开发有限公司 模型训练及图像处理方法、装置、电子设备和存储介质
CN112348110B (zh) * 2020-11-18 2022-10-04 北京市商汤科技开发有限公司 模型训练及图像处理方法、装置、电子设备和存储介质
WO2022166325A1 (zh) * 2021-02-05 2022-08-11 华为技术有限公司 多标签的类均衡方法及其装置
CN118378164A (zh) * 2024-06-21 2024-07-23 广汽埃安新能源汽车股份有限公司 一种车辆故障预测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN110717529B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN110717529B (zh) 一种数据采样方法及装置
WO2020239015A1 (zh) 一种图像识别、分类方法、装置、电子设备及存储介质
CN107704625B (zh) 字段匹配方法和装置
CN111260032A (zh) 神经网络训练方法、图像处理方法及装置
CN108234347B (zh) 一种提取特征串的方法、装置、网络设备及存储介质
CN112151035B (zh) 一种语音控制方法、装置、电子设备及可读存储介质
WO2021093096A1 (zh) 图像分类模型训练方法、图像处理方法及装置
WO2019169704A1 (zh) 一种数据分类方法、装置、设备及计算机可读存储介质
CN109583561B (zh) 一种深度神经网络的激活量量化方法及装置
CN109426655B (zh) 数据分析方法、装置、电子设备及计算机可读存储介质
CN110059804B (zh) 数据处理方法及装置
CN109215630A (zh) 实时语音识别方法、装置、设备及存储介质
WO2015192798A1 (zh) 主题挖掘方法和装置
CN111159557A (zh) 一种热点信息获取方法、装置、服务器及介质
JP2022541370A (ja) データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体
CN111242158A (zh) 神经网络训练方法、图像处理方法及装置
CN110334104B (zh) 一种榜单更新方法、装置、电子设备及存储介质
CN111008299A (zh) 语音数据库的质量评估方法、装置及计算机存储介质
CN111062209A (zh) 自然语言处理模型训练方法和自然语言处理模型
CN111178498B (zh) 一种股票波动预测方法及装置
CN106297807A (zh) 训练声纹识别系统的方法和装置
CN113066486B (zh) 数据识别方法、装置、电子设备和计算机可读存储介质
CN110705889A (zh) 一种企业筛选方法、装置、设备及存储介质
CN108491451B (zh) 一种英文阅读文章推荐方法、装置、电子设备及存储介质
CN108959237B (zh) 一种文本分类方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant