CN112529029A - 信息处理方法、神经网络的训练方法、装置及存储介质 - Google Patents

信息处理方法、神经网络的训练方法、装置及存储介质 Download PDF

Info

Publication number
CN112529029A
CN112529029A CN201911083136.2A CN201911083136A CN112529029A CN 112529029 A CN112529029 A CN 112529029A CN 201911083136 A CN201911083136 A CN 201911083136A CN 112529029 A CN112529029 A CN 112529029A
Authority
CN
China
Prior art keywords
sample
samples
class
neural network
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911083136.2A
Other languages
English (en)
Other versions
CN112529029B (zh
Inventor
陈雷
阿米尔·卡吉斯塔·加拉希卡勒
王君
朱雄威
应江勇
姜奕祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112529029A publication Critical patent/CN112529029A/zh
Application granted granted Critical
Publication of CN112529029B publication Critical patent/CN112529029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种信息处理方法、神经网络的训练方法、装置及计算机可读存储介质,信息处理方法包括:获取包括多个带有标签的样本的初始样本集;确定该多个带有标签的样本中每个样本的冗余权重,该多个带有标签的样本中第一样本的冗余权重与该第一样本的类间相似度相关;根据样本的冗余权重从该初始样本集中去除部分样本以得到精简样本集,该第一样本的冗余权重越小,其被选入该精简样本集的可能性越高,由于其他类别的样本的数目通常远大于所属类别内的样本的数目,因此,类间相似度能够体现初始样本集中更多样本的信息,基于本申请样本冗余权重的确定方法得到精简样本集,对神经网络进行训练,有利于提高神经网络的测试精度和训练效率。

Description

信息处理方法、神经网络的训练方法、装置及存储介质
本申请要求于2019年9月18日提交中国专利局、申请号为201910883302.0、发明名称为“信息处理方法、神经网络的训练方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及信息处理领域,尤其涉及一种信息处理方法、神经网络的训练方法、装置 及计算机可读存储介质。
背景技术
随着神经网络性能的不断提升,神经网络的深度和计算复杂度也在不断提升,从而导 致神经网络的训练时长也不断增加。目前大部分神经网络是利用全量的样本集进行训练, 样本数目过多,训练时长过长。为了缩短训练时长,现有技术提出从样本集中去除部分样 本,基于得到的精简后的样本集训练神经网络。对于同一样本集,从样本集中去除的样本 不同,训练得到的神经网络模型的测试精度和/或训练时长不同,这表明样本集中不同样 本对训练神经网络的重要性一般不同。为了保证神经网络模型的测试精度,现有技术提出 根据样本对训练神经网络的重要性来对样本集进行精简,一般用样本的权重信息或冗余权 重来衡量该样本对训练神经网络的重要性,从样本集中去除冗余权重较高的样本,能够保 证训练得到的神经网络模型的测试精度,而从样本集中去除冗余权重较低的样本,容易降 低训练得到的神经网络模型的测试精度。
对样本集中样本的冗余权重的确定方法决定着训练神经网络所采用的样本,进而影响 着训练得到的神经网络的测试精度。现有技术提出以样本与所属类别中其他样本的相似度 作为样本的冗余权重,从样本集中去除冗余权重较高的部分样本,形成精简后的样本集。
现有对样本集的精简方法中,冗余权重的确定仅考虑了同一类别内样本间的相似度, 而单个类别内样本的数目通常远小于样本集中样本的数目,同一类别内样本间的相似度仅 能体现样本集中少量样本的信息,根据同一类别内样本间的相似度确定的冗余权重不够准 确,导致基于现有精简方法得到的精简样本集对神经网络进行训练,测试精度较低。
发明内容
为解决上述技术问题,下面通过不同的方面示例性地介绍本申请提供的方案,应理解 的是,以下各个方面的实现方式和有益效果可互相参考。
本申请实施例第一方面提供一种信息处理方法,包括:获取样本集(为了便于区分, 可以将该样本集称作初始样本集),所述初始样本集包括多个带有标签的样本,其中,一 个样本携带的标签用于标识该样本的类别,样本集中的样本可以为图像、声音、文本等类 型的样本。多个带有标签的样本中的一个样本(称作第一样本)为例,第一样本的标签用于标识所述第一样本所属的类别;可以根据第一样本的类间相似度确定第一样本的冗余权重,第一样本的冗余权重与第一样本的类间相似度相关,所述第一样本的类间相似度用于表示所述第一样本与其他类别样本之间的相似程度。这里所说的“其他类别”是指,样本 集中第一样本所属类别以外的其他类别。确定的初始样本集中各个样本的冗余权重可以用于对初始样本集进行精简,在一种可能的实现方式中,可以根据所述样本集中各样本的冗余权重从样本集中去除冗余权重较大的部分样本,得到精简后的样本集,本申请实施例将精简前的样本集称作初始样本集,将精简后的样本集称作精简样本集。
从初始样本集中去除部分样本的过程可以理解为,对初始样本集中的样本进行取样的 过程,被抽取到的样本为从初始样本集中去除的样本,由于去除不同样本对训练神经网络 的测试精度和/或训练效率的影响不同,为了提高测试精度和训练效率,可以根据样本对 提高训练神经网络的测试精度和/或训练效率的重要性确定样本被抽取的权重,并且样本 对训练神经网络的测试精度和/或训练效率的重要性越低,该样本被抽取的权重应越大, 反之,该样本被抽取的权重应越小,之后可以根据初始样本集中各样本被抽取的权重对初 始样本集中的样本进行取样,样本被抽取的权重越大,该样本被取样的概率越高。由于样 本被抽取的权重越大,表明该样本对训练神经网络的测试精度和/或训练效率的重要性越 低,即对训练神经网络的冗余度越大,因此,本申请实施例中将样本被抽取的权重称作样 本的冗余权重或权重信息。
样本的冗余权重体现该样本对训练神经网络的冗余性,冗余权重越大,该样本对训练 神经网络的重要性越低,也就是对训练神经网络的冗余性越高,其被选入所述精简样本集 的概率越低。所述精简样本集为所述初始样本集的子集,得到的所述精简样本集可以用于 训练神经网络。上述第一样本可以指多个带有标签的样本中的任意一个样本,或者为多个 带有标签的样本中的部分样本中的任意一个样本,也就是说,样本集中的部分样本按照本 申请第一方面提供的方法确定冗余权重,其他样本可以按照其他方法确定冗余权重。
在本申请实施例提供的信息处理方法的各个实施例中,对于初始样本集中的多个带有 标签的样本中的每个样本,关于其冗余权重和类间相似度等特征的限定,均可以参考关于 第一样本的冗余权重和类间相似度等特征的限定。
本申请实施例提供的样本冗余权重的确定方法,可以根据初始样本集中样本的类间相 似度确定样本的冗余权重,由于其他类别的样本的数目通常远大于所属类别内的样本的数 目,因此,类间相似度能够体现初始样本集中更多样本的信息,根据类间相似度确定的冗 余权重更能反映样本对训练神经网络的重要性,基于本申请样本冗余权重的确定方法得到 精简样本集,对神经网络进行训练,有利于提高神经网络的测试精度和训练效率,例如, 有利于在神经网络训练时间相当的情况下,提高神经网络的测试精度,或者,在神经网络 的测试精度不下降的前提下缩短训练时长。
在一种可能的实现方式中,所述第一样本的冗余权重可以与所述第一样本的类间相似 度负相关。样本的类间相似度越高,该样本冗余性越高,可以降低该样本的冗余权重。可 选的,第一样本的冗余权重关于第一样本的类间相似度的函数为非线性的单调函数。
下面对多个带有标签的样本中每个样本的类间相似度的确定方法进行举例介绍,为了 便于描述,仍以多个带有标签的样本中的任意一个样本(还称作第一样本)为例,介绍第 一样本的类间相似度的确定方法。一般可以认为,若两个样本之间的距离越大,则两个样 本的相似度越低,反之,若两个样本之间的距离越小,则两个样本的相似度越高。
第一样本的类间相似度可以是根据第一样本与其他类别各个样本之间的距离(可以简 称第一样本的类间距离)确定的,由于其他类别的样本的数目通常很大,在一种可能的实 现方式中,所述第一样本的类间相似度为根据所述第一样本与所述其他类别样本的聚类中 心之间的距离确定的。聚类中心(cluster centers)一般指根据同一类别的大量数据确定 的具有代表性的数据,例如同一类别的数据的聚类中心可以为该类别中所有数据的均值, 大量数据的聚类中心一般由选用的聚类算法决定,常见的聚类算法包括k均值聚类算法 (k-means clustering algorithm)和k-中心点算法(k-medoids)等。以k-means聚类算 法为例,一般从多个样本中随机选取K个样本作为初始的聚类中心,然后计算每个样本与 各个初始的聚类中心之间的距离,把每个样本分配给距离它最近的聚类中心。聚类中心以 及分配给它们的样本就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现 有的样本被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有 (或最小数目)的样本被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变 化,误差平方和局部最小。聚类中心是对每一类的数据进行聚类获取多个聚类簇,每个聚 类簇的中心就是聚类中心,来对本类的数据进行抽象表征。获取一个类的聚类中心,相当 于选取一个类最具有表达能力的一些虚拟中心来抽象表征该类。
同一类别的样本或数据可以包括一个或两个或两个以上的聚类中心。若同一类样本包 括一个聚类中心,第一样本与该类样本的聚类中心之间的距离即为第一样本与该聚类中心 之间的距离;若同一类样本包括两个或两个以上聚类中心,第一样本与该类样本的聚类中 心之间的距离可以根据第一样本与各聚类中心之间的距离来确定,示例性的,第一样本与 该类样本的聚类中心之间的距离可以为第一样本与各聚类中心之间的距离的均值,或者为 第一样本与各聚类中心之间的距离的最小值,或者为第一样本与各聚类中心之间的距离的 最大值。
在一种可能的实现方式中,可以将第一样本所属类别以外的其他类别的所有样本视为 同一类别的样本,确定第一样本与其他类别的所有样本的聚类中心之间的距离,根据该距 离确定第一样本的类间相似度。由于两个样本之间的距离越大,则两个样本的相似度越低, 反之,若两个样本之间的距离越小,则两个样本的相似度越高,因此,第一样本的类间相 似度与所述第一样本与所述其他类别样本的聚类中心之间的距离负相关,也就是说,第一 样本与其他类别的所有样本的聚类中心之间的距离越大,表明第一样本的类间相似度越小, 反之,第一样本与其他类别的所有样本的聚类中心之间的距离越小,表明第一样本的类间 相似度越大。
为了便于理解,假设按照标签可以将初始样本集中的多个带有标签的样本分为三个类 别:类a(包括样本a1、样本a2)、类b(包括样本b1、样本b2和样本b3)和类c(包括 样本c1、样本c2)。以第一样本为a1为例,a1所属类别以外的其他类别的所有样本包括 样本b1、样本b2、样本b3、样本c1以及样本c2,可以以{样本b1、样本b2、样本b3、 样本c1以及样本c2}为同一类别(简称类A),确定类A中样本的聚类中心,确定样本a1 与类A中样本的聚类中心之间的距离d_a1,根据该距离d_a1确定样本a1的类间相似度。 具体的,样本a1的类间相似度与d_a1负相关,例如,二者可以互为倒数。
若其他类别的样本(例如类A的样本)包括一个聚类中心(假设CenterA),第一样本(例如样本a1)与其他类别的样本(例如类A的样本)的聚类中心之间的距离(例如d_a1), 即为第一样本(例如样本a1)与该聚类中心(例如CenterA)之间的距离。
若其他类别的样本(例如类A的样本)包括两个或两个以上聚类中心(假设包括CenterA1和CenterA2),第一样本(例如样本a1)与其他类别的样本(例如类A的样本) 的聚类中心之间的距离(例如d_a1),可以根据第一样本与各聚类中心之间的距离来确定, 例如根据样本a1与CenterA1之间的距离d_a1-CenterA1和样本a1与CenterA2之间的距 离d_a1-CenterA2确定,更为具体的,例如,d_a1可以为d_a1-CenterA1和d_a1-CenterA2 的均值,或者d_a1可以为d_a1-CenterA1和d_a1-CenterA2中的最小值,或者d_a1可以 为d_a1-CenterA1和d_a1-CenterA2中的最大值。
或者,在一种可能的实现方式中,其他类别的样本的聚类中心可以包括按照初始样本 集中的标签确定的其他类别中各类别样本的聚类中心,第一样本与其他类别的样本的聚类 中心的距离可以根据第一样本与其他类别中各类别样本的聚类中心之间的多个距离确定。
例如,若样本的标签将初始样本集分为至少3个类别,那么对于初始样本集中的任一 样本(称作第一样本),第一样本的其他类别包括至少2个类别,假设,第一样本的其他类别包括第1类别、第2类别、……、和第n类别,其中,n为大于1的整数,那么第一 样本与其他类别的样本的聚类中心的距离可以根据第一样本与第1类别的样本的聚类中心 之间的距离、第一样本与第2类别的样本的聚类中心之间的距离、……、和第一样本与第 n类别的样本的聚类中心之间的距离确定。为了简化描述,可以将第一样本与第1类别的 样本的聚类中心之间的距离、第一样本与第2类别的样本的聚类中心之间的距离、……、 和第一样本与第n类别的样本的聚类中心之间的距离称作第一样本的类间距离集,将第一 样本与第i类别样本的聚类中心的距离称作第一样本的第i类别的类间距离,i为小于n 任意一个正整数。
在一种可能的实现方式中,第一样本与其他类别的样本的聚类中心的距离可以为第一 样本的类间距离集中的最小类间距离,因此,第一样本的类间相似度可以为根据第一样本 的类间距离集中的最小类间距离确定的,具体的,第一样本的类间相似度与第一样本的类 间距离集中的最小类间距离负相关,第一样本的类间距离集包括第1类别的类间距离、第 2类别的类间距离、……、和第n类别的类间距离。例如,第一样本的类间相似度可以为 该最小者的倒数。假设第一样本与第1类别的样本的聚类中心之间的距离在第一样本的类 间距离集中最小,那么第一样本的类间相似度可以为第一样本的第1类别的类间距离(即 第一样本与第1类别的样本的聚类中心之间的距离)的倒数。或者,在一种可能的实现方 式中,第一样本的类间相似度可以为第一样本的类间距离集中最大的距离的倒数。或者, 在一种可能的实现方式中,第一样本的类间相似度可以为第一样本的类间距离集中各个距 离的平均值的倒数。
若按照标签划分为同一类别的样本(例如上述其他类别中的第1类别的样本)包括一 个聚类中心(假设Center1),第一样本(例如样本a1)与该类别的样本(例如第1类别 的样本)的聚类中心之间的距离,即为第一样本(例如样本a1)与该聚类中心(例如Center1)之间的距离。
若按照标签划分为同一类别的样本(例如上述其他类别中的第1类别的样本)包括两 个或两个以上聚类中心(假设包括Center11和Center12),第一样本(例如样本a1)与 该类别的样本(例如第1类别的样本)的聚类中心之间的距离,可以根据第一样本与该类 别的样本的各聚类中心之间的距离来确定,例如根据样本a1与Center11之间的距离 d_a1-Center11和样本a1与Center12之间的距离d_a1-Center12确定,更为具体的,例 如,第一样本与第1类别的样本的聚类中心之间的距离,可以为d_a1-Center11和 d_a1-Center12的均值,或者可以为d_a1-Center11和d_a1-Center12中的最小值,或者 可以为d_a1-Center11和d_a1-Center12中的最大值。
不同类别的样本所包含的用于分类的对象一般不同,以初始样本集为包含人的多个图 像样本为例,第1类别的样本可以指初始样本集中包含白色皮肤的人的图像样本,第2类 别的样本可以指初始样本集中包含黑色皮肤的人的图像样本。
直接计算样本间的距离,运算量通常较大,为了减少运算量,放大样本间的差异,在 一种可能的实现方式中,可以提取样本的特征,例如,可以利用ResNet50预训练模型提取初始样本集中各样本的特征,以特征间的距离代表样本间的距离。
为了更加充分的利用初始样本集中的样本信息来确定冗余权重,在一种可能的实现方 式中,可以根据样本的类间相似度和类内相似度来确定该样本的冗余权重。在一种可能的 实现方式中,以初始样本集中的第一样本为例,第一样本的冗余权重可以与所述第一样本 的类内相似度正相关,所述第一样本的类内相似度为所述第一样本与其所属类别中其他样 本的相似度。样本的类内相似度越高,该样本为冗余样本的概率越高,可以提高该样本的 冗余权重,即为该样本设置较高的冗余权重,以增加将其被去除的概率。
可以根据第一样本与其所属类别中各样本之间的距离确定第一样本的类内相似度,为 了减少运算量,在一种可能的实现方式中,可以根据第一样本与其所属类别中各样本的聚 类中心之间的距离确定第一样本的类内相似度。
若第一样本所属类别的样本包括一个聚类中心(假设Center2),第一样本(例如样本 a1)与所属类别的样本的聚类中心之间的距离,即为第一样本(例如样本a1)与该聚类中心(例如Center2)之间的距离。
若第一样本所属类别的样本包括两个或两个以上聚类中心(假设包括Center21和Center22),第一样本(例如样本a1)与所属类别的样本的聚类中心之间的距离,可以根 据第一样本与所属类别的样本的各聚类中心之间的距离来确定,例如根据样本a1与Center21之间的距离d_a1-Center21和样本a1与Center22之间的距离d_a1-Center22确定,更为具体的,例如,第一样本与所属类别的样本的聚类中心之间的距离,可以为 d_a1-Center21和d_a1-Center22的均值,或者可以为d_a1-Center21和d_a1-Center22 中的最小值,或者可以为d_a1-Center21和d_a1-Center22中的最大值。
在一种可能的实现方式中,对于多个带有标签的样本中的任意一个样本(仍称作第一 样本),可以根据第一样本的类内相似度和第一样本的类间相似度的比值确定第一样本的 冗余权重,即第一样本的冗余权重与第一样本的类内相似度和第一样本的类间相似度的比 值相关。为了便于描述,可以将样本的类内相似度和类间相似度的比值称作类内类间比, 例如,第一样本的类内类间比为第一样本的类内相似度和第一样本的类间相似度之间的比 值。
更为具体的,在一种可能的实现方式中,对于初始样本集中类内类间比相同的任意两 个样本,或者说,对于初始样本集中的任意两个不同样本,若两个样本的类内类间比相同, 为了便于描述,将这两个样本分别称作第二样本和第三样本,也就是说,第二样本的类内 类间比与第三样本的类内类间比相同,那么第二样本的冗余权重与第三样本的冗余权重相 同。
在一种可能的实现方式中,对于初始样本集中类内类间比不同的任意两个样本,或者 说,对于初始样本集中的任意两个不同样本,若两个样本的类内类间比不同,为了便于描 述,将这两个样本分别称作第四样本和第五样本,且第四样本的类内类间比大于第五样本 的类内类间比,那么第四样本的冗余权重大于第五样本的冗余权重。
在一种可能的实现方式中,上述冗余权重可以为大于或等于0,并且小于或等于1的 数,在从初始样本集中抽取需要去除的样本时,每个样本的冗余权重可以作为其被抽取的 概率,就是说,第一样本(即初始样本集中的任意一个样本)的冗余权重可以被作为第一样本被从所述初始样本集中去除的概率。
更为具体的,在一种可能的实现方式中,对于初始样本集中类内类间比为1的任意一 个样本,或者说,对于初始样本集中任意一个样本,若该样本的类内类间比为1,为了便于描述,将该样本称作第六样本,也就是说,第六样本的类内相似度和第六样本的类间相似度相同,那么第六样本的冗余权重为0.5。
更为具体的,在一种可能的实现方式中,对于初始样本集中类内类间比大于1的任意 一个样本,或者说,对于初始样本集中任意一个样本,若该样本的类内类间比大于1,那么该样本的冗余权重大于0.5。在一种可能的实现方式中,对于初始样本集中类内类间比小于1的任意一个样本,或者说,对于初始样本集中任意一个样本,若该样本的类内类间 比小于1,那么该样本的冗余权重小于0.5。
为了提高获取的精简样本集的随机性,在一种可能的实现方式中,可以利用随机取样 的方法从初始样本集中抽取待去除的样本。按照待采样的样本集中各样本的权重之间的关 系,可以将随机取样分为两类,一类为简单随机取样,待采样的样本集中各样本的权重相 同,即每个样本被抽取的概率相同;另一类是按照取样权重的随机取样,待采样的样本集 中不同样本的取样权重可能不同,即不同样本被抽取的概率可能不同,在一种可能的实现 方式中,确定所述初始样本集中各样本的冗余权重后,可以以样本的冗余权重作为样本的 取样权重,根据所述初始样本集中各样本的冗余权重对所述初始样本集中的样本进行随机 取样,冗余权重越大,被随机取样的概率越高,完成随机取样后,从初始样本集中去除取 到的样本,得到所述精简样本集。随机取样得到的精简样本集不是固定的,例如,按照冗 余权重对相同的两个初始样本集分别进行随机取样,即使取样比例相同,得到的两个精简 样本集不一定相同,这样,可以在每次迭代训练前均执行随机取样,确定训练用的样本集, 即使取样比例和样本冗余权重相同,不同迭代训练所采用的精简样本集可能不同,这有利 于在训练神经网络的过程中充分利用初始样本集中的样本,进而有利于提高神经网络的测 试精度和训练效率。
在一种可能的实现方式中,所述根据所述多个带有标签的样本中每个样本的冗余权重, 从所述初始样本集中去除部分样本,以得到精简样本集,可以包括:在对所述神经网络进 行第j次迭代训练之后,可以根据所述多个带有标签的样本中每个样本的冗余权重,从所 述初始样本集中去除部分样本,以得到第j+1精简样本集,j为正整数;所述基于所述精 简样本集训练所述神经网络,可以包括:基于所述第j+1精简样本集对所述神经网络进行 第j+1次迭代训练。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
对神经网络的训练一般包括多次迭代训练过程,根据所述多个带有标签的样本中每个 样本的冗余权重,从所述初始样本集中去除部分样本,得到精简样本集后,在一种可能的 实现方式中,对神经网络的每次迭代训练过程均可以采用该精简样本集,或者,在一种可 能的实现方式中,可以基于该精简样本集对神经网络的部分迭代训练,例如基于所述精简 样本集对所述神经网络进行第j次迭代训练,j为正整数。
基于所述精简样本集对所述神经网络进行第j次迭代训练之后,可以基于该精简样本 集对神经网络进行第j+1次迭代训练,或者利用其它样本集对神经网络进行第j+1次迭代 训练,例如,在一种可能的实现方式中,在所述基于所述精简样本集对所述神经网络进行 第j次迭代训练之后,可以根据所述多个带有标签的样本中每个样本的冗余权重,从所述 初始样本集中去除部分样本,以得到精简样本集,为了便于区分第j+1次迭代训练所基于 的样本集和第j次迭代训练所基于的样本集,将此处得到的用于进行第j+1次迭代训练的 样本集称作第j+1精简样本集;之后,可以基于所述第j+1精简样本集对所述神经网络进 行第j+1次迭代训练。通过上述方法,可以改变对神经网络的不同迭代训练过程所基于的 精简样本集,有利于充分利用初始样本集中的样本对神经网络进行训练,有利于提高神经 网络的测试精度和/或训练效率。
在一种可能的实现方式中,第j次迭代训练处于学习率上升阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j次迭代训练处于学习率下降阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,所述确定所述多个带有标签的样本中每个样本的冗余权重 的过程,可以包括:分别计算所述每个样本的类间相似度和类内相似度;根据所述每个样 本的类间相似度和类内相似度之间的比例计算所述每个样本的冗余权重。示例性的,确定 第一样本的冗余权重的过程,可以包括:分别计算第一样本的类间相似度和类内相似度, 之后,根据第一样本的类间相似度和类内相似度计算第一样本的冗余权重。
本申请实施例第二方面提供一种神经网络的训练方法,包括:获取初始样本集,所述 初始样本集包括多个样本,可以从初始样本集中去除部分样本,得到精简样本集。可以理 解的是,精简样本集为初始样本集的子集,将从初始样本集中去除的样本的数目与初始样 本集的样本数目之间的比例称作取样比例。可以根据取样比例设置神经网络的一个或多个 参数,本申请实施例中,将与取样比例相关的参数称作目标参数。可以基于所述精简样本 集训练神经网络,神经网络的目标参数与取样比例相关。
基于精简样本集对神经网络进行训练的过程中,本申请实施例考虑到样本的减少对模 型收敛造成的影响,根据得到精简样本集所采用的取样比例对神经网络模型的参数进行补 偿,有利于保证神经网络的训练效果。
在一种可能的实现方式中,所述目标参数可以为所述神经网络的学习率。
为了充分利用初始样本集中的样本,在一种可能的实现方式中,可以在神经网络的多 次或每次迭代训练前,均执行对初始样本集进行精简的步骤,基于得到的精简样本集执行 相应的迭代训练。假设为神经网络设置的迭代次数为m,示例性的,在对神经网络进行第 1次迭代训练之前,可以根据初始样本集确定第1精简样本集,基于第1精简样本集对神经网络进行第一次迭代训练;在对神经网络进行第1次迭代训练之后,在进行第2次迭代 训练之前,可以根据初始样本集确定第2精简样本集,基于第2精简样本集对神经网络进 行第二次迭代训练;依次类推,在对神经网络进行第j迭代训练之后,在进行第j+1次迭 代训练之前,可以根据初始样本集确定第j+1精简样本集,基于第j+1精简样本集对神经 网络进行第j+1次迭代训练,j为小于m的正整数。
在前期迭代训练过程中,学习的样本越少,神经网络收敛的速度越慢,为了加快神经 网络的收敛速度,在一种可能的实现方式中,在前期迭代训练过程中,可以利用取样比例 对学习率进行正向补偿,即学习率与所述取样比例正相关,取样比例越大,学习的样本越 少,通过根据取样比例增加学习率,使得神经网络更容易接近局部或全局最优解,有利于 在学习率上升阶段提高神经网络的收敛速度。更为具体的,在一种可能的实现方式中,若 第j+1次迭代训练处于学习率上升阶段,可以令所述神经网络在第j+1次迭代训练的学习 率与所述取样比例正相关。
在后期迭代训练过程中,学习的样本越少,神经网络的波动越大,在一种可能的实现 方式中,在后期迭代训练过程中,可以利用取样比例对学习率进行负向补偿,即学习率与 所述取样比例负相关,取样比例越大,学习的样本越少,通过根据取样比例降低学习率,有利于在学习率下降阶段减少神经网络的波动。在一种可能的实现方式中,若第j+1次迭代训练处于学习率下降阶段,可以令所述神经网络在第j+1次迭代训练的学习率与所述取样比例负相关。
对神经网络的训练一般包括多次迭代训练过程,根据所述多个带有标签的样本中每个 样本的冗余权重,从所述初始样本集中去除部分样本,得到精简样本集后,在一种可能的 实现方式中,对神经网络的每次迭代训练过程均可以采用该精简样本集,或者,在一种可 能的实现方式中,可以基于该精简样本集对神经网络的部分迭代训练,例如基于所述精简 样本集对所述神经网络进行第j次迭代训练,j为正整数。
基于所述精简样本集对所述神经网络进行第j次迭代训练之后,可以基于该精简样本 集对神经网络进行第j+1次迭代训练,或者利用其它样本集对神经网络进行第j+1次迭代 训练,例如,在一种可能的实现方式中,在所述基于所述精简样本集对所述神经网络进行 第j次迭代训练之后,可以根据所述多个带有标签的样本中每个样本的冗余权重,从所述 初始样本集中去除部分样本,以得到精简样本集,为了便于区分第j+1次迭代训练所基于 的样本集和第j次迭代训练所基于的样本集,将此处得到的用于进行第j+1次迭代训练的 样本集称作第j+1精简样本集;之后,可以基于所述第j+1精简样本集对所述神经网络进 行第j+1次迭代训练。通过上述方法,可以改变对神经网络的不同迭代训练过程所基于的 精简样本集,有利于充分利用初始样本集中的样本对神经网络进行训练,有利于提高神经 网络的测试精度和/或训练效率。
在一种可能的实现方式中,第j次迭代训练处于学习率上升阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j次迭代训练处于学习率下降阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
本申请实施例第三方面提供一种信息处理装置,包括:获取模块,用于获取初始样本 集,所述初始样本集包括多个带有标签的样本,其中,一个样本携带的标签用于标识所述 样本的类别;权重确定模块,用于确定所述多个带有标签的样本中每个样本的冗余权重, 所述多个带有标签的样本中第一样本的冗余权重与所述第一样本的类间相似度相关,所述 第一样本的类间相似度用于表示所述第一样本与所述多个带有标签的样本中所述第一样 本所属类别以外的其他类别的样本之间的相似程度;精简模块,用于根据所述多个带有标 签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到精简样本集, 所述精简样本集为所述初始样本集的子集,所述第一样本的冗余权重越小,其被选入所述 精简样本集的可能性越高。
在一种可能的实现方式中,所述第一样本的冗余权重与所述第一样本的类间相似度负 相关。
在一种可能的实现方式中,所述第一样本的类间相似度为根据所述第一样本与所述其 他类别的样本的聚类中心之间的距离确定的。
在一种可能的实现方式中,所述其他类别包括第1类别、第2类别、……、和第n类别,其中,n为大于1的整数;所述第一样本的类间相似度为根据所述第一样本的类间距 离集中的最小距离确定的,所述第一样本的类间距离集包括所述第一样本与所述第1类别 的样本的聚类中心之间的距离、所述第一样本与所述第2类别的样本的聚类中心之间的距离、……、和所述第一样本与所述第n类别的样本的聚类中心之间的距离。
在一种可能的实现方式中,所述第一样本的冗余权重与所述第一样本的类内相似度正 相关,所述第一样本的类内相似度用于表示所述第一样本与其所属类别中其他样本之间的 相似程度。
在一种可能的实现方式中,所述第一样本的类内相似度为根据所述第一样本与其所属 类别的样本的聚类中心之间的距离确定的,例如,第一样本的类内相似度可以为第一样本 与其所属类别的样本的聚类中心之间的距离的倒数。
在一种可能的实现方式中,对于多个带有标签的样本中的任意一个样本(仍称作第一 样本),可以根据第一样本的类内相似度和第一样本的类间相似度的比值确定第一样本的 冗余权重,即第一样本的冗余权重与第一样本的类内相似度和第一样本的类间相似度的比 值相关。为了便于描述,可以将样本的类内相似度和类间相似度的比值称作类内类间比, 例如,第一样本的类内类间比为第一样本的类内相似度和第一样本的类间相似度之间的比 值。
更为具体的,在一种可能的实现方式中,对于初始样本集中的任意两个不同样本,若 两个样本的类内类间比相同,为了便于描述,将这两个样本分别称作第二样本和第三样本, 也就是说,第二样本的类内类间比与第三样本的类内类间比相同,那么第二样本的冗余权 重与第三样本的冗余权重相同。
在一种可能的实现方式中,对于初始样本集中的任意两个不同样本,若两个样本的类 内类间比不同,为了便于描述,将这两个样本分别称作第四样本和第五样本,且第四样本 的类内类间比大于第五样本的类内类间比,那么第四样本的冗余权重大于第五样本的冗余 权重。
在一种可能的实现方式中,上述冗余权重可以为大于或等于0,并且小于或等于1的 数,在从初始样本集中抽取需要去除的样本时,每个样本的冗余权重可以作为其被抽取的 概率,就是说,第一样本(即初始样本集中的任意一个样本)的冗余权重可以被作为第一样本被从所述初始样本集中去除的概率。
更为具体的,在一种可能的实现方式中,对于初始样本集中任意一个样本,若该样本 的类内类间比为1,为了便于描述,将该样本称作第六样本,也就是说,第六样本的类内相似度和第六样本的类间相似度相同,那么第六样本的冗余权重为0.5。
更为具体的,在一种可能的实现方式中,对于初始样本集中任意一个样本,若该样本 的类内类间比大于1,那么该样本的冗余权重大于0.5。在一种可能的实现方式中,对于初始样本集中任意一个样本,若该样本的类内类间比小于1,那么该样本的冗余权重小于0.5。
在一种可能的实现方式中,所述精简模块用于:根据所述多个带有标签的样本中每个 样本的冗余权重,对所述多个带有标签的样本进行随机取样;从所述初始样本集中去除取 样得到的样本,以得到所述精简样本集。
在一种可能的实现方式中,所述装置还包括训练模块:所述训练模块用于,在得到所 述精简样本集之后,基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比 例相关,所述取样比例为从所述初始样本集中去除的样本的数目与所述初始样本集中样本 的数目之间的比例。
在一种可能的实现方式中,在对所述神经网络进行第j次迭代训练之后,根据所述多 个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到第 j+1精简样本集,j为正整数;所述训练模块用于,基于所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,其特征在于,第j+1次迭代训练处于学习率下降阶段,所 述神经网络在第j+1次迭代训练的学习率与所述取样比例负相关。
对神经网络的训练一般包括多次迭代训练过程,精简模块根据所述多个带有标签的样 本中每个样本的冗余权重,从所述初始样本集中去除部分样本,得到精简样本集后,在一 种可能的实现方式中,训练模块对神经网络的每次迭代训练过程均可以采用该精简样本集, 或者,在一种可能的实现方式中,训练模块可以基于该精简样本集对神经网络的部分迭代 训练,例如基于所述精简样本集对所述神经网络进行第j次迭代训练,j为正整数,对其 他迭代训练不采用该精简样本集。
训练模块基于所述精简样本集对所述神经网络进行第j次迭代训练之后,可以基于该 精简样本集对神经网络进行第j+1次迭代训练,或者利用其它样本集对神经网络进行第j+1 次迭代训练,例如,在一种可能的实现方式中,训练模块基于所述精简样本集对所述神经 网络进行第j次迭代训练之后,精简模块可以根据所述多个带有标签的样本中每个样本的 冗余权重,从所述初始样本集中去除部分样本,以得到精简样本集,为了便于区分第j+1 次迭代训练所基于的样本集和第j次迭代训练所基于的样本集,将此处得到的用于进行第 j+1次迭代训练的样本集称作第j+1精简样本集;之后,可以基于所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。通过上述方法,可以改变对神经网络的不同迭代训练过程所基于的精简样本集,有利于充分利用初始样本集中的样本对神经网络进行训练, 有利于提高神经网络的测试精度和/或训练效率。
在一种可能的实现方式中,第j次迭代训练处于学习率上升阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j次迭代训练处于学习率下降阶段,所述神经网络在第 j次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,所述权重确定模块,具体用于:分别计算所述每个样本的 类间相似度和类内相似度;根据所述每个样本的类间相似度和类内相似度之间的比例计算 所述每个样本的冗余权重。
本申请实施例第四方面提供一种神经网络的训练装置,包括:获取模块,用于获取初 始样本集,所述初始样本集包括多个样本;精简模块,用于从所述初始样本集中去除部分 样本,以得到精简样本集;训练模块,用于基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为从所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
在一种可能的实现方式中,所述精简模块用于,在对所述神经网络进行第j次迭代训 练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除 部分样本,以得到第j+1精简样本集,j为正整数;所述训练模块用于,基于所述第j+1 精简样本集对所述神经网络进行第j+1次迭代训练。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
在一种可能的实现方式中,训练模块用于:基于所述精简样本集对所述神经网络进行 第j次迭代训练,j为正整数。
在一种可能的实现方式中,所述精简模块还用于:在所述训练模块对所述神经网络进 行第j次迭代训练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初 始样本集中去除部分样本,以得到第j+1精简样本集,j为正整数;所述训练模块还用于, 基于所述精简模块得到的所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
本申请第五方面提供一种计算机系统,该计算机系统包括处理器和存储器,该处理器 在运行存储器存储的计算机指令时,执行如本申请实施例第一方面或第一方面的任意一种 可能的实现方式中的方法,或者执行如本申请实施例第二方面或第二方面的任意一种可能 的实现方式中的方法。
本申请第六方面提供一种计算机可读存储介质,该计算机可读存储介质包括指令,当 指令在计算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任意一种 可能的实现方式中的方法,或者执行如本申请实施例第二方面或第二方面的任意一种可能 的实现方式中的方法。
本申请第七方面提供一种计算机程序产品,该计算机程序产品包括指令,当指令在计 算机上运行时,使得计算机执行如本申请实施例第一方面或第一方面的任意一种可能的实 现方式中的方法,或者执行如本申请实施例第二方面或第二方面的任意一种可能的实现方 式中的方法。
本申请第八方面提供一种处理装置,该装置可以为芯片,该装置包括一个或多个模块 用于实现本申请实施例第一方面或第一方面的任意一种可能的实现方式中的方法,或者执 行如本申请实施例第二方面或第二方面的任意一种可能的实现方式中的方法。在一种实现 方式下,该装置包括一个或多个处理核以及接口电路,所述一个或多个处理核用于通过所 述接口电路读取软件程序以实现前述方法。在另一种实现方式下,该装置包括硬件电路组 成的一个或多个模块,该一个或多个模块共同实现前述方法。
由于本申请实施例提供的各装置可用于执行前述对应的实施例方法,因此本申请各装 置实施例所能获得到的技术效果可参考前述对应的方法实施例,此处不再赘述。
附图说明
图1是利用初始样本集对神经网络进行训练的示意图;
图2A是现有初始样本集的精简过程的一个流程图;
图2B是现有初始样本集的精简过程的一个示意图;
图3是本申请样本冗余权重的确定方法一个实施例示意图;
图4是本申请对初始样本集的取样方法一个实施例示意图;
图5是本申请神经网络的训练方法一个实施例示意图;
图6A是本申请神经网络的训练方法另一个实施例示意图;
图6B是图6A中步骤601至步骤603的一个示意图;
图6C是本申请步骤603中映射函数的图像示意图;
图7是本申请信息处理装置一个实施例示意图;
图8是本申请信息处理装置另一个实施例示意图;
图9是本申请神经网络的训练装置一个实施例示意图;
图10是本申请计算机系统一个实施例示意图。
具体实施方式
神经网络(Neural Networks,NN),是由大量的、简单的处理单元(称为神经元)广泛地 互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的 非线性动力学习系统。神经网络可以应用于视觉、文本、语言等领域,例如利用训练好的 神经网络进行图像标注、图像识别、声音识别、文本分类、自然语言处理(NaturalLanguage Processing,NLP)等,对应的训练用样本集中的样本可以为图像、声音、文档等。为了描 述方便,下文将以使用图像样本进行图像识别为例进行描述,但这并不会对本申请实施例 的方案构成限制。
图像分类应用可以是,针对不同图像样本,通过神经网络训练确定神经网络模型,利 用训练得到的神经网络模型对图像所包含的对象进行识别,以确定图像的类别。对象指用 于进行分类的对象,如人和物体等。图像样本指包括对象的图像,例如JPEG等各种数字格式的图像。以图像所包含的对象为人脸为例,图像分类应用是指,针对待预测图像中所包含的人脸的预设部位(眼睛或其它部位)或者整体特征(组成脸部的全部特征)进行识别,以确定图像的类别。类别是指针对对应的对象进行分类的维度,该分类的维度可以是对象在外观上所呈现的外在特性,以眼部为例,如丹凤眼、三角眼等;也可以是对象的外观所 隐含的内在特性,仍以眼部为例,如性格、年龄、疾病等。
在对神经网络进行训练的过程中,可以将不同批次的训练用样本集分别输入初始的神 经网络进行训练,形成多次迭代训练。其中,初始的神经网络可以是基于已知的图像样本 集预训练得到的神经网络,该神经网络可以是BP神经网络、卷积神经网络或者其变形。 例如,初始的神经网络可以是基于图像样本集预训练的神经网络,图像样本集可以为图像 网络ImageNet,神经网络可以为ResNet、VGG等已知的卷积神经网络模型。当然,初始的 神经网络并不局限于此,也可以是基于预训练好的其它图像样本集预训练好的任意神经网 络。
随着神经网络性能的不断提升,神经网络的深度和计算复杂度也在不断提升,从而导 致神经网络的训练时长也不断增加。目前大部分神经网络是利用全量样本集进行训练,由 于样本集中一般存在部分的冗余样本,既耗费神经网络的训练时长,又难以提高神经网络 的测试精度。为了减少训练时长,可以对初始的样本集进行精简,利用精简的样本集训练 神经网络,参考图1,利用初始样本集训练神经网络具体可以包括以下三个过程:
过程一、确定初始样本集中各样本的冗余权重;
过程二、根据样本的冗余权重从初始样本集中去除冗余权重较高的部分样本,得到精 简样本集;
过程三、基于精简样本集对神经网络进行训练。
为了提高利用精简样本集训练神经网络的性能,可以对上述任一过程或任意两个过程 进行优化,或对上述三个过程都进行优化。接下来,结合附图,分别介绍本申请对上述三 个过程的优化方案。
一、首先介绍过程一的优化方案。
现有技术提出以同一类别中样本间的距离作为冗余权重,对初始样本集进行精简。图 2A为现有初始样本集的精简过程的示意图,以样本集中的样本为图像为例,参考图2A, 具体流程如下:
201、利用ResNet50预训练模型提取初始样本集中各样本的特征;
特征提取是指使用计算机提取样本(例如图像)的信息,并将提取到的信息转变为数 字向量,将得到的数字向量称作特征。
初始样本集中样本的标签用于指示样本所属的类别,图2B以样本的标签将初始样本 集中的样本分为3个类别(类别1、类别2和类别3)为例。对初始样本集中的各个样本 进行特征提取,得到各个样本的特征,图2B以未填充的圆形代表类别1中各样本的特征, 三角形代表类别2中各样本的特征,方形代表类别3中各样本的特征。
202、分别对各类别样本的特征进行聚类;
分别对各类别样本的特征进行聚类,得到各个类别的聚类中心,图2B以黑色填充的 圆形代表聚类中心。具体的,假设设置的取样比例为10%,以对类别1中的样本进行聚类为例,可以将类别1的聚类中心设置为9个,对类别1中的样本进行聚类,得到类别1的 9个聚类中心。
203、以样本与所属类别的聚类中心的距离为冗余权重;
可以以样本与所属类别的聚类中心的距离为冗余权重,从每个类别的样本中分别去除 距所属类别的聚类中心最近的、10%的样本,得到精简样本集。以对类别1中的样本进行 取样为例,可以从类别1中去除样本10。
按照样本的冗余权重对初始样本集进行精简的方法影响着训练得到的神经网络的测 试精度和训练效率,现有精简方法中样本冗余权重的确定仅考虑了同一类别内样本间的相 似度,冗余权重的确定依据比较片面,基于现有精简方法的精简样本集对神经网络进行训 练,测试精度和训练效率较低。
为了提高训练得到的神经网络的测试精度和训练效率,本申请提供一种样本集中样本 冗余权重的确定方法,参考图3,本申请样本冗余权重的确定方法一个实施例可以包括如 下步骤:
301、获取带有标签的初始样本集;
可以收集多个样本,对样本标识分类信息,形成带有标签的初始样本集,或者,可以 直接通过互联网获取带有标签的初始样本集。初始样本集包括多个样本,样本的标签用于 标识该样本所属的类别。
302、根据初始样本集中各样本的类间相似度,确定初始样本集中各样本的冗余权重;
获取带有标签的初始样本集之后,可以根据初始样本集中各样本的类间相似度,确定 初始样本集中各样本的冗余权重。样本的冗余权重与该样本的类间相似度相关,以初始样 本集中的任一样本(称作第一样本)为例,第一样本的冗余权重与第一样本的类间相似度 相关,第一样本的类间相似度为第一样本与其他类别的样本的相似度。
确定初始样本集中各样本的冗余权重之后,可以根据初始样本集中各样本的冗余权重 从初始样本集中去除冗余权重较高的部分样本,得到精简样本集,也就是说,初始样本集 中,样本的冗余权重越大,该样本被选入精简样本集的概率越低。该精简样本集用于输入 神经网络,之后,可以基于该精简样本集对神经网络进行训练。
本申请实施例提供的样本冗余权重的确定方法,可以根据初始样本集中样本的类间相 似度确定样本的冗余权重,由于其他类别的样本的数目通常远大于所属类别内的样本的数 目,因此,类间相似度能够体现更多的样本信息,根据类间相似度确定的冗余权重更能反 映样本对训练神经网络的冗余性,基于本申请样本冗余权重的确定方法得到精简样本集, 对神经网络进行训练,有利于提高神经网络的测试精度和训练效率。
在一种可能的实现方式中,样本的冗余权重可以与样本的类间相似度负相关。在一种 可能的实现方式中,可以根据样本与其他类别样本的聚类中心之间的距离确定样本的类间 相似度,这里所说的“其他类别”是指初始样本集中该样本所属类别以外的其他类别。本 申请实施例不限定距离的计算方式,示例性的,本申请实施例所说的距离可以指欧式距离、 曼哈顿距离、堪培拉距离或马氏距离等。
为了便于确定样本的类间相似度,可以提取各样本的特征(具体过程可以参考步骤201 的描述),利用样本的特征确定样本的类间相似度。
若样本的标签将初始样本集分为至少3个类别,那么对于初始样本集中的任一样本(称 作第一样本),第一样本的其他类别包括至少2个类别,假设,第一样本的其他类别包括 第1类别、第2类别、……、第n类别,其中,n为大于1的整数,将第一样本的特征与 第i类别样本的特征的聚类中心的距离称作第一样本的第i类别的类间距离,i为小于n 任意一个正整数。在一种可能的实现方式中,第一样本的类间相似度为根据第一样本的类 间距离集中的最小类间距离确定的,例如,第一样本的类间相似度可以为第一样本的类间 距离集中的最小类间距离的倒数,第一样本的类间距离集包括第1类别的类间距离、第2 类别的类间距离、……、第n类别的类间距离。
为了根据更加全面的样本信息来确定样本的冗余权重,在一种可能的实现方式中,可 以根据样本的类间相似度和类内相似度确定样本的冗余权重。样本的类内相似度可以为样 本与其所属类别中其他样本的相似度,样本的冗余权重可以与该样本的类内相似度正相关。 更为具体的,在一种可能的实现方式中,样本的类内相似度可以为根据该样本的特征与其 所属类别的聚类中心之间的距离确定的,其中某个类别的聚类中心可以指对该类样本的特 征进行聚类确定的,具体可以参考步骤202的描述。
二、接下来介绍过程二的优化方案。
确定初始样本集中样本的冗余权重后,按照现有取样方法得到的精简样本集是固定的, 例如,按照现有方法对相同的两个初始样本集分别进行取样,若取样比例相同,那么得到 的两个精简样本集一定相同,这不利于在训练神经网络的过程中充分利用初始样本集中的 样本,不利于提高神经网络的测试精度和训练效率。
为了在对初始样本集进行精简的同时,充分利用初始样本集中的样本,提高训练得到 的神经网络的测试精度和训练效率,本申请提供一种初始样本集的取样方法,参考图4, 本申请初始样本集的取样方法一个实施例可以包括如下步骤:
401、获取带有标签的初始样本集;
可以参考步骤301进行理解,此处不再赘述。
402、根据初始样本集中各样本的冗余权重对初始样本集进行随机取样,去除取到的 样本,得到精简样本集;
获取带有标签的初始样本集之后,可以确定初始样本集中各样本的冗余权重,之后, 可以根据初始样本集中各样本的冗余权重对初始样本集进行随机取样,去除取到的样本, 形成精简样本集。样本的冗余权重越大,该样本在随机取样过程中被取到概率越高,其被 选入精简样本集的概率越低。该精简样本集用于输入神经网络,之后,可以基于该精简样 本集对神经网络进行训练。
确定初始样本集中样本的冗余权重后,按照本申请实施例提供的取样方法得到的精简 样本集不是固定的,例如,按照本申请实施例方法对相同的两个初始样本集分别进行随机 取样,即使取样比例相同,得到的两个精简样本集不一定相同,这样,可以在每次迭代训 练前均执行步骤402,即使取样比例相同,不同迭代训练所采用的精简样本集可能不同,这有利于在训练神经网络的过程中充分利用初始样本集中的样本,进而有利于提高神经网络的测试精度和训练效率。
本申请实施例不对样本的冗余权重的确定方法进行限定,在一种可能的实现方式中, 可以根据样本的类内相似度确定样本的冗余权重,或者,参考图3对应的实施例确定样本 的冗余权重。
三、接下来介绍过程三的优化方案。
在基于获取的初始样本集对神经网络进行训练的过程中,为了减少训练时长,可以从 初始样本集中去除冗余样本,得到精简样本集,基于精简样本集对神经网络进行训练。但 是,现有技术并未考虑训练用样本集中样本的减少对模型收敛造成的影响,不利于保证神 经网络的训练效果(如测试精度和/或训练时长等)。
为了在对初始样本集进行精简的同时,减少初始样本集中样本的减少对模型收敛造成 的影响,保证神经网络的训练效果,本申请提供一种神经网络的训练方法,参考图5,本 申请神经网络的训练方法一个实施例可以包括如下步骤:
501、获取初始样本集;
步骤501可以参考步骤301进行理解,此处不再赘述。
502、根据初始样本集确定精简样本集;
可以从初始样本集中去除部分样本,得到精简样本集。可以理解的是,精简样本集为 初始样本集的子集,将从初始样本集中去除的样本的数目与初始样本集中样本的数目之间 的比例称作取样比例。
503、根据取样比例设置神经网络的目标参数,基于精简样本集训练神经网络;
得到精简样本集之后,可以基于精简样本集训练神经网络,并且,根据步骤502中的 取样比例设置神经网络的一个或多个参数,本申请实施例中,将与取样比例相关的参数称 作目标参数。
基于精简样本集对神经网络进行训练的过程中,本申请实施例考虑到样本的减少对模 型收敛造成的影响,根据得到精简样本集所采用的取样比例对神经网络模型的参数进行补 偿,有利于保证神经网络的训练效果。
神经网络的参数一般包括神经网络中层与层之间的连接参数,即神经网络中边的权重, 还可以包括神经网络中的迭代次数、批处理大小、学习率和神经网络层数等。在一种可能 的实现方式中,目标参数可以指神经网络的学习率。
神经网络的学习率在单次迭代训练过程中是不变的,但是神经网络的学习率在不同迭 代训练过程中可以改变。为了保证神经网络快速收敛,神经网络在前期的迭代训练过程中, 随着迭代次数的增加,单次迭代训练过程中的学习率逐渐升高,一般将学习率升高的迭代 训练过程称作学习上升阶段;神经网络在后期的迭代训练过程,随着迭代次数的增加,单 次迭代训练过程中的学习率逐渐降低,一般将学习率降低的迭代训练过程称作学习下降阶 段。
在一种可能的实现方式中,可以在学习率上升阶段,根据取样比例对目标参数进行正 向补偿,也就是说,在学习率上升阶段,神经网络的学习率与取样比例正相关。取样比例 越大,学习的样本越少,通过根据取样比例进一步增加学习率,使得神经网络更容易接近 局部或全局最优解,有利于在学习率上升阶段提高神经网络的收敛速度。
在一种可能的实现方式中,可以在学习率下降阶段,根据取样比例对目标参数进行负 向补偿,也就是说,在学习率下降阶段,神经网络的学习率与取样比例负相关。学习率下 降阶段,神经网络的损失函数的值一般容易围绕最小值徘徊,神经网络的波动较大。取样 比例越大,学习的样本越少,神经网络的波动越大,通过根据取样比例进一步降低学习率, 有利于在学习率下降阶段减少神经网络的波动。
为了充分利用初始样本集中的样本,在一种可能的实现方式中,可以在神经网络的多 次或每次迭代训练前,均执行对初始样本集进行精简的步骤,基于得到的精简样本集执行 相应的迭代训练。假设为神经网络设置的迭代次数为m,示例性的,在对神经网络进行第 1次迭代训练之前,可以根据初始样本集确定第1精简样本集,基于第1精简样本集对神经网络进行第一次迭代训练;在对神经网络进行第2次迭代训练之前,可以根据初始样本集确定第2精简样本集,基于第2精简样本集对神经网络进行第二次迭代训练;依次类推,在对神经网络进行第j次迭代训练之前,可以根据初始样本集确定第j精简样本集,基于 第j精简样本集对神经网络进行第j次迭代训练,j为小于m的正整数。
上述分别针对利用初始样本集训练神经网络的三个过程(参考图1)提供了优化方案。 在利用初始样本集训练神经网络的具体应用中,过程一(即确定冗余权重)可以参考图3 对应的实施例,或者,过程二(即取样过程)可以参考图4对应的实施例,或者,过程三 (即训练过程)可以参考图5对应的实施例,或者,过程一至过程三中的任意两个过程参 考前述相应实施例,或者,过程一至过程三分别参考图3至图5对应的实施例。
以利用初始样本集训练神经网络的过程一至过程三分别参考图3至图5对应的实施例 为例,提供一种神经网络的训练方法,参考图6A,本申请神经网络的训练方法另一个实施 例可以包括如下步骤:
601、对初始样本集中的样本进行特征提取;
可以通过互联网下载带有标签的初始样本集(例如ImageNet),选取合适的预训练深 度神经网络(例如ResNet50或VGG19),对初始样本集的每一个样本进行特征提取,得到每个样本的特征。可以将利用深度神经网络模型提取的图像特征称作深度特征。
假设样本的标签将初始样本集中的样本分为3个类别——类别1、类别2和类别3,图6B以未填充的圆形代表类别1中各样本的特征,三角形代表类别2中各样本的特征, 方形代表类别3中各样本的特征。
602、获取各类别样本的特征的聚类中心;
获取初始样本集中每个样本的特征之后,可以设定各类别的聚类中心的数目,利用聚 类算法,例如K-means,获取各类别样本的特征的聚类中心,图6B以每个类别包括一个聚 类中心为例,以填充黑色的圆形代表聚类中心。
603、根据样本的类内距离和类间距离确定初始样本集中各样本的冗余权重;
可以根据样本的特征和样本所属类别的聚类中心确定样本的类内距离(记为d_inner)。 示例性的,以类别1中的样本1为例,样本1的类内距离d_inner可以为样本1的特征与 类别1的聚类中心之间的欧式距离d1(如图6B所示)。如果样本所属的类别包括多个聚类中心,该样本的类内距离可以为该样本的特征与所属类别的各个聚类中心的欧式距离的平均值。
可以根据样本的特征和其他类别的聚类中心确定该样本的类间距离(记为d_intra)。 示例性的,继续以类别1中的样本1为例,样本1的特征与类别2的聚类中心之间的欧式 距离记为d2,样本1的特征与类别3的聚类中心之间的欧式距离记为d3,可以根据d2和d3确定样本1的类间距离d_intra,例如,样本1的类间距离d_intra可以为d2和d3中 的较小值,也可以为d2和d3的平均值。
对于初始样本集中的任一样本,可以根据样本的类内距离和类间距离确定初始样本集 中各样本的冗余权重。在一种可能的实现方式中,可以对样本的类间距离和类内距离进行 归一化处理,例如,r_intra=((d_intra)^e-(d_inner)^f)/(d_inner)^f,以样本 的r_intra为该样本的冗余权重,其中,e和f均大于0,e和f可以相等,也可以不相等。 示例性的,e=f=1,得到该样本的r_intra=(d_intra-d_inner)/d_inner,以样本的r_intra 为该样本的冗余权重。上面仅示出了对样本的类间距离和类内距离进行归一化处理的一种具体实现方式,在实际应用中还可以采用其他方式对样本的类间距离和类内距离进行归一化处理。
为了更加直观的显示样本被丢弃的概率,可以将r_intra经过映射函数映射到(0,1) 区间内,示例性的,该映射函数如下所示:
Figure BDA0002264571210000181
其中,x是样本的r_intra,y是映射后的采样概率,图6C为该映射函数的图像示意图。
604、根据样本的冗余权重对初始样本集进行随机取样,去除取到的样本,得到精简 样本集;
在经过步骤603之后,初始样本集中的每一个样本都会得到一个冗余权重和采样概率。 为了在训练过程中充分利用初始样本集中的样本,可以在每次迭代训练前,设置取样比例, 根据样本的冗余权重或采样概率对初始样本集进行取样,从初始样本集中去除取到的样本, 得到精简样本集,将精简样本集输入待训练的神经网络进行训练。
示例性的,步骤604可以利用A-Res算法对初始样本集进行取样,假设初始样本集V包括p个样本——样本1、样本2、……、样本p,经过步骤603确定的各个样本的采样概 率依次为y1、y2、……、yp,根据取样比例确定需要从p个样本中取出q个样本,加入冗 余样本集R,其中,p和q均为正整数,q小于p,具体的取样过程可以如下:
1、将初始样本集V中的前q个样本加入冗余样本集R中;
2、计算冗余样本集R中每个样本的特征值,以计算任一样本i的特征值为例,首先为样本i获取介于0和1之间的随机数rand(0,1),简称ui,根据获取到的计算样本i的 特征值,示例性的,样本i的特征值ki=ui^(1/yi);
3、以j=q+1,执行步骤4;
4、将冗余样本集R中的最小特征值作为阈值T,假设阈值T为样本2的特征值k2;
5、对于样本j,为其获取随机数uj=rand(0,1),计算其特征值kj=uj^(1/yj);
6、若kj>T,则将冗余样本集R中的样本2替换为样本j,并执行步骤7;若kj>T, 则直接执行步骤7;
7、若j<p,以j=j+1,执行步骤4。
605、根据取样比例对神经网络的学习率进行补偿;
可以根据每次迭代训练前对初始样本集进行精简所采用的取样比例,对相应迭代训练 中神经网络的学习率进行补偿,通过补偿学习率实现神经网络的快速收敛和提高神经网络 的测试精度目的。
示例性的,假设待训练的神经网络为ResNet50,可以将神经网络的最大迭代次数epoch_max设置为45。在训练过程中的每次迭代训练前,可以按照步骤604根据设置的取 样比例对初始样本集进行精简,得到精简样本集,并且,可以根据取样比例对按照现有技 术确定的当前迭代训练的学习率(称作初始学习率Ir)进行补偿,保证神经网络快速收敛。 例如,补偿后的学习率Ir’=Ir×C,其中C代表补偿系数。
为了保证神经网络快速收敛,神经网络在前期的迭代训练过程中,其学习率逐渐升高, 一般将学习率升高的迭代训练过程称作学习上升阶段;神经网络在后期的迭代训练过程, 其学习率逐渐降低,一般将学习率降低的迭代训练过程称作学习下降阶段。示例性的,任 一迭代次数(epoch)的迭代训练过程中,初始学习率的计算表达式如下:
Figure BDA0002264571210000191
根据上述初始学习率的表达式,神经网络的初始学习率上升阶段为第1~第12次迭代 训练,迭代次数越大,其对应的学习率越高,例如,第12次迭代训练的学习率高于第11次迭代训练的学习率;初始学习率下降阶段为第12~第45次迭代训练,迭代次数越大,其对应的学习率越低,例如,第45次迭代训练的学习率低于第44次迭代训练的学习率。根 据初始学习率的变化趋势,可以参考模拟退火算法过程,在初始学习率上升阶段和初始学 习率下降阶段对初始学习率进行不同程度的补偿。在一种可能的实现方式中,在初始学习 率上升阶段,令C>1,示例性的,令C=1/(α×(1-p));在初始学习率的下降阶段,令 C<1,示例性的,令C=β×(1-p),其中,p为取样比例,α和β为介于0和1之间的常数。
606、基于精简样本集、按照补偿后的学习率对神经网络进行训练。
可以在每次迭代训练前,执行步骤604和步骤605,之后,基于得到的精简样本集、按照补偿后的学习率对神经网络进行一次迭代训练。
在步骤602中,聚类中心的数目可以根据经验设置。例如,可以分别设置不同数目的 聚类中心,执行步骤602至步骤606,根据训练时长和训练精度选择最优的聚类中心的数目。
步骤605中,α和β的值可以根据经验设置。例如,进行多次训练神经网络的实验,不同实验过程中α和β的值不同,根据各实验得到神经网络的训练时长和训练精度选择最优的α和β。
以步骤601的初始样本集为ImageNet样本集,步骤602采用K-means聚类算法且聚类中心的个数为5,步骤605中设置α=0.9、β=0.8为例,对神经网络ResNet50进行训 练,测试结果如表1:
表1
取样比例 训练时长(s) 训练精度
方案1 8.77% 48549.58 73.81%
方案2 8.94% 41871.96 74.31%
表1中,方案1指现有技术提供的基于精简样本集训练神经网络的方案,方案2指图6A对应的实施例方法。通过表1容易看出,和现有技术相比,本申请实施例对神经网络ResNet50的训练时长缩短,训练精度有所增加。
上述方法实施例可以应用于计算机系统,可以理解的是,为了实现上述功能,计算机 系统包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意 识到,结合本文中所公开的实施例描述的功能,本申请能够以硬件或硬件和计算机软件的 结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技 术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法 来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
从功能模块的角度,本领域技术人员可以根据上述方法实施例对计算机系统进行功能 模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功 能集成在一个功能模块中。上述集成的功能模块既可以采用硬件的形式实现,也可以采用 软件功能单元的形式实现。
例如,以采用集成的方式划分各个功能单元的情况下,图7示出了一种信息处理装置 的结构示意图。如图7所示,本申请信息处理装置700的一个实施例可以包括:获取模块701,用于获取初始样本集,所述初始样本集包括多个带有标签的样本,其中,一个样本 携带的标签用于标识所述样本的类别;权重确定模块702,用于确定所述多个带有标签的 样本中每个样本的冗余权重,所述多个带有标签的样本中第一样本的冗余权重与所述第一样本的类间相似度相关,所述第一样本的类间相似度用于表示所述第一样本与所述多个带有标签的样本中所述第一样本所属类别以外的其他类别的样本之间的相似程度,其中,所述第一样本为所述每个样本中的任意一个;精简模块703,用于根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到精简样本集,所述精简样本集为所述初始样本集的子集,所述第一样本的冗余权重越小,其被选入所述精简样本集的可能性越高。
在一种可能的实现方式中,所述第一样本的冗余权重与所述第一样本的类间相似度负 相关。
在一种可能的实现方式中,所述第一样本的类间相似度为根据所述第一样本与所述其 他类别的样本的聚类中心之间的距离确定的。
在一种可能的实现方式中,所述其他类别包括第1类别、第2类别、……、和第n类别,其中,n为大于1的整数;所述第一样本的类间相似度为根据所述第一样本的类间距 离集中的最小距离确定的,例如,所述第一样本的类间相似度可以为所述第一样本的类间 距离集中的最小距离的倒数,所述第一样本的类间距离集包括所述第一样本与所述第1类 别的样本的聚类中心之间的距离、所述第一样本与所述第2类别的样本的聚类中心之间的 距离、……、和所述第一样本与所述第n类别的样本的聚类中心之间的距离。
在一种可能的实现方式中,所述第一样本的冗余权重与所述第一样本的类内相似度正 相关,所述第一样本的类内相似度用于表示所述第一样本与其所属类别中其他样本之间的 相似程度。
在一种可能的实现方式中,所述第一样本的类内相似度为根据所述第一样本与其所属 类别的样本的聚类中心之间的距离确定的。
在一种可能的实现方式中,所述精简模块703用于根据所述多个带有标签的样本中每 个样本的冗余权重,对所述多个带有标签的样本进行随机取样;从所述初始样本集中去除 取样得到的样本,以得到所述精简样本集。
图8为本申请信息处理装置的另一个实施例示意图,参考图8,所述信息处理装置800 包括获取模块801、权重确定模块802、精简模块803和训练模块804,获取模块801、权重确定模块802、精简模块803可以参考图7对应的实施例进行理解,此处不再赘述。所 述训练模块804用于,在得到所述精简样本集之后,基于所述精简样本集训练神经网络, 所述神经网络的学习率与取样比例相关,所述取样比例为从所述初始样本集中去除的样本 的数目与所述初始样本集中样本的数目之间的比例。
在一种可能的实现方式中,所述精简模块803用于,在对所述神经网络进行第j次迭 代训练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中 去除部分样本,以得到第j+1精简样本集,j为正整数;所述训练模块804用于,基于所 述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
例如,以采用集成的方式划分各个功能单元的情况下,图9示出了一种神经网络的训 练装置的结构示意图。如图9所示,本申请神经网络的训练装置900的一个实施例可以包括:获取模块901,用于获取初始样本集,所述初始样本集包括多个样本;精简模块902, 用于从所述初始样本集中去除部分样本,以得到精简样本集;训练模块903,用于基于所 述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为从 所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
在一种可能的实现方式中,所述精简模块902用于,在对所述神经网络进行第j次迭 代训练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中 去除部分样本,以得到第j+1精简样本集,j为正整数;所述训练模块903用于,基于所 述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
在一种可能的实现方式中,第j+1次迭代训练处于学习率上升阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例正相关。
在一种可能的实现方式中,第j+1次迭代训练处于学习率下降阶段,所述神经网络在 第j+1次迭代训练的学习率与所述取样比例负相关。
由于本申请实施例提供的各装置可用于执行前述对应的实施例方法,因此本申请各装 置实施例所能获得到的技术效果可参考前述对应的方法实施例,此处不再赘述。
上述各模块可以指特定应用集成电路(application-specific integratedcircuit, ASIC),和/或执行一个或多个软件或固件程序的处理器和存储器,和/或集成逻辑电路, 和/或其他可以提供上述功能的器件。图10为计算机系统1000的硬件结构示意图,在一 个简单的实施例中,本领域的技术人员可以想到上述信息处理装置和神经网络的训练装置 可以采用图10所示的形式。
该计算机系统1000可以是终端或服务器,终端可以是台式设备或者移动终端,服务 器可以是独立的物理服务器、物理服务器集群或虚拟服务器。该计算机系统1000包括通过系统总线1001连接的处理器1002、非易失性存储介质1003、易失性存储器1004和网 络接口1005。
其中,处理器1002是计算机系统的控制中心,利用各种接口和线路连接整个计算机 系统的各个部分,通过运行或执行存储在非易失性存储介质1003或易失性存储器1004内 的软件程序和/或模块,以及调用存储在非易失性存储介质1003或易失性存储器1004内的数据,执行计算机系统1000的各种功能和处理数据,从而对计算机系统1000进行整体 监控。处理器1002可以是中央处理器、或者图形处理器、或者网络处理器、或者各处理 器的组合、或者数字信号处理器(digital signal processor,DSP)、或者专用集成电路(application specific integrated circuit,ASIC)、或者现成可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。
其中,非易失性存储器1003可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、 电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器1004 可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例 性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、 动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM, SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、 增强型同步动态随机存取存储器(enhanced sdram,ESDRAM)、同步连接动态随机存取存储 器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
图10以处理器1002包括中央处理器10021和图形处理器10022为例。该计算机系统1000的非易失性存储介质1003存储有操作系统,还可以存储有计算机可读指令,该计算 机可读指令被处理器1002执行时,可使得处理器1002实现上述任一实施例方法。该中央 处理器10021用于提供计算和控制能力,支撑整个计算机系统1000的运行,该图形处理 器10022用于执行图形处理指令。该易失性存储器1004中可存储有计算机可读指令,该 计算机可读指令被该处理器1002执行时,可使得该处理器1002执行上述任一实施例方法。
网络接口1005可以是一个或多个网络接口;网络接口1005可以是有线接口,例如光 纤分布式数据接口,也可以是无线接口。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结 构的框图,并不构成对本申请方案所应用于其上的计算机系统1000的限定,具体的计算机系统1000可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同 的部件布置。
上述实施例,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使 用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机 指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用 计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计 算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输, 例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如 同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个 网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机 能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如, DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类 似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况 下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方 式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没 有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。在本申请实施例中,“多个”指两个或两个以上。
本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为 比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如” 等词旨在以具体方式呈现相关概念。
在本申请的各实施例中,为了方面理解,进行了多种举例说明。然而,这些例子仅仅 是一些举例,并不意味着是实现本申请的最佳实现方式。
以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请 的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核 心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用 范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (43)

1.一种信息处理方法,其特征在于,包括:
获取初始样本集,所述初始样本集包括多个带有标签的样本,其中,一个样本携带的标签用于标识所述样本的类别;
确定所述多个带有标签的样本中每个样本的冗余权重,所述多个带有标签的样本中第一样本的冗余权重与所述第一样本的类间相似度相关,所述第一样本的类间相似度用于表示所述第一样本与所述多个带有标签的样本中所述第一样本所属类别以外的其他类别的样本之间的相似程度,其中,所述第一样本为所述每个样本中的任意一个;
根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到精简样本集,所述第一样本的冗余权重越小,其被选入所述精简样本集的可能性越高。
2.根据权利要求1所述的方法,其特征在于,所述第一样本的冗余权重与所述第一样本的类间相似度负相关。
3.根据权利要求1或2所述的方法,其特征在于,所述第一样本的类间相似度为根据所述第一样本与所述其他类别的样本的聚类中心之间的距离确定的。
4.根据权利要求3所述的方法,其特征在于,所述其他类别包括第1类别、第2类别、……、和第n类别,其中,n为大于1的整数;
所述第一样本的类间相似度为根据所述第一样本的类间距离集中的最小距离确定的,所述第一样本的类间距离集包括所述第一样本与所述第1类别的样本的聚类中心之间的距离、所述第一样本与所述第2类别的样本的聚类中心之间的距离、……、和所述第一样本与所述第n类别的样本的聚类中心之间的距离。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一样本的冗余权重与所述第一样本的类内相似度正相关,所述第一样本的类内相似度用于表示所述第一样本与其所属类别中其他样本之间的相似程度。
6.根据权利要求5所述的方法,其特征在于,所述第一样本的类内相似度为根据所述第一样本与其所属类别的样本的聚类中心之间的距离确定的。
7.根据权利要求1至6中任一项所述的方法,其特征在于,在得到所述精简样本集之后,所述方法还包括:
基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为在得到所述精简样本集的过程中从所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
8.根据权利要求7所述的方法,其特征在于,所述基于所述精简样本集训练神经网络,包括:
基于所述精简样本集对所述神经网络进行第j次迭代训练,j为正整数。
9.根据权利要求8所述的方法,其特征在于,在所述基于所述精简样本集对所述神经网络进行第j次迭代训练之后,所述方法还包括:
根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到第j+1精简样本集;
基于所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
10.根据权利要求8所述的方法,其特征在于,第j次迭代训练处于学习率上升阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例正相关。
11.根据权利要求8所述的方法,其特征在于,第j次迭代训练处于学习率下降阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例负相关。
12.根据权利要求5或6所述的方法,其特征在于,所述第一样本的冗余权重和所述第一样本的类内相似度与类间相似度的比值相关。
13.根据权利要求12所述的方法,其特征在于,若第二样本的类内相似度与所述第二样本的类间相似度的比值与第三样本的类内相似度与所述第三样本的类间相似度的比值相同,则所述第二样本的冗余权重与所述第三样本的冗余权重相同,其中,所述第二样本和所述第三样本为所述多个带有标签的样本中的任意两个样本。
14.根据权利要求12所述的方法,其特征在于,若第四样本的类内相似度与所述第四样本的类间相似度的比值大于第五样本的类内相似度与所述第五样本的类间相似度的比值,则所述第四样本的冗余权重大于所述第五样本的冗余权重,其中,所述第四样本和所述第五样本为所述多个带有标签的样本中的两个样本。
15.根据权利要求13或14所述的方法,其特征在于,所述第一样本的冗余权重为所述第一样本被从所述初始样本集中去除的概率;
第六样本为所述多个带有标签的样本中的任意一个样本,若所述第六样本的类内相似度与所述第六样本的类间相似度相同,则第六样本的冗余权重为0.5。
16.一种神经网络的训练方法,其特征在于,包括:
获取初始样本集,所述初始样本集包括多个样本;
从所述初始样本集中去除部分样本,以得到精简样本集;
基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为从所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
17.根据权利要求16所述的方法,其特征在于,所述基于所述精简样本集训练神经网络,包括:
基于所述精简样本集对所述神经网络进行第j次迭代训练,j为正整数。
18.根据权利要求17所述的方法,其特征在于,在所述基于所述精简样本集对所述神经网络进行第j次迭代训练之后,所述方法还包括:
根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到第j+1精简样本集;
基于所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
19.根据权利要求17所述的方法,其特征在于,第j次迭代训练处于学习率上升阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例正相关。
20.根据权利要求17所述的方法,其特征在于,第j次迭代训练处于学习率下降阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例负相关。
21.一种信息处理装置,其特征在于,包括:
获取模块,用于获取初始样本集,所述初始样本集包括多个带有标签的样本,其中,一个样本携带的标签用于标识所述样本的类别;
权重确定模块,用于确定所述多个带有标签的样本中每个样本的冗余权重,所述多个带有标签的样本中第一样本的冗余权重与所述第一样本的类间相似度相关,所述第一样本的类间相似度用于表示所述第一样本与所述多个带有标签的样本中所述第一样本所属类别以外的其他类别的样本之间的相似程度,其中,所述第一样本为所述每个样本中的任意一个;
精简模块,用于根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到精简样本集,所述第一样本的冗余权重越小,其被选入所述精简样本集的可能性越高。
22.根据权利要求21所述的装置,其特征在于,所述第一样本的冗余权重与所述第一样本的类间相似度负相关。
23.根据权利要求21或22所述的装置,其特征在于,所述第一样本的类间相似度为根据所述第一样本与所述其他类别的样本的聚类中心之间的距离确定的。
24.根据权利要求23所述的装置,其特征在于,所述其他类别包括第1类别、第2类别、……、和第n类别,其中,n为大于1的整数;
所述第一样本的类间相似度为根据所述第一样本的类间距离集中的最小距离确定的,所述第一样本的类间距离集包括所述第一样本与所述第1类别的样本的聚类中心之间的距离、所述第一样本与所述第2类别的样本的聚类中心之间的距离、……、和所述第一样本与所述第n类别的样本的聚类中心之间的距离。
25.根据权利要求21至24中任一项所述的装置,其特征在于,所述第一样本的冗余权重与所述第一样本的类内相似度正相关,所述第一样本的类内相似度用于表示所述第一样本与其所属类别中其他样本之间的相似程度。
26.根据权利要求25所述的装置,其特征在于,所述第一样本的类内相似度为根据所述第一样本与其所属类别的样本的聚类中心之间的距离确定的。
27.根据权利要求21至26中任一项所述的装置,其特征在于,所述装置还包括训练模块;
所述训练模块用于,在得到所述精简样本集之后,基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为在得到所述精简样本集的过程中从所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
28.根据权利要求27所述的装置,其特征在于,所述训练模块用于:
基于所述精简样本集对所述神经网络进行第j次迭代训练,j为正整数。
29.根据权利要求28所述的装置,其特征在于,所述精简模块还用于:
在所述训练模块对所述神经网络进行第j次迭代训练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到第j+1精简样本集,j为正整数;
所述训练模块还用于,基于所述精简模块得到的所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
30.根据权利要求28所述的装置,其特征在于,第j次迭代训练处于学习率上升阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例正相关。
31.根据权利要求28所述的装置,其特征在于,第j次迭代训练处于学习率下降阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例负相关。
32.根据权利要求25或26所述的装置,其特征在于,所述第一样本的冗余权重和所述第一样本的类内相似度与类间相似度的比值相关。
33.根据权利要求32所述的方法,其特征在于,若第二样本的类内相似度与所述第二样本的类间相似度的比值与第三样本的类内相似度与所述第三样本的类间相似度的比值相同,则所述第二样本的冗余权重与所述第三样本的冗余权重相同,其中,所述第二样本和所述第三样本为所述多个带有标签的样本中的任意两个样本。
34.根据权利要求32所述的方法,其特征在于,若第四样本的类内相似度与所述第四样本的类间相似度的比值大于第五样本的类内相似度与所述第五样本的类间相似度的比值,则所述第四样本的冗余权重大于所述第五样本的冗余权重,其中,所述第四样本和所述第五样本为所述多个带有标签的样本中的两个样本。
35.根据权利要求33或34所述的方法,其特征在于,所述第一样本的冗余权重为所述第一样本被从所述初始样本集中去除的概率;
第六样本为所述多个带有标签的样本中的任意一个样本,若所述第六样本的类内相似度与所述第六样本的类间相似度相同,则第六样本的冗余权重为0.5。
36.一种神经网络的训练装置,其特征在于,包括:
获取模块,用于获取初始样本集,所述初始样本集包括多个样本;
精简模块,用于从所述初始样本集中去除部分样本,以得到精简样本集;
训练模块,用于基于所述精简样本集训练神经网络,所述神经网络的学习率与取样比例相关,所述取样比例为从所述初始样本集中去除的样本的数目与所述初始样本集中样本的数目之间的比例。
37.根据权利要求36所述的装置,其特征在于,训练模块用于:
基于所述精简样本集对所述神经网络进行第j次迭代训练,j为正整数。
38.根据权利要求37所述的装置,其特征在于,所述精简模块还用于:
在所述训练模块对所述神经网络进行第j次迭代训练之后,根据所述多个带有标签的样本中每个样本的冗余权重,从所述初始样本集中去除部分样本,以得到第j+1精简样本集,j为正整数;
所述训练模块还用于,基于所述精简模块得到的所述第j+1精简样本集对所述神经网络进行第j+1次迭代训练。
39.根据权利要求37所述的装置,其特征在于,第j次迭代训练处于学习率上升阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例正相关。
40.根据权利要求37所述的装置,其特征在于,第j次迭代训练处于学习率下降阶段,所述神经网络在第j次迭代训练的学习率与所述取样比例负相关。
41.一种计算机系统,其特征在于,包括处理器和存储器,所述处理器在运行所述存储器存储的计算机指令时,执行如权利要求1至20中任一项所述的方法。
42.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至20中任一项所述的方法。
43.一种计算机程序产品,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至20中任一项所述的方法。
CN201911083136.2A 2019-09-18 2019-11-07 信息处理方法、装置及存储介质 Active CN112529029B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910883302 2019-09-18
CN2019108833020 2019-09-18

Publications (2)

Publication Number Publication Date
CN112529029A true CN112529029A (zh) 2021-03-19
CN112529029B CN112529029B (zh) 2024-09-13

Family

ID=74974620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911083136.2A Active CN112529029B (zh) 2019-09-18 2019-11-07 信息处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112529029B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273579A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN117932337A (zh) * 2024-01-17 2024-04-26 广芯微电子(广州)股份有限公司 一种基于嵌入式平台训练神经网络的方法及装置
EP4390919A3 (en) * 2021-06-18 2024-09-25 My Voice AI Limited Methods for improving the performance of neural networks used for biometric authentication

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868483A (zh) * 2016-04-11 2016-08-17 贵州大学 一种铸钢流动性预测方法
CN109657792A (zh) * 2018-12-19 2019-04-19 北京世纪好未来教育科技有限公司 构建神经网络的方法、装置和计算机可读介质
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110245721A (zh) * 2019-06-25 2019-09-17 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868483A (zh) * 2016-04-11 2016-08-17 贵州大学 一种铸钢流动性预测方法
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN109657792A (zh) * 2018-12-19 2019-04-19 北京世纪好未来教育科技有限公司 构建神经网络的方法、装置和计算机可读介质
CN110188641A (zh) * 2019-05-20 2019-08-30 北京迈格威科技有限公司 图像识别和神经网络模型的训练方法、装置和系统
CN110245721A (zh) * 2019-06-25 2019-09-17 深圳市腾讯计算机系统有限公司 神经网络模型的训练方法、装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晓晔;张继东;孙济洲;: "一种高效的分类规则挖掘算法", 计算机工程与应用, no. 33, pages 174 - 176 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4390919A3 (en) * 2021-06-18 2024-09-25 My Voice AI Limited Methods for improving the performance of neural networks used for biometric authentication
WO2023273579A1 (zh) * 2021-06-30 2023-01-05 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN117932337A (zh) * 2024-01-17 2024-04-26 广芯微电子(广州)股份有限公司 一种基于嵌入式平台训练神经网络的方法及装置
CN117932337B (zh) * 2024-01-17 2024-08-16 广芯微电子(广州)股份有限公司 一种基于嵌入式平台训练神经网络的方法及装置

Also Published As

Publication number Publication date
CN112529029B (zh) 2024-09-13

Similar Documents

Publication Publication Date Title
US11537884B2 (en) Machine learning model training method and device, and expression image classification method and device
WO2020238293A1 (zh) 图像分类方法、神经网络的训练方法及装置
CN109948149B (zh) 一种文本分类方法及装置
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN109857860A (zh) 文本分类方法、装置、计算机设备及存储介质
CN112257449B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN110046249A (zh) 胶囊网络的训练方法、分类方法、系统、设备及存储介质
CN109086653B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
EP3620982B1 (en) Sample processing method and device
CN110364185B (zh) 一种基于语音数据的情绪识别方法、终端设备及介质
CN112529029A (zh) 信息处理方法、神经网络的训练方法、装置及存储介质
CN111368937A (zh) 图像分类方法、装置、及其训练方法、装置、设备、介质
CN112418059B (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111915004A (zh) 神经网络的训练方法、装置、存储介质及电子设备
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN114329029A (zh) 对象检索方法、装置、设备及计算机存储介质
Passalis et al. Deep supervised hashing using quadratic spherical mutual information for efficient image retrieval
Sidaoui et al. Binary tree multi-class SVM based on OVA approach and variable neighbourhood search algorithm
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
CN113987188A (zh) 一种短文本分类方法、装置及电子设备
CN111091198B (zh) 一种数据处理方法及装置
CN113221662B (zh) 人脸识别模型的训练方法及装置、存储介质、终端
CN115114483A (zh) 处理图数据的方法
CN111221880B (zh) 特征组合方法、装置、介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant