CN108229649A - 用于深度学习训练的方法和设备 - Google Patents

用于深度学习训练的方法和设备 Download PDF

Info

Publication number
CN108229649A
CN108229649A CN201710800049.9A CN201710800049A CN108229649A CN 108229649 A CN108229649 A CN 108229649A CN 201710800049 A CN201710800049 A CN 201710800049A CN 108229649 A CN108229649 A CN 108229649A
Authority
CN
China
Prior art keywords
bounding box
label
class
deep learning
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710800049.9A
Other languages
English (en)
Other versions
CN108229649B (zh
Inventor
穆斯塔法·艾尔可哈米
杜先之
李正元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN108229649A publication Critical patent/CN108229649A/zh
Application granted granted Critical
Publication of CN108229649B publication Critical patent/CN108229649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

描述用于深度学习训练的方法和设备。在一个方面,使用软标签对诸如图像中的检测边界框或输入音频特征的音素的候选单元进行分类,其中,在图像的情况下,标签至少具有基于检测边界框与一个或多个类的地面实况边界框的重叠的0到1之间的可能的值的范围。

Description

用于深度学习训练的方法和设备
本申请要求于2016年12月22日提交到美国专利商标局的第62/438,177号美国临时申请、于2016年12月23日提交到美国专利商标局的第62/438,795号美国临时申请以及于2017年5月5日提交到美国专利商标局的第15/588,223号美国非临时申请的优先权,这些申请的全部内容通过引用包含于此。
技术领域
本公开总体涉及深度神经网络,更具体地说,涉及用于训练深度学习分类网络的系统和方法。
背景技术
机器学习技术不断发展并且已经支持现代社会的从网络搜索、内容过滤、商业网站自动推荐、自动游戏到对象检测、图像分类、语音识别、机器翻译、药物研发和基因学的许多方面。机器学习领域的当前水平是深度神经网络,其使用由多个处理层组成的计算模型,所述多个处理层学习具有多个抽象级的数据(通常是极大量的数据)表示,因此使用术语“深度学习”、“深度网络”等。参见例如LeCun,Yann,Yoshua Bengio和Geoffrey Hinton,“Deep learning”,Nature,vol.521,pp.436-444(2015年5月28日),其全部内容通过引用整体包含于此。
用于对象检测和分类的机器学习的第一阶段是训练。对于图像,使用例如人、宠物、汽车和房屋的大的图像数据集进行训练,其中,每个图像或图像内的部分使用相应的类别或类添加标签。存在大量公开可用的数据集。这种涉及图像的训练可分为两个部分/阶段:(1)检测,其中,在图像内检测候选/检测框(通常基于框内的对象/类的置信水平,但也可以仅仅是随机剪裁(random crops)),(2)分类,其中,标签根据检测框与“地面实况”(ground-truth)框(即,数据集的图像中已知的包含对象/类的框)的重叠被分配给检测框。
发明内容
因此,已做出本公开以解决至少这里描述的问题和/或缺点,并提供至少下面描述的优点。
根据本公开的一方面,提供了一种用于深度学习训练的方法,包括:接收用于分类的候选单元并通过软标签对候选单元进行分类,其中,软标签提供包括在0和1之间的范围内的多个可能值的至少一个标签。
根据本公开的一方面,提供了一种用于深度学习训练的设备,包括:一个或多个非暂时性计算机可读介质以及至少一个处理器,当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时,所述处理器执行接收用于分类的候选单元和通过软标签对候选单元进行分类的步骤,其中,软标签提供包括在0和1之间的范围内的多个可能值的至少一个标签。
根据本公开的一方面,提供了一种用于制造用于深度学习训练的设备的方法,包括:提供至少一个处理器,当执行存储在一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行接收用于分类的候选单元和通过软标签对候选单元进行分类的步骤,其中,软标签提供包括在0和1之间的范围内的多个可能值的至少一个标签;以及提供存储所述指令的所述一个或多个非暂时性计算机可读介质。
根据本公开的一方面,提供了一种用于测试用于深度学习训练的设备的方法,包括:测试该设备是否具有至少一个处理器,当执行存储在一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行深度学习训练,所述深度学习训练包括接收用于分类的候选单元和通过软标签分类候选单元,其中,软标签提供包括在0和1之间的范围内的多个可能值的至少一个标签;以及测试设备是否具有存储所述指令的所述一个或多个非暂时性计算机可读介质。
附图说明
通过下面结合附图进行的详细描述,本公开的特定实施例的上述和其它方面、特征和优点将会更加清楚,其中:
图1示出可应用本公开的实施例的深度学习训练过程的分类阶段中的检测框110和类/对象A的地面实况框120的示例;
图2示出根据实施例的使用检测框210和地面实况框220的软标签分配方案的示例;
图3示出根据实施例的当存在多个类(即,多个地面实况框)时的软标签分配方案的示例;
图4是示出根据一个实施例的深度学习训练的总体方法的流程图;
图5示出根据一个实施例的本设备的示例性示图;
图6示出根据一个实施例的用于制造和测试本设备的示例性流程图。
具体实施方式
以下,将参照附图详细描述本公开的实施例。应当注意,即使相同的元件在不同的示图中示出,它们也由相同的参考标号指定。在下面的描述中,仅提供诸如详细配置和部件的具体细节来帮助全面理解本公开的实施例。因此,对于本领域技术人员来说清楚的是,在不脱离本公开的范围的情况下,可对在此描述的实施例进行各种变动和修改。此外,为了清楚和简明,省略了公知的功能和结构的描述。下面描述的术语是考虑到本公开中的功能而定义的术语,并且可根据用户、用户的意图或习惯而不同。因此,应基于贯穿说明书的内容来确定术语的定义。
本公开可具有各种修改和各种实施例,其中,以下参考附图详细描述实施例。然而,应当理解,本公开不限于实施例,而是包括本公开的范围内的所有修改、等同物和替代物。
虽然包括诸如“第一”和“第二”的序数的术语可用于描述各种元件,但结构元件不受这些术语限制。这些术语仅用于将一个元件与另一个元件区分开。例如,在不脱离本公开的范围的情况下,第一结构元件可称为第二结构元件。类似地,第二结构元件可称为第一结构元件。如在此使用的,术语“和/或”包括一个或多个相关项的任意组合和所有组合。
术语在此仅用于描述本公开的各种实施例,但并不意图限制本公开。除非上下文清楚地另有所指,否则单数形式也意在包括复数形式。应当理解,术语“包括”或“具有”表示特征、数量、步骤、操作、结构元件、部件或它们的组合的存在,并不排除一个或多个其它特征、数量、步骤、操作、结构元件、部件或它们的组合的存在或添加的可能性。
除非不同地定义,否则在此使用的所有术语具有与本公开所属领域的技术人员所理解的含义相同的含义。除非在本公开中明确定义,否则诸如在通用字典中定义的术语应被解释为具有与相关领域中的上下文含义相同的含义,并不被解释为具有理想或过于正式的含义。
各种实施例可包括一个或多个元件。元件可包括布置成执行特定操作的任何结构。虽然作为示例,可使用特定布置中的有限数量的元件来描述实施例,但是实施例可针对给定实现包括所需的可选布置中的更多或更少的元件。值得注意的是,对“一个实施例”或“实施例”的任何引用意味着结合实施例描述的特定特征、结构或特性包括在至少一个实施例中。在本说明书的各个位置出现短语“一个实施例”(或“实施例”)不一定表示相同的实施例。
在本申请中,术语“框”可以与术语“边界框”互换。
本申请涉及应用于获取、处理、分析和理解数字图像的方法的机器学习,例如用于图像或图像的部分中的对象检测、对象识别和对象分类。
本公开的实施例指向“软标签”(以下更充分描述),其在训练过程期间提供更高的效率和准确性。
一般来说,关于图像的标签用于基于检测候选边界框与一个或多个类/对象/类别的地面实况边界框的重叠,将所述一个或多个类/对象/类别分配给检测候选边界框。
图1示出分类阶段中的检测框110和类/对象A的地面实况框120的示例。检测(边界)框110覆盖区域并且地面实况(边界)框120覆盖区域对于类/对象A的检测框110的标签通常在分类阶段根据等式(1)确定:
其中是检测框110和地面实况框120的重叠区域,如图1中参考标号115指示的阴影区所示,是检测框110与地面实况框120的区域的并集(即检测框110和地面实况框120的全部的区域之和减去阴影区域115)。
根据等式(1),对于类/对象A的检测框110的标签是简单二进制值,其中,当检测框110的一半以上与地面实况框120重叠时,标签=1;当检测框110的区域的一半或少于一半与地面实况框120重叠时,标签=0。在图1中,由于重叠的区域小于一半,因此对于类/对象A,检测框110的标签是0。
这些标签被用于确定和纠正机器错误的部分。一般来说,在训练中,机器修改其内部可调参数,以减少从目标函数计算的误差。在这种情况下,目标函数可被认为是通过根据已知的地面实况框生成检测框标签来测量误差(或距离)。机器的内部可调参数(通常称为权重)用于定义机器的输入输出函数。在典型的深度学习系统中,可能有数亿的这样的可调权重/参数以及用于训练机器的数亿的添加标签的示例。
因此,训练期间添加标签影响深度学习机器/网络的效率和准确性。
如上所述,关于每个类/对象/类别的每个检测候选边界框的常规标签是1或0(以下将这种离散的二进制标签称为“硬标签”)。然而,在训练阶段期间,硬标签导致确定机器的内部可调参数/权重方面的精度损失。
训练时,给定标签t和观测特征z的参数θ的似然性最大化相当于误差ε最小化,即等式(2)中所示的负对数似然函数最小化,
其中,C是类的总数,ti是类i的标签(其中,i=1,2,…,C),yi是给定观测特征z的类i的柔性最大值传输函数(softmax)概率。例如,yc是给定观测特征z的类c的柔性最大值传输函数(softmax)概率(即,P(t=c|z)),可使用等式(3)计算:
然而,当用硬标签进行训练时,根据输入特征z的地面实况标签,仅类C为真类时,tc等于1,否则等于0。参见例如上述等式(1)。这意味着,只有真类C的最大值传输函数概率有助于等式(2)中的求和。
在本公开的实施例中,标签不是二进制的,而是可取从0到1的任何值,即,tc是[0,1]之间的浮点值(以下称为“软标签”)。以这种方式,等式(2)中的损失可被计算为所有类的所有最大值传输函数概率(大和小)的加权和。如本领域普通技术人员所理解,虽然以下讨论几种特定的分配技术,但是用于在软标签中分配[0,1]之间的浮点值的可能选项几乎是无穷的。
在讨论使用软标签分配方案的例子之前,必须确认软标签仍然允许执行适当的反向传播。等式(2)中的对数似然函数-logL(θ|t,z)也是交叉熵误差函数ξ(t,z)。当针对类i进行反向传播时,相对于观测输入zi的最大值传输函数的交叉熵误差函数的导数可如等式(4)所示计算:
因此,如本领域普通技术人员所理解,只要∑j=1:Ctj=1,即,只要针对相同输入特征的所有类的标签总和为1,这对于硬标签和软标签都是正确的。换句话说,因为标签的总和是一致的,所以上面等式(4)仍然适用于软标签。
图2示出根据一个实施例的使用检测框210和地面实况框220的软标签分配方案的示例。
在图2中,检测框210覆盖区域地面实况框220覆盖区域它们在交集区域215相交。在图2中有两个类,“A”和“背景”,因此检测框210需要两个标签,分别为:LA和Lbg。根据等式(5)(a)和等式(5)(b)确定对于类/对象A和类/对象背景的检测框210的标签:
其中,是检测框210和地面实况框220的交集/重叠区域,如图2中的参考标号215指示的阴影区域所示。因此,在等式(5)(a)中,标签LA等于通过检测框210的区域归一化的两个框的交集区域215,而标签Lbg等于归一化的剩余数,即1减去类A的软标签LA。该软标签方法满足约束条件
在根据本公开的实施例的另一软标签分配方案中,阈值用于在0、1和可变值之间进行选择,其中,通过交集与整个检测框的比例确定所述可变值。更具体地,使用图2中的框作为示例,根据等式(6)(a)和等式(6)(b)确定对于类/对象A和类/对象背景的检测框210的标签:
Lbg=1-LA (6)(b)
其中,如果交集区域大于阈值b,则LA=1;如果交集区域小于阈值a,则LA=0;否则LA=交集的归一化值(即交集除以检测框的总面积)。因为这种软标签方案将0和1分配给区域范围,所以它可被认为是软标签和硬标签的组合,或者称为“混合”标签方案。然而,使用[0,1]中的值的范围的任何标签分配方案都是软标签,即使0和1也分配给其他标签。
图3示出根据一个实施例的当存在多个类(即,多个地面实况框)时的软标签分配方案的示例。换句话说,图2只考虑类A和默认类(背景),而图3考虑类A和类B以及默认类(背景)。
在图3中,检测框310覆盖区域类A的地面实况框320覆盖区域类B的地面实况框330覆盖区域所有三个框相交的区域由网格框345表示,仅有检测框310和类A的地面实况框320的区域由反Γ形的(reverse-Γ-shaped)、水平线部分325表示,并且仅有检测框310和类B的地面实况框330的区域由L型的、垂直线部分335表示。因此,检测框310和类A的地面实况框320的总重叠是网格框345和水平线部分325二者 检测框310和类B的地面实况框330的总重叠是网格框345和垂直线部分335二者网格框345不仅是所有三个框的重叠,而且是两个地面实况框的重叠,因此
根据本公开的一个实施例,对于类/对象A、类/对象B和背景的检测框310的标签LA、LB和Lbg根据等式(7)(a)至等式(7)(C)来确定:
Lbg=1-LA-LB (7)(c)
因此,在等式(7)(a)和等式(7)(b)中,在归一化(即,除以检测框310的总面积)之前,从检测框310和类A的地面实况框320的交集/重叠和检测框310和类B的地面实况框330的交集/重叠 中的每个减去类A的地面实况框320和类B的地面实况框330的重叠/交集的一半。
换句话说,当分配标签时,在地面实况框之间划分地面实况框的重叠区域。
在另一实施例中,重叠区域被分配给具有最高置信分数的类(来自之前的检测阶段)。例如,如果检测框310对于类A具有较高的置信分数,则根据等式(8)(a)到等式(8)(c),确定对于类/对象A、类/对象B和背景的检测框310的标签LA、LB和Lbg
Lbg=1-LA-LB (8)(c)
参照图3以及上述等式(7)(a)到等式(7)(c)和等式(8)(a)到等式(8)(c)描述的两种分配方案可推广到任意数量的类。
在本公开的一个实施例中,使用主要对象检测和分类框架,例如用作对象候选生成器的单次拍摄检测器(SSD),来生成检测框。然后,候选检测通过次级分类网络进一步分类以属于感兴趣的类。关于这样的框架的更多细节,参见Du等人的Fused DNN:A deepneural network fusion approach to fast and robust pedestrian detection,arXiv:1610.034466v1(2016年10月11日),其过引用整体包含于此。在这个框架下,来自主要网络的候选对象检测与地面实况框重叠,以通过对象的种类/类型进一步添加标签。在本公开的实施例中,使用如上所述的每个类的相对重叠区域,通过软标签来训练次级分类网络。相比之下,传统的硬标签根据两个框的交集与它们的并集面积之比是否大于50%(即,上述等式(1))来生成,并且仅可应用于一个类和默认背景类。
在使用ETH和INRIA数据集(如Ess等人所定义的,A mobile vision system forrobust multi-person tracking,IEEE计算机视觉与模式识别会议(CVPR'08),IEEEPress,2008年6月,通过引用整体包含于此)训练深度学习机器(即ResNet和GoogleNet)来检测图像中的行人的实验/模拟中,应用使用阈值/边界的软标签技术,如上述等式(6)(a)到等式(6)(b)。具体来说,重叠的下限阈值为0.3,低于该下限阈值时,将分配标签0,上限阈值为0.7,高于该上限阈值时,将分配标签1。在0.3到0.7之间,可变值的范围被分配为标签,具体值取决于所使用的具体等式(例如,等式(5)(a)、等式(6)(a)、等式(7)(a)、等式(7)(c)等)。在另一个实验/模拟中,阈值为0.4和0.6。
由于候选边界框与地面实况边界框之间的重叠比例用于分配标签,所以软标签方法不仅指示每个候选边界框中是否存在行人(即对象),而且还给出行人在每个候选边界框(包含行人的候选边界框)中占用多大区域。这在重叠比例约为0.5并且硬标签方法处于边缘的边界情况下特别有用。混合软硬标签方法的行人漏检率性能比较从ETH数据集上通过硬标签法实现的33%的行人漏检率提高到30.4%。
根据本公开的软标签可应用于诸如基于区域的卷积神经网络(R-CNN)的多任务深度学习方法。例如,参见Ren等人,Faster R-CNN:Towards Real-Time Object Detectionwith Region Proposal Networks,arXiv:1506.01497v3(2016年1月6日),其通过引用整体包含于此。在这样的网络中,区域提议网络(RPN)提供对象/无对象检测。然后,这些检测按照感兴趣区域(ROI)分类层进一步分类为k个类之一。在应用软标签的实施例中,软标签从来自RPN的检测输入产生。可以使用任何软标签分配方案,包括使用多个级别的阈值,如果0和1在两个层中被分配,则可将该软标签分配方案称为涉及软标签和硬标签的“混合”方案,但是根据这里所使用的术语的含义,被恰当地称为软标签分配方案。与硬标签相比,软标签提供更高的精度和准确性,硬标签在多任务深度学习方法中从仅对应于真实类的检测反向传播梯度。
在上述实施例中,假设有两个阶段:检测和分类,其中,检测阶段生成类/对象检测框以及类/对象地面实况框,它们的相对重叠比例用于在分类阶段中分配软标签。因此,分类阶段可被视为努力确定每个检测候选的每个类的先验概率(priori probability),其中,概率之和为1。然而,通常,软标签技术更广泛地适用,并且不需要检测阶段。
概括而言,根据本公开的软标签可用作基于输入特征生成用于分类的先验概率的机制。如本领域普通技术人员将会理解的,实现以产生这种先验概率的具体方法取决于上下文。
在非检测框架中的分类的上下文中,可使用其他侧面信息来提取和分配软标签,例如,通过诸如在非深度快速分类系统(它们在没有单独的检测阶段的情况下给出每个类的先验概率)中使用的二级分类机制或较简单的低复杂度分类机制产生所述其他侧面信息。所述侧面信息是不由被观察对象直接提供的关于检测对象的任何信息。
例如,用于自动语音处理的声学建模的电话分类系统可使用根据本公开的软标签。“音素(phone)”类似于“音位(phoneme)”,但更少的抽象,无论声音对于词的含义是否至关重要,并且不管涉及的语言,音素都是不同的语音,而音位则涉及意义,并且只能参照具体语言进行讨论。简单来说,“音素”是由人声制成的声音单元。
因此,音素分类系统和图像分类系统之间的一个关键区别在于,在声学层面上没有音素分类的地面实况,而是,地面实况只存在于文字或字母的层面。因此,使用其他机制来给出初步分类,然后用于生成训练集中的每个输入特征元素的每个类的软标签。
在声学模型分类中,每个输入声学特征对于最佳匹配音素通常标记为1,否则为0。这种二进制标签在称为对齐(alignment)的过程中通过对来自诸如隐马尔可夫模型(HMM),高斯混合模型HMM(GMM-HMM)或另外的简单神经网络的简单机制的分类分数进行硬判决解码来产生。
在根据本公开的实施例中,代替基于硬判决解码的硬判决标签,可从来自简单模型/机制(例如,上述的HMM和GMM-HMM分类机制,或更简单的预训练神经网络)的分类分数直接生成软标签。可选择地,可以在输入声学特征帧上从列表解码器提取软标签。列表解码器提供最可能的音素序列的列表,而非列表解码器仅提供最合理的音素序列。声学特征帧对应于观测到的语音的声学特征的时间窗口。选择L个最佳路径,从中可为每个可能的音素提取软分类标签,以对应于每个对齐的输入声学特征。可以配置这些软标签来训练整个分类网络。
在一个实施例中,使用最大似然解码来提取软标签。给定输入声学特征向量F,T是通过音素p的网格的所有可能路径的集合,即:T是用于输入声学特征向量F的音素p的所有可能的对齐序列Si的集合。然后,将被分类的序列Si中的第k帧的软标签是Si,k可被分类为可能的音素p之一的概率,如等式(9)所示:
从上述等式(9)可看出,该软标签方案也满足如上参照等式(4)讨论的所有类的总和是1的标签标准。换句话说,如果C是所有可能的音素的集合,则
可从路径的聚合度量计算给定输入声学特征向量F的第i个可能序列Si的概率P(Si|F)。
如果使用距离度量,其中,第i个可能序列Si具有长度N,则可被视为平方距离度量的Mi可如等式(10)(a)所示来确定:
Mi=∑k1:N(Si,k-Fk)2 (10)(a)
似然性与平方距离度量成反比,并且可由等式(10)(b)给出:
本领域技术人员众所周知,前向-后向算法可用于估计没有指数复杂性的最大后验(MAP)解P(Si,k=p|F)。
如果使用利用非MAP解码器仅输出L最佳序列的列表解码方案或L最佳解码器,则通过将等式(9)的总和仅限制为L最佳序列,可以进一步降低复杂度。在数学术语中,如果TL对应于从列表解码器或L最佳解码器输出的具有大小L的序列的T的子集,则在(集合TL内)序列Si中的第k帧的软标签是Si,k可被分类为可能的音素p之一的概率,如等式(11)所示:
如上述的实施例所示,这里描述的软标签技术具有许多新颖方面,包括在分类阶段中基于检测边界框和地面实况边界框之间交集区域为图像添加标签。软标签提供了非常广泛的可行的分配方案,例如,0或1的标签值可基于检测边界框和地面实况边界框之间的交集区域与0和1之间的可变标签值一起使用(例如,参见上面的等式(6)(a))。虽然有时称为“混合”或硬标签和软标签的组合,但是这种分配方案在本公开中被适当地涵盖在术语“软标签”下。
如上所述,实验结果表明,当使用几个流行的数据集执行对象检测时,软标签优于硬标签。
当多个地面实况边界框在检测边界框内彼此重叠时,根据本公开可使用许多方法来确保标签值的总和仍然为一。上面讨论的两个例子分割类之间的重叠区域(例如,参见参考等式(7)(a)至等式(7)(c)的描述),并将整个重叠区域分配给具有来自检测阶段的最高置信分数的类(例如,参见参考等式(8)(a)至等式(8)(c)的描述)。然而,本领域普通技术人员将认识到,可使用许多其他方法,使得可在标签分配方案中操纵与检测边界框重叠的多个类以确保概率(标签值)之和仍然为一。
此外,这里描述的软标签技术不限于图像分析和/或具有检测和分类阶段的深度学习系统。如上所述,软标签技术可以以与图像分析相同的方式用于应用于声学建模和语音识别的深度学习机器/系统,其中,所述应用于声学建模和语音识别的深度学习机器/系统自身不具有检测阶段。再一次强调,这些仅仅是示例,本领域普通技术人员将认识到,根据本公开的软标签可用于训练具有其他应用的深度学习机器/系统。
图4是示出根据本公开的实施例的深度学习训练的一般方法的流程图。在410,接收用于分类的候选单元。对于用于图像的深度学习机器,检测阶段产生候选检测边界框,通常也具有置信分数。对于用于声音的深度学习机器,接收输入音频特征的音素。在420,通过软标签对候选单元进行分类,其中,至少一个标签具有0到1之间的取值范围。对于用于图像的深度学习机器,分类阶段至少部分地基于检测边界框与类的地面实况边界框的重叠来生成对于检测边界框的该类的软标签。对于用于声音的深度学习机器,输入音频特征的音素的软标签可直接从使用概率模型和/或使用神经网络(例如,隐马尔可夫模型(HMM)、高斯混合模型(GMM)、相对简单的预训练神经网络、最大似然解码、距离度量、软输出解码算法或列表解码方案)生成的分类分数来产生。
如上所述,根据本公开的软标签分配方案包括如下方案:只有一个标签具有0到1之间的取值范围,而一个或多个其他标签仅取0或1作为它们的值(这种方案也可被称为“混合”方案,从某种意义上说,“硬”标签只能是0或1,而“软”标签可具有0到1之间的取值范围)。
图5示出根据一个实施例的用于深度学习训练的设备的示例性示图。设备500包括至少一个处理器510和一个或多个非暂时性计算机可读介质520。当执行存储在一个或多个非暂时性计算机可读介质520上的指令时,所述至少一个处理器510执行接收用于分类的候选单元的步骤,以及通过软标签对候选单元进行分类的步骤,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。此外,所述一个或多个非暂时性计算机可读介质520存储用于所述至少一个处理器510执行上述步骤的指令。
图6示出了根据一个实施例的用于制造和测试设备的示例性流程图。
在650,制造能够进行深度学习训练的设备(在此实例中为芯片组),所述设备包括至少一个处理器和一个或多个非暂时性计算机可读介质。当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行接收用于分类的候选单元的步骤,以及通过软标签对候选单元进行分类的步骤,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。所述一个或多个非暂时性计算机可读介质存储用于所述至少一个处理器执行上述步骤的指令。
在660,测试该设备(在此实例中为芯片组)。测试660包括:测试该设备是否具有至少一个处理器,其中,当执行存储在一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行深度学习训练,深度学习训练包括以下步骤:接收用于分类的候选单元,并通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值;测试该设备是否具有存储用于所述至少一个处理器执行以下步骤的指令的一个或多个非暂时性计算机可读介质:接收用于分类的候选单元,并通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。
如本领域普通技术人员将理解的,以上关于本公开的实施例描述的步骤和/或操作可根据特定实施例和/或实现方式,以不同的顺序发生,或者并行发生,或者在不同时期内同时发生。不同的实施例可以以不同的顺序或以不同的方式或手段执行动作。如本领域普通技术人员将理解的,一些附图是所执行的动作的简化表示,它们在本文中的描述是简化的概述,实际的实现方式将更加复杂,需要更多的阶段和/或部件,并且也将根据具体实现方式的要求而变化。作为简化表示,这些附图不显示其他所需的步骤,这是因为,这些步骤可以被本领域普通技术人员已知和理解,并且可能与本描述不相关和/或无帮助。
类似地,如本领域普通技术人员将理解的,一些附图是仅示出相关部件的简化框图,并且这些部件中的一些仅表示本领域公知的功能和/或操作,而不是实际的硬件部件。在这种情况下,部分或全部部件/模块可通过各种方式和/或方式的组合来实现或提供,例如,至少部分地在固件和/或硬件中实现或提供,所述固件和/或硬件包括但不限于一个或多个专用集成电路(ASIC)、标准集成电路、执行适当指令并且包括微控制器和/或嵌入式控制器的控制器、现场可编程门阵列(FPGA),复杂可编程逻辑器件(CPLD)等等。系统组件和/或数据结构中的一些或全部也可作为内容(例如,作为可执行的或其他机器可读的软件指令或结构化数据)存储在非暂时性计算机可读介质(例如,硬盘、存储器、计算机网络或蜂窝无线网络、或其他数据传输介质、或由适当的驱动器或通过适当的连接来读取的便携式介质产品,诸如DVD或闪存装置)上,以使得或配置计算机可读介质和/或一个或多个相关联的计算系统或装置来执行或另外使用或提供内容,从而执行至少一些描述的技术。
无论是单独还是按照多处理布置,均可以采用一个或多个处理器、简单微控制器、控制器等来执行存储在非暂时性计算机可读介质上的指令序列,以实现本公开的实施例。在一些实施例中,可使用硬连线电路代替软件指令或与软件指令组合使用。因此,本公开的实施例不限于硬件电路、固件和/或软件的任何特定组合。
这里使用的术语“计算机可读介质”是指任何存储指令的介质,所述指令可被提供给处理器执行。这种介质可具有许多形式,包括但不限于非易失性和易失性介质。非暂时性计算机可读介质的常见形式包括,例如软盘、软磁盘、硬盘、磁带或任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或磁片盒、或存储可由处理器执行的指令的任何其它介质。
本公开的一些实施例可至少部分地在便携式装置上实现。这里使用的“便携式装置”和/或“移动装置”是指具有接收无线信号的能力的任何便携式或可移动电子设备,包括但不限于多媒体播放器、通信装置、计算装置、导航装置等。因此,移动装置包括(但不限于)用户设备(UE)、膝上型电脑、平板电脑、便携式数字助理(PDA)、MP3播放器、手持PC、即时通讯装置(IMD)、蜂窝电话、全球导航卫星系统(GNSS)接收器、手表或可佩戴和/或携带在人身上的任何此类设备。
如本领域技术人员将理解的,根据本公开,本公开的各种实施例可在集成电路(IC)中实现,集成电路(IC)也称为微芯片、硅芯片、计算机芯片或仅仅是“芯片”。这样的IC可以是例如宽带和/或基带调制解调器芯片。
虽然已经描述了几个实施例,但是应当理解,在不脱离本公开的范围的情况下,可以进行各种修改。因此,对于本领域普通技术人员将清楚的是,本公开不限于这里描述的任何实施例,而是具有仅由所附权利要求和它们的等同物限定的覆盖范围。

Claims (20)

1.一种用于深度学习训练的方法,包括:
接收用于分类的候选单元;
通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。
2.根据权利要求1所述的用于深度学习训练的方法,其中,所述候选单元是图像内的检测边界框或输入音频特征的音素。
3.根据权利要求1所述的用于深度学习训练的方法,其中,所述候选单元是检测边界框,
其中,软标签包括:
基于检测边界框与类的地面实况边界框的重叠区域,将类的标签提供给检测边界框。
4.根据权利要求3所述的用于深度学习训练的方法,其中,提供类的标签的步骤包括:
分配类的标签,其中,通过使用检测边界框与类的地面实况边界框的重叠区域得到类的标签的值。
5.根据权利要求3所述的用于深度学习训练的方法,其中,提供类的标签包括:
分配类的标签,其中,从关于检测边界框与类的地面实况边界框的重叠区域的比例得到类的标签的值。
6.根据权利要求5所述的用于深度学习训练的方法,其中,分配类的标签的步骤包括:
计算检测边界框与类的地面实况边界框的重叠区域与检测边界框的整个区域的比例。
7.根据权利要求3所述的用于深度学习训练的方法,其中,基于一个或多个阈值提供类的标签。
8.根据权利要求7所述的用于深度学习训练的方法,其中,提供类的标签的步骤包括:
如果基于检测边界框与类的地面实况边界框的重叠区域的值低于第一阈值,则分配值为0的类的标签;
如果基于检测边界框与类的地面实况边界框的重叠区域的值高于第二阈值,则分配值为1的类的标签;
如果基于检测边界框与类的地面实况边界框的重叠区域的值是第一阈值、第二阈值、或者在第一阈值和第二阈值之间,则将基于检测边界框与类的地面实况边界框的重叠区域的值分配给类的标签。
9.根据权利要求8所述的用于深度学习训练的方法,其中,基于检测边界框与类的地面实况边界框的重叠区域的值是检测边界框与类的地面实况边界框的重叠区域与检测边界框的整个区域的比例。
10.根据权利要求3所述的用于深度学习训练的方法,其中,还基于由提供检测边界框的检测阶段提供的一个或多个置信水平将类的标签提供给检测边界框。
11.根据权利要求3所述的用于深度学习训练的方法,其中,将类的标签提供给检测边界框的步骤包括:
基于检测边界框与第一类的地面实况边界框的重叠区域,将第一类的标签提供给检测边界框;
基于检测边界框与第二类的地面实况边界框的重叠区域,将第二类的标签提供给检测边界框。
12.根据权利要求11所述的用于深度学习训练的方法,其中,存在检测边界框、第一类的地面实况边界框和第二类的地面实况边界框的重叠区域,
其中,第一类的标签和第二类的标签还基于检测边界框、第一类的地面实况边界框和第二类的地面实况边界框的重叠区域。
13.根据权利要求1所述的用于深度学习训练的方法,其中,候选单元是输入音频特征的音素,
其中,软标签包括:
从来自概率模型或神经网络的分类分数直接生成软标签。
14.根据权利要求1所述的用于深度学习训练的方法,其中,候选单元是输入音频特征的音素,
其中,软标签包括:
从来自隐马尔可夫模型、高斯混合模型或预训练神经网络的分类分数直接生成软标签。
15.根据权利要求1所述的用于深度学习训练的方法,其中,候选单元是输入音频特征的音素,
其中,软标签包括:
使用最大似然解码、距离度量、软输出解码算法或列表解码方案生成软标签。
16.一种用于深度学习训练的设备,包括:
一个或多个非暂时性计算机可读介质;
至少一个处理器,当执行存储在所述一个或多个非暂性时性计算机可读介质上的指令时,所述至少一个处理器执行以下步骤:
接收用于分类的候选单元;
通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。
17.根据权利要求16所述的用于深度学习训练的设备,其中,候选单元是检测边界框,
其中,软标签包括:
基于检测边界框与类的地面实况边界框的重叠区域,将类的标签提供给检测边界框。
18.根据权利要求16所述的用于深度学习训练的设备,其中,候选单元是输入音频特征的音素,
其中,软标签包括:
从来自概率模型或神经网络的分类分数直接生成软标签。
19.一种制造用于深度学习训练的设备的方法,包括:
提供至少一个处理器;
提供存储指令的一个或多个非暂时性计算机可读介质,
其中,当执行存储在所述一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行以下步骤:
接收用于分类的候选单元;
通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值。
20.一种测试用于深度学习训练的设备的方法,包括:
测试所述设备是否具有至少一个处理器,其中,当执行存储在一个或多个非暂时性计算机可读介质上的指令时,所述至少一个处理器执行深度学习训练,包括以下步骤:
接收用于分类的候选单元;
通过软标签对候选单元进行分类,其中,软标签提供至少一个标签,所述至少一个标签包括在0和1之间范围内的多个可能值;
测试所述设备是否具有存储所述指令的所述一个或多个非暂时性计算机可读介质。
CN201710800049.9A 2016-12-22 2017-09-07 用于深度学习训练的方法和设备 Active CN108229649B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662438177P 2016-12-22 2016-12-22
US62/438,177 2016-12-22
US201662438795P 2016-12-23 2016-12-23
US62/438,795 2016-12-23
US15/588,223 US11205120B2 (en) 2016-12-22 2017-05-05 System and method for training deep learning classification networks
US15/588,223 2017-05-05

Publications (2)

Publication Number Publication Date
CN108229649A true CN108229649A (zh) 2018-06-29
CN108229649B CN108229649B (zh) 2023-12-05

Family

ID=62629871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710800049.9A Active CN108229649B (zh) 2016-12-22 2017-09-07 用于深度学习训练的方法和设备

Country Status (4)

Country Link
US (2) US11205120B2 (zh)
KR (1) KR102513089B1 (zh)
CN (1) CN108229649B (zh)
TW (1) TWI754660B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308484A (zh) * 2018-08-01 2019-02-05 清华大学 航空发动机多类故障最小风险诊断方法及装置
CN109635668A (zh) * 2018-11-16 2019-04-16 华中师范大学 基于软标签集成卷积神经网络的人脸表情识别方法及系统
CN110472640A (zh) * 2019-08-15 2019-11-19 山东浪潮人工智能研究院有限公司 一种目标检测模型预测框处理方法及装置
CN112149487A (zh) * 2019-06-28 2020-12-29 百度(美国)有限责任公司 一种用于自动驾驶的用于训练神经网络对象检测模型的用于确定锚框的方法
CN117609881A (zh) * 2023-11-29 2024-02-27 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10970753B2 (en) * 2017-06-01 2021-04-06 Walmart Apollo, Llc Systems and methods for matching products in the absence of unique identifiers
GB2568083B (en) 2017-11-03 2021-06-02 Imagination Tech Ltd Histogram-based per-layer data format selection for hardware implementation of deep neutral network
GB2568084B (en) 2017-11-03 2022-01-12 Imagination Tech Ltd Error allocation format selection for hardware implementation of deep neural network
GB2568081B (en) * 2017-11-03 2022-01-19 Imagination Tech Ltd End-to-end data format selection for hardware implementation of deep neural network
CN109034245B (zh) * 2018-07-27 2021-02-05 燕山大学 一种利用特征图融合的目标检测方法
CN109188410B (zh) * 2018-08-27 2020-12-25 清华大学 一种非视距场景下的距离校准方法、装置及设备
JP2020046883A (ja) * 2018-09-18 2020-03-26 株式会社東芝 分類装置、分類方法およびプログラム
TWI709188B (zh) * 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
US10503966B1 (en) * 2018-10-11 2019-12-10 Tindei Network Technology (Shanghai) Co., Ltd. Binocular pedestrian detection system having dual-stream deep learning neural network and the methods of using the same
JP2022508808A (ja) * 2018-10-20 2022-01-19 ザ・ノーダム・グループ・エルエルシー ニューラル自動販売機
US20220004856A1 (en) * 2018-11-06 2022-01-06 Genesys Logic, Inc. Multichip system and data processing method adapted to the same for implementing neural network application
US11436825B2 (en) 2018-12-14 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for determining target object in image based on interactive input
KR102168541B1 (ko) * 2018-12-20 2020-10-21 주식회사 마인즈랩 제1 신경망을 이용한 제2 신경망 학습 방법 및 컴퓨터 프로그램
CN111507362B (zh) 2019-01-30 2023-12-19 中强光电股份有限公司 神经网络的训练方法、基于神经网络的分类方法及其装置
US10956682B2 (en) 2019-02-05 2021-03-23 International Business Machines Corporation Image object disambiguation resolution using learner model based conversation templates
US10915795B2 (en) * 2019-02-05 2021-02-09 International Business Machines Corporation Image object recognition through multimodal conversation templates
CN110135456A (zh) * 2019-04-08 2019-08-16 图麟信息科技(上海)有限公司 一种目标检测模型的训练方法及装置
CN110032450B (zh) * 2019-04-17 2021-04-20 中山大学 一种基于固态盘扩展内存的大规模深度学习方法及系统
CN110047506B (zh) * 2019-04-19 2021-08-20 杭州电子科技大学 一种基于卷积神经网络和多核学习svm的关键音频检测方法
TWI746987B (zh) * 2019-05-29 2021-11-21 奇景光電股份有限公司 卷積神經網路系統
TWI710762B (zh) * 2019-07-31 2020-11-21 由田新技股份有限公司 基於影像的分類系統
CN110659600B (zh) * 2019-09-19 2022-04-29 北京百度网讯科技有限公司 物体检测方法、装置及设备
CN110909688B (zh) * 2019-11-26 2020-07-28 南京甄视智能科技有限公司 人脸检测小模型优化训练方法、人脸检测方法及计算机系统
US20210158147A1 (en) * 2019-11-26 2021-05-27 International Business Machines Corporation Training approach determination for large deep learning models
EP3832491A1 (en) * 2019-12-06 2021-06-09 Idemia Identity & Security France Methods for processing a plurality of candidate annotations of a given instance of an image, and for learning parameters of a computational model
LU101763B1 (en) * 2020-05-04 2021-11-05 Microsoft Technology Licensing Llc Microsegment secure speech transcription
US10885388B1 (en) * 2020-08-04 2021-01-05 Superb Ai Co., Ltd. Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same
CN112509583B (zh) * 2020-11-27 2023-07-18 贵州电网有限责任公司 一种基于调度操作票系统的辅助监督方法及系统
KR102582431B1 (ko) * 2021-07-13 2023-09-26 (주)블루컴 차량 식별 학습 데이터 생성 방법 및 이를 이용한 차량 식별 학습 데이터 생성 시스템
US12030528B2 (en) * 2021-12-03 2024-07-09 Zoox, Inc. Vehicle perception system with temporal tracker
CN114627891A (zh) * 2022-05-16 2022-06-14 山东捷瑞信息技术产业研究院有限公司 一种动圈扬声器质量检测方法和装置
KR102540873B1 (ko) * 2022-12-15 2023-06-07 주식회사 에이모 노이즈 레이블을 필터링하는 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
US20110064301A1 (en) * 2009-09-16 2011-03-17 Microsoft Corporation Textual attribute-based image categorization and search
US20150055840A1 (en) * 2013-08-21 2015-02-26 Seiko Epson Corporation Ultrasound Image Object Boundary Localization by Intensity Histogram Classification Using Relationships Among Boundaries
US20160070986A1 (en) * 2014-09-04 2016-03-10 Xerox Corporation Domain adaptation for image classification with class priors
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747372B2 (en) * 2007-07-03 2010-06-29 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for user control of vehicular transmission shift points
WO2014205231A1 (en) 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection
JP6303090B2 (ja) 2014-03-24 2018-04-04 アルパイン株式会社 画像処理装置および画像処理プログラム
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US9483704B2 (en) 2014-12-10 2016-11-01 Ricoh Co., Ltd. Realogram scene analysis of images: superpixel scene analysis
US9818048B2 (en) 2015-01-19 2017-11-14 Ebay Inc. Fine-grained categorization
US10115215B2 (en) 2015-04-17 2018-10-30 Monotype Imaging Inc. Pairing fonts for presentation
WO2016179808A1 (en) 2015-05-13 2016-11-17 Xiaoou Tang An apparatus and a method for face parts and face detection
US9443320B1 (en) 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN105975915B (zh) * 2016-04-28 2019-05-21 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
US20210209412A1 (en) * 2020-01-02 2021-07-08 International Business Machines Corporation Labeling data using automated weak supervision

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352997A (ja) * 2004-06-14 2005-12-22 Central Res Inst Of Electric Power Ind 事例データベースの構築方法、判別装置の学習方法、データ判別支援装置、データ判別支援プログラム
US20110064301A1 (en) * 2009-09-16 2011-03-17 Microsoft Corporation Textual attribute-based image categorization and search
US20150055840A1 (en) * 2013-08-21 2015-02-26 Seiko Epson Corporation Ultrasound Image Object Boundary Localization by Intensity Histogram Classification Using Relationships Among Boundaries
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
US20160070986A1 (en) * 2014-09-04 2016-03-10 Xerox Corporation Domain adaptation for image classification with class priors
CN106203506A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于深度学习技术的行人检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANDREAS ESS 等: "A Mobile Vision System for Robust Multi-Person Tracking", 《2008 IEEE》 *
ANDREW L. MAAS 等: "Lexicon-Free Conversational Speech Recognition with Neural Networks", 《THE 2015 ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ACL》 *
JIFENG DAI 等: "Convolutional Feature Masking for Joint Object and Stuff Segmentation", 《 COMPUTER VISION FOUNDATION 2015 IEEE》 *
MASAKI UMEMURA 等: "IMAGE LABELING FOR LIDAR INTENSITY IMAGE USING K-NN OF FEATURE OBTAINED BY CONVOLUTIONAL NEURAL NETWORK", 《REMOTE SENSING AND SPATIAL INFORMATION SCIENCES》 *
WEIJIE KONG: "行人检测论文笔记:Fused DNN - A deep neural network fusion approach to fast and robust pedestrian detection", 《WEIJIE KONG"S HOMEPAGE》 *
朱煜等: "基于深度学习的人体行为识别算法综述", 《自动化学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308484A (zh) * 2018-08-01 2019-02-05 清华大学 航空发动机多类故障最小风险诊断方法及装置
CN109635668A (zh) * 2018-11-16 2019-04-16 华中师范大学 基于软标签集成卷积神经网络的人脸表情识别方法及系统
CN112149487A (zh) * 2019-06-28 2020-12-29 百度(美国)有限责任公司 一种用于自动驾驶的用于训练神经网络对象检测模型的用于确定锚框的方法
CN110472640A (zh) * 2019-08-15 2019-11-19 山东浪潮人工智能研究院有限公司 一种目标检测模型预测框处理方法及装置
CN110472640B (zh) * 2019-08-15 2022-03-15 山东浪潮科学研究院有限公司 一种目标检测模型预测框处理方法及装置
CN117609881A (zh) * 2023-11-29 2024-02-27 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统
CN117609881B (zh) * 2023-11-29 2024-04-30 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统

Also Published As

Publication number Publication date
US20220083861A1 (en) 2022-03-17
KR102513089B1 (ko) 2023-03-22
KR20180073424A (ko) 2018-07-02
CN108229649B (zh) 2023-12-05
TW201824098A (zh) 2018-07-01
US20180181881A1 (en) 2018-06-28
TWI754660B (zh) 2022-02-11
US11205120B2 (en) 2021-12-21

Similar Documents

Publication Publication Date Title
CN108229649B (zh) 用于深度学习训练的方法和设备
CN108171233B (zh) 使用基于区域的深度学习模型的对象检测的方法和设备
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
US10049657B2 (en) Using machine learning to classify phone posterior context information and estimating boundaries in speech from combined boundary posteriors
Sung et al. Scene text detection with robust character candidate extraction method
US10043057B2 (en) Accelerating object detection
US20130129199A1 (en) Object-centric spatial pooling for image classification
Demertzis et al. A deep spiking machine-hearing system for the case of invasive fish species
CN114722958A (zh) 网络训练及目标检测方法、装置、电子设备和存储介质
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
Shankar et al. Spoken Keyword Detection Using Joint DTW-CNN.
CN113362814B (zh) 一种融合组合模型信息的语音鉴别模型压缩方法
Birla A robust unsupervised pattern discovery and clustering of speech signals
Keren et al. Weakly Supervised One-Shot Detection with Attention Similarity Networks
Shinde et al. Using CRNN to Perform OCR over Forms
Li et al. A Fast Postprocessing Algorithm for the Overlapping Problem in Wafer Map Detection
CN110555338A (zh) 对象识别方法和装置、神经网络生成方法和装置
CN118447340B (zh) 基于原型网络对图像类关系进行空间建模的方法和设备
Gao et al. End-to-End Phoneme Recognition using Models from Semantic Image Segmentation
Smart Automatic Anuran Species Recognition via Vocalization
CN115687605A (zh) 文本分类方法及装置、设备、存储介质
Tjahja Supervised Hierarchical Segmentation for Bird Bioacoustics
CN118658455A (zh) 语种识别模型的训练方法、装置、电子设备及存储介质
CN115527236A (zh) 一种文本行人表征学习与匹配方法和系统
Cheng et al. Cascade object detection with complementary features and algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant