CN109325583B - 深度神经网络结构、使用深度神经网络的方法及可读媒体 - Google Patents

深度神经网络结构、使用深度神经网络的方法及可读媒体 Download PDF

Info

Publication number
CN109325583B
CN109325583B CN201810156489.XA CN201810156489A CN109325583B CN 109325583 B CN109325583 B CN 109325583B CN 201810156489 A CN201810156489 A CN 201810156489A CN 109325583 B CN109325583 B CN 109325583B
Authority
CN
China
Prior art keywords
path
alternative
layer
media data
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810156489.XA
Other languages
English (en)
Other versions
CN109325583A (zh
Inventor
黄茂裕
赖璟皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/793,086 external-priority patent/US10474925B2/en
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN109325583A publication Critical patent/CN109325583A/zh
Application granted granted Critical
Publication of CN109325583B publication Critical patent/CN109325583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种深度神经网络结构及方法,用于以提高识别与分类的准确度,并且有效率地将多媒体数据识别及分类为多个预定数据类别中的一者。在深度神经网络中,使用从主枝(或侧枝、子侧枝等)延伸出的侧枝(或子侧枝、子子侧枝等)、顺序决策作出机制、及协作(融合)决策作出机制将使得深度神经网络具有快速的正向推理能力,藉此提高深度神经网络的识别与分类准确度及效率。

Description

深度神经网络结构、使用深度神经网络的方法及可读媒体
相关申请的交叉参考
本非临时专利申请依据35U.S.C.§119(e)主张在2017年7月31日提出申请的美国临时专利申请第62/538,811号的优先权,所述美国临时专利申请的全文并入本文中供参考。
技术领域
本申请涉及一种深度神经网络(deep neural network,DNN)。
背景技术
神经网络被使用于多种应用。举例来说,神经网络已被设计来从例如图像、声音、视频、文本、或时间序列等数据提取特征,以识别所述数据的模式。神经网络以连接成非环图的神经元集合的模式建立。换句话说,某些神经元的输出可变为其他神经元的输入。神经网络模型常常被组织成由神经元形成的相异的层。不同的层可对其输入执行不同种类的转换。信号从第一(输入)层开始,可能在穿越位于第一(输入)层与最后一个(输出)层之间的数个隐藏层之后传播到最后一个(输出)层。
在深度神经网络(即,具有多个隐藏层的神经网络)中,由神经元形成的每一层,基于前一层的输出在相异的特征集上进行训练。神经元将来自数据的输入(例如,向量)与一权重集(例如,矩阵)作组合,可放大或减弱输入,输入的任务经由算法的学习而被指派重要性(significance)。将这些输入-权重积求和,并使所求出的和穿过激活函数(例如,S函数(Sigmoid)、双曲正切函数(Tanh)、修正线性函数(ReLU)、渗漏型线性函数(Leaky ReLU)、最大值输出(Maxout)等),以判断信号经由网络是否会进一步影响最终结果(例如,动作分类)以及影响程度如何。将可调整权重与输入特征做配对是为这些特征指派重要性的方式,即关于网络如何对输入进行分类及群集。此种特征层次(feature hierarchy)所提高的复杂性及抽象性使得深度神经网络能够透过非线性函数处理具有数十亿个参数的巨量又高维度的数据集,以在无人工干预的情况下执行自动特征提取。深度神经网络可以例如在逻辑(logistic)分类器或归一化指数(softmax) 分类器等的输出层结束,所述输出层为特定结果或标签指派似然度 (likelihood)。假设给定以图像形式的原始数据,深度神经网络可例如预测/ 判定出输入数据可能以某一百分比表示人、猫、马等。
举例来说,卷积神经网络(Convolutional Neutral Network,CNN)是一种类型的深度神经网络,其已在许多图像识别任务中展示出了其能力。虽然人们可增加网络大小(包括深度及宽度)来实现更高的图像识别准确度,但这样做的代价是正向推理的等待时间会变多。举例来说,以流行的卷积神经网络模型对图像网(ImageNet)数据集作标竿分析(benchmark),其显示出为了将最高类别(top-1)错误从42.90%降低至22.16%,在测试时的等待时间(latency)会从7.0毫秒(millisecond,ms)(亚历克斯网(AlexNet)) 增加至109.32ms(残差网(ResNet))。因此,如何在不牺牲深度神经网络效率的条件下实现更高的识别与分类准确度变为一项重要的待解决问题。
发明内容
因此,本申请提供一种深度神经网络 以及用以将媒体数据识别及分类为多个预定数据类别的其中之一的方法,其具有已提高的识别、分类准确度及效率。
为实现上述目标,根据本申请的第一方面,提供一种用于以提高的识别与分类准确度及效率将媒体数据识别及分类为多个预定数据类别中的一者的深度神经网络结构。所述深度神经网络包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度(class likelihood),其中X>1且X是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于常所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述 X个由层形成的群组中的Y个群组,以及额外X-Y个由层形成的群组作为侧枝相应于从所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者,其中所述深度神经网络引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者直至所述最终类别似然度被输出为止,而且输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度当成是所述最终类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度。
此外,根据本申请的第二方面,提供一种用于使用深度神经网络以提高的识别与分类准确度及效率将媒体数据识别及分类为多个预定数据类别中的一者的方法。所述深度神经网络包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于为所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X>1且X 是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的 Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X 个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者。所述方法包括:引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
另外,根据本申请的第三方面,提供一种含有计算机程序产品的非暂时性计算机可读媒体,所述计算机程序产品包括用于使用深度神经网络以提高的识别与分类准确度及效率将媒体数据识别及分类为多个预定数据类别中的一者的计算机可执行指令。所述深度神经网络包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X 个由层形成的群组的输出进行向下采样,所述分类层用于所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X >1且X是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X 个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X 个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的第Y个群组延伸而出,其中所述主路径中的所述 X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者。所述计算机程序产品包括用于以下的所述计算机可执行指令:引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或者是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
依据下文所给出的详细说明,本申请的其他适用范围将变得显而易见。然而,应理解,尽管表示本申请的优选实施例,但详细说明及具体实例是仅以说明的方式给出,因为所属领域中的技术人员依据本详细说明将明了处于本发明的精神及范围内的各种改变及修改。
附图说明
依据下文所给出的详细说明以及仅以说明方式给出且因此不限制本申请的附图,将会更全面地理解本申请,并且在附图中:
图1说明根据本申请实施例的深度神经网络。
图2说明图1所示深度神经网络的主路径及替代性路径中的某些替代性路径。
图3说明根据本申请实施例如何使媒体数据穿过深度神经网络。
图4说明根据本申请实施例的深度神经网络的第一替代性路径。
图5说明根据本申请实施例如何使媒体数据穿过图4所示深度神经网络的第一替代性路径,其中作出预测。
图6说明根据本申请实施例如何使媒体数据穿过图4所示深度神经网络的第一替代性路径,其中未作出预测。
图7说明根据本申请实施例的深度神经网络的另一替代性路径。
图8说明根据本申请实施例如何使媒体数据穿过图7所示深度神经网络的替代性路径,其中作出预测。
图9说明根据本申请实施例如何使媒体数据穿过图7所示深度神经网络的替代性路径,其中在执行融合之后未作出预测。
图8A说明根据本申请另一实施例如何使媒体数据穿过图7所示深度神经网络的替代性路径,其中在未执行融合时作出预测。
图9A说明根据本申请另一实施例如何使媒体数据穿过图7所示深度神经网络的替代性路径,其中在未执行融合时未作出预测。
图10说明根据本申请实施例的深度神经网络的最后一个替代性路径。
图11说明根据本申请实施例如何使媒体数据穿过图10所示深度神经网络的最后一个替代性路径,其中作出预测。
图12说明根据本申请实施例如何使媒体数据穿过图10所示深度神经网络的最后一个替代性路径,其中在执行融合之后未作出预测。
图11A说明根据本申请另一实施例如何使媒体数据穿过图10所示深度神经网络的最后一个替代性路径,其中在未执行融合时作出预测。
图12A说明根据本申请另一实施例如何使媒体数据穿过图10所示深度神经网络的最后一个替代性路径,其中在未执行融合时作出预测。
图13说明根据本申请实施例的深度神经网络的最后一个替代性路径。
图14说明根据本申请实施例如何使媒体数据穿过图10所示深度神经网络的主路径,其中在未执行融合时作出预测。
图15说明根据本申请实施例如何使媒体数据穿过图10所示深度神经网络的主路径,其中在执行融合之后作出预测。
图16说明根据本申请另一实施例的深度神经网络。
图17说明图16所示深度神经网络的主路径及替代性路径中的某些替代性路径。
图18说明根据本申请实施例具有主路径及替代性路径的卷积神经网络。
具体实施方式
现在将参照附图详细地阐述本申请,其中在所有数个视图中,相同的参考编号将用于辨识相同或相似的元件。应注意,图式应沿参考编号的取向方向来加以观看。
在本申请的实施例中,一种深度神经网络结构包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X 个由层形成的群组的输出进行向下采样,所述分类层用于所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X >1且X是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X 个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X 个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组,以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者。所述深度神经网络引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者直至所述最终类别似然度被输出为止,而且输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度当成是所述最终类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度。
在一实施例中,所述深度神经网络是由计算机实施的,且由计算机的处理器或电子装置的处理器执行以对所述媒体数据进行识别及分类。
在一实施例中,直至所述深度神经网络已引导所述媒体数据依序穿过所述至少一个替代性路径中的每一者,所述深度神经网络才引导所述媒体数据穿过所述主路径。
在一实施例中,所述至少一个替代性路径包括多个替代性路径,所述深度神经网络先引导所述媒体数据依序穿过每一所述多个替代性路径后,所述深度神经网络才引导所述媒体数据穿过所述主路径,并且所述深度神经网络依序以所述侧枝在每一所述多个替代性路径的长度的递减次序引导所述媒体数据穿过所述多个替代性路径,且所述侧枝的所述长度在每一所述多个替代性路径是每一所述多个替代性路径的所述额外X-Y个由层形成的群组的总数,当所述多个替代性路径侧枝的所述长度有至少二者相同时,则依所述额外X-Y个由层形成的群组所包含的层的总数的递增次序引导所述媒体数据穿过所述多个替代性路径。
在一实施例中,当所述深度神经网络输出所述最终类别似然度时,所述深度神经网络停止引导所述媒体数据穿过所述至少一个替代性路径中的其余路径及所述主路径。
在一实施例中,只有于目前一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中的当前一者的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述融合层才针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的目前融合类别似然度,且于下一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中的下一者的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述融合层才针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的下一融合类别似然度。
在一实施例中,当所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的对于每一所述多个预定数据类别中的所述目前融合类别似然度未达到或未超过对应类别似然度阈值时,所述深度神经网络引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者,且所述至少一个替代性路径中的所述目前一者是由所述主路径的所述X个由层形成的群组中的第C个由层形成的群组延伸出,并且所述深度神经网络通过以下来引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者:重新引导从所述主路径的所述X个由层形成的群组中的所述第C个由层形成的群组输出的数据进入所述主路径的所述X个由层形成的群组中的第(C+1)个由层形成的群组中并接着穿过所述至少一个替代性路径及所述主路径中的所述下一者的所述层中的其余层,其中在所有所述至少一个替代性路径中,C是相应的所述Y中的一者。
在一实施例中,所述融合层使用以下中的一者来计算所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述目前融合类别似然度:
(a)对于每一所述多个预定数据类别,通过对所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度使用相同的权重来将所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度求平均;
(b)对于每一所述多个预定数据类别,通过对所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度使用相应的权重来将所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度求平均;
(c)对于每一所述多个预定数据类别,从所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度中,选择最大类别似然度;
(d)对于每一所述多个预定数据类别,从所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度随机地选择类别似然度;以及
(e)对于每一所述多个预定数据类别,随机地丢弃所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度中的预定数目的类别似然度,并接着执行(a)至(d)中的一者。
在一实施例中,所述类别似然度是以概率或类别分数的形式来表示。
在一实施例中,只有当所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中穿过的任何先前路径的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述深度神经网络才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
在一实施例中,只有当所述最高融合类别似然度达到或超过其对应融合类别似然度阈值,或所述深度神经网络已引导所述媒体数据穿过每一所述至少一个替代性路径及所述主路径时,所述深度神经网络才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
在一实施例中,所述至少一个替代性路径中的任一者中的所述X个群组中所述层的总数,不同于所述主路径中的所述X个由层形成的群组中所述层的总数。
在一实施例中,所述至少一个替代性路径中的任一者中的所述X个群组中所述层的所述总数,小于所述主路径中的所述X个由层形成的群组中所述层的总数。
在一实施例中,所述至少一个替代性路径中的至少一由第N个由层形成的群组中所述层的总数,小于所述主路径中的第N个由层形成的群组中所述层的总数,并且其中N>Y,且N是为Y+1、Y+2、...、X中的至少一者的整数。
在一实施例中,每一所述主路径及所述至少一个替代性路径中的每一所述层包括多个过滤器,且所述至少一个替代性路径中的任一者中的所述X 个由层形成的群组的所述过滤器的总数,不同于所述主路径中的所述X个由层形成的群组的所述过滤器的总数。
在一实施例中,所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的所述过滤器的所述总数小于所述主路径中的所述X个由层形成的群组的所述过滤器的所述总数。
在一实施例中,所述至少一个替代性路径中的至少一者中的第K个由层形成的群组的所述过滤器的总数小于所述主路径中的第K个由层形成的群组的所述过滤器的总数,并且其中K>Y,且K是为Y+1、Y+2、...、X 中的至少一者的整数。
在一实施例中,所述主路径中由同一所述由层形成的群组中的每一所述层具有相同总数的所述过滤器,且所述至少一个替代性路径中的任一者中的由同一所述由层形成的群组中的每一所述层具有相同总数的所述过滤器。
在一实施例中,所述深度神经网络是卷积神经网络。
在一实施例中,所述媒体数据是文本数据、图形数据、图像数据、音频数据、视频数据、或其中任一组合。
在一实施例中,所述媒体数据是显示待检验产品的一部分的图像数据或视频数据,且所述多个预定数据类别包括有缺陷及无缺陷。
在一实施例中,所述至少一个替代性路径包括多个替代性路径,且具有额外X-Y-W个由层形成的群组的至少一个子侧枝(sub-side branch),从所述侧枝的所述额外X-Y个由层形成的群组中的相应的第W个群组延伸出,以由所述至少一个子侧枝形成所述至少一个替代性路径中的另一者的一部分,并且其中对于每一所述至少一个子侧枝,相应的所述W是整数,且1≤ W<X-Y。
在一实施例中,直至所述深度神经网络已引导所述媒体数据依序穿过具有所述至少一个子侧枝的每一至少一个替代性路径中,所述深度神经网络才引导所述媒体数据穿过具有所述侧枝的所述替代性路径。
在一实施例中,所述至少一个子侧枝包括多个子侧枝,所述多个子侧枝分别形成具有所述子侧枝的多个替代性路径的一部分,直至所述深度神经网络已引导所述媒体数据依序穿过具有每一所述子侧枝的所述多个替代性路径,所述深度神经网络才引导所述媒体数据穿过具有所述侧枝的所述替代性路径,并且所述深度神经网络引导所述媒体数据依序由所述子侧枝的长度的递减次序以具有所述子侧枝的每一所述多个替代性路径穿过具有所述子侧枝的所述多个替代性路径,且具有所述子侧枝的所述多个替代性路径中的每一者的所述子侧枝的所述长度是具有所述子侧枝的每一所述多个替代性路径的所述额外X-Y-W个由层形成的群组的总数。
在一实施例中,当所述媒体数据穿过具有所述子侧枝的所述多个替代性路径中的目前一者而未输出所述最终类别似然度时,所述深度神经网络引导所述媒体数据穿过下一个具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径,且所述目前一具有所述子侧枝的所述多个替代性路径,从具有所述侧枝的所述替代性路径的所述X-Y个由层形成的群组中的第V个由层形成的群组延伸出,并且所述深度神经网络通过以下来引导所述媒体数据穿过所述下一具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径中:重新引导从具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的所述第V个由层形成的群组输出的数据进入具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的第(V+1)个由层形成的群组中并接着穿过其余层的所述下一具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径中的所述下一者的其余层,其中在所有所述至少一个子侧枝中,V是相应的所述W中的一者。
在一实施例中,提供一种用于使用深度神经网络以提高的识别与分类准确度及效率将媒体数据识别及分类为多个预定数据类别中的一者的方法。所述深度神经网络包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于为所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X>1且X是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述 Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者。所述方法包括:引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
在一实施例中,提供一种含有计算机程序产品的非暂时性计算机可读媒体,所述计算机程序产品包括用于使用深度神经网络以提高的识别与分类准确度及效率将媒体数据识别及分类为多个预定数据类别中的一者的计算机可执行指令。所述深度神经网络包括:主路径,依顺序次序具有输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于为所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X>1且X 是整数;至少一个替代性路径,依顺序次序具有所述输入层、仅X个由层形成的群组、至少一个池化层、及分类层,所述仅X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的 Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1≤Y<X;融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者。所述计算机程序产品包括用于以下的所述计算机可执行指令:引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或者是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
如所提及,虽然人们可增加网络大小(包括深度及宽度)来实现更高的图像识别准确度,但这样做的代价是正向推理的等待时间会多得多。为了在不牺牲深度神经网络的效率的条件下实现更高的识别与分类准确度,提供一种深度神经网络被提出,其具有已提高的识别与分类准确度及效率。
如将使用以下实施例更详细地解释,在增强型深度神经网络中,除了深度神经网络的主路径以外,还提供从深度神经网络的主路径延伸出的至少一个侧枝以形成至少一个替代性路径,用以实现可行的、更快速的正向推理时间。在一实施例中,每一所述至少一个替代性路径与主路径相比具有“完整但更小”的结构,这意味着所述至少一个替代性路径保持与主路径相同数目的由层形成的群组(因此为“完整”的)但可具有比主路径更少总数的层及/或更少总数的过滤器(因此为“更小”的)。由于所述至少一个替代性路径(尤其在所述至少一个侧枝)中层及/或过滤器的数目减少,因此如果所述至少一个替代性路径的最高类别似然度达到或超过类别似然度而退出深度神经网络时,则在所述至少一个替代性路径处的计算时间将显著减少,藉此在无需经过整个主路径(以及其他替代性路径)的情况下实现更快速的正向推理时间。
另外,当存在多个替代性路径时,媒体数据将依序一次一个地穿过所述多个“完整但更小”的替代性路径后才经过主路径。只要存在一个(且第一个)替代性路径其最高类别似然度达到或超过类别似然度阈值而退出深度神经网络,深度神经网络就停止引导媒体数据穿过所述替代性路径中的其余路径及所述主路径。此种顺序决策作出机制还提高更早地退出深度神经网络的机会。
此外,为了提高深度神经网络的识别与分类准确度,还采取协作性决策作出机制以将所述主路径及所述至少一个替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度融合为最终类别似然度。由于将两个或更多个路径(主路径或替代性路径)的类别似然度融合来计算最终类别似然度,此种协作性决策作出机制可改进深度神经网络的识别与分类准确度。另外,当两个或更多个路径的类别似然度是来自替代性路径且最高融合类别似然度达到或超过用以退出深度神经网络的融合类别似然度阈值时,因为将不需要经过整个主路径(及其他替代性路径),还可减少计算时间并实现更快速的正向推理时间。
图1说明根据本申请实施例的深度神经网络,且图2说明根据本申请实施例的深度神经网络的主路径及替代性路径。如图1及图2中所示,存在主路径,所述主路径依顺序次序具有输入层、仅X个由层形成的群组、池化层、及分类层,其中X>1且X是整数。另外,存在替代性路径(图1 及图2中所示的最右侧路径),所述替代性路径依顺序次序具有所述输入层、仅X个由层形成的群组、池化层、及分类层,其中最右侧替代性路径中的所述X个由层形成的群组是由所述主路径中的所述X个由层形成的群组中的前Y个群组、以及作为侧枝从主路径中的所述X个群组中的第Y个群组延伸出的额外X-Y个由层形成的群组(被标示为第(Y+1)个群组、...、第 X个群组)组成,并且其中Y是整数且1≤Y<X。换句话说,主路径的第一个由层形成的群组至第Y个由层形成的群组也是第一替代性路径的第一个由层形成的群组至第Y个由层形成的群组,但第一替代性路径的第(Y+1) 个由层形成的群组至第X个由层形成的群组不同于主路径的第(Y+1)个由层形成的群组至第X个由层形成的群组。然而,主路径及第一替代性路径两者具有相同数目(即,X)的由层形成的群组。在实施例中,此替代性路径具有比主路径更少总数的层及/或更少总数的过滤器。因此,此替代性路径与主路径相比具有“完整但更小”的结构,因为此替代性路径保持与主路径相同数目(即,X)的由层形成的群组但具有比主路径更少总数的层及/或更少总数的过滤器。
在另一实施例中,所述深度神经网络可包括多于一个替代性路径。举例来说,如图1及图2中所示,存在另一替代性路径,所述另一替代性路径依顺序次序具有输入层、仅X个由层形成的群组、池化层、及分类层,其中每一所述替代性路径中的所述X个由层形成的群组是由主路径中的所述X个由层形成的群组中的前Z个群组、以及作为侧枝从主路径中的所述 X个群组中的第Z个群组延伸出的额外X-Z个由层形成的群组(被标示为第(Z+1)个群组、...、第X个群组),并且其中Z是整数且1≤Y<Z<X。
换句话说,主路径的第一个由层形成的群组至第Z个由层形成的群组也是此替代性路径的第一个由层形成的群组至第Z个由层形成的群组,但第一替代性路径的第(Z+1)个由层形成的群组至第X个由层形成的群组不同于主路径的第(Z+1)个由层形成的群组至第X个由层形成的群组。然而,主路径及此替代性路径两者(以及任何其他替代性路径)具有相同数目(即, X)的由层形成的群组。在实施例中,此替代性路径(以及任何其他替代性路径)具有比主路径更少总数的层及/或更少总数的过滤器。因此,此替代性路径(以及任何其他替代性路径)与主路径相比具有“完整但更小”的结构,因为此替代性路径保持与主路径相同数目(即,X)的由层形成的群组但具有比主路径更少总数的层及/或更少总数的过滤器。
另外,可存在分别从主路径中的所述X个群组中的另一些群组(例如,位于主路径中的所述X群组中的第Y个群组之前以及第Z个群组之后的群组)延伸出的一些其他替代性路径。举例来说,如图7中所示,存在另一替代性路径,所述另一替代性路径具有作为侧枝从主路径中的所述X个群组中的第C个群组延伸出的额外X-C个由层形成的群组(被标示为第(C+1) 个群组、...、第X个群组),并且其中Z是整数且1≤Y<C<Z<X。如同其他替代性路径,此替代性路径与主路径相比也具有“完整但更小”的结构,因为此替代性路径保持与主路径相同数目(即,X)的由层形成的群组但具有比主路径更少总数的层及/或更少总数的过滤器。
如所提及,在所说明的实施例中,所述替代性路径中的每一者与主路径相比均具有“完整但更小”的结构,且更具体来说在侧枝的由层形成的群组处具有“完整但更小”的结构。在实施例中,第一替代性路径中的第N个由层形成的群组的层的总数小于主路径中的第N个由层形成的群组的层的总数,并且其中N>Y且N是为Y+1、Y+2、...、X中的至少一者的整数。相似地,在实施例中,中间(位于第一替代性路径与最后一个替代性路径之间的一个)替代性路径中的第N个由层形成的群组的层的总数小于主路径中的第N个由层形成的群组的层的总数,并且其中N>C且N是为C+1、C+2、...、X中的至少一者的整数。相似地,在实施例中,最后一个替代性路径中的第N个由层形成的群组的层的总数小于主路径中的第N个由层形成的群组的层的总数,并且其中N>Z且N是为Z+1、Z+2、...、X中的至少一者的整数。
在一实施例中,所述主路径及每一所述至少一个替代性路径中的每一层包括多个过滤器,且所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的过滤器的总数不同于主路径中的所述X个由层形成的群组的过滤器的总数。
在一实施例中,所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的过滤器的总数小于主路径中的所述X个由层形成的群组的过滤器的总数。
在一实施例中,第一替代性路径中的第K个由层形成的群组的过滤器的总数小于主路径中的第K个由层形成的群组的过滤器的总数,并且其中 K>Y且K是为Y+1、Y+2、...、X中的至少一者的整数。相似地,在实施例中,中间(位于第一替代性路径与最后一个替代性路径之间的一个)替代性路径中的第K个由层形成的群组的过滤器的总数小于主路径中的第K 个由层形成的群组的过滤器的总数,并且其中K>C且K是为C+1、C+2、 ...、X中的至少一者的整数。相似地,在实施例中,最后一个替代性路径中的第K个由层形成的群组的过滤器的总数小于主路径中的第K个由层形成的群组的过滤器的总数,并且其中K>Z且K是为Z+1、Z+2、...、X中的至少一者的整数。
在一实施例中,主路径中的同一由层形成的群组中的每一层具有相同总数的过滤器,且所述至少一个替代性路径中的任一者中的同一由层形成的群组中的每一层具有相同总数的过滤器。
图3说明根据本申请实施例如何使媒体数据穿过深度神经网络。如图3 中所示,所深度神经网络引导媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者直至最终类别似然度在预测器处被输出为止,且输出以下作为最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或是来自融合层的最高融合类别似然度基于所述主路径及所述至少一个替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度。
应注意,虽然图3说明媒体数据如何穿过多于一个替代性路径,但当深度神经网络中仅存在一个替代性路径时,在媒体数据穿过所述替代性路径但所述替代性路径的最高类别似然度未能达到或未能超过对应类别似然度阈值之后,媒体数据将被引导回到主路径,如图13至图15中所示。
在实施例中,直至深度神经网络已引导媒体数据依序穿过至少一个替代性路径中的每一者后,深度神经网络才引导媒体数据穿过主路径。如图3 中所示,深度神经网络在引导媒体数据依序一次一个地穿过一个或多个替代性路径后才引导媒体数据穿过主路径。
在一实施例中,深度神经网络依序以侧枝在每一所述多个替代性路径的长度的递减次序引导媒体数据穿过所述多个替代性路径,且每一所述多个替代性路径的侧枝的长度是每一所述多个替代性路径中的所述额外由层形成的群组的总数。如图3中所示,第一替代性路径(即,最右侧路径) 具有最长侧枝,因为此侧枝具有最高数目(即,X-Y)的由层形成的群组。另一方面,图3中所示的另一替代性路径(即,最左侧路径)具有最短侧枝,因为此侧枝具有最低数目(即,X-Z)的由层形成的群组,其中1≤Y< Z<X。此外,如图7中所示,在最短侧枝与最长侧枝之间存在侧枝具有(X-C) 个由层形成的群组的另一替代性路径,其中1≤Y<C<Z<X。因此,在图 3至图15所说明实施例中,深度神经网络引导媒体数据依序一次一个地穿过具有(X-Y)个由层形成的群组的侧枝的第一替代性路径、具有(X-C)个由层形成的群组的侧枝的替代性路径、具有(X-Z)个由层形成的群组的侧枝的最后一个替代性路径且接着穿过主路径,直至最终类别似然度在预测器处被输出为止,这将会停止引导媒体数据穿过替代性路径中的其余路径及主路径(如果媒体数据尚未穿过所述替代性路径中的所述其余路径及所述主路径),如以下所解释。
如图4及图5中所示,深度神经网络引导媒体数据穿过依顺序次序具有输入层、主路径的第一个由层形成的群组至第Y个由层形成的群组、额外(X-Y)个由层形成的群组(即,第一替代性路径的第(Y+1)个由层形成的群组至第X个由层形成的群组)、池化层、及分类层的第一替代性路径,以为媒体数据(由分类层)针对每一所述多个预定数据类别输出类别似然度。
在一实施例中,将第一替代性路径的所有类别似然度中的最高类别似然度(其对应于所述多个预定数据类别中的一者)与第一替代性路径的类别似然度阈值(TH1)进行比较。如果第一替代性路径的最高类别似然度达到或超过第一替代性路径的对应类别似然度阈值(TH1),则第一替代性路径的最高类别似然度将作为最终类别似然度被输出到预测器以作出决策,即,将媒体数据识别及分类为所述多个预定数据类别中与最高类别似然度对应的一者。
在一实施例中,当深度神经网络输出最终类别似然度(其接着被发送到预测器,以用于将媒体数据识别及分类为所述多个预定数据类别中与最高类别似然度对应的一者)时,深度神经网络停止引导媒体数据穿过替代性路径中的其余路径及主路径。因此,媒体数据不必经过整个/完整的主路径,这显著地减少计算时间(归因于替代性路径的“完整但更小”的结构)且因此提高识别与分类效率。
在一实施例中,所述媒体数据是文本数据、图形数据、图像数据、音频数据、视频数据、或其任一组合。
在一实施例中,所述媒体数据是显示待检验产品的一部分的图像数据或视频数据,且所述多个预定数据类别包括有缺陷及无缺陷。举例来说,所述媒体数据是显示电子装置一部分(例如印刷电路板(printed circuit board, PCB)的影像资料或影片资料,其将要在所述印刷电路板上检验有无任何可能的缺陷)的一部分的图像数据或视频数据。当媒体数据穿过深度神经网络时,深度神经网络将使用从预测器输出的最终类别似然度来将媒体数据识别及分类为所述两个预定数据类别(例如,有缺陷及无缺陷)中与所述最终类别似然度对应的一者,以预测印刷电路板在特定部分处是否具有缺陷。
在一实施例中,所述类别似然度是以概率或类别分数的形式来表示。举例来说,在使用深度神经网络来判断印刷电路板在特定部分处是否具有缺陷的实例中,类别似然度可以是以概率(例如,90%)或类别分数(例如, 90/100)的形式来表示。在以上所说明的实施例中,例如,当媒体数据穿过第一替代性路径且第一替代性路径的分类层将“有缺陷”类别的类别似然度计算为90%并将“无缺陷”类别的类别似然度计算为10%并且第一替代性路径的类别似然度阈值是85%时,所述两个类别的最高类别似然度(即,90%) 将被与第一替代性路径的类别似然度阈值(即,85%)进行比较以判断所述最高类别似然度是否将被作为最终类别似然度输出到预测器。由于所述最高类别似然度(即,90%)达到并超过对应类别似然度阈值(即,85%),因而所述最高类别似然度将被作为最终类别似然度输出到预测器,且预测器将把媒体数据识别及分类为所述多个预定数据类别中与所述最高类别似然度对应的一者(即,“有缺陷”类别),这意味着印刷电路板在特定部分处被识别为具有缺陷。另一方面,当媒体数据穿过第一替代性路径且第一替代性路径的分类层将“有缺陷”类别的类别似然度计算为5%并将“无缺陷”类别的类别似然度计算为95%时,预测器将媒体数据识别及分类为与最终类别似然度对应的“无缺陷”类别,这意味着印刷电路板在特定部分处被识别为不具有缺陷。
在一实施例中,一旦深度神经网络识别及分类出印刷电路板在特定部分处具有缺陷,便也可对媒体数据应用额外的深度神经网络,以确定印刷电路板的特定部分处缺陷的类型以及缺陷的具体位置。
另一方面,如图6中所示,如果第一替代性路径的最高类别似然度未达到或未超过第一替代性路径的对应类别似然度阈值(TH1),则将不向预测器输出最终类别似然度来作出决策。而是,媒体数据将必须经过下一替代性路径(如果存在尚未使媒体数据从中穿过的至少一个替代性路径)或主路径(如果媒体数据已穿过所有替代性路径,或者如果仅存在一个替代性路径)。
在一实施例中,如果存在尚未使媒体数据从中穿过的至少一个替代性路径,则如图6中所示,深度神经网络通过以下来引导媒体数据穿过下一替代性路径:重新引导从主路径的所述X个由层形成的群组中的第Y个由层形成的群组输出的数据进入主路径的所述X个由层形成的群组中的第 (Y+1)个由层形成的群组并接着穿过下一替代性路径的层中的其余层。换句话说,当媒体数据穿过下一替代性路径时,无需再次经过主路径的所述X 个由层形成的群组中的第一个由层形成的群组至第Y个由层形成的群组,因为这在第一替代性路径期间已完成。因此,当经过下一替代性路径时,在第一替代性路径期间在主路径的所述X个由层形成的群组中的第一个由层形成的群组至第Y个由层形成的群组中所作的计算无需再次作出。
在另一实施例中,如果第一替代性路径是仅有的一个替代性路径,则深度神经网络通过以下来引导媒体数据穿过主路径:重新引导从主路径的所述X个由层形成的群组中的第Y个由层形成的群组输出的数据进入主路径的所述X个由层形成的群组中的第(Y+1)个由层形成的群组并接着穿过主路径的层中的其余层(这将具有如图14及图15中所示的相同流程,以下将对此进行解释)。相似地,当经过主路径时,在第一替代性路径期间在主路径的所述X个由层形成的群组中的第一个由层形成的群组至第Y个由层形成的群组中所作的计算无需再次作出。
如图7及图8中所示,在深度神经网络重新引导从主路径的所述X个由层形成的群组中的第Y个由层形成的群组输出的数据进入主路径的所述 X个由层形成的群组中的第(Y+1)个由层形成的群组之后,数据将经过下一替代性路径的层中的其余层(依顺序次序为主路径的第(Y+1)个由层形成的群组至第C个由层形成的群组、额外(X-C)个由层形成的群组(即,此替代性路径的第(C+1)个由层形成的群组至第X个由层形成的群组)、池化层、及分类层),以(由分类层)针对所述多个预定数据类别中的每一者为媒体数据输出类别似然度。
在一实施例中,将此替代性路径的所有类别似然度中的最高类别似然度(其对应于所述多个预定数据类别中的一者)与此替代性路径的类别似然度阈值(THC)进行比较。如果此替代性路径的最高类别似然度达到或超过此替代性路径的对应类别似然度阈值(THC),则此替代性路径的最高类别似然度将被作为最终类别似然度输出到预测器以作出决策,即,将媒体数据识别及分类为所述多个预定数据类别中与所述最高类别似然度对应的一者。
在一实施例中,只有当所述至少一个替代性路径及所述主路径中已引导媒体数据从中穿过的当前一者的最高类别似然度未达到或未超过对应类别似然度阈值时,融合层才针对所述多个预定数据类别中的每一者计算所述主路径及所述至少一个替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的目前融合类别似然度。举例来说,如图8中所示,如果此替代性路径的最高类别似然度未达到或未超过此替代性路径的对应类别似然度阈值(THC),则融合层将基于已引导媒体数据从中穿过的任何替代性路径中的两者或更多者的类别似然度来针对每一所述多个预定数据类别计算目前融合类别似然度。
在一实施例中,使用(但不限于)以下中的一者来选择所述替代性路径中用于计算目前融合类别似然度的两者或更多者:
(a)已引导媒体数据从中穿过的所有替代性路径中具有最高类别似然度的两个或更多个替代性路径;
(b)已引导媒体数据从中穿过的所有替代性路径;
(c)已引导媒体数据从中穿过且具有比预定阈值高的最高类别似然度的所有替代性路径;以及
(d)已引导媒体数据从中穿过的随机选择的两个或更多个替代性路径。
在实施例中,融合层将通过(但不限于)以下中的一者基于已引导媒体数据从中穿过的任何替代性路径中的两者或更多者的类别似然度来针对所述多个预定数据类别中的每一者计算目前融合类别似然度:
(a)对于每一所述多个预定数据类别,通过对已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度使用相同的权重来将已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度求平均;
(b)对于每一所述多个预定数据类别,通过对已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度使用相应的权重来将已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度求平均;
(c)对于每一所述多个预定数据类别,从已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度选择最大类别似然度;
(d)对于每一所述多个预定数据类别,从已引导媒体数据从中穿过的替代性路径中的两者或更多者的类别似然度随机地选择类别似然度;以及
(e)对于每一所述多个预定数据类别,随机地丢弃已引导媒体数据从中穿过的至少一个替代性路径中的两者或更多者的类别似然度中的预定数目的类别似然度,并接着执行(a)至(d)中的一者。
在实施例中,将所有融合类别似然度中的最高融合类别似然度(其对应于所述多个预定数据类别中的一者)与对应融合类别似然度阈值(THF) 进行比较。如果所述最高融合类别似然度达到或超过对应融合类别似然度阈值(THF),则所述最高融合类别似然度将被作为最终类别似然度输出到预测器以作出预测,即,将媒体数据识别及分类为所述多个预定数据类别中与最高融合类别似然度对应的一者。
换句话说,在图8所示的实施例中,如果此替代性路径的最高类别似然度达到或超过所述(非第一)替代性路径的对应类别似然度阈值(THC) 或者最高融合类别似然度达到或超过对应融合类别似然度阈值(THF),则可向预测器输出最终类别似然度,以对媒体数据进行识别及分类。应注意,由于融合类别似然度是使用两个或更多个路径的类别似然度获得,因而只有当媒体数据已被引导穿过至少两个路径时才能获得融合类别似然度。因此,当媒体数据仅穿过第一替代性路径时,将不会获得融合类别似然度。
另一方面,如图9中所示,如果此替代性路径的最高类别似然度未达到或未超过所述(非第一)替代性路径的对应类别似然度阈值(THC)且最高融合类别似然度未达到或未超过对应融合类别似然度阈值(THF),则将不向预测器输出最终类别似然度来作出预测。而是,媒体数据将必须经过下一替代性路径(如果存在尚未使媒体数据从中穿过的至少一个替代性路径)或主路径(如果媒体数据已穿过所有替代性路径)。
在另一实施例中,如图8A及图9A中所示,如果此替代性路径的最高类别似然度达到或超过所述(非第一)替代性路径的对应类别似然度阈值 (THC),则可向预测器输出最终类别似然度,以对媒体数据进行识别及分类。如果此替代性路径的最高类别似然度未达到或未超过此替代性路径的对应类别似然度阈值(THC),则将不对两个或更多个替代性路径的类别似然度执行融合,且将不向预测器输出最终类别似然度来作出预测。而是,媒体数据将必须经过下一替代性路径(如果存在尚未使媒体数据从中穿过的至少一个替代性路径)或主路径(如果媒体数据已穿过所有替代性路径)。
图11及图12显示:在媒体数据穿过先前替代性路径并经历先前融合过程(如果有)时未输出最终类别似然度,且深度神经网络如图10中所示引导媒体数据穿过最后一个替代性路径。图11及图12中所示的过程与图8 及图9中所示的过程实质上相同,只不过最后一个替代性路径具有从主路径中的所述X个群组中的第Z个群组延伸出的侧枝,其中Z是整数且1≤Y <D<Z<X。
另外,在图11及图12所示的实施例,只有当最后一个替代性路径的最高类别似然度未达到或未超过对应类别似然度阈值(THL)时,融合层才将针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的新融合类别似然度。所述替代性路径中用于计算目前融合类别似然度的两者或更多者是使用(但不限于)上述方式中的一者加以选择,且融合层将通过(但不限于)上述方式中的一者基于已引导媒体数据从中穿过的任何替代性路径中的两者或更多者的类别似然度来针对每一所述多个预定数据类别计算目前融合类别似然度。应注意,在不同替代性路径期间选择替代性路径中用以计算目前融合类别似然度的两者或更多者的方式可彼此相同或不同,且在不同替代性路径期间计算融合类别似然度的方式可彼此相同或不同,并且不同替代性路径的融合类别似然度阈值可彼此相同或不同。
相似地,图11A及图12A显示与图11及图12所示过程相似的过程,只不过在图11A及图12A中未执行融合。另外,图11A及图12A所示过程与图8A及图9A所示过程实质上相同,只不过最后一个替代性路径具有从主路径中的所述X个群组中的第Z群组延伸出的侧枝,并且其中Z是整数且1≤Y<D<Z<X。
在一实施例中,直至深度神经网络已引导媒体数据依序穿过每一至少一个替代性路径,深度神经网络才引导媒体数据穿过主路径。举例来说,如图13及图14中所示,如果在媒体数据穿过所有替代性路径之后未输出最终类别似然度,则媒体数据将必须经过主路径。另外,当深度神经网络仅具有一个替代性路径(参见上述实施例)时,如果在媒体数据穿过仅有的替代性路径之后未输出最终类别似然度,则媒体数据将必须经过主路径。
如图14中所示,深度神经网络通过以下来引导媒体数据穿过主路径:重新引导从主路径的所述X个由层形成的群组中的第Z个由层形成的群组输出的数据进入主路径的所述X个由层形成的群组中的第(Z+1)个由层形成的群组中并接着穿过主路径的层中的其余层。换句话说,当媒体数据穿过主路径时,无需再次经过主路径的所述X个由层形成的群组中的第一个由层形成的群组至第Z个由层形成的群组,因为这在替代性路径期间已完成。因此,当经过主路径时,在替代性路径期间在主路径的所述X个由层形成的群组中的第一个由层形成的群组至第Z个由层形成的群组中所作的计算无需再次作出。
如图14中所示,在深度神经网络重新引导从主路径的所述X个由层形成的群组中的第Z个由层形成的群组输出的数据进入主路径的所述X个由层形成的群组中的第(Z+1)个由层形成的群组中之后,数据将经过主路径的层中的其余层(依顺序次序为主路径的第(Z+1)个由层形成的群组至第X 个由层形成的群组、池化层、及分类层),以(由分类层)为媒体数据针对每一所述多个预定数据类别输出类别似然度。
在一实施例中,将主路径的所有类别似然度中的最高类别似然度(其对应于所述多个预定数据类别中的一者)与此替代性路径的类别似然度阈值(THM)进行比较。如果主路径的最高类别似然度达到或超过主路径的对应类别似然度阈值(THM),则主路径的最高类别似然度将被作为最终类别似然度输出到预测器以作出预测,即,将媒体数据识别及分类为所述多个预定数据类别中与最高类别似然度对应的一者。
在一实施例中,只有当已引导媒体数据从中穿过的主路径的最高类别似然度未达到或未超过对应类别似然度阈值时,融合层才针对所述多个预定数据类别中的每一者计算主路径及至少一个替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的目前融合类别似然度。举例来说,如图15中所示,如果主路径的最高类别似然度未达到或未超过主路径的对应类别似然度阈值(THM),则融合层将基于主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度来针对每一所述多个预定数据类别计算目前融合类别似然度。
在一实施例中,使用(但不限于)以下中的一者来选择主路径及替代性路径中用于计算目前融合类别似然度的两者或更多者:
(a)主路径及所有替代性路径中的替代性路径中已引导媒体数据从中穿过的任何路径中具有最高类别似然度的两者或更多者;
(b)已引导媒体数据从中穿过的所有路径(包括主路径及替代性路径);
(c)已引导媒体数据从中穿过且具有比预定阈值高的最高类别似然度的所有路径(包括主路径及替代性路径);以及
(d)从主路径及替代性路径中已引导媒体数据从中穿过的任何路径中随机选择的两者或更多者。
在实施例中,融合层将通过(但不限于)以下中的一者基于主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度来针对所述多个预定数据类别中的每一者计算目前融合类别似然度:
(a)对于每一所述多个预定数据类别中,通过对主路径及替代性路径中已引导媒体数据从中穿过的两者或更多者的类别似然度使用相同的权重来将主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度求平均;
(b)对于每一所述多个预定数据类别中,通过对主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度使用相应的权重来将主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度求平均;
(c)对于每一所述多个预定数据类别中,从主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度选择最大类别似然度;
(d)对于每一所述多个预定数据类别中,从主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度随机地选择类别似然度;以及
(e)对于每一所述多个预定数据类别中,随机地丢弃主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度中的预定数目的类别似然度,并接着执行(a)至(d)中的一者。
在一实施例中,不同于替代性路径,由于不存在其他供媒体数据经过的路径,因而所有融合类别似然度中的最高融合类别似然度(其对应于所述多个预定数据类别中的一者)将被作为最终类别似然度输出以作出预测,即,将媒体数据识别及分类为所述多个预定数据类别中与最高融合类别似然度对应的一者(即,无需与对应融合类别似然度阈值进行比较)。
图16说明根据本申请另一实施例的深度神经网络。图16所示的深度神经网络与图1所示的深度神经网络相似,只不过侧枝中的某些侧枝可具有从其延伸出的子侧枝。出于说明目的,图16仅显示图1中的最右侧替代性路径,而未显示图1中所示的主路径及其他替代性路径的细节。
如图1及图16中所示,两个深度神经网络均具有依顺序次序具有以下各项的替代性路径:输入层、仅X个由层形成的群组、池化层、及分类层,其中最右侧替代性路径中的所述X个由层形成的群组是由主路径中的所述 X个由层形成的群组中的前Y个群组、以及作为侧枝从主路径中的所述X 个群组中的第Y个群组延伸出的额外(X-Y)个由层形成的群组(被标示为第 (Y+1)个群组、...、第X个群组)组成。然而,如图16中所示,所述深度神经网络进一步包括从所述侧枝的所述额外X-Y个群组中的第W个群组 (即,图16中的此替代性路径的(从主路径的第一个群组开始计数)第A 个群组,且Y+W=A)延伸出的至少一个子侧枝。因此,形成了另一替代性路径,其依顺序次序具有所述输入层、仅X个由层形成的群组、池化层、及分类层,其中此替代性路径中的所述X个由层形成的群组是由主路径中的所述X个由层形成的群组中的前Y个群组、及所述第(Y+1)个由层形成的群组至所述第A个由层形成的群组、以及作为子侧枝从所述侧枝的第W 个由层形成的群组(即,图16中的此替代性路径的(从主路径的第一群组开始计数)第A个群组)延伸出的额外X-A(即,X-Y-W)个由层形成的群组(被标示为第(A+1)个群组、...、第X个群组)组成,其中A是整数且1≤Y<A<X,并且W是整数且1≤W<X-Y。换句话说,如同深度神经网络的主路径及其他替代性路径一样,此替代性路径(具有子侧枝)也具有相同数目(即,X)的由层形成的群组。
在实施例中,此种子侧枝具有比从中延伸出子侧枝的侧枝更少总数的层及/或更少总数的过滤器。因此,此种具有子侧枝的替代性路径与具有侧枝的替代性路径相比具有“完整但更小”的结构,因为此种具有子侧枝的替代性路径保持与具有侧枝的替代性路径相同数目(即,X)的由层形成的群组、但具有比具有侧枝的替代性路径更少总数的层及/或更少总数的过滤器。
相似地,深度神经网络可具有从图16所示侧枝延伸出的多于一个子侧枝,且可具有从其他侧枝延伸出的一个或多个子侧枝。另外,深度神经网络也可具有从任何子侧枝延伸出的一个或多个子子侧枝(sub-sub-side branch),依此类推。图17说明图16所示深度神经网络的主路径及替代性路径中的某些替代性路径,其中包括一些具有子侧枝的替代性路径及一些具有子子侧枝的替代性路径。应注意,所述替代性路径中的每一者保持与从中延伸出此特定替代性路径的(主或替代性)路径相同数目(即,X)的由层形成的群组,但具有比所述路径更少总数的层及/或更少总数的过滤器,从而与从中延伸出此特定替代性路径的(主或替代性)路径相比具有“完整但更小”的结构。
另外,与图1至图15所示的实施例相同,在图16及图17所示的实施例中,当媒体数据进入到深度神经网络中时,深度神经网络将引导媒体数据依序一次一个地穿过替代性路径及主路径中的一者或多者直至最终类别似然度在预测器处被输出为止,且输出以下作为最终类别似然度:替代性路径及主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或者基于主路径及替代性路径中已引导媒体数据从中穿过的任何路径中的两者或更多者的类别似然度而来自融合层的最高融合类别似然度。
此外,在图16及图17所示的实施例中,以下各项是以与图1至图15 所示实施例中所说明的方式相同的方式来进行计算且因此在此处将不加以解释:穿过每一替代性路径的媒体数据针对每一所述多个预定数据类别的类别似然度、基于主路径及至少一个替代性路径中的任何路径中的两者或更多者的类别似然度而定的融合类别似然度以及最终类别似然度。此外,与图1至图15所示实施例相同,在图16及图17所示的实施例中,由于融合类别似然度是使用两个或更多个路径(两个或更多个替代性路径、或者主路径与一个或多个替代性路径)的类别似然度而获得,因此只有当媒体数据已被引导穿过至少两个路径时,才能获得融合类别似然度。因此,当媒体数据仅穿过第一替代性路径时,将不会获得融合类别似然度。
在一实施例中,深度神经网络依序以侧枝在每一多个替代性路径中的长度的递减次序引导媒体数据穿过所述多个替代性路径,且侧枝的长度在每一所述多个替代性路径是每一所述多个替代性路径的所述额外X-Y个由层形成的群组的总数。如果存在从侧枝延伸出的子侧枝,则深度神经网络将依序以子侧枝在每一具有子侧枝的替代性路径中的长度的递减次序引导媒体数据穿过具有子侧枝的替代性路径。换句话说,如果存在从侧枝延伸出的子侧枝,则当深度神经网络引导媒体数据依序穿过这些替代性路径时,侧枝被视为子侧枝的主枝且子侧枝被视为侧枝的侧枝,并且直至深度神经网络已引导媒体数据依序穿过具有特定侧枝中的每一子侧枝的替代性路径,深度神经网络才引导媒体数据穿过具有所述特定侧枝的替代性路径。相同原理适用于具有不同层级的侧枝(例如,侧枝、子侧枝、子子侧枝、子子子侧枝等)的替代性路径。另外,直至深度神经网络已引导媒体数据依序穿过替代性路径内每一具有较长侧枝的替代性路径,深度神经网络才引导媒体数据穿过具有较短侧枝的替代性路径。此外,直至深度神经网络已引导媒体数据依序穿过每一具有侧枝的替代性路径,深度神经网络才引导媒体数据穿过主路径。此外,当深度神经网络在媒体数据穿过替代性路径中的首个路径便输出最终类别似然度时,深度神经网络停止引导媒体数据穿过所述至少一个替代性路径中的其余路径及主路径。
举例来说,如图16及图17中所示,深度神经网络将引导媒体数据穿过第一替代性路径,因为第一路径具有最长侧枝、在最长侧枝内具有最长子侧枝且在最长侧枝内的最长子侧枝内具有最长子子侧枝。如果深度神经网络在媒体数据穿过第一替代性路径时未输出最终类别似然度,则深度神经网络将引导媒体数据穿过第二替代性路径,因为第二替代性路径具有最长侧枝、在最长侧枝内具有最长子侧枝且在最长侧枝内的最长子侧枝内具有第二长子子侧枝。如果深度神经网络在媒体数据穿过第二替代性路径时未输出最终类别似然度,则深度神经网络将引导媒体数据穿过第三替代性路径(其被视为子子侧枝的主枝),因为第三替代性路径具有最长侧枝、在最长侧枝内具有最长子侧枝且在最长侧枝内的最长子侧枝内无子子侧枝。
如果深度神经网络在媒体数据穿过第三替代性路径时未输出最终类别似然度,则深度神经网络将引导媒体数据穿过第四替代性路径,因为第四替代性路径具有最长侧枝且在最长侧枝内具有第二长子侧枝。如果深度神经网络在媒体数据穿过第四替代性路径时未输出最终类别似然度,则深度神经网络将引导媒体数据穿过第五替代性路径,因为第五替代性路径具有最长侧枝且在最长侧枝内具有第三长子侧枝。如果深度神经网络在媒体数据穿过第五替代性路径时未输出最终类别似然度,则深度神经网络将引导媒体数据穿过第六替代性路径(其被视为子侧枝的主枝),因为第六替代性路径具有最长侧枝且在最长侧枝内无子侧枝。此种过程将持续进行至深度神经网络输出最终类别似然度为止(当媒体数据穿过替代性路径中的首个路径时,或当媒体数据在穿过所有替代性路径之后穿过主路径时)。
另外,与图1至图15所示的实施例相同,在图16及图17所示的实施例中,如果深度神经网络在媒体数据穿过替代性路径时未输出最终类别似然度,且存在尚未使媒体数据从中穿过的至少一个替代性路径,则深度神经网络将通过以下来引导媒体数据穿过下一替代性路径:重新引导从主枝(或侧枝、子侧枝...)的从中延伸出侧枝(或子侧枝、子子侧枝...)的特定由层形成的群组输出的数据进入主枝(或侧枝、子侧枝...)的下一由层形成的群组中并接着穿过所述下一替代性路径的层中的其余层。换句话说,当媒体数据穿过下一替代性路径时,无需再次经过主枝(及/或侧枝、子侧枝...)的任何先前由层形成的群组,因为在先前的替代性路径期间已使这些由层形成的群组作出了计算。
在实施例中,所述深度神经网络是卷积神经网络。图18说明根据本申请实施例具有主路径及替代性路径的卷积神经网络。还说明对由此卷积神经网络(下文中称为DFB-Net)带来的增益的评估。
具体来说,如图18中所示,主枝(基线模型)由五个卷积群组组成,后跟全局平均池化(global average pooling,GAP)层,且以具有归一化指数(Softmax)的分类层结束。各构建块是由广泛的残差网所构成而非瓶颈设计(bottleneck design)所构成。加权层的总数等于8×N+2。如图18中所示,采取N=6、k=6的结构,以得到具有50个层的基线卷积神经网络,此基线卷积神经网络由WRN-50-N6-k6表示。
尽管添加侧枝才能形成完整的DFB-Net,但所述侧枝是完整的且比主枝更小。“更小”暗示侧枝配备有更少数目的层及/或更小的过滤器大小,以实现更快速的正向推理。“完整”意指枝状子网络仍类似于主枝具有完整的形式。
具体来说,如图18中所示,存在一个主路径(依顺序次序具有:输入层;五(5)个卷积群组:Conv1、Conv2_x(x6)、Conv3_x(x6)、Conv4_x(x6)、及Conv5_x(x6);全局平均池化层;分类层(分类器+归一化指数))、第一替代性路径(依顺序次序具有:输入层;五(5)个卷积群组:Conv1、Conv2_x (x6)、Conv3_x(x2)、Conv4_x(x2)、Conv5_x(x2);全局平均池化层;分类层(分类器+归一化指数))、及第二替代性路径(依顺序次序具有:输入层;五(5)个卷积群组:Conv1、Conv2_x(x6)、Conv3_x(x6)、Conv4_x(x4)、 Conv5_x(x4);全局平均池化层;分类层(分类器+归一化指数))。
另外,如下在表1中显示各个卷积群组Conv1、Conv2_x(x6)、Conv3_x (x6)、Conv4_x(x6)及Conv5_x以及全局平均池化层的输出大小及块类型:
表1
Figure GDA0003312429680000361
其中,N是卷积群组中块的数目,且k是用以增加过滤器大小的加宽因子(wideningfactor)。在此实施例中,对于主路径,N被设定成6,且对于主路径,k被设定成6,对于第一(即,最右侧)替代性路径的侧枝,N 被设定成2,且对于第一替代性路径的侧枝,k被设定成2,并且对于第二 (即,最左侧)替代性路径的侧枝,N被设定成4,且对于第二替代性路径的侧枝,k被设定成4。
如图18中所说明,主路径中的五(5)个卷积群组Conv1、Conv2_x(x6)、 Conv3_x(x6)、Conv4_x(x6)、及Conv5_x(x6)具有总共49个层,第一替代性路径中的五(5)个卷积群组Conv1、Conv2_x(x6)、Conv3_x(x2)、Conv4_x (x2)、及Conv5_x(x2)具有总共25个层,且第二替代性路径中的五(5)个卷积群组Conv1、Conv2_x(x6)、Conv3_x(x6)、Conv4_x(x4)、及Conv5_x (x4)具有总共41个层。因此,第一替代性路径及第二替代性路径具有比主路径少的层。另外,由于对于第一替代性路径及第二替代性路径中的每一者的侧枝比对于主路径设定更小的k,因而第一替代性路径及第二替代性路径中的每一者的过滤器的数目小于主路径的过滤器的数目。然而,第一替代性路径及第二替代性路径仍保持与主路径相同数目(即,五(5))的卷积群组。因此,第一替代性路径及第二替代性路径中的每一者与主路径相比具有“完整但更小”的结构。
网络训练
为简洁起见,从1、...、M开始对所说明卷积神经网络(下文称为 DFB-Net)的所有退出点进行编号,其中M代表主枝的退出点,且1代表最早侧枝的退出点,依此类推。由于DFB-Net中存在多于一个退出点,因而通过关于与每一退出点相关联的损失Ls(Ws)的加权和求解联合优化问题来进行训练,其中s=1、...、M,且Ws分别表示所指定完整路径中所含有的参数集。
假定训练实例x,将每一完整路径视为特征提取器f(·),且接着通过下式给出完整路径的恰在归一化指数层之前的输出z:
z=f(x;Ws)。
假设所有可能标签的数目是K,对于由归一化指数层产生的标签c,可如下呈现所预测概率yc(c=1、...、K):
Figure GDA0003312429680000371
并且,作出如下定义:
Figure GDA0003312429680000372
因此,可如下呈现完整路径的损失函数Ls(Ws):
Figure GDA0003312429680000373
其中tk表示样本x的对应基准(ground truth)标签,并使用1/K(1-of-K) 编码方案。可通过下式来表达整个DFB-Net的组合损失函数:
Figure GDA0003312429680000374
其中αs是与每一枝状损失函数Ls(Ws)相关联的损失权重。
正向推理
为在已经过训练的DFB-Net上执行正向推理,在以下算法中将各程序公式化。首先,对于每一退出点s,需要指派退出阈值ps∈[0,1]作为置信量度。假定测试图像x,使用其由退出点s产生的归一化指数概率y来作出早退出决策(early-exit decision):如果max{y}>ps,则从此退出点返回 argmax{y}作为所预测标签并停止进一步计算;否则,继续在下一分枝的后续层中进行正向评估。如果对于所有s,max{y}≤ps,则通过将所有退出点的归一化指数输出求平均以获得平均值
Figure GDA0003312429680000381
来作出概率融合,且接着返回
Figure GDA0003312429680000382
作为所预测标签。
Figure GDA0003312429680000383
Figure GDA0003312429680000391
实验
在网络训练期间,用损失权重替换退出阈值,以形成损失的加权和来作为融合单元的输出。使用具有动量(momentum)及权重衰减(weight decay) 的SGD来从头开始训练基线模型(即,仅具有主路径而无侧枝的卷积神经网络)。一旦进行了训练,我们就以已经过训练的基线模型的权重来将 DFB-Net的主枝初始化。对于侧枝,通过所述方法将其权重初始化,且接着,我们训练整个DFB-Net。对于基线模型训练,学习率从0.1开始且每 60个纪元(epoch)下降0.2,并且模型被训练300个纪元。权重衰减被设定成0.0001,动量被设定成0.9,且微批大小(mini-batch size)被设定成50。
在CIFAR-10及CIFAR-100上对DFB-Net进行评估,且将结果与目前技术水平的方法进行比较。两个CIFAR数据集分别由从10个类别及从100 个类别抽取的32×32个彩色图像组成,并且各自含有用于训练集的50,000 个图像且含有用于测试集的10,000个图像。通过随机地选取两个值h、w∈ [48,64]来应用尺度数据扩增及纵横比数据扩增,且接着将图像的大小改变成h×w。接着,从大小已被改变的图像或其被水平翻转后的结果随机地采样出48×48裁剪图像,其中每像素的均值被减去。
在测试时,将图像的大小改变成56×56而不进行任何裁剪以便以1为批次大小来进行正向推理,且在本文中所报告的运行时间是在安装有
Figure GDA0003312429680000392
8.0及cuDNN 5.1的
Figure GDA0003312429680000393
GTX 1080(8GB)图形处理器(Graphics Processing Unit,GPU)上运行的三次试验内所有测试样本中的平均值。实施方案是基于框架卡费(framework Caffe)。
CIFAR数据集分类
为在CIFAR-10上训练整个DFB-Net,学习率从0.004开始,且纪元 (epoch)的总数是180。对越早退出的分枝赋予越大的损失权重,以促进在侧枝中进行更具鉴别性的特征学习。将损失权重2.5附加到两个侧枝并将0.25 附加到主枝。另外,在整个DFB-Net训练中不使用丢弃(dropout)。表2 显示DFB-Net的正向推理结果。如表2中所示,DFB-Net在退出阈值被设定成(0.99,0.975,0.75)时性能胜过其基线模型且获得3x的加速。当退出阈值被提升到(0.99,0.99,0.75)时,DFB-Net以3.07%的错误率实现目前技术水平的结果且仍获得2.85x的加速。与B-残差网相比,DFB-Net在以下三种量度上明显地更优越:(1)准确度(79.19%对96.93%),(2)加速增益(1.9x 对2.85x),以及(3)最短分枝处的退出样本的比率(41.5%对80.0%)。
表2
Figure GDA0003312429680000401
Figure GDA0003312429680000411
表2.DFB-Net在CIFAR-10数据集上的性能结果(着色处会最佳地看出)。
为在CIFAR-100上训练整个DFB-Net,在每一构建块内应用丢弃 (dropout),且学习率从0.025开始达总共200个纪元(epoch)。将损失权重3.75 置于第一退出分枝上,将损失权重2.5置于第二退出分枝上,且将损失权重 0.25置于主枝上。应注意,通过以2为跨度(stride)进行2×2平均池化来实作下采样,随后以1为跨度进行1×1卷积及3×3卷积。表3显示正向推理结果并再次确认相同事实:DFB-Net的性能胜过其基线模型。具体来说, DFB-Net在退出阈值被设定成(0.8,0.75,0.75)时比其主枝实现更低的错误率,且获得2.75x加速。当退出阈值被提升到(0.99,0.99,0.75)时,DFB-Net以 16.01%的错误率实现目前技术水平的结果,且仍获得1.56x加速。
表3
Figure GDA0003312429680000412
Figure GDA0003312429680000421
表3.DFB-Net在CIFAR-100数据集上的性能结果(着色处会最佳地看出)。
与目前技术水平方法的比较
在表4中,将DFB-Net的错误率与目前技术水平的方法进行比较。应注意,应用了尺度数据扩增与纵横比数据扩增两者,而在此表中所列示的其他方法使用的是常用的数据扩增(随机裁剪及/或水平翻转)。DFB-Net 在两个数据集上的性能均胜过现有的目前技术水平方法,其中在CIFAR-10 上错误率为3.07%且在CIFAR-100上错误率为16.01%。更胜一筹,当以1 为批大小在GTX 1080上运行时,平均来说,DFB-Net在CIFAR-10上花费少于10.5ms且在CIFAR-100上花费少于19ms便能完成正向推理。
表4
Figure GDA0003312429680000422
Figure GDA0003312429680000431
表4:在CIFAR数据集上的错误率(%)-与目前技术水平方法的比较
DFB-Net为推理时间与准确度之间的灵活权衡提供基于概率的直觉性退出阈值设定。如果对退出-1设定退出阈值0,则DFB-Net对于每次正向推理仅花费少于5.5ms,且仍测得低的错误率(在CIFAR-10上为5.74%,在CIFAR-100上为21.61%)。另外,完整但更小的侧枝强有力地促进大部分的测试样本更早地退出,且因此为快速推理得到高的加速增益。此外,如果测试样本未能超过退出阈值中的任一者,则作出概率融合会提供更好的协作性预测。
另外,所说明的DFB-Net(卷积神经网络)仅用于说明可通过使用从深度神经网络的主枝延伸出的侧枝的结构而实现的益处,而不限于应用于将从深度神经网络的主枝延伸出的“完整但更小”的侧枝的结构的卷积神经网络。其他类型的深度神经网络也可通过使用从主枝延伸出的“完整但更小”的侧枝的结构而获益。
如所提及,当在本申请中实施时,在深度神经网络中使用从主枝(或侧枝、子侧枝等)延伸出的侧枝(或子侧枝、子子侧枝等)的“完整但更小”的结构、顺序决策作出机制、及协作(融合)决策作出机制将使深度神经网络具有快速正向推理能力,以提高深度神经网络的识别与分类准确度及效率。
已如此阐述了本发明,将显而易见,可以许多方式来改变本发明。此类改变不应被视为背离本发明的精神及范围,且对于所属领域中的技术人员来说将显而易见的所有此类修改均旨在被包含在以上权利要求书的范围内。

Claims (42)

1.一种深度神经网络结构,所述深度神经网络用于将媒体数据识别及分类为多个预定数据类别中的一者,其特征在于,包括:
主路径,依顺序次序具有输入层、X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X > 1且X是整数;
至少一个替代性路径,依顺序次序具有所述输入层、X个由层形成的群组、至少一个池化层、及分类层,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组,以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1 ≤ Y <X;
融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及
预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者,
其中所述深度神经网络引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者直至所述最终类别似然度被输出为止,而且输出所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度当成是所述最终类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度。
2.根据权利要求1所述的深度神经网络结构,其特征在于,直至所述深度神经网络已引导所述媒体数据依序穿过所述至少一个替代性路径中的每一者,所述深度神经网络才引导所述媒体数据穿过所述主路径。
3.根据权利要求2所述的深度神经网络结构,其特征在于,所述至少一个替代性路径包括多个替代性路径,所述深度神经网络先引导所述媒体数据依序穿过每一所述多个替代性路径后,所述深度神经网络才引导所述媒体数据穿过所述主路径,并且所述深度神经网络依序以所述侧枝在每一所述多个替代性路径的长度的递减次序引导所述媒体数据穿过所述多个替代性路径,且所述侧枝的所述长度在每一所述多个替代性路径是每一所述多个替代性路径的所述额外X-Y个由层形成的群组的总数,当所述多个替代性路径侧枝的所述长度有至少二者相同时,则依所述额外X-Y个由层形成的群组所包含的层的总数的递增次序引导所述媒体数据穿过所述多个替代性路径。
4.根据权利要求1所述的深度神经网络结构,其特征在于,当所述深度神经网络输出所述最终类别似然度时,所述深度神经网络停止引导所述媒体数据穿过所述至少一个替代性路径中的其余路径及所述主路径。
5.根据权利要求1所述的深度神经网络结构,其特征在于,
于目前一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述融合层才针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的目前融合类别似然度,且
于下一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述融合层才针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的下一融合类别似然度。
6.根据权利要求5所述的深度神经网络结构,其特征在于,
当所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的对于每一所述多个预定数据类别中的所述目前融合类别似然度未达到或未超过对应类别似然度阈值时,所述深度神经网络引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者,且
所述至少一个替代性路径中的所述目前一者是由所述主路径的所述X个由层形成的群组中的第C个由层形成的群组延伸出,且所述深度神经网络通过以下来引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者:重新引导从所述主路径的所述X个由层形成的群组中的所述第C个由层形成的群组输出的数据进入所述主路径的所述X个由层形成的群组中的第(C+1) 个由层形成的群组中,并接着穿过所述至少一个替代性路径及所述主路径中的所述下一者的其余层,其中在所有所述至少一个替代性路径中,C是相应的所述Y中的一者。
7.根据权利要求5所述的深度神经网络结构,其特征在于,所述融合层通过以下中的一者来计算所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述目前融合类别似然度:
(a)对于每一所述多个预定数据类别,通过对所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度,使用相同的权重来将所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度求平均;
(b)对于每一所述多个预定数据类别,通过对所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度,使用相应的权重来将所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度求平均;
(c)对于每一所述多个预定数据类别,从所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度中,选择最大类别似然度;
(d)对于每一所述多个预定数据类别,从所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度随机地选择类别似然度;以及
(e)对于每一所述多个预定数据类别,随机地丢弃所述至少一个替代性路径及所述主路径中的所述两者或更多者的所述类别似然度中的预定数目的类别似然度,并接着执行(a)至(d)中的一者。
8.根据权利要求1所述的深度神经网络结构,其特征在于,所述类别似然度是以概率或类别分数的形式来表示。
9.根据权利要求1所述的深度神经网络结构,其特征在于,只有当所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中穿过的任何先前路径的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,所述深度神经网络才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
10.根据权利要求9所述的深度神经网络结构,其特征在于,当所述最高融合类别似然度达到或超过其对应融合类别似然度阈值,或所述深度神经网络已引导所述媒体数据穿过每一所述至少一个替代性路径及所述主路径时,所述深度神经网络才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
11.根据权利要求1所述的深度神经网络结构,其特征在于,所述至少一个替代性路径中的任一者中的所述X个群组中所述层的总数,不同于所述主路径中的所述X个由层形成的群组中所述层的总数。
12.根据权利要求11所述的深度神经网络结构,其特征在于,所述至少一个替代性路径中的任一者中的所述X个群组中所述层的所述总数,小于所述主路径中的所述X个由层形成的群组中所述层的所述总数。
13.根据权利要求12所述的深度神经网络结构,其特征在于,所述至少一个替代性路径中的至少一由第N个由层形成的群组中所述层的总数,小于所述主路径中的第N个由层形成的群组中所述层的总数,并且其中N > Y,且N是为Y+1、Y+2、…、X中的至少一者的整数。
14.根据权利要求1所述的深度神经网络结构,其特征在于,每一所述主路径及所述至少一个替代性路径中的每一所述层包括多个过滤器,且所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的所述过滤器的总数,不同于所述主路径中的所述X个由层形成的群组的所述过滤器的总数。
15.根据权利要求14所述的深度神经网络结构,其特征在于,所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的所述过滤器的所述总数小于所述主路径中的所述X个由层形成的群组的所述过滤器的所述总数。
16.根据权利要求15所述的深度神经网络结构,其特征在于,所述至少一个替代性路径中的至少一者中的第K个由层形成的群组的所述过滤器的所述总数小于所述主路径中的第K个由层形成的群组的所述过滤器的所述总数,并且其中K > Y,且K是为Y+1、Y+2、…、X中的至少一者的整数。
17.根据权利要求14所述的深度神经网络结构,其特征在于,所述主路径中由同一所述由层形成的群组中的每一所述层具有相同所述总数的所述过滤器,且所述至少一个替代性路径中的任一者中由同一所述由层形成的群组中的每一所述层具有相同所述总数的所述过滤器。
18.根据权利要求1所述的深度神经网络结构,其特征在于,所述深度神经网络是卷积神经网络。
19.根据权利要求1所述的深度神经网络结构,其特征在于,所述媒体数据是文本数据、图形数据、图像数据、音频数据、视频数据、或其中任一组合。
20.根据权利要求19所述的深度神经网络结构,其特征在于,所述媒体数据是显示待检验产品的一部分的图像数据或视频数据,且所述多个预定数据类别包括有缺陷及无缺陷。
21.根据权利要求1所述的深度神经网络结构,其特征在于,所述至少一个替代性路径包括多个替代性路径,且具有额外X-Y-W个由层形成的群组的至少一个子侧枝从所述侧枝的所述额外X-Y个由层形成的群组中的相应的第W个群组延伸出以由所述至少一个子侧枝形成所述至少一个替代性路径中的另一者的一部分,并且其中对于每一所述至少一个子侧枝,相应的所述W是整数,且1 ≤ W < X-Y。
22.根据权利要求21所述的深度神经网络结构,其特征在于,直至所述深度神经网络已引导所述媒体数据依序穿过具有所述至少一个子侧枝的每一至少一个替代性路径中,所述深度神经网络才引导所述媒体数据穿过具有所述侧枝的所述替代性路径。
23.根据权利要求21所述的深度神经网络结构,其特征在于,所述至少一个子侧枝包括多个子侧枝,所述多个子侧枝分别形成具有所述子侧枝的多个替代性路径的一部分,直至所述深度神经网络已引导所述媒体数据依序穿过具有每一所述子侧枝的所述多个替代性路径,所述深度神经网络才引导所述媒体数据穿过具有所述侧枝的所述替代性路径,并且所述深度神经网络引导所述媒体数据依序由所述子侧枝的长度的递减次序以具有所述子侧枝的每一所述多个替代性路径穿过具有所述子侧枝的所述多个替代性路径,且具有所述子侧枝的所述多个替代性路径中的每一者的所述子侧枝的所述长度是具有所述子侧枝的每一所述多个替代性路径的所述额外X-Y-W个由层形成的群组的总数。
24.根据权利要求23所述的深度神经网络结构,其特征在于,
当所述媒体数据穿过具有所述子侧枝的所述多个替代性路径中的目前一者而未输出所述最终类别似然度时,所述深度神经网络引导所述媒体数据穿过下一个具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径,且
所述目前一具有所述子侧枝的所述多个替代性路径,从具有所述侧枝的所述替代性路径的所述X-Y个由层形成的群组中的第V个由层形成的群组延伸出,且所述深度神经网络通过以下来引导所述媒体数据穿过所述下一具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径中:重新引导从具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的所述第V个由层形成的群组输出的数据进入具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的第(V+1) 个由层形成的群组中并接着穿过所述下一具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径中的所述下一者的其余层,其中在所有所述至少一个子侧枝中,V是相应的所述W中的一者。
25.一种用于使用深度神经网络将媒体数据识别及分类为多个预定数据类别中的一者的方法,其特征在于,
所述深度神经网络包括:
主路径,依顺序次序具有输入层、X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于为所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X > 1且X是整数;
至少一个替代性路径,依顺序次序具有所述输入层、X个由层形成的群组、至少一个池化层、及分类层,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的相应的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1 ≤ Y <X;
融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及
预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者,
所述方法包括:
引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;
输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及
将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
26.根据权利要求25所述的方法,其特征在于,进一步包括:直至所述深度神经网络已引导所述媒体数据依序穿过所述至少一个替代性路径中的每一者,才引导所述媒体数据穿过所述主路径。
27.根据权利要求26所述的方法,其特征在于,所述至少一个替代性路径包括多个替代性路径,且所述方法进一步包括:
所述深度神经网络先引导所述媒体数据依序穿过每一所述多个替代性路径后,才引导所述媒体数据穿过所述主路径;以及
依序以所述侧枝在每一所述多个替代性路径的长度的递减次序引导所述媒体数据穿过所述多个替代性路径,
其中所述侧枝的所述长度在每一所述多个替代性路径是每一所述多个替代性路径的所述额外X-Y个由层形成的群组的总数,当所述多个替代性路径侧枝的所述长度有至少二者相同时,则依所述额外X-Y个由层形成的群组所包含的层的总数的递增次序引导所述媒体数据穿过所述多个替代性路径。
28.根据权利要求25所述的方法,其特征在于,进一步包括:当所述深度神经网络输出所述最终类别似然度时,停止引导所述媒体数据穿过所述至少一个替代性路径中的其余路径及所述主路径。
29.根据权利要求25所述的方法,其特征在于,进一步包括:
于目前一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中穿过的当前一者的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,才由所述融合层才针对所述多个预定数据类别中的每一者计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的目前融合类别似然度;以及
于下一者在所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中穿过的下一者的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,才由所述融合层才针对每一所述多个预定数据类别计算所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的下一融合类别似然度。
30.根据权利要求29所述的方法,其特征在于,进一步包括:
当所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的所述两者或更多者的对于每一所述多个预定数据类别的所述目前融合类别似然度未达到或未超过对应类别似然度阈值时,引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者;以及
通过以下来引导所述媒体数据穿过所述至少一个替代性路径及所述主路径中的所述下一者:重新引导从所述主路径的所述X个由层形成的群组中的第C个由层形成的群组输出的数据进入所述主路径的所述X个由层形成的群组中的第(C+1) 个由层形成的群组中,并接着穿过所述至少一个替代性路径及所述主路径中的所述下一者的其余层,其中在所有所述至少一个替代性路径中,C是相应的所述Y中的一者,且所述至少一个替代性路径中的所述目前一者是由从所述主路径的所述X个由层形成的群组中的所述第C个由层形成的群组延伸出。
31.根据权利要求25所述的方法,其特征在于,进一步包括:只有当所述至少一个替代性路径及所述主路径中已引导所述媒体数据从中穿过的任何先前路径的所述最高类别似然度未达到或未超过所述对应类别似然度阈值时,才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
32.根据权利要求31所述的方法,其特征在于,进一步包括:只有当所述最高融合类别似然度达到或超过其对应融合类别似然度阈值,或所述深度神经网络已引导所述媒体数据穿过每一所述至少一个替代性路径及所述主路径时,才从所述融合层输出所述最高融合类别似然度作为所述最终类别似然度。
33.根据权利要求25所述的方法,其特征在于,所述至少一个替代性路径中的任一者中的所述X个群组中所述层的总数,小于所述主路径中的所述X个由层形成的群组中所述层的总数。
34.根据权利要求33所述的方法,其特征在于,所述至少一个替代性路径中的至少一由第N个由层形成的群组中所述层的总数,小于所述主路径中的第N个由层形成的群组中所述层的总数,并且其中N > Y,且N是为Y+1、Y+2、…、X中的至少一者的整数。
35.根据权利要求25所述的方法,其特征在于,每一所述主路径及所述至少一个替代性路径中的每一所述层包括多个过滤器,所述至少一个替代性路径中的任一者中的所述X个由层形成的群组的所述过滤器的总数,小于所述主路径中的所述X个由层形成的群组的所述过滤器的总数。
36.根据权利要求35所述的方法,其特征在于,所述至少一个替代性路径中的至少一者中的第K个由层形成的群组的所述过滤器的总数小于所述主路径中的第K个由层形成的群组的所述过滤器的总数,并且其中K > Y且K是为Y+1、Y+2、…、X中的至少一者的整数。
37.根据权利要求35所述的方法,其特征在于,所述主路径中由同一所述由层形成的群组中的每一所述层具有相同总数的所述过滤器,且所述至少一个替代性路径中的任一者中由同一所述由层形成的群组中的每一所述层具有相同总数的所述过滤器。
38.根据权利要求25所述的方法,其特征在于,所述至少一个替代性路径包括多个替代性路径,且具有额外X-Y-W个由层形成的群组的至少一个子侧枝从所述侧枝的所述额外X-Y个由层形成的群组中的相应的第W个群组延伸出以由所述至少一个子侧枝形成所述至少一个替代性路径中的另一者的一部分,并且其中对于每一所述至少一个子侧枝,相应的所述W是整数,且1 ≤ W < X-Y。
39.根据权利要求38所述的方法,其特征在于,进一步包括:直至所述深度神经网络已引导所述媒体数据依序穿过具有所述至少一个子侧枝的每一至少一个替代性路径中,才引导所述媒体数据穿过具有所述侧枝的所述替代性路径。
40.根据权利要求38所述的方法,其特征在于,所述至少一个子侧枝包括多个子侧枝,所述多个子侧枝分别形成具有所述子侧枝的多个替代性路径的一部分,所述方法进一步包括:
直至所述深度神经网络已引导所述媒体数据依序穿过具有每一所述子侧枝的所述多个替代性路径,才引导所述媒体数据穿过具有所述侧枝的所述替代性路径;以及
引导所述媒体数据依序由所述子侧枝的长度的递减次序以具有所述子侧枝的每一所述多个替代性路径穿过具有所述子侧枝的所述多个替代性路径,
其中具有所述子侧枝的每一所述多个替代性路径的所述子侧枝的所述长度是具有所述子侧枝的所述多个替代性路径中的每一者的所述额外X-Y-W个由层形成的群组的总数。
41.根据权利要求40所述的方法,其特征在于,进一步包括:
当所述媒体数据穿过具有所述子侧枝的所述多个替代性路径中的目前一者而未输出所述最终类别似然度时,引导所述媒体数据穿过下一个具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径;以及
通过以下来引导所述媒体数据穿过具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径中的所述下一者:重新引导从具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的第V个由层形成的群组输出的数据进入具有所述侧枝的所述替代性路径的所述X个由层形成的群组中的第(V+1) 个由层形成的群组中并接着穿过其余层的所述下一具有所述子侧枝的所述多个替代性路径及具有所述侧枝的所述替代性路径,其中在所有所述至少一个子侧枝中,V是相应的所述W中的一者,且所述目前一具有所述子侧枝的所述多个替代性路径,从具有所述侧枝的所述替代性路径的所述X-Y个由层形成的群组中的所述第V个由层形成的群组延伸出。
42.一种含有计算机程序产品的非暂时性计算机可读媒体,所述计算机程序产品包括用于使用深度神经网络将媒体数据识别及分类为多个预定数据类别中的一者的计算机可执行指令,其特征在于,
所述深度神经网络包括:
主路径,依顺序次序具有输入层、X个由层形成的群组、至少一个池化层、及分类层,所述输入层用于接收媒体数据,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述主路径中的所述X个由层形成的群组的输出进行向下采样,所述分类层用于所述媒体数据穿过所述主路径时,计算每一所述多个预定数据类别中的类别似然度,其中X > 1且X是整数;
至少一个替代性路径,依顺序次序具有所述输入层、X个由层形成的群组、至少一个池化层、及分类层,所述X个由层形成的群组用于从所述媒体数据提取特征,所述至少一个池化层用于对来自所述至少一个替代性路径中的所述X个群组的输出进行向下采样,所述分类层用于当所述媒体数据穿过所述至少一个替代性路径时,计算每一所述多个预定数据类别的类别似然度,其中每一所述至少一个替代性路径中的所述X个由层形成的群组,是相对于由所述主路径中的所述X个由层形成的群组中的Y个群组、以及额外X-Y个由层形成的群组作为侧枝相应于所述主路径中的所述X个群组中的第Y个群组延伸而出,其中所述主路径中的所述X个由层形成的群组中的相应的所述Y个群组是所述主路径中的所述X个由层形成的群组中的第一个群组至所述主路径中的所述X个由层形成的群组中的相应的所述第Y个群组,并且其中对于每一所述至少一个替代性路径,相应的所述Y是整数,且1 ≤ Y < X;
融合层,其中所述主路径的所述分类层与所述至少一个替代性路径的所述分类层在所述融合层处合并;以及
预测器,依据最终类别似然度将所述媒体数据识别及分类,为所述多个预定数据类别中对应的一者,
所述计算机程序产品包括用于以下的所述计算机可执行指令:
引导所述媒体数据依序一次一个地穿过所述至少一个替代性路径及所述主路径中的一者或多者,直至所述最终类别似然度被输出为止;
输出以下作为所述最终类别似然度:所述至少一个替代性路径及所述主路径中首先达到或超过对应类别似然度阈值的那一个的最高类别似然度、或者是输出来自所述融合层的最高融合类别似然度当成所述最终类别似然度,其中所述融合层的最高融合类别似然度是基于所述主路径及所述至少一个替代性路径中已引导所述媒体数据从中穿过的任何路径中的两者或更多者的所述类别似然度;以及
将所述媒体数据识别及分类为所述多个预定数据类别中与所述最终类别似然度对应的一者。
CN201810156489.XA 2017-07-31 2018-02-24 深度神经网络结构、使用深度神经网络的方法及可读媒体 Active CN109325583B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762538811P 2017-07-31 2017-07-31
US62/538,811 2017-07-31
US15/793,086 2017-10-25
US15/793,086 US10474925B2 (en) 2017-07-31 2017-10-25 Deep neural network with side branches for recognizing and classifying media data and method for using the same

Publications (2)

Publication Number Publication Date
CN109325583A CN109325583A (zh) 2019-02-12
CN109325583B true CN109325583B (zh) 2022-03-08

Family

ID=64452846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810156489.XA Active CN109325583B (zh) 2017-07-31 2018-02-24 深度神经网络结构、使用深度神经网络的方法及可读媒体

Country Status (2)

Country Link
CN (1) CN109325583B (zh)
TW (1) TWI636404B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI717655B (zh) * 2018-11-09 2021-02-01 財團法人資訊工業策進會 適應多物件尺寸之特徵決定裝置及方法
US10789510B2 (en) * 2019-01-11 2020-09-29 Google Llc Dynamic minibatch sizes
CN111353587B (zh) * 2020-03-10 2024-01-12 中科(厦门)数据智能研究院 一种深度神经网络的可解释生成方法
TWI785579B (zh) * 2021-04-27 2022-12-01 和碩聯合科技股份有限公司 元件辨識模型之自動模型重建方法及系統

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0294116A2 (en) * 1987-06-01 1988-12-07 Texas Instruments Incorporated Digital adaptive receiver employing maximum-likelihood sequence estimation with neural networks
CA2165400A1 (en) * 1995-12-15 1997-06-16 Jean Serodes Method of Predicting Residual Chlorine in Water Supply Systems
US5832108A (en) * 1993-08-26 1998-11-03 International Business Machines Corporation Pattern recognition method using a network and system therefor
US6278799B1 (en) * 1997-03-10 2001-08-21 Efrem H. Hoffman Hierarchical data matrix pattern recognition system
CN102368297A (zh) * 2011-09-14 2012-03-07 北京英福生科技有限公司 一种用于识别被检测对象动作的设备、系统及方法
CN102486833A (zh) * 2010-12-03 2012-06-06 财团法人工业技术研究院 装置的效能预测及故障检测的方法
CN102915450A (zh) * 2012-09-28 2013-02-06 常州工学院 一种在线自适应调整的目标图像区域跟踪方法
CN103745117A (zh) * 2014-01-22 2014-04-23 哈尔滨工程大学 一种用于目标识别的决策概率转换方法
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN105404902A (zh) * 2015-10-27 2016-03-16 清华大学 基于脉冲神经网络的图像特征描述和记忆方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN105900116A (zh) * 2014-02-10 2016-08-24 三菱电机株式会社 分层型神经网络装置、判别器学习方法以及判别方法
CN105989368A (zh) * 2015-02-13 2016-10-05 展讯通信(天津)有限公司 一种目标检测方法及装置以及移动终端

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0636061A (ja) * 1992-07-21 1994-02-10 Fujitsu Ltd 階層型ニューラルネットワークの学習方式
US9430829B2 (en) * 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
CN105488044A (zh) * 2014-09-16 2016-04-13 华为技术有限公司 数据处理的方法和设备
GB2534884B (en) * 2015-02-03 2019-04-17 Jaguar Land Rover Ltd A system for use in a vehicle
US10438117B1 (en) * 2015-05-21 2019-10-08 Google Llc Computing convolutions using a neural network processor
CN105512680B (zh) * 2015-12-02 2019-01-08 北京航空航天大学 一种基于深度神经网络的多视sar图像目标识别方法
CN106529578A (zh) * 2016-10-20 2017-03-22 中山大学 一种基于深度学习的车辆品牌型号精细识别方法与系统
CN106384023A (zh) * 2016-12-02 2017-02-08 天津大学 基于主路径的混合场强预测方法
CN106980895A (zh) * 2017-02-22 2017-07-25 中国科学院自动化研究所 基于旋转区域的卷积神经网络预测方法
CN106960243A (zh) * 2017-03-06 2017-07-18 中南大学 一种改进卷积神经网络结构的方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0294116A2 (en) * 1987-06-01 1988-12-07 Texas Instruments Incorporated Digital adaptive receiver employing maximum-likelihood sequence estimation with neural networks
US5832108A (en) * 1993-08-26 1998-11-03 International Business Machines Corporation Pattern recognition method using a network and system therefor
CA2165400A1 (en) * 1995-12-15 1997-06-16 Jean Serodes Method of Predicting Residual Chlorine in Water Supply Systems
US6278799B1 (en) * 1997-03-10 2001-08-21 Efrem H. Hoffman Hierarchical data matrix pattern recognition system
CN102486833A (zh) * 2010-12-03 2012-06-06 财团法人工业技术研究院 装置的效能预测及故障检测的方法
CN102368297A (zh) * 2011-09-14 2012-03-07 北京英福生科技有限公司 一种用于识别被检测对象动作的设备、系统及方法
CN102915450A (zh) * 2012-09-28 2013-02-06 常州工学院 一种在线自适应调整的目标图像区域跟踪方法
CN103745117A (zh) * 2014-01-22 2014-04-23 哈尔滨工程大学 一种用于目标识别的决策概率转换方法
CN105900116A (zh) * 2014-02-10 2016-08-24 三菱电机株式会社 分层型神经网络装置、判别器学习方法以及判别方法
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN105989368A (zh) * 2015-02-13 2016-10-05 展讯通信(天津)有限公司 一种目标检测方法及装置以及移动终端
CN105404902A (zh) * 2015-10-27 2016-03-16 清华大学 基于脉冲神经网络的图像特征描述和记忆方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Learning-based Pipeline to Recognize Alzheimer"s Disease using fMRI Data;Saman Sarraf et al;《Future Technologies Conference》;20161231;全文 *
Ternary weight networks;Fengfu Li et al;《Conference on Neral Information Processing Systems》;20160516;全文 *

Also Published As

Publication number Publication date
TWI636404B (zh) 2018-09-21
CN109325583A (zh) 2019-02-12
TW201911137A (zh) 2019-03-16

Similar Documents

Publication Publication Date Title
CN109325583B (zh) 深度神经网络结构、使用深度神经网络的方法及可读媒体
US10474925B2 (en) Deep neural network with side branches for recognizing and classifying media data and method for using the same
Jeong et al. Ood-maml: Meta-learning for few-shot out-of-distribution detection and classification
Yang et al. Deep neural decision trees
Cross et al. Incremental parsing with minimal features using bi-directional LSTM
CN108595590A (zh) 一种基于融合注意力模型的中文文本分类方法
CN107256221A (zh) 基于多特征融合的视频描述方法
CN106156163B (zh) 文本分类方法以及装置
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110705399A (zh) 一种数学公式自动识别的方法
CN110892409A (zh) 用于分析图像的方法和装置
Li et al. A deep feature based multi-kernel learning approach for video emotion recognition
CN112215423A (zh) 一种基于趋势引导与稀疏交互的行人轨迹预测方法及系统
CN111340057A (zh) 一种分类模型训练的方法及装置
CN111144296B (zh) 基于改进cnn模型的视网膜眼底图片分类方法
Zhong et al. Predicting customer churn in the telecommunication industry by analyzing phone call transcripts with convolutional neural networks
CN108197337A (zh) 一种文本分类方法及装置
Barbhuiya et al. Gesture recognition from RGB images using convolutional neural network‐attention based system
JP7073171B2 (ja) 学習装置、学習方法及びプログラム
KR102512151B1 (ko) 객체 검출 방법 및 장치
CN111738226B (zh) 一种基于cnn和rcnn模型的文本识别方法及装置
CN111768803B (zh) 基于卷积神经网络和多任务学习的通用音频隐写分析方法
JP6632124B2 (ja) 画像分類方法および画像分類装置
KR102330317B1 (ko) 해석할 수 있고 단순화된 딥 포레스트 분류 방법 및 분류기
CN107092644A (zh) 一种基于MPI和Adaboost.MH的中文文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant