CN114641780A - 用于复合特性分类和共同局部化的神经网络模型的学习方法及装置 - Google Patents
用于复合特性分类和共同局部化的神经网络模型的学习方法及装置 Download PDFInfo
- Publication number
- CN114641780A CN114641780A CN202180006146.5A CN202180006146A CN114641780A CN 114641780 A CN114641780 A CN 114641780A CN 202180006146 A CN202180006146 A CN 202180006146A CN 114641780 A CN114641780 A CN 114641780A
- Authority
- CN
- China
- Prior art keywords
- class
- neural network
- network model
- category
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
Abstract
在根据本发明实施例的用于图像的复合特性分类和共同局部化的神经网络模型的学习方法中,所述神经网络模型包括:卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;池化层,所述池化层用于对所述卷积层的输出执行池化(pooling);及多个按类别的全连接层(fullyconnected layer),所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,所述方法包括以下步骤:(a)将输入图像输入到所述卷积层;(b)基于所述卷积层的输出运算多个按类别的观察图;(c)基于所述多个按类别的观察图运算共同于多个类别的观察损失(Lobs);及(d)将基于所述观察损失(Lobs)的损失反向传播到所述神经网络模型。
Description
技术领域
本发明涉及一种用于复合特性分类和共同局部化的神经网络模型的学习方法及装置。
背景技术
图1(a)示出根据现有技术的神经网络模型。
参考图1(a),神经网络模型包括输入层、一个以上的卷积层、池化层及全连接层。利用这样的神经网络模型,当有某个输入时,就可以输出A、B、C、D四个特性中的一个的结果值,或对应于各个特性的概率。此时,结果值的总和可以是100%。
但是,某些输入可以具有可能有多个结果的复合特性。例如,如果A是男性特性、B是女性特性、C是亚洲人特性、D是非亚洲人特性的情况下,A和C可以同时作为结果值。
然而,在现有神经网络模型的情况下,由于判断结果值的总和为100%,因此难以合乎标准地反映这些复合特性。
发明内容
要解决的技术问题
本发明实施例的目的在于,提供一种能够合乎标准地预测复合特性的神经网络模型的学习方法及装置。
解决问题的方案
在根据本发明实施例的用于图像的复合特性分类和共同局部化的神经网络模型的学习方法中,所述神经网络模型包括:卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;池化层,所述池化层用于对所述卷积层的输出执行池化(pooling);及多个按类别的全连接层(fully connected layer),所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,所述方法包括以下步骤:(a)将输入图像输入到所述卷积层;(b)基于所述卷积层的输出运算多个按类别的观察图;(c)基于所述多个按类别的观察图运算共同于多个类别的观察损失(Lobs);及(d)将基于所述观察损失(Lobs)的损失反向传播到所述神经网络模型。
所述步骤(c)包括以下步骤:(c-1)基于所述多个按类别的观察图生成共同于所述多个类别的共同观察图;及(c-2)利用所述共同观察图和所述输入图像的对象区域运算所述观察损失(Lobs)。
所述共同观察图可以是所述按类别的观察图的平均值。
所述观察损失可以通过将对于第一值计算余弦距离来算出,所述第一值为将所述共同观察图和所述输入图像的对象区域分别沿横向和纵向方向进行投影的值连接(concatenate)的值。
在所述步骤(b)中,可以通过下式算出所述按类别的观察图。
(只是,Tt表示类别、wfc(Tt)表示按类别的全连接层的权重、oconv表示卷积层的输出、C表示通道数)
所述神经网络模型还可以包括:多个按类别的分类器,所述多个按类别的分类器分别对应于所述多个按类别的全连接层,并根据各个按类别的全连接层的输出运算按类别的特性概率。
所述步骤(d)可以包括以下步骤:(d-1)基于所述多个按类别的分类器各个的输出结果运算按类别的分类损失(Lcls(Tt));(d-2)基于所述观察损失(Lobs)和所述按类别的分类损失(Lcls(Tt))运算按类别的特性损失(L(Tt));及(d-3)将所述按类别的特性损失(L(Tt))按类别反向传播到所述多个按类别的分类器和所述多个按类别的全连接层。
在步骤(d-2)中,可以通过下式算出所述按类别的特性损失(L(Tt))。
(但是,0≤α≤1)
所述步骤(d)还可以包括:(d-4)基于所述多个按类别的分类损失(Lcls(Tt))和所述观察损失(Lobs)运算多标签分类损失(L(T));及(d-5)将所述多标签分类损失(L(T))反向传播到所述多个按类别的分类器、所述多个按类别的全连接层、所述池化层及所述卷积层。
所述池化层可以是全局平均池化层(global average pooling layer)。
根据本发明实施例的神经网络模型的学习装置,其为包括存储神经网络模型的存储器及处理器的用于图像的复合特性分类和共同局部化的神经网络模型的学习装置,所述神经网络模型包括:卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;池化层,所述池化层用于对所述卷积层的输出执行池化(pooling);及多个按类别的全连接层(fully connected layer),所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,所述处理器将输入图像输入到所述卷积层,并基于所述卷积层的输出运算多个按类别的观察图,并基于所述多个按类别的观察图运算共同于多个类别的观察损失(Lobs),并将基于所述观察损失(Lobs)的损失反向传播到神经网络模型。
发明的效果
根据本发明的实施例,可以合乎标准地分类复合特性。
根据本发明的实施例,可以反映类别之间的关联性。
根据本发明的实施例,可以实现复合特性之间的共同局部化。
附图说明
图1(a)示出根据现有技术的一对一模型,图1(b)示出根据比较例的使用两个一对一分类模型的情形,图1(c)示出根据本发明实施例的一对多模型的情形。
图2是示出根据本发明实施例的神经网络模型1的结构的图。
图3是示出根据本发明实施例的神经网络模型的学习方法的流程图。
图4是用于说明图3的学习方法的图。
图5和图6是用于说明根据本发明实施例的观察损失的运算方法的图。
图7是示出根据本发明实施例的神经网络模型的学习方法的流程图。
图8是示出根据本发明实施例的神经网络模型的学习方法的数据流程图。
图9是表示在图2的神经网络模型中相当于图7和图8的各步骤的部分的情形。
图10是示出根据本发明实施例的神经网络模型的学习装置的结构的图。
具体实施方式
基于发明人为了以最佳方式说明其自身发明可以恰当地定义术语的概念的原则,本说明书和权利要求书所使用的术语或词语应被解释为符合本发明的技术思想的含义和概念。
在整个说明书中,当称某个部分“包括”某个构成元素时,除非另有说明,否则意味着可以进一步包括其他构成元素,而不是排除其他构成元素。此外,当称一个构成要素“连接”、“传送”、“发送”、“接收”或“传输”到另一个构成要素时,这不仅包括直接连接、传送、发送、接收或传输的情况,还包括通过其他构成要素间接连接、传送、发送、接收或传输的情况。此外,说明书中所记载的“…部”、“…器”、“模块”及“装置”等术语是指处理至少一个功能或动作的单位,其可以通过用硬件或软件或硬件和软件的组合来实现。
以下,将参考附图说明本发明的具体实施例。
图1(b)示出根据比较例的使用两个一对一分类模型的情形,图1(c)示出根据本发明实施例的一对多模型的情形。
在图1中,A和B表示属于类别I的特性,C和D表示属于类别II的特性。类别I的分类基准和类别II的分类基准可以不同。如此地,属于多个类别的特性在本说明书中被称为复合特性。具有复合特性的输入可以具有多个特性,即可以按各个类别具有特性。
参考图1(b),当使用两个一对一分类模型时,特性A和B的预测概率之和为100%,特性C和D的预测概率之和为100%。在这种情况下,预测结果可能是准确的,但由于需要学习两个模型,因此运算量可能会增加。此外,由于两个模型是独立学习的,因此难以反映类别之间的关联性。
参考图1(c),在一对多模型中,一部分的层,即卷积层和池化层(pooling layer)在类别之间是共有的,而全连接层是按类别的提供的。此时,由于按类别的提供全连接层,因此特性A和B的预测概率之和为100%,特性C和D的预测概率之和为100%。因此,由于分别提供在类别I的预测结果和在类别II的预测结果,因此可以获得比图1(a)准确的预测结果。此外,由于在类别之间共有卷积层,因此与图1(b)的模型相比,可以在减少运算量的情形下反映类别之间关联性。
在根据本发明实施例的用于图像的复合特性分类和共同局部化的神经网络模型的学习方法中,
所述神经网络模型包括:
卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;
池化层,所述池化层用于对所述卷积层的输出执行池化(pooling);及
多个按类别的全连接层(fully connected layer),所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,
所述方法包括以下步骤:
(a)将输入图像输入到所述卷积层;
(b)基于所述卷积层的输出运算多个按类别的观察图;
(c)基于所述多个按类别的观察图运算共同于多个类别的观察损失(Lobs);及
(d)将基于所述观察损失(Lobs)的损失反向传播到所述神经网络模型。
图2是示出根据本发明实施例的神经网络模型1的结构的图。在图2中,存在NT个类别(T1,T2,...Tt,...TNT),假设类别T1中有两种特性、类别T2中有两种特性、类别Tt中有n个特性、类别TNT中有三种特性。
参考图2,根据本发明实施例的神经网络模型1包括:卷积层10,所述卷积层10利用卷积滤波器对输入图像(xi)执行卷积运算;池化层20,所述池化层20用于对所述卷积层10的输出(oconv)执行池化;及多个按类别的全连接层30,所述多个按类别的全连接层30分别对应于复合特性被分类的多个类别,并输出对所述池化层20的输出乘以按类别的权重wfc(Tt)的值。
神经网络模型1还可以包括:多个按类别的分类器40,所述多个按类别的分类器40分别对应于所述多个按类别的全连接层30,并根据各个按类别的全连接层30的输出运算按类别的特性概率。
卷积层10通过对输入图像使用多个卷积滤波器执行卷积运算而提取特征图。如图2所示,卷积运算可以执行多次。假设卷积层10的输出,即特征图oconv具有高度(H)、宽度(W)及通道数(C)。
池化层20位于卷积层10与全连接层30之间,并通过减小特征图oconv的大小而减少后述的全连接层30所需的运算,起到防止过拟合的作用。池化层20可以执行对特征图(oconv)的各个通道输出平均值的全局平均池化(global average pooling)。
按类别的全连接层30输出对池化层20的输出乘以按类别的权重(wfc(T1),wfc(T2),...wfc(Tt),...wfc(TNT))的值。此时,各个按类别的权重(wfc(T1),wfc(T2),...wfc(Tt),...wfc(TNT))可以是对应于通道数的多个值。
按类别的分类器40分别对应于按类别的全连接层30,并根据按类别的全连接层30的输出运算按类别的特性概率。参考图2,相当于类别T1的分类器运算相当于属于类别T1的各个特性的概率(P1(T1),P2(T1)),相当于类别T2的分类器运算相当于属于类别T2的各个特性的概率(P1(T2),P2(T2)),相当于类别Tt的分类器运算相当于属于类别Tt的各个特性的概率(P1(Tt),P2(Tt),...Pn(Tt)),相当于类别TNT的分类器运算相当于属于类别TNT的各个特性的概率(P1(TNT),P2(TNT),P3(TNT))。作为按类别的分类器40,例如,可以利用Softmax函数、Sigmoid函数等。
接着,将参考图3和图4说明根据本发明实施例的神经网络模型的学习方法。
图3是示出根据本发明实施例的神经网络模型的学习方法的流程图。图4是用于说明图3的学习方法的图。根据本发明实施例的神经网络模型的学习方法使用图2的神经网络模型。
参考图3,首先,将图像输入到神经网络模型的卷积层(S100)。输入图像的按类别的特性(复合特性)和对象区域是已知的。这里,对象区域是输入图像的一部分,意指对判断按类别的特性产生主要影响的部分。例如,如图4所示,当输入图像是超声图像时,对象区域可以是出现病变的部分。对象区域对于多个类别可以相同。
接着,基于卷积层的输出运算多个按类别的观察图(S110)。
观察图也称为类别激活图(Class Activation Map;CAM),其表示输入图像的各个部分对分类结果产生了多少的影响。在本实施例中,按类别运算观察图。图4示出了按类别的观察图的示例。可以通过下式算出按类别的观察图。
但是,Tt表示类别、wfc(Tt)表示按类别的全连接层的权重、oconv表示卷积层的输出、C表示通道数。
接着,基于多个按类别的观察图运算共同于多个类别的观察损失(S120)。
根据实施例,步骤S120可以包括以下步骤:基于多个按类别的观察图生成共同于多个类别的共同观察图(S121);及利用共同观察图和输入图像的对象区域运算观察损失(S122)。观察损失可以基于输入图像的对象区域与共同观察图之间的差异而被运算。共同观察图可以是按类别的观察图的平均值,可以通过下式算出。
但是,这只是一个例子,可以使得各个类别的观察图的比例不同,或基于所有类别中的一部分类别的观察图算出共同观察图。
利用算出的共同观察图和输入图像的对象区域运算观察损失。
例如,可以通过下式算出观察损失。
其中,
图5和图6是用于说明根据本发明实施例的观察损失的运算方法的图。
如图5(a)示出将输入图像的对象区域沿纵向方向进行投影(projection)的值MH,而图5(b)示出将输入图像的对象区域沿横向方向进行投影的值MV。
尽管在图5(a)中仅对输入图像的对象区域举例进行了说明,但也可以对共同观测图同样地计算出沿横向和纵向方向投影的值。
图6(a)是用曲线图示将输入图像的对象区域沿纵向方向进行投影的值的情形,图6(b)是用曲线图示将输入图像的对象区域沿横向方向进行投影的值的情形,图6(c)是用曲线图示将共同观测图的对象区域沿纵向方向进行投影的值的情形,图6(d)是用曲线图示将共同观测图的对象区域沿横向方向进行投影的值的情形。
根据实施例,观察损失可以通过将所述共同观察图和所述输入图像的对象区域分别沿横向和纵向方向进行投影,并对于将这些连接(concatenate)的值计算余弦距离来算出。
即,可以通过下式算出观察损失。
MHV=concatenate of MH and MV,,其中,‘concatenate of MH and MV’意为‘MH和MV的连接’。
在依据上式的情况下,相比于像素单元的精度,能够反映出整体分布。
接着,再次参考图3,将基于观察损失的损失反向传播到神经网络模型(S130)。
上述的步骤S100~S130可以对多个输入图像执行,据此,可以学习神经网络模型。
在本实施例中尽管按类别生成观察图,但是观察损失同样适用于多个类别。据此,可以获得对于多个类别观察图变得相同的效果,即共同局部化的效果。
图7是示出根据本发明实施例的神经网络模型的学习方法的流程图。
首先,将图像输入到神经网络模型的卷积层(S200)。
接着,从神经网络模型算出按类别的分类损失和观察损失(S210、S220)。
按类别的分类损失是表示预测属于各个类别的特性准确到多少的值,其以按类别算出。可以基于多个按类别的分类器的各个输出结果运算按类别的分类损失。例如,可以从输入图像的按类别的特性和作为按类别的分类器的输出的按类别的特性概率(参考图2的P1(Tt),P2(Tt),...Pn(Tt))的差异运算按类别的分类损失。
可以通过下式运算按类别的分类损失。
其中,pc(xi)表示输入图像xi的对类别Tt的按类别的特性c的输出概率,Nx表示学习图像数,CTt表示属于类别Tt的按类别的特性的数。
由于观察损失与上述相同,因此将省略重复说明。
接着,基于按类别的分类损失和观察损失运算按类别的特性损失(S230)。
按类别的特性损失是反映观察损失和按类别的分类损失的值。如上所述,虽然观察损失对于多个类别是相同的,但是由于按类别的分类损失是根据类别不同的,因此按类别的特性损失可能按类别的具有不同的值。
可以通过下式算出按类别的特性损失。
其中,Lcls(Tt)表示按类别的分类损失,Lobs表示观察损失,并满足0≤α≤1。
接着,将按类别的特性损失按类别反向传播到多个按类别的分类器和多个按类别的全连接层(S240)。
参考图2的神经网络模型,按类别的全连接层30和按类别的分类器40相当于按类别的分支(branch)。即,按类别的特性损失仅反向传播到与神经网络模型的按类别的分支相相当的部分。此外,按类别的特性损失按类别反向传播。具体来说,参考图2,类别T1的特性损失可以反向传播到相当于类别T1的分类器40和全连接层30,类别T2的特性损失可以反向传播到相当于类别T2的分类器40和全连接层30,类别Tt的特性损失可以反向传播到相当于类别Tt的分类器40和全连接层30,类别TNT的特性损失可以反向传播到相当于类别TNT的分类器40和全连接层30。
接着,运算多标签(label)分类损失(S250)。
与按类别的分类损失不同(参考S210),多标签分类损失是反映按类别运算的按类别的分类损失的值。可以基于多个按类别的分类损失和观察损失运算多标签分类损失。多标签分类损失同样适用于多个类别。
通过所述步骤S240的反向传播调整多个按类别的全连接层30的按类别的权重,据此,也可以变更多个按类别的分类损失和观察损失。多标签分类损失可以基于多个按类别的分类损失和观察损失算出。
可以通过下式算出多标签分类损失。
其中,
pc(xi)表示输入图像xi的对整个多个类别的按类别的特性c的输出概率,
Nx表示学习图像数,CT表示对整个多个类别的按类别的特性的数。
接着,将多标签分类损失反向传播到整个神经网络模型(S260)。
参考图2,整个神经网络模型表示多个按类别的分类器40、多个按类别的全连接层30、池化层20及卷积层10。据此,可以调整神经网络模型的参数值,例如卷积层10的卷积滤波器、按类别的全连接层30的按类别的权重等。
上述的步骤S200~S260可以对多个输入图像执行,据此,可以学习神经网络模型。
接着,将参考图8和图9说明根据本发明实施例的用于神经网络模型学习的数据流。
图8是示出根据本发明实施例的神经网络模型的学习方法的数据流程图。图9是表示在图2的神经网络模型中相当于图6的各步骤的部分的情形。在图8中,矩形表示数据的处理,平行四边形表示数据。
参考图8和图9(a),首先,图像xi输入到神经网络模型(S300)。此时,输入图像xi的按类别的特性和对象区域是已知的。
如参考图2所说明的,神经网络模型包括卷积层10、池化层20、按类别的全连接层30及按类别的分类器40。尽管在图8中示出了一个按类别的全连接层30和一个按类别的分类器40,但是可以具备与类别数量一样程度的按类别的全连接层30和按类别的分类器40。
如图8和图9(b)所述,随着输入图像xi经由卷积层10而输出特征图oconv。
然后,参考8和9(c),经由卷积层10的输入图像通过经由神经网络模型的其余部分,即经由池化层20、按类别的全连接层30及按类别的分类器(40),从而输出按类别的特性概率(Pn(Tt))。
接着,参考图8和9(d),基于按类别的特性概率(Pn(Tt))和输入图像的按类别的特性运算按类别的分类损失(Lcls(Tt))(S310)。
另一方面,基于卷积层10的输出(oconv)和按类别的全连接层30的权重(wfc(Tt))算出按类别的观察图(S320)。
接着,参考图8和9(g),基于按类别的分类损失(Lcls(Tt))和观察损失(Lobs)算出按类别的特性损失(L(Tt))(S350)。
接着,参考图8和9(h),判断按类别的特性损失(L(Tt))是否满足学习结束条件(S360),当不满足(S360,否)的情况下,将按类别的特性损失(L(Tt))反向传播到按类别的分类器40和按类别的全连接层30(S370)。
据此,调整按类别的全连接层30的按类别的权重(wfc(Tt)),再次执行按类别的全连接层(10)的处理、按类别的分类器40的处理、按类别的分类损失(S310)的运算而调整按类别的分类损失(Lcls(Tt)),再次执行按类别的观察图的运算(S320)、共同观察图的运算(S330)及观察损失的运算(S340)而调整观察损失(Lobs)。
接着,参考图8和9(i),运算多标签分类损失(S380)。
接着,参考图8和9(j),判断多标签分类损失L(T)是否满足学习结束条件(S390),当不满足(S390,否)的情况下,将多标签分类损失(L(T))反向传播到整个神经网络模型,即按类别的分类器40、按类别的全连接层30、池化层20及卷积层10(S400)。据此,可以调整神经网络模型的参数。
图10是示出根据本发明实施例的神经网络模型的学习装置的结构的图。
神经网络模型的学习装置1000包括存储神经网络模型的存储器1100和处理器1200。
存储在存储器1100的神经网络模型,如已经参考图2进行的说明。
处理器1200执行参考图3~图9而说明的神经网络模型的学习方法。即,处理器1200将输入图像输入到卷积层,并基于卷积层的输出运算多个按类别的观察图,并基于多个按类别的观察图运算共同于多个类别的观察损失(Lobs),并将基于所述观察损失(Lobs)的损失反向传播到神经网络模型。
如上所述,尽管已经通过优选实施例详细说明了本发明,但是本发明不限于此,对本领域对技术人员而言,在不脱离本发明技术思想的范围内可以进行各种变更和应用是显而易见的。因此,本发明的真正保护范围应由所附权利要求书所解释,凡在其等同范围内的所有技术思想,均应理解为包含在本发明的保护范围之内。
Claims (10)
1.一种用于图像的复合特性分类和共同局部化的神经网络模型的神经网络模型的学习方法,其中,
所述神经网络模型包括:
卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;
池化层,所述池化层用于对所述卷积层的输出执行池化;及
多个按类别的全连接层,所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,
所述多个类别由相互不同的基准而区分,
所述多个类别各个被分类为多个按类别的特性,
所述神经网络模型,根据所述按类别的全连接层的输出,能够提供按类别的特性概率,按类别的特性概率为对于所述多个类别各个的按类别的特性的概率,
所述方法包括以下步骤:
(a)将输入图像输入到所述卷积层;
(b)基于所述卷积层的输出运算对所述多个类别各个的按类别的观察图;
(c)基于所述多个按类别的观察图运算共同于所述多个类别的观察损失(Lobs);及
(d)将基于所述观察损失(Lobs)的损失反向传播到所述神经网络模型,
所述步骤(c)包括:
(c-1)基于所述多个按类别的观察图生成共同于所述多个类别的共同观察图;及
(c-2)利用所述共同观察图和所述输入图像的对象区域运算所述观察损失(Lobs),且
各个步骤由计算机处理器执行。
2.根据权利要求1所述的神经网络模型的学习方法,其特征在于,
所述共同观察图是所述按类别的观察图的平均值。
3.根据权利要求1所述的神经网络模型的学习方法,其特征在于,
所述观察损失通过将对于第一值计算余弦距离来算出,所述第一值为将所述共同观察图和所述输入图像的对象区域分别沿横向和纵向方向进行投影的值连接的值。
5.根据权利要求1所述的神经网络模型的学习方法,其特征在于,
所述神经网络模型还包括:
多个按类别的分类器,所述多个按类别的分类器分别对应于所述多个按类别的全连接层,并根据各个按类别的全连接层的输出运算按类别的特性概率。
6.根据权利要求5所述的神经网络模型的学习方法,其特征在于,
所述步骤(d)包括以下步骤:
(d-1)基于所述多个按类别的分类器各个的输出结果运算按类别的分类损失(Lcls(Tt));
(d-2)基于所述观察损失(Lobs)和所述按类别的分类损失(Lcls(Tt))运算按类别的特性损失(L(Tt));及
(d-3)将所述按类别的特性损失(L(Tt))按类别反向传播到所述多个按类别的分类器和所述多个按类别的全连接层。
8.根据权利要求6所述的神经网络模型的学习方法,其特征在于,
所述步骤(d)还包括:
(d-4)基于所述多个按类别的分类损失(Lcls(Tt))和所述观察损失(Lobs)运算多标签分类损失(L(T));及
(d-5)将所述多标签分类损失(L(T))反向传播到所述多个按类别的分类器、所述多个按类别的全连接层、所述池化层及所述卷积层。
9.根据权利要求1所述的神经网络模型的学习方法,其特征在于,
所述池化层是全局平均池化层。
10.一种用于图像的复合特性分类和共同局部化的神经网络模型的学习装置,包括存储神经网络模型的存储器及处理器的,其中,
所述神经网络模型包括:
卷积层,所述卷积层利用卷积滤波器对输入图像执行卷积运算;
池化层,所述池化层用于对所述卷积层的输出执行池化;及
多个按类别的全连接层,所述多个按类别的全连接层分别对应于复合特性被分类的多个类别,并输出对所述池化层的输出乘以按类别的权重(wfc(Tt))的值,
所述多个类别由相互不同的基准而区分,
所述多个类别各个被分类为多个按类别的特性,
所述神经网络模型根据所述按类别的全连接层的输出能够提供按类别的特性概率,按类别的特性概率为对于所述多个类别各个的按类别的特性的概率,
所述处理器将输入图像输入到所述卷积层,并基于所述卷积层的输出运算对所述多个类别各个的多个按类别的观察图,并基于所述按类别的观察图生成共同于所述多个类别的共同观察图,并利用所述共同观察图和所述输入对象的对象区域运算观察损失(Lobs),并将基于所述观察损失(Lobs)的损失反向传播到神经网络模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0095773 | 2020-07-31 | ||
KR1020200095773A KR102236615B1 (ko) | 2020-07-31 | 2020-07-31 | 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치 |
PCT/KR2021/009939 WO2022025690A1 (ko) | 2020-07-31 | 2021-07-29 | 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114641780A true CN114641780A (zh) | 2022-06-17 |
Family
ID=75472778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180006146.5A Pending CN114641780A (zh) | 2020-07-31 | 2021-07-29 | 用于复合特性分类和共同局部化的神经网络模型的学习方法及装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220406035A1 (zh) |
EP (1) | EP4191480A1 (zh) |
JP (1) | JP2022553407A (zh) |
KR (1) | KR102236615B1 (zh) |
CN (1) | CN114641780A (zh) |
WO (1) | WO2022025690A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102236615B1 (ko) * | 2020-07-31 | 2021-04-06 | 주식회사 웨이센 | 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20160096460A (ko) * | 2015-02-05 | 2016-08-16 | 삼성전자주식회사 | 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법 |
CN105938558B (zh) * | 2015-03-06 | 2021-02-09 | 松下知识产权经营株式会社 | 学习方法 |
KR101908680B1 (ko) * | 2016-08-30 | 2018-10-17 | 주식회사 루닛 | 약한 지도 학습 기반의 기계 학습 방법 및 그 장치 |
KR20180048407A (ko) * | 2016-10-31 | 2018-05-10 | 삼성전자주식회사 | 차선 검출 장치 및 방법 |
KR102095335B1 (ko) | 2017-11-15 | 2020-03-31 | 에스케이텔레콤 주식회사 | 연산 가속화가 적용된 신경망 모델의 생성 및 활용을 위한 장치 및 방법 |
KR102183847B1 (ko) * | 2018-08-16 | 2020-11-27 | 한국과학기술원 | 안저 사진에서 녹내장 진단을 위해 cam에서 추출된 roi를 중간 입력자로 사용하는 2단계 랭킹 컨볼루셔널 뉴럴 네트워크 |
KR101977067B1 (ko) * | 2018-08-24 | 2019-05-10 | 주식회사 뷰노 | 심층 신경망 기반 특징 추출을 통하여 진단 맵을 재구축하는 방법 및 이를 이용한 장치 |
JP7215098B2 (ja) * | 2018-11-12 | 2023-01-31 | 富士通株式会社 | 学習プログラム、学習方法および学習装置 |
KR102074406B1 (ko) * | 2019-07-25 | 2020-02-06 | 주식회사 딥노이드 | 영상 랜드마크 분류 장치 및 방법 |
KR102236615B1 (ko) * | 2020-07-31 | 2021-04-06 | 주식회사 웨이센 | 복합 특성 분류와 공통 국소화를 위한 신경망 모델의 학습 방법 및 장치 |
-
2020
- 2020-07-31 KR KR1020200095773A patent/KR102236615B1/ko active IP Right Grant
-
2021
- 2021-07-29 CN CN202180006146.5A patent/CN114641780A/zh active Pending
- 2021-07-29 WO PCT/KR2021/009939 patent/WO2022025690A1/ko active Application Filing
- 2021-07-29 EP EP21849783.2A patent/EP4191480A1/en active Pending
- 2021-07-29 US US17/777,246 patent/US20220406035A1/en active Pending
- 2021-07-29 JP JP2022524128A patent/JP2022553407A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
KR102236615B1 (ko) | 2021-04-06 |
WO2022025690A1 (ko) | 2022-02-03 |
US20220406035A1 (en) | 2022-12-22 |
JP2022553407A (ja) | 2022-12-22 |
EP4191480A1 (en) | 2023-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657267B2 (en) | Neural network apparatus, vehicle control system, decomposition device, and program | |
KR20170122241A (ko) | 추론 장치 및 추론 방법 | |
CN111028327A (zh) | 一种三维点云的处理方法、装置及设备 | |
CN115210720A (zh) | 提供集成教师-学生系统的方法、设备和介质 | |
US11568212B2 (en) | Techniques for understanding how trained neural networks operate | |
CN113396427A (zh) | 用于人工神经网络的比特量化的方法和系统 | |
US11210559B1 (en) | Artificial neural networks having attention-based selective plasticity and methods of training the same | |
WO2020023760A1 (en) | System and method for clustering products by combining attribute data with image recognition | |
CN114641780A (zh) | 用于复合特性分类和共同局部化的神经网络模型的学习方法及装置 | |
Sagar | Uncertainty quantification using variational inference for biomedical image segmentation | |
CN114021704B (zh) | 一种ai神经网络模型的训练方法及相关装置 | |
Yu et al. | Leveraging probabilistic circuits for nonparametric multi-output regression | |
CN110110628A (zh) | 一种频率综合器劣化的检测方法及检测设备 | |
CN114022727A (zh) | 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法 | |
Sooksatra et al. | Evaluating accuracy and adversarial robustness of quanvolutional neural networks | |
JPH08509313A (ja) | データの離散アセンブリをセグメント化する装置 | |
Pitropov et al. | Lidar-mimo: Efficient uncertainty estimation for lidar-based 3d object detection | |
Romanuke | Optimal training parameters and hidden layer neuron number of two-layer perceptron for generalised scaled object classification problem | |
CN116468979A (zh) | 一种双向特征融合网络、回归预测网络、训练方法及装置 | |
AU2021271230B2 (en) | Optimizing capacity and learning of weighted real-valued logic | |
Han et al. | Extension of direct feedback alignment to convolutional and recurrent neural network for bio-plausible deep learning | |
CN114973031A (zh) | 一种无人机视角下的可见光-热红外图像目标检测方法 | |
Yang et al. | A better way to decay: Proximal gradient training algorithms for neural nets | |
CN114170465A (zh) | 基于注意力机制的3d点云分类方法、终端设备及存储介质 | |
Matsumoto | A quantum version of randomization criterion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |