CN107273784B

CN107273784B - 图像模式识别装置和方法

Info

Publication number: CN107273784B
Application number: CN201710073650.2A
Authority: CN
Inventors: 重中亨介; 坪下幸宽; 加藤典司
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-04-01
Filing date: 2017-02-10
Publication date: 2022-04-15
Anticipated expiration: 2037-02-10
Also published as: US10664727B2; CN107273784A; US20170286810A1; JP2017187840A; EP3226175A1; JP6727543B2

Abstract

本申请提供了图像模式识别装置和方法，所述图像模式识别装置包括：数据接收单元，其接收数据；监管信息接收单元，其接收监管信息；以及人工神经网络处理单元，其执行人工神经网络处理。人工神经网络处理单元包括：第一子网络，其包括处理主任务的一个或多个层；第二子网络，其包括处理子任务的一个或多个层；以及第三子网络，其包括不属于第一子网络和第二子网络中的任何一个的一个或多个层。第三子网络包括将与输入特征量相同的值输出至多个层的分支处理单元。第一子网络包括将来自多个层的输入进行结合并输出结果的结合处理单元。

Description

图像模式识别装置和方法

技术领域

本发明涉及一种图像模式识别装置和方法。

背景技术

JP-A-10-44824公开了一种驾驶者眼睛开/闭确定装置，其用于根据捕获了车辆等的驾驶者的面部的图像数据来检测疏忽状态或清醒度降低状态。

JP-A-2008-198078公开了一种图像检测装置，其根据捕获的图像来检测与检测目标有关的信息。

JP-A-2016-006626公开了一种检测装置、检测程序、检测方法和包括这样一种检测装置的车辆，该检测装置即使在人被部分隐藏的情况下也可以准确地检测人、而无需生成部分模型。

JP-A-2016-001362公开了一种属性估计程序和基于与用户相关联的图像信息来估计用户的属性的信息处理装置。

在下述非专利文献1中，公开了一种根据用户发布的图像来估计发布者的性别的方法。

在下述非专利文献4中，公开了一种误差反向传播方法(反向传播)，即，一种执行特征表现学习的方法。

在下述非专利文献5中，公开了一种使用误差反向传播方法的多层神经网络。

在下述非专利文献6中，公开了一种使用一个或多个卷积层的人工神经网络。

[非专利文献1]X.Ma et al.,Gender Estimation for SNS User ProfilingUsing Automatic Image Annotation,International Workshop on Cross-mediaAnalysis for Social Multimedia,2014(X.Ma等人，使用自动图像注释来针对社交网络服务(SNS)用户外形进行性别估计，社交多媒体跨媒体分析国际研讨会，2014)。

[非专利文献2]D.G.Lowe et al.,Object Recognition from Local Scale-Invariant Features,ICCV,1999(D.G.Lowe等人，根据局部尺度无关特征的对象识别.国际计算机视觉大会，1999)。

[非专利文献3]J.Wang et al.,Locally-Constrained Linear Coding forImage Classification,CVPR,2010(J.Wang等人，用于图像分类的局部约束线性编码，CVPR，2010)

[非专利文献4]D.E.Rumelhart et al.,Learning Representations by back-propagating errors,Nature,1986(D.E.Rumelhart等人，通过反向传播误差的学习表征，《自然》，1986)

[非专利文献5]Y.LeCun et al.,Backpropagation applied to handwrittenzip code recognition,Neural Computation,1989(Y.LeCun等人，反向传播应用于手写邮政编码识别，《神经计算》，1989)

[非专利文献6]Y.LeCun et al.,Gradient-Based Learning Applied toDocument Recognition,IEEE,1998(Y.LeCun等人，应用于文档识别的基于梯度的学习，IEEE，1998)

[非专利文献7]A.Krizhevsky et al.,ImageNet Classification with DeepConvolutional Neural Networks,NIPS,2012(A.Krizhevsky等人，利用深卷积神经网络的图像网络(ImageNet)分类，NIPS，2012)

发明内容

在用于对图像数据进行分类的模式识别中，由于问题的难度，通常是通过将处理划分成几个任务来逐步地执行该处理。另外，为了减少模式识别中的人力或成本，有时组合使用其中自动地学习待从图像等中提取的特征量的特征表现学习或其表现方法。

如在JP-A-2008-198078和JP-A-2016-006626中所公开的那样，输出主任务的确定结果的单元和输出子任务的确定结果的单元并列布置在输出层中。然而，由于在主任务与子任务之间共用一个或多个中间层，因此在特征提取方法中，权重参数被所有任务共同使用。

如上所述，由于主任务和子任务共用一个或多个中间层，因此特征提取方法是所有任务所共同的。因此，存在这样一个问题，通过特征表现学习所获得的参数对于主任务而言并不总是最佳的。

本发明的目的在于提高在通过被划分成多个任务来执行处理的模式识别中的特征表现学习的精度。

[1]根据本发明的一方面，提供了一种图像模式识别装置，包括：数据接收单元，其接收数据；监管信息接收单元，其接收监管信息；以及人工神经网络处理单元，其执行人工神经网络处理，其中，该人工神经网络处理单元包括：第一子网络，其包括处理主任务的一个或多个层；第二子网络，其包括处理子任务的一个或多个层；以及第三子网络，其包括不属于第一子网络和第二子网络中的任何一个的一个或多个层，该第三子网络包括将与输入特征量相同的值输出至多个层的分支处理单元，并且第一子网络包括将来自多个层的输入进行结合并输出结果的结合处理单元。

[2]在根据[1]所述的图像模式识别装置中，结合处理单元可以执行将来自多个层的输入进行连结并输出结果的处理，或者执行针对多个输入层的关于每个元素的计算并输出结果的处理。

[3]在根据[1]或[2]所述的图像模式识别装置中，在该层中，第一子网络中的最终层和第二子网络中的最终层可以由线性计算单元或卷积单元中的任一个、非线性计算单元和池化(pool ing)处理单元形成，并且除了第一子网络中的最终层和第二子网络中的最终层之外的层可以从全结合层和卷积层中的任一个形成，该全结合层由线性计算单元和非线性计算单元形成，该卷积层由卷积处理单元、非线性计算单元和池化处理单元形成。

[4]根据[1]至[3]中任一项所述的图像模式识别装置还可以包括：确认单元，其输出每个任务的确定结果；误差计算单元，其输出两种类型的输入之间的误差；以及学习单元，其执行基于随机梯度下降的误差反向传播方法。

[5]在根据[1]至[4]中任一项所述的图像模式识别装置中，第一子网络还可以包括误差分支单元，该误差分支单元根据由结合处理单元执行的处理来对输入误差进行分支并将结果输出至多个层，并且第三子网络还可以包括对从多个层输入的误差进行积分的误差积分单元。

[6]根据[1]至[5]中任一项所述的图像模式识别装置还可以包括执行归一化处理的归一化处理单元。

[7]根据本发明的另一方面，提供了一种图像模式识别方法，包括步骤：接收数据；接收监管信息；以及执行人工神经网络处理，其中，执行人工神经网络处理的步骤包括处理主任务、处理子任务以及执行不包括在主任务和子任务中的任何一个中的处理，执行不包括在主任务和子任务中的任一个中的处理包括将与输入特征量相同的值输出至多个层，并且执行主任务包括结合来自多个层的输入并输出结果。

根据[1]所述的图像模式识别装置，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够改善特征表现学习的精度。

根据[2]所述的图像模式识别装置，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够提高特征表现学习的精度。

根据[3]所述的图像模式识别装置，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够提高特征表现学习的精度。

根据[4]所述的图像模式识别装置，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够提高特征表现学习的精度。

根据[5]所述的图像模式识别装置，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够提高特征表现学习的精度。

根据[6]所述的图像模式识别装置，在结合处理中，即使在每个输入的特征量的值的标度彼此显著不同的情况下，能够适当地执行积分。

根据[7]所述的图像模式识别方法，与在分支的输出层中处理主任务时没有一体地使用子任务的特征量的情况相比，能够提高特征表现学习的精度。

附图说明

将基于以下附图详细地描述本发明的示例性实施例，在附图中：

图1是示出了本示例性实施例的整体配置的概念图，其中，左图中示出了学习时的配置，而右图中示出了确定时的配置；

图2是示出了本示例性实施例中的神经网络处理单元的示例的概念图；

图3是示出了全结合层的配置的概念图；

图4是示出了卷积层的配置的概念图；

图5是示出了全结合层中的处理的概念图；

图6是示出了分支处理单元中的分支处理的概念图；

图7是示出了结合处理单元中的结合处理的概念图；

图8是示出了特征表现学习处理的流程的示例的概念图，并且示出了在将图像内容的识别作为子任务并将性别估计作为主任务的情况下执行对图像内容的识别和性别估计的情况；

图9是示出了在使用学习的神经网络来执行性别估计的情况下的流程的示例的概念图；

图10是示出了在使用学习的神经网络来执行性别估计的情况下的流程的示例的概念图；

图11是示出了在使用学习的神经网络来执行性别估计的情况下的流程的示例的概念图；

图12是示出了示例中的神经网络单元的配置的示意图；

图13是示出了比较示例1中的神经网络单元的配置的示意图；

图14是示出了比较示例2中的神经网络单元的配置的示意图；以及

图15是示出了示例和每个比较示例的评价结果的曲线图。

具体实施方式

[背景]

近年来，作为公司进行市场调查所用的方法，对于使用诸如TWITTER或FACEBOOK的社交网络网站(社交网络服务(SNS))的社交媒体营销的需求增长。

社交媒体营销是一种通过从用户发布的内容中提取在SNS上发布的关于产品和服务的大量意见和评论来调查客户的需求的方法，因而，可以以低成本实时地执行调查。

然而，由于现有技术中使用调查问卷的监视调查引起的困难，在许多情况下，诸如用户的性别、年龄或职业的人口统计简档不清楚。因此，不能执行其中针对每个消费者的简档来分析评论的细分市场分析(segment analysis)，结果，无法执行有效的营销。

为了解决该问题，进行了对根据用户在SNS上发布的文本或图像或者用户之间的社交关系估计用户的简档的研究。例如，在上述JP-A-2106-001362和非专利文献1中，提出了一种根据在SNS上发布的图像来估计发布该图像的用户的性别的方法。

具体地，定义了十种类型的图像内容(宠物、食物、车辆、表演者等)与三种性别(男性、女性和性别未知)相组合而成的三十种类别，并且通过将图像分类到这三十种类别来实现性别估计。

在上述图像模式识别中，由于问题的难度，通常通过将处理划分成几个任务来逐步地执行处理。例如，在JP-A-10-44824中，对于根据脸部图像来确定眼睛的开或闭状态的任务，将该处理划分成三个任务，诸如检测眼睛位置、检测眼睛的大小以及确定眼睛的开闭。确定眼睛的开闭处于主任务中，检测眼睛位置和检测眼睛的大小处于子任务中，然后，诸如按“检测眼睛位置”→“检测眼睛的大小”→“确定眼睛的开闭状态”的顺序来逐步地执行处理。

在上述JP-A-2016-001362和非专利文献1中，使用了作为由人预先设计的特征表现方法的LLC(对上述非专利文献2中所公开的SIFT进行编码：参见上述非专利文献3)。

另一方面，为了执行模式识别，存在这样一种方法：在图像模式识别中使用了使得机器自动学习待从图像中提取的特征量的特征表现学习或其表现方法。作为执行特征表现学习的方法，提出了使用误差反向传播方法(参考上述非专利文献4)的多层神经网络(参考上述非专利文献5)。

在该方法中，例如，图像的亮度被输入至多层神经网络，正向传播每层中的非线性计算的计算结果，并且在最终层中获得输出结果。接下来，通过将该输出结果与来自输出层的监管信息之间的误差反向传播来更新每层的参数。通过重复该处理，在多层神经网络中，可以学习适合于模式识别的特征表现。

在JP-A-2008-198078和JP-A-2016-006626中，使用人工神经网络来执行特征表现学习，而在上述JP-A-2016-001362和非专利文献1中不执行特征表现学习。

在JP-A-2008-198078中，确定眼睛的开闭被设定为主任务，并且确定眼睛是否存在被设定为子任务。如JP-A-2008-198078的图3中所示，输出确定眼睛的开闭的结果的单元以及输出确定眼睛是否存在的结果的单元并列布置在输出层上。

另外，在JP-A-2016-006626中，设置了人的位置估计和确定人是否存在这两项任务，并且执行人的位置估计的单元和执行确定人是否存在的单元并列布置在输出层上。

下文中，将详细地描述本发明的示例性实施例。然而，下文中所描述的示例性实施例仅呈现了用于体现与本发明有关的技术思想的图像模式识别装置的示例，而非旨在将本发明限制于本示例性实施例。在不脱离本发明的各方面所描述的技术思想的情况下，本发明同样可以应用于示例性实施例的各种改变。

[示例性实施例]

在图1和图2中示出了本示例性实施例的配置。监管数据1₁被配置成包括作为一对的图像数据和监管信息。需要人为地预先构造监管数据。至于图像，可以由API(诸如TWITTER API或INSTAGRAM API)收集在SNS上发布的图像。另一方面，由于无法从API获取监管信息，因此需要手动地为每幅图像设置监管信息。

[数据接收单元]

在数据接收单元2中，在学习时，从存储在存储装置(诸如硬盘)中且其中图像和监管信息(监管标记)被设置成一对的数据中将图像读入到存储器中。另外，在确定时，由于不需要监管数据1，因此将作为确定目标的图像数据1₂的图像读入到存储器中。以RGB或灰度等级中的任一个均匀地执行图像的输入。在图像的大小为224×224的情况下可以均匀地执行处理，或者可以将该处理作为除上述情况以外的归一化的预处理来执行。

[监管信息接收单元]

从被配置为图像与监管信息(监管标记)对的数据中将与输入图像相对应的监管信息读入到监管信息接收单元3中。

[神经网络处理单元]

神经网络处理单元4被配置为包括神经网络处理主体单元5和确认单元6，并且神经网络处理主体单元5具有通过人工神经网络从图像中提取特征量的作用。神经网络处理单元4被配置为具有多层，并且实际执行的处理的细节根据层配置而不同。

[线性计算单元]

在图3中的全结合层11中使用了线性计算单元12。全结合层11具有其中以层形状排列的单元仅与相邻层结合的结构，并且信息从输入侧到输出层侧单向传播。构成全结合层11的每个单元接收多个输入并且如图5所示计算出一个输出。如果假设输入为x₁、x₂、x₃…x_n，则可以使用偏置项b₁来如下计算单元u₁的输出。

[公式1]

因此，可以使用矩阵来如下归纳所有单元的输出。

u＝Wx+b

[非线性计算单元]

在非线性计算单元13中，对输入的每个单元x应用非线性函数。

u＝f(x)

例如，在非线性函数中使用如下所述的修正线性单元(ReLU)。

f(u)＝max(u,0)

[分支处理单元]

分支处理单元9将输入值x无变化地输出至多个输出目的地。

在图6中，

u₁＝u_J＝x。

[结合处理单元]

结合处理单元10接收来自多个层的输出，并且结合各层并输出结果。作为结合方法，存在执行连结处理的方法，在该方法中，从多个层(在图7中，从x₁到x_I这I个层)接收输出，并且连结所有这些单元以输出。在图7中，

m＝n(I-1)+1，并且u_i＝xi(这里,i＝1,…,nI)。

另外，可以执行其中针对每个元素执行计算的针对每个元素的计算处理来替代连结处理。在连结处理中，仅仅连结所有输入层以进行输出。然而，在针对每个元素的计算处理中，可以适当地执行积分。如果假设输入层的单元数量全部相同，则针对每个元素执行以下计算。这里，输入层的数量为二。

u＝f(x₁,x₂)

以下描述所应用的函数的示例

(乘积)

f(x₁,x₂)＝x₁×x₂

(最大值)

f(x₁,x₂)＝max(x₁,x₂)

(平均值)

f(x₁,x₂)＝(x₁+x₂)/2

[确认单元]

在确认单元6中，对从最终层N和M’输出而作为确认单元6的输入的每个单元x应用下列函数。

u＝f(x)

以下描述的softmax函数(soft max function)等是可应用函数的示例。

[公式2]

K是输入的单元数量并且与待确认的类别数量一致(例如，在性别估计的情况下，对于男性和女性，K＝2)。

[误差计算单元]

误差计算单元7根据从确认单元输出的确定结果和监管信息来计算误差。例如，可以在误差计算中使用交叉熵。当假设针对类别k的监管信息为d_k时，如下计算交叉熵。

[公式3]

E＝-Σ_k d_k log y_k

[学习单元]

学习单元8使用由误差计算单元获得的误差来学习包括在每层中的权重参数。在学习中，使用基于随机梯度下降的误差反向传播方法(反向传播)。在随机梯度下降中，使用关于一幅或多幅图像的误差E_n的梯度▽E_n来如下更新参数w。

[公式4]

这里，t表示更新次数。

在误差反向传播方法中，从最终层开始按逆向顺序传播误差，并在每层中执行随机梯度下降。在更新每层的参数之后，再次计算误差，并且重复参数的更新直到误差收敛为止。

[误差分支处理单元]

误差分支处理单元对所接收到的误差进行分支并将结果反向传播到多个层。关于分支方法，根据结合处理单元10中的处理内容来

执行以下描述的处理。

(连结处理)

当与u₁至u_nI相对应的误差是e₁至e_nI时，将如下描述的误差反向传播到x₁至x_nI。这里，y₁至y_nI与x₁至x_nI相对应。

y_i＝e_i(这里,i＝1,…,nI)

(针对每个元素的计算处理：乘积)

与所接收到的误差相同的值被反向传播到多个层。

(针对每个元素的计算处理：最大值)

将每个元素的误差无改变地反向传播至在针对每个元素的计算处理时获得最大值的层。为零的值被反向传播至其它层。

(针对每个元素的计算处理：平均值)

对作为所接收到的误差e除以在分支目的地处的层数的结果的值进行反向传播。例如，在分支目的地处的层数为二的情况下，将误差的一半的值分别反向传播至每层。

y₁＝e/2

y₂＝e/2

[误差结合处理单元]

误差结合处理单元接收来自多个层的误差，并且结合这些误差以用于反向传播。作为结合方法，输出从多个层接收到的所有误差的加权和。权重作为参数而被提供。当y是输出并且x₁和x₂是所接收到的误差时，计算如下。这里，假设从两个层接收到误差。λ是权重参数。

y＝λx₁+(1-λ)x₂

神经网络处理单元4中的层的配置是任意的，作为全结合层11的替代，可以使用包括替代了线性计算单元的卷积处理单元15和池化处理单元16的卷积层14(图4)。在全结合层11中，相邻层之间的所有单元被全部结合。然而，在卷积层14中，仅相邻层之间的特定单元被结合。因此，与全结合层11相比，在使用单元数量(要学习的参数)小的卷积层14的情况下，学习变得容易。

[卷积处理单元]

在卷积处理单元15中，在卷积处理中，由H×H个参数构成的滤波器h应用于W×W个输入X。当(i,j)＝(i＝0,…,W-1,j＝0,…,W-1)以及(p,q)＝(p＝0,…,H-1,q＝0,…,H-1)时，在卷积处理中执行如下的乘积和计算。

[公式5]

在输入具有为W×W×K个的多个通道时，针对每个通道而执行卷积处理，然后，通过从全部通道之间的输出结果中取最大值来将该结果压缩至一个通道。另外，在所述通道是为H×H×C个的多个通道的情况下，针对每个通道而执行上述的卷积处理以进行输出。因此，该输出具有C个通道。

[池化处理单元]

即使在图像中的目标特征量的位置稍微改变的情况下，池化处理单元16可以通过稍微降低从卷积处理单元输出的特征的位置的灵敏度来使卷积层14的输出不改变。

假设输入的大小为W×W×K并且假设池化处理的单位区域为H×H。另外，假设池化处理区域H×H中所包括的X的集合为P。在这种情况下，例如，通过如下定义的方法来执行池化处理。

(平均池化)

[公式6]

(最大池化)

[公式7]

[归一化单元]

在本发明中，可以添加归一化单元，该归一化单元在结合处理之前执行归一化处理。在通过连结处理或针对每个元素的计算处理对多个特征量进行积分时，在每个特征量的值的标度彼此显著不同的情况下，存在无法适当地执行积分的可能性。因此，归一化单元针对每个输入而执行L1范数归一化或L2范数归一化。

接下来，将描述神经网络处理的基本流程。

在确定时，数据接收单元2将图像数据输入至神经网络处理单元4，并且神经网络处理单元4输出确定结果。在学习时，误差计算单元7使用从监管信息接收单元3获取的监管信息和确定结果来计算误差。然后，学习单元8执行神经网络的学习。

神经网络处理单元4被配置为包括神经网络处理主体单元5和确认单元6，并且神经网络处理主体单元5提取图像的特征量。在图2中，示出了处理一个子任务加上主任务这总共两个任务的情况。

神经网络处理主体单元5被配置为包括N+M’((1<＝L<M<N；M′是子任务的层数)个层、一个或多个分支处理单元9、一个或多个结合处理单元10。分支处理单元9接收前一层(层L)的输出结果作为输入，并且进行复制，并将副本输出至多个分支目的地的层(在图2中，层L’+1和层L+1)。层1至分支处理单元9与本发明中的第三子网络相对应，层L+1至层N与第一子网络相对应，并且层L’+1至层M’+1与第二子网络相对应。

结合处理单元10接收多个分支源(在图2中，层M’和层M)的输出结果作为输入，并且对所接收到的输出结果执行连结处理或针对每个元素的计算处理，并且将处理结果输出至层M+1。

在执行针对每个元素的计算处理时，针对多个输入层而执行针对每个元素(矢量或矩阵的维度)的计算，并且计算结果被输出至层M+1。该计算是任意的，因而，可以考虑乘积、和或最大值。

对于每层，可以使用由线性计算单元12和非线性计算单元13构成的全结合层11(图3)或者由卷积处理单元15、非线性计算单元13和池化处理单元16构成的卷积层14(图4)。使用卷积层的神经网络被称为卷积神经网络(参考上述非专利文献6)，并且已知其在识别和确认图像数据方面展示了高精度。另外，每个最终层(层N和层M’)不包括非线性计算单元，并且在不应用非线性计算的情况下从每个最终层输出至确认单元。除了执行从子任务的最终层(层M’)到确认单元6的输出外，还执行从子任务的最终层(层M’)至结合处理单元10的输出。

来自每个最终层的输出被输入至确认单元6，并且从确认单元6输出确定结果。在学习时，该确定结果连同监管信息一起输出至误差计算单元7，并且在误差计算单元7中计算确定结果与监管信息之间的误差。

在学习单元8中，使用该误差来执行基于链式规则的误差反向传播方法。

在图8中，在根据图像内容来估计图像的发布者的性别的情况下，示出了如下情况作为流程图的示例：在将图像内容识别作为子任务并且将性别估计作为主任务的情况下执行图像内容的识别和性别估计。

当执行误差反向传播方法时，从每个最终层反向传播误差。在每层中，执行随机梯度下降以更新每层的参数。

在反向传播的过程中，在与正向传播的结合处理对应的定时处对误差进行分支。即，从层M+1输出的误差被分支，然后，一个输出至主任务侧(层M)而另一个被输出至子任务侧(层M’)。另外，在与正向传播的分支处理对应的定时处结合误差。即，结合从主任务侧(层L+1)输出的误差和从子任务侧(层L’+1)输出的误差，并且将结果输出至层L。

在学习单元中，如上所述，执行重复更新神经网络中的每层的参数的处理，直到确定结果的误差收敛为止，并且特征表现学习在误差已收敛的阶段结束。

在图9至图11中，示出了使用学习的神经网络以根据输入图像来实际估计用户的性别时的流程图的示例。由于学习的神经网络，没有确定子任务侧，并且处理在基于来自主任务侧(层N)的输出从确认单元输出确定结果(性别估计的结果)的时间点结束。

在图9中，示出了如下流程：其中，不执行从子任务侧(层M’)到确认单元的输出，而仅执行从子任务侧(层M’)到连结处理单元10或针对每个元素的计算单元的输出。然而，可以基于图10或图11中的流程来执行性别估计。

[示例]

接下来，将描述适用于以下情景的示例：根据在SNS上发布的图像而对发布者(用户)的性别进行估计。该示例适用于这样一种情况：将图像内容识别作为子任务并且将性别估计作为主任务的情况下执行图像内容的识别和性别估计。

在图12中，示意性地示出了神经网络单元的具体配置。其基于上述非专利文献7中公开的网络，分支处理单元被设置在五层卷积层之后并被划分成两个分支。

在将三层全结合层设置在每个分支上之后，通过针对每个元素的计算单元来结合图像内容的特征量与性别的特征量。此外，经由一层全结合层输出所结合的特征量。在本示例中，将乘积计算用作针对每个元素的计算单元。

在执行本示例中，对于具有发布至TWITTER的图像的推文(tweet)，基于从2013年6月到8月在日本发布的推文通过从除了自动程序(bot)以外的发布了许多推文的活动用户处提取推文来收集图像。

接下来，针对可以从其下载等于或多于200个推文或者等于或多于一副图像的用户而创建监管标记。向监管标记赋予26种类型的图像内容标记(IT装置、野生动物、动画片、艺术、书、汽车和自行车、卡通片、人物(character)、化妆品、艺人、时尚、食品、赌博、游戏、杂货、插画、建筑物、音乐、普通人、宠物、植物、海报、风景、屏幕截图、运动等)以及三种类型的性别标记(男性、女性和性别未知)，并且工作人员执行标记工作。

对于图像内容标记，要求十个工作人员投票选择认为哪幅图像是适当的，而对于性别标记，则要求五个工作人员投票选择认为哪幅图像是适当的。然后，对于图像内容标记和性别标记中的每一个，最终标记由投票结果的大多数确定。

在以该方式获得的图像的集合之中，通过去除被赋予了性别未知的性别标记的图像来从3683个用户中最终获得13525幅图像的集合。其中，该数据集由用于学习的6642幅图像、用于参数设计的1760幅图像、以及用于评价的5123幅图像创建成。

在评价中，准备了下述情况以作为比较示例：仅执行性别标记的学习而不执行图像内容的学习的情况(比较示例1)；以及，执行学习而不执行结合处理的情况(比较示例2：对应于在JP-A-2008-198078中公开的方法)。使用作为准确率和召回率的调和平均数的F度量来对这两种情况进行比较。图13示出了比较示例1中的神经网络单元的配置，而图14示出了比较示例2中的神经网络单元的配置。

在图15中示出了结果。根据比较示例1与比较示例2之间的比较，可以理解，当使用图像内容信息来进行学习时，估计精确高。另外，可以理解，与不执行结合处理的比较示例2相比，在执行主任务和子任务的两个特征量的结合的示例中，估计精度变高。

为了说明和描述的目的而提供了本发明的示例性实施例的以上描述。其不旨在对本发明进行详尽说明或将本发明限于所公开的确切形式。显然，许多变型和改变对于本领域技术人员是显而易见的。选择并描述实施例是为了最好地解释本发明的原理及其实际应用，从而使得本领域技术人员能够理解本发明的各实施例和适合于所预期的特定用途的各种修改。旨在由所附权利要求及其等同物来限定本发明的范围。

Claims

1.一种图像模式识别装置，包括：

数据接收单元，其接收数据；

监管标记接收单元，其接收监管标记；以及

人工神经网络处理单元，其执行人工神经网络处理，以根据图像的图像内容确定图像的发布者的性别，

其中，所述人工神经网络处理单元包括：

第一子网络，其包括处理主任务的一个或多个层，所述主任务对应于性别估计，所述第一子网络被配置为提取第一特征量，所述第一特征量是性别的特征量，

第二子网络，其包括处理子任务的一个或多个层，所述子任务对应于内容识别，所述第二子网络被配置为提取第二特征量，所述第二特征量是图像内容的特征量，以及

第三子网络，其包括不属于所述第一子网络和所述第二子网络中的任何一个的一个或多个层，所述第三子网络被配置为提取作为来自所述图像的输出结果的第三特征量，

所述第三子网络包括分支处理单元，所述分支处理单元接收第三子网络的最终层的输出结果，并将所述输出结果无变化地输入至第一子网络和第二子网络的层，并且

所述第一子网络包括结合处理单元，所述结合处理单元接收第一子网络和第二子网络的多个层的输出结果，并对所述输出结果执行连结处理；

其中，所述人工神经网络处理单元还包括确认单元，所述确认单元接收所述第一子网络的最终层的输出结果和第二子网络的最终层的输出结果，并且从所述确认单元分别输出确定结果。

2.根据权利要求1所述的图像模式识别装置，

其中，所述结合处理单元执行将来自第一子网络和第二子网络的多个层的输入进行连结并输出结果的处理，或者执行针对第一子网络和第二子网络的多个输入层的关于每个元素的计算并输出结果的处理。

3.根据权利要求1或2所述的图像模式识别装置，

其中，在所述层中，所述第一子网络中的最终层和所述第二子网络中的最终层由线性计算单元构成的层，或由卷积处理单元、非线性计算单元和池化处理单元构成的层形成，并且除了所述第一子网络中的最终层和所述第二子网络中的最终层之外的层从全结合层和卷积层中的任一个形成，所述全结合层由所述线性计算单元和所述非线性计算单元形成，所述卷积层由卷积处理单元、所述非线性计算单元和所述池化处理单元形成。

4.根据权利要求1至3中任一项所述的图像模式识别装置，还包括：

误差计算单元，其输出两种类型的输入之间的误差；以及

学习单元，其执行基于随机梯度下降的误差反向传播方法。

5.根据权利要求1至4中任一项所述的图像模式识别装置，

其中，所述第一子网络还包括误差分支单元，所述误差分支单元根据由所述结合处理单元执行的处理来对输入误差进行分支，并且将结果输出至第一子网络和第二子网络的多个层，并且

所述第三子网络还包括对从第一子网络和第二子网络的多个层输入的误差进行积分的误差积分单元。

6.根据权利要求1至5中任一项所述的图像模式识别装置，还包括：

归一化处理单元，其执行归一化处理。

7.一种图像模式识别方法，包括步骤：

接收数据；

接收监管标记；以及

执行人工神经网络处理，以根据图像的图像内容确定图像的发布者的性别，

其中，执行所述人工神经网络处理的步骤包括：

通过第一子网络的一个或多个层处理主任务，所述主任务对应于性别估计，所述第一子网络被配置为提取第一特征量，所述第一特征量是性别的特征量，

通过第二子网络的一个或多个层处理子任务，所述子任务对应于内容识别，所述第二子网络被配置为提取第二特征量，所述第二特征量是图像内容的特征量，以及

通过第三子网络的一个或多个层执行不包括在所述主任务和所述子任务中的任何一个中的处理，所述第三子网络被配置为提取作为来自所述图像的输出结果的第三特征量，

执行不包括在所述主任务和所述子任务中的任何一个中的处理包括：接收第三子网络的最终层的输出结果，并将所述输出结果无变化地输入至第一子网络和第二子网络的层，并且

处理主任务包括：接收第一子网络和第二子网络的多个层的输出结果，并对所述输出结果执行连结处理；

其中，执行所述人工神经网络处理的步骤还包括：接收所述第一子网络的最终层的输出结果和第二子网络的最终层的输出结果，并分别输出确定结果。