JP2018190332A - 画像認識装置および学習装置 - Google Patents

画像認識装置および学習装置 Download PDF

Info

Publication number
JP2018190332A
JP2018190332A JP2017094694A JP2017094694A JP2018190332A JP 2018190332 A JP2018190332 A JP 2018190332A JP 2017094694 A JP2017094694 A JP 2017094694A JP 2017094694 A JP2017094694 A JP 2017094694A JP 2018190332 A JP2018190332 A JP 2018190332A
Authority
JP
Japan
Prior art keywords
identification
learning
layer
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017094694A
Other languages
English (en)
Other versions
JP7023613B2 (ja
Inventor
敬正 角田
Norimasa Kadota
敬正 角田
優和 真継
Masakazu Matsugi
優和 真継
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017094694A priority Critical patent/JP7023613B2/ja
Priority to US15/973,960 priority patent/US10885372B2/en
Publication of JP2018190332A publication Critical patent/JP2018190332A/ja
Priority to JP2022018932A priority patent/JP7331172B2/ja
Application granted granted Critical
Publication of JP7023613B2 publication Critical patent/JP7023613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】DNNにおいて、スケールが互いに異なる複数の認識タスクを有し、1つの中間層から識別層を分枝させたネットワークで認識処理を行うことができるようにする。【解決手段】ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置であって、入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得手段と、前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別手段と、前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得手段と、前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別手段と、を有する。【選択図】図4

Description

本発明は、特に、スケールの異なる複数の認識タスクを実行するために用いて好適な画像認識装置、学習装置、画像認識装置の制御方法、学習装置の制御方法およびプログラムに関する。
近年、画像や動画から物体などの対象を認識する技術が多様に研究されている。例えば、画像中の線分を抽出するエッジ検出や、類似する色やテクスチャの領域を切り出す領域分割、人物の目や口等のパーツを検出するパーツ検出、顔や人体、物体などを検出する物体認識、画像中の環境や状況を認識するシーン認識がある。ここで、認識処理の目的を認識タスクと呼ぶ。これらの認識対象は多様な尺度を持ち、個別の認識タスクを実行する認識装置は、それぞれのスケールで定義された対象を、適切な特徴量に基づいて識別する。
近年、層の数が多くて深い多層ニューラルネットワーク(DNN:Deep Neural Network)を用いた画像認識の研究が活発である。例えば非特許文献1には、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)に正則化やデータ水増し等の様々な工夫を加えた技術が開示されている。この技術は、従来の課題とされていた過学習等を克服し、物体検出タスクにおいて非常に高い性能を出しており、注目されている。
また、非特許文献2には、CNNに関する詳細な調査が開示されている。このようなCNNでは、入力層に近い低次の中間層で線分や単純図形、テクスチャ等の小さいスケールのプリミティブな特徴が捉えられている。また、識別層に近い高次の中間層で物体の形状やより詳細な特徴等、より大きいスケールの認識が行われる。
CNNでは主に画像をターゲットとするが、一方で、再帰的ニューラルネットワーク(RNN:Recurrent Neural Networks)を用い、音声やテキスト等の時系列情報を認識する研究も盛んである。非特許文献3には、音声から音素の系列を認識するタスクに数種類のRNNを適用し、精度を比較評価している技術が開示されている。
Krizhevsky,A.,Sutskever,I.,&Hinton,G.E.,"Imagenet classification with deep convolutional neural networks.",In Advances in neural information processing systems(pp.1097-1105),2012. Bolei Zhou,Aditya Khosla,Agata Lapedriza,Aude Oliva,Antonio Torralba,"Object detectors emerge in deep scene CNNs",ICLR2015 Alex Graves,Abdel-rahman Mohamed and Geoffrey Hinston,"Speech recognition with deep recurrent reural networks",Computing Research Repository 2013 J Donahue,Y Jia,O Vinyals,J Hoffman,N Zhang,E Tzeng,T Darrell,T Darrell,"DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition",arXiv2013 Xi Li, Liming Zhao, Lina Wei, MingHsuan Yang, Fei Wu, Yueting Zhuang, Haibin Ling, Jingdong Wang,"DeepSaliency: Multi-Task Deep Neural Network Model for Salient Object Detection",IEEE Transactions on Image Processing,2015 Karen Simonyan,Andrew Zisserman,"Two-Stream Convolutional Networks for Action Recognition in Videos",NIPS2015 Khurram Soomro, Amir Roshan Zamir, Mubarak Shah,"UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild", CRCV-TR-12-01,2012 Li Shen,Teck Wee Chua,Karianto Leman,"Shadow optimization from structured deep edge detection",CVPR2015
以上の研究により、認識タスクが定義するカテゴリの空間的および時間的スケールなどの様々な尺度や粒度を考えた場合、小さい粒度の認識タスクでは低階層のニューラルネットワーク(NN)で十分である。一方、大きい粒度の認識タスクでは高階層のNNが望ましい。
一方、CNNの中間層の特徴量を他の認識タスクに転用する研究も多く行われ(例えば非特許文献4参照)、認識タスクに依存する適切な層の存在は知られている。また、識別層を分枝させ複数の認識タスクを1つのネットワークで実現する研究(例えば非特許文献5参照)も行われてきた。
しかし、前述したように、認識タスクによって時間的や空間的などのスケールは様々であり、さらには場合によっては、中間層の特徴量を他の認識タスクに転用し、1つの中間層から識別層を分枝させることが好ましい場合もある。このような場合に1つのネットワーク構造を実現するのが困難であった。
本発明は前述の問題点に鑑み、DNNにおいて、スケールが互いに異なる複数の認識タスクを有し、1つの中間層から識別層を分枝させたネットワークで認識処理を行うことができるようにすることを目的としている。
本発明に係る画像認識装置は、ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置であって、入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得手段と、前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別手段と、前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得手段と、前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別手段と、を有することを特徴とする。
本発明によれば、DNNにおいて、スケールが互いに異なる複数の認識タスクを有し、1つの中間層から識別層を分枝させたネットワークで認識処理を行うことができる。
動画の1フレームおよびカメラ配置の例を示す図である。 時間的スケールが互いに異なる各ラベルの関係を説明するための図である。 各実施形態に係る画像認識装置のハードウェア構成例を示すブロック図である。 各実施形態に係る画像認識装置の機能構成例を示すブロック図である。 各実施形態における画像認識装置による処理手順の一例を示すフローチャートである。 第1の実施形態に係るネットワーク構造の例を示す図である。 各実施形態に係る学習装置の機能構成例を示すブロック図である。 各実施形態における学習装置による処理手順の一例を示すフローチャートである。 最も浅いネットワークに構成した具体的な初期構造の例を示す図である。 異なる識別層からの由来に基づく勾配を説明するための図である。 認識タスクの精度が不十分でる場合の対応を説明するための図である。 識別層を追加する場合の処理を説明するための図である。 CNNのネットワーク構造の例を示す図である。 CNNにおける特徴抽出ユニットと識別ユニットとを説明するための図である。 第2の実施形態におけるCNNのネットワーク構造の例を示す図である。 第3の実施形態におけるCNNのネットワーク構造の例を示す図である。
(第1の実施形態)
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
例えば、サッカーやラグビーなどのチームスポーツ競技の未編集動画から、試合内容に即したハイライトビデオを自動作成するには、競技特有のプレイや、それらの連鎖である重要なイベントの時間的セグメントを認識することが重要である。さらに競技特有のプレイを詳細に認識するには、映像全体から得られる特徴と、各プレイヤーのプリミティブな行動とが、重要な手がかりとなる。すなわち、試合内容に即したハイライトビデオの自動生成を実現するために、複数の認識タスクを実行することが重要である。つまり、プレイヤーの行動認識、競技特有のプレイ認識、重要イベントの時間的セグメントの認識(イベントセグメント認識)という、少なくとも3つの時間的尺度の異なる階層的な認識タスクを実行することが重要である。
各認識タスクは、上位のタスクほど時間的スケールの大きいタスクで、下位のタスクほど時間的スケールの小さいタスクであり、上位は下位を包含するため、1つのフレームワークで同時に実行することが効率的であるといえる。そこで、本実施形態では、例えばフットサル動画を題材に、RNNで認識時の処理として多層BLSTM(Bidirectional Long Short-Term Memory)で異なる時間的尺度のマルチタスクを行う例について説明する。そして、学習時の処理として、多層BLSTMのネットワーク構造を最適化する方法について述べる。
図1(a)は、本実施形態において取得されるフットサル動画の1フレーム(静止画)101の例を示す図である。図1(a)において、動画の1フレーム101中には複数人のプレイヤー102とボール104とが存在する。また、図1(b)に示すカメラ配置例151のように、コート152の周囲に複数台のカメラ153が配置され、全てのプレイヤーは何れかのカメラでキャプチャされるものとする。
図2は、動画(静止画の時系列)201に対する、時間的スケールが互いに異なる「イベントラベル」、「プレイラベル」、「アクションラベル」の関係を説明するための図である。アクションラベル205は、最も時間的スケールの小さいラベルで、スポーツ競技に依存せず汎用的なアクションを表現するラベルである。競技にはN人のプレイヤー211〜21Nが存在し、アクションラベル205はプレイヤー毎に設定される。プレイラベル204はアクションラベル205より時間的スケールが大きく、ボールを中心として定義される競技固有のプレイを表現するラベルである。イベントラベル203は最も時間的スケールの大きいラベルで、ゴールシーンやシュートシーンなどの重要シーンの時間的セグメントを表現するラベルである。以上のラベルは、画面やプレイヤーに対して常に1つのラベルが設定され、複数存在しないものとする。なお、以下の表1には、アクションラベル、プレイラベル、イベントラベルの例を示す。
図3は、本実施形態に係る画像認識装置300のハードウェア構成例を示すブロック図である。
図3において、画像認識装置300は、CPU301と、ROM302と、RAM303と、HDD304と、表示部305と、入力部306と、ネットワークI/F部307とを有している。CPU301は、ROM302に記憶された制御プログラムを読み出して各種処理を実行する。RAM303は、CPU301の主メモリー、ワークエリア等の一時記憶領域として用いられる。HDD304は、各種データや各種プログラム等を記憶する。表示部305は、各種情報を表示する。入力部306は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。
ネットワークI/F部307は、ネットワークを介して画像形成装置等の外部装置との通信処理を行う。また、他の例としては、ネットワークI/F部307は、無線により外部装置との通信を行ってもよい。
なお、後述する画像認識装置の機能や処理は、CPU301がROM302又はHDD304に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、他の例としては、CPU301は、ROM302等に替えて、SDカード等の記録媒体に格納されているプログラムを読み出してもよい。
図4(a)は、本実施形態に係る画像認識装置400の機能構成例を示すブロック図である。
本実施形態の画像認識装置400は、動画取得部401、前処理部402、アクション特徴量取得部403、及びプレイ特徴量取得部404を有する。さらに、第1中間特徴量取得部405、第2中間特徴量取得部406、第3中間特徴量取得部407、アクション識別部408、プレイ識別部409、及びイベントセグメント識別部410を有する。さらに本実施形態における画像認識装置400は、記憶手段として、第1コンテキスト情報保持部411、第2コンテキスト情報保持部412、第3コンテキスト情報保持部413を有する。画像認識装置400が有するこれらの各機能の詳細については、図5(a)等を用いて後述する。
図5(a)は、本実施形態における画像認識装置400による処理手順の一例を示すフローチャートである。
まず、S501において、動画取得部401は、複数のフレームからなる静止画像系列を取得する。例えば、図1(a)で例示した識別対象の動画の一部を動画取得部401が取得する。
本実施形態では、動画としてフットサルの試合映像を対象とし、最終的な動画の長さはフットサルの試合時間に準ずる。また、動画のフレームレートは、秒間30フレーム程度の標準的な速度を想定する。本工程では、動画全体の中から、連続する数フレームから数10フレームの予め設定した長さ(例えば試合時間)の静止画の系列を取得する。ここでは、説明を簡略化するため60フレームの静止画を取得するものとする。この60フレームは、外部装置に予め記憶されていた動画から取得しても良いが、リアルタイムにカメラで撮影した動画から取得してもよい。前者の場合、動画取得部401は、外部装置に記憶された試合映像から所定のフレーム数の静止画系列を取得し、後者の場合、カメラが出力する静止画系列から所定のフレーム数を取得する。また、図1(b)に示したように、複数台のカメラで撮影されたことを前提とし、本工程ではそのカメラ台数分の静止画系列を取得する。
次に、S502においては、前処理部402は、S501で取得した静止画系列に対して前処理を行う。まず、前処理部402は、カメラ台数分の静止画系列に映る各プレイヤーとボールとをトラッキングし、プレイヤー位置およびプレイヤー領域、ボール位置の情報を取得する。ここで取得するプレイヤー領域は、図1(a)に示したプレイヤー領域103に該当する領域である。
次に、前処理部402は、画面全体と各プレイヤー領域とに関して、図1(b)のように配置された複数台のカメラからよりよい配置のカメラを選択する。本実施形態では、画面全体に関しては最初のフレームでボールをより手前で撮影しているカメラ、プレイヤー領域に関しては最初のフレームで領域の隠れがなくプレイヤーがより大きく映っているカメラを選択する。次に、前処理部402は、画面全体および各プレイヤー領域の静止画系列の最初の1フレームに対し、色成分の正規化を行い、さらに静止画系列からオプティカルフローを取得するための処理を行う。オプティカルフローは、ここではフレーム間のブロックマッチング法を用いて取得する。
次に、S503においては、アクション特徴量取得部403は、プレイヤー毎のアクションを識別するためのアクション特徴量を取得する。ここでアクション特徴量とは、動画取得部401で取得した静止画系列から計算される、少なくともアピアランスとモーションとの2つに関する特徴量である。非特許文献6には、アピアランスおよびモーションに対応する2つのCNNを用いて、数秒から数分程度の動画で構成される公開データセット(非特許文献7参照)、UCF−101等に対するアクション分類が開示されている。
モーションに関するCNNには、オプティカルフローのベクトル場を鉛直方向成分と垂直方向成分とに分けた2つのマップを1単位として、それらを積み上げた複数パターン(1、5、10等)を入力としている。本実施形態では、10単位分のオプティカルフローを入力とし、UCF−101のアクション分類タスクで学習したCNNを用い、Softmax識別層の前の全結合層の出力をモーションに関する特徴量として用いる。
一方、アピアランスに関する特徴量は、非特許文献4に記載された方法と同様に、物体検出タスクの公開データセットであるILSVRCを用いて学習したCNNのSoftmax識別層の前の全結合層の出力を用いる。予め学習したCNNの中間出力を別の認識タスクに転用するこのような利用方法は、非特許文献4等で記載の通り一般的な方法であるので、これ以上の詳細な説明は割愛する。
次に、S504においては、プレイ特徴量取得部404は、正規化した画面全体の静止画とオプティカルフローとから、プレイを識別するためのプレイ特徴量を取得する。ここでは、アクション特徴量取得部403が行った処理と同様の方法でアピアランスおよびモーションに関する特徴量をプレイ特徴量として取得する。
次に、画面全体から取得したプレイ特徴量と、プレイヤー毎のアクション特徴量とから、アクション、プレイ、イベントセグメントの3つを識別する。第1中間特徴量取得部405、第2中間特徴量取得部406、および第3中間特徴量取得部407は、後述する学習時の処理で最適化された層数を持つBLSTMに対応する。
図6は、アクション、プレイ、イベントセグメントに関してBLSTM等のユニットでグラフ表現した模式図である。図6に示すように、プレイヤー毎のアクション特徴量601は、それぞれ独立に複数層で構成されるBLSTM605に入力され、アクション識別層606を介して、プレイヤー毎のアクションが識別される。そして画面全体から取得したプレイ特徴量604は、複数層のBLSTM605を介して、プレイヤー毎のアクション特徴量601と統合される。そして複数層のBLSTM605とプレイ識別層607とを介してプレイラベルが識別される。プレイ特徴量604およびアクション特徴量601は、さらに複数層のBLSTM605とイベントセグメント識別層608とを介し、最終層でイベントラベルが識別される。ここで、アクション識別層606およびプレイ識別層607は、ソフトマックス識別器と中間層とを1層ずつ持つマルチレイヤーの識別層であり、イベントセグメント識別層608はソフトマックス識別器で構成されている識別層である。
まず、S505において、第1中間特徴量取得部405は、アクション特徴量の時系列に関する特徴量を取得する。第1中間特徴量取得部405は、BLSTMによって構成され、第1コンテキスト情報保持部411には、前ステップの第1中間特徴量が保存されている。第1中間特徴量取得部405は、アクション特徴量取得部403で取得したアクション特徴量と前ステップの第1中間特徴量とから現ステップの第1中間特徴量を計算する。また、このBLSTMには、後述する学習時の処理で記載した方法に従って学習したBLSTMを用いる。
次に、S506において、アクション識別部408は、現ステップの第1中間特徴量に、ソフトマックス識別器を用いることで、アクションラベルの識別スコアを計算する。このソフトマックス識別器の学習方法に関しては後述する。
S507においては、第2中間特徴量取得部406は、プレイ特徴量の時系列に関する特徴量を取得する。第2中間特徴量取得部406は、BLSTMによって構成され、第2コンテキスト情報保持部412には、前ステップの第2中間特徴量が保存されている。第2中間特徴量取得部406は、プレイ特徴量取得部404で取得したプレイ特徴量と、現ステップの第1中間特徴量と、前ステップの第2中間特徴量とを演算して現ステップの第2中間特徴量を計算する。また、このBLSTMには、後述する学習時の処理で記載した方法に従って学習したBLSTMを用いる。
次に、S508において、プレイ識別部409は、現ステップの第2中間特徴量に、ソフトマックス識別器を用いることで、プレイラベルの識別スコアを計算する。
S509においては、第3中間特徴量取得部407は、現ステップの第3中間特徴量を取得する。第3中間特徴量取得部407は、BLSTMによって構成され、第3コンテキスト情報保持部413には、前ステップの第3中間特徴量が保存されている。第3中間特徴量取得部407は、現ステップの第2中間特徴量と前ステップの第3中間特徴量とを演算して現ステップの第3中間特徴量を計算する。また、このBLSTMには、後述する学習時の処理で記載した方法に従って学習したBLSTMを用いる。
次に、S510において、イベントセグメント識別部410は、現ステップの第3中間特徴量に、ソフトマックス識別器を用いることで、イベントラベルの識別スコアを計算する。
次に、本実施形態におけるS505〜S510で利用するBLSTM(中間層)および識別層の学習方法と、図6に示したネットワーク構造の最適化方法とについて説明する。
図7は、本実施形態における学習装置700の機能構成例を示すブロック図である。なお、本実施形態に係る学習装置700のハードウェア構成については、基本的には図3に示した構成と同様の構成である。
図7に示すように、学習装置700は、ネットワーク構造初期化部701、ネットワークパラメータ最適化部702、精度評価部703、層追加部704、およびタスク追加部705を有する。さらに学習装置700は、記憶手段として、学習用データ保持部706、検証用データ保持部707、およびネットワークパラメータ保持部708を有する。
図8は、本実施形態における学習装置700が行う処理手順の一例を示すフローチャートである。ここで各工程の概要及び図7に示した各構成の機能について説明する。
S801においては、ネットワーク構造初期化部701は、認識タスク毎の認識層とネットワーク全体の構造とを初期化する。本実施形態では、まず認識タスクとして、最もスケールの小さいアクション認識と次にスケールの小さいプレイ認識とを、最も浅いネットワークに構成した構造を初期構造とする。図9には、最も浅いネットワークに構成した具体的な初期構造の例を示す。図6に示した構造と比較して、アクション特徴量901、プレイ特徴量904、BLSTM905、アクション識別層906およびプレイ識別層907に示すように、中間層及び識別層の数を最小限にすることにより、最も浅いネットワークを構成している。
次に、S802において、ネットワークパラメータ最適化部702は、学習用データ保持部706に保持されている学習用データを用い、ネットワークを構成するBLSTMおよび識別層のパラメータの最適化(学習)を行う。ここで、最適化するパラメータのうち、プレイヤー毎のアクション識別層およびそれに接続されるBLSTMは、プレイヤーが変わっても同じ定義のラベルを識別し、プレイヤーの見えは試合毎に様々なバリエーションがあり得る。そこで、プレイヤー毎のBLSTMおよびアクション識別層において重みは共有するものとする。
ここで、学習用データには、動画を構成する静止画の時系列に対応させて、イベントラベル、プレイラベル、プレイヤー毎のアクションラベルの正解ラベルが用意されている。各BLSTMおよび識別層のパラメータを最適化する際には確率的勾配降下法を用いる。この場合、図10に示すように、BLSTM1001において、プレイ識別層1003に由来する勾配1005と、アクション識別層1002に由来する勾配1004とが混合する。このようなBLSTMでは、複数の勾配を単純に平均しても良いが、検証用データを用意して誤差率を計量し、その誤差率で勾配を混合させても良い。
誤差逆伝搬法で計算される当該BLSTMの全体の勾配をΔEとすると、アクション識別層に由来する勾配をΔE(1)、プレイ識別層に由来する勾配をΔE(2)とした場合に、BLSTMの全体の勾配は以下の式(1)により算出される。
ΔE=αΔE(1)+βΔE(2) ・・・(1)
ここで、αはアクション識別の検証用データに関する誤差率に比例する値で、βはプレイ識別の検証用データに関する誤差率に比例する値である。α,βは足して1となるように正規化されている。
また、パラメータの最適化には確率的勾配降下法を適用するため、学習データはミニバッチに分割するが、検証用データも同様にミニバッチに分割し、ミニバッチ毎に誤差率を計算しても良い。こうすることで、ミニバッチ毎に混合比が変わるため、ミニバッチ毎に勾配を変える確率的勾配降下法と同様の効果、すなわちより良い局所解に降下する可能性が増すと考えられる。
また、アクションの識別はプレイヤー毎に行うため、正解ラベルはN人のプレイヤー分あり、以下の式(2)によりN人のプレイヤー分の勾配が得られる。
ΔE(1)=ΔE1 (1)+ΔE2 (1)+・・・+ΔEN (1) ・・・(2)
BLSTMの全体の勾配を算出する際に、式(1)を用いたが、代わりに以下の式(3)を用いてもよい。この場合、アクション識別の勾配は、プレイ識別の勾配に対しN人分の重みが加わっているので、それを相殺するためにNでアクション識別の勾配を割っても良い。
ΔE=(α/N)ΔE(1)+βΔE(2) ・・・(3)
以上の処理により学習されたパラメータは、ネットワークパラメータ保持部708に記憶される。
次にS803において、精度評価部703は、検証用データ保持部707に記憶されている検証用データを用い、最適化されたパラメータに基づく各識別タスクの精度を得る。すなわち、S801およびS802を経た現段階では、アクション識別およびプレイ識別の2つのタスクに関して、精度を計算する。本工程で用いる検証用データは、S802での勾配の混合比の決定に用いる検証用データと同じものでも良いし、別の検証用データを用意しても良い。
次に、S804において、精度評価部703は、S803で得た精度が閾値以上であるか否かを判定する。精度が閾値未満で精度が不十分な場合はS805に分岐し、そうでない場合はS806に分岐する。
S805においては、層追加部704は、タスク毎に既に存在するBLSTMの後段にBLSTMを追加する。アクション識別、プレイ識別ともに精度が十分でない場合には図11(a)に示すように、アクション識別層1106の下方と、プレイ識別層1105の下方とにBLSTM1101、1102を追加する。また、アクション識別の精度のみが十分でない場合は、図11(b)に示すように、アクション識別層の下方のみにBLSTM1103を追加する。一方、プレイ識別の精度のみが十分でない場合には、図11(c)に示すように、プレイ識別層の下方のみにBLSTM1104を追加する。そして、S802に戻る。
一方、識別タスクの精度がともに十分である場合、その識別タスクの識別層の分枝位置が決定する。そして、S806において、精度評価部703は、全てのタスクの精度が十分であるか否かを判定する。この判定の結果、精度が不十分であるタスクがある場合は、S807に分岐する。
S807においては、タスク追加部705は、タスクを追加する。そして、S805を経て、追加するタスクのBLSTMと識別層とを追加することになる。図11(a)が現在の状態である場合、図12に示すように、S807では最終層にイベントセグメント識別層1201が追加され、イベントセグメント識別層1201の下方にはS805でBLSTM1202が追加される。
以降、S802およびS803を再度行い、最終的に全てのタスクで精度が十分になるまで、BLSTMの追加と識別層の分枝位置の探索とを繰り返す。
以上のように本実施形態によれば、アクション識別、プレイ識別、イベントセグメント識別という時間的スケールの異なるマルチタスクを行うRNNのニューラルネットワークを実現できる。これにより、スポーツ動画の入力に対してアクション、プレイ、イベントセグメントの各ラベルを同時に推定することができる。
(第2の実施形態)
本実施形態では、空間的尺度の異なるマルチタスクを行うCNNを例に説明する。非特許文献2に記載の技術では、1000クラスの物体検出タスクで学習した7層のCNNにおいて各層が何に反応しているかをクラウドソーシングで調査している。受容野に対応する画像をワーカーに分類させると、1層目が色や単純図形、2層目がテクスチャ、3層目が領域や表面、4層目がオブジェクトパーツ、5層目がオブジェクトに反応しているとする答えが多かった。このことは最終的に1000クラスの物体検出を実現するために、低層で暗黙的に上記の性質が獲得されていることを示している。最終層で物体検出を学習すると同時に、低次の層で単純図形やテクスチャ、領域分割等のプリミティブな画像認識を教師あり学習の枠組みで積極的に学習することで、1つのネットワークで空間的スケールの異なるマルチタスクを行うCNNが学習できる。
そこで本実施形態では、コンピュータビジョンにとって特に重要で、かつ教師あり学習の仕組みで学習しやすい複数のタスクに関し、ニューラルネットワークの構造を決定して学習し、識別する方法を説明する。具体的には、「エッジ検出」、「物体輪郭検出」、「物体検出」の3つのタスクに関し、これを行うニューラルネットワークの構造を決定して学習し、識別する方法を説明する。
まず、本実施形態において学習されるCNNを用いて画像を識別する際の処理について説明する。CNNは畳みこみ演算を多く行うニューラルネットワークであり、非特許文献1や非特許文献2に開示されている。つまり、CNNでは、畳み込み層(Conv(Convolutional Layer))と非線形処理(ReLU(Rectified linear unit)やPool(Max pooling)など)との組み合わせで特徴抽出層が実現される。そのあと、CNNは全結合層(FC(Fully-connected Layer))を経て画像分類結果(各クラスに対する尤度)を出力する。
図13に、非特許文献1に開示されているネットワーク構造の例を示す。画像Img1301を入力すると、Conv+Pool1302、Conv+Pool1303、Conv1304、Conv1305、Conv+Pool1306を順番に適用して特徴抽出が行われる。その後、識別層にてFC1307、FC1308、Softmax1309を行い、マルチクラスのカテゴリ尤度を出力している。なお、全てのConvおよびFCの後には非線形処理(ReLU)を行うが、図13に示す例では簡略化のために省略している。また、画像Img1301は、CNNに入力する際、所定サイズに画像をリサイズしてクロップし、正規化するなどの前処理が行われるのが一般的である。
図4(b)は、本実施形態の画像認識装置430の機能構成例を示すブロック図である。なお、本実施形態に係る画像認識装置430のハードウェア構成については図3と同様である。
本実施形態の画像認識装置430は、画像取得部431、前処理部432、第1中間特徴量取得部433、第2中間特徴量取得部434、第3中間特徴量取得部435、エッジ検出部436、物体輪郭検出部437、および物体検出部438を有する。画像認識装置430が有するこれらの各機能の詳細については、図5(b)等を用いて後述する。
図5(b)は、本実施形態における画像認識装置430による処理手順の一例を示すフローチャートである。
まず、S531において、画像取得部431は、マルチタスクの認識を行う対象である静止画を取得する。静止画は外部の記憶装置から取得しも良いし、スチルカメラ等の撮像デバイスで新たに取得しても良い。
次にS532においては、前処理部432は、前工程で取得した入力画像に対し前処理を行う。ここでは入力画像に対して色成分を正規化して256×256程度の大きさにリサイズし、続いて224×224程度の大きさにクロップする前処理を行う。
次に前処理した入力画像から、第1中間特徴量取得部433、第2中間特徴量取得部434、第3中間特徴量取得部435の3つの中間特徴量取得部がそれぞれ特徴量を取得する。そして、エッジ検出部436、物体輪郭検出部437、および物体検出部438が、それぞれエッジ抽出、物体輪郭抽出、物体検出の3つを行う。3つの各中間特徴量取得部は、後述する学習時の処理で最適化された構造を持つCNNである。
ここで、スケールの異なるマルチタスクを行うCNNを実現するために、図14に示したような基本ユニットを考える。図14(a)〜図14(c)は、それぞれConvとPoolとが組み合わされた特徴抽出層のユニット(特徴抽出ユニット)の例を示している。より低層側では、図14(a)に示す特徴抽出ユニットを用い、中層側では図14(b)に示す特徴抽出ユニットを用い、高層側では、図14(c)に示す特徴抽出ユニットを用いるものとする。
また、エッジ抽出および物体輪郭抽出では、ピクセル毎の2値分類を行うので、識別層として図14(d)に示すようなFCとLogistic Regressionとを組み合わせた識別ユニットを用いる。FCは通常のように特徴抽出ユニット最終層の全チャネル全レスポンスマップと接続せずに、マップ上の4×4の領域をチャネル方向に全結合しマップ上の各点で2値判定を行う。そして、最終アウトプットである物体検出では、マルチクラスの分類を行うので、図14(e)に示すようなFC×2+Softmaxとなる識別ユニットを用いるものとする。
図15は、図4(b)の各構成および入力画像のネットワークを、図14のユニットを用いて表現した図である。第1中間特徴量取得部433は図14(a)のConv×2+Poolの特徴抽出ユニットで実現される。そして、第2中間特徴量取得部434は図14(b)のConv×3+Poolの特徴抽出ユニット、第3中間特徴量取得部435は図14(c)のConv×4+Poolの特徴抽出ユニットで実現される。また、前述の通り、エッジ検出部436および物体輪郭検出部437は、それぞれ図14(d)のLogistic Regressionの識別ユニットで実現される。そして、物体検出部438は、図14(e)のSoftmaxの識別ユニットで実現される。
図15に示すように、入力画像1501から、特徴抽出ユニット1502を介して、Logistic Regressionの識別ユニット1505でエッジ検出が行われる。そして、特徴抽出ユニット1502のもう一方の出力により、特徴抽出ユニット1503を介し、Logistic Regressionの識別ユニット1506で物体輪郭抽出が行われる。さらに、特徴抽出ユニット1503の出力により、特徴抽出ユニット1504を介し、Softmaxの識別ユニット1507で物体検出が行われる。
S533においては、第1中間特徴量取得部433は、前処理が行われた入力画像からエッジ検出に係る第1中間特徴量を取得する。そして、S534において、エッジ検出部436は、第1中間特徴量から、画像中のエッジを検出する。
次に、S535において、第2中間特徴量取得部434は、第1中間特徴量に基づき、物体の輪郭に係る第2中間特徴量を取得する。そして、S536において、物体輪郭検出部437は、第2中間特徴量から、物体の輪郭を検出する。
次に、S537において、第3中間特徴量取得部435は、第2の中間特徴量に基づき、物体検出に係る第3中間特徴量を取得する。そして、S538において、物体検出部438は、第3中間特徴量から、画像中の物体を検出する。
以上のように、S533、S535、S537およびS538における処理は、一般的なCNNにおける認識時の処理と同様であるので、詳細な説明は割愛する。そして、S534およびS536の処理は、画素毎の2値分類を行う処理であるが、ここでは非特許文献8に記載の方法を参考にして実現する。すなわち、特徴抽出ユニットの最終層のレスポンスマップ上の4×4の領域を、チャネル方向に25次元のFCと全結合させる。そして、レスポンスマップ上の4×4領域に対応する受容野において、中央に位置する5×5ピクセルの全点でエッジの有無を2値判定するという方法である。
以上の処理により、入力画像に対し、エッジ抽出、物体輪郭抽出、物体検出の各識別タスクを1つのネットワークで同時に実現できる。次に、本実施形態におけるS533〜S538で利用する特徴抽出ユニットおよび識別ユニットの学習方法と図15に示したネットワーク構造の探索方法とについて説明する。なお、本実施形態における学習装置の構成は、第1の実施形態と同様であり、本実施形態における学習の処理手順は、基本的には図8と同様である。以下、第1の実施形態との相違について説明する。
まず、S801において、ネットワーク構造初期化部701は、CNNのネットワーク構造を初期化する。次のS802においては、ネットワークパラメータ最適化部702は、エッジ検出、物体輪郭検出(および物体検出)のネットワークに組み込まれたタスクの識別ユニットと特徴抽出ユニットとのネットワークパラメータを最適化する。S803では、精度評価部703は、エッジ検出、物体輪郭検出(および物体検出)の各タスクの評価用データを用い、タスク毎に精度を評価する。S805では、層追加部704は、精度が不十分であるタスクに応じて、図14(a)〜図14(c)で例示した特徴抽出ユニットを追加する。S807では、タスク追加部705は、図14(e)に示す物体検出用の識別ユニットを追加する。
ここで、学習用データは、第1の実施形態と同様に、エッジ検出、物体輪郭検出、物体検出の3つのタスクの正解ラベルが各学習用画像に付けられた物を用いても良い。一方、エッジ検出、物体輪郭検出、物体検出のタスク毎に別々に学習用画像と正解ラベルとを用意しても良い。前者の場合、S802では、第1の実施形態と同様に勾配を混合させ、パラメータの最適化を実行すれば良い。後者の場合、S802において、非特許文献5に開示された方法と同様にタスク毎にロス関数を切り替え、最適化すれば良い。
また、後者の場合、同じタスクの公開データセットを利用しても良い。例えば物体検出ではLarge Scale Visual Recognition Challenge(ILSVRC)、物体輪郭検出では、Berkeley Segmentation Dataset(BSD500)である。また、Microsoft(登録商標) COCOでは、物体ラベルとその物体領域との両方のアノテーションが付与されているため、物体検出タスクと物体輪郭検出タスクとの両方を同時に学習させるためにこのデータセットを用いても良い。また、エッジ検出では、正解ラベルを人間が与えて学習用データを作成しても良いが、Sobel法やCanny法のような既存アルゴリズムの出力を正解ラベルとして利用し、それらを模倣するようにネットワークを学習させても良い。
以上のように本実施形態によれば、エッジ検出、物体輪郭検出、物体検出という空間的スケールの異なるマルチタスクを行うCNNのニューラルネットワークを実現できる。これにより、画像に対しエッジ検出、物体輪郭検出、イベントセグメント検出の各タスクが一度に処理できるようになる。
(第3の実施形態)
本実施形態では、問題の複雑さの尺度が異なるマルチタスクによりカメラの撮像制御用および現像用の画像認識を実現するCNNを例に説明する。本実施形態で扱う識別タスクは、具体的には合焦判定、笑顔検出、色温度推定、シーン分類とする。
ここで、合焦判定は、カメラのコントラスト方式のオートフォーカス制御で行う合焦判定であり、低次の特徴で実現できる。笑顔検出は、一般に口角の形に基づいて行われるため、中間程度のスケールの特徴が有効であると考えられる。色温度推定は、画像撮影環境における光源の色味による被写体の色変化を軽減させるホワイトバランス補正に利用される。色温度は無彩色領域における色の偏りを元に推定されるが、プリミティブな特徴である色と、画像中の無彩色領域を見つけるより高次な特徴とが複合的に有効なことが考えられるので、複数の中間層の出力を元に識別する識別ユニットを考える。シーン分類では、「ポートレイト」、「記念撮影」、「風景」、「夜景」、「市街地」、「マクロ」等のセンサ感度や絞り・シャッター速度等の制御パラメータを決める際の参考になる、撮影シーンの分類を行う。これは画像全体の情報が必要になるため最終層で実行する。以上から各タスクの空間的スケールは、合焦判定、笑顔判定、シーン分類の順に大きくなり、色温度推定は複数のスケールの特徴量を用いる。
図4(c)は、本実施形態の画像認識装置450の機能構成例を示すブロック図である。なお、本実施形態に係る画像認識装置450のハードウェア構成については図3と同様である。
本実施形態の画像認識装置450は、画像取得部451、前処理部452、第1中間特徴量取得部453、第2中間特徴量取得部454、第3中間特徴量取得部455、合焦判定部456、笑顔検出部457、色温度推定部458、シーン分類部459を有する。画像認識装置450が有するこれらの機能の詳細については、図5(c)等を用いて後述する。
図5(c)は、本実施形態における画像認識装置450による処理手順の一例を示すフローチャートである。本実施形態では、第2の実施形態と同様に図14に示したような特徴抽出ユニットおよび識別ユニットを採用し、基本的な処理の流れは第2の実施形態と同様であることから、図16を参照しながら第2の実施形態との差異を中心に説明する。
まず、S551において、画像取得部451は、撮像デバイスから画像を取得する。次に、S552においては、前処理部452は、S551で取得した画像に対する前処理を実行する。この処理は第2の実施形態で説明したS532と同様である。
次に、S553においては、第1中間特徴量取得部453は、前処理がなされた入力画像から第1中間特徴量を取得する。ここで、第1中間特徴量取得部453は第2の実施形態と同様に図16に示すようなConv×2+Poolの特徴抽出ユニット1602により実現され、合焦判定に係る特徴量を入力画像1601から取得する。そして、S554においては、合焦判定部456は、第1中間特徴量に基づいて画像が合焦か否かを判定する。この判定は2値分類であるが、第2の実施形態でのエッジ検出と異なり、特徴抽出ユニット1602のレスポンスマップ全体と識別ユニットのFC層とが全結合され、識別ユニット1605で画像全体に対し2値の合焦か非合焦かが判定される。
次に、S555においては、第2中間特徴量取得部454は、第1中間特徴量に基づき、第2中間特徴量を取得する。ここで、第2中間特徴量取得部454は第2の実施形態と同様にConv×3+Poolの特徴抽出ユニット1603により実現され、笑顔検出に係る特徴量を取得する。そして、S556においては、笑顔検出部457は、第2実施形態での物体輪郭検出と同様に、2つめの特徴抽出ユニット1603のレスポンスマップの各点で、識別ユニット1606により笑顔の有無を2値判定する。
次に、S557においては、第3中間特徴量取得部455は、第2中間特徴量に基づき、第3中間特徴量を取得する。ここで、第3中間特徴量取得部455は第2の実施形態と同様にConv×4+Poolの特徴抽出ユニット1604により実現され、撮影シーンに係る特徴量を取得する。
S558においては、色温度推定部458は、第1中間特徴量および第3中間特徴量に基づき色温度の推定を行う。本工程に係る識別ユニット1608は複数の層から入力を受け取るため、FC層が1つめの特徴抽出層と3つめの特徴抽出層と全結合している。また色温度は連続値であるため、分類ではなく回帰を行い、最終層は線形写像とする。
次にS559においては、シーン分類部459は、第3中間特徴量から画像の撮影シーンを分類する。この処理では、第2の実施形態における物体検出と同様に、画像全体に対してマルチクラスの分類を行う。そのため最終層はSoftmaxの識別ユニット1607を用いる。
以上の認識時の処理により、図16に示すようなネットワーク構造によって、入力画像に対し、合焦判定、笑顔検出、色温度推定、シーン分類の4つのタスクを、1つのネットワークの処理で同時に実現できる。次に、本実施形態におけるS553〜S559で利用する特徴抽出ユニットおよび識別ユニットの学習方法と、図16に示したネットワーク構造の探索方法に関し、第2の実施形態と差異の部分について説明する。
ネットワーク構造の探索では、まず複数の中間層の出力を用いる色温度推定は除き、合焦判定、笑顔検出、シーン分類の3つのタスクについて、第2の実施形態と同様の方法を用いる。その後、色温度推定の識別層のパラメータのみを学習パラメータとして、色温度推定がより高精度になる中間層を探索する。その際は、ネットワーク構造の探索の結果、全体でn個の中間ユニットからなる構造になった場合、n個中の2つの組み合わせを探索すれば2つの中間層の入力を用いるパターンの全ての組み合わせを網羅できる。また、色温度推定は回帰の問題となるため、識別ユニットの最終層は線形写像になる。そして2乗誤差のロス関数を用いてパラメータの最適化を行う。その他の学習方法に関しては第2の実施形態と同様の処理で実現できるため説明を省略する。
以上のように本実施形態によれば、合焦判定、笑顔検出、色温度推定、シーン分類というカメラ制御時に有用なマルチタスクを行うCNNのニューラルネットワークを実現できる。これにより、認識時の処理によって各タスクが一度に処理できるようになる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
405 第1中間特徴量取得部
406 第2中間特徴量取得部
407 第3中間特徴量取得部
408 アクション識別部
409 プレイ識別部
410 イベントセグメント識別部

Claims (18)

  1. ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置であって、
    入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得手段と、
    前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別手段と、
    前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得手段と、
    前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別手段と、
    を有することを特徴とする画像認識装置。
  2. 前記第1の識別手段は、前記ニューラルネットワークの中間層から分枝したネットワークによって実現されることを特徴とする請求項1に記載の画像認識装置。
  3. 前記スケールは、時間的尺度、空間的尺度、あるいは問題の複雑さの尺度の何れかであることを特徴とする請求項1又は2に記載の画像認識装置。
  4. 前記スケールは時間的尺度であり、前記ニューラルネットワークは再帰的ニューラルネットワーク(RNN)であることを特徴とする請求項3に記載の画像認識装置。
  5. 前記スケールは空間的尺度であり、前記ニューラルネットワークは畳み込みニューラルネットワーク(CNN)であることを特徴とする請求項3に記載の画像認識装置。
  6. 前記第2の識別手段は、さらに前記第1の中間特徴量に基づいて前記第2の識別を行うことを特徴とする請求項5に記載の画像認識装置。
  7. 前記入力画像は、静止画又は動画であることを特徴とする請求項1〜6の何れか1項に記載の画像認識装置。
  8. 請求項1〜7の何れか1項に記載の画像認識装置の識別器を学習する学習装置であって、
    前記第1の取得手段および前記第2の取得手段をそれぞれ構成する中間層と前記第1の識別手段および前記第2の識別手段をそれぞれ構成する識別層とを初期化する初期化手段と、
    前記初期化手段によって初期化された中間層および識別層を、学習データを用い学習する学習手段と、
    前記学習手段による学習の結果に応じて、中間層もしくは識別層を新たに追加する追加手段と、
    を有することを特徴とする学習装置。
  9. 前記初期化手段は、前記中間層および前記識別層の数を最小限に構成したネットワーク構造を設定することを特徴とする請求項8に記載の学習装置。
  10. 前記追加手段は、前記学習手段による学習の結果に応じて、前記中間層の後段に新たな中間層を追加、もしくは前記中間層の最終層に新たな識別層を追加することを特徴とする請求項8又は9に記載の学習装置。
  11. 前記追加手段は、新たに中間層を追加する場合に前記識別層の下方に追加することを特徴とする請求項10に記載の学習装置。
  12. 前記学習手段による学習の結果を、検証用データを用いて評価する評価手段をさらに有し、
    前記評価手段による評価の結果、精度が閾値未満である場合に、前記追加手段は、新たに中間層を追加することを特徴とする請求項8〜11の何れか1項に記載の学習装置。
  13. 前記学習手段は、前記第1の識別手段および前記第2の識別手段による識別のそれぞれ対応する正解を含む学習データを用いて学習することを特徴とする請求項8〜12の何れか1項に記載の学習装置。
  14. 前記学習手段は、確率的勾配降下法を用いて学習を行うことを特徴とする請求項8〜13の何れか1項に記載の学習装置。
  15. ニューラルネットワークを用いたネットワーク構造により対象の認識を行う画像認識装置の制御方法であって、
    入力画像から第1の識別を行うための第1の中間特徴量を取得する第1の取得工程と、
    前記第1の中間特徴量に基づいて前記第1の識別を行う第1の識別工程と、
    前記第1の中間特徴量から前記第1の識別よりもスケールの大きい第2の識別を行うための第2の中間特徴量を取得する第2の取得工程と、
    前記第2の中間特徴量に基づいて前記第2の識別を行う第2の識別工程と、
    を有することを特徴とする画像認識装置の制御方法。
  16. 請求項1〜7の何れか1項に記載の画像認識装置の識別器を学習する学習装置の制御方法であって、
    前記第1の取得手段および前記第2の取得手段をそれぞれ構成する中間層と前記第1の識別手段および前記第2の識別手段をそれぞれ構成する識別層とを初期化する初期化工程と、
    前記初期化工程において初期化された中間層および識別層を、学習データを用い学習する学習工程と、
    前記学習工程による学習の結果に応じて、中間層もしくは識別層を新たに追加する追加工程と、
    を有することを特徴とする学習装置の制御方法。
  17. 請求項1〜7の何れか1項に記載の画像認識装置の各手段としてコンピュータを機能させるためのプログラム。
  18. 請求項8〜14の何れか1項に記載の学習装置の各手段としてコンピュータを機能させるためのプログラム。
JP2017094694A 2017-05-11 2017-05-11 画像認識装置および学習装置 Active JP7023613B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017094694A JP7023613B2 (ja) 2017-05-11 2017-05-11 画像認識装置および学習装置
US15/973,960 US10885372B2 (en) 2017-05-11 2018-05-08 Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium
JP2022018932A JP7331172B2 (ja) 2017-05-11 2022-02-09 画像認識装置および学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017094694A JP7023613B2 (ja) 2017-05-11 2017-05-11 画像認識装置および学習装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022018932A Division JP7331172B2 (ja) 2017-05-11 2022-02-09 画像認識装置および学習装置

Publications (2)

Publication Number Publication Date
JP2018190332A true JP2018190332A (ja) 2018-11-29
JP7023613B2 JP7023613B2 (ja) 2022-02-22

Family

ID=64097801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017094694A Active JP7023613B2 (ja) 2017-05-11 2017-05-11 画像認識装置および学習装置

Country Status (2)

Country Link
US (1) US10885372B2 (ja)
JP (1) JP7023613B2 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091421A (ja) * 2017-11-15 2019-06-13 富士通株式会社 イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法
JP2020123244A (ja) * 2019-01-31 2020-08-13 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
KR102155381B1 (ko) * 2019-09-19 2020-09-11 두에이아이(주) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 판단방법, 장치 및 소프트웨어 프로그램
JPWO2021019645A1 (ja) * 2019-07-29 2021-02-04
JP2021081790A (ja) * 2019-11-14 2021-05-27 キヤノン株式会社 認識装置、認識方法
JP6970863B1 (ja) * 2020-09-23 2021-11-24 株式会社デンソーテン モデル生成装置及びモデル生成方法
JP2022508157A (ja) * 2019-03-07 2022-01-19 エヌイーシー ラボラトリーズ アメリカ インク 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク
JP2022041154A (ja) * 2020-08-31 2022-03-11 ブラザー工業株式会社 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム
DE112020003840T5 (de) 2019-08-13 2022-05-05 Sony Semiconductor Solutions Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, und informationsverarbeitungsprogramm
US11417007B2 (en) 2019-11-20 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
JP2022172661A (ja) * 2021-05-06 2022-11-17 キヤノン株式会社 推論処理装置、撮像装置、推論処理方法及びプログラム
JP2022548293A (ja) * 2019-09-25 2022-11-17 ▲蘇▼州浪潮智能科技有限公司 目標検出モデルの自動モデリング方法及び装置
JPWO2023002716A1 (ja) * 2021-07-20 2023-01-26
WO2023187899A1 (ja) * 2022-03-28 2023-10-05 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
WO2024003976A1 (ja) * 2022-06-27 2024-01-04 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020136899A (ja) * 2019-02-19 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 撮像装置、電子機器、および撮像方法
CN109919949B (zh) * 2019-03-06 2020-04-28 中国科学院自动化研究所 图像精细化阴影区域分割系统、方法、装置
CN109993163B (zh) * 2019-03-19 2023-09-05 苏州大学 一种基于人工智能的非标铭牌识别系统及其识别方法
CN110020658B (zh) * 2019-03-28 2022-09-30 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110084122B (zh) * 2019-03-28 2022-10-04 南京邮电大学 基于深度学习的动态人脸情绪识别方法
CN110096964B (zh) * 2019-04-08 2021-05-04 厦门美图之家科技有限公司 一种生成图像识别模型的方法
JP7231464B2 (ja) * 2019-04-09 2023-03-01 株式会社日立製作所 物体認識システム及び物体認識方法
US11126890B2 (en) * 2019-04-18 2021-09-21 Adobe Inc. Robust training of large-scale object detectors with a noisy dataset
CN110348482B (zh) * 2019-06-05 2023-06-02 华东理工大学 一种基于深度模型集成架构的语音情感识别系统
CN112446257A (zh) * 2019-09-02 2021-03-05 株式会社Ntt都科摩 基于神经网络的属性识别装置、方法和存储介质
WO2021093947A1 (en) * 2019-11-13 2021-05-20 Huawei Technologies Co., Ltd. Multi-hypothesis classification for color constancy
US11321587B2 (en) * 2020-01-30 2022-05-03 Ford Global Technologies, Llc Domain generation via learned partial domain translations
CN111291712B (zh) * 2020-02-25 2023-03-24 河南理工大学 基于插值的cn和胶囊网络的森林火灾识别方法及装置
WO2021183339A1 (en) * 2020-03-09 2021-09-16 Commscope Technologies Llc Smart pole based incident detection and alerting system
CN111523414B (zh) * 2020-04-13 2023-10-24 绍兴埃瓦科技有限公司 人脸识别方法、装置、计算机设备和存储介质
CN115812164B (zh) * 2020-07-02 2025-12-05 谷歌有限责任公司 用于低光子计数视觉对象检测和分类的系统
CN112347950B (zh) * 2020-11-11 2024-04-05 湖北大学 基于深度学习的pcb板镭射标靶识别方法及系统
US11943184B2 (en) * 2021-01-21 2024-03-26 Samsung Electronics Co., Ltd. Device and method for providing notification message related to content
CN113408525B (zh) * 2021-06-17 2022-08-02 成都崇瑚信息技术有限公司 一种多层三值主元与双向长短期记忆融合的文本识别方法
CN116205882B (zh) * 2023-03-02 2025-03-11 超音速人工智能科技股份有限公司 基于深度学习的极耳识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017007626A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
JP2017037392A (ja) * 2015-08-07 2017-02-16 トヨタ自動車株式会社 ニューラルネットワーク学習装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1650711B1 (en) * 2003-07-18 2015-03-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
US7706571B2 (en) * 2004-10-13 2010-04-27 Sarnoff Corporation Flexible layer tracking with weak online appearance model
JP2012235796A (ja) * 2009-09-17 2012-12-06 Sharp Corp 診断処理装置、診断処理システム、診断処理方法、診断処理プログラム及びコンピュータ読み取り可能な記録媒体、並びに、分類処理装置
US10074179B2 (en) * 2013-05-07 2018-09-11 Sharp Kabushiki Kaisha Image measurement device
CN110443351B (zh) * 2014-11-14 2021-05-28 谷歌有限责任公司 生成映像的自然语言描述
CN109804386A (zh) * 2016-10-03 2019-05-24 三菱电机株式会社 网络构筑装置和网络构筑方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017007626A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
JP2018526723A (ja) * 2015-07-09 2018-09-13 クゥアルコム・インコーポレイテッドQualcomm Incorporated 画像中のオブジェクト検出のためのコンテキストベースの事前分布
JP2017037392A (ja) * 2015-08-07 2017-02-16 トヨタ自動車株式会社 ニューラルネットワーク学習装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019091421A (ja) * 2017-11-15 2019-06-13 富士通株式会社 イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法
JP2020123244A (ja) * 2019-01-31 2020-08-13 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7278088B2 (ja) 2019-01-31 2023-05-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7181402B2 (ja) 2019-03-07 2022-11-30 エヌイーシー ラボラトリーズ アメリカ インク 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク
JP2022508157A (ja) * 2019-03-07 2022-01-19 エヌイーシー ラボラトリーズ アメリカ インク 場面理解および高度な運転者支援システムのためのアプリケーションを有するマルチタスク感知ネットワーク
JP7268739B2 (ja) 2019-07-29 2023-05-08 日本電気株式会社 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
JPWO2021019645A1 (ja) * 2019-07-29 2021-02-04
US12169960B2 (en) 2019-07-29 2024-12-17 Nec Corporation Learning data generation device, learning device, identification device, generation method and storage medium
US12087049B2 (en) 2019-08-13 2024-09-10 Sony Semiconductor Solutions Corporation Information processing device and information processing method
DE112020003840T5 (de) 2019-08-13 2022-05-05 Sony Semiconductor Solutions Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, und informationsverarbeitungsprogramm
WO2021054518A1 (ko) * 2019-09-19 2021-03-25 두에이아이(주) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 진단방법, 장치 및 소프트웨어 프로그램
KR102155381B1 (ko) * 2019-09-19 2020-09-11 두에이아이(주) 인공지능 기반 기술의 의료영상분석을 이용한 자궁경부암 판단방법, 장치 및 소프트웨어 프로그램
US12211258B2 (en) 2019-09-25 2025-01-28 Inspur Suzhou Intelligent Technology Co., Ltd. Automatic modeling method and device for object detection model
JP2022548293A (ja) * 2019-09-25 2022-11-17 ▲蘇▼州浪潮智能科技有限公司 目標検出モデルの自動モデリング方法及び装置
JP7335430B2 (ja) 2019-09-25 2023-08-29 ▲蘇▼州浪潮智能科技有限公司 目標検出モデルの自動モデリング方法及び装置
JP2021081790A (ja) * 2019-11-14 2021-05-27 キヤノン株式会社 認識装置、認識方法
JP7444585B2 (ja) 2019-11-14 2024-03-06 キヤノン株式会社 認識装置、認識方法
US11417007B2 (en) 2019-11-20 2022-08-16 Samsung Electronics Co., Ltd. Electronic apparatus and method for controlling thereof
JP2022041154A (ja) * 2020-08-31 2022-03-11 ブラザー工業株式会社 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム
JP7528645B2 (ja) 2020-08-31 2024-08-06 ブラザー工業株式会社 印刷材の種類を特定する方法、印刷材の種類の特定装置、および、コンピュータプログラム
JP6970863B1 (ja) * 2020-09-23 2021-11-24 株式会社デンソーテン モデル生成装置及びモデル生成方法
WO2022064575A1 (ja) * 2020-09-23 2022-03-31 株式会社デンソーテン モデル生成装置及びモデル生成方法
JP7739040B2 (ja) 2021-05-06 2025-09-16 キヤノン株式会社 推論処理装置、撮像装置、推論処理方法及びプログラム
JP2022172661A (ja) * 2021-05-06 2022-11-17 キヤノン株式会社 推論処理装置、撮像装置、推論処理方法及びプログラム
JP7460995B2 (ja) 2021-07-20 2024-04-03 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
WO2023002716A1 (ja) * 2021-07-20 2023-01-26 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
JPWO2023002716A1 (ja) * 2021-07-20 2023-01-26
JP7460997B2 (ja) 2022-03-28 2024-04-03 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
JPWO2023187899A1 (ja) * 2022-03-28 2023-10-05
WO2023187899A1 (ja) * 2022-03-28 2023-10-05 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム及び学習方法
JPWO2024003976A1 (ja) * 2022-06-27 2024-01-04
JP7560844B2 (ja) 2022-06-27 2024-10-03 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム
WO2024003976A1 (ja) * 2022-06-27 2024-01-04 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム

Also Published As

Publication number Publication date
US20180330183A1 (en) 2018-11-15
US10885372B2 (en) 2021-01-05
JP7023613B2 (ja) 2022-02-22

Similar Documents

Publication Publication Date Title
JP7023613B2 (ja) 画像認識装置および学習装置
Jaouedi et al. A new hybrid deep learning model for human action recognition
JP6320112B2 (ja) 情報処理装置、情報処理方法
Burić et al. Adapting YOLO network for ball and player detection
CA3077517A1 (en) Method and system for classifying an object-of-interest using an artificial neural network
CN112446270A (zh) 行人再识别网络的训练方法、行人再识别方法和装置
US20250054187A1 (en) Main subject determining apparatus, image capturing apparatus, main subject determining method, and storage medium
KR20190099443A (ko) 외관 탐색을 위한 시스템 및 방법
CN110781962B (zh) 基于轻量级卷积神经网络的目标检测方法
Kemelmacher-Shlizerman et al. Being john malkovich
KR20170047167A (ko) 전자 장치가 동영상의 얼굴의 인상을 변형하는 방법 및 그 전자 장치
CN109074652A (zh) 图像识别装置、移动体装置以及图像识别程序
Baby et al. Dynamic vision sensors for human activity recognition
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
KR102639187B1 (ko) 얼굴 합성 서비스를 제공하는 방법 및 이를 위한 장치
Balaji et al. Object detection using Metaheuristic algorithm for volley ball sports application
CN119131891A (zh) 一种复杂场景下的双模态手势识别方法及装置
CN115220574A (zh) 位姿确定方法及装置、计算机可读存储介质和电子设备
Wahid et al. Automated Gait Event Detection in Sports: A Novel Approach Using Ant Colony and XGBoost
US11601591B2 (en) Image processing apparatus for estimating action of subject and adding information indicating the action of the subject to an image, method for controlling the same, and storage medium
WO2012153868A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Fernandes et al. Cricket Shot Detection using 2D CNN
JP7331172B2 (ja) 画像認識装置および学習装置
CN113486717A (zh) 一种行为识别的方法及装置
Moreno et al. Marker-less feature and gesture detection for an interactive mixed reality avatar

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220209

R151 Written notification of patent or utility model registration

Ref document number: 7023613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151