JP7095726B2

JP7095726B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7095726B2
Application number: JP2020190451A
Authority: JP
Inventors: チョンフィファン; 一真山本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2022-07-05
Anticipated expiration: 2040-11-16
Also published as: JP7384238B2; JP2022079325A; JP2022111347A

Description

本発明は、学習装置、学習方法および学習プログラムに関する。

近年、各種の分野においてニューラルネットワークが用いられている。例えば、学習済みのニューラルネットワーク（例えば、ディープラーニングに基づく学習済みのニューラルネットワークなど）に基づいて、画像に写る物体を検出する技術（物体検出技術）が注目されている。物体検出技術として、各種の技術が知られている（非特許文献１～非特許文献４参照）。かかる物体検出技術においては、画像に写る物体が属するクラス（物体クラス）が識別される。

Xiongwei Wu, Doyen Sahoo, andSteven C.H. Hoi、"Recent Advances in DeepLearning for Object Detection"、[online]、5 July 2020、Neurocomputing、［令和2年11月2日検索］、インターネット＜https://www.sciencedirect.com/science/article/abs/pii/S0925231220301430＞ Joseph Redmon, Ali Farhadi、"YOLO9000:Better, Faster, Stronger"、[online]、2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、［令和2年11月2日検索］、インターネット＜https://ieeexplore.ieee.org/document/8100173＞ Aditya Krishna Menon、他３名、"Multilabel reductions: what is my lossoptimising?"、[online]、2019 Neural Information Processing Systems (NIPS)、［令和2年11月2日検索］、インターネット＜https://papers.nips.cc/paper/9245-multilabel-reductions-what-is-my-loss-optimising＞、Rafael Muller, Simon Kornblith andGeoffrey Hinton、"When Does Label SmoothingHelp?"、[online]、2019 Neural Information Processing Systems (NIPS)、［令和2年11月2日検索］、インターネット＜https://papers.nips.cc/paper/8717-when-does-label-smoothing-help＞

しかし、画像に写る物体が属するクラスの識別の精度を向上させることを可能とする技術が提供されることが望まれる。

上記問題を解決するために、本発明のある観点によれば、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成する階層構造生成部と、訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行う学習部と、を備える、学習装置が提供される。

前記階層構造生成部は、前記クラス同士が上下関係を有さない場合に、第１のクラス群を構成するクラスの上位クラスまたは下位クラスが追加された第２のクラス群を構成するクラス同士の上下関係を示す第２の階層構造を生成するとともに、前記上位クラスまたは下位クラスの追加に基づいて、前記上位クラスまたは下位クラスに対応する要素を前記第１の教師データに追加して第２の教師データを得るとともに、前記第１のニューラルネットワークを第２のニューラルネットワークに変換し、前記学習部は、前記第２の教師データと前記第２の階層構造とに基づいて、前記第２の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第２の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第２の教師データと、前記第２のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとの誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第２のニューラルネットワークの学習処理を行ってもよい。

前記誤差は、交差エントロピー誤差であってもよい。

前記層ごとの誤差の合計は、前記層ごとの誤差の重み付け和であってもよい。

また、本発明の別の観点によれば、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成することと、訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行うことと、を備える、学習方法が提供される。

また、本発明の別の観点によれば、コンピュータを、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成する階層構造生成部と、訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行う学習部と、を備える学習装置として機能させる学習プログラムが提供される。

また、本発明の別の観点によれば、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて生成された、前記第１のクラス群を構成するクラス同士の上下関係を示す階層構造と、正解クラスに対応する要素の値と前記正解クラスが属する層と同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換が行われた後の教師データと、前記第１のニューラルネットワークから前記教師データに対応する訓練データに対応して出力される出力データとに基づく学習処理によって得られた学習済みのニューラルネットワークを取得し、前記学習済みのニューラルネットワークからテストデータに対応して出力される出力データと、前記階層構造とに基づいて、前記テストデータが属するクラスの識別処理を行う推論部を備える、推論装置が提供される。

前記推論部は、前記テストデータに対応する出力データと前記階層構造とに基づいて、前記第１のクラス群を構成するクラス全体における各クラスの信頼度を算出し、前記クラス全体における各クラスの信頼度に基づいて前記識別処理を行ってもよい。

また、本発明の別の観点によれば、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて生成された、前記第１のクラス群を構成するクラス同士の上下関係を示す階層構造と、正解クラスに対応する要素の値と前記正解クラスが属する層と同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換が行われた後の教師データと、前記第１のニューラルネットワークから前記教師データに対応する訓練データに対応して出力される出力データとに基づく学習処理によって得られた学習済みのニューラルネットワークを取得し、前記学習済みのニューラルネットワークからテストデータに対応して出力される出力データと、前記階層構造とに基づいて、前記テストデータが属するクラスの識別処理を行うことを含む、推論方法が提供される。

また、本発明の別の観点によれば、コンピュータを、第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて生成された、前記第１のクラス群を構成するクラス同士の上下関係を示す階層構造と、正解クラスに対応する要素の値と前記正解クラスが属する層と同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換が行われた後の教師データと、前記第１のニューラルネットワークから前記教師データに対応する訓練データに対応して出力される出力データとに基づく学習処理によって得られた学習済みのニューラルネットワークを取得し、前記学習済みのニューラルネットワークからテストデータに対応して出力される出力データと、前記階層構造とに基づいて、前記テストデータが属するクラスの識別処理を行う推論部を備える、推論装置として機能させるプログラムが提供される。

以上説明したように本発明によれば、画像に写る物体が属するクラスの識別の精度を向上させることを可能とする技術が提供される。

物体検出技術の概要について説明するための図である。排他的なクラス識別が適さない場合の例について説明するための図である。排他的なクラス識別が適さない場合の例について説明するための図である。本発明の実施形態に係るクラス識別システムの機能構成例を示す図である。データ部から階層構造生成部に入力されるニューラルネットワークの例を示す図である。階層構造生成部による変換後のニューラルネットワークの例を示す図である。階層構造生成部によって生成される階層構造の例を示す図である。ニューラルネットワークの置換および教師データの変換の概要について説明するための図である。ニューラルネットワークの修正量をニューラルネットワークの置換前後において比較して示す図である。変換後の教師データが学習に用いられる場合について説明するための図である。変換前の教師データが学習に用いられる場合について説明するための図である。本発明の実施形態に係るクラス識別システムの例としての情報処理装置のハードウェア構成を示す図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合がある。ただし、実質的に同一の機能構成を有する複数の構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合がある。ただし、異なる実施形態の類似する構成要素等の各々を特に区別する必要がない場合、同一符号のみを付する。

（０．背景）
まず、本発明の実施形態の背景について説明する。

近年、各種の分野においてニューラルネットワークが用いられている。例えば、学習済みのニューラルネットワーク（例えば、ディープラーニングに基づく学習済みのニューラルネットワークなど）に基づいて、画像に写る物体を検出する技術（物体検出技術）が注目されている。そして、かかる物体検出技術によって各種のアプリケーションが実現されることが期待されている。例えば、車載カメラによって得られた画像に写る物体の検出結果に基づいて、画像に写る人物を同定したり、画像に写るナンバープレートを認識したり、画像に写る状況を認識したりするアプリケーションの実現が期待されている。

画像に写る物体を検出する技術（物体検出技術）は、画像に基づいて１または複数の物体候補領域を推定する領域推定サブタスクと、１または複数の物体候補領域それぞれに写る被写体のクラスを識別するクラス識別タスクとによって実現され得る（例えば、非特許文献１参照）。ここで、図１を参照しながら、かかる物体検出技術の概要について説明する。

図１は、物体検出技術の概要について説明するための図である。図１を参照すると、物体が写る画像５０が示されている。より詳細には、画像５０における物体領域５１Ａに、物体の例としてのバスが写っている。また、画像５０における物体領域５２Ａに、物体の例としての人が写っている。図１には、かかる画像５０から物体を検出する物体検出器の例として、２段階検出器Ｎ１および１段階検出器Ｎ２が示されている。

２段階検出器Ｎ１は、画像５０に基づいて特徴マップＦ１を抽出する第１の段階（特徴抽出タスクＮ１１）と、特徴マップＦ１に基づいて物体候補領域ｈ１～ｈ３を推定する第２の段階（領域推定タスクＮ１２）とによって、物体候補領域ｈ１～ｈ３の位置および特徴量を検出する。一方、１段階検出器Ｎ２は、あらかじめ定められた物体候補領域の位置（例えば、あらかじめ画像全体に網羅的に定められた物体候補領域の位置（「ｉ１，ｊ１」、「ｉ１，ｊ２」、「ｉ２，ｊ１」、「ｉ２，ｊ２」、・・・）と画像５０とに基づいて、１つの段階（特徴抽出＆領域推定タスクＮ１３）によって、物体候補領域ごとの特徴量を検出する。

また、２段階検出器Ｎ１および１段階検出器Ｎ２それぞれにおいて、クラス識別タスクＮ２１は、物体候補領域ごとの特徴量に基づいて、物体が含まれていない物体候補領域を背景領域として識別し、物体が含まれている物体候補領域を物体領域として識別する。クラス識別タスクＮ２１は、物体候補領域に物体が含まれている場合には、その物体候補領域に含まれる物体が属するクラス（物体クラス）を識別する。

図１に示された例では、（バスが写る物体領域５１Ａに対応する）物体候補領域５１Ｂに写る物体がトラックであると識別されているため、物体候補領域５１Ｂにおいては、誤ったクラス識別が行われている。一方、図１に示された例では、（人が写る物体領域５２Ａに対応する）物体候補領域５２Ｂに写る物体が人であると識別されているため、物体候補領域５２Ｂにおいては、正しいクラス識別が行われている。

クラス識別タスクＮ２１においては、物体候補領域ごとの識別結果に基づいて、交差エントロピー誤差を用いて、物体候補領域に含まれる物体が属するクラス（物体クラス）を排他的に識別する学習が行われるのが一般的である。しかし、排他的なクラス識別が適さない場合があり得る。ここで、図２および図３を参照しながら、排他的なクラス識別が適さない場合の例について説明する。

図２および図３は、排他的なクラス識別が適さない場合の例について説明するための図である。図２および図３を参照すると、正解クラスを「Ｃａｒ（乗用車）」とする教師データがそれぞれ対応付けられた画像２１Ａ、２２Ａ、２３Ａおよび２４Ａが示されている。また、正解クラスを「Ｔｒｕｃｋ」とする教師データがそれぞれ対応付けられた画像２１Ｂ、２２Ｂ、２３Ｂおよび２４Ｂが示されている。また、正解クラスを「Ｂｕｓ」とする教師データがそれぞれ対応付けられた画像２１Ｃ、２２Ｃ、２３Ｃおよび２４Ｃが示されている。

ここで、正解クラスを「Ｃａｒ」とする教師データがそれぞれ対応付けられた画像２１Ａ、２２Ａの物体候補領域（太い矩形枠内）には、「Ｃａｒ」が写っている。一方、正解クラスを「Ｃａｒ」とする教師データが対応付けられた画像２３Ａの物体候補領域には、「Ｔｒｕｃｋ」が写っている。すなわち、画像２３Ａに対するラベル付け（アノテーション）には、誤りが存在している。さらに、正解クラスを「Ｃａｒ」とする教師データが対応付けられた画像２４Ａの物体候補領域には、「Ｖａｎ（貨物を運搬する屋根付きの車両）」が写っている。「Ｖａｎ」がどのクラスに属するかは曖昧である。すなわち、画像２４Ａの物体候補領域に写る物体が属するクラスは、曖昧である。

同様に、正解クラスを「Ｔｒｕｃｋ」とする教師データがそれぞれ対応付けられた画像２１Ｂ、２２Ｂの物体候補領域には、「Ｔｒｕｃｋ」が写っている。一方、正解クラスを「Ｔｒｕｃｋ」とする教師データが対応付けられた画像２３Ｂの物体候補領域には、「Ｃａｒ」が写っている。すなわち、画像２３Ｂに対するラベル付け（アノテーション）には、誤りが存在している。さらに、正解クラスを「Ｔｒｕｃｋ」とする教師データが対応付けられた画像２４Ｂには、「Ｖａｎ」が写っている。すなわち、画像２４Ｂの物体候補領域に写る物体が属するクラスは、曖昧である。

同様に、正解クラスを「Ｂｕｓ」とする教師データがそれぞれ対応付けられた画像２１Ｃ、２２Ｃの物体候補領域には、「Ｂｕｓ」が写っている。一方、正解クラスを「Ｂｕｓ」とする教師データが対応付けられた画像２３Ｃの物体候補領域には、「Ｃａｒ」が写っている。すなわち、画像２３Ｃに対するラベル付け（アノテーション）には、誤りが存在している。さらに、正解クラスを「Ｂｕｓ」とする教師データが対応付けられた画像２４Ｃの物体候補領域には、「Ｖａｎ」が写っている。すなわち、画像２４Ｃの物体候補領域に写る物体が属するクラスは、曖昧である。

このように、排他的なクラス識別が適さない場合の例としては、アノテーション（画像に対するラベル付け）に誤りが存在する場合が挙げられる。また、排他的なクラス識別が適さない場合の他の例としては、画像に写る物体が属するクラスが曖昧である場合が挙げられる。このように排他的なクラス識別が適さない場合が存在するにも関わらず、排他的なクラス識別の学習が行われてしまうと、クラス識別に誤りが生じてしまう可能性がある。

そこで、クラス識別に誤りが生じてしまう可能性を低減するために、識別可能な具体的なクラスに関する情報に基づいて、抽象的なクラスを生成し、具体的なクラスおよび抽象的なクラスのいずれのクラスに物体が属するかを識別する技術（すなわち、階層的なクラス識別を行う技術）が提案されている（例えば、非特許文献２参照）。非特許文献２に記載の技術では、階層的なクラス識別によって、画像に写る物体が属するクラスとして抽象的なクラスを識別することが可能となる。

しかし、非特許文献２に記載の技術では、排他的なクラス識別が適さない場合に（例えば、アノテーションに誤りが存在する場合または画像に写る物体が属するクラスが曖昧である場合などに）過学習が行われてしまい、クラス識別の精度が劣化してしまうことがあり得る。過学習が行われてしまう原因の一つとしては、学習段階において排他的に識別する学習が行われてしまうことが挙げられる。また、過学習が行われてしまう原因の他の一つとしては、学習に用いられる教師データが排他的であることが挙げられる。

そこで、以下の説明では、非排他的に識別する学習を行う技術（例えば、非特許文献３に記載の技術）を階層的なクラス識別に適用する技術について提案する。かかる構成によれば、排他的なクラス識別が適さない場合に過学習が行われてしまう可能性が低減されるため、クラス識別の精度が劣化してしまう可能性が低減され得る。本発明の実施形態では、非排他的に識別する学習を行う技術の例として、「シグモイド活性（Sigmoid Activation）」という技術を用いる。

さらに、以下の説明では、非排他的な教師データを学習に用いる技術（例えば、非特許文献４に記載の技術）を階層的なクラス識別に適用する技術について提案する。かかる構成によれば、排他的なクラス識別が適さない場合に過学習が行われてしまう可能性が低減されるため、クラス識別の精度が劣化してしまう可能性が低減され得る。本発明の実施形態では、非排他的な教師データを学習に用いる技術の例として、「ラベルスムージング（Label Smoothing）」という技術を用いる。

なお、以下の説明では、階層的なクラス識別に、シグモイド活性およびラベルスムージングの双方を適用する例について主に説明する。しかし、階層的なクラス識別に、必ずしもシグモイド活性およびラベルスムージングの双方が適用されなくてもよい。例えば、階層的なクラス識別に、シグモイド活性およびラベルスムージングの一方のみが適用されてもよい。

以上、本発明の実施形態の背景について説明した。

（１．実施形態の詳細）
続いて、本発明の実施形態の詳細について説明する。

（１－１．構成の説明）
まず、本発明の実施形態に係るクラス識別システムの構成例について説明する。図４は、本発明の実施形態に係るクラス識別システムの機能構成例を示す図である。図４に示されるように、本発明の実施形態に係るクラス識別システム１は、データ部１１、階層構造生成部１２、学習部１３および推論部１４を備える。クラス識別システム１は、同一のコンピュータによって実現されてもよいし、複数のコンピュータに分散されて実現されてもよい。なお、階層構造生成部１２および学習部１３は、学習装置を構成し得る。また、推論部１４は、推論装置を構成し得る。

階層構造生成部１２、学習部１３および推論部１４は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの演算装置を含み、図示しないメモリにより記憶されているプログラム（学習プログラムおよび推論プログラム）がＣＰＵによりＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、階層構造生成部１２、学習部１３および推論部１４は、専用のハードウェアにより構成されていてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。

（データ部１１）
データ部１１は、メモリによって構成され得る。データ部１１は、ニューラルネットワーク（第１のニューラルネットワーク）を記憶する。また、データ部１１は、ニューラルネットワークの訓練に使用されるデータ（学習用データセット）を記憶する。また、データ部１１は、ニューラルネットワークによって識別可能なクラス群（第１のクラス群）を構成するクラスに関する情報を記憶する。また、データ部１１は、テストデータの例としてのテスト画像を記憶する。

本発明の実施形態では、ニューラルネットワークが畳み込みニューラルネットワークである場合を主に想定する。しかし、ニューラルネットワークの構成は特に限定されない。なお、学習済みのニューラルネットワークは、２段階検出器Ｎ１（図１）となり得る。あるいは、学習済みのニューラルネットワークは、１段階検出器Ｎ２（図１）となり得る。

学習用データセットには、教師データと訓練データの例としての訓練画像とが含まれる。教師データは、訓練画像に写る被写体が属する正解クラスに関する情報を含んでいる。ここで、正解クラスに関する情報は、正解クラスに対応する要素として「１」が設定され、正解クラス以外に対応する要素として「０」が設定されたベクトル（所謂、Ｏｎｅ－ｈｏｔ表現）によって示される。その他、教師データは、訓練画像において被写体が写る物体候補領域に関する情報（例えば、物体候補領域の位置およびサイズなど）を含んでよい。

ニューラルネットワークによって識別可能なクラス群を構成するクラスに関する情報は、一例としてクラス名であってよい。しかし、クラスに関する情報は、クラス名に限定されず、クラスを識別可能な情報であればよい。

データ部１１は、学習段階において、クラスに関する情報とニューラルネットワークとを階層構造生成部１２に出力する。また、データ部１１は、学習段階において、学習用データセットを学習部１３に出力する。一方、データ部１１は、推論段階において、テスト画像を推論部１４に出力する。

（階層構造生成部１２）
階層構造生成部１２は、ニューラルネットワークによって識別可能なクラス群（以下、「既存クラス」とも言う。）を構成するクラス（以下、「既存クラス」とも言う。）に関する情報がデータ部１１から入力されると、既存クラスに関する情報に基づいて、既存クラス同士の上下関係を示す階層構造を生成する。ここで、上下関係は、概念的な上下関係であってよい。また、階層構造が生成されるタイミングは、学習段階であることが主に想定される。しかし、階層構造は、学習段階に先立ってあらかじめ生成されていてもよい。

階層構造生成部１２は、既存クラスに関する情報に基づいて、既存クラス群に新たなクラス（以下、「追加クラス」とも言う。）を追加してもよい。追加クラスの数は限定されず、１または複数であってよい。このとき、階層構造生成部１２は、新たなクラスの追加後のクラス群（第２のクラス群）を構成するクラス同士の上下関係を示す階層構造を生成する。そして、階層構造生成部１２は、当該新たなクラスの追加に基づいて、データ部１１から入力されたニューラルネットワークを（第２のニューラルネットワークに）変換する。

図５～図７を参照しながら、階層構造の生成の例とニューラルネットワークの変換の例について説明する。図５は、データ部１１から階層構造生成部１２に入力されるニューラルネットワークの例を示す図である。図６は、階層構造生成部１２による変換後のニューラルネットワークの例を示す図である。図７は、階層構造生成部１２によって生成される階層構造の例を示す図である。

図５を参照すると、データ部１１から階層構造生成部１２に入力されるニューラルネットワークの例が示されている。ただし、図５に示された例は、ニューラルネットワークの一部に相当するクラス識別タスクＮ２１および出力層Ｌ０が示されている。クラス識別タスクＮ２１への入力の例として、物体候補領域ｈ２が示されている。出力層Ｌ０の各ノードは、ニューラルネットワークによって識別可能な複数のクラスそれぞれに対応している。出力層Ｌ０の各ノードは、既存クラスに対応するノード（図５では、塗りつぶしのないノード）である。

出力層Ｌ０は、クラス識別タスクＮ２１との間で全結合を形成している。図５においては、出力層Ｌ０とクラス識別タスクＮ２１との間に形成されている結合の一部が実線の線分によって示されている。すなわち、図５に示された例では、出力層Ｌ０とクラス識別タスクＮ２１との間に形成されている結合の全部が示されている訳ではなく、出力層Ｌ０とクラス識別タスクＮ２１との間に形成されている結合の一部が省略されている。

図５を参照すると、既存クラスの例として、「Ｂａｃｋｇｒｏｕｎｄ」クラス、「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラス、「Ｂｕｓ」クラス、「Ｐｅｄｅｓｔｒｉａｎ」クラス、「Ｒｉｄｅｒ」クラスおよび「Ｐｅｒｓｏｎ」クラスなどが存在している。これらの既存クラスが、ニューラルネットワークによって識別可能な既存クラス群に該当する。階層構造生成部１２は、既存クラス群に関する情報に基づいて、既存クラス群を構成するクラス同士の上下関係を特定する。

一例として、下位クラスの名称とその上位クラスの名称との組み合わせがあらかじめ登録された辞書データがデータ部１１に存在する場合が想定される。かかる場合、階層構造生成部１２は、既存クラス群を構成する二つのクラスの名称の組み合わせと一致または類似する組み合わせが、辞書データに登録されている場合、当該二つのクラス同士が上下関係にあると特定してもよい。例えば、図７を参照すると、二つの既存クラスである「Ｐｅｒｓｏｎ」クラスおよび「Ｐｅｄｅｓｔｒｉａｎ」クラスが、上下関係にあると特定されている。なお、図７には、既存クラスが塗りつぶしのないクラスとして示されている。

また、階層構造生成部１２は、既存クラスに関する情報に基づいて、既存クラス群に新たなクラス（追加クラス）が追加された階層構造を生成し得る。例えば、既存クラス群を構成するクラスの名称と一致または類似する一方の名称が、辞書データに登録されている場合が想定される。かかる場合、階層構造生成部１２は、当該一方の名称と組み合わせを形成している他の名称を新たなクラスの名称とし、当該一方の名称と当該他の名称との上下関係に基づいて、当該新たなクラスが追加された階層構造を生成してもよい。例えば、図７を参照すると、既存クラスである「Ｃａｒ」クラスの上位クラスとして「Ｖｅｈｉｃｌｅ」クラスが追加されている。なお、図７には、追加クラスが塗りつぶしのあるクラスとして示されている。

階層構造生成部１２は、二つの追加クラスの名称の組み合わせと一致または類似する組み合わせが、辞書データに登録されている場合、当該二つの追加クラス同士が上下関係にあると特定してもよい。例えば、図７を参照すると、二つの追加クラスである「Ｆｏｒｅｇｒｏｕｎｄ」クラスおよび「Ｖｅｈｉｃｌｅ」クラスが、上下関係にあると特定されている。なお、このようにして生成される階層構造６０（図７）は、層Ｌ１～Ｌ５によって形成されている。層Ｌ１～Ｌ５それぞれは、同一のクラスを上位クラスとするクラスの集合である。

階層構造生成部１２は、新たなクラスを追加した場合、当該新たなクラスの追加に基づいて、データ部１１から入力されたニューラルネットワークを変換する。図６には、追加クラスとして、「Ｆｏｒｅｇｒｏｕｎｄ」クラス、「Ｖｅｈｉｃｌｅ」クラス、「Ｍｏｔｏｒｉｓｔ」クラスおよび「Ｃｙｃｌｉｓｔ」クラスなどが存在している。これらの追加クラスと既存クラスが、変換後のニューラルネットワークによって識別可能なクラス群に該当する。

階層構造生成部１２は、これらの追加クラスに対応するノードを新たなクラスに対応するノードとして、出力層に追加する。図６では、出力層の追加クラスに対応するノードは、塗りつぶしのあるノードとして示されている。なお、既存クラスとクラス識別タスクＮ２１との間と同様に、追加クラスとクラス識別タスクＮ２１との間にも結合（図６では、破線の線分）が形成される。

階層構造生成部１２は、変換後のニューラルネットワーク（第２のニューラルネットワーク）を学習部１３に出力する。なお、階層構造生成部１２は、データ部１１から入力されたニューラルネットワーク（第１のニューラルネットワーク）を変換しなかった場合には（すなわち、新たなクラスの追加を行わなかった場合には）、データ部１１から入力されたニューラルネットワークをそのまま学習部１３に出力すればよい。また、階層構造生成部１２は、生成した階層構造６０を学習部１３に出力する。

（学習部１３）
学習部１３は、学習処理（すなわち、学習用データセットに基づくニューラルネットワークの重みパラメータの更新）を行うに先立って、非排他的に識別する学習を行う技術（シグモイド活性）のための置換を、階層構造生成部１２から入力されたニューラルネットワークに対して施す。また、学習部１３は、学習処理を行うに先立って、非排他的な教師データを学習に用いる技術（ラベルスムージング）のための変換をデータ部１１から入力された教師データに対して施す。

図８は、ニューラルネットワークの置換および教師データの変換の概要について説明するための図である。ここでは、階層構造６０（図７）のうち、層Ｌ３に主に着目する。また、階層構造生成部１２から入力されたニューラルネットワークの出力層のノードのうち、層Ｌ３を構成する各クラス（「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラスおよび「Ｂｕｓ」クラス）に対応するノードに主に着目する。

（ニューラルネットワークの置換）
図８を参照すると、学習用データセットに含まれる訓練データの例として、訓練画像４０が示されている。訓練画像４０に写る物体が属するクラスは、「Ｔｒｕｃｋ」クラスである。階層構造生成部１２から入力されたニューラルネットワークに対して訓練画像４０の入力が行われたとすると、訓練画像４０に対応してニューラルネットワークの出力層のノードにおいて計算された結果は、ロジット（Ｌｏｇｉｔｓ）Ｃ１０に示されるようになる。ただし、ロジットＣ１０は、出力層のノードへの入力と重みおよびバイアスとに基づく計算結果であり、活性化関数が適用される前の計算結果である。

ここで、ニューラルネットワークの出力層における活性化関数としては、ソフトマックス関数Ｃ１１が導入されている。しかし、ロジットＣ１０に対してソフトマックス関数Ｃ１１が適用された場合には、ニューラルネットワークからの出力は、一例として出力データＣ１２に示される通りになる。すなわち、ロジットが最も大きい「Ｃａｒ」クラスに対応するノードからの出力値と、ロジットが２番目以降に大きいクラスである「Ｔｒｕｃｋ」および「Ｂｕｓ」クラスそれぞれに対応するノードからの出力値との間の差分が大きくなってしまう。このように出力値の差分が大きくなってしまうことは、排他的に識別する学習が行われてしまうことに繋がり得る。

そこで、学習部１３は、ニューラルネットワークに含まれるソフトマックス関数Ｃ１１をシグモイド関数Ｅ１１に置換する。より詳細に、ニューラルネットワークの出力層の既存クラスに対応するノードには、活性化関数としてソフトマックス関数Ｃ１１が導入されている。そこで、学習部１３は、ニューラルネットワークの出力層の既存クラスに対応するノードに導入されているソフトマックス関数Ｃ１１をシグモイド関数Ｅ１１に変換する。

一方、ニューラルネットワークの出力層の追加クラスに対応するノードには、活性化関数がまだ導入されていない。そこで、学習部１３は、ニューラルネットワークの出力層の追加クラスに対応するノードの活性化関数としてシグモイド関数Ｅ１１を導入する。

以下では、既存クラスに対応するノードに導入されているソフトマックス関数Ｃ１１がシグモイド関数Ｅ１１に変換され、追加クラスに対応するノードの活性化関数としてシグモイド関数Ｅ１１が導入された後のニューラルネットワークを「置換後のニューラルネットワーク」とも言う。ただし、階層構造生成部１２によって新たなクラスの追加が行われなかった場合には、既存クラスに対応するノードに導入されているソフトマックス関数Ｃ１１がシグモイド関数Ｅ１１に変換された後のニューラルネットワークを「置換後のニューラルネットワーク」とも言う。

ロジットＣ１０に対してシグモイド関数Ｅ１１が適用された場合には、ニューラルネットワークからの出力は、一例として出力データＥ１２に示される通りになる。すなわち、ロジットが最も大きい「Ｃａｒ」クラスに対応するノードからの出力値と、ロジットが２番目以降に大きいクラスである「Ｔｒｕｃｋ」および「Ｂｕｓ」クラスそれぞれに対応するノードからの出力値との間の差分が小さくなる。このように出力値の差分が小さくなることは、非排他的に識別する学習が行われることに繋がり得る。

図９は、ニューラルネットワークの修正量をニューラルネットワークの置換前後において比較して示す図である。図９を参照すると、正解クラスを「Ｔｒｕｃｋ」とする教師データに対応する訓練データＡの例として、訓練画像４０Ａが示されている。また、正解クラスを「Ｃａｒ」とする教師データに対応する訓練データＢの例として、訓練画像４０Ｂが示されている。

修正量Ｃ１３は、訓練データＡを用いた学習による置換前のニューラルネットワークの修正量である。一方、修正量Ｅ１３は、訓練データＡを用いた学習による置換後のニューラルネットワークの修正量である。また、修正量Ｃ１４は、訓練データＢを用いた学習による置換前のニューラルネットワークの修正量である。一方、修正量Ｅ１４は、訓練データＢを用いた学習による置換後のニューラルネットワークの修正量である。

なお、図９に示された「＋ｖｅ」は、「Ｐｏｓｉｔｉｖｅ」の略であり、そのクラスへの識別が行われやすくなる方向へのニューラルネットワークの修正を示す。一方、図９に示された「－ｖｅ」は、「Ｎｅｇａｔｉｖｅ」の略であり、そのクラスへの識別が行われにくくなる方向へのニューラルネットワークの修正を示す。

修正量Ｃ１３、Ｃ１４を参照すると、置換前のニューラルネットワークでは、正解クラスへの識別が行われやすくなる方向へのニューラルネットワークの修正が行われる他、正解クラス以外のクラスへの識別が行われにくくなる方向へのニューラルネットワークの修正が行われることが把握される。すなわち、置換前のニューラルネットワークでは、排他的なクラス識別の学習が行われることが把握される。

一方、修正量Ｅ１３、Ｅ１４を参照すると、置換後のニューラルネットワークでは、正解クラスへの識別が行われやすくなる方向へのニューラルネットワークの修正のみが行われることが把握される。すなわち、置換後のニューラルネットワークでは、非排他的なクラス識別の学習が行われることが把握される。

（教師データの変換）
図８に戻って説明を続ける。図８を参照すると、教師データの例として、教師データＣ２０が示されている。教師データＣ２０は、正解クラスである「Ｔｒｕｃｋ」クラスに対応する要素の値として「１」が設定され、正解クラス以外のクラスである「Ｃａｒ」クラスおよび「Ｂｕｓ」クラスそれぞれに対応する要素の値として「０」が設定されたベクトル（Ｏｎｅ－ｈｏｔ表現）によって示される。

学習部１３は、正解クラスである「Ｔｒｕｃｋ」クラスに対応する要素の値「１」と、正解クラス「Ｔｒｕｃｋ」が属する層と同一の層Ｌ３（図７）に属する正解クラス以外のクラスである「Ｃａｒ」クラスおよび「Ｂｕｓ」クラスそれぞれに対応する要素の値とを近づける変換を行う。これによって、非排他的な教師データが学習に用いられるようになる。

例えば、学習部１３は、正解クラスに対応する要素の値「１」から所定の値λだけ減算してもよい。このとき、学習部１３は、正解クラスが属する層と同一の層に属する正解クラス以外のクラスの個数Ｎで除して得られる結果「λ／Ｎ」を、当該正解クラス以外のクラスに対応する要素の値「０」それぞれに加算してもよい。

図８に示された例では、λ＝０．４であり、正解クラス以外のクラスの個数Ｎ＝２である場合が想定されている。そのため、正解クラスである「Ｔｒｕｃｋ」クラスに対応する要素の値が「１－λ」＝「１－０．４」＝「０．６」となり、正解クラス以外のクラスである「Ｃａｒ」クラスおよび「Ｂｕｓ」クラスそれぞれに対応する要素の値が「０＋λ／Ｎ」＝「０＋０．４／２」＝「０．２」となっている。

図１０は、変換後の教師データが学習に用いられる場合について説明するための図である。一方、図１１は、変換前の教師データが学習に用いられる場合について説明するための図である。

図１０を参照すると、変換前の教師データが学習に用いられる場合における訓練データの特徴量の変化が特徴空間７１に示されている。図１１を参照すると、変換後の教師データが学習に用いられる場合における訓練データの特徴量の変化が特徴空間７２に示されている。

特徴空間７１および特徴空間７２において、正解クラスが「Ｃａｒ」クラスである訓練データの特徴量が濃いドットによって示され、正解クラスが「Ｔｒｕｃｋ」クラスである訓練データの特徴量が中程度の濃さのドットによって示され、正解クラスが「Ｂｕｓ」クラスである訓練データの特徴量が薄いドットによって示されている。

変換前の教師データが学習に用いられる場合においては、それぞれの正解クラスの訓練データに基づく学習が、特徴空間７２（図１１）における特徴量同士の距離Ｄ２１～Ｄ２３があまり大きく離れないように行われる。そのため、「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラスおよび「Ｂｕｓ」クラスの上位クラスに該当する「Ｖｅｈｉｃｌｅ」へのクラス識別が行われにくく、クラス識別の精度が向上しないことが把握される。

一方、変換後の教師データが学習に用いられる場合においては、それぞれの正解クラスの訓練データに基づく学習が、特徴空間７１（図１０）における特徴量同士の距離Ｄ１１～Ｄ１３がより大きく離れるように行われる。そのため、「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラスおよび「Ｂｕｓ」クラスの上位クラスに該当する「Ｖｅｈｉｃｌｅ」へのクラス識別が行われやすく、クラス識別の精度が向上することが把握される。

（学習処理）
図８に戻って説明を続ける。学習部１３は、変換後の教師データと、置換後のニューラルネットワークから訓練データに対応して出力される出力データと、階層構造生成部１２から入力された階層構造６０（図７）とに基づいて、層ごとに誤差を算出する。ここでは、学習部１３が誤差の例として、交差エントロピー誤差Ｃ３０を用いる場合を想定する。しかし、学習部１３によって用いられる誤差は、交差エントロピー誤差に限定されない。例えば、ａを層の番号とした場合、層Ｌａのエントロピー誤差Ｌｏｓｓ_Ｌａは、下記の式（１）のように表現され得る。

ただし、ｎは、その層を構成するクラス数を示し、ｋは、その層を構成するクラスの番号を示す。ｔ_ｋは、変換後の教師データのうちクラスｋに対応する要素の値である。Ｐ（ｘ_ｋ）は、置換後のニューラルネットワークの出力層のノードのうち、その層を構成するｎ個のクラスに対応するノードの出力値の合計に対するクラスｋに対応するノードの出力値の割合（確率）を示す。すなわち、Ｐ（ｘ_ｋ）は、層単位でのクラスｋの信頼度に該当する。

学習部１３は、層ごとの交差エントロピー誤差の合計を損失関数として、置換後のニューラルネットワークの学習処理を行う。一例として、層ごとの交差エントロピー誤差の合計は、層ごとの交差エントロピー誤差の重み付け和であってよい。例えば、層Ｌａの重みをα_ａとした場合、層ごとの交差エントロピー誤差の重み付け和Ｌｏｓｓは、下記の式（２）のように表現され得る。

ただし、ｍは、層の数を示す。例えば、学習部１３は、損失関数Ｌｏｓｓに基づく誤差逆伝播法（バックプロパゲーション）などを用いて、置換後のニューラルネットワークの学習処理を行う。これによって、学習用データセットに適応するように置換後のニューラルネットワークの重みが調整される。

学習部１３は、損失関数Ｌｏｓｓが収束したと判定した場合には、置換後のニューラルネットワークの学習処理を終了する。例えば、損失関数Ｌｏｓｓまたはその変化が閾値よりも小さくなった場合に、損失関数Ｌｏｓｓが収束したと判定されてもよい。学習済みのニューラルネットワークは、推論部１４に出力される。

なお、学習部１３は、変換後の教師データと、置換後のニューラルネットワークとを学習に用いられる場合を主に想定した。しかし、教師データの変換およびニューラルネットワークの置換の一方のみが行われる場合も想定される（すなわち、階層的なクラス識別に、シグモイド活性およびラベルスムージングの一方のみが適用される場合も想定される）。

例えば、学習部１３は、教師データの変換のみを行う場合、データ部１１から入力される教師データそのものを学習に用いてもよい。また、学習部１３は、ニューラルネットワークの置換のみを行う場合、階層構造生成部１２から入力されるニューラルネットワークそのものを学習に用いてもよい。

（推論部１４）
推論部１４は、学習部１３から入力される学習済みのニューラルネットワークを取得し、学習済みのニューラルネットワークからテストデータに対応して出力される出力データと、階層構造生成部１２によって生成された階層構造６０（図７）とに基づいて、テストデータが属するクラスの識別処理を行う。

より詳細に、推論部１４は、テストデータに対応する出力データと階層構造６０とに基づいて、学習済みのニューラルネットワークによって識別可能なクラス群を構成するクラス全体に対応するノードの出力値の合計に対する各クラスに対応するノードの出力値の割合（確率）を算出する。かかる確率は、クラス全体に対するクラスの信頼度に該当する。

クラス全体に対するクラスの信頼度は、どのようにして算出されてもよい。一例として、推論部１４は、層単位でのクラスの信頼度に基づいて、クラス全体に対するクラスの信頼度を算出してもよい。例えば、推論部１４は、クラス全体に対するクラスｋの信頼度を、階層構造６０において最上位のクラスを起点としてクラスｋに到達するまでに通過する各クラスの層単位での信頼度の積によって算出してもよい。

一例として、推論部１４は、クラス全体に対する「Ｃａｒ」クラスの信頼度を、層単位での「Ｆｏｒｅｇｒｏｕｎｄ」クラスの信頼度と、層単位での「Ｖｅｈｉｃｌｅ」クラスの信頼度と、層単位での「Ｃａｒ」クラスの信頼度との積によって算出し得る。

そして、推論部１４は、クラス全体における各クラスの信頼度に基づいてクラスの識別処理を行う。各クラスの信頼度に基づくクラスの識別は、どのように行われてもよい。一例として、推論部１４は、層に対応する第１の閾値よりも信頼度が高いクラスが存在するか否かに応じて、クラスの識別を行ってもよい。推論部１４は、クラスの識別結果を出力する。

例えば、推論部１４は、層に対応する第１の閾値よりも信頼度が高いクラスが存在する場合には、そのクラスを識別結果としてもよい。一例として、推論部１４は、層Ｌ３に属する「Ｃａｒ」クラスの信頼度が第１の閾値よりも高い場合に、「Ｃａｒ」クラスを識別結果としてもよい。

一方、推論部１４は、層に対応する第１の閾値よりも信頼度が高いクラスがその層に１つも存在しない場合、かつ、その層に属するクラスの上位クラスの信頼度が第２の閾値よりも高い場合には、当該上位クラスを識別結果としてもよい。一例として、推論部１４は、層Ｌ３に属する「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラスおよび「Ｂｕｓ」クラスのいずれも第１の閾値以下である場合、かつ、これらのクラスの上位クラスである「Ｖｅｈｉｃｌｅ」クラスの信頼度が第２の閾値よりも高い場合に、上位クラスである「Ｖｅｈｉｃｌｅ」クラスを識別結果としてもよい。

（１－３．効果の説明）
上記では、非排他的に識別する学習を行う技術を階層的なクラス識別に適用する技術について説明した。特に上記では、非排他的に識別する学習を行う技術の例として、「シグモイド活性」という技術を用いる場合について主に説明した。かかる構成によれば、排他的なクラス識別が適さない場合に過学習が行われてしまう可能性が低減されるため、クラス識別の精度を向上させることが可能である。

さらに、非排他的な教師データを学習に用いる技術を階層的なクラス識別に適用する技術についても説明した。特に上記では、非排他的な教師データを学習に用いる技術の例として、「ラベルスムージング」という技術を用いる場合について主に説明した。かかる構成によれば、排他的なクラス識別が適さない場合に過学習が行われてしまう可能性が低減されるため、クラス識別の精度を向上させることが可能である。

より詳細に、排他的なクラス識別が適さない場合の例としては、上記したように、アノテーションに誤りが存在する場合、および、画像に写る物体が属するクラスが曖昧である場合などが挙げられる。このように排他的なクラス識別が適さない場合に、本発明の実施形態によれば、具体的なクラス（例えば、「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラスおよび「Ｂｕｓ」クラスなど）ではなく、抽象的なクラス（例えば、「Ｖｅｈｉｃｌｅ」クラスなど）が識別結果とされやすくなる。

すなわち、本発明の実施形態に係るクラス識別システム１は、アノテーションに誤りが存在する場合、および、画像に写る物体が属するクラスが曖昧である場合などに対して、頑健なクラス識別が可能なシステムであると言える。

（２．各種の変形例）
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

上記した例では、クラス識別システム１が、画像に写る物体が属するクラスとして、車両のクラス（例えば、「Ｃａｒ」クラス、「Ｔｒｕｃｋ」クラス、「Ｂｕｓ」クラスおよび「Ｖｅｈｉｃｌｅ」クラスなど）を識別する例について主に説明した。しかし、クラス識別システム１は、画像に写る物体が属するクラスとして、車両以外のクラスを識別することも可能である。例えば、クラス識別システム１は、画像に写る物体が属するクラスとして、人物のクラス（例えば、「Ｐｅｄｅｓｔｒｉａｎ」クラス、「Ｒｉｄｅｒ」クラスおよび「Ｍｏｔｏｒｉｓｔ」クラス）などといった他の物体クラスを識別することも可能である。

上記したように、学習済みのニューラルネットワークは、２段階検出器Ｎ１（図１）となり得る。あるいは、学習済みのニューラルネットワークは、１段階検出器Ｎ２（図１）となり得る。すなわち、本発明の実施形態においては、ニューラルネットワークのアーキテクチャとして、２段階検出器Ｎ１（図１）または１段階検出器Ｎ２（図１）などといった一般的な検出器が利用され得る。

（３．ハードウェア構成例）
続いて、本発明の実施形態に係るクラス識別システム１のハードウェア構成例について説明する。以下では、本発明の実施形態に係るクラス識別システム１のハードウェア構成例として、情報処理装置９００のハードウェア構成例について説明する。なお、以下に説明する情報処理装置９００のハードウェア構成例は、クラス識別システム１のハードウェア構成の一例に過ぎない。したがって、クラス識別システム１のハードウェア構成は、以下に説明する情報処理装置９００のハードウェア構成から不要な構成が削除されてもよいし、新たな構成が追加されてもよい。

図１２は、本発明の実施形態に係るクラス識別システム１の例としての情報処理装置９００のハードウェア構成を示す図である。情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３と、ホストバス９０４と、ブリッジ９０５と、外部バス９０６と、インタフェース９０７と、入力装置９０８と、出力装置９０９と、ストレージ装置９１０と、通信装置９１１と、を備える。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバス等から構成されるホストバス９０４により相互に接続されている。

ホストバス９０４は、ブリッジ９０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バス等の外部バス９０６に接続されている。なお、必ずしもホストバス９０４、ブリッジ９０５および外部バス９０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバー等ユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路等から構成されている。情報処理装置９００を操作するユーザは、この入力装置９０８を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置、ランプ等の表示装置およびスピーカ等の音声出力装置を含む。

ストレージ装置９１０は、データ格納用の装置である。ストレージ装置９１０は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含んでもよい。ストレージ装置９１０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）で構成される。このストレージ装置９１０は、ハードディスクを駆動し、ＣＰＵ９０１が実行するプログラムや各種データを格納する。

通信装置９１１は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置９１１は、無線通信または有線通信のどちらに対応してもよい。

以上、本発明の実施形態に係るクラス識別システム１のハードウェア構成例について説明した。

１クラス識別システム
１１データ部
１２階層構造生成部
１３学習部
１４推論部
６０階層構造

Claims

第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成する階層構造生成部と、
訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行う学習部と、
を備える、学習装置。
前記階層構造生成部は、前記クラス同士が上下関係を有さない場合に、第１のクラス群を構成するクラスの上位クラスまたは下位クラスが追加された第２のクラス群を構成するクラス同士の上下関係を示す第２の階層構造を生成するとともに、前記上位クラスまたは下位クラスの追加に基づいて、前記上位クラスまたは下位クラスに対応する要素を前記第１の教師データに追加して第２の教師データを得るとともに、前記第１のニューラルネットワークを第２のニューラルネットワークに変換し、
前記学習部は、前記第２の教師データと前記第２の階層構造とに基づいて、前記第２の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第２の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第２の教師データと、前記第２のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとの誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第２のニューラルネットワークの学習処理を行う、
請求項１に記載の学習装置。
前記誤差は、交差エントロピー誤差である、
請求項１または２に記載の学習装置。
前記層ごとの誤差の合計は、前記層ごとの誤差の重み付け和である、
請求項１～３のいずれか一項に記載の学習装置。
第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成することと、
訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行うことと、
を備える、学習方法。
コンピュータを、
第１のニューラルネットワークによって識別可能な第１のクラス群を構成するクラスに関する情報に基づいて、前記第１のクラス群を構成するクラス同士が上下関係を有するかを判定し、前記クラス同士が上下関係を有する場合に、前記上下関係を示す第１の階層構造を生成する階層構造生成部と、
訓練データに対応する第１の教師データと前記第１の階層構造とに基づいて、前記第１の教師データのうち正解クラスが属する層と同一の層を特定し、前記正解クラスに対応する要素の値と前記同一の層に属する前記正解クラス以外のクラスに対応する要素の値とを近づける変換を行い、前記第１の階層構造に基づいて、同一のクラスを上位クラスとするクラスの集合である層を特定し、変換後の第１の教師データと、前記第１のニューラルネットワークから前記訓練データに対応して出力される出力データとに基づいて、前記層ごとに誤差を算出し、算出した層ごとの誤差の合計を損失関数として、前記第１のニューラルネットワークの学習処理を行う学習部と、
を備える学習装置として機能させる学習プログラム。