JP2021012595A

JP2021012595A - 情報処理装置、情報処理装置の制御方法、および、プログラム

Info

Publication number: JP2021012595A
Application number: JP2019127079A
Authority: JP
Inventors: 康生片野; Yasuo Katano
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-02-04

Abstract

【課題】人工的に生成されたデータを用いて学習を行った場合でも認識性能の低下を抑えることを可能とする。【解決手段】情報処理装置であって、第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから、特徴量を抽出する抽出手段と、抽出された前記特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する処理手段と、前記中間値から前記特徴量を復元する復元手段と、前記抽出された特徴量と前記復元された特徴量との間での損失を計算する計算手段と、前記損失を小さくするように前記変換のための変換パラメータを更新する更新手段とを備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理装置の制御方法、および、プログラムに関する。

近年のdeep learning技術において学習データの量は、その性能に大きな影響を与える重要な要素となっている。よって、対象となるターゲットに対して大規模なデータセットを生成可能な環境を有することが重要である。

データセットの収集に関しては、二つの課題が考えらえる。一つ目は、データセットのバリエーションを維持しつつ大量に用意することが困難ということである。例えば、映像中から顔を認識する場合、人種、髪型、性別、表情、カメラアングル、照明条件等、多くの項目についてそれぞれバリエーションを用意する必要がある。このようなデータセットを作成することの負荷は、非常に大きな課題である。

二つ目は、データセットに対して顔画像領域を示す矩形や、顔の各器官の位置、表情や照明条件等のタグ情報を付与する作業の負担が大きいということである。データセットに対して、教師あり学習の場合、正解データを与える必要がある。しかし、カメラなどで撮影された画像等の場合、そのタグを自動で付与することは困難で、多くの場合、手動でその作業が行われている。

そこで、画像・音声などのデータの内容を認識する認識器を学習する際に、人工データをその学習データに使用することがある。特許文献１は、人間の顔の検出器を学習するために照明条件を変動させた多数の顔画像をコンピュータグラフィックス（以後CG）によって生成して、これを学習データとしている。また非特許文献１、非特許文献２に見られるように、CGによるデータセットを公開して認識技術の検討に使用する動きがみられるようになってきている。

学習データを人工的に生成することによって、実際に画像を撮影するのに比べて多くのバリエーションを簡易に用意することができる。また、人工的に生成する場合、実写では必要となるタグ付与の手間を省くことができるという利点もある。

このように、学習データを自動で作成・タグ付けすることによって、簡易に大量の学習用データを獲得することが可能となる。

特開2016-62225号公報特開2016-110635号公報

German Ros、 Laura Sellart、 Joanna Materzynska、 David Vazquez、 Antonio M. Lopez、 "The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes"、 in CVPR、 2016 Qiao Wang、 Yohann Cabon、 Eleonora Vig、 "Virtual Worlds as Proxy for Multi-Object Tracking Analysis Adrien Gaidon"、 CVPR2016 J. Marin et al. 、 "Learning Appearance in Virtual Scenarios for Pedestrian Detection"、 CVPR、 2010 Li、 Mu、 et al. "Efficient mini-batch training for stochastic optimization." Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM、 2014 Girshick R.、 Shotton J.、 Kohli P.、 Criminisi A.、 and Fitzgibbon A.、 "Efficient regression of general-activity human poses from depth images"、 Computer Vision (ICCV)、 2011 IEEE International Conference on、 415 -422、 2011 Dalal. N、 Triggs. B、 "Histograms of Oriented Gradients for Human Detection"、 IEEE CVPR、 pp. 886-893 (2005) Viola、 P and Jones、 M、"Rapid object detection using a boosted cascade of simple features"、 CVPR、vol.1、pp.511-518、 (2001) Geoffrey E. Hinton; R. R. Salakhutdinov (2006-07-28). "Reducing the Dimensionality of Data with Neural Networks". Science 313 (5786): 504-507

しかし、上記のようにして生成したCGによる学習データを実写のデータベースに混入して学習を行った場合、CG固有の画質などの特徴の影響を受け、入力を実写にした場合のテストにおいて認識性能が落ちてしまうことが知られている（非特許文献３）。これは、人工データは、現実世界をシミュレートしたデータであり、多くの情報は現実を再現しているが、すべてを再現しているわけではなく情報の欠損が生じるために起こりうる。

また、CGによる学習データによる学習結果を用いて認識する対象が、カメラなどで取得した実写画像である場合、当該実写画像はCG的特徴を持たない。よって、CG特有の特徴を強く学習してしまった学習装置では、認識に失敗しやすく認識性能が低下するという課題があった。

そこで、本発明は、人工的に生成されたデータを用いて学習を行った場合でも認識性能の低下を抑えることを可能とする技術を提供する。

上記課題を解決するための発明は、情報処理装置であって、
第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから、特徴量を抽出する抽出手段と、
抽出された前記特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する処理手段と、
前記中間値から前記特徴量を復元する復元手段と、
前記抽出された特徴量と前記復元された特徴量との間での損失を計算する計算手段と、
前記損失を小さくするように前記変換のための変換パラメータを更新する更新手段と
を備え、
前記損失には、前記第１のデータの前記復元された特徴量に基づく第１の分布と、前記第２のデータの前記復元された特徴量に基づく第２の分布との比較結果に応じた値が含まれ、
前記更新手段は、前記損失を小さくすることにより前記第１の分布と前記第２の分布との類似度をより近づけるように、前記変換パラメータを更新する。

本発明によれば、人工的に生成されたデータを用いて学習を行った場合でも認識性能の低下を抑えることが可能となる。

実施形態に対応する情報処理装置１００の構成例を示す図。実施形態におけるニューラルネットワーク模式図。実施形態における処理の一例を示すフローチャート。他の実施形態におけるニューラルネットワーク模式図。他の実施形態における処理の一例を示すフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［実施形態１］
以下、図を用いて本発明の実施形態について説明する。本実施形態で扱うデータは、撮像装置或いはカメラ等の画像取得装置により現実に撮影され、生成された画像（実写画像）を例として説明を行う。しかし、実施形態は実写画像に限定されるものではない。例えば、マイク等の音声取得装置により現実に取得された音声データや、その他の所定の情報を取得するためのセンサにより取得されたデータであってもかまわない。

また、本実施形態では、認識処理の出力ターゲットとして所定の物体（例えば人間の顔、自動車、標識など）の画像における存在の有無の結果として出力する例を説明するが、実施形態はこれに限定されるものではない。例えば、静止画像や動画像について、何らかの評価値（行動認識、笑顔度、年齢など）を出力するような認識器であってもよい。また、本実施形態では、認識対象のことを「ターゲット」と呼ぶこととする。

実施形態１では、AutoEncoderという入力を復元する低次元の中間表現を獲得する構造を持ったニューラルネット（非特許文献８）を用いる場合について述べる。図１は実施形態１に対応する情報処理装置１００の構成の一例を示す図である。

情報処理装置１００は、ＣＰＵ１０１、入力装置１０２、出力装置１０３、メモリ１１０、メモリ１２０がバス１０４に接続されて構成されている。ＣＰＵ１０１は、メモリ１１０に記憶された各種プログラムを実行することで、情報処理装置１００の全体的な動作を制御すると共に、発明の実施形態に対応する処理を実行する。

入力装置１０２は、マウスやキーボード、および、撮影装置（撮像装置、デジタルカメラ、ビデオカメラ等）などの入力装置である。ユーザーは、入力装置１０２を介して情報処理装置１００に対して指示を入力したり、画像データ、音声データ、センサデータを入力することができる。出力装置１０３は、例えばディスプレイやプリンタであって、処理結果のテキストやグラフ、画像等を表示したり印刷したりすることで出力する。また、計算結果を表示するためにも使用される。

メモリ１１０と１２０はそれぞれプログラムを格納するメモリとデータを格納するメモリである。この２つは便宜上区別して説明しているだけであり、一体的に構成されてもかまわない。メモリ１２０には、認識学習を行うために必要な学習用データ１３０が事前に格納されている。学習用データ１３０は、所定のターゲットを学習するための学習データであり、認識するためのターゲットは共通であるが複数のデータ特性が混合されて格納されている。

ここでデータ特性とは、学習用データ１３０を生成する際のデータの生成条件に基づく概念であり、本実施形態では第１特性と第２特性とがある。第１特性データ１３１は、実物をカメラで撮影するなどして生成された実写画像データである。また第２特性データは、CGによって人工的に生成されCG画像（人工データ）である。メモリ１２０には、学習に必要な量のこれらの画像が記憶されているものとする。

ここでターゲットを顔画像とし、入力装置１０２としての撮影装置により撮影された画像から顔画像を認識する場合、第１特性データ１３１は複数の実在の人物をカメラで撮影した実写の顔画像であり、第２特性データ１３２はCG作成ソフトによって人工的にレンダリングされた顔画像となる。これらは生成条件により生成時に実写データと人工データが異なることが明確なため、データ上で区別することは容易である。例えば、ファイル名等に専用の修飾子を付与することで、学習用データ１３０内で混合されていても容易に分離することが可能である。

人工データは、一度シミュレーション環境を構築してしまえば、CGソフト上でカメラアングル、レンダリングクオリティ、色味、被写界深度などのパラメータを制御することで大量のバリエーションを生成することが可能である。また、３次元データを変形、テクスチャデータの変更などによって肌の色、髪型、表情など大量のバリエーションを生成することも可能である。そのため、実写による学習データである第１特性データ１３１が、バリエーションの異なるデータを大量に収集するのが困難であるのに対して、第２特性データ１３２は、シミュレーションによってバリエーションの異なるデータを大量に生成可能である。

しかし、あくまでもシミュレーションによって作成されたデータであり、完全に現実を模擬したものではない。むしろ、ＣＧ特有の特徴が含まれている。例えば、ノイズのない均一な領域、彩度が非常に高い色、単純な照明モデルによる整いすぎたグラデーションなどである。よって、第１特性データと第２特性データとの間に微小な乖離が生ずる。また、人間も、CGデータと実写データに微妙な差異を感じることがある。これは「不気味の谷」と呼ばれる現象で、シミュレーションによるレンダリング時の画質の違いやカメラモデルの表現不足などを人間が敏感に知覚してしまう現象である。一方、CGを生成する際に使用する形状データをデジタル３次元スキャナなどで計測したデータなどの場合、その形状は実在の人物の形状と同じもので、そのような形状データと実写を人間が区別することは難しい。たとえ人間がＣＧと実写との差が気にならなかったり、大差ないように感じたりしたとしても、微小な乖離は認識学習に影響を及ぼすことがあり、大量に人工データを混入させた学習データ１３０ではＣＴ固有の特性を学習してしまう。また、ＣＧと実写画像との間になんらかの統計的な差異が存在すれば、その特徴に反応するように学習されてしまう。

そして、実応用において識別処理を行う場合、入力装置１０２から入力されるデータは通常は実写データである。しかし、学習時において第２特性データ１３２を混合した学習用データ１３０を用いた認識装置では第１特性データ１３１と第２特性データ１３２との乖離を含めた学習を行ってしまう可能性がある。そのため第２特性データ１３２を混入したことによって入力された実写データの認識性能が低下してしまうおそれがある。

また、学習用データ１３０の個々のデータには、ターゲットに関するタグ情報があらかじめ付与されている。このタグ情報とは、例えば認識したいターゲットがヒトの顔である場合には、画像中にヒトの顔が写っているか否かを表す２クラスの教師値である。これは前述のデータ特性とは異なり画像の内容に応じて付与されたタグであり、例えば顔画像であれば０、顔でない画像であれば１というようにタグを付与する。但し、タグ情報は２クラスのタグにのみ限定されるものではなく、複数の認識対象を表す複数の値を持つものや実数値、ベクトル値であっても良い。

また、タグ情報は人物が写っているか否かだけではなく、その画像上の矩形領域や目・鼻などの各器官の情報、表情や性別の情報などが含まれていてもよい。データとタグ情報を関連付ける方法は、例えばデータのファイル名とタグ情報との参照テーブルとを作成し、参照テーブルをメモリ１２０中のデータと同じ場所に格納するなどすれば良い。

また、本実施形態では第２特性データ１３２の人工データとしてＣＧにより人工的に生成した顔画像を用いたが、本実施形態はこれに限定するものではない。例えば、音声合成システムによって人工的に生成した音声データや、センサ値などをシミュレーションによって人工的に生成したデータなど、第１特性データ１３１の実物データを模して生成されたデータであればいずれにも適用可能である。

メモリ１２０には更に、特徴量データ１４０が格納されている。特徴量データ１４０とは、学習時に学習用データ１３０から特徴抽出処理によって抽出された特徴量をいう。本実施形態における特徴量とは、一般的な顔認識アルゴリズムにおいて使用されるＨＯＧ特徴（非特許文献６）や、Haar-Like特徴（非特許文献７）等に加えて、ＣＮＮ（Convolutional Neural Network）などニューラルネットワークによって抽出された特徴量でも良い。
メモリ１２０には更に、ニューラルネットワークデータ１５０が格納されている。ニューラルネットワークデータ１５０とは、ニューラルネットワークの構造データ１５１や中間表現データ１５２を格納したものである。構造データ１５１とは、ネットワークの中間層の数、各中間層のユニット（ニューロン）数や各ユニットの結合構造を記載したものである。中間表現データ１５２とは、ニューラルネットワークが学習によって獲得するパラメータで、ネットワーク間の結合重みやバイアス値などのことである。これらは以下で説明する中間表現獲得処理および中間表現更新処理によって学習・更新された後、メモリ１２０に格納される。

メモリ１１０には、上記中間表現データを獲得するために必要な処理を実行するためのプログラムが格納されている。ＣＰＵ１０１は、各プログラムを実行することにより、本実施形態に対応する処理を実行することができる。

以下に、本実施形態における全体の処理の一例について説明する。図２には、本実施形態におけるニューラルネットワークデータ１５０における構造データ１５１の模式図を示す。

ニューラルネットワーク２００は、構造データ１５１によって記述された構造に従い、第１ノード２０１、第２ノード２０２、第３ノード２０３、第４ノード２０４の４層で構成される。第１ノード２０１と第２ノード２０２との間で特徴層２１０が構成され、第２ノード２０２と第３ノード２０３との間でEncode層２２０が構成され、第３ノード２０３と第４ノード２０４との間でDecode層２４０が構成される。

本実施形態ではEncode層(符号化層)２２０とDecode層（復号層）２４０とでAutoEncoder（非特許文献８）を構成しており、AutoEncoderの入力となる第２ノード２０２への入力と、Decode層２４０の出力となる第４ノード２０４で復元された入力との誤差が小さくなるようにEncode層２２０における入力を中間値に変換（処理、或いは、圧縮ともいう）する際の変換パラメータ（各ニューロン間の結合重みＷ、バイアス項ｂ）を獲得する。このとき、中間表現２３０（本実施形態では第３ノード２０３の状態）のニューロン数が入力ユニットである第２ノード２０２より少ない場合、情報を圧縮した表現を獲得することができる。Encode層２２０における変換式を以下に示す。

ｙ＝ｓ(Ｗｘ＋ｂ)・・・（式１）
ここで、xがencode層２２０の入力（第２ノード２０２）を示し、yはEncode層２２０の出力（中間値）である第３ノード２０３の状態を示す。s()はsigmoid関数でＷとｂはそれぞれ結合重み項、バイアス項のパラメータとなる。Decode層２４０における復号（復元、或いは、逆変換）のための式は以下のようになる。

ｚ＝ｓ(Ｗ'ｙ＋ｂ')・・・（式２）
yは第３ノード２０３の状態、zはDecode層２４０の出力を示す。ここでdecode層２４０のパラメータであるＷ'にはＷの転置行列を用いて、中間値ｙから入力情報ｘを復元する。
ここでは説明のため、一般的なAutoEncoderの学習方法であるTied Weightな方法を用いてdecoder層２４０のパラメータＷ'を学習しない例を示したが、実施形態はこれに限定するものではなくuntied weightedな方法としてdecoder側の重み行列Ｗ'を学習によって求めてもよい。
AutoEncoderの目的は、入力ｘと出力ｚとの差をできるだけ小さくする（最小化する、或いは、収束させる）ことであり、そのために利用するxとz間の損失関数L_H(x、 z)には以下の交差エントロピーを用いる。

式３の損失関数を最小化するパラメータ（Ｗ、ｂ、ｂ'）を求めることで所望の中間表現２３０を獲得することができる。その際、第３ノード２０３のニューロン数がAutoEncoderの入力層である第２ノード２０２のニューロン数より少なければ、情報が圧縮され、入力情報より次元数の低い中間表現２３０によって入力情報を復元することが可能となる。ただし、このまま通常のAutoEncoderの構造では、中間表現２３０の圧縮された成分の中に、第１特性データ１３１と第２特性データ１３２の乖離を含めることはできない。

そこで、本実施形態では、第１特性データ１３１と第２特性データ１３２との乖離を最小にするような中間表現を獲得する方法を説明する。図３は、当該方法の一例を示すフローチャートである。当該フローチャートに対応する処理は、ＣＰＵ１０１がメモリ１２０に記憶されている各プログラムを実行することにより実現される。

まず、ＣＰＵ１０１は、Ｓ３０１にてメモリ１２０中の学習用データ１３０に記憶されているデータをニューラルネットワーク２００に対する入力であるデータ２９０としてロードする。データ２９０は、第１特性データ１３１もしくは第２特性データ１３２のデータのどちらのデータでも良い。また、最初にＳ３０１の処理を実行する場合は、後述するパラメータ更新処理を実行した繰り返し回数を表す変数Ｎを０に初期化する。続くS３０２では、ＣＰＵ１０１は、ニューラルネットワーク２００の特徴層２１０を通して、S３０１でロードしたデータから特徴量を抽出する。特徴層２１０は、データ２９０の特徴量に相当する特徴量ベクトルを第２ノード２０２へ出力する。図２では簡略化のために１層のみで表現されているが、複数の層より構成されていてもよい。また、ニューラルネットワークの構造が本実施形態ではMLP（Multi Layered Perceptron）の構成として記述されているがこれに限定するものではなく、例えば非特許文献１に記載があるような畳込みニューラルネットワーク（CNN）の構造であっても良い。本実施形態においては、ニューラルネットワークの構造そのものは公知のものを任意に採用することができる。さらに、本実施形態では、特徴量抽出処理について、ニューラルネットワーク２００の構造中にて特徴量抽出も行っている例について述べたが、実施形態はこれに限定されるものではなく、データ２９０からHOG特徴量やHaar-Like特徴量などを予め特徴量として抽出しておき、Ｓ３０２においてこれを第２ノード２０２に入力しても良い。

ＣＰＵ１０１は、Ｓ３０３において、抽出された特徴量ベクトルをメモリ１２０の特徴量データ１４０として格納する。これは、後段の入力情報を復元する処理により復元された復元特徴量ベクトルとの比較に用いられる。

続くＳ３０４では、ＣＰＵ１０１は、抽出された特徴量ベクトルに対して中間表現２３０を獲得するための処理を実行する。具体的には、Ｓ３０２で抽出された特徴量がEncode層２２０に入力され、特徴量の中間表現２３０が中間層に出力される。図２では、Encode層を１層で構成する場合を示しているが、この形態に限定されるものではなく複数層で構成されていても良い。また、中間表現２３０は、入力ユニットである第２ノード２０２のニューロン数よりも少ないため、中間表現２３０では情報の欠損が生ずるため、情報量の削減が可能となる。本実施形態では、一般的なAutoEncoderを例に中間表現２３０にてニューロン数を減少させた例を説明しているが、実施形態はAutoEncoderを用いるものに限定されることはなく、Sparse AutoEncoderのように中間表現２３０でのニューロン数を減少させず損失関数にスパース項を設けることで実質的に情報の欠損を発生させる方法を用いても良い。

続くS３０５では、S３０４で獲得した中間表現２３０、および、上述のパラメータ（Ｗ、ｂ、ｂ'）を用いて、入力された特徴量ベクトルを復元すべく、復元特徴量ベクトルを生成する。本実施形態では復元の方法に式２に示すtied weightな手法を用いて中間表現２３０を生成するのに用いたパラメータを使用する。また、untied weightな手法を用いてEncode層のパラメータとDecode層のパラメータとを両方学習しても良い。

続くS３０６では、ＣＰＵ１０１は、Ｓ３０２において抽出し、メモリ１２０に記憶しておいた、抽出された特徴量である特徴量ベクトルｘと、上記の復元された特徴量である復元特徴量ベクトルzとを用いて入出力間の損失を求める。具体的には、式３の損失関数L_H(x、z)による計算に基づき、復元した特徴量zの再現率を評価する。続くＳ３０７において、ＣＰＵ１０１は、Ｓ３０６で算出した損失が収束条件を満たすかどうかを判定する。損失が収束条件を満たす場合、処理を終了する。ここで、収束条件とは、例えばあらかじめ設定した閾値を損失が下回ったかどうかであり、損失が閾値を下回る場合には収束条件を満たすとして本処理を終了する。一方、収束条件を満たさない場合、処理はＳ３０８に進む。

Ｓ３０８においてＣＰＵ１０１は、パラメータ（Ｗ、ｂ、ｂ'）を更新する。当該更新処理では、損失関数を最小化するようパラメータを勾配法によって更新する。中間表現を生成するためのパラメータ（Ｗ、ｂ、ｂ'）は、

となる。確率的勾配降下法を用いて、ランダムに選んだデータの微分値を用いてパラメータを更新する。その後、処理はＳ３０１に戻る。

ここまでのＳ３０１からＳ３０８までの処理は、通常のAutoEncoderの処理となり、損失関数L_H(x、z)を最小化する中間表現２３０を獲得することができる。本実施形態では、これに追加の処理を実行することにより、第１の特性と第２の特性の乖離を考慮した中間表現２３０を獲得することができる。本実施形態では学習用データ１３０の第１特性データ１３１を実写データとし、第２特性データ１３２を人工データとしているので、以下、実写データ１３１、人工データ１３２として説明する。

Ｓ３１１では、Ｓ３０４において獲得した中間表現２３０を用いて、メモリ１２０中の学習用データ１３０中からデータをサンプリングする。サンプリングするデータはランダムでも良いし、特徴ベクトル空間上で近いデータ同士でも良いし、学習用データ１３０の全データでもよい。また、実写データ１３１と人工データ１３２から均等にサンプリングしても良いし、重みを付けて傾斜をかけても良い。また、学習用データ１３０に含まれない他のターゲットなどで使用した実写データと人工データであってもよい。

続くＳ３１２では、Ｓ３１１でサンプリングしたデータについて、現在メモリ１２０の中間表現データ１５２に格納されたパラメータを用いて特徴層２１０、encoder層２２０、decoder層２４０を通過させることで、サンプリングデータの特徴量ベクトルを復元する。学習が途中の場合には、Ｓ３０３の特徴ベクトルに対して大きな誤差が生じていることが予想される。

続くＳ３１３では、あらかじめ付与されている特性タグから、復元特徴量ベクトルを実写データに基づく第１の群と、人工データに基づく第２の群とに振り分ける。学習用データ１３０には、画像の生成方法（実写データか人工データか）がタグとして付与されているため、タグを参照すれば分類は容易である。Ｓ３１４及びＳ３１５では、それぞれの画像生成方法に対する特徴量ベクトルの分布を計算する。

もっとも単純な方法はそれぞれをガウス分布：Ｎ（μ、Σ）で近似する方法である。μはその分布の平均ベクトル、Σは分散共分散行列を表す。もちろん詳細な分布を計算してもかまわないし、例えばa個のガウス分布を持つ混合ガウスモデルΣ_aπ_aＮ（μ_a、Σ_a）など複数の分布の合成であってもかまわないものとする。本実施形態では、分布の近似方法にガウス分布を用いたがこれに限定するものではなく、分布情報は後段の分布間の比較を行うことが可能なものであればどのような分布を用いて近似しても良いものとする。

続くＳ３１６では、ＣＰＵ１０１は、Ｓ３１４及びＳ３１５にて算出した実写データ分布、人工データ分布の比較を行う。上記のように本実施形態で使用する特性データには、その特徴ベクトルにCGと実写間で乖離を持つものと、ほとんど同じものとが混在するが、全体的には顔の学習用データセットとなっているため、特徴ベクトル空間ではほぼ同じ分布を有することになる。Ｓ３１６ではこのような二つの分布の比較を行う。分布の比較には式５に示すKL（Kullback-Leibler）情報量を用いる。

ここで、dは特徴量の次元、Ｐ'_real及びＰ'_ＣＧは、中間表現２３０によって射影された特徴空間における分布を示す。

Ｐ'_real ＝ＲＰ_real （式６）
Ｐ'_CG ＝ＲＰ_ＣＧ
ここで、ＲはＳ３１２で算出した特徴ベクトルから中間表現への射影変換を示す。それぞれのデータの分布Ｐ_realおよびＰ_ＣＧは、それぞれＳ３１４、Ｓ３１５で求めた分布である。上記計算によって求めたKL情報量は、実写データに基づく中間表現分布と人口データに基づく中間表現分布との類似度を示している。なお、中間表現への射影変換処理を省略し、KL情報量が二つの分布Ｐ_realとＰ_CGの分布的な類似度を示すようにしてもよい。

本実施形態では、AutoEncoderによって獲得した特徴ベクトル空間上で実写分布とCG分布との比較結果を示すKL情報量を損失関数に組み込むことで、実写とCGの差異を最小にする特徴ベクトル空間を表現するパラメータを学習することが可能となる。

そこでＳ３０４で中間表現を算出するパラメータに対して、Ｓ３０６で用いた損失関数：L_H(x、z)に加えて、Ｓ３１６で求めたKL情報量を加えた損失関数：L'_H(x、z)を式７としてパラメータを更新する。
L'_H(x,z) = L_H(x,z)+ γKL(P'_real || P'_CG) ・・・（式７）
ここでγは寄与率を示し、ユーザーが設定してもよいし学習によって求めてもよいものとする。

このように、損失関数に特徴ベクトル空間上での実写とCGの分布類似度を含めることにより、実写とCGの分布の差が損失の大きさに現れる。よって、AutoEncoderでは、損失を最小にするようにパラメータが調整されることになるので、結果として実写とＣＧの分布の類似度がより近づくように調整される。これにより、実写とCGとでデータ生成方法による差異を考慮しない中間表現を獲得することが可能となる。

本実施形態では、分布の比較にKL情報量を用いたがこれに限定するものではなく、分布を比較する方法であればどのような方法を用いてもよい。例えば、簡便にk-means法によっていくつかの分布の代表点を求めたのち、これらの代表点間の距離を比較する方法なども使用できる。

以上に説明したように、本実施形態では、実写とCGのように作成方法は異なるが同一識別対象が写っている画像データセットにつき、特徴量上で実写とCGとの差異を吸収しつつ次元を削減した特徴量を取得することができるようになる。これにより、実写データのみで学習データを構成した場合と比較して、CGデータを追加することでより大量の学習データをＣＧデータに特有の画質などの影響を考慮することなく使用することができるようになる。

また、実写データのみでは被写体のバリエーション（人種、性別、髪型、年齢など）撮影環境のバリエーション（カメラアングル、照明条件など）を網羅的に集めることは困難で、特徴量空間での分布に偏りが生じ、認識性能に影響を与える。しかし、ＣＧデータによって多くのバリエーションを生成して中間表現空間上で網羅的な分布とすることで、より未知の入力に対してロバストな学習を行うことが可能となる。その際にＣＧデータに特有の画質などの影響を考慮することなく使用することが可能になる。

さらに、本実施形態では、特徴ベクトルの次元を削減することで、学習パラメータ数の少ない設定での学習を行うことができるため、メモリ使用量の削減、計算ハードウェアの削減、処理速度の向上などの効果がある。また、大量に生成されたＣＧデータは、すべてレンダリングする際にどのようなカメラアングルで、どのような肌の色に対して、どのような角度から照明を当てているかなどの情報を持っているため、認識学習用のデータセットを作成する際に必要になるタグ付の作業を行う必要がなくなるため、効率的にデータセットの量を増やすことが可能となる効果がある。

このように、生成方法の異なるデータを混合して学習を行った場合でも、その特徴の差異を除去した中間表現を獲得することができる。また、その構造をニューラルネットワークの中間層に適用することで、生成方法の異なるデータを混合した際の影響を除去しつつ、ターゲットクラスの認識精度向上を図るニューラルネットワークを構成することが可能になる。

［実施形態２］
次に第２の実施形態について述べる。実施形態２ではニューラルネットワークを用いて、ターゲットとして映像中の人物が行う特定の行動（例えばキック動作か否か）を認識する際に、実写データに加えて人工データを付与する上でもキック動作の認識性能を向上させつつ実写とCGとの乖離を吸収する場合について説明する。

本実施形態２では実施形態１と同様に学習用データ１３０に実写データ１３１と人工データ１３２を混合したデータセットを用いて認識学習処理を行う。その際に、目的となる出力の学習をDeep Learningにて最適化するプロセスに本発明を適用し、学習用データ１３０に実写データ１３１と人工データ１３２が混入した場合にも人工データ特有の特性を考慮することなく目的となる出力の性能を向上することが可能な方法について説明する。

図４に、本実施形態で使用するニューラルネットワーク４００の構造データ１５１の模式図を示す。ニューラルネットワーク４００は、実施形態１の中間表現を獲得するニューラルネットワーク２００とは異なり、画像認識、行動認識など特定の目的に対して認識処理を行うためのニューラルネットワークである。出力値算出方向４５０に入力データから出力への情報が流れ、出力結果と正解のラベルとの違いを基に誤差逆伝搬方向４６０に誤差情報が伝搬して、各層における認識処理の実行パラメータを更新する。

本実施形態におけるニューラルネットワーク４００は、入力ユニット４１０から隠れユニット６層（４１１〜４１６）と出力ユニット４１７の８層で構成されるものとする。学習用データ１３０から抽出した映像データを入力ユニット４１０へ入力し、一つ以上の隠れユニット（４１１〜４１６）を経て映像中にターゲットクラス（キック動作）が含まれているか否かの２クラスを判別する出力を出力ユニット４１７に出力するものである。ニューラルネットワークの各層には複数のニューロンが存在し、出力ユニット４１７はターゲットクラス確率と非ターゲットクラス確率を出力する。

学習時には学習用データ１３０中であらかじめ付与されたターゲット画像と非ターゲット画像のラベルを基に学習を行う。このような設定で学習を行うことは一般的な教師あり学習方法であるため詳細な説明は省略する。ここでターゲット出力としてキック動作か否かの２クラスの判別を例に用いて説明するが、これに限定されるものではなく３クラス以上の認識を行う設定にしてもよいし、実数値で表わされる認識結果を出力する回帰学習の設定でも良い。

本実施形態では、図４に示すニューラルネットワーク４００でのターゲット認識処理において本来のターゲット認識のための学習過程に加えて、中間層である隠れユニット４１２と４１３で生成される中間表現に対して本開示で説明する実写とCGとの差異を吸収する処理を施すことによって、CGを学習データに含めたことによるCG特有の特性を吸収する処理とターゲット認識精度を向上させる処理を同時に行う。

本実施形態では、隠れユニット４１２と隠れユニット４１３の部分でencode層４３０を構成したが、これに限定されるものではなくencode層は複数の層によって構成されていてもよい。

図５に実施形態２における学習処理のフローチャートを示す。本実施形態では学習にミニバッチ法（非特許文献４）を用いた場合について説明する。学習用データ１３０をK個のデータを持つ小データに分割し、K個のデータに対して出力ユニット４１７までの処理を行った後で各層のニューロンの重みを更新する処理を繰り返すこととする。

S５０１では、本実施形態におけるニューラルネットワーク４００に出力値算出方向４５０の方向に処理を進めることで出力ユニット４１７から出力値を得る。i番目の層からj番目の層への順伝播の式は以下のように示される。

ｖ_i ＝ Σ_j ｗ_ijｙ_j, ｙ_ｊ＝φ_j(ｖ_j) ・・・（式８）
順伝播で出力したすべてのユニットの出力ｙとvをメモリ１２０に保存しておく。S５０２では、ミニバッチの全データを通過するまでS５０３においてメモリ１２０に各データの出力値を格納する。S５０２において、Ｋ個のデータすべてニューラルネットワーク４００を通過させた後にS５０４に移行する。S５０４では、S５０１で得たターゲット出力値と、ターゲット出力の目標値との誤差を算出する。ターゲット出力値をy、教師信号をtとすると誤差を表す損失関数Eは、以下の式９で表わされる。

Ｎは出力ユニットの数で、本実施形態では２となる。S５０５では、ミニバッチに使用する全データについて、中間表現（本実施形態では隠れユニット３（４１３）の状態）のパラメータを中間表現ノード４４１にコピーする。隠れユニット４１２までの処理を特徴量抽出処理とみなして特徴量層４２０とする。また、隠れユニット４１２と隠れユニット４１３との間を前段で抽出した特徴量を中間値に変換するEncode層４３０として、隠れユニット４１２から隠れユニット４１３までの変換処理に用いるニューロンのパラメータ（結合重みＷ、バイアスベクトルｂ）をコピーする。

S５０６では、学習用データ１３０から実写データ１３１、人工データ１３２を特徴量層４２０を通じて出力した結果としてサンプリングする。この際、サンプリングデータはミニバッチで使用したデータであっても良いし、学習用データセットからサンプリングしたものでも良いし、全データを使用してもかまわない。

続くS５０７では、decode層４４０の式２を用いて、上記パラメータを用いて隠れユニット４１２の入力情報を復元する。Decode層４４０のネットワークパラメータは、encode層４３０のパラメータの転置行列を使用することで、パラメータの計算負荷を軽減する。

本実施形態では、簡単な例としてencode層を１層のみのAutoEncoderを例として説明したがこれに限定するものではなく、多層のAutoEncoderを用いたり、Denoising AutoEncoderなど入力（隠れ層２４１２）を復元することが可能な方法であればGAN（Generative Adversarial Network）や、RBM（Restricted Boltzmann Machine）などの手法を用いても良い。Encode層４３０、decode層４４０を介することで隠れ層４１２の状態を復元した復元ノード４４２を出力する。この復元ノード４４２の状態は、隠れ層４１２の状態を復元したものだが、次元圧縮によって元の状態から情報が一部欠落したものとなっている。

S５０８では、前段S５０６でサンプリングした学習データに対して前段でEncoder層４３０、decoder層４４０を介することによって各入力データの復元ノード４４２上での出力を得る。学習データにはその画像生成方法（実写か人工データか）によってタグが付与されているため、それぞれその特性ごとに実写データ分布と人工データ分布に分割し、その分布特性を求める。本実施形態では実施形態１と同様に各分布aはガウス分布Ｎ（μ_a、Σ_a）であるものと仮定して、そのパラメータである平均ベクトルμ_a、分散共分散行列Σ_aを求める。

続くS５０９では、前段で取得した実写と人工データの分布の比較を行う。分布の比較方法は実施形態１と同様にKL情報量を用いることとし、特性の異なるデータ分布の比較を行う。入力ベクトルの次元をdとすると、d次元の多変量正規分布のKL情報量Ｄ_KLは、式１０で表すことができる。

このKL情報量Ｄ_KLは二つの分布Ｐ_realとＰ_CGの分布的な類似度を示し、値が大きいほど二つの分布は似ていないと考えられる。なお、実施形態１と同様に中間表現への射影変換処理を行って、KL情報量が二つの分布Ｐ'_realとＰ'_CGの分布的な類似度を示すようにしてもよい。そのため、実写とCGの差異を考慮しない中間表現を得るためにはKL情報量Ｄ_KLを小さくする制約を設ける必要がある。中間表現を獲得するプロセスにおいて上記KL情報量Ｄ_KLを最小化するペナルティ項を加えることによって削減する情報の中に実写とCGの違いを埋め込むことが可能となる。

式９の損失関数Ｅは出力層４１７で出力される映像中の行動（キック動作か否か）認識結果に対して目標となるタグ情報との差異を示す。本実施形態では、損失関数Ｅにこの二つの分布の差異を最小化するようKL情報量Ｄ_KLを用いたペナルティ項を加えた損失関数E'を用いて、ニューラルネットワーク４００のパラメータを決定する。

本実施形態における損失関数E'を式１１として式９および式１０から、
Ｅ'＝Ｅ＋γＤ_KL・・・（式１１）
と表す。γはKL情報量の寄与率となる。

S５１０で収束条件を満たしたか判別し、収束したところで学習を終える。収束条件に満たない場合、後段のS５１１にてパラメータ更新処理を行う。S５１１では、損失関数E'を用いて逆誤差伝搬法によってニューラルネットワーク４００のパラメータを更新する。Encode層４３０以外の部分の損失関数は通常の損失関数Eを用いてパラメータを更新する。

上記のフローによってニューラルネットワーク４００のパラメータを更新することでターゲットとなる認識処理の精度を向上させることが可能となる。

本実施形態では、ニューラルネットワーク４００の学習においてバッチ処理による誤差逆伝搬法について述べたが、これに限定するものではなくオンライン学習でも同様の効果を得ることができる。以上のような構成を取ることによって、以下のような効果がある。

実写とCGを混合した学習データセット１３０において、その目的はターゲットの認識精度を向上させることである。本実施形態の構成によって、ニューラルネットワーク４００によるターゲット認識精度の向上と、混合した二つのデータ（実写データとCGデータ）による特性の乖離を中間層で吸収するフィルタリング処理を同時に行うことで、ターゲット認識精度を向上させるような中間表現を獲得することができる効果がある。

また、その際に実写とCGの混合したデータのフィルタ処理に対して実写とCGのタグの付与は自動で行うことも容易であり、新たにタグ情報や前処理などを行う必要はなくターゲット認識精度を向上させることが可能となる効果がある。

［実施形態３］
これまでの実施形態では、第１特性データと第２特性データとの差異についてニューラルネットワークのパラメータを更新し差異を吸収した中間表現を獲得する例について述べたが、実施形態３ではニューラルネットワークを用いない例について述べる。

実施形態１に示すような次元削減によって特徴ベクトルを別の基底ベクトル表現に分解する方法にはニューラルネットワークを用いないものも存在する。例えば、主成分分析、独立成分分析、スパースコーディングなどである。しかし単に上記の手法を適用しただけでは、分解した基底ベクトル表現によって特性データの乖離を吸収できるとは限らない。例えば独立成分分析においては、第１特性データと第２特性データとは要素間の独立性が成り立つため重要な基底ベクトルとして表現されてしまう可能性がある。

本実施形態では、実施形態１におけるターゲット（顔認識）において、ニューラルネットワークを用いないでスパースコーディングによって実現する方法について述べる。基本構成は実施形態１と同じものを使用し、図３のフローチャートを流用して説明する。

Ｓ３０２までの処理において、実写データ１３１と人工データ１３２に対して特徴抽出を行って特徴ベクトルを算出する。続くＳ３０３にてＮ個のＫ次元をもつ特徴ベクトルxが集合した行列をＸとして保存する。続くＳ３０４において中間表現となるＫ次元の基底ベクトルuの集合を表す行列をＵ、その係数aの集合を表す行列をＡとすると、その関係は式１２に示される。

Ｘ＝ＵＡ・・・（式１２）
これは元データｘを基底ベクトルＵの線形和として表現することができ、式１３に示す。

通常スパースコーディングでは、式１２、式１３に対して正規化項を加えた式１４によって基底ベクトルとなるＵを繰り返し計算によって求める。

ここでは、右辺第１項はＳ３０３にて格納された特徴ベクトル集合Ｘに対する基底ベクトル表現による復元結果ＵＡとの誤差を表す。右辺第２項はＬ１ノルムとなっておりこの項によって基底ベクトルの係数ａがスパースになるような制約を設けている。

Ｓ３０４において獲得する中間表現は本実施形態ではＵＡに相当し、入力となる特徴量ベクトルＸを別の基底ベクトルにて復元したものとなっている。Ｓ３１１では、実施形態１と同様にサンプリング処理によって学習用データ１３０から実写データ、人工データをサンプリングする。

Ｓ３１２では、中間表現ＵＡを用いて前段のサンプリング結果を復元する。Ｓ３１３では、復元したサンプリングデータに対して特性データに応じて付与したタグ情報から実写データ分布と人工データ分布に分離し、Ｓ３１４、Ｓ３１５にてそれぞれの分布のＫ次元の平均ベクトルμと、分散共分散行列Σで表わされるガウス分布Ｎ（μ、Σ）で近似する。

Ｓ３１６では、実写データと人工データの分布間類似度を式５に示すKL情報量ＫＬ（Ｐ'_real||Ｐ'_CG）を用いて表す。Ｓ３０６では、上記KL情報量と式１４のスパースコーディングの損失関数Ｅから、式１５に示す損失関数Ｅ'を得る。

Ｅ'＝Ｅ＋γKL(P'_real || P'_CG) ・・・（式１５）
Ｓ３１８にて、この損失関数Ｅ'を最小化する基底ベクトル表現ＵＡを獲得するためのパラメータを更新する。

以上の処理によってニューラルネットワークを用いない場合にも同様に実写データと人工データとの差異を吸収した中間表現を獲得することが可能となる。

これにより、データセットが小さい場合や、計算リソースに制限がある場合などニューラルネットワークでは構成が大規模になってしまう状況でも、本実施形態の方法によって小さな構成でも人工データの混入による学習性能の低下を防ぐことができる効果がある。

［実施形態４］
上述の実施形態１から３では、画像を生成方法として実写と人工データの場合について説明したが、実施形態４では、画像の生成方法に別の特性を用いた例について、コンビニエンスストアに監視カメラが設置してある例について説明する。

コンビニエンスストアにおける監視は、監視対象のターゲット行動が同一であり店舗のレイアウトなども類似であることが多い。そのため別の店舗にて獲得したニューラルネットワークデータ１５０を流用して学習を行いたい場合がある。または別店舗のものではなく出荷前にあらかじめ学習した学習済みデータを出荷時に対象店舗でそのまま活用したいという要求もある。しかし別店舗でのカメラが対象店舗のカメラと型番など異なる場合や、同一店舗ではあるが製品を交換して別のカメラとした場合、新規に納入する場合などに、解像度、画質、ホワイトバランスの性能などの撮像装置のデータ特性が異なることがある。

そのため別店舗のカメラAの特徴ベクトル分布と対象店舗のカメラBの特徴ベクトル分布が異なる場合があり、対象店舗専用の認識装置としてカスタマイズして使用するための転移学習用の元データとして使用する際に必ずしも性能が向上するとは限らない。長期間対象店舗のデータを取得して学習用データを拡充することで識別を行うことでその性能は向上するが、そのためにタグ付け作業などの処理が付随するため、コストがかかり、運用までに時間がかかってしまう課題がある。カメラＡのデータをそのまま活用し、対象店舗のカメラＢの認識装置に運用するにはカメラＡと対象店舗のカメラＢとのデータ特性の差異を吸収することが望ましい。

そこで学習用データに対して第１特性データとして別店舗のカメラＡの実写映像データを、第２特性データとして対象店舗のカメラＢの実写映像データを用いて学習を行う。カメラＡの実写映像データには、タグ情報として所定のクラスの判別結果が付与されている一方、カメラBの実写映像データにはタグ情報が付与されていない。同一の構成を用いるため、実施形態２で用いた図４および図５を用いて説明するが、実施形態１の構成を適用してもよい。

ニューラルネットワーク４００において、データ４９０に用いるデータはカメラAのデータのみとする。ニューラルネットワーク４００はあらかじめカメラＡにて学習されたカメラＡ用の学習済みニューラルネットワークである。構成データ１５１、中間表現データ１５２はカメラＡの出荷時にあらかじめ学習済みのものを使用する。

S５０１からS５０３の処理で、あらかじめ学習済みのニューラルネットワーク４００のパラメータを用いて出力層４１７にてＫ個の出力値を得る。S５０５にてencode層４３０のパラメータを複製し、S５０６にて第１特性データとしてカメラＡのデータを、第２特性データとして対象店舗のカメラＢのデータをサンプリングする。このとき画像の類似性などを評価して、特徴量空間上で近傍にあるデータをサンプリングしてもよいし、ランダムにサンプリングしてもよい。

S５０７にて、前段でサンプリングしたカメラAのデータとカメラBのデータに対してdecode層４４０を通すことで復元ノード４４２を獲得する。 S５０８にて、あらかじめ付与したカメラＡデータか、対象店舗データかのタグを用いてカメラＡデータを復元した特徴ベクトル分布と対象店舗データを復元した特徴ベクトル分布を算出する。

S５０９にて、前段のカメラＡデータ分布とカメラＢデータの分布を、ここでは実施形態２で行った式１０によるKL情報量を用いて比較する。S５０９では、S５０４で得た式９に基づく損失関数Ｅと、S５０９にて算出したカメラＡとカメラＢの分布的な類似度を用いた損失関数Ｅ'を求める。

本実施形態では対象店舗の画像にはまだタグ情報などが付与されていないことを想定しており、ニューラルネットワーク４００に対象店舗データを入力してもターゲット認識に関するタグ情報がないため、識別結果の損失を計算できない。よって、入力４９０に入るデータはカメラAのデータのみである。カメラBデータはS５０６からS５０９でのみ使用する。

カメラAのデータを復元した特徴ベクトルは学習に使用したデータ群であるため復元性能は高く損失関数Eは小さい値を取る。しかしカメラBデータはデータ特性が異なりニューラルネットワーク４００のパラメータを用いて特徴ベクトルを復元した場合には、カメラAデータの特徴ベクトル分布とは乖離して損失関数E'が大きな値となることが予想される。カメラAこの損失関数E'に基づきあらためてS５１０の収束判定および、S５１１のパラメータ更新を行うことでカメラＡと対象店舗とのデータ特性の乖離を最小化したニューラルネットワーク４００を獲得することが可能となる。

ここでS５１０においてその収束判定を行う際、Ｅ'の誤差関数の値が収束条件を満たす場合にはカメラAとカメラBとのデータ特性上の差異はなくそのままカメラAの学習パラメータを用いて検出できるものとみなす。損失関数E'が大きい場合、カメラAデータと対象店舗データとの間で画質が大きく異なることが予想される。その場合、S５１１で誤差逆伝搬法を用いて、ニューラルネットワーク４００のパラメータを更新し、ターゲット認識精度のパラメータとカメラAとカメラBとのデータ特性の差異を吸収するパラメータ更新を行う。この際に同時にターゲット認識の誤差として損失関数Ｅも用いることで、中間表現のパラメータ更新に対して認識性能を落とさないような学習を行うことが可能となる。

対象店舗に監視カメラBを設置する際に、カメラAにて学習した学習用データ１３０とニューラルネットワークデータ１５０を転移してカメラBでの運用時のパラメータを獲得することができる。カメラBの実写データに対してターゲット認識用のタグ情報を付与することなく、ニューラルネットワークの中間層においてカメラAとカメラBのデータ特性の差異を吸収するようパラメータ更新を行うことによって学習データの転移を行うことが可能な効果がある。

通常は対象店舗にカメラBを新規に設置した場合、監視対象となる行動についてのタグはまだ付与されていないことが多い。まだ対象店舗のタグ付きデータがない場合にカメラAのニューラルネットワークデータ１５０を更新してカメラBで運用できることはメリットがある。カメラBはその後にデータを収集してカメラB向けにFine Tuningを行えば良い。もちろん、対象店舗データにタグ情報が付与できるのであれば入力データ４９０として使用してもよい。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１：ＣＰＵ、１０２：入力装置、１０３：出力装置

Claims

第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから、特徴量を抽出する抽出手段と、
抽出された前記特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する処理手段と、
前記中間値から前記特徴量を復元する復元手段と、
前記抽出された特徴量と前記復元された特徴量との間での損失を計算する計算手段と、
前記損失を小さくするように前記変換のための変換パラメータを更新する更新手段と
を備え、
前記損失には、前記第１のデータの前記復元された特徴量に基づく第１の分布と、前記第２のデータの前記復元された特徴量に基づく第２の分布との比較結果に応じた値が含まれ、
前記更新手段は、前記損失を小さくすることにより前記第１の分布と前記第２の分布との類似度をより近づけるように、前記変換パラメータを更新することを特徴とする情報処理装置。
入力されたデータにつき、クラスの認識処理を行って認識結果の出力を得る認識手段と、
前記入力されたデータについて予め与えられている前記クラスの判別結果と、前記認識結果とを比較し、比較の結果に応じて前記認識処理の実行パラメータを調整する調整手段と
を備える情報処理装置であって、
前記認識処理には、前記入力されたデータから抽出された特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する変換処理が含まれ、
前記実行パラメータには、前記変換処理のための変換パラメータが含まれ、
前記情報処理装置は、
第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから抽出された第１の特徴量と第２の特徴量とに、前記変換パラメータを用いた前記変換処理を行って第１の中間値と第２の中間値とを取得する処理手段と、
前記変換パラメータに基づいて、前記第１の中間値から前記第１の特徴量を復元し、前記第２の中間値から前記第２の特徴量を復元する復元手段と
を更に備え、
前記調整手段は、前記復元された第１の特徴量についての第１の分布と、前記復元された第２の特徴量についての第２の分布との類似度をより近づけるように前記変換パラメータを更に調整することを特徴とする情報処理装置。
前記第１のデータは所定の取得手段により取得されたデータであって、前記第２のデータは、前記所定の取得手段を介さず人工的に生成されたデータである、請求項１または２に記載の情報処理装置。
前記第１のデータは所定の取得手段により第１の場所で取得されたデータであって、前記第２のデータは、前記所定の取得手段により前記第１の場所とは異なる第２の場所で取得されたデータであり、
前記第１のデータのみが前記クラスの判別結果が予め与えられており、前記入力されたデータとして前記認識手段による前記クラスの認識処理が行われることを特徴とする請求項２に記載の情報処理装置。
前記所定の取得手段は、画像取得手段、音声取得手段、及び、その他の所定の情報を取得する取得手段のうちのいずれかであることを特徴とする請求項３または４に記載の情報処理装置。
前記処理手段、及び、前記復元手段はニューラルネットワークとして構成されることを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
前記処理手段は、前記ニューラルネットワークの第１のノードと第２のノードとで構成され、
前記復元手段は、前記ニューラルネットワークの前記第２のノードと第３のノードとで構成され、
前記第２のノードのニューロン数は、前記第１のノード及び前記第３のノードのニューロン数よりも少ないことを特徴とする請求項６に記載の情報処理装置。
前記変換パラメータは、前記第１のノードと第２のノードとの間の結合重み、及び、バイアス項である、請求項７に記載の情報処理装置。
前記第１の分布は、前記第１のデータの前記復元された特徴量の分布について前記変換を行って得られた分布であり、前記第２の分布は、前記第２のデータの前記復元された特徴量の分布について前記変換を行って得られた分布である、請求項１から８のいずれか１項に記載の情報処理装置。
抽出手段が、第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから、特徴量を抽出する抽出工程と、
処理手段が、抽出された前記特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する処理工程と、
復元手段が、前記中間値から前記特徴量を復元する復元工程と、
計算手段が、前記抽出された特徴量と前記復元された特徴量との間での損失を計算する計算工程と、
更新手段が、前記損失を小さくするように前記変換のための変換パラメータを更新する更新工程と
を含み、
前記損失には、前記第１のデータの前記復元された特徴量に基づく第１の分布と、前記第２のデータの前記復元された特徴量に基づく第２の分布との比較結果に応じた値が含まれ、
前記更新工程では、前記損失を小さくすることにより前記第１の分布と前記第２の分布との類似度をより近づけるように、前記変換パラメータが更新されることを特徴とする情報処理装置の制御方法。
認識手段が、入力されたデータにつき、クラスの認識処理を行って認識結果の出力を得る認識工程と、
調整手段が、前記入力されたデータについて予め与えられている前記クラスの判別結果と、前記認識結果とを比較し、比較の結果に応じて前記認識処理の実行パラメータを調整する調整工程と
を含む情報処理装置の制御方法であって、
前記認識処理には、前記入力されたデータから抽出された特徴量を、該特徴量を表現する次元数を減少させるように変換して中間値を取得する変換処理が含まれ、
前記実行パラメータには、前記変換処理のための変換パラメータが含まれ、
前記方法は、
処理手段が、第１のデータと、前記第１のデータとは生成条件の異なる第２のデータとのそれぞれから抽出された第１の特徴量と第２の特徴量とに、前記変換パラメータを用いた前記変換処理を行って第１の中間値と第２の中間値とを取得する処理工程と、
復元手段が、前記変換パラメータに基づいて、前記第１の中間値から前記第１の特徴量を復元し、前記第２の中間値から前記第２の特徴量を復元する復元工程と
を更に含み、
前記調整工程では、前記復元された第１の特徴量についての第１の分布と、前記復元された第２の特徴量についての第２の分布との類似度をより近づけるように前記変換パラメータが更に調整されることを特徴とする情報処理装置の制御方法。
コンピュータを請求項１から９のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。