JP2021081930A

JP2021081930A - 学習装置、情報分類装置、及びプログラム

Info

Publication number: JP2021081930A
Application number: JP2019208103A
Authority: JP
Inventors: 真綱藤森; Naotsuna Fujimori
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2021-05-27

Abstract

【課題】モーダリティごとに個別に学習プロセスを制御できる学習装置、情報分類装置、及びプログラムを提供する。【解決手段】マルチモーダル情報を分類する情報分類モデルを生成する学習装置は、複数のモーダリティデータをベクトル化するベクトル化部と、特徴ベクトルを生成する特徴抽出部と、統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備える。学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする。【選択図】図１

Description

本発明は、学習装置、情報分類装置、及びプログラムに関し、特に、画像とテキスト等複数の表現が組み合わさった情報が、どのような種類の情報であるかを分類するための学習装置、情報分類装置、及びプログラムに関する。

近年、ニューラルネットワーク（Neural Network）等を用いた人工知能（ＡＩ）が、画像認識や音声認識、言語処理等、様々な分野に利用されている。これまでの人工知能を用いた装置は、特定の表現種類のデータ（例えば、画像のみのデータ）を扱うことに特化した装置が殆どであったが、最近は、画像、音声、テキスト等、一つの対象に対する複数の表現（モーダリティ）を取り扱う装置の研究も進められている。

例えば、画像の内容に関連する質問に回答するために、画像とテキストを処理するマルチモーダルモデルを用いた画像質問応答システムが提案されている（特許文献１）。また、各モーダリティの出力への影響を決定する学習可能な重みを用いて複数のモーダリティの情報を統合する手法が提案されている（非特許文献１）。

さらに、複数のモーダリティが組み合わさった情報（マルチモーダル情報、マルチモーダルデータ）を分類する方法が提案されており（非特許文献２）、ここでは、各モーダリティを学習可能な重みを用いて複数の段階で統合する手法が開示されている。この分類方法は、統合された特徴による分類モデルに加えて、統合する前の単一モーダリティの特徴による分類モデルを同時に学習することで、分類精度の向上を図っている。

図６は、本発明者が開発してきた従来のマルチモーダル情報分類装置とその学習装置のブロック図である。マルチモーダル情報分類装置は、ベクトル化部１１，１２と、特徴抽出部２１，２２と、特徴統合部３０と、統合特徴分類部４０を備えており、マルチモーダル情報としてテキストデータと画像データが入力される。

ベクトル化部１１は、テキストデータが入力され、これを学習モデルに入力可能な形式であるベクトルＶ₁に変換し、特徴抽出部２１に出力する。同様に、ベクトル化部１２は、画像データが入力され、これを学習モデルに入力可能な形式であるベクトルＶ₂に変換し、特徴抽出部２２に出力する。

特徴抽出部２１は特徴抽出モデルを備えており、テキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を出力する。

特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを統合特徴分類部４０へ出力する。そして、統合特徴分類部４０は、ニューラルネットワーク等を用いて構成され、統合特徴ベクトルＶに基づいて、分類結果を出力する。こうして、マルチモーダル情報分類装置は、テキストデータと画像データ等の複数のモーダリティの組み合わせ情報から、情報の分類を行うことができる。

このようなマルチモーダル情報分類装置には、ニューラルネットワーク等で構成されたモデルが利用されるが、装置を適切に動作させるためには、一般に学習データを用いて繰り返し学習を行い、モデル（パラメータ）を最適なものとなるように収束させること（いわゆる、機械学習）が必要である。

図６のマルチモーダル情報分類装置も学習モードを備えており、更に、学習終了判定手段５０を設け、学習装置を構成している。マルチモーダル情報分類装置は、学習モードにおいて、学習データで得られた分類結果を正解データと比較し、情報分類装置内部のモデルを調整し、学習を行う。そして、学習終了判定手段５０は、検証データによって学習終了の判定を行う。

しかしながら、ニューラルネットワーク等の機械学習では、過度に学習を行うと、学習（訓練）データだけに最適化されてしまって未知データには対応ができない状態、いわゆる「過学習（過剰適合、Overfittingともいう）」が生じる。このニューラルネットワークの学習の際に生じる過学習を防ぐため、過学習を検出して学習率を制御し、収束状態を判定して学習を停止する手法（Early Stopping）が提案されている（特許文献２、非特許文献３）。

特表２０１７−５３４９５６号公報特開２０１９−７４９４７号公報

J. Arevalo, et al.，"Gated Multimodal Units for Information Fusion"，5th International Conference on Learning Representations Workshop，2017年，pp. 1-17 V. Vielzeuf, et al.，"CentralNet: A Multilayer Approach for Multimodal Fusion"，European Conference on Computer Vision Workshop，2018年 L. Prechelt, et al.，"Early Stopping - But When?"，Neural Networks: Tricks of the Trade, 2nd edn. Springer，2012年，pp. 53-67

マルチモーダル機械学習とは、画像、音声、テキストなど、一つの対象に対する複数の表現（モーダリティ）を入力として、分類などのタスクを解くモデルを構築することであるが、前述のとおり、機械学習においては、学習データに適応しすぎることで、現実のデータの分類性能が低下する、「過学習（過剰適合）」の問題がある。

図６を参照すると、機械学習では、一つの学習データの分類結果に対して正解データによるフィードバックが、統合特徴分類部４０、特徴統合部３０、特徴抽出部２１，２２に順次反映され、それぞれのモデルの修正が行われる。そして、学習を繰り返した後、学習終了判定手段５０が、モデルが最適な状態となった時期を判定して、学習を終了する。従来のマルチモーダル機械学習は、図６に示すように、テキストデータの特徴抽出部２１、画像データの特徴抽出部２２、特徴統合部３０、及び統合特徴分類部４０の全体を学習ブロック４１として、学習終了判定を行っていた。すなわち、異なる表現に関する特徴抽出部２１，２２のそれぞれのモデルに対して、同一回数の共通の学習プロセスを行い、学習ブロック４１全体として、学習の終了タイミングを決定していた。

しかしながら、一般的に、異なる表現の入力は異なる性質を持つため、各表現から特徴を抽出するモデルの収束速度や汎化性能が異なる。そのため、全ての特徴抽出モデルを同一の学習プロセスにより学習すると、一部のモーダリティの特徴抽出モデルの学習が不十分であるにもかかわらず、残りのモーダリティの特徴抽出モデルが過学習することにより、分類モデルの精度が低下するという現象が生じる。

また、従来の学習法を用いて汎化性能を高め、過学習を防ぐためには、大量の学習データが必要であり、これを収集するためには、コストがかかる。

従って、上記のような問題点に鑑みてなされた本発明の目的は、モーダリティごとに個別に学習プロセスを制御し、それぞれ最適なタイミングで学習を終了することができ、一部のモーダリティのモデルの過学習による精度低下を防ぐことができる、学習装置及びプログラムを提供することにある。

また、本発明の目的は、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダル情報をより正確に分類することができる、情報分類装置及びプログラムを提供することにある。

上記課題を解決するために本発明に係る学習装置は、マルチモーダル情報を分類する情報分類モデルを生成する学習装置であって、複数のモーダリティデータをベクトル化するベクトル化部と、ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備え、学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする。

また、前記学習装置は、前記特徴抽出部学習終了判定手段が、検証データに対する前記単一特徴分類部の出力と正解データとに基づいて、前記特徴抽出部の学習終了を判定することが望ましい。

また、前記学習装置は、前記学習終了判定手段が、前記特徴抽出部の学習終了後に、検証データに対する前記統合特徴分類部の出力と正解データとに基づいて、前記統合特徴分類部の学習終了を判定することが望ましい。

また、前記学習装置は、前記特徴抽出部、前記単一特徴分類部、及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することが望ましい。

また、本発明の情報分類装置は、学習装置の前記単一特徴分類部、前記特徴抽出部学習終了判定手段、及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする。

上記課題を解決するために本発明に係る情報分類装置は、マルチモーダル情報を分類する情報分類装置であって、複数のモーダリティデータをベクトル化するベクトル化部と、ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、を備え、前記特徴抽出部と前記統合特徴分類部は、過学習が防止された最適な学習済みモデルに個別に調整されていることを特徴とする。

また、前記情報分類装置は、前記統合特徴分類部のモデルが、前記特徴抽出部の学習済みモデルを前提として、学習により最適化されたモデルであることが望ましい。

上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記学習装置として機能させることを特徴とする。

上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記情報分類装置として機能させることを特徴とする。

本発明の学習装置及びプログラムによれば、モーダリティごとに最適なタイミングで学習を終了することができ、特定のモーダリティのモデルの過学習による精度低下を防ぎ、モーダリティ統合による効果を十分に活かすことができる。

また、本発明の情報分類装置及びプログラムによれば、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。

本発明の学習装置のブロック図の一例である。単一特徴分類部と統合特徴分類部の構成の一例を示す図である。本発明の学習装置の学習アルゴリズムの例を示すフローチャートである。学習終了判定アルゴリズムの例を示すフローチャートである。本発明の情報分類装置のブロック図の一例である。従来のマルチモーダル情報分類装置とその学習装置のブロック図である。

以下、本発明の実施の形態について、図を参照して説明する。

（実施の形態１）
図１に、本発明の学習装置のブロック図の一例を示す。図１は、情報分類装置のモデル（情報分類モデル）を構築するためのマルチモーダル機械学習を行う学習装置である。

学習装置１００は、情報分類装置を構成するベクトル化部１１，１２、特徴抽出部２１，２２、特徴統合部３０、及び統合特徴分類部４０に加えて、単一特徴分類部６１，６２と、学習終了判定手段５０〜５２とを備えている。図６の従来の学習装置と比較すると、単一特徴分類部６１，６２と学習終了判定手段５１，５２が追加されている。図１では、複数の表現（モーダリティ）として、テキストと画像（ＲＧＢ画像）を例示しているが、更に、音声、動画像、デプス画像等、多数の様々なモーダリティに対応してもよい。この学習装置１００は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、学習終了判定手段５０〜５２は、別のコンピュータで構成してもよい。以下、各構成について説明する。

学習時には、学習装置１００に学習データが入力される。学習データには、複数のモーダリティを一組としたデータ（マルチモーダルデータ）を用いる。例えば、１つのデータがＭ個のモーダリティを持つとする（図１では、Ｍ＝２）。なお、学習のための各データには、情報の種別を示す正解ラベル（正解データ）が付与されている。

本実施形態では、映画のポスターとプロット（あらすじ）から、映画のジャンルを分類する情報分類モデルを例として説明する。ある映画を一つのデータとし、データは、プロットのテキストデータと、ポスターの画像データを持つ。また、正解ラベルとして、ドラマ、コメディ、ロマンス等の映画ジャンルが付与されている。

ベクトル化部１１，１２は、学習データの各モーダリティ（モーダリティデータと言うことがある。）の入力をベクトル化し、学習モデルに入力可能な形式に変換する。Ｍ個のモーダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、ベクトル化部１１，１２は、各モーダリティデータを学習モデルに入力するための前処理を行うブロックであるから、学習装置（又は情報分類装置）と分離された前処理手段として構成されてもよい。

図１のベクトル化部１１は、テキストデータを学習モデルに入力可能なベクトルＶ₁に変換し、特徴抽出部２１に出力する。例えば、テキスト（文）を単語に分割し、分割された単語から文単位の分散表現ベクトルを生成する。若しくは、単語にＩＤを割り当てたｏｎｅ−ｈｏｔベクトルの系列を用いることができる。

テキストデータのベクトル化の例を示す。まず、次のように、テキストデータを単語に分割する（単語の区切りを／で示す）。
「A documentary which examines …」
⇒ 「A／documentary／which／examines／…」

そして、分割された単語を分散表現ベクトルに変換し、更に文単位の分散表現ベクトルを生成する。なお、分散表現ベクトルは、意味が近い単語を近いベクトルに対応させて、単語を有限の高次元（例えば、３００次元）の数値ベクトルで表現したものである。分散表現ベクトルは、例えば、ｗｏｒｄ２ｖｅｃやＧｌｏＶｅ（Global Vectors for Word Representation）等の一般的な手法により生成することができる。

表１に示すように、まず、各単語をｎ次元の分散表現ベクトルに変換する。次いで、全単語の分散表現ベクトルの合計（全単語合計）を求める。この分散表現ベクトルの合計を単語数で割ったもの（全単語合計／単語数）を、文単位単語分散表現ベクトル（テキストデータ全体を表すベクトルＶ₁）とすることができる。なお、このベクトル化手法は一例であり、他の手法でテキストデータのベクトル化を行ってもよい。

ベクトル化部１２は、画像データを学習モデルに入力可能な形式であるベクトルＶ₂に変換し、特徴抽出部２２に出力する。例えば、画像データの場合は、単に画素値を並べてベクトルとすることができる。又は、画像中の特徴点（被写体の角、弧、十字等の特徴的な点）の出現頻度を算出し、これらを数値として並べてベクトルとしてもよい。若しくは、画像データを学習済みの画像分類モデルに入力し、中間層の出力を用いることができる。

特徴抽出部２１，２２は、それぞれ特徴抽出モデルを備えており、Ｍ個のモーダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを生成する。特徴抽出部には、ニューラルネットワークの全結合層や畳み込み層を用いることができる。入力が系列データの場合はＬＳＴＭ（Long short-term memory）やＧＲＵ（Gated Recurrent Unit）といった再起型ニューラルネットワークを用いることが望ましい。系列データの例としては、例えば、音声、動画像等であり、文章データを系列データとして取り扱う場合もある。なお、特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

図１の実施形態において、特徴抽出部２１はテキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を出力し、単一特徴分類部６１と特徴統合部３０に出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を出力し、単一特徴分類部６２と特徴統合部３０に出力する。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して一つのベクトル（統合特徴ベクトル）Ｖを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積等、一般的な計算処理を用いてもよい。若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ（Gated Multimodal Unit）、CentralNet等（非特許文献１，２を参照）を用いることができる。本実施形態では、特徴統合部３０に学習可能なモデルを用い、学習データで学習を行うものとして説明する。

図１では、特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを統合特徴分類部４０へ出力する。

統合特徴分類部４０は、統合特徴ベクトルＶに基づいて、分類結果を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ：Feed Forward Neural Network）を適用して構成する。図１の実施形態では、統合特徴分類部４０は、映画のプロットの特徴（Ｖ_f1）とポスターの特徴（Ｖ_f2）を統合した統合特徴ベクトルＶを入力とし、映画のジャンルを分類結果として出力する。

単一特徴分類部６１，６２は、それぞれ単一のモーダリティの特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが入力され、それぞれのモーダリティに対応した分類結果を出力する。単一特徴分類部６１，６２は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成する。なお、統合特徴分類部４０及び単一特徴分類部６１，６２のモデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

図１の実施形態では、単一特徴分類部６１は、テキストデータ（映画のプロット）の特徴ベクトルＶ_f1を入力とし、プロットに基づく映画のジャンルを分類結果Ｔとして出力する。また、単一特徴分類部６２は、画像データ（映画のポスター）の特徴ベクトルＶ_f2を入力とし、ポスターに基づく映画のジャンルを分類結果Ｐとして出力する。

図２に、単一特徴分類部６１，６２と統合特徴分類部４０の構成について一例を示す。前述のとおり、単一特徴分類部６１，６２には、それぞれ単一のモーダリティの特徴ベクトルＶ_f1、Ｖ_f2が入力され、また、特徴統合部３０で各モーダリティの特徴を統合した統合特徴ベクトルＶが統合特徴分類部４０に入力される。

単一特徴分類部６１，６２及び統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、特徴ベクトルが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られる映画のジャンルに対応する出力層とを備える。なお、中間層は一層に限られず、複数層であってもよい。また、出力層には、入力した映画が対応するジャンルである確率値（スコア）が出力される。

なお、統合特徴分類部４０は、学習終了後に、情報分類装置の統合特徴分類部４０として機能するブロックであるが、単一特徴分類部６１，６２は、情報分類装置の学習時にのみ機能するブロックであり、情報分類装置としては機能しない。

図１に戻って、学習装置１００は、更に学習終了判定手段５０，５１，５２を備えている。

学習装置１００は、学習モードにおいては、統合特徴分類部４０から出力された学習データによる分類結果を正解ラベルと比較して正解データに基づくフィードバックを行い、統合特徴分類部４０、特徴統合部３０、及び特徴抽出部２１，２２の学習（モデルの調整）を行う。また、単一特徴分類部６１から出力されたテキストデータ（学習データ）による分類結果Ｔを学習データの正解ラベル（各モーダリティの正解ラベルとデータの正解ラベルは共通）と比較し、単一特徴分類部６１及び特徴抽出部２１に対して正解データに基づくフィードバックを行い、特徴抽出部２１及び単一特徴分類部６１の学習（モデルの調整）を行う。同様に、単一特徴分類部６２から出力された画像データ（学習データ）による分類結果Ｐを学習データの正解ラベルと比較し、単一特徴分類部６２及び特徴抽出部２２に対して正解データに基づくフィードバックを行い、特徴抽出部２２及び単一特徴分類部６２の学習（モデルの調整）を行う。

なお、全体の分類結果に基づく特徴抽出部２１，２２の学習と、分類結果Ｔ又は分類結果Ｐに基づく特徴抽出部２１，２２の学習は、一方を他方に優先させて学習を行うことができる。例えば、特徴抽出部２１，２２の学習は、単一モーダリティによる分類結果に基づいて行い、全体の分類結果による学習は、特徴統合部３０と統合特徴分類部４０の学習に利用するように構成してもよい。

学習終了判定手段５１は、検証データの分類結果Ｔと正解データから、単一特徴分類部６１及び特徴抽出部２１の学習状態を把握し（過学習の発生を検知し）、学習終了の判定を行う。すなわち、学習終了判定手段５１は、特徴抽出部２１の学習の終了を決定し、特徴抽出部２１の学習終了（最善のモデル）の決定後は、特徴抽出部２１がそれ以上の学習を受け付けないようにする。学習終了判定手段５１により、特徴抽出部２１は個別に学習プロセスが制御され、独自の最適な学習回数による学習が行われる。

同様に、学習終了判定手段５２は、検証データの分類結果Ｐと正解データから、単一特徴分類部６２及び特徴抽出部２２の学習状態を把握し（過学習の発生を検知し）、学習終了の判定を行う。すなわち、学習終了判定手段５２は、特徴抽出部２２の学習の終了を決定し、特徴抽出部２２の学習終了（最善のモデル）の決定後は、特徴抽出部２２がそれ以上の学習を受け付けないようにする。学習終了判定手段５２により、特徴抽出部２２は個別に学習プロセスが制御され、独自の最適な学習回数による学習が行われる。学習終了判定手段５１，５２は、特徴抽出部学習終了判定手段ということができる。

学習終了判定手段５０は、検証データの分類結果と正解データから統合特徴分類部４０の出力精度を求め、学習装置１００全体の学習終了の判定を行う。学習終了判定手段５０は、特徴抽出部２１，２２の学習終了後に、特徴統合部３０及び統合特徴分類部４０からなる学習ブロック４２の学習の終了を判定する。

なお、図１では、学習終了判定手段５０，５１，５２をそれぞれ独立の処理部として図示したが、各学習終了判定手段のアルゴリズムは共通であるから、学習終了判定手段５０，５１，５２を一体化して、共通の学習終了判定手段としてもよい。

本発明は、各表現（モーダリティ）の特徴ベクトルをそれぞれ単一特徴分類部６１，６２に入力し、その分類結果を正解データと比較することで、モーダリティデータの種類ごとに、特徴抽出部２１，２２の学習及び学習終了判定をするようにしている。モーダリティごとに学習を終了するタイミング（学習終了時期）を最適に制御することで、特定のモーダリティの特徴抽出部の過学習による分類モデルの精度低下を防ぐことができる。

図３に、本発明の学習装置１００の学習アルゴリズムの例をフローチャートで示す。以下、各ステップについて説明する。

ステップＳ１１：学習装置１００に対して、学習データの画像及びテキストを入力する。ここでは、図１の学習装置１００に対応させて、モーダリティとして画像とテキストを例示しているが、装置に応じて、更に、音声や動画等、様々なモーダリティデータを入力してもよい。

ステップＳ１２：入力された学習データにより、学習を実行する。具体的には、学習データによる分類結果と正解ラベルとを比較し、その結果に基づいて、特徴抽出部２１，２２、特徴統合部３０、単一特徴分類部６１，６２、及び統合特徴分類部４０のモデルの調整を行う。

ステップＳ１３：学習データによる学習後に、学習終了判定を行うタイミングか判断する。学習終了判定を行うタイミングは予め設定しておき、例えば、全ての学習データを１回ずつ学習に用いたタイミング（エポック終了時）と設定することができる。すなわち、１エポックの学習が終了したら学習終了判定を行うこととする。学習終了判定を行うタイミングに達していない場合は、ステップＳ１１に戻る。タイミングに達した場合は、次のステップＳ１４に進む。

ステップＳ１４：学習終了判定手段により、学習装置１００の学習を終了するかの判定を行う。判定処理については、後に詳述するが、まず、検証データにより単一特徴分類部６１，６２の結果を評価し、学習終了条件を満たした場合に、特徴抽出部２１，２２の学習を終了する。そして、全てのモーダリティの特徴抽出部の学習が終了したのち、統合特徴分類部４０の評価結果を参照し、学習終了条件を満たした場合に、特徴統合部３０及び統合特徴分類部４０の学習を終了する。いずれかのブロックが学習終了条件を満たしていない場合は、ステップＳ１１に戻る。全ての学習終了条件を満たした場合は、次のステップＳ１５に進む。

ステップＳ１５：学習済みのモデル（ここでは、情報分類装置のモデル）を出力又は保存する。

以上のステップを経て、学習アルゴリズムのフローチャートを終了する。

次に、学習終了判定手段の処理（図３のステップＳ１４）について詳述する。図４に、学習終了判定手段による学習終了判定アルゴリズムの例をフローチャートで示す。各ステップについて説明する。

ステップＳ２１：学習装置１００に対して、検証データのテキスト及び画像を入力する。なお、ここでは、図１の学習装置１００に対応させて、モーダリティとしてテキストと画像を例示しているが、装置に応じて、更に、音声や動画等、様々なモーダリティデータを入力してもよい。

ステップＳ２２：全ての特徴抽出部２１，２２（及び単一特徴分類部６１，６２）の学習が終了しているか否か判断する。全特徴抽出部の学習が終了していない場合は、次のステップＳ２３に進む。学習が終了している場合はステップＳ３２に進む。

ステップＳ２３：学習が終了していない特徴抽出部に関連する単一特徴分類部の出力の精度を計算・記録する。検証データの分類結果（Ｔ，Ｐ）及び正解データから、検証データに関する精度を求めることができる。精度として、分類結果と正解データの違いを表すロス関数の値や、分類結果の正解率などを用いることができる。その後、ステップＳ２４に進む。

ステップＳ２４：保存されているモデルに基づく出力の精度と比較して、現在のモデルによる出力の精度が改善したか判断する。改善した場合は次のステップＳ２５に進み、改善しない場合はステップＳ２７に進む。

ステップＳ２５：現在のモデルを保存し、ステップＳ２６に進む。

ステップＳ２６：学習装置１００の学習を再開する。すなわち、図３のフローチャートの開始に戻る。

ステップＳ２７：（精度の改善がない場合）単一特徴分類部の学習終了条件を満たすか判断する。学習終了条件としては、例えば「予め決めた期間（例えば、１０エポック）精度が改善しない」等と設定することができる。学習終了条件を満たさない場合は、ステップＳ３１に進む。学習終了条件を満たす場合は、次のステップＳ２８に進む。

ステップＳ２８：学習終了条件を満たした特徴抽出部に対応する単一特徴分類部の出力の精度が最善のモデルを読み込む。次いで、ステップＳ２９を行う。

ステップＳ２９：読み込んだモデルが記録された時点よりも後に記録されたモデル及び分類結果の精度を破棄する。次いで、ステップＳ３０を行う。

ステップＳ３０：学習終了条件を満たした特徴抽出部の学習を終了する。若しくは、学習を直ちに終了する代わりに学習率を小さくする（例えば前の学習率に１／１０を掛ける）ことを行ってもよい。この場合、所定の回数、学習率を小さくして学習した後に、学習終了条件を満たすか判断（Ｓ２７）をする。特徴抽出部の学習を終了後、ステップＳ３１に進む。

なお、ここで学習率とは、ニューラルネットワークのパラメータ（重み）を学習により更新する際の更新の幅を設定する係数に相当する。例えば、学習データによる出力データと正解データとの誤差関数ｆの傾き（∂ｆ／∂ｘ）に学習率（ε）を乗じた値を現在の変数（重み値）ｘ_iから減じて、新たな変数ｘ_i+1を算出する。こうしてパラメータ（重み）を最適な値に調整する。学習率を０にすることが学習の終了に相当する。

ステップＳ３１：学習装置１００の学習を再開する。すなわち、図３のフローチャートの開始に戻る。

ステップＳ３２：統合特徴分類部４０の出力の精度を計算・記録する。ステップＳ２３と同様に、精度として、分類結果と正解データの違いを表すロス関数の値や、分類結果の正解率などを用いることができる。その後、ステップＳ３３に進む。

ステップＳ３３：保存されているモデルに基づく出力精度と比較して、現在の統合特徴分類部のモデルによる出力精度が改善したか判断する。改善した場合は次のステップＳ３４に進み、改善しない場合はステップＳ３６に進む。

ステップＳ３４：現在のモデルを保存し、ステップＳ３５に進む。

ステップＳ３５：学習装置１００の学習を再開する。すなわち、図３のフローチャートの開始に戻る。

ステップＳ３６：統合特徴分類部の学習終了条件を満たすか判断する。ステップＳ２７と同様に、学習終了条件としては、例えば「予め決めた期間（例えば、１０エポック）精度が改善しない」等と設定することができる。学習終了条件を満たさない場合は、ステップＳ３５に進む。学習終了条件を満たす場合は、次のステップＳ３７に進む。

ステップＳ３７：統合特徴分類部の出力の精度が最善のモデルを保存して、学習を終了する。なお、学習を直ちに終了する代わりに学習率を小さくする（例えば前の学習率に１／１０を掛ける）ことを行ってもよい。この場合、所定の回数学習率を小さくして学習した後、学習終了条件を満たすか判断（Ｓ３６）し、その後、統合特徴分類部の出力の精度が最善のモデルを保存して、学習を終了する。

以上で学習終了判定手段の動作を終了する。この後は、図３のフローチャートのステップＳ１５に進み、最適なモデルを出力又は保存する。

（実施の形態２）
次に、本発明の情報分類装置について説明する。図５に、本発明の情報分類装置のブロック図の一例を示す。

情報分類装置２００は、第１から第ＭのＭ種類のモーダリティデータからなるデータが入力され、このデータの種別を判定し、分類結果を出力する。情報分類装置２００は、第１ベクトル化部１１，第２ベクトル化部１２，〜第Ｍベクトル化部１３，第１特徴抽出部２１，第２特徴抽出部２２，〜第Ｍ特徴抽出部２３、特徴統合部３０、及び統合特徴分類部４０を備える。この情報分類装置２００は、全体を一つのコンピュータとプログラムにより構成することができる。

本発明の情報分類装置２００は、図１の学習装置１００の学習終了後に、単一特徴分類部６１，６２と学習終了判定手段５０，５１，５２を削除（又は、機能を停止）させたものとして構成することができる。若しくは、第１特徴抽出部２１，第２特徴抽出部２２，〜第Ｍ特徴抽出部２３、特徴統合部３０、及び統合特徴分類部４０に対して、図１の学習装置１００で学習を行った各部の学習済みモデルをそれぞれ反映した装置として構成することができる。

第１ベクトル化部１１は、第１モーダリティデータを学習モデルに入力可能なベクトルＶ₁に変換し、第１特徴抽出部２１に出力する。第１モーダリティデータは、例えばテキストデータとすることができる。また、第２ベクトル化部１２は、第２モーダリティデータを学習モデルに入力可能なベクトルＶ₂に変換し、第２特徴抽出部２２に出力する。第２モーダリティデータは、例えば画像データとすることができる。他のベクトル化部も同様であり、第Ｍベクトル化部１３は、第Ｍモーダリティデータを学習モデルに入力可能なベクトルＶ_Mに変換し、第Ｍ特徴抽出部２３に出力する。第Ｍモーダリティデータは、例えば音声データであり、各ベクトル化部はそれぞれ異なるモーダリティのデータを処理する。

Ｍ個のモーダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、第１〜第Ｍベクトル化部１１〜１３は、各モーダリティデータを学習モデルに入力するための前処理を行うブロックであるから、情報分類装置２００と分離された前処理手段として構成されてもよい。

第１特徴抽出部２１は、第１特徴抽出モデル（図示せず）を備える。第１特徴抽出部２１は、第１モーダリティデータ（例えば、テキストデータ）をベクトル化したベクトルＶ₁を第１特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を特徴統合部３０へ出力する。第１特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f1を出力するための最適な学習が行われている。

また、第２特徴抽出部２２は、第２特徴抽出モデル（図示せず）を備え、第２モーダリティデータ（例えば、画像データ）をベクトル化したベクトルＶ₂を第２特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を特徴統合部３０へ出力する。第２特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f2を出力するための最適な学習が行われている。他の特徴抽出部も同様であり、第Ｍ特徴抽出部２３は、第Ｍ特徴抽出モデル（図示せず）を備え、第Ｍモーダリティデータ（例えば、音声データ）をベクトル化したベクトルＶ_Mを第Ｍ特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_fMを特徴統合部３０へ出力する。入力が系列データの場合は、特徴抽出モデルに再起型ニューラルネットワークを用いることができる。なお、各特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

Ｍ個のモーダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが生成される。ここで、各特徴抽出部２１〜２３の特徴抽出モデルは、図１の学習装置１００で学習した学習済みモデルであり、各特徴抽出部の出力した特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMをそれぞれ単一特徴分類部に入力し、その結果得られた分類結果が最も精度の高い結果となるように、それぞれのモーダリティ毎に最適な学習回数（エポック回数）で学習が調整されている。モーダリティごとに学習の終了時期を制御することで、各モーダリティの特徴抽出部の過学習が防止され、それぞれが最適な学習済みモデルとなっている。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して一つのベクトル（統合特徴ベクトル）Ｖを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ（Gated Multimodal Unit）、CentralNet等を用いることができ、そのモデルは図１の学習装置１００により学習済みで最適化されている。

統合特徴分類部４０は、統合特徴ベクトルＶに基づいて、分類結果を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成することができるが、ニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。統合特徴分類部４０のモデルは、図１の学習装置１００で学習したものであり、全てのモーダリティの特徴抽出部２１〜２３の学習が終了した後も学習を行い、統合特徴分類部の学習終了条件を満たしたとき、特徴統合部３０及び統合特徴分類部４０の学習を終了した学習済みモデルである。すなわち、統合特徴分類部４０のモデルは、特徴抽出部２１〜２３の学習済みモデルを前提として、学習により最適化されたモデルである。特徴抽出部と独立して学習の終了時期を制御することで、過学習が防止され、分類精度が高い最適なモデルとなっている。

このように、図５の情報分類装置２００は、モーダリティごとの特徴抽出部に最適な、過学習のない学習済みモデルが格納されており、複数のモーダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。

（発明の効果の確認）
本発明の学習装置及び情報分類装置の効果を評価するため、本発明の学習装置で学習した情報分類装置と、従来の学習手法（図６参照）で学習した情報分類装置とにより、実際に分類の実験を行い比較した。両者は、装置のハードウエアは同一であり、モデルの学習過程のみが異なっている。実験条件は、次のとおりである。

データセットとして、マルチモーダルＩＭＤｂデータセット２５，９５９件を用いた。ＩＭＤｂ（Internet Movie Database）データセットは多数の映画に関するデータセットであり、各映画のプロット、ポスター、ジャンル、俳優等、様々な情報が含まれている。本実験では、２５，９５９件のデータを次のように区分して利用した。
学習データ・・・データセットのうち１５，５５２件
検証データ・・・データセットのうち２，６０８件
評価データ・・・データセットのうち７，７９９件
すなわち、学習データを用いて情報分類装置の学習を行い、検証データを用いて学習の終了判定を行い、評価データを用いて学習済み情報分類装置の性能を評価した。

装置に入力するモーダリティデータとしては、映画のポスターの画像及び映画のプロットのテキストを入力データとした。また、装置の出力としては、統合特徴分類部４０の出力層（図２）において、２３のジャンルについて当てはまる確率値を示すスコアを出力とした。

情報分類装置の構成として、特徴統合部３０の統合処理は、要素ごとの和、ＧＭＵ、CentralNetの３パターンを準備し、それぞれの構成で実験を行った。

正誤判定に用いるジャンルの判定は、装置の出力層におけるそれぞれのジャンルのスコアが０．５以上かどうかで判断した。本発明と従来手法を比較するにあたり、適合率（precision）と再現率（recall）の調和平均をとった「Ｆ値」を評価値として比較した。

なお、適合率（precision）とは、そのモデルがあるジャンル（例えば、ドラマ）と判定したものの中で、正解が本当にそのジャンル（ドラマ）であったものの割合であり、再現率（recall）とは、正解があるジャンル（例えば、ドラマ）であるもののうち、モデルがそのジャンル（ドラマ）であると判定した割合を意味する。結果として、「Ｆ値」は分類の精度を表す指標となり、Ｆ値＝１が１００％正解を意味する。

表２に、実験結果として、本発明と従来手法によるＦ値の比較を示す。

実験結果によれば、情報分類装置の特徴統合部３０の統合処理が、要素ごとの和、ＧＭＵ、CentralNetの３パターンのいずれの場合も、本発明による分類結果のＦ値が、従来手法による分類結果のＦ値を上まわっており、本発明の学習装置による学習効果が優れていることが確認できた。

上記の実施の形態１では、学習装置１００の構成と動作について説明したが、本発明はこれに限らず、学習装置１００により情報分類装置２００の学習を行う学習方法として構成されてもよい。すなわち、図３及び図４に示されるフローチャートの各ステップを備えた学習方法として構成されても良い。

また更に、上記の実施の形態２では、情報分類装置２００の構成と動作について説明したが、本発明はこれに限らず、情報分類装置２００を用いたマルチモーダルデータの分類方法として構成されてもよい。すなわち、図５のデータの流れに従って、複数のモーダリティデータから特徴ベクトルを生成する工程、統合特徴ベクトルを生成する工程、分類結果を判定する工程を備えた、マルチモーダルデータの分類方法として構成されても良い。

なお、上述した学習装置１００又は情報分類装置２００として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、学習装置１００又は情報分類装置２００の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１１〜１３ベクトル化部
２１〜２３特徴抽出部
３０特徴統合部
４０統合特徴分類部
５０〜５２学習終了判定手段
１００学習装置
２００情報分類装置

Claims

マルチモーダル情報を分類する情報分類モデルを生成する学習装置であって、
複数のモーダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、
個別の前記特徴ベクトルに基づいて分類結果を出力する単一特徴分類部と、
前記特徴抽出部の学習終了判定を行う特徴抽出部学習終了判定手段と、
前記統合特徴分類部の学習終了判定を行う学習終了判定手段と、を備え、
学習データを用いて少なくとも前記特徴抽出部と前記統合特徴分類部の学習を行い、前記特徴抽出部と前記統合特徴分類部の学習終了時期を個別に制御することを特徴とする、学習装置。
請求項１に記載の学習装置において、
前記特徴抽出部学習終了判定手段は、検証データに対する前記単一特徴分類部の出力と正解データとに基づいて、前記特徴抽出部の学習終了を判定することを特徴とする、学習装置。
請求項１又は２に記載の学習装置において、
前記学習終了判定手段は、前記特徴抽出部の学習終了後に、検証データに対する前記統合特徴分類部の出力と正解データとに基づいて、前記統合特徴分類部の学習終了を判定することを特徴とする、学習装置。
請求項１乃至３のいずれか一項に記載の学習装置において、
前記特徴抽出部、前記単一特徴分類部、及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することを特徴とする、学習装置。
請求項１乃至４のいずれか一項に記載の学習装置の前記単一特徴分類部、前記特徴抽出部学習終了判定手段、及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする、情報分類装置。
マルチモーダル情報を分類する情報分類装置であって、
複数のモーダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モーダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて分類結果を出力する統合特徴分類部と、を備え、
前記特徴抽出部と前記統合特徴分類部は、過学習が防止された最適な学習済みモデルに個別に調整されていることを特徴とする、情報分類装置。
請求項６に記載の情報分類装置において、
前記統合特徴分類部のモデルは、前記特徴抽出部の学習済みモデルを前提として、学習により最適化されたモデルであることを特徴とする、情報分類装置。
コンピュータを、請求項１乃至４のいずれか一項に記載の学習装置として機能させる、プログラム。
コンピュータを、請求項５乃至７のいずれか一項に記載の情報分類装置として機能させる、プログラム。