JP7514141B2

JP7514141B2 - 学習装置、情報分類装置、及びプログラム

Info

Publication number: JP7514141B2
Application number: JP2020137150A
Authority: JP
Inventors: 真綱藤森
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Filing date: 2020-08-14
Publication date: 2024-07-10
Anticipated expiration: 2040-08-14

Description

本発明は、学習装置、情報分類装置、及びプログラムに関し、特に、画像とテキスト等複数の表現が組み合わさった情報が、どのような種類の情報であるかを分類するための学習装置、情報分類装置、及びプログラムに関する。

近年、ニューラルネットワーク（Neural Network）等を用いた人工知能（ＡＩ）が、画像認識や音声認識、言語処理等、様々な分野に利用されている。これまでの人工知能を用いた装置は、特定の表現種類のデータ（例えば、画像のみのデータ）を扱うことに特化した装置が殆どであったが、最近は、画像、音声、テキスト等、一つの対象に対する複数の表現（モダリティ）を取り扱う装置の研究も進められている。

例えば、マルチモーダルモデルを用いた自動ビデオ記述システムが提案されている（特許文献１）。また、画像の内容に関連する質問に回答するために、画像とテキストを処理するマルチモーダルモデルを用いた画像質問応答システムが提案されている（特許文献２）。また、各モダリティの出力への影響を決定する学習可能な重みを用いて複数のモダリティの情報を統合する手法が提案されている（非特許文献１）。

さらに、複数のモダリティが組み合わさった情報（マルチモーダル情報、又はマルチモーダルデータと言う。）を分類する方法が提案されており（非特許文献２）、各モダリティを学習可能な重みを用いて複数の段階で統合する手法が開示されている。この分類方法は、統合された特徴による分類モデルに加えて、統合する前の単一モダリティの特徴による分類モデルを同時に学習するマルチタスク学習を行うことで、分類精度の向上を図っている。

一方、ニューラルネットワークおいてマルチタスク学習の改良も試みられており、２つ以上の認識タスクを学習させる場合に、認識タスクの識別精度が向上するように学習パラメータを設定する方法が提案されている（特許文献３）。

図１１は、本発明者が開発してきた従来のマルチモーダル情報分類装置とその学習装置のブロック図である。マルチモーダル情報分類装置は、ベクトル化部１１，１２と、特徴抽出部２１，２２と、特徴統合部３０と、統合特徴分類部４０と、正規化部４１とを備えており、マルチモーダル情報として、例えばテキストデータと画像データが入力される。

ベクトル化部１１は、テキストデータが入力され、これを学習モデルに入力可能な形式であるベクトルＶ₁に変換し、特徴抽出部２１に出力する。同様に、ベクトル化部１２は、画像データが入力され、これを学習モデルに入力可能な形式であるベクトルＶ₂に変換し、特徴抽出部２２に出力する。

特徴抽出部２１は特徴抽出モデルを備えており、テキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を出力する。

特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを生成し、統合特徴分類部４０へ出力する。そして、統合特徴分類部４０は、ニューラルネットワーク等を用いて構成されており、統合特徴ベクトルＶを入力として、分類出力値を出力する。この分類出力値を正規化部４１で正規化し、分類結果を出力する。こうして、マルチモーダル情報分類装置は、テキストデータと画像データ等の複数のモダリティの組み合わせ情報から、情報の分類を行うことができる。

このようなマルチモーダル情報分類装置には、ニューラルネットワーク等で構成されたモデルが利用されるが、装置を適切に動作させるためには、一般に学習データを用いて繰り返し学習を行い、モデル（パラメータ）を最適なものとなるように収束させること（いわゆる、機械学習）が必要である。

図１１のマルチモーダル情報分類装置も学習モードを備えており、マルチモーダル情報分類装置に更に、損失計算部５０及び学習終了判定手段６０を設け、学習装置を構成している。マルチモーダル情報分類装置は、学習モードにおいて、学習データで得られた分類結果を正解ラベル（正解データ）と比較して損失計算部５０で損失（誤差）計算を行い、その計算結果を学習ブロック６１へフィードバックして情報分類装置内部のモデルを調整し、学習を行う。そして、学習終了判定手段６０は、検証データによって学習状態の評価を行い、学習ブロック６１の学習の継続又は終了を判定する。

特表２０１９－５３５０６３号公報特表２０１７－５３４９５６号公報特開２０１９－１９２００９号公報

J. Arevalo, et al.，"Gated Multimodal Units for Information Fusion"，5th International Conference on Learning Representations Workshop，2017年，pp. 1-17 V. Vielzeuf, et al.，"CentralNet: A Multilayer Approach for Multimodal Fusion"，European Conference on Computer Vision Workshop，2018年，pp. 1-15

マルチモーダル機械学習とは、画像、音声、テキストなど、一つの対象に対する複数の表現（モダリティ）を入力として、分類などのタスクを解くモデルを構築することである。図１１を参照すると、機械学習では、学習データの分類結果に対して正解ラベル（正解データ）と比較した損失計算結果がフィードバックされて、統合特徴分類部４０、特徴統合部３０、特徴抽出部２１，２２に順次反映され、損失（誤差）を小さくするようにそれぞれのモデルの修正が行われる。そして、学習を繰り返した後、学習終了判定手段６０が、モデルが最適な状態となった時期を判定して、学習を終了する。従来のマルチモーダル機械学習は、テキストデータの特徴抽出部２１、画像データの特徴抽出部２２、特徴統合部３０、及び統合特徴分類部４０の全体を学習ブロック６１として、一つの損失計算に基づいて学習を行っていた。すなわち、異なる表現に関する特徴抽出部２１，２２、及び統合特徴分類部４０のそれぞれのモデルに対して、同一のデータによる共通の学習プロセスを行っていた。

しかしながら、一般にマルチモーダルなデータには、その一部のモダリティからは分類判断が難しいデータが存在する。マルチモーダル学習において、各モダリティがどの程度分類に有用かはデータによって異なるにもかかわらず、データの有用性を考慮せずに学習を行うことにより、有用性の低いデータによる過度の学習、いわゆる「過学習（過剰適合、Overfittingともいう）」が生じ、マルチモーダル機械学習による精度向上の効果が低下するという課題がある。

したがって、上記のような問題点に鑑みてなされた本発明の目的は、マルチモーダル情報を分類する情報分類のモデルを生成する際に、一部の有用性の低いモダリティデータに基づく過学習による精度低下を防ぐことができ、モダリティ統合による効果を十分に活かすことができる学習装置及びプログラムを提供することにある。

また、本発明の目的は、複数のモダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダル情報をより正確に分類することができる、情報分類装置及びプログラムを提供することにある。

上記課題を解決するために本発明に係る学習装置は、マルチモーダル情報を分類する情報分類装置のモデルを生成する学習装置であって、複数のモダリティデータをベクトル化するベクトル化部と、ベクトル化された各モダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて分類結果を導出する統合特徴分類部と、前記分類結果と正解ラベルとを比較して損失を計算する損失計算部と、学習終了判定を行う学習終了判定手段と、を備え、学習データを用いて学習を行う際に、前記学習データの各モダリティデータの有用度の情報を利用することを特徴とする。

また、前記学習装置は、さらに、単一の前記特徴ベクトルに基づいて個別分類結果を導出する単一特徴分類部と、前記個別分類結果と正解ラベルとを比較して損失を計算する単一損失計算部と、を備え、前記単一損失計算部は、前記学習データのうち、当該モダリティが有用であるデータのみを損失計算に使用することが望ましい。

また、前記学習装置は、さらに、前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、前記有用度ベクトルを正規化してなる推定結果と各学習データの有用度ラベルとを比較して損失を計算する損失計算部と、を備え、前記統合特徴分類部は、前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出することが望ましい。

また、前記学習装置は、さらに、単一の前記特徴ベクトルに基づいて個別分類結果を導出する単一特徴分類部と、前記個別分類結果と正解ラベルとを比較して損失を計算する単一損失計算部と、前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、前記有用度ベクトルを正規化してなる推定結果と各学習データの有用度ラベルとを比較して損失を計算する損失計算部と、を備え、前記単一損失計算部は、前記学習データのうち、当該モダリティが有用であるデータのみを損失計算に使用し、前記統合特徴分類部は、前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出することが望ましい。

また、前記学習装置は、前記特徴抽出部及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することが望ましい。

上記課題を解決するために本発明に係る情報分類装置は、前記学習装置の前記損失計算部及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする。

上記課題を解決するために本発明に係る情報分類装置は、マルチモーダル情報を分類する情報分類装置であって、複数のモダリティデータをベクトル化するベクトル化部と、ベクトル化された各モダリティデータから特徴ベクトルを生成する特徴抽出部と、複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出する統合特徴分類部と、を備え、前記特徴抽出部、前記特徴有用度推定部、及び前記統合特徴分類部は、ニューラルネットワークを用いて構成することを特徴とする。

また、前記情報分類装置は、前記特徴抽出部は、当該モダリティが有用であるデータのみを損失計算に使用する学習により最適化されていることが望ましい。

上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記学習装置として機能させることを特徴とする。

上記課題を解決するために本発明に係るプログラムは、コンピュータを、前記情報分類装置として機能させることを特徴とする。

本発明の学習装置及びプログラムによれば、マルチモーダル情報を分類する情報分類のモデルを生成する際に、一部の有用性の低いモダリティデータに基づく過学習による精度低下を防ぐことができ、モダリティ統合による効果を十分に活かすことができる。

また、本発明の情報分類装置及びプログラムによれば、複数のモダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。

第１実施形態の学習装置のブロック図の一例である。第１実施形態の特徴分類部の構成の一例を示す図である。本発明の学習装置の学習アルゴリズムの例を示すフローチャートである。学習終了判定アルゴリズムの例を示すフローチャートである。第２実施形態の学習装置のブロック図の一例である。第２実施形態の特徴分類部の構成の一例を示す図である。第３実施形態の学習装置のブロック図の一例である。第３実施形態の特徴分類部の構成の一例を示す図である。本発明の情報分類装置のブロック図の一例である。本発明の情報分類装置のブロック図の別の例である。従来のマルチモーダル情報分類装置とその学習装置のブロック図である。

以下、本発明の実施の形態について、図を参照して説明する。

（第１の実施の形態）
図１に、本発明の第１実施形態の学習装置のブロック図の一例を示す。図１は、マルチモーダル情報を分類する情報分類装置のモデル（情報分類モデル）を構築するための、マルチモーダル機械学習を行う学習装置である。

学習装置１００は、情報分類装置を構成するベクトル化部１１，１２、特徴抽出部２１，２２、特徴統合部３０、統合特徴分類部４０、及び正規化部４１に加えて、単一特徴分類部４２，４４と、正規化部４３，４５と、損失計算部５０～５２と、学習終了判定手段６０とを備えている。図１１の従来の学習装置と比較すると、単一特徴分類部４２，４４と、正規化部４３，４５と、損失計算部５１，５２が追加されている。図１では、複数の表現（モダリティ）として、テキストと画像（ＲＧＢ画像）を例示しているが、更に、音声、動画像、デプス画像等、多数の様々なモダリティに対応してもよい。この学習装置１００は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、損失計算部５０～５２及び学習終了判定手段６０は、別のコンピュータで構成してもよい。以下、各構成について説明する。

学習時には、学習装置１００に学習データが入力される。学習データには、複数のモダリティを一組としたデータ（マルチモーダルデータ）を用いる。例えば、１つのデータがＭ個のモダリティを持つとする（図１では、Ｍ＝２）。なお、学習のための各データには、情報の種別（カテゴリ）を示す正解ラベル（正解データ）と、後述する有用度ラベルが付与されている。

本実施形態では、ツイッター（Twitter）への投稿（ツイート）の画像とメッセージ（テキスト）から、投稿の種別（ツイート内容のカテゴリ）を分類する情報分類モデルを例として説明する。例えば、ある投稿（ツイート）を一つのデータとし、データは、投稿のテキストデータと画像データを持つ。また、正解ラベルとして、火事、洪水、交通事故等のツイートした事件内容のカテゴリが付与されている。

ベクトル化部１１，１２は、学習データの各モダリティ（モダリティデータと言うことがある。）の入力をベクトル化し、学習モデルに入力可能な形式に変換する。Ｍ個のモダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、ベクトル化部１１，１２は、各モダリティデータを学習モデルに入力するための前処理を行うブロックであるから、学習装置（又は情報分類装置）と分離された前処理手段として構成されてもよい。

図１のベクトル化部１１は、テキストデータを学習モデルに入力可能なベクトルＶ₁に変換し、特徴抽出部２１に出力する。例えば、テキスト（文）を単語に分割し、分割された単語から文単位の分散表現ベクトルを生成する。若しくは、単語にＩＤを割り当てたｏｎｅ－ｈｏｔベクトルの系列を用いることができる。

テキストデータのベクトル化の例を説明する。まず、次のように、テキストデータを単語に分割する（単語の区切りを／で示す）。
「近所で火事らしい…」 ⇒ 「近所／で／火事／らしい／…」

そして、分割された単語を分散表現ベクトルに変換し、更に文単位の分散表現ベクトルを生成する。なお、分散表現ベクトルは、意味が近い単語を近いベクトルに対応させて、単語を有限の高次元（例えば、３００次元）の数値ベクトルで表現したものである。分散表現ベクトルは、例えば、ｗｏｒｄ２ｖｅｃやＧｌｏＶｅ（Global Vectors for Word Representation）等の一般的な手法により生成することができる。

表１に示すように、まず、各単語をｎ次元の分散表現ベクトルに変換する。次いで、全単語の分散表現ベクトルの合計（全単語合計）を求める。この分散表現ベクトルの合計を単語数で割ったもの（全単語合計／単語数）を、文単位単語分散表現ベクトル（テキストデータ全体を表すベクトルＶ₁）とすることができる。なお、このベクトル化手法は一例であり、他の手法でテキストデータのベクトル化を行ってもよい。

ベクトル化部１２は、画像データを学習モデルに入力可能な形式であるベクトルＶ₂に変換し、特徴抽出部２２に出力する。例えば、画像データの場合は、単に画素値を並べてベクトルとすることができる。又は、画像中の特徴点（被写体の角、弧、十字等の特徴的な点）の出現頻度を算出し、これらを数値として並べてベクトルとしてもよい。若しくは、画像データを学習済みの画像分類モデルに入力し、中間層の出力を用いることができる。

特徴抽出部２１，２２は、それぞれ特徴抽出モデルを備えており、Ｍ個のモダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを生成する。特徴抽出部には、ニューラルネットワークの全結合層や畳み込み層を用いることができる。入力が系列データの場合はＬＳＴＭ（Long short-term memory）やＧＲＵ（Gated Recurrent Unit）といった再起型ニューラルネットワークを用いることが望ましい。系列データの例としては、例えば、音声、動画像等であり、文章データを系列データとして取り扱う場合もある。なお、特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

図１の実施形態において、特徴抽出部２１はテキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を生成し、単一特徴分類部４２と特徴統合部３０に出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を生成し、単一特徴分類部４４と特徴統合部３０に出力する。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して一つのベクトル（統合特徴ベクトル）Ｖを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積等、一般的な計算処理を用いてもよい。若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ（Gated Multimodal Unit）、CentralNet等（非特許文献１，２を参照）を用いることができる。本実施形態では、特徴統合部３０に学習可能なモデルを用い、学習データで学習を行うものとして説明する。

図１では、特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを統合特徴分類部４０へ出力する。

統合特徴分類部４０は、統合特徴ベクトルＶに基づいて、分類出力値を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ：Feed Forward Neural Network）を適用して構成する。図１の実施形態では、統合特徴分類部４０は、ツイートのメッセージ（テキスト）の特徴（Ｖ_f1）と画像の特徴（Ｖ_f2）を統合した統合特徴ベクトルＶを入力とし、ツイート内容の各カテゴリの推定値を分類出力値として出力する。

正規化部４１は、統合特徴分類部４０から出力された分類出力値を、例えば、ソフトマックス関数等を用いて正規化し、分類結果を出力する。なお、正規化部４１は統合特徴分類部４０の一部であってもよく、統合特徴分類部４０が分類結果を出力するように構成されてもよい。本明細書では、正規化部４１の有無にかかわらず、統合特徴分類部４０が分類結果を導出すると表現することがある。

単一特徴分類部４２，４４は、それぞれ単一のモダリティの特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが入力され、それぞれのモダリティに対応した分類出力値を出力する。単一特徴分類部４２，４４は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成する。なお、統合特徴分類部４０及び単一特徴分類部４２，４４のモデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

図１の第１実施形態では、単一特徴分類部４２は、テキストデータ（ツイートのメッセージ）の特徴ベクトルＶ_f1を入力とし、メッセージに基づくツイート内容の各カテゴリの推定値を分類出力値として出力する。また、単一特徴分類部４４は、画像データ（ツイートの画像）の特徴ベクトルＶ_f2を入力とし、画像に基づくツイート内容の各カテゴリの推定値を分類出力値として出力する。

正規化部４３は、単一特徴分類部４２から出力された分類出力値を、例えば、ソフトマックス関数等を用いて正規化し、分類結果Ｔとして出力する。また、正規化部４５は、単一特徴分類部４４から出力された分類出力値を、例えば、ソフトマックス関数等を用いて正規化し、分類結果Ｐとして出力する。なお、単一のモダリティの特徴ベクトルから導かれた分類結果を、個別分類結果という。正規化部４３，４５は単一特徴分類部４２，４４の一部であってもよく、単一特徴分類部４２，４４が分類結果Ｔ又は分類結果Ｐを出力するように構成されてもよい。本明細書では、正規化部４３，４５の有無にかかわらず、単一特徴分類部４２，４４が個別分類結果を導出すると表現することがある。

図２に、単一特徴分類部４２，４４と統合特徴分類部４０の構成について一例を示す。前述のとおり、単一特徴分類部４２，４４には、それぞれ単一のモダリティの特徴ベクトルＶ_f1、Ｖ_f2が入力され、また、特徴統合部３０で各モダリティの特徴ベクトルを統合した統合特徴ベクトルＶが統合特徴分類部４０に入力される。

単一特徴分類部４２，４４及び統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、特徴ベクトルが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られるツイート内容のカテゴリに対応する出力層とを備える。なお、中間層は一層に限られず、複数層であってもよい。また、出力層から出力される分類出力値を正規化することにより、入力したツイート内容のカテゴリの確率値（スコア）が得られる。

なお、統合特徴分類部４０は、学習終了後に、情報分類装置の統合特徴分類部４０として機能するブロックであるが、単一特徴分類部４２，４４は、情報分類装置の学習時にのみ機能するブロックであり、情報分類装置としては機能しない。

図１に戻って、学習装置１００は、更に損失計算部５０～５２と、学習終了判定手段６０を備えている。学習装置１００は、学習モードにおいては、損失計算部５０～５２の計算結果に基づいて、ニューラルネットワーク等で構成された各特徴分類部４０，４２，４４、特徴統合部３０、及び特徴抽出部２１，２２のモデルの修正を行うとともに、学習終了判定手段６０の結果に基づいて、学習ブロック６１の学習の終了時を決定する。

損失計算部５０は、統合特徴分類部４０及び正規化部４１から出力された学習データによる分類結果を正解ラベルと比較して損失計算を行う。学習データのバッチサイズをＮ、統合特徴分類部４０の出力をソフトマックス関数で正規化して得られた分類結果をＸ₁、Ｘ₂、・・・、Ｘ_N、正解ラベルをＹ₁、Ｙ₂、・・・、Ｙ_Nとする。このとき、統合特徴分類部４０の損失は、クロスエントロピーを用いて以下の式（１）で求められる。

ただし、Ｘ_n[i]、Ｙ_n[i]はそれぞれ、Ｘ_n、Ｙ_nのｉ番目の要素であり、Ｃはクラス数である。

学習モードでは、学習データのバッチＮごとに、損失計算部５０で計算された損失（誤差）を小さくするように、統合特徴分類部４０、特徴統合部３０、及び特徴抽出部２１，２２のモデルの学習（パラメータの修正）を行う。

また、損失計算部５１は、単一特徴分類部４２及び正規化部４３から出力されたテキストデータ（学習データ）による分類結果Ｔを正解ラベル（正解ラベルは統合特徴分類と単一特徴分類で共通）と比較して、損失計算を行う。同様に、損失計算部５２は、単一特徴分類部４４及び正規化部４５から出力された画像データ（学習データ）による分類結果Ｐを正解ラベルと比較して、損失計算を行う。なお、損失計算部５１，５２は、単一のモダリティにより導かれた分類結果の損失計算をするから、単一損失計算部と言うことがある。

Ｎ個の学習データそれぞれについて、ｍ番目のモダリティの単一特徴分類部の出力をソフトマックス関数で正規化して得られた分類結果をＸ₁ ^m、Ｘ₂ ^m、・・・、Ｘ_N ^m、有用度ラベルをＬ₁、Ｌ₂、・・・、Ｌ_Nとする。なお、有用度ラベルは、各モダリティが単一モダリティによる分類に有用であれば１、有用でなければ０となる、モダリティの数と等しい長さからなるベクトルである。有用度ラベルＬ_nのｍ番目のモダリティに対応する要素をＬ_n ^m（Ｌ_n ^mは１又は０）とする。このとき、単一特徴分類部４２，４４の損失を、クロスエントロピーを用いて次の式（２）で求める。

（２）式のとおり、単一特徴分類部４２，４４の正規化された出力と正解ラベルとの損失（誤差）の計算は、当該モダリティの有用度ラベルが１のデータのみに対して行う。また、有用度ラベルがすべて０の場合は、損失も０とする。すなわち、有用度ラベルが０のデータは、モデルの学習（パラメータの修正）には寄与しない。このように、有用度の低いモダリティデータの学習への寄与度を低くする。

学習モードでは、学習データのバッチＮごとに、単一損失計算部５１，５２で計算された損失（誤差）を小さくするように、単一特徴分類部４２，４４及び特徴抽出部２１，２２のモデルの学習（パラメータの修正）を行う。

すなわち、本実施形態では、単一モダリティの特徴を用いて分類を行うモデルの学習に用いるデータを、単一モダリティによる分類に有効なデータ（当該モダリティの有用度ラベルが１のデータ）に限定する。こうすることで、単一モダリティによる分類に有効ではないデータを用いた学習が引き起こす各モダリティの特徴抽出部２１，２２の過学習を防ぎ、精度を向上させる。その結果、特徴抽出部２１の出力Ｖ_f1及び特徴抽出部２２の出力Ｖ_f2に基づいて分類を行う統合特徴分類部４０の精度も向上し、マルチタスク学習による精度向上の効果を十分に活かすことができる。

ここで使用する有用度ラベルＬは、各データのそれぞれのモダリティごとの有用性に基づいて設定されるが、例えば、以下のような手順で作成することができる。
（ｉ）１つのツイートに対し、単一のモダリティのみで分類した結果と、全てのモダリティを考慮して分類した結果を付与する。すなわち、画像のみを考慮してカテゴリを分類した画像ラベル、テキストのみを考慮してカテゴリを分類したテキストラベル、画像とテキストの両方を考慮して分類した正解ラベルを付与する。なお、画像ラベル、テキストラベルには分類が不明であることを示すラベルが含まれる。
（ii）正解ラベルと比較して各モダリティの有用度を決定する。すなわち、画像ラベルと正解ラベルが一致した場合には画像の有用度を１に、テキストラベルと正解ラベルが一致した場合にはテキストの有用度を１にする。それぞれ一致しない場合は有用度０とする。
（iii）データごとに、各モダリティの有用度を所定の順に並べ、有用度ラベルＬのベクトルとする。

ただし、有用度ラベルＬの作成方法は、上記の手順による方法に限られるものではなく、他の手法で有用度ラベルを設定してもよい。

なお、全体の分類結果に基づく特徴抽出部２１，２２の学習と、単一特徴分類の分類結果Ｔ又は分類結果Ｐに基づく特徴抽出部２１，２２の学習は、有用度ラベルＬを用いた分類結果Ｔ，Ｐの損失計算に基づく学習を、全体の分類結果（統合特徴分類部４０により導出された分類結果）に基づく学習に優先させて行ってもよい。例えば、特徴抽出部２１，２２の学習は、単一モダリティによる分類結果Ｔ，Ｐに基づいて行い、全体の分類結果による学習は、特徴統合部３０と統合特徴分類部４０の学習に利用するように構成してもよい。

学習終了判定手段６０は、検証データの分類結果と正解データから統合特徴分類部４０の出力精度を求め、学習装置１００の学習状態の評価を行う。学習終了判定手段６０は、特徴抽出部２１，２２、単一特徴分類部４２，４４、特徴統合部３０及び統合特徴分類部４０からなる学習ブロック６１の学習の継続又は終了を判定する。

図３に、本実施形態の学習装置１００の学習アルゴリズムの例をフローチャートで示す。以下、各ステップについて説明する。

ステップＳ１１：学習装置１００に対して、学習データの画像及びテキストを入力する。ここでは、図１の学習装置１００に対応させて、モダリティとして画像とテキストを例示しているが、装置に応じて、更に、音声や動画等、様々なモダリティデータを入力してもよい。

ステップＳ１２：入力された学習データにより、学習を実行する。具体的には、学習データによる分類結果と正解ラベルとを比較し、その結果に基づいて、特徴抽出部２１，２２、特徴統合部３０、単一特徴分類部４２，４４、及び統合特徴分類部４０のモデルの学習（パラメータの修正）を行う。

ステップＳ１３：学習データによる学習後に、学習終了判定を行うタイミングか判断する。学習終了判定を行うタイミングは予め設定しておき、例えば、全ての学習データを１回ずつ学習に用いたタイミング（エポック終了時）と設定することができる。すなわち、１エポックの学習が終了したら学習終了判定を行うこととする。学習終了判定を行うタイミングに達していない場合は、ステップＳ１１に戻る。タイミングに達した場合は、次のステップＳ１４に進む。

ステップＳ１４：学習終了判定手段６０により、学習装置１００の学習を終了するかの判定を行う。判定処理については、後に詳述するが、検証データにより、統合特徴分類部４０から出力された分類結果を評価し、学習終了条件を満たした場合に、学習ブロック６１の学習を終了する。学習終了条件を満たしていない場合は、ステップＳ１１に戻る。全ての学習終了条件を満たした場合は、次のステップＳ１５に進む。

ステップＳ１５：学習済みのモデル（ここでは、情報分類装置のモデル）を出力又は保存する。

以上のステップを経て、学習アルゴリズムのフローチャートを終了する。

次に、学習終了判定手段６０の処理（図３のステップＳ１４）について詳述する。図４に、学習終了判定手段６０による学習終了判定アルゴリズムの例をフローチャートで示す。各ステップについて説明する。

ステップＳ２１：学習装置１００に対して、検証データのテキスト及び画像を入力する。なお、ここでは、図１の学習装置１００に対応させて、モダリティとしてテキストと画像を例示しているが、装置に応じて、更に、音声や動画等、様々なモダリティデータを入力してもよい。

ステップＳ２２：検証データに基づく統合特徴分類部４０の出力の精度を計算・記録する。検証データの分類結果及び正解データから、検証データに関する精度を求めることができる。精度として、分類結果と正解データの違いを表すロス関数の値や、分類結果の正解率などを用いることができる。その後、ステップＳ２３に進む。

ステップＳ２３：保存されているモデルに基づく出力の精度と比較して、現在のモデルによる出力の精度が改善したか判断する。改善した場合は次のステップＳ２４に進み、改善しない場合はステップＳ２５に進む。

ステップＳ２４：現在のモデルを保存する。その後、学習装置１００の学習を再開する。すなわち、図３のフローチャートの開始に戻る。

ステップＳ２５：（精度の改善がない場合）学習終了条件を満たすか判断する。すなわち、統合特徴分類部４０の出力を正規化した分類結果が、所定の学習終了条件を満たすか判断する。学習終了条件としては、例えば「予め決めた期間（例えば、１０エポック）精度が改善しない」等と設定することができる。学習終了条件を満たす場合は、ステップＳ２６に進む。学習終了条件を満たさない場合は、学習装置１００の学習を再開する。すなわち、図３のフローチャートの開始に戻る。

ステップＳ２６：統合特徴分類部４０の出力の精度が最善のモデルを出力又は保存して、学習を終了する。例えば、今回の１エポックの学習の結果、出力の精度が劣化した場合は、今回の学習結果を破棄し、前回までに保存されているモデルの内、出力の精度が最善のモデルを出力又は保存して、学習を終了する。

なお、学習を直ちに終了する代わりに学習率を小さくする（例えば前の学習率に１／１０を掛ける）ことを行ってもよい。この場合、所定の回数、学習率を小さくして学習した後、学習終了条件を満たすか判断（Ｓ２５）し、その後、統合特徴分類部の出力の精度が最善のモデルを保存して、学習を終了する。

なお、ここで学習率とは、ニューラルネットワークのパラメータ（重み）を学習により更新する際の更新の幅を設定する係数に相当する。例えば、学習データによる出力データと正解データとの誤差関数ｆの傾き（∂ｆ／∂ｘ）に学習率（ε）を乗じた値を現在の変数（重み値）ｘ_iから減じて、新たな変数ｘ_i+1を算出する。こうしてパラメータ（重み）を最適な値に調整する。学習率を０にすることが学習の終了に相当する。

以上で学習終了判定手段６０の動作を終了する。この後は、図３のフローチャートのステップＳ１５に進み、最適なモデルを出力又は保存する。

（第２の実施の形態）
図５に、本発明の第２実施形態の学習装置のブロック図の一例を示す。図５は、マルチモーダル情報を分類する情報分類装置のモデル（情報分類モデル）を構築するための、マルチモーダル機械学習を行う学習装置である。

学習装置１０１は、情報分類装置を構成するベクトル化部１１，１２、特徴抽出部２１，２２、特徴統合部３０、統合特徴分類部４０、正規化部４１、及び特徴有用度推定部７０に加えて、正規化部７１と、損失計算部５０，５３と、学習終了判定手段６０とを備えている。図１１の従来の学習装置と比較すると、特徴有用度推定部７０と、正規化部７１と、損失計算部５３が追加されている。図５では、複数の表現（モダリティ）として、テキストと画像（ＲＧＢ画像）を例示しているが、更に、音声、動画像、デプス画像等、多数の様々なモダリティに対応してもよい。この学習装置１０１は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、損失計算部５０，５３及び学習終了判定手段６０は、別のコンピュータで構成してもよい。以下、各構成について説明するが、図１の学習装置１００と共通する構成については、説明を簡略化する。

学習時には、学習装置１０１に学習データが入力される。学習データには、複数のモダリティを一組としたデータ（マルチモーダルデータ）を用いる。例えば、１つのデータがＭ個のモダリティを持つとする（図５では、Ｍ＝２）。なお、学習のための各データには、情報の種別（カテゴリ）を示す正解ラベル（正解データ）と、有用度ラベルが付与されている。

本実施形態では、ツイッター（Twitter）への投稿（ツイート）の画像とメッセージ（テキスト）から、投稿の種別（ツイート内容のカテゴリ）を分類する情報分類モデルを例として説明する。

ベクトル化部１１，１２は、学習データの各モダリティの入力をベクトル化し、学習モデルに入力可能な形式に変換する。Ｍ個のモダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。

ベクトル化部１１は、テキストデータを学習モデルに入力可能なベクトルＶ₁に変換し、特徴抽出部２１に出力する。また、ベクトル化部１２は、画像データを学習モデルに入力可能な形式であるベクトルＶ₂に変換し、特徴抽出部２２に出力する。ベクトル化部１１，１２の構成は、図１のベクトル化部１１，１２と同じであってよい。

特徴抽出部２１，２２は、それぞれ特徴抽出モデルを備えており、Ｍ個のモダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを生成する。特徴抽出部には、ニューラルネットワークの全結合層や畳み込み層を用いることができる。特徴抽出部２１，２２の構成は、図１の特徴抽出部２１，２２と同じであってよい。

図５の実施形態において、特徴抽出部２１はテキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を生成し、特徴統合部３０に出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を生成し特徴統合部３０に出力する。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して、統合特徴ベクトルＶ，Ｗを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ、CentralNet等（非特許文献１，２を参照）を用いることができる。例えば、統合特徴ベクトルＶを各特徴ベクトルの要素ごとの和で生成し、統合特徴ベクトルＷを各特徴ベクトルの結合（連結）で生成することができる。

図５では、特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを統合特徴分類部４０へ出力し、統合特徴ベクトルＷを特徴有用度推定部７０へ出力する。

特徴有用度推定部７０は、統合特徴ベクトルＷに基づいて有用度推定を行い、有用度ベクトルＵを生成する。有用度ベクトルＵは有用度ラベルの推定値に相当する。すなわち、有用度ベクトルＵは、入力された各モダリティの有用度の推定値からなるベクトルである。特徴有用度推定部７０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）からなる有用度の推定モデルを備えている。生成された有用度ベクトルＵは、統合特徴分類部４０及び正規化部７１に出力される。

正規化部７１は、特徴有用度推定部７０から出力された有用度ベクトルＵの各要素を、例えば、シグモイド関数を用いて０から１の値に正規化し、特徴有用度の推定結果を出力する。

統合特徴分類部４０は、統合特徴ベクトルＶ及び有用度ベクトルＵに基づいて、分類出力値を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成する。図５の実施形態では、統合特徴分類部４０は、ツイートのメッセージ（テキスト）の特徴（Ｖ_f1）と画像の特徴（Ｖ_f2）を統合した統合特徴ベクトルＶと、統合特徴ベクトルＶに対応する有用度ベクトルＵを入力とし、ツイート内容のカテゴリを分類出力値として出力する。

図６に、特徴有用度推定部７０と統合特徴分類部４０の構成について一例を示す。単一のモダリティの特徴ベクトルＶ_f1、Ｖ_f2が特徴統合部３０に入力され、各モダリティの特徴を統合した統合特徴ベクトルＶ，Ｗが生成される。統合特徴ベクトルＶは統合特徴分類部４０に入力され、統合特徴ベクトルＷは特徴有用度推定部７０に入力される。

特徴有用度推定部７０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、統合特徴ベクトルＷが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られる各モダリティ（ここでは、画像及びテキスト）の有用度を表す出力層とを備える。なお、中間層は一層に限られず、複数層であってもよい。各モダリティの有用度の出力値は、全体で有用度ベクトルＵとして、統合特徴分類部４０に出力される。

統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、有用度ベクトルＵが入力される入力層と、有用度ベクトルの情報を統合特徴ベクトルＶの要素に対応させる中間層と、統合特徴ベクトルＶと有用度ベクトルの情報を加算（又は乗算）する加算部と、有用度ベクトルの情報が加算された統合特徴ベクトルＶが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られるツイート内容のカテゴリに対応する出力層とを備える。なお、出力層から出力される分類出力値を正規化することにより、入力したツイート内容のカテゴリの確率値（スコア）が得られる。

このように、本実施形態では、各データについてそれぞれのモダリティの有用度（有用度ベクトルＵ）を推定し、有用度ベクトルの情報が加算（又は乗算）された統合特徴ベクトルＶを用いてデータの分類結果を導出している。こうすることで、各モダリティの有用度の情報を考慮したモデルを構築することができ、統合特徴分類部４０の分類精度を向上させることができる。

図５に戻って、学習装置１０１は、更に損失計算部５０，５３と、学習終了判定手段６０を備えている。学習装置１０１は、学習モードにおいては、損失計算部５０，５３の計算結果に基づいて、ニューラルネットワーク等で構成された統合特徴分類部４０、特徴有用度推定部７０、特徴統合部３０、及び特徴抽出部２１，２２のモデルの修正を行うとともに、学習終了判定手段６０の結果に基づいて、学習ブロック６１の学習の終了時を判定する。

損失計算部５０は、図１の損失計算部５０と同じものであり、統合特徴分類部４０及び正規化部４１から出力された学習データによる分類結果を正解ラベルと比較して損失計算を行う。学習データのバッチサイズをＮ、統合特徴分類部４０の出力をソフトマックス関数で正規化して得られた分類結果をＸ₁、Ｘ₂、・・・、Ｘ_N、正解ラベルをＹ₁、Ｙ₂、・・・、Ｙ_Nとする。このとき、統合特徴分類部４０の損失は、クロスエントロピーを用いて、前述の式（１）で求められる。

また、損失計算部５３は、特徴有用度推定部７０及び正規化部７１から出力された推定結果を有用度ラベル（第１実施形態で用いた有用度ラベルと同一）と比較して、損失計算を行う。

Ｎ個の学習データそれぞれについて、特徴有用度推定部７０の出力を要素ごとにシグモイド関数で正規化して得られた有用度推定結果をＵ₁、Ｕ₂、・・・、Ｕ_N、有用度ラベルをＬ₁、Ｌ₂、・・・、Ｌ_Nとする。このとき、特徴有用度推定部７０の損失を、クロスエントロピーを用いて、次式（３）で求める。

ただし、Ｌ_n[m]、Ｕ_n[m]はそれぞれ、Ｌ_n、Ｕ_nのｍ番目の要素であり、Ｍはモダリティの数である。

学習モードでは、学習データのバッチＮごとに、損失計算部５３で計算された損失（誤差）を小さくするように、特徴有用度推定部７０、特徴統合部３０、及び特徴抽出部２１，２２のモデルの学習（パラメータの修正）を行う。この結果、有用度ベクトルＵは、有用度ラベルＬにより近いものとなる。

なお、特徴抽出部２１，２２、及び特徴統合部３０のモデルの学習（パラメータの修正）は、全体の分類結果についての損失計算部５０の損失結果に基づく学習と、有用度の推定結果についての損失計算部５３の損失結果に基づく学習の両者を用いてもよいし、また、一方の学習を他方の学習に優先させて行うこともできる。

学習終了判定手段６０は、検証データの分類結果と正解データから統合特徴分類部４０の出力精度を求め、学習装置１０１の学習状態の評価を行う。学習終了判定手段６０は、特徴抽出部２１，２２、特徴統合部３０、特徴有用度推定部７０及び統合特徴分類部４０からなる学習ブロック６１の学習の継続又は終了を判定する。

第２実施形態の学習装置１０１における学習アルゴリズム、及び学習終了判定手段６０の学習終了判定アルゴリズムは、第１実施形態の学習アルゴリズム及び学習終了判定アルゴリズムと同じであってよい。すなわち、図３に示されるフローチャートに基づいて、学習アルゴリズム適用することができる。また、図４に示されるフローチャートに基づいて、学習終了判定手段６０による学習終了判定処理を実施することができる。

（第３の実施の形態）
図７に、本発明の第３実施形態の学習装置のブロック図の一例を示す。図７は、マルチモーダル情報を分類する情報分類装置のモデル（情報分類モデル）を構築するための、マルチモーダル機械学習を行う学習装置である。第３実施形態の学習装置１０２は、第１実施形態の学習装置１００と第２実施形態の学習装置１０１の両者の構成を備えている。

学習装置１０２は、情報分類装置を構成するベクトル化部１１，１２、特徴抽出部２１，２２、特徴統合部３０、統合特徴分類部４０、正規化部４１、及び特徴有用度推定部７０に加えて、単一特徴分類部４２，４４と、正規化部４３，４５，７１と、損失計算部５０～５３と、学習終了判定手段６０とを備えている。図１１の従来の学習装置と比較すると、単一特徴分類部４２，４４と、特徴有用度推定部７０と、正規化部４３，４５，７１と、損失計算部５１～５３が追加されている。図７では、複数の表現（モダリティ）として、テキストと画像（ＲＧＢ画像）を例示しているが、更に、音声、動画像、デプス画像等、多数の様々なモダリティに対応してもよい。この学習装置１０２は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、損失計算部５０～５３及び学習終了判定手段６０は、別のコンピュータで構成してもよい。以下、各構成について説明するが、図１の学習装置１００又は図５の学習装置１０１と共通する構成については、説明を簡略化する。

学習時には、学習装置１０２に学習データが入力される。学習データには、複数のモダリティを一組としたデータ（マルチモーダルデータ）を用いる。例えば、１つのデータがＭ個のモダリティを持つとする（図１では、Ｍ＝２）。なお、学習のための各データには、情報の種別（カテゴリ）を示す正解ラベル（正解データ）と、有用度ラベルが付与されている。

図７の実施形態において、特徴抽出部２１はテキストデータのベクトルＶ₁を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を生成し、単一特徴分類部４２と特徴統合部３０に出力する。同様に、特徴抽出部２２は、画像データのベクトルＶ₂を特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を生成し、単一特徴分類部４４と特徴統合部３０に出力する。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して、統合特徴ベクトルＶ，Ｗを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ、CentralNet等（非特許文献１，２を参照）を用いることができる。例えば、統合特徴ベクトルＶを各特徴ベクトルの要素ごとの和で生成し、統合特徴ベクトルＷを各特徴ベクトルを結合して生成することができる。

図７では、特徴統合部３０は、テキストデータの特徴ベクトルＶ_f1と画像データの特徴ベクトルＶ_f2が入力され、これらを統合して、統合特徴ベクトルＶを統合特徴分類部４０へ出力し、統合特徴ベクトルＷを特徴有用度推定部７０へ出力する。

特徴有用度推定部７０は、統合特徴ベクトルＷに基づいて有用度推定を行い、有用度ベクトルＵを生成する。特徴有用度推定部７０の構成は、図５の特徴有用度推定部７０と同じであってよい。生成された有用度ベクトルＵは、統合特徴分類部４０及び正規化部７１に出力される。

統合特徴分類部４０は、統合特徴ベクトルＶ及び有用度ベクトルＵに基づいて、分類出力値を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成する。図７の統合特徴分類部４０の構成は、図５の統合特徴分類部４０と同じであってよい。統合特徴分類部４０は、統合特徴ベクトルＶと、統合特徴ベクトルＶに対応する有用度ベクトルＵを入力とし、ツイート内容のカテゴリを分類出力値として出力する。

単一特徴分類部４２，４４は、それぞれ単一のモダリティの特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが入力され、それぞれのモダリティに対応した分類出力値を出力する。単一特徴分類部４２，４４は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成する。

本実施形態では、単一特徴分類部４２は、テキストデータ（ツイートのメッセージ）の特徴ベクトルＶ_f1を入力とし、メッセージに基づくツイート内容のカテゴリを分類出力値として出力する。また、単一特徴分類部４４は、画像データ（ツイートの画像）の特徴ベクトルＶ_f2を入力とし、画像に基づくツイート内容のカテゴリを分類出力値として出力する。単一特徴分類部４２，４４の構成は、図１の単一特徴分類部４２，４４と同じであってよい。

正規化部４３は、単一特徴分類部４２から出力された分類出力値を、例えば、ソフトマックス関数等を用いて正規化し、分類結果Ｔとして出力する。また、正規化部４５は、単一特徴分類部４４から出力された分類出力値を、例えば、ソフトマックス関数等を用いて正規化し、分類結果Ｐとして出力する。なお、正規化部４３，４５は単一特徴分類部４２，４４の一部であってもよく、単一特徴分類部４２，４４が分類結果Ｔ，Ｐを出力するように構成されてもよい。

図８に、特徴有用度推定部７０と、単一特徴分類部４２，４４と、統合特徴分類部４０の構成について一例を示す。単一特徴分類部４２，４４には、それぞれ単一のモダリティの特徴ベクトルＶ_f1、Ｖ_f2が入力され、また、特徴統合部３０には特徴ベクトルＶ_f1、Ｖ_f2が入力され、各モダリティの特徴を統合した統合特徴ベクトルＶ，Ｗが生成される。統合特徴ベクトルＶは統合特徴分類部４０に入力され、統合特徴ベクトルＷは特徴有用度推定部７０に入力される。

単一特徴分類部４２，４４は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、特徴ベクトルが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られるツイート内容のカテゴリに対応する出力層とを備える。なお、出力層から出力される分類出力値を正規化することにより、入力したツイート内容のカテゴリの確率値（スコア）が得られる。

特徴有用度推定部７０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、統合特徴ベクトルＷが入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られる各モダリティ（ここでは、画像及びテキスト）の有用度を表す出力層とを備える。各モダリティの有用度の出力値は全体で有用度ベクトルＵとして、統合特徴分類部４０に出力される。

なお、特徴有用度推定部７０及び統合特徴分類部４０は、学習終了後に、情報分類装置の構成の一部として機能するブロックであるが、単一特徴分類部４２，４４は、情報分類装置の学習時にのみ機能するブロックであり、情報分類装置としては機能しない。

図７に戻って、学習装置１０２は、更に損失計算部５０～５３と、学習終了判定手段６０を備えている。学習装置１０２は、学習モードにおいては、損失計算部５０～５３の計算結果に基づいて、ニューラルネットワーク等で構成された各特徴分類部４０，４２，４４、特徴有用度推定部７０、特徴統合部３０、及び特徴抽出部２１，２２のモデルの修正を行うとともに、学習終了判定手段６０の結果に基づいて、学習ブロック６１の学習の終了時を判定する。

損失計算部５０は、図１の損失計算部５０と同じものであり、統合特徴分類部４０及び正規化部４１から出力された学習データによる分類結果を正解ラベルと比較して損失計算を行う。統合特徴分類部４０の損失は、例えばクロスエントロピーを用いて、前述の式（１）で求められる。

また、損失計算部５１は、単一特徴分類部４２及び正規化部４３から出力されたテキストデータ（学習データ）による分類結果Ｔを正解ラベルと比較して、損失計算を行う。同様に、損失計算部５２は、単一特徴分類部４４及び正規化部４５から出力された画像データ（学習データ）による分類結果Ｐを正解ラベルと比較して、損失計算を行う。損失計算部５１，５２を、単一損失計算部と呼ぶことがある。単一特徴分類部４２，４４の損失は、例えばクロスエントロピーを用いて、前述の式（２）で求められる。

学習モードでは、学習データのバッチＮごとに、損失計算部５１，５２で計算された損失（誤差）を小さくするように、単一特徴分類部４２，４４及び特徴抽出部２１，２２のモデルの学習（パラメータの修正）を行う。

また、損失計算部７２は、特徴有用度推定部７０及び正規化部７１から出力された推定結果を有用度ラベルと比較して、損失計算を行う。特徴有用度推定部７０の損失は、例えばクロスエントロピーを用いて、前述の式（３）で求められる。

学習モードでは、学習データのバッチＮごとに、損失計算部５３で計算された損失（誤差）を小さくするように、特徴有用度推定部７０、特徴統合部３０、及び特徴抽出部２１，２２のモデルの学習（パラメータの修正）を行う。

なお、特徴抽出部２１，２２のモデルの学習（パラメータの修正）は、有用度ラベルＬを用いた分類結果Ｔ，Ｐの損失計算に基づく学習と、全体の分類結果についての損失計算部５０の損失結果に基づく学習と、有用度の推定結果についての損失計算部７２の損失結果に基づく学習の全てを用いてもよいし、また、いずれかの学習を他の学習に優先させて行うこともできる。例えば、特徴抽出部２１，２２の学習は、単一モダリティによる分類結果Ｔ，Ｐに基づいて行い、全体の分類結果による学習と有用度の推定結果による学習は、特徴統合部３０と統合特徴分類部４０と特徴有用度推定部７０の学習に利用するように構成してもよい。

学習終了判定手段６０は、検証データの分類結果と正解データから統合特徴分類部４０の出力精度を求め、学習装置１０２の学習状態の評価を行う。学習終了判定手段６０は、特徴抽出部２１，２２、単一特徴分類部４２，４４、特徴統合部３０、特徴有用度推定部７０、及び統合特徴分類部４０からなる学習ブロック６１の学習の継続又は終了を判定する。

第３実施形態の学習装置１０２における学習アルゴリズム、及び学習終了判定手段６０の学習終了判定アルゴリズムは、第１実施形態の学習アルゴリズム及び学習終了判定アルゴリズムと同じであってよい。すなわち、図３に示されるフローチャートに基づいて、学習アルゴリズム適用することができる。また、図４に示されるフローチャートに基づいて、学習終了判定手段６０による学習終了判定処理を実施することができる。

本実施形態では、単一モダリティの特徴を用いて分類を行うモデルの学習に用いるデータを、単一モダリティによる分類に有効なデータ（当該モダリティの有用度ラベルが１のデータ）に限定する。こうすることで、単一モダリティによる分類に有効でないデータを用いた学習が引き起こす各モダリティの特徴抽出部２１，２２の過学習を防ぎ、精度を向上させる。その結果、特徴抽出部２１の出力Ｖ_f1及び特徴抽出部２２の出力Ｖ_f2に基づいて分類を行う統合特徴分類部４０の精度も向上し、マルチタスク学習による精度向上の効果を十分に活かすことができる。

また、本実施形態では、各データについてそれぞれのモダリティの有用度（有用度ベクトルＵ）を推定し、有用度ベクトルの情報が加算された統合特徴ベクトルＶを用いてデータの分類結果を導出している。こうすることで、各モダリティの有用度の情報を考慮したモデルを構築することができ、統合特徴分類部４０の分類精度を向上させることができる。

（第４の実施の形態）
次に、本発明の第４実施形態である情報分類装置について説明する。図９に、第４実施形態の情報分類装置２００のブロック図の一例を示す。

マルチモーダル情報を分類する情報分類装置２００は、第１から第ＭのＭ種類のモダリティデータからなるデータが入力され、このデータの種別を判定し、分類結果を出力する。情報分類装置２００は、第１ベクトル化部１１，第２ベクトル化部１２，～第Ｍベクトル化部１３，第１特徴抽出部２１，第２特徴抽出部２２，～第Ｍ特徴抽出部２３、特徴統合部３０、統合特徴分類部４０、及び正規化部４１を備える。この情報分類装置２００は、全体を一つのコンピュータとプログラムにより構成することができる。

本発明の情報分類装置２００は、図１の学習装置１００の学習終了後に、単一特徴分類部４２，４４、正規化部４３，４５、損失計算部５０～５２、及び学習終了判定手段６０を削除（又は、機能を停止）させたものとして構成することができる。若しくは、第１特徴抽出部２１，第２特徴抽出部２２，～第Ｍ特徴抽出部２３、特徴統合部３０、及び統合特徴分類部４０に対して、図１の学習装置１００で学習を行った各部の学習済みモデルをそれぞれ反映した装置として構成することができる。

第１ベクトル化部１１は、第１モダリティデータを学習モデルに入力可能なベクトルＶ₁に変換し、第１特徴抽出部２１に出力する。第１モダリティデータは、例えばテキストデータとすることができる。また、第２ベクトル化部１２は、第２モダリティデータを学習モデルに入力可能なベクトルＶ₂に変換し、第２特徴抽出部２２に出力する。第２モダリティデータは、例えば画像データとすることができる。他のベクトル化部も同様であり、第Ｍベクトル化部１３は、第Ｍモダリティデータを学習モデルに入力可能なベクトルＶ_Mに変換し、第Ｍ特徴抽出部２３に出力する。第Ｍモダリティデータは、例えば音声データであり、各ベクトル化部はそれぞれ異なるモダリティのデータを処理する。

Ｍ個のモダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。ベクトル化は、入力する情報の種類に合わせて公知の手法を用いることができる。なお、第１～第Ｍベクトル化部１１～１３は、各モダリティデータを学習モデルに入力するための前処理を行うブロックであるから、情報分類装置２００と分離された前処理手段として構成されてもよい。

第１特徴抽出部２１は、第１特徴抽出モデル（図示せず）を備える。第１特徴抽出部２１は、第１モダリティデータ（例えば、テキストデータ）をベクトル化したベクトルＶ₁を第１特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を生成して特徴統合部３０へ出力する。第１特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f1を出力するための最適な学習（有用なデータのみによる学習）が行われている。

また、第２特徴抽出部２２は、第２特徴抽出モデル（図示せず）を備え、第２モダリティデータ（例えば、画像データ）をベクトル化したベクトルＶ₂を第２特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を生成して特徴統合部３０へ出力する。第２特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f2を出力するための最適な学習（有用なデータのみによる学習）が行われている。他の特徴抽出部も同様であり、第Ｍ特徴抽出部２３は、第Ｍ特徴抽出モデル（図示せず）を備え、第Ｍモダリティデータ（例えば、音声データ）をベクトル化したベクトルＶ_Mを第Ｍ特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_fMを生成して特徴統合部３０へ出力する。入力が系列データの場合は、特徴抽出モデルに再起型ニューラルネットワークを用いることができる。なお、各特徴抽出モデルはニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。

Ｍ個のモダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが生成される。ここで、各特徴抽出部２１～２３の特徴抽出モデルは、図１の学習装置１００で学習した学習済みモデルであり、各特徴抽出部の出力した特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMをそれぞれ単一特徴分類部に入力し、その結果得られた分類結果が精度の高い結果となるように、学習を行ったものである。その際、単一特徴分類部の出力と正解ラベルとの誤差による学習は、有用度ラベルが１（有用）のデータのみを用いて学習することにより、それぞれのモダリティ毎に適切な学習データでモデルが調整されている。モダリティごとに有用な学習データのみを用いることで、不適切なデータによる特徴抽出部の過学習が防止され、各モダリティの特徴抽出部が最適な学習済みモデルとなっている。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して一つのベクトル（統合特徴ベクトル）Ｖを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ（Gated Multimodal Unit）、CentralNet等を用いることができ、そのモデルは図１の学習装置１００により学習済みで最適化されている。

統合特徴分類部４０は、統合特徴ベクトルＶに基づいて、分類出力値を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成することができるが、ニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。統合特徴分類部４０のモデルは、図１の学習装置１００で学習したものであり、統合特徴分類部４０及び正規化部４１による分類結果が学習終了条件を満たしたとき、学習を終了した学習済みモデルである。すなわち、統合特徴分類部４０のモデルは、特徴抽出部２１～２３が有用度ラベルが１のデータのみを用いて学習した学習済みモデルであることを前提として、学習により最適化されたモデルである。特徴抽出部２１～２３が最適化されることで、情報分類装置２００全体が、分類精度が高い最適なモデルとなっている。

このように、図９の情報分類装置２００は、モダリティごとの特徴抽出部に、有用ラベルが１（有用）のデータのみを用いて学習した学習済みモデルが格納されており、複数のモダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。

（第５の実施の形態）
次に、本発明の第５実施形態である情報分類装置について説明する。図１０に、第５実施形態の情報分類装置２０１のブロック図の一例を示す。なお、図９の情報分類装置２００と共通する構成については、説明を簡略化する。

マルチモーダル情報を分類する情報分類装置２０１は、第１から第ＭのＭ種類のモダリティデータからなるデータが入力され、このデータの種別を判定し、分類結果を出力する。情報分類装置２０１は、第１ベクトル化部１１，第２ベクトル化部１２，～第Ｍベクトル化部１３，第１特徴抽出部２１，第２特徴抽出部２２，～第Ｍ特徴抽出部２３、特徴統合部３０、特徴有用度推定部７０、統合特徴分類部４０、及び正規化部４１を備える。この情報分類装置２０１は、全体を一つのコンピュータとプログラムにより構成することができる。

本発明の情報分類装置２０１は、図５の学習装置１０１の学習終了後に、正規化部７１、損失計算部５０，５３、及び学習終了判定手段６０を削除（又は、機能を停止）させたものとして構成することができる。又は、図７の学習装置１０２の学習終了後に、単一特徴分類部４２，４４、正規化部４３，４５，７１、損失計算部５０～５３、及び学習終了判定手段６０を削除（又は、機能を停止）させたものとして構成することができる。若しくは、第１特徴抽出部２１，第２特徴抽出部２２，～第Ｍ特徴抽出部２３、特徴統合部３０、特徴有用度推定部７０、及び統合特徴分類部４０に対して、図５の学習装置１０１又は図７の学習装置１０２で学習を行った各部の学習済みモデルをそれぞれ反映した装置として構成することができる。

第１ベクトル化部１１は、第１モダリティデータを学習モデルに入力可能なベクトルＶ₁に変換し、第１特徴抽出部２１に出力する。また、第２ベクトル化部１２は、第２モダリティデータを学習モデルに入力可能なベクトルＶ₂に変換し、第２特徴抽出部２２に出力する。他のベクトル化部も同様であり、第Ｍベクトル化部１３は、第Ｍモダリティデータを学習モデルに入力可能なベクトルＶ_Mに変換し、第Ｍ特徴抽出部２３に出力する。各ベクトル化部はそれぞれ異なるモダリティのデータを処理する。

Ｍ個のモダリティから、Ｍ個のベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mが生成される。なお、第１～第Ｍベクトル化部１１～１３は、各モダリティデータを学習モデルに入力するための前処理を行うブロックであるから、情報分類装置２０１と分離された前処理手段として構成されてもよい。

第１特徴抽出部２１は、第１モダリティデータ（例えば、テキストデータ）をベクトル化したベクトルＶ₁を第１特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f1を生成して特徴統合部３０へ出力する。第１特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f1を出力するための最適な学習が行われている。

また、第２特徴抽出部２２は、第２モダリティデータ（例えば、画像データ）をベクトル化したベクトルＶ₂を第２特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_f2を生成して特徴統合部３０へ出力する。第２特徴抽出モデルには、ニューラルネットワークの全結合層や畳み込み層を用いることができ、特徴ベクトルＶ_f2を出力するための最適な学習が行われている。他の特徴抽出部も同様であり、第Ｍ特徴抽出部２３は、第Ｍ特徴抽出モデル（図示せず）を備え、第Ｍモダリティデータ（例えば、音声データ）をベクトル化したベクトルＶ_Mを第Ｍ特徴抽出モデルに入力し、その特徴を示す特徴ベクトルＶ_fMを生成して特徴統合部３０へ出力する。

Ｍ個のモダリティのベクトルＶ₁、Ｖ₂、・・・、Ｖ_Mから、Ｍ個の特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMが生成される。ここで、各特徴抽出部２１～２３の特徴抽出モデルは、図７の学習装置１０２で学習した学習済みモデルとしてもよい。すなわち、各特徴抽出部の出力した特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMをそれぞれ単一特徴分類部に入力し、その結果得られた分類結果が精度の高い結果となるように、学習を行ったものとすることができる。その際、単一特徴分類部の出力と正解ラベルとの誤差による学習は、有用度ラベルが１（有用）のデータのみを用いて学習することにより、それぞれのモダリティ毎に適切な学習データでモデルが調整されている。モダリティごとに有用な学習データのみを用いることで、不適切なデータによる特徴抽出部の過学習が防止され、各モダリティの特徴抽出部が最適な学習済みモデルとなっている。

特徴統合部３０は、特徴ベクトルＶ_f1、Ｖ_f2、・・・、Ｖ_fMを統合して、統合特徴ベクトルＶ，Ｗを生成する。ベクトルの統合方法は、ベクトルの結合、要素ごとの和、要素ごとの積、若しくは学習可能なパラメータを持つモデルを用いた公知の手法であるＧＭＵ（Gated Multimodal Unit）、CentralNet等を用いることができ、そのモデルは図５の学習装置１０１又は図７の学習装置１０２により学習済みで最適化されている。或いは、統合特徴ベクトルＶを各特徴ベクトルの要素ごとの和で生成し、統合特徴ベクトルＷを各特徴ベクトルの結合で生成するよう、設定されていてもよい。統合特徴ベクトルＶを統合特徴分類部４０へ出力し、統合特徴ベクトルＷを特徴有用度推定部７０へ出力する。

特徴有用度推定部７０は、統合特徴ベクトルＷに基づいて有用度推定を行い、有用度ベクトルＵを生成する。特徴有用度推定部７０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）からなる有用度の推定モデルを備えている。推定モデルは、図５の学習装置１０１又は図７の学習装置１０２で学習したものである。生成された有用度ベクトルＵは、各モダリティの有用度を表すベクトルであり、統合特徴分類部４０に出力される。

統合特徴分類部４０は、統合特徴ベクトルＶ及び有用度ベクトルＵに基づいて、分類出力値を出力する。統合特徴分類部４０は、例えば、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成され、図６に示されるように、有用度ベクトルＵが入力される入力層と、有用度ベクトルの情報を統合特徴ベクトルの要素に対応させる中間層と、統合特徴ベクトルＶと有用度ベクトルの情報を加算（又は乗算）する加算部と、が入力される入力層と、入力を重みパラメータ及び活性化関数等で処理する中間層と、中間層の処理の結果から得られるツイート内容のカテゴリに対応する出力層とを備える。なお、出力層から出力される分類出力値を正規化することにより、入力したツイート内容のカテゴリの確率値（スコア）が得られる。

統合特徴分類部４０は、上述のように、順伝搬ニューラルネットワーク（ＦＦＮＮ）を適用して構成することができるが、ニューラルネットワークに限られず、他のタイプの学習モデルで構成してもよい。統合特徴分類部４０のモデルは、図５の学習装置１０１又は図７の学習装置１０２で学習したものであり、有用度ベクトルＵの情報が加算された統合特徴ベクトルＶにより、マルチモーダルデータの分類を行う。そして、統合特徴分類部４０及び正規化部４１による分類結果が学習終了条件を満たしたとき、学習を終了した学習済みモデルである。

このように、図１０の情報分類装置２０１は、各データの有用度の情報を用いることにより、分類精度が高い最適なモデルとなっている。

さらに、モダリティごとの特徴抽出部に、有用ラベルが１（有用）のデータのみを用いて学習した学習済みモデルを格納してもよい。これにより、複数のモダリティを統合することによる精度向上の効果を最大限活用でき、マルチモーダルな情報を正確に分類することができる。

（発明の効果の確認）
本発明の学習装置及び情報分類装置の効果を評価するため、本発明の学習装置で学習した情報分類装置と、従来の学習手法（図１１参照）で学習した情報分類装置とにより、実際に分類の実験を行い比較した。実験条件は、次のとおりである。

実験に用いるデータセットとして、ツイッターデータセット４６，３１６件を準備した。本実験では、４６，３１６件のデータを次のように区分して利用した。
学習データ・・・データセットのうち２２，６２０件
検証データ・・・データセットのうち２，３８３件
評価データ・・・データセットのうち２１，３１３件
すなわち、学習データを用いて情報分類装置の学習を行い、検証データを用いて学習の終了判定を行い、評価データを用いて学習済み情報分類装置の性能を評価した。

装置に入力するモダリティデータとしては、ツイッターの投稿の画像及びテキストを入力データとした。また、装置の出力としては、統合特徴分類部４０の出力を用い、７つのカテゴリ（火事、洪水、交通事故、等）に当てはまる確率値を示すスコアを出力とした。

情報分類装置における特徴統合部３０の統合処理は、統合特徴ベクトルＶは要素ごとの和とし、統合特徴ベクトルＷは要素の結合とした。

正誤判定に用いるカテゴリの判定は、装置のスコア最大となるカテゴリを判定結果とした。

各実施形態の装置と従来装置の評価は、適合率（precision）と再現率（recall）の調和平均をとった「Ｆ値」を評価値として比較した。なお、適合率（precision）とは、そのモデルがあるカテゴリ（例えば、火事）と判定したものの中で、正解が本当にそのカテゴリ（火事）であったものの割合であり、再現率（recall）とは、正解があるカテゴリ（例えば、火事）であるもののうち、モデルがそのカテゴリ（火事）であると判定した割合を意味する。結果として、「Ｆ値」は分類の精度を表す指標となり、Ｆ値＝１が１００％正解を意味する。評価値は、それぞれのモデルについて４回学習し、その平均をとった。

表２に、実験結果として、本発明の第１乃至第３の実施形態による学習手法と従来手法によるＦ値の比較を示す。

実験結果によれば、本発明のいずれの実施形態による分類結果のＦ値も、従来手法による分類結果のＦ値を上まわっており、本発明の学習装置による学習効果が優れていることが確認できた。

上記の第１乃至第３の実施の形態では、学習装置１００～１０２の構成と動作について説明したが、本発明はこれに限らず、学習装置１００～１０２により情報分類装置の学習を行う学習方法として構成されてもよい。すなわち、学習データの有用度ラベルを利用する学習方法として構成されても良い。

また更に、第４及び第５の実施の形態では、情報分類装置２００，２０１の構成と動作について説明したが、本発明はこれに限らず、情報分類装置２００，２０１を用いたマルチモーダルデータの分類方法として構成されてもよい。すなわち、図９又は図１０のデータの流れに従って、複数のモダリティデータから特徴ベクトルを生成する工程、統合特徴ベクトルを生成する工程、分類結果を判定する工程を備えた、マルチモーダルデータの分類方法として構成されても良い。

なお、上述した学習装置１００～１０２又は情報分類装置２００，２０１として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、学習装置１００～１０２又は情報分類装置２００，２０１の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータの中央演算処理装置（ＣＰＵ）によってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１１～１３ベクトル化部
２１～２３特徴抽出部
３０特徴統合部
４０統合特徴分類部
４２，４４単一特徴分類部
４１，４３，４５正規化部
５０～５３損失計算部
６０学習終了判定手段
７０特徴有用度推定部
７１正規化部
１００～１０２学習装置
２００，２０１情報分類装置

Claims

マルチモーダル情報を分類する情報分類装置のモデルを生成する学習装置であって、
複数のモダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて分類結果を導出する統合特徴分類部と、
前記分類結果と正解ラベルとを比較して損失を計算する損失計算部と、
学習終了判定を行う学習終了判定手段と、を備え、
学習データを用いて学習を行う際に、前記学習データの各モダリティデータの有用度の情報を利用することを特徴とする、学習装置。
請求項１に記載の学習装置において、さらに、
単一の前記特徴ベクトルに基づいて個別分類結果を導出する単一特徴分類部と、
前記個別分類結果と正解ラベルとを比較して損失を計算する単一損失計算部と、を備え、
前記単一損失計算部は、前記学習データのうち、当該モダリティが有用であるデータのみを損失計算に使用することを特徴とする、学習装置。
請求項１に記載の学習装置において、さらに、
前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、
前記有用度ベクトルを正規化してなる推定結果と各学習データの有用度ラベルとを比較して損失を計算する損失計算部と、を備え、
前記統合特徴分類部は、前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出することを特徴とする、学習装置。
請求項１に記載の学習装置において、さらに、
単一の前記特徴ベクトルに基づいて個別分類結果を導出する単一特徴分類部と、
前記個別分類結果と正解ラベルとを比較して損失を計算する単一損失計算部と、
前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、
前記有用度ベクトルを正規化してなる推定結果と各学習データの有用度ラベルとを比較して損失を計算する損失計算部と、を備え、
前記単一損失計算部は、前記学習データのうち、当該モダリティが有用であるデータのみを損失計算に使用し、
前記統合特徴分類部は、前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出することを特徴とする、学習装置。
請求項１乃至４のいずれか一項に記載の学習装置において、
前記特徴抽出部及び前記統合特徴分類部を、ニューラルネットワークを用いて構成することを特徴とする、学習装置。
請求項１乃至５のいずれか一項に記載の学習装置の前記損失計算部及び前記学習終了判定手段の機能を、学習終了後に停止させて構成したことを特徴とする、情報分類装置。
マルチモーダル情報を分類する情報分類装置であって、
複数のモダリティデータをベクトル化するベクトル化部と、
ベクトル化された各モダリティデータから特徴ベクトルを生成する特徴抽出部と、
複数の前記特徴ベクトルから統合特徴ベクトルを生成する特徴統合部と、
前記統合特徴ベクトルに基づいて前記マルチモーダル情報の有用度ベクトルを生成する特徴有用度推定部と、
前記統合特徴ベクトル及び前記有用度ベクトルに基づいて分類結果を導出する統合特徴分類部と、を備え、
前記特徴抽出部、前記特徴有用度推定部、及び前記統合特徴分類部は、ニューラルネットワークを用いて構成することを特徴とする、情報分類装置。
請求項６又は７に記載の情報分類装置において、
前記特徴抽出部は、当該モダリティが有用であるデータのみを損失計算に使用する学習により最適化されていることを特徴とする、情報分類装置。
コンピュータを、請求項１乃至５のいずれか一項に記載の学習装置として機能させる、プログラム。
コンピュータを、請求項６乃至８のいずれか一項に記載の情報分類装置として機能させる、プログラム。