JP2022158736A

JP2022158736A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2022158736A
Application number: JP2021066028A
Authority: JP
Inventors: 康智大石; Yasutomo Oishi; 昭悟木村; Shogo Kimura; 隆仁川西; Takahito Kawanishi; 邦夫柏野; Kunio Kashino; アール．グラスジェイムズ; R Glass James; ハーワスデイビッド; Harwath David
Original assignee: Nippon Telegraph and Telephone Corp; Massachusetts Institute of Technology
Current assignee: Nippon Telegraph and Telephone Corp; Massachusetts Institute of Technology
Priority date: 2021-04-01
Filing date: 2021-04-08
Publication date: 2022-10-17
Anticipated expiration: 2041-04-08
Also published as: US11830478B2; JP7100737B1; US20220319495A1

Abstract

【課題】モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させること。【解決手段】学習装置は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、複数のモダリティのうちの２つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する。そして、学習装置は、データセットのうちの第１のデータセットの第１のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第２のデータセットに含まれる第２のモダリティのデータの中から選択する。さらに、学習装置は、第１のデータセット及び第２のデータセットに含まれるペア内のデータの特徴量が互いに類似し、かつ、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量とが類似するように、モデルのパラメータを更新する。【選択図】図１

Description

特許法第３０条第２項適用申請有りＯＨＩＳＨＩ，Ｙａｓｕｎｏｒｉほか，”ＰａｉｒＥｘｐａｎｓｉｏｎｆｏｒＬｅａｒｎｉｎｇＭｕｌｔｉｌｉｎｇｕａｌＳｅｍａｎｔｉｃＥｍｂｅｄｄｉｎｇｓｕｓｉｎｇＤｉｓｊｏｉｎｔＶｉｓｕａｌｌｙ－ｇｒｏｕｎｄｅｄＳｐｅｅｃｈＡｕｄｉｏＤａｔａｓｅｔｓ”，Ｉｎｔｅｒｓｐｅｅｃｈ２０２０（国際会議）ＷＥＢ開催（ｈｔｔｐ：／／ｉｎｔｅｒｓｐｅｅｃｈ２０２０．ｏｒｇ／）［ｏｎｌｉｎｅ］，２０２０年１０月２７日，ｐｐ．１４８６－１４９０，＜ＤＯＩ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０２０－３０７８＞

本発明は、学習装置、学習方法及び学習プログラムに関する。

画像認識技術によれば、画像に写る多様な物体を特定することができる。さらに、画像へのラベル付けにより、視覚的な情報と言語的な情報を対応付ける技術が知られている。

例えば、画像と当該画像の内容を説明する音声（以下、音声キャプションと呼ぶ）のペアデータを大量に用意して、画像の領域と音声キャプションの区間（以下、音声区間と呼ぶ）を対応付ける技術が知られている（例えば、非特許文献１を参照）。

その他にも、画像を説明する複数言語の音声キャプションを用意することで、言語間の翻訳知識を獲得する技術が知られている（例えば、非特許文献２を参照）。さらに、画像及び対応する音声キャプションを共通の埋め込み空間にマッピングすることで、クロスモーダルなデータの探索を実現する技術が知られている（例えば、非特許文献３を参照）。

David Harwath, Adria Recasens, Didac Suris, Galen Chuang, Antonio Torralba, James Glass, "Jointly Discovering Visual Objects and Spoken Words from Raw sensory input", International Journal of Computer Vision (2019) (https://doi.org/10.1007/s11263-019-01205-0) D. Harwath, G. Chuang, and J. Glass, "Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech," in Proc. ICASSP, 2018. Yasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James Glass, "Trilingual Semantic Embeddings of Visually Grounded Speech with Self-Attention Mechanisms," in Proc. ICASSP, 2020.

しかしながら、従来の技術には、モダリティが異なる情報を対応付けたデータが十分に得られないと、クロスモーダルなデータの探索のためのモデルの精度が向上しない場合があるという問題がある。

なお、モダリティ（modality:形態、様相、様態）とは、概念の表出形態（a way of expressing ideas）ということができる。例えば、犬という概念に対して、犬が写っている「画像」、"いぬ"と発声している「音声」、"いぬ"、"犬"、"イヌ"といった「テキスト」がモダリティに相当する。また、例えば英語の場合、"dog"、"Dog"、"DOG"がモダリティに相当する。モダリティの例としては、画像、音声、映像、及び所定のセンシングデータ等がある。

例えば、非特許文献３に記載の技術を用いて、ある言語の音声をクエリとした画像の探索（クロスモーダル探索）又は異なる言語の音声の探索（クロスリンガル探索）を行うことを考える。この場合、探索用のモデルを訓練するためには、同一画像に対し複数の言語の音声キャプションが用意されることが望ましい。一方で、そのようなデータの収集には多大なコストがかかるため、実施が困難な場合がある。

上述した課題を解決し、目的を達成するために、学習装置は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの２つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出部と、前記データセットのうちの第１のデータセットの第１のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第２のデータセットに含まれる第２のモダリティのデータの中から選択する選択部と、前記第１のデータセット及び前記第２のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させることができる。

図１は、第１の実施形態に係る学習装置の構成例を示す図である。図２は、音声キャプションについて説明する説明図である。図３は、学習装置の処理を説明する説明図である。図４は、エンコーダの模式図である。図５は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図６は、拡張ペアを選択する処理の流れを示すフローチャートである。図７は、第２の実施形態に係る探索装置の構成例を示す図である。図８は、第２の実施形態に係る探索装置の処理の流れを示すフローチャートである。図９は、実験結果を示す図である。図１０は、実験による翻訳知識の獲得結果の例を示す図である。図１１は、実験結果を示す図である。図１２は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
第１の実施形態に係る学習装置は、入力された学習用データを用いて、画像エンコーダ及び音声エンコーダを訓練する。そして、学習装置は、訓練済みの各エンコーダを出力する。例えば、学習装置は、各エンコーダのパラメータを出力する。なお、学習装置は、複数の言語のそれぞれに対応した音声エンコーダを訓練してもよい。また、学習用データは、画像及び当該画像と対応付けられた音声を含むデータである。

画像エンコーダは、画像を入力とし、画像特徴量を出力とするモデルである。また、音声エンコーダは、所定の言語の音声を入力とし、音声特徴量を出力とするモデルである。学習装置は、出力された画像特徴量及びと音声特徴量を基に、画像エンコーダ及び音声エンコーダを最適化する。

［第１の実施形態の構成］
図１は、第１の実施形態に係る学習装置の構成例を示す図である。図１に示すように、学習装置１０は、画像特徴量算出部１１１、音声特徴量算出部１２１、損失関数構成部１３１及び更新部１３２を有する。また、学習装置１０は、画像エンコーダ情報１１２、音声エンコーダ情報１２２ａ及び音声エンコーダ情報１２２ｂを記憶する。

学習装置１０には、画像１５１、音声キャプション１５２ａ及び音声キャプション１５２ｂが入力される。また、学習装置１０は、更新済みの画像エンコーダ情報１１２、音声エンコーダ情報１２２ａ及び音声エンコーダ情報１２２ｂを出力することができる。

ここで、音声キャプションは、画像に対応する音声である。例えば、音声キャプションは、人が画像を見て、その画像の内容を説明するために発した音声を収録した信号によって表される。例えば、音声キャプションは、クラウドソーシングを利用して、各言語の話者に画像を見せ、話者が画像を説明するために発した音声を収録することによって得られてもよい。

図２は、音声キャプションについて説明する説明図である。図２には、異なる複数の言語の音声キャプションが示されている。図２には、英語、ヒンディ語及び日本語の音声キャプションの例が示されている。

また、図２の音声キャプションに対応する各言語のテキストは、説明のために表示しているものであり、音声キャプションには含まれない。また、ヒンディ語のテキストの下には、当該ヒンディ語のテキストを英訳したテキストが示されている。また、日本語のテキストの下には、当該日本語のテキストを英訳したテキストが示されている。

図２の例において、各言語の話者が見る画像は同一である。すなわち、各言語の話者は、２人の人物及びメリーゴーラウンドが写った画像を見る。しかしながら、得られた音声キャプションの内容及び長さはばらついている。つまり、言語が異なる複数の音声キャプションは、必ずしも互いに対訳の関係にならない。これは、例えば言語の文化及び語彙の違いに起因する。

ここで、図２に示すような、同一画像に対する複数の言語の音声キャプションを収集するためには、例えば異なる言語の話者に画像を提示した上で、音声による説明を依頼するといった手間が必要になる。

一方で、１つの画像に対する１つの言語の音声キャプションであれば、複数の言語の音声キャプションに比べれば容易に収集できると考えられる。例えば、映像配信サービス等を利用して、画像と音声のペアデータを自動的に収集することが考えられる。

そこで、本実施形態は、１つの画像に異なる複数の言語の音声キャプションを対応付けたデータが十分に得られない場合であっても、モデルの精度を向上させることを１つの目的とする。

図３は、学習装置の処理を説明する説明図である。図３のImage（EN）とImage（JP）は、互いに疎な（disjoint）画像データセットである。また、Image（EN）には英語の音声キャプションであるSpeech(EN)が対応付けられている。また、Image（JP）には日本語の音声キャプションであるSpeech(JP)が対応付けられている。

学習装置１０は、Image（EN）、Image（JP）、Speech(EN)及びSpeech(JP)のエンコードを行い、特徴量を得る。そして、学習装置１０は、Image（EN）とImage（JP）が類似する場合、Image（EN）及びSpeech(EN)のペアと、Image（JP）及びSpeech(JP)のペアと、を拡張ペア（Expanded pair）とみなす。

学習装置１０は、Image（EN）とSpeech(EN)、Image（JP）とSpeech(JP)といった本来ペアとなるデータの特徴量だけでなく、Speech(EN)とSpeech(JP)のような拡張ペアとなるデータの特徴量が互いに類似するものとなるようにモデルを訓練する。

図１に戻り、画像特徴量算出部１１１は、画像を入力とし、画像を埋め込み空間にマッピングした画像特徴量を出力とするモデルである画像エンコーダを用いて、画像特徴量を算出する。また、画像エンコーダ情報１１２は、画像エンコーダを構築するためのパラメータである。

画像特徴量算出部１１１は、画像エンコーダ情報１１２を参照し、画像エンコーダを構築する。そして、画像特徴量算出部１１１は、画像エンコーダに画像１５１を入力し、画像特徴量を得る。つまり、画像特徴量算出部１１１は、画像の入力を受け付け、画像特徴量を出力する。

音声特徴量算出部１２１は、所定の言語の音声を入力とし、音声を埋め込み空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルである音声エンコーダを用いて、音声特徴量を算出する。また、音声エンコーダ情報１２２ａ及び音声エンコーダ情報１２２ｂは、対応する言語の音声エンコーダを構築するためのパラメータである。

音声特徴量算出部１２１は、音声エンコーダ情報１２２ａ及び音声エンコーダ情報１２２ｂを参照し、音声エンコーダを構築する。そして、音声特徴量算出部１２１は、対応する音声エンコーダに音声キャプション１５２ａ及び音声キャプション１５２ｂをそれぞれ入力し、音声特徴量を得る。つまり、音声特徴量算出部１２１は、音声キャプションの入力を受け付け、音声特徴量を出力する。また、音声特徴量算出部１２１は、複数の異なる言語のそれぞれに対応する音声エンコーダを用いて、複数の異なる言語の音声のそれぞれについて音声特徴量を算出する。

前述の通り、画像エンコーダ及び音声エンコーダは、いずれも埋め込み空間にマッピングされた特徴量を出力する。ここで、埋め込み空間を潜在空間と呼ぶ。潜在空間は、画像特徴量と音声特徴量によって共有される空間である。

図４を用いて、エンコーダ及び潜在空間について詳細に説明する。図４は、エンコーダの模式図である。画像エンコーダ１１３及び音声エンコーダ１２３ａは、いずれもCNN（convolutional neural network）を含む。画像エンコーダ１１３は、画像用のCNNを含む。音声エンコーダ１２３ａは、英語用のCNNを含む。なお、学習装置１０は、日本語用のCNNを含む音声エンコーダ１２３ｂを、音声エンコーダ情報１２２ｂから構築することができる。さらに、画像エンコーダ１１３は、空間方向の平均化を行う層を含む。また、各音声エンコーダは、時間方向の平均化を行う層を含む。また、各エンコーダは、出力した特徴量を潜在空間にマッピングする。

ここで、i番目の画像をI_iとする。また、画像I_iに対応する英語の音声キャプションをA_i ^Eとする。このとき、画像エンコーダ１１３は、画像I_iを、d次元の潜在空間にマッピングする。また、音声エンコーダ１２３ａは、音声キャプションA_i ^Eを、d次元の潜在空間にマッピングする。なお、dはあらかじめ定められた次元数である。例えば、本実施形態では、dは1024である。

図４を用いて、画像特徴量算出部１１１が画像特徴量を得る処理を説明する。まず、画像特徴量算出部１１１は、224×224ピクセルのRGB画像（3チャンネル）を画像エンコーダ１１３に入力する。画像エンコーダ１１３は、事前に訓練されたVGG16（参考文献１を参照）のConv5までの層を含む。
参考文献１：K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. ICLR, 2015.

画像エンコーダ１１３は、VGG16のConv5の層から、512×14×14のテンソルを中間特徴量として出力する。つまり、画像エンコーダ１１３は、224×224の画像を14×14にまで縮小する。なお、画像エンコーダによる画像特徴量の出力、及び音声エンコーダによる音声特徴量の出力の過程で得られる特徴量を中間特徴量と呼ぶ。

さらに、画像エンコーダ１１３は、512×14×14のテンソルを、カーネルサイズが3×3のd個のフィルタからなるConv層に入力し、d×14×14のテンソルを出力する。さらに、画像エンコーダ１１３は、Spatial Meanpool層で空間方向の平均化を行い、d次元の画像特徴ベクトルv_i ^Iを出力する。画像特徴量算出部１１１は、画像エンコーダ１１３によって出力された画像特徴ベクトルを、画像特徴量として得る。また、特徴ベクトルは、d次元空間への埋め込みベクトルということができる。

続いて、図４を用いて、音声特徴量算出部１２１が音声特徴量を得る処理を説明する。ここでは、音声エンコーダ１２３ａ及び図示しない音声エンコーダ１２３ｂの構成は同様であるものとする。

まず、音声特徴量算出部１２１は、音声キャプションに対して、フレームシフト長10ms、フレーム長25msの周波数分析、40個のメルフィルタバンク処理を行って得られるT×Fのメルフィルタバンク出力系列を、音声エンコーダ１２３ａに入力する。なお、音声エンコーダ１２３ａに入力される音声の形式は、メルフィルタバンク出力系列に限られない。例えば、音声エンコーダ１２３ａには、STFT（短時間フーリエ変換：short-time Fourier transform）及びMFCC（メル周波数ケプストラム係数：Mel Frequency Cepstrum Coefficients）等が入力されてもよい。

また、音声特徴量算出部１２１は、複数の異なる言語の音声であって、切り捨て又は０埋めにより固定長に揃えられた音声のそれぞれについて音声特徴量を算出する。これにより、長さの異なる音声キャプションをミニバッチ処理することができるようになる。例えば、音声特徴量算出部１２１は、音声キャプションの時間がTよりも長い場合は、Tより後の音声キャプションを切り捨て、Tよりも短い場合は0埋めをする。Tはあらかじめ定められた音声キャプションの長さである。例えば、本実施形態では、Tは3072（ms）である。

音声エンコーダ１２３ａは、CNNをベースとするDAVEnet（非特許文献１を参照）、及びSelf-attention（自己注意）層（参考文献２を参照）を含む。図４の例では、Self-attention層は、DAVEnetの出力側に配置される。
参考文献２：H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Self-attention generative adversarial networks,” in Proc. ICML, 2019.

音声エンコーダ１２３ａは、DAVEnetの最終層であるMax pooling層から、512×T/16のテンソルを中間特徴量として出力する。ここで、DAVEnetによって出力される中間特徴量をx∈R^D×Nとする。音声エンコーダ１２３ａは、自己注意マップを計算するため、Self-attention層において、（１－１）式及び（１－２）式による特徴量変換を行う。

ここで、Dはチャネル数である。また、Nは中間特徴量の長さ（ここではT/16）に相当する。Self-attention層における特徴量変換は、1×1の畳み込み層によるpointwiseconvolutionによって実装される。例えば、本実施形態では、Dは512であり、￣D（Dの直上に￣）はD/8=64である。

さらに、音声エンコーダ１２３ａは、自己注意マップβを（２－１）式及び（２－２）式により算出する。βはN×Nの行列である。s_i,jはi番目の音声特徴量とj番目の音声特徴量との類似の度合いである。（２－２）式に示すように、音声エンコーダ１２３ａは、s_i,jをソフトマックス関数によって行方向に正規化したβ_i,jを要素とする自己注意マップβを算出する。

さらに、音声エンコーダ１２３ａは、中間特徴量xと自己注意マップからo=xβを計算し、さらに、y=x+oγをSelf-attention層の出力として得る。γは訓練によって最適化されるパラメータの1つである。

ここで、DAVEnetの出力側の層では、単語レベルの情報が獲得されることが知られている（例えば、非特許文献１を参照）。このため、本実施形態のように、DAVEnetの出力側にSelf-attention層を配置することで、音声キャプションから重要な単語の区間が得られることが期待される。

音声エンコーダ１２３ａは、Self-attention層の出力を、カーネルサイズが1×17のd個のフィルタからなるConv層に入力し、d×T/16のテンソルを出力する。さらに、音声エンコーダ１２３ａは、Temporal Meanpool層で時間方向の平均化を行い、d次元の音声特徴ベクトルv_i ^Eを出力する。音声特徴量算出部１２１は、音声エンコーダ１２３ａによって出力された音声特徴ベクトルを、音声特徴量として得る。

このように、音声特徴量算出部１２１は、音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、自己注意機構により、要素間の類似度を示す自己注意マップを出力し、自己注意マップを中間特徴量に掛けることにより音声特徴量を算出する。本実施形態では、自己注意機構は、Self-attention層として実現されている。

学習装置１０は、画像特徴ベクトルv_i ^Iと音声特徴ベクトルv_i ^Eに加え、拡張ペアとして選択された音声間の特徴ベクトルが潜在空間において近くに配置されるように、各エンコーダのパラメータを訓練する。このとき、損失関数構成部１３１は、各特徴ベクトルを2つ組み合わせた各組について、12方向からなるTriplet loss（例えば、参考文献３を参照）を損失関数として構成することができる。なお、損失関数はTriplet lossに限られず、Semi-hard negative mining及びMasked margin softmax loss等であってもよい（例えば、非特許文献１及び参考文献４を参照）。
参考文献３：D. Harwath, G. Chuang, and J. Glass, “Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech,” in Proc. ICASSP, 2018.
参考文献４：G. Ilharco, Y. Zhang, and J. Baldridge, “Large-scale representation learning from visually grounded untranscribed speech,” in Proc. CoNLL, 2019.

損失関数構成部１３１による損失関数の構成方法を詳しく説明する。ここでは、学習用データとして、画像と言語Xの音声キャプションのペアデータ（I_i ^X, A_i ^X）、画像と言語Yの音声キャプションのペアデータ（I_j ^Y, A_j ^Y）が入力されるものとする。各ペアデータはデータセットを構成し、添え字i及びjは、データセット中のペアデータを識別するための番号である。なお、例えば言語Xと言語Yは、英語と日本語である。

また、以降の数式において、各エンコーダによって出力されるd次元の特徴ベクトルは太字で表記されるものとする。例えば、画像I_i ^X（Iは細字）を画像エンコーダに入力して得られる特徴ベクトルは、I_i ^X（Iは太字）のように表記される。また、例えば、音声キャプションA_i ^X（Aは細字）を音声エンコーダに入力して得られる特徴ベクトルは、A_i ^X（Aは太字）のように表記される。

すなわち、画像特徴量算出部１１１は、画像を入力とし、画像を埋め込み空間にマッピングした特徴量を出力とするモデル（画像エンコーダ）を用いて、画像I_i ^Xと言語Xの音声A_i ^Xのペアのデータセットである言語Xのデータセットと、画像I_i ^Yと言語Yの音声A_j ^Yのペアのデータセットである言語Yのデータセットと、に含まれる各画像の特徴量である画像特徴量を算出する。

また、音声特徴量算出部１２１は、音声を入力とし、音声を埋め込み空間にマッピングした特徴量を出力とするモデル（音声エンコーダ）を用いて、言語Xのデータセットと、言語Yのデータセットと、に含まれる各音声の特徴量である音声特徴量を算出する。

そして、損失関数構成部１３１は、第１のデータセットの画像である対象画像のそれぞれに類似する類似画像を、第２のデータセットに含まれる画像の中から選択する。対象画像と類似画像の組み合わせが拡張ペアである。また、このとき、損失関数構成部１３１は選択部として機能する。

ここで、バッチサイズをBとすると、学習装置１０に入力されるデータセットは（３）式のように表される。ただし、（３）式中のI、Aはいずれもベクトルを表す太字である。

また、損失関数構成部１３１は、（４）式によって示されるN件のデータセットの画像の中から類似画像を選択するものとする。ただし、（４）式中のI、Aはいずれもベクトルを表す太字である。

損失関数構成部１３１は、（５）式のように、言語Xのデータセットの画像に対する言語Yのデータセットの画像の画像類似度行列S（B×N行列）を計算し、対象画像I_i ^Xとの類似度が最も大きい画像I_li ^Yを類似画像として選択する。これにより、損失関数構成部１３１は、言語Xのデータセットの各画像について拡張ペア（Expanded pair）を決定する。ただし、（５）式中の関数sの引数Iはいずれもベクトルを表す太字である。

同様に、損失関数構成部１３１は、（６）式のように、言語Yのデータセットの画像に対する言語Xのデータセットの画像の画像類似度行列S（B×N行列）を計算し、対象画像I_j ^Yとの類似度が最も大きい画像I_mj ^Xを類似画像として選択する。これにより、損失関数構成部１３１は、言語Yのデータセットの各画像について拡張ペア（Expanded pair）を決定する。ただし、（６）式中の関数sの引数Iはいずれもベクトルを表す太字である。

そして、損失関数構成部１３１は、（７）式のように損失関数L_Sを構成する。ただし、（７）式中のI、Aはいずれもベクトルを表す太字である。

なお、（７）式に示すように、rank関数はa（Anchor）、p（positive）、n（negative）から構成され、aとpの類似度をaとnの類似度から引いた値にハイパーパラメータであるηを足し合わせた計算値と0とのうちの大きい方を出力するものである。

また、（７）式の損失関数の右辺の第１項と第２項は、ペアである（I_i ^X, A_i ^X）の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる（潜在空間で近くに配置される）ほど小さくなる項である。また、（７）式の損失関数の右辺の第３項と第４項は、ペアである（I_j ^Y, A_j ^Y）の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる（潜在空間で近くに配置される）ほど小さくなる項である。

さらに、（７）式の損失関数の右辺の第５項は、拡張ペアの音声同士（A_i ^X, A_li ^Y）の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる（潜在空間で近くに配置される）ほど小さくなる項である。

また、（７）式の損失関数の右辺の第６項は、拡張ペアの音声同士（A_j ^Y, A_mj ^X）の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる（潜在空間で近くに配置される）ほど小さくなる項である。

また、損失関数構成部１３１は、（８）式のように損失関数L_Sを構成してもよい。ただし、（８）式中のI、Aはいずれもベクトルを表す太字である。

（８）式の重みw_i,li及びw_j,mjは、例えばペアの内積の値である。この重みは、そもそも拡張ペアの対象画像と類似画像の類似度、さらには拡張ペアの音声同士の類似度は様々であることを表現したものである。例えば、拡張ペアの対象画像と類似画像の類似度が大きいほど重みも大きくなり、重みを付与された項の訓練への影響が大きくなる。

更新部１３２は、損失関数構成部１３１によって構成された損失関数が最適化されるように、各モデルのパラメータを更新する。更新部１３２は、言語Xのデータセット及び言語Yのデータセットに含まれる画像の画像特徴量と、当該画像とペアである音声の音声特徴量とが類似し（例えば（７）式の右辺の第１項～第４項に相当）、かつ、対象画像とペアである音声の音声特徴量と、類似画像とペアである音声の音声特徴量と、が類似する（例えば（７）式の右辺の第５項及び第６項に相当）ように、画像特徴量算出部１１１及び音声特徴量算出部１２１によって用いられる各モデルのパラメータを更新する。

例えば、更新部１３２は、以下の設定に従い、確率的勾配降下法を利用して損失関数を減少させながら各パラメータを更新する。
慣性項（Momentum）：0.9
重み減衰（Weight Decay）：5×10^-7
初期学習率：0.001
学習率の低減：10エポックごとに学習率を1/40にする
なお、更新部１３２は、確率的勾配降下法ではなく、AdamやRMSPropのようなその他の最適化アルゴリズムを利用してもよい。

［第１の実施形態の処理］
図５は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図５に示すように、まず、学習装置１０には、言語Xのペア（言語Xに対応する画像+言語Xの音声キャプション）及び言語Yのペア（言語Yに対応する画像+言語Yの音声キャプション）のそれぞれのデータセットが入力される（ステップＳ１１）。

次に、学習装置１０は、エンコーダを用いて、各画像及び音声キャプションの特徴量を算出する（ステップＳ１２）。ここで、学習装置１０は、拡張ペアを選択する（ステップＳ１３）。

続いて、学習装置１０は、各ペアの類似度及び拡張ペアの類似度を大きくするための損失関数を構成する（ステップＳ１４）。例えば、学習装置１０は、もともとのペアの画像の特徴量と音声の特徴量の類似度、及び拡張ペアの音声の特徴量同士の類似度を大きくするための損失関数を構成する。そして、学習装置１０は、損失関数が最適化されるようにエンコーダのパラメータを更新する（ステップＳ１５）。

図６を用いて、図５のステップＳ１３に相当する拡張ペアの選択処理を説明する。図６は、拡張ペアを選択する処理の流れを示すフローチャートである。学習装置１０は、未選択の画像がなくなるまで（ステップＳ１３１、No）、ステップＳ１３２以降の処理を繰り返す。

学習装置１０は、未選択の画像がある場合（ステップＳ１３１、Yes）、未選択の画像を対象画像として１つ選択する（ステップＳ１３２）。学習装置１０は、選択した画像と異なる言語に対応する各画像との類似度を計算する（ステップＳ１３３）。例えば、学習装置１０は、言語Xのデータセットの画像を選択した場合、当該選択した画像と、言語Yのデータセットの画像との類似度を計算する。

ここで、学習装置１０は、類似度が最も大きい画像を類似画像として選択する（ステップＳ１３４）。そして、学習装置１０は、対象画像と類似画像のペアを拡張ペアとする（ステップＳ１３５）。対象画像と類似画像には、もともとペアである音声キャプションが存在する。そのような音声キャプション同士も拡張ペアである。

第１の実施形態は、モダリティが画像及び言語が指定された音声である場合の実施形態ということができる。一方で、モダリティは、ここで説明したものに限られず、映像、及び所定のセンシングデータ等であってもよい。

すなわち、学習装置１０は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、複数のモダリティのうちの２つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する。

そして、学習装置１０は、データセットのうちの第１のデータセットの第１のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第２のデータセットに含まれる第２のモダリティのデータの中から選択する。例えば、第１のデータセット及び第２のデータセットは、言語Xのデータセット及び言語Yのデータセットに相当する。

なお、第１のモダリティと第２のモダリティは同じであってもよい。第１の実施形態では、第１のモダリティと第２のモダリティは画像に相当する。

さらに、学習装置１０は、第１のデータセット及び第２のデータセットに含まれるペア内のデータの特徴量が互いに類似し、かつ、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量とが類似するように、モデルのパラメータを更新する。

このように、本来ペアではない対象データと類似データとを拡張ペアとみなしてモデルを最適化することで、モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させることができる。

学習装置１０は、第１のデータセットに含まれるペア内のデータの特徴量の類似度が大きいほど小さくなる項と、第２のデータセットに含まれるペア内のデータの特徴量の類似度が大きいほど小さくなる項と、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量との類似度が大きいほど小さくなる項であって、ハイパーパラメータとして重みを設定可能な項と、を含む損失関数が最小化されるように、パラメータを更新する。

このように、学習装置１０は、（７）式で示した損失関数を構成することで、本来のペアの類似度と拡張ペアの類似度を同時に最適化することができる。

学習装置１０は、データセットのうちの第２のデータセットの第２のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第１のデータセットに含まれる第１のモダリティのデータの中からさらに選択する。これは、（５）式と（６）式に示した通り、学習装置１０が、言語Xのデータセットを基準にした拡張ペアと、言語Yのデータセットを基準にした拡張ペアと、の両方を選択することを意味する。これにより、学習装置１０は、モデルの精度をより向上させることができる。

学習装置１０は、画像、映像、言語が指定された音声、所定のセンシングデータのうち、２つをモダリティとして組み合わせたペアのデータセットに含まれる各データの特徴量を算出することができる。

［第２の実施形態］
第２の実施形態では、第１の実施形態において訓練されたモデルを用いて、実際に推論を行う処理について説明する。訓練済みの画像エンコーダ及び音声エンコーダによれば、クロスモーダル探索が可能になる。クロスモーダル探索とは、異なる形態のデータを探索することである。例えば、クロスモーダル探索には、音声から画像を探索すること、画像から音声を探索すること、ある言語の音声から他の言語の音声を探索すること等が含まれる。また、各実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。

［第２の実施形態の構成］
図７は、第２の実施形態に係る探索装置の構成例を示す図である。図７に示すように、探索装置２０は、画像特徴量算出部２１１、音声特徴量算出部２２１、探索部２３２を有する。また、探索装置２０は、画像エンコーダ情報２１２及び音声エンコーダ情報２２２を記憶する。

探索装置２０には、画像と各言語の音声キャプションが入力される。探索装置２０に入力される画像は、探索のためのクエリである。例えば、探索装置２０は、探索により得られた音声キャプションを探索結果として出力する。

画像特徴量算出部２１１は、学習装置１０の画像特徴量算出部１１１と同様に、画像を入力として受け付け、画像特徴量を算出する。ただし、画像エンコーダ情報２１２は、第１の実施形態で説明した方法により訓練済みである。つまり、画像特徴量算出部２１１は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。

また、音声特徴量算出部２２１は、学習装置１０の音声特徴量算出部１２１と同様に、音声キャプションを入力として受け付け、音声特徴量を出力する。ただし、音声エンコーダ情報２２２は、第１の実施形態で説明した方法により訓練済みである。つまり、音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。また、探索装置２０は、画像特徴量算出部２１１が算出した画像特徴量を蓄積しておいてもよい。

また、探索装置２０は、各言語に対応した複数の音声エンコーダを用いてもよい。音声エンコーダ情報２２２ａ及び音声エンコーダ情報２２２ｂは、それぞれ英語と日本語に対応する。

探索部２３２は、画像特徴量を基に、類似する音声を探索する。例えば、探索部２３２は、蓄積した音声特徴量情報の中から、入力された画像から算出した画像特徴量と類似するものを探索し、得られた音声特徴量に対応する音声を出力する。第１の実施形態で説明した通り、音声特徴量と画像特徴量はいずれも同一の潜在空間上にマッピングされる。さらに具体的には、音声特徴量と画像特徴量はいずれもd次元のベクトルである。このため、探索部２３２は、内積を算出すること等により、音声特徴量と画像特徴量の類似度を容易に比較することができる。

［第２の実施形態の処理］
図８は、第２の実施形態に係る探索装置の処理の流れを示すフローチャートである。図８に示すように、まず、探索装置２０には、クエリである画像と、言語Xの音声キャプション及び言語Yの音声キャプションが入力される（ステップＳ２１）。

探索装置２０は、エンコーダを用いて、各画像及び音声キャプションの特徴量を算出する（ステップＳ２２）。このとき、探索装置２０は、音声キャプションの特徴量を蓄積しておいてもよい。

そして、探索装置２０は、類似度を基にクエリ画像に類似する音声キャプションを探索する（ステップＳ２３）。さらに、探索装置２０は、探索により得られた音声キャプションを出力する（ステップＳ２４）。

［第２の実施形態の効果］
このように、第２の実施形態によれば、音声から画像を探索するクロスモーダル探索を行うことができる。また、探索装置２０は、音声をクエリとして、異なる言語の音声を探索するクロスリンガル探索を行うこともできる。

［実験結果］
第２の実施形態の探索装置を用いて行った実験について説明する。実験では、第１の実施形態の学習装置により訓練したエンコーダを用いて、第２の実施形態の探索装置により探索を行った。

実験では、英語と日本語がそれぞれ言語Xと言語Yに相当する。英語のデータセットは、98,555枚の画像と各画像に対応付けられた英語の音声キャプションを含む。また、日本語のデータセットは、98,555枚の画像と各画像に対応付けられた日本語の音声キャプションを含む。

なお、実験では、英語のデータセットと日本語のデータセットには同一の画像は含まれていないものとする。ただし、第１の実施形態及び第２の実施形態においては、異なる言語のデータセットに同一の画像が含まれていてもよい。

また、各データセットの98,555枚の画像と音声キャプションのペアのうち、97,555件を学習用のデータとし、1,000件を探索用のデータとした。また、実験では、各パラメータ等の条件を以下のように設定した。なお、ここに記載のない条件については、実施形態で説明したものに準ずる。
音声キャプションの長さT：20秒
潜在空間の次元数d：1024
損失関数：（７）式
損失関数のハイパーパラメータη：1
バッチサイズB：100
評価尺度：Recall@N

実験では、クエリから得られた特徴ベクトルから、ペアとなる評価用の特徴ベクトルを1,000件の中から探索する場合に、類似度が大きいN件を決定した。そして、クエリから得られた特徴ベクトルと評価用の特徴ベクトルのペアがN件の中に含まれていれば、探索は成功したことになる。このとき、探索成功となる割合がRecall@Nである。Recall@Nは、R@Nのように略記される場合がある。

なお、第２の実施形態は、画像をクエリとして音声キャプションを探索するものであったが、探索装置２０は、任意の特徴ベクトルをクエリとして他の特徴ベクトルの類似度を計算し、探索することができる。

例えば、探索装置２０は、英語の音声をクエリとして画像を探索することができる。また、探索装置２０は、英語の音声をクエリとして日本語の音声を探索することができる（クロスリンガル探索）。

図９は、実験結果を示す図である。Nは、（４）式で説明した通り、類似画像を選択する元のデータの件数である。Baselineは、拡張ペアに関する項（（７）式の第５項と第６項）を含まない損失関数を使用した場合の結果である。VGG16は、拡張ペアを選択する際の類似度の計算に見かけの類似度を使用した場合の結果である。例えば、この場合、画像認識器（VGG16）の出力OからS_i,n=-JS(O_i ^X, O_n ^Y)で計算されるJensen-Shannon距離が類似度として使用される。Embeddingは、第１の実施形態と同様の手法を使用した場合の結果である。

I→Eは、画像をクエリとして英語の音声を探索することを意味する。また、E→Iは、英語の音声をクエリとして画像を探索することを意味する。また、I→Jは、画像をクエリとして日本語の音声を探索することを意味する。また、J→Iは、日本語の音声をクエリとして画像を探索することを意味する。また、J→Eは、日本語の音声をクエリとして英語の音声クエリを探索することを意味する。また、E→Jは、英語の音声をクエリとして日本語の音声クエリを探索することを意味する。

図９より、拡張ペアに関する項が損失関数に含まれる場合（VGG16、Embedding）の方が、Baselineと比べてRecall@Nが向上する傾向にあることがわかる。さらに、Embeddingについては、Nが増加するほど精度が向上することが図９に示されている。

図１０は、実験による翻訳知識の獲得結果の例を示す図である。図１０の翻訳知識は、非特許文献２に記載の方法によって獲得されたものである。Ground truthは、画像に英語と日本語の両方のキャプションを対応付けた場合の結果である。Ground truthに近いほど良好な結果であるということができる。図１０に示すように、Embedding（N=10³）の方が、Baselineと比べてノイズが少なく、言語間の対応関係が鮮明になっている。

また、図１１に示すように、日本語の音声キャプションの代わりにヒンディ語の音声キャプションを用いて実験を行った場合も、拡張ペアに関する項が損失関数に含まれる場合（VGG16、Embedding）の方が、Baselineと比べてRecall@Nが向上する傾向にあることがわかった。

［その他のモダリティの例］
これまで、主にモダリティが画像と言語が指定された音声とである場合の例について説明してきた。一方で、前述の通り、実施形態には、これまで説明したもの以外にも様々なモダリティを適用することができる。

ここで、ペアデータのモダリティを（A,B）、（C,D）のようにおく。（）はペアであることを意味する。例えば、上記の実施形態では、Aが画像、Bを英語の音声、Cを画像、Dが日本語の音声である。また、拡張ペアを選択する際には、AとCの類似度が計算される。このため、AとCは類似度を定義可能な関係にあればよい。

まず、B及びDを言語が異なる音声のキャプションとする。この場合、A及びCは、TV放送及び映像配信サービスから取得した映像コンテンツであってもよい。また、A及びCは、各種センシングデータであってもよい。その場合、異なる言語の話者が、A又はCを知覚し発話によってその内容を説明することでB又はDのデータを収集することができる。

例えば、A及びCが、心電図等の生体センサに基づくデータであるものとする。その場合、所定の言語を話す医師が当該心電図から読み取れる異常等についてコメントをすることで、B又はDに相当する音声キャプションを得ることができる。なお、心電図は波形信号で表されるため、実施形態と同様の周波数分析等を適用することが可能である。

また、例えば、A及びCが、スポーツ選手の身体に取り付けられた加速度計からの出力であるものとする。そして、その場合、所定の言語を話す話者が、スポーツ選手の動き（例えば、野球のバットのスイング）を見て説明を述べることでB又はDに相当する音声キャプションを得ることができる。

なお、AとCは異なっていてもよい。例えば、Aが画像（静止画像）、Bが英語の音声、Cが映像（動画像）、Dが日本語の音声であってもよい。この場合、動画像の代表的なフレームを静止画像と比較すること、静止画像を複数フレームにわたって並べた動画像を生成すること等によりAとCとの間の類似度を定義し、拡張ペアを選択することが考えられる。

また、様々なモダリティのデータを共通の埋め込み空間にマッピングするための手法として、既知の手法を採用することができる。例えば、ニューラルネットワークを利用することで、様々な形式のデータを指定した空間にマッピングすることが可能になる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０及び探索装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は探索処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０又は探索装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０及び探索装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は探索処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、学習用のデータを入力とし、訓練済みのエンコーダの情報を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１２は、学習プログラムを実行するコンピュータの一例を示す図である。なお、探索プログラムについても同様のコンピュータによって実行されてもよい。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して、上述した実施形態の処理を実行する。CPU１０２０は、メモリと連結して上記の実施形態の処理を実行するようにプログラムされたものであってもよい。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な一時的でなくかつコンピュータで読み取り可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０学習装置
２０探索装置
１１２、２１２画像エンコーダ情報
１２２ａ、１２２ｂ、２２２ａ、２２２ｂ音声エンコーダ情報
１１１、２１１画像特徴量算出部
１１３画像エンコーダ
１２１、２２１音声特徴量算出部
１２３ａ、１２３ｂ音声エンコーダ
１３１損失関数構成部
１３２更新部
２３２探索部

Claims

複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの２つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出部と、
前記データセットのうちの第１のデータセットの第１のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第２のデータセットに含まれる第２のモダリティのデータの中から選択する選択部と、
前記第１のデータセット及び前記第２のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記更新部は、前記第１のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記第２のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量との類似度が大きいほど小さくなる項であって、ハイパーパラメータとして重みを設定可能な項と、を含む損失関数が最小化されるように、前記パラメータを更新することを特徴とする請求項１に記載の学習装置。
前記特徴量算出部は、画像、映像、言語が指定された音声、所定のセンシングデータのうち、２つをモダリティとして組み合わせたペアのデータセットに含まれる各データの特徴量を算出することを特徴とする請求項１又は２に記載の学習装置。
前記選択部は、前記データセットのうちの第２のデータセットの第２のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第１のデータセットに含まれる第１のモダリティのデータの中からさらに選択することを特徴とする請求項１から３のいずれか１項に記載の学習装置。
学習装置によって実行される学習方法であって、
複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの２つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出工程と、
前記データセットのうちの第１のデータセットの第１のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第２のデータセットに含まれる第２のモダリティのデータの中から選択する選択工程と、
前記第１のデータセット及び前記第２のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から４のいずれか１項に記載の学習装置として機能させるための学習プログラム。
画像を入力とし、前記画像を埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、画像と第１の言語の音声のペアのデータセットである第１のデータセットと、画像と第２の言語の音声のペアのデータセットである第２のデータセットと、に含まれる各画像の特徴量である画像特徴量を算出する画像特徴量算出部と、
音声を入力とし、前記音声を前記埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、前記第１のデータセットと、前記第２のデータセットと、に含まれる各音声の特徴量である音声特徴量を算出する音声特徴量算出部と、
前記第１のデータセットの画像である対象画像のそれぞれに類似する類似画像を、前記第２のデータセットに含まれる画像の中から選択する選択部と、
前記第１のデータセット及び前記第２のデータセットに含まれる画像の前記画像特徴量と、前記画像とペアである音声の前記音声特徴量とが類似し、かつ、前記対象画像とペアである音声の前記音声特徴量と、前記類似画像とペアである音声の前記音声特徴量と、が類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。