JP2022158735A

JP2022158735A - 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム

Info

Publication number: JP2022158735A
Application number: JP2021066027A
Authority: JP
Inventors: 康智大石; Yasutomo Oishi; 昭悟木村; Shogo Kimura; 隆仁川西; Takahito Kawanishi; 邦夫柏野; Kunio Kashino; アール．グラスジェイムズ; R Glass James; ハーワスデイビッド; Harwath David
Original assignee: Nippon Telegraph and Telephone Corp; Massachusetts Institute of Technology
Current assignee: Nippon Telegraph and Telephone Corp; Massachusetts Institute of Technology
Priority date: 2021-03-31
Filing date: 2021-04-08
Publication date: 2022-10-17
Also published as: JP2022169757A; US11817081B2; US20220319493A1

Abstract

【課題】視覚的な情報と言語的な情報を精度良く対応付けること。【解決手段】学習装置は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデル（画像エンコーダ）を用いて、画像特徴量を算出する。学習装置は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデル（音声エンコーダ）を用いて、音声特徴量を算出する。学習装置は、第１の画像の画像特徴量と、第１の画像に対応する音声の音声特徴量とが類似するように、画像特徴量算出部１１１及び音声特徴量算出部１２１によって用いられる各モデルのパラメータを更新する。【選択図】図１

Description

特許法第３０条第２項適用申請有りＩＣＡＳＳＰ２０２０ＷＥＢ開催（ｈｔｔｐｓ：／／２０２０．ｉｅｅｅｉｃａｓｓｐ．ｏｒｇ／）開催日２０２０年５月４日～２０２０年５月８日（公知日：２０２０年５月８日）

本発明は、学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラムに関する。

画像認識技術によれば、画像に写る多様な物体を特定することができる。さらに、画像へのラベル付けにより、視覚的な情報と言語的な情報を対応付ける技術が知られている。例えば、画像と当該画像の内容を説明する音声（以下、音声キャプションと呼ぶ）のペアデータを大量に用意して、画像の領域と音声キャプションの区間（以下、音声区間と呼ぶ）を対応付ける技術が知られている（例えば、非特許文献１を参照）。

David Harwath, Adria Recasens, Didac Suris, Galen Chuang, Antonio Torralba, James Glass, "Jointly Discovering Visual Objects and Spoken Words from Raw sensory input", International Journal of Computer Vision (2019) (https://doi.org/10.1007/s11263-019-01205-0)

しかしながら、従来の技術には、視覚的な情報と言語的な情報を精度良く対応付けることが難しい場合があるという問題がある。例えば、非特許文献１に記載の技術では、画像に写った物体を示す単語が発話された音声区間を、音声キャプションの中から明確に特定することが難しい場合がある。

上述した課題を解決し、目的を達成するために、学習装置は、画像を入力とし、前記画像を第１の空間にマッピングした画像特徴量を出力とするモデルを用いて、前記画像特徴量を算出する画像特徴量算出部と、所定の言語の音声を入力とし、前記音声を前記第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルを用いて、前記音声特徴量を算出する音声特徴量算出部と、第１の画像の前記画像特徴量と、前記第１の画像に対応する音声の前記音声特徴量とが類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、を有することを特徴とする。

本発明によれば、視覚的な情報と言語的な情報を精度良く対応付けることができる。

図１は、第１の実施形態に係る学習装置の構成例を示す図である。図２は、音声キャプションについて説明する説明図である。図３は、言語ごとの音声キャプションの長さの一例を示す図である。図４は、エンコーダ及び潜在空間の模式図である。図５は、自己注意マップの一例を示す図である。図６は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図７は、第２の実施形態に係る探索装置の構成例を示す図である。図８は、第２の実施形態に係る探索装置の処理の流れを示すフローチャートである。図９は、第３の実施形態に係る探索装置の構成例を示す図である。図１０は、第３の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１１は、第４の実施形態に係る探索装置の構成例を示す図である。図１２は、第４の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１３は、単一言語モデルを用いた場合の実験結果を示す図である。図１４は、複数言語モデルを用いた場合の実験結果を示す図である。図１５は、異なる言語間の探索の実験結果を示す図である。図１６は、第５の実施形態に係る探索装置の構成例を示す図である。図１７は、第５の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１８は、翻訳知識の一例を示す図である。図１９は、学習プログラムを実行するコンピュータの一例を示す図である。

以下に、本願に係る学習装置、学習方法、学習プログラム、探索装置、探索方法及び、探索プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
第１の実施形態に係る学習装置は、入力された学習用データを用いて、画像エンコーダ及び音声エンコーダを訓練する。そして、学習装置は、訓練済みの各エンコーダを出力する。例えば、学習装置は、各エンコーダのパラメータを出力する。なお、学習装置は、複数の言語のそれぞれに対応した音声エンコーダを訓練してもよい。また、学習用データは、画像及当該画像と対応付けられた音声を含むデータである。

画像エンコーダは、画像を入力とし、画像特徴量を出力とするモデルである。また、音声エンコーダは、所定の言語の音声を入力とし、音声特徴量を出力とするモデルである。学習装置は、画像を基に画像エンコーダにより出力される画像特徴量と、当該画像に対応する音声を基に音声エンコーダにより出力される音声特徴量が類似するように、画像エンコーダ及び音声エンコーダを訓練する。

［第１の実施形態の構成］
図１は、第１の実施形態に係る学習装置の構成例を示す図である。図１に示すように、学習装置１０は、画像特徴量算出部１１１、音声特徴量算出部１２１、損失関数構成部１３１及び更新部１３２を有する。また、学習装置１０は、画像エンコーダ情報１１２、音声エンコーダ情報１２２ａ、音声エンコーダ情報１２２ｂ及び音声エンコーダ情報１２２ｃを記憶する。

学習装置１０には、画像１５１、音声キャプション１５２ａ、音声キャプション１５２ｂ及び音声キャプション１５２ｃが入力される。また、学習装置１０は、更新済みの画像エンコーダ情報１１２、音声エンコーダ情報１２２ａ、音声エンコーダ情報１２２ｂ及び音声エンコーダ情報１２２ｃを出力することができる。

ここで、音声キャプションは、画像に対応する音声である。例えば、音声キャプションは、人が画像を見て、その画像の内容を説明するために発した音声を収録した信号によって表される。例えば、音声キャプションは、クラウドソーシングを利用して、各言語の話者に画像を見せ、話者が画像を説明するために発した音声を収録することによって得られてもよい。

図２は、音声キャプションについて説明する説明図である。図２には、本実施形態において学習装置１０に入力される、異なる３つの言語の音声キャプションが示されている。図２に示すように、本実施形態では、学習装置１０には、英語、ヒンディ語及び日本語の音声キャプションが入力されるものとする。

例えば、図１の音声キャプション１５２ａは、英語の音声キャプションである。また、例えば、図１の音声キャプション１５２ｂは、ヒンディ語の音声キャプションである。また、例えば、図１の音声キャプション１５２ｃは、日本語の音声キャプションである。また、図２の音声キャプションに対応する各言語のテキストは、説明のために表示しているものであり、音声キャプションには含まれない。また、ヒンディ語のテキストの下には、当該ヒンディ語のテキストを英訳したテキストが示されている。また、日本語のテキストの下には、当該日本語のテキストを英訳したテキストが示されている。

図２の例において、各言語の話者が見る画像は同一である。すなわち、各言語の話者は、２人の人物及びメリーゴーラウンドが写った画像を見る。しかしながら、得られた音声キャプションの内容及び長さはばらついている。つまり、言語が異なる複数の音声キャプションは、必ずしも互いに対訳の関係にならない。これは、例えば言語の文化及び語彙の違いに起因する。

図３は、言語ごとの音声キャプションの長さの一例を示す図である。図３の例では、同一の画像に対応する音声キャプションの平均的な長さが、日本語、ヒンディ語、英語の順で長く、単語数も同じ順で多い。本実施形態の音声エンコーダは、互いに言語が異なり、さらに長さや単語数も大きく異なる複数の音声キャプションを同一の空間にマッピングすることができる。

画像特徴量算出部１１１は、画像を入力とし、画像を第１の空間にマッピングした画像特徴量を出力とするモデルである画像エンコーダを用いて、画像特徴量を算出する。また、画像エンコーダ情報１１２は、画像エンコーダを構築するためのパラメータである。

画像特徴量算出部１１１は、画像エンコーダ情報１１２を参照し、画像エンコーダを構築する。そして、画像特徴量算出部１１１は、画像エンコーダに画像１５１を入力し、画像特徴量を得る。つまり、画像特徴量算出部１１１は、画像の入力を受け付け、画像特徴量を出力する。

音声特徴量算出部１２１は、所定の言語の音声を入力とし、音声を第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルである音声エンコーダを用いて、音声特徴量を算出する。また、音声エンコーダ情報１２２ａ、音声エンコーダ情報１２２ｂ、音声エンコーダ情報１２２ｃ、対応する言語の音声エンコーダを構築するためのパラメータである。

音声特徴量算出部１２１は、音声エンコーダ情報１２２ａ、音声エンコーダ情報１２２ｂ、音声エンコーダ情報１２２ｃを参照し、音声エンコーダを構築する。そして、音声特徴量算出部１２１は、対応する音声エンコーダに音声キャプション１５２ａ、音声キャプション１５２ｂ、音声キャプション１５２ｃをそれぞれ入力し、音声特徴量を得る。つまり、音声特徴量算出部１２１は、音声キャプションの入力を受け付け、音声特徴量を出力する。また、音声特徴量算出部１２１は、複数の異なる言語のそれぞれに対応する音声エンコーダを用いて、複数の異なる言語の音声のそれぞれについて音声特徴量を算出する。

前述の通り、画像エンコーダ及び音声エンコーダは、いずれも第１の空間にマッピングされた特徴量を出力する。ここで、第１の空間を潜在空間と呼ぶ。潜在空間は、画像特徴量と音声特徴量によって共有される空間である。

図４を用いて、エンコーダ及び潜在空間について詳細に説明する。図４は、エンコーダ及び潜在空間の模式図である。画像エンコーダ１１３、音声エンコーダ１２３ａ、音声エンコーダ１２３ｂ、音声エンコーダ１２３ｃは、いずれもCNN（convolutional neural network）を含む。画像エンコーダ１１３は、画像用のCNNを含む。音声エンコーダ１２３ａは、英語用のCNNを含む。音声エンコーダ１２３ｂは、ヒンディ語用のCNNを含む。音声エンコーダ１２３ｃは、日本語用のCNNを含む。さらに、画像エンコーダ１１３は、空間方向の平均化を行う層を含む。また、各音声エンコーダは、時間方向の平均化を行う層を含む。また、各エンコーダは、出力した特徴量を潜在空間１７０にマッピングする。

ここで、i番目の画像をI_iとする。また、画像I_iに対応する英語、ヒンディ語、日本語の音声キャプションをそれぞれA_i ^E、A_i ^H、A_i ^Jとする。このとき、画像エンコーダ１１３は、画像I_iを、d次元の潜在空間１７０にマッピングする。また、音声エンコーダ１２３ａは、音声キャプションA_i ^Eを、d次元の潜在空間１７０にマッピングする。また、音声エンコーダ１２３ｂは、音声キャプションA_i ^Hを、d次元の潜在空間１７０にマッピングする。また、音声エンコーダ１２３ｃは、音声キャプションA_i ^Jを、d次元の潜在空間１７０にマッピングする。なお、dはあらかじめ定められた次元数である。例えば、本実施形態では、dは1024である。

図４を用いて、画像特徴量算出部１１１が画像特徴量を得る処理を説明する。まず、画像特徴量算出部１１１は、224×224ピクセルのRGB画像（3チャンネル）を画像エンコーダ１１３に入力する。画像エンコーダ１１３は、事前に訓練されたVGG16（参考文献１を参照）のConv5までの層を含む。
参考文献１：K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. ICLR, 2015.

画像エンコーダ１１３は、VGG16のConv5の層から、512×14×14のテンソルを中間特徴量として出力する。つまり、画像エンコーダ１１３は、224×224の画像を14×14にまで縮小する。なお、画像エンコーダによる画像特徴量の出力、及び音声エンコーダによる音声特徴量の出力の過程で得られる特徴量を中間特徴量と呼ぶ。

さらに、画像エンコーダ１１３は、512×14×14のテンソルを、カーネルサイズが3×3のd個のフィルタからなるConv層に入力し、d×14×14のテンソルを出力する。さらに、画像エンコーダ１１３は、Spatial Meanpool層で空間方向の平均化を行い、d次元の画像特徴ベクトルv_i ^Iを出力する。画像特徴量算出部１１１は、画像エンコーダ１１３によって出力された画像特徴ベクトルを、画像特徴量として得る。また、特徴ベクトルは、d次元空間への埋め込みベクトルということができる。

図４を用いて、音声特徴量算出部１２１が音声特徴量を得る処理を説明する。ここでは、音声エンコーダ１２３ａ、音声エンコーダ１２３ｂ及び音声エンコーダ１２３ｃの構成は同様であるものとする。また、音声エンコーダ１２３ａ、音声エンコーダ１２３ｂ及び音声エンコーダ１２３ｃを区別せずに音声エンコーダ１２３と呼ぶ場合がある。

まず、音声特徴量算出部１２１は、音声キャプションに対して、フレームシフト長10ms、フレーム長25msの周波数分析、40個のメルフィルタバンク処理を行って得られるT×Fのメルフィルタバンク出力系列を、音声エンコーダ１２３に入力する。なお、音声エンコーダ１２３に入力される音声の形式は、メルフィルタバンク出力系列に限られない。例えば、音声エンコーダ１２３には、STFT（短時間フーリエ変換：short-time Fourier transform）及びMFCC（メル周波数ケプストラム係数：Mel Frequency Cepstrum Coefficients）等が入力されてもよい。

また、音声特徴量算出部１２１は、複数の異なる言語の音声であって、切り捨て又は０埋めにより固定長に揃えられた音声のそれぞれについて音声特徴量を算出する。これにより、長さの異なる音声キャプションをミニバッチ処理することができるようになる。例えば、音声特徴量算出部１２１は、音声キャプションの時間がTよりも長い場合は、Tより後の音声キャプションを切り捨て、Tよりも短い場合は0埋めをする。Tはあらかじめ定められた音声キャプションの長さである。例えば、本実施形態では、Tは3072（ms）である。

音声エンコーダ１２３は、CNNをベースとするDAVEnet（非特許文献１を参照）、及びSelf-attention（自己注意）層（参考文献２を参照）を含む。図４の例では、Self-attention層は、DAVEnetの出力側に配置される。
参考文献２：H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Self-attention generative adversarial networks,” in Proc. ICML, 2019.

音声エンコーダ１２３は、DAVEnetの最終層であるMax pooling層から、512×T/16のテンソルを中間特徴量として出力する。ここで、DAVEnetによって出力される中間特徴量をx∈R^D×Nとする。音声エンコーダ１２３は、自己注意マップを計算するため、Self-attention層において、（１－１）式及び（１－２）式による特徴量変換を行う。

ここで、Dはチャネル数である。また、Nは中間特徴量の長さ（ここではT/16）に相当する。Self-attention層における特徴量変換は、1×1の畳み込み層によるpointwiseconvolutionによって実装される。例えば、本実施形態では、Dは512であり、￣D（Dの直上に￣）はD/8=64である。

さらに、音声エンコーダ１２３は、自己注意マップβを（２－１）式及び（２－２）式により算出する。βはN×Nの行列である。s_i,jはi番目の音声特徴量とj番目の音声特徴量との類似の度合いである。（２－２）式に示すように、音声エンコーダ１２３は、s_i,jをソフトマックス関数によって行方向に正規化したβ_i,jを要素とする自己注意マップβを算出する。

さらに、音声エンコーダ１２３は、中間特徴量xと自己注意マップからo=xβを計算し、さらに、y=x+oγをSelf-attention層の出力として得る。γは訓練によって最適化されるパラメータの1つである。

ここで、DAVEnetの出力側の層では、単語レベルの情報が獲得されることが知られている（例えば、非特許文献１を参照）。このため、本実施形態のように、DAVEnetの出力側にSelf-attention層を配置することで、音声キャプションから重要な単語の区間が得られることが期待される。

音声エンコーダ１２３は、Self-attention層の出力を、カーネルサイズが1×17のd個のフィルタからなるConv層に入力し、d×T/16のテンソルを出力する。さらに、音声エンコーダ１２３は、Temporal Meanpool層で時間方向の平均化を行い、d次元の音声特徴ベクトルv_i ^E、v_i ^H、又はv_i ^Jを出力する。音声特徴量算出部１２１は、音声エンコーダ１２３によって出力された音声特徴ベクトルを、音声特徴量として得る。

このように、音声特徴量算出部１２１は、音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、自己注意機構により、要素間の類似度を示す自己注意マップを出力し、自己注意マップを中間特徴量に掛けることにより音声特徴量を算出する。本実施形態では、自己注意機構は、Self-attention層として実現されている。

学習装置１０は、画像特徴ベクトルv_i ^I、音声特徴ベクトルv_i ^E、v_i ^H、v_i ^Jが潜在空間１７０において近くに配置されるように、各エンコーダのパラメータを訓練する。そこで、損失関数構成部１３１は、各特徴ベクトルを2つ組み合わせた各組について、12方向からなるTriplet loss（例えば、参考文献３を参照）を損失関数として構成する。なお、損失関数はTriplet lossに限られず、Semi-hard negative mining及びMasked margin softmax loss等であってもよい（例えば、非特許文献１及び参考文献４を参照）。
参考文献３：D. Harwath, G. Chuang, and J. Glass, “Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech,” in Proc. ICASSP, 2018.
参考文献４：G. Ilharco, Y. Zhang, and J. Baldridge, “Large-scale representation learning from visually grounded untranscribed speech,” in Proc. CoNLL, 2019.

また、更新部１３２は、第１の画像の画像特徴量と、第１の画像に対応する音声の音声特徴量とが類似するように、画像特徴量算出部１１１及び音声特徴量算出部１２１によって用いられる各エンコーダのパラメータを更新する。音声特徴量が複数の場合、更新部１３２は、音声特徴量及び言語のそれぞれについて算出された画像特徴量を含む各特徴量が互いに類似するように、パラメータを更新する。なお、学習装置１０が記憶する音声エンコーダ情報の数は、図示のものに限られない。学習装置１０が記憶する音声エンコーダ情報は１つ、２つ又は４つ以上であってもよい。

ここで、Self-attention層の出力である自己注意マップには、音声キャプション中の区間であって、画像を表現するための重要な単語の区間が現れる。図５は、自己注意マップの一例を示す図である。画像１９１には、地面上の岩が写った写真である。自己注意マップ１９２ａは、画像１９１に対応する英語の音声キャプションから得られたものである。また、自己注意マップ１９２ｃは、画像１９１に対応する日本語の音声キャプションから得られたものである。いずれの自己注意マップにおいても、岩、山、地面等に関する単語の区間が強調されている。

［第１の実施形態の処理］
図６は、第１の実施形態に係る学習装置の処理の流れを示すフローチャートである。図６に示すように、まず、学習装置１０には、画像と、画像に対応する1つ以上の音声キャプションが入力される（ステップＳ１０１）。

画像特徴量算出部１１１は、画像から、画像エンコーダを用いてd次元の画像特徴ベクトルを算出する（ステップＳ１０２）。また、音声特徴量算出部１２１は、未処理の音声キャプションがある場合（ステップＳ１０３、Yes）、当該未処理の音声キャプションから、対応する言語の音声エンコーダを用いて、d次元の音声特徴ベクトルを算出し（ステップＳ１０４）、ステップＳ１０３に戻る。なお、画像特徴ベクトルの算出処理（ステップＳ１０２）及び各言語の音声特徴ベクトルの算出処理（ステップＳ１０４）は、順番に実行されてもよいし、並行して実行されてもよい。

損失関数構成部１３１は、未処理の音声キャプションがなくなった場合（ステップＳ１０３、No）、画像特徴ベクトル及び音声特徴ベクトルを基に損失関数を構成する（ステップＳ１０５）。そして、更新部１３２は、損失関数が最適化されるように各エンコーダのパラメータを更新する（ステップＳ１０６）。

ここで、学習装置１０は、終了条件が充足されている場合（ステップＳ１０７、Yes）、処理を終了する。一方、学習装置１０は、終了条件が充足されていない場合（ステップＳ１０７、No）、ステップＳ１０２に戻り更新済みの各エンコーダを使って処理を繰り返す。なお、例えば、終了条件は、用意されたミニバッチ内の全てのデータについて処理が実行済みであること、規定回数だけ処理が繰り返されたこと、パラメータの更新幅が収束したこと等である。

［第１の実施形態の効果］
これまで説明してきたように、画像特徴量算出部１１１は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデル（画像エンコーダ）を用いて、画像特徴量を算出する。音声特徴量算出部１２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデル（音声エンコーダ）を用いて、音声特徴量を算出する。更新部１３２は、第１の画像の画像特徴量と、第１の画像に対応する音声の音声特徴量とが類似するように、画像特徴量算出部１１１及び音声特徴量算出部１２１によって用いられる各モデルのパラメータを更新する。このように、音声特徴量を出力するためのモデルは、自己注意機構により、画像を表現するために重要な単語の区間を特定することができる。その結果、本実施形態によれば、視覚的な情報と言語的な情報を精度良く対応付けることができる。

音声特徴量算出部１２１は、複数の異なる言語のそれぞれに対応するモデルを用いて、複数の異なる言語の音声のそれぞれについて音声特徴量を算出する。更新部１３２は、音声特徴量及び言語のそれぞれについて算出された画像特徴量を含む各特徴量が互いに類似するように、パラメータを更新する。近年、クラウドソーシングの普及等により、内蔵マイク付きPCさえあれば、画像に対する説明を多言語の音声で収録することは容易になった。一方で、言語の違いにより音声キャプションの長さや単語数は異なる。本実施形態によれば、複数の言語の音声であっても、同一の潜在空間にマッピング可能なモデルを得ることができる。

音声特徴量算出部１２１は、複数の異なる言語の音声であって、切り捨て又は０埋めにより固定長に揃えられた音声のそれぞれについて音声特徴量を算出する。これにより、本実施形態によれば、音声キャプションの長さが異なる場合であっても効率的に特徴ベクトルの算出を行うことができる。さらに、本実施形態によれば、固定長を長めに設定すれば、音声キャプションに含まれる情報が失われることを抑止することができる。

音声特徴量算出部１２１は、音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、自己注意機構により、要素間の類似度を示す自己注意マップを出力し、自己注意マップを中間特徴量に掛けることにより音声特徴量を算出する。このため、本実施形態によれば、画像を表現するために重要な単語を特定することができる。

ここからは、これまでに説明した学習装置により訓練されたモデルを用いて、実際に推論を行う処理について説明する。訓練済みの画像エンコーダ及び音声エンコーダによれば、クロスモーダル探索が可能になる。クロスモーダル探索とは、異なる形態のデータを探索することである。例えば、クロスモーダル探索には、音声から画像を探索すること、画像から音声を探索すること、ある言語の音声から他の言語の音声を探索すること等が含まれる。また、各実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。

［第２の実施形態］
［第２の実施形態の構成］
第２の実施形態では、音声から画像を探索する探索装置について説明する。図７は、第２の実施形態に係る探索装置の構成例を示す図である。図７に示すように、探索装置２０は、画像特徴量算出部２１１、音声特徴量算出部２２１、探索部２３２を有する。また、探索装置２０は、画像エンコーダ情報２１２、音声エンコーダ情報２２２、及び画像特徴量情報２３１を記憶する。

探索装置２０には、音声キャプションと複数の画像が入力される。探索装置２０に入力される音声キャプションは、探索のためのクエリである。探索装置２０は、探索により得られた画像又は画像特徴量を出力する。

画像特徴量算出部２１１は、学習装置１０の画像特徴量算出部１１１と同様に、画像を入力として受け付け、画像特徴量を算出する。ただし、画像エンコーダ情報２１２は、第１の実施形態で説明した方法により訓練済みである。つまり、画像特徴量算出部２１１は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。また、画像特徴量算出部２１１は、算出した画像特徴量を画像特徴量情報２３１として蓄積する。

また、音声特徴量算出部２２１は、学習装置１０の画像特徴量算出部１１１と同様に、音声キャプションを入力として受け付け、音声特徴量を出力する。ただし、音声エンコーダ情報２２２は、第１の実施形態で説明した方法により訓練済みである。つまり、音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。また、探索装置２０は、各言語に対応した複数の音声エンコーダを用いてもよい。

探索部２３２は、音声特徴量を基に、類似する画像と音声の組み合わせを探索する。探索部２３２は、画像特徴量情報２３１の中から、入力された音声キャプションから算出され音声特徴量と類似する画像特徴量を探索し、得られた画像特徴量又は当該画像特徴量に対応する画像を出力する。第１の実施形態で説明した通り、音声特徴量と画像特徴量はいずれも同一の潜在空間上にマッピングされる。さらに具体的には、音声特徴量と画像特徴量はいずれもd次元のベクトルである。このため、探索部２３２は、内積を算出すること等により、音声特徴量と画像特徴量の類似度を容易に比較することができる。

［第２の実施形態の処理］
図８は、第２の実施形態に係る探索装置の処理の流れを示すフローチャートである。図８に示すように、まず、探索装置２０には、複数の画像と、クエリである音声キャプションが入力される（ステップＳ２０１）。

画像特徴量算出部２１１は、各画像から、画像エンコーダを用いてd次元の画像特徴ベクトルを算出する（ステップＳ２０２）。また、音声特徴量算出部２２１は、音声キャプションから、対応する言語の音声エンコーダを用いてd次元の音声特徴ベクトルを算出する（ステップＳ２０３）。

探索部２３２は、音声特徴ベクトルに類似する画像特徴ベクトルを探索する（ステップＳ２０４）。そして、探索部２３２は、探索により得られた画像特徴ベクトルに対応する画像を出力する（ステップＳ２０５）。探索部２３２は、探索により得られた画像特徴ベクトルを出力してもよい。

［第２の実施形態の効果］
これまで説明してきたように、音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。画像特徴量算出部２１１は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。探索部２３２は、音声特徴量及び画像特徴量を基に、類似する画像と音声の組み合わせを探索する。このように、第２の実施形態によれば、音声から画像を探索するクロスモーダル探索を行うことができる。

［第３の実施形態］
［第３の実施形態の構成］
第３の実施形態では、画像から音声を探索する探索装置について説明する。図９は、第３の実施形態に係る探索装置の構成例を示す図である。図９に示すように、探索装置２０Ａは、画像特徴量算出部２１１、音声特徴量算出部２２１、探索部２３２を有する。また、探索装置２０Ａは、画像エンコーダ情報２１２、音声エンコーダ情報２２２、及び音声特徴量情報２３３を記憶する。

探索装置２０Ａには、画像と複数の音声キャプションが入力される。探索装置２０Ａに入力される画像は、探索のためのクエリである。探索装置２０Ａは、探索により得られた音声キャプション又は音声特徴量を出力する。

画像特徴量算出部２１１及び音声特徴量算出部２２１は、第２の実施形態と同様の処理を行う。ただし、音声特徴量算出部２２１は、算出した音声特徴量を音声特徴量情報２３３として蓄積する。

探索部２３２は、画像特徴量を基に、類似する画像と音声の組み合わせを探索する。探索部２３２は、音声特徴量情報２３３の中から、入力された画像から算出された画像特徴量と類似する音声特徴量を探索し、得られた音声特徴量又は当該音声特徴量に対応する音声キャプションを出力する。

［第３の実施形態の処理］
図１０は、第３の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１０に示すように、まず、探索装置２０Ａには、クエリである画像と、複数の音声キャプションが入力される（ステップＳ３０１）。

画像特徴量算出部２１１は、画像から、画像エンコーダを用いてd次元の画像特徴ベクトルを算出する（ステップＳ３０２）。また、音声特徴量算出部２２１は、未処理の音声キャプションがある場合（ステップＳ３０３、Yes）、当該未処理の音声キャプションから、対応する言語の音声エンコーダを用いて、d次元の音声特徴ベクトルを算出し（ステップＳ３０４）、ステップＳ３０３に戻る。

探索部２３２は、未処理の音声キャプションがなくなった場合（ステップＳ３０３、No）、画像特徴ベクトルに類似する音声特徴ベクトルを探索する（ステップＳ３０５）。そして、探索部２３２は、探索により得られた音声特徴ベクトルに対応する音声キャプションを出力する（ステップＳ３０６）。探索部２３２は、探索により得られた音声特徴ベクトルを出力してもよい。

［第３の実施形態の効果］
これまで説明してきたように、音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。画像特徴量算出部２１１は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。探索部２３２は、音声特徴量及び画像特徴量を基に、類似する画像と音声の組み合わせを探索する。このように、第３の実施形態によれば、画像から音声を探索するクロスモーダル探索を行うことができる。

［第４の実施形態］
［第４の実施形態の構成］
第４の実施形態では、ある言語の音声から他の言語の音声を探索する探索装置について説明する。図１１は、第４の実施形態に係る探索装置の構成例を示す図である。図１１に示すように、探索装置２０Ｂは、音声特徴量算出部２２１及び探索部２３２を有する。また、探索装置２０Ｂは、音声エンコーダ情報２２２ａ及び音声エンコーダ情報２２２ｂを記憶する。例えば、音声エンコーダ情報２２２ａからは英語に対応した音声エンコーダが構築される。また、音声エンコーダ情報２２２ｂからはヒンディ語に対応した音声エンコーダが構築される。

探索装置２０Ｂには、ある言語の複数の音声キャプションと他の言語の音声キャプションが入力される。ここでは、探索装置２０Ｂには、英語とヒンディ語の音声キャプションが入力されるものとする。探索装置２０Ｂに入力されるヒンディ言語の音声キャプションは、探索のためのクエリである。探索装置２０Ｂは、探索により得られた英語の音声キャプション又は音声特徴量を出力する。

音声特徴量算出部２２１は、第２の実施形態と同様の処理を行う。ただし、音声特徴量算出部２２１は、英語の音声キャプションから算出した音声特徴量を音声特徴量情報２３３として蓄積する。

探索部２３２は、音声特徴量を基に、類似する音声の組み合わせを探索する。探索部２３２は、音声特徴量情報２３３の中から、入力されたヒンディ語の音声キャプションから算出された音声特徴量と類似する英語の音声特徴量を探索し、得られた音声特徴量又は当該音声特徴量に対応する音声キャプションを出力する。

［第４の実施形態の処理］
図１２は、第４の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１２に示すように、まず、探索装置２０Ｂには、クエリである第１の言語の音声キャプションと、複数の第２の言語の音声キャプションが入力される（ステップＳ４０１）。例えば、第１の言語の音声キャプションはヒンディ語の音声キャプションである。また、例えば、第２の言語の音声キャプションは英語の音声キャプションである。

音声特徴量算出部２２１は、第１の言語の音声キャプションから、対応する音声エンコーダを用いてd次元の第１の音声特徴ベクトルを算出する（ステップＳ４０２）。また、音声特徴量算出部２２１は、未処理の第２の言語の音声キャプションがある場合（ステップＳ４０３、Yes）、当該未処理の第２の言語の音声キャプションから、対応する言語の音声エンコーダを用いて、d次元の第２の音声特徴ベクトルを算出し（ステップＳ４０４）、ステップＳ４０３に戻る。

探索部２３２は、未処理の音声キャプションがなくなった場合（ステップＳ４０３、No）、第１の音声特徴ベクトルに類似する第２の音声特徴ベクトルを探索する（ステップＳ４０５）。そして、探索部２３２は、探索により得られた第２の音声特徴ベクトルに対応する音声キャプションを出力する（ステップＳ４０６）。

［第４の実施形態の効果］
これまで説明してきたように、音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。このように、第４の実施形態によれば、言語が異なる音声間のクロスモーダル（クロスリンガル）探索を行うことができる。

［実験結果］
第１の実施形態から第４の実施形態までの探索装置を用いて行った実験について説明する。実験では、第１の実施形態の学習装置により訓練したエンコーダを用いて、各実施形態の探索装置を用いて探索を行った。

実験では、98,555枚の画像とそれらに対応付けられた各言語の音声言語キャプションのうち、97,555件を学習用のデータとし、1,000件を探索用のデータとした。また、各パラメータ等は以下のように設定した。
音声キャプションの長さT：約30秒
潜在空間の次元数d：1024
損失関数：Triplet lossとMargin softmax loss（確率的勾配法により最小化）
損失関数のハイパーパラメータmargin：1
バッチサイズ：100
慣性項（Momentum）：0.9
重み減衰（Weight Decay）：5×10^-7
学習率：初期値を0.001として、40epochsごとに1/10ずつ減衰するようにスケジューリング
評価尺度：Recall@N

まず、クエリから得られた特徴ベクトルから、ペアとなる評価用の特徴ベクトルを1,000件の中から探索する場合に、類似度が大きいN件を決定する手法である。クエリから得られた特徴ベクトルと評価用の特徴ベクトルのペアがN件の中に含まれていれば、探索は成功したことになる。このとき、探索成功となる割合がRecall@Nである。Recall@Nは、R@Nのように略記される場合がある。

図１３は、単一言語モデルを用いた場合の実験結果を示す図である。単一言語モデルとは、1つの言語のみを使って学習を行った場合の各エンコーダである。また、図１４は、複数言語モデルを用いた場合の実験結果を示す図である。複数言語モデルとは、複数の言語のみを使って学習を行った場合の各エンコーダである。図４に示されるモデルは、複数言語モデルの一例である。

E、H、Jは、それぞれ英語、ヒンディ語、日本語の音声キャプションに対応している、Audio to Imageは、クエリである音声キャプションから画像を探索することを意味する（第２の実施形態に対応）。Image to Audioは、クエリである画像から音声キャプションを探索することを意味する（第３の実施形態に対応）。w/ self-attention layerは、Self-attention層を使うことを意味する。w/o self-attention layerは、Self-attention層を使わないことを意味する。図１３及び図１４より、Self-attention層を使った方が、全体的にRecall@Nが向上する傾向にあることがわかる。

図１５は、異なる言語間の探索の実験結果を示す図である。この実験は、第４の実施形態に対応する。図１５より、Self-attention層を使った方が、全体的にRecall@Nが向上する傾向にあることがわかる。

［第５の実施形態］
［第５の実施形態の構成］
第５の実施形態では、探索装置は、異なる言語間の翻訳知識を獲得する。図１６は、第５の実施形態に係る探索装置の構成例を示す図である。探索装置２０Ｃの構成は、第４の実施形態の探索装置２０Ｂの構成と同様である。ただし、探索装置２０Ｃは、探索装置２０Ｂと異なり、獲得部２３４を有する。

音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、同一の画像に対応する第１の言語の音声及び第２の言語の音声のそれぞれについて音声特徴量を算出する。獲得部２３４は、音声特徴量を基に、第１の言語の音声に含まれる単語と第２の言語の音声に含まれる単語との対応関係を示す情報を獲得する。

獲得部２３４は、音声エンコーダによって時間方向の平均化が行われる前の中間特徴量を用いて、言語間の対応関係を獲得する。例えば、獲得部２３４は、図４に示す音声エンコーダ１２３から出力されるT/16×1024の中間特徴量を用いることができる。本実施形態では、Tは3072とする。このとき、中間特徴量は、192×1024の行列である。例えば、第１の言語の音声キャプションの中間特徴量をX_A∈R^192×1024とし、第２の言語の音声キャプションの中間特徴量をX_B∈R^192×1024とすると、獲得部２３４は、（３）式のように、各言語の中間特徴量の内積を対応関係マップMとして算出することができる。

［第５の実施形態の処理］
図１７は、第５の実施形態に係る探索装置の処理の流れを示すフローチャートである。図１７に示すように、まず、探索装置２０Ｃには、第１の言語の音声キャプションと、第２の言語の音声キャプションが入力される（ステップＳ５０１）。例えば、第１の言語の音声キャプションはヒンディ語の音声キャプションである。また、例えば、第２の言語の音声キャプションは英語の音声キャプションである。

音声特徴量算出部２２１は、第１の言語の音声キャプションから、対応する言語の音声エンコーダを用いて、時間成分を持つ第１の中間特徴量を算出する（ステップＳ５０２）。そして、音声特徴量算出部２２１は、第２の言語の音声キャプションから、対応する言語の音声エンコーダを用いて、時間成分を持つ第２の中間特徴量を算出する（ステップＳ５０３）。さらに、獲得部２３４は、第１の中間特徴量と第２の中間特徴量の内積である対応マップを獲得し、出力する（ステップＳ５０４）。

［第５の実施形態の効果］
音声特徴量算出部２２１は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、同一の画像に対応する第１の言語の音声及び第２の言語の音声のそれぞれについて音声特徴量を算出する。獲得部２３４は、音声特徴量を基に、第１の言語の音声に含まれる単語と第２の言語の音声に含まれる単語との対応関係を示す情報を獲得する。このため、本実施形態によれば、言語間の翻訳知識を精度良く獲得することができる。

図１８は、翻訳知識の一例を示す図である。図１８は、獲得部２３４によって獲得される対応関係マップである。図１８に示すように、自己注意機構を用いることで（w/）、自己注意機構を用いない場合（w/o）と比べて、異なる言語の単語間の対応関係がより明確になる。探索装置２０Ｃは、対応関係マップの値が閾値δ以上となる区間を切り出すことによって、異なる言語の音声キャプションにおける単語の対応関係を翻訳知識として得ることができる。また、探索装置２０Ｃは、該当区間を音声認識することにより、翻訳知識を文字化してもよい。また、翻訳知識は、第４の実施例における探索の副産物として得られるものであってもよい。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、学習装置１０及び探索装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は探索処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０又は探索装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS（Personal Handyphone System）等の移動体通信端末、さらには、PDA（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、学習装置１０及び探索装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は探索処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、学習用のデータを入力とし、訓練済みのエンコーダの情報を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１９は、学習プログラムを実行するコンピュータの一例を示す図である。なお、探索プログラムについても同様のコンピュータによって実行されてもよい。コンピュータ１０００は、例えば、メモリ１０１０、CPU１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ROM（Read Only Memory）１０１１及びRAM１０１２を含む。ROM１０１１は、例えば、BIOS（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、SSDにより代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、CPU１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてRAM１０１２に読み出して、上述した実施形態の処理を実行する。CPU１０２０は、メモリと連結して上記の実施形態の処理を実行するようにプログラムされたものであってもよい。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な一時的でなくかつコンピュータで読み取り可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してCPU１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（LAN（Local Area Network）、WAN（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してCPU１０２０によって読み出されてもよい。

１０学習装置
２０、２０Ａ、２０Ｂ、２０Ｃ探索装置
１１２、２１２画像エンコーダ情報
１２２ａ、１２２ｂ、１２２ｃ、２２２音声エンコーダ情報
１１１、２１１画像特徴量算出部
１１３画像エンコーダ
１２１、２２１音声特徴量算出部
１２３、１２３ａ、１２３ｂ、１２３ｃ音声エンコーダ
１３１損失関数構成部
１３２更新部
１５１、１９１画像
１５２ａ、１５２ｂ、１５２ｃ音声キャプション
１７０潜在空間
１９２ａ、１９２ｃ自己注意マップ
２３１画像特徴量情報
２３２探索部
２３３音声特徴量情報
２３４獲得部

Claims

画像を入力とし、前記画像を第１の空間にマッピングした画像特徴量を出力とするモデルを用いて、前記画像特徴量を算出する画像特徴量算出部と、
所定の言語の音声を入力とし、前記音声を前記第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルを用いて、前記音声特徴量を算出する音声特徴量算出部と、
第１の画像の前記画像特徴量と、前記第１の画像に対応する音声の前記音声特徴量とが類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。
前記音声特徴量算出部は、複数の異なる言語のそれぞれに対応するモデルを用いて、前記複数の異なる言語の音声のそれぞれについて前記音声特徴量を算出し、
前記更新部は、前記音声特徴量及び前記言語のそれぞれについて算出された前記画像特徴量を含む各特徴量が互いに類似するように、前記パラメータを更新することを特徴とする請求項１に記載の学習装置。
前記音声特徴量算出部は、前記複数の異なる言語の音声であって、切り捨て又は０埋めにより固定長に揃えられた音声のそれぞれについて前記音声特徴量を算出することを特徴とする請求項２に記載の学習装置。
前記音声特徴量算出部は、前記音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、前記自己注意機構により、前記要素間の類似度を示す自己注意マップを出力し、前記自己注意マップを前記中間特徴量に掛けることにより前記音声特徴量を算出することを特徴とする請求項１から３のいずれか１項に記載の学習装置。
学習装置によって実行される学習方法であって、
画像を入力とし、前記画像を第１の空間にマッピングした画像特徴量を出力とするモデルを用いて、前記画像特徴量を算出する画像特徴量算出工程と、
所定の言語の音声を入力とし、前記音声を前記第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルを用いて、前記音声特徴量を算出する音声特徴量算出工程と、
第１の画像の前記画像特徴量と、前記第１の画像に対応する音声の前記音声特徴量とが類似するように、前記画像特徴量算出工程及び前記音声特徴量算出工程によって用いられる各モデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。
コンピュータを、請求項１から４のいずれか１項に記載の学習装置として機能させるための学習プログラム。
所定の言語の音声を入力とし、前記音声を第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第１の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、前記音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量を基に、類似する画像と音声の組み合わせ、又は、類似する音声の組み合わせを探索する探索部と、
を有することを特徴とする探索装置。
画像を入力とし、前記画像を前記第１の空間にマッピングした画像特徴量を出力とするモデルであって、前記画像に対応する音声を前記第１の空間にマッピングした特徴量に前記画像特徴量が類似するように訓練されたモデルを用いて、前記画像特徴量を算出する画像特徴量算出部をさらに有し、
前記探索部は、前記音声特徴量及び前記画像特徴量を基に、類似する画像と音声の組み合わせを探索することを特徴とする請求項７に記載の探索装置。
所定の言語の音声を入力とし、前記音声を第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第１の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、同一の画像に対応する第１の言語の音声及び第２の言語の音声のそれぞれについて前記音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量を基に、前記第１の言語の音声に含まれる単語と前記第２の言語の音声に含まれる単語との対応関係を示す情報を獲得する獲得部と、
を有することを特徴とする探索装置。
探索装置によって実行される探索方法であって、
所定の言語の音声を入力とし、前記音声を第１の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第１の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、前記音声特徴量を算出する音声特徴量算出工程と、
前記音声特徴量を基に、類似する画像と音声の組み合わせ、又は、類似する音声の組み合わせを探索する探索工程と、
を含むことを特徴とする探索方法。
コンピュータを、請求項７から９のいずれか１項に記載の探索装置として機能させるための探索プログラム。