JP2022158736A - 学習装置、学習方法及び学習プログラム - Google Patents

学習装置、学習方法及び学習プログラム Download PDF

Info

Publication number
JP2022158736A
JP2022158736A JP2021066028A JP2021066028A JP2022158736A JP 2022158736 A JP2022158736 A JP 2022158736A JP 2021066028 A JP2021066028 A JP 2021066028A JP 2021066028 A JP2021066028 A JP 2021066028A JP 2022158736 A JP2022158736 A JP 2022158736A
Authority
JP
Japan
Prior art keywords
data
image
feature amount
similar
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021066028A
Other languages
English (en)
Other versions
JP7100737B1 (ja
Inventor
康智 大石
Yasutomo Oishi
昭悟 木村
Shogo Kimura
隆仁 川西
Takahito Kawanishi
邦夫 柏野
Kunio Kashino
アール. グラス ジェイムズ
R Glass James
ハーワス デイビッド
Harwath David
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Massachusetts Institute of Technology
Original Assignee
Nippon Telegraph and Telephone Corp
Massachusetts Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Massachusetts Institute of Technology filed Critical Nippon Telegraph and Telephone Corp
Application granted granted Critical
Publication of JP7100737B1 publication Critical patent/JP7100737B1/ja
Publication of JP2022158736A publication Critical patent/JP2022158736A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させること。【解決手段】学習装置は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する。そして、学習装置は、データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する。さらに、学習装置は、第1のデータセット及び第2のデータセットに含まれるペア内のデータの特徴量が互いに類似し、かつ、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量とが類似するように、モデルのパラメータを更新する。【選択図】図1

Description

特許法第30条第2項適用申請有り OHISHI,Yasunoriほか,”Pair Expansion for Learning Multilingual Semantic Embeddings using Disjoint Visually-grounded Speech Audio Datasets”,Interspeech2020(国際会議)WEB開催(http://interspeech2020.org/)[online],2020年10月27日,pp.1486-1490,<DOI:10.21437/Interspeech.2020-3078>
本発明は、学習装置、学習方法及び学習プログラムに関する。
画像認識技術によれば、画像に写る多様な物体を特定することができる。さらに、画像へのラベル付けにより、視覚的な情報と言語的な情報を対応付ける技術が知られている。
例えば、画像と当該画像の内容を説明する音声(以下、音声キャプションと呼ぶ)のペアデータを大量に用意して、画像の領域と音声キャプションの区間(以下、音声区間と呼ぶ)を対応付ける技術が知られている(例えば、非特許文献1を参照)。
その他にも、画像を説明する複数言語の音声キャプションを用意することで、言語間の翻訳知識を獲得する技術が知られている(例えば、非特許文献2を参照)。さらに、画像及び対応する音声キャプションを共通の埋め込み空間にマッピングすることで、クロスモーダルなデータの探索を実現する技術が知られている(例えば、非特許文献3を参照)。
David Harwath, Adria Recasens, Didac Suris, Galen Chuang, Antonio Torralba, James Glass, "Jointly Discovering Visual Objects and Spoken Words from Raw sensory input", International Journal of Computer Vision (2019) (https://doi.org/10.1007/s11263-019-01205-0) D. Harwath, G. Chuang, and J. Glass, "Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech," in Proc. ICASSP, 2018. Yasunori Ohishi, Akisato Kimura, Takahito Kawanishi, Kunio Kashino, David Harwath, James Glass, "Trilingual Semantic Embeddings of Visually Grounded Speech with Self-Attention Mechanisms," in Proc. ICASSP, 2020.
しかしながら、従来の技術には、モダリティが異なる情報を対応付けたデータが十分に得られないと、クロスモーダルなデータの探索のためのモデルの精度が向上しない場合があるという問題がある。
なお、モダリティ(modality:形態、様相、様態)とは、概念の表出形態(a way of expressing ideas)ということができる。例えば、犬という概念に対して、犬が写っている「画像」、"いぬ"と発声している「音声」、"いぬ"、"犬"、"イヌ"といった「テキスト」がモダリティに相当する。また、例えば英語の場合、"dog"、"Dog"、"DOG"がモダリティに相当する。モダリティの例としては、画像、音声、映像、及び所定のセンシングデータ等がある。
例えば、非特許文献3に記載の技術を用いて、ある言語の音声をクエリとした画像の探索(クロスモーダル探索)又は異なる言語の音声の探索(クロスリンガル探索)を行うことを考える。この場合、探索用のモデルを訓練するためには、同一画像に対し複数の言語の音声キャプションが用意されることが望ましい。一方で、そのようなデータの収集には多大なコストがかかるため、実施が困難な場合がある。
上述した課題を解決し、目的を達成するために、学習装置は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出部と、前記データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する選択部と、前記第1のデータセット及び前記第2のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新部と、を有することを特徴とする。
本発明によれば、モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させることができる。
図1は、第1の実施形態に係る学習装置の構成例を示す図である。 図2は、音声キャプションについて説明する説明図である。 図3は、学習装置の処理を説明する説明図である。 図4は、エンコーダの模式図である。 図5は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。 図6は、拡張ペアを選択する処理の流れを示すフローチャートである。 図7は、第2の実施形態に係る探索装置の構成例を示す図である。 図8は、第2の実施形態に係る探索装置の処理の流れを示すフローチャートである。 図9は、実験結果を示す図である。 図10は、実験による翻訳知識の獲得結果の例を示す図である。 図11は、実験結果を示す図である。 図12は、学習プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係る学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態]
第1の実施形態に係る学習装置は、入力された学習用データを用いて、画像エンコーダ及び音声エンコーダを訓練する。そして、学習装置は、訓練済みの各エンコーダを出力する。例えば、学習装置は、各エンコーダのパラメータを出力する。なお、学習装置は、複数の言語のそれぞれに対応した音声エンコーダを訓練してもよい。また、学習用データは、画像及び当該画像と対応付けられた音声を含むデータである。
画像エンコーダは、画像を入力とし、画像特徴量を出力とするモデルである。また、音声エンコーダは、所定の言語の音声を入力とし、音声特徴量を出力とするモデルである。学習装置は、出力された画像特徴量及びと音声特徴量を基に、画像エンコーダ及び音声エンコーダを最適化する。
[第1の実施形態の構成]
図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、画像特徴量算出部111、音声特徴量算出部121、損失関数構成部131及び更新部132を有する。また、学習装置10は、画像エンコーダ情報112、音声エンコーダ情報122a及び音声エンコーダ情報122bを記憶する。
学習装置10には、画像151、音声キャプション152a及び音声キャプション152bが入力される。また、学習装置10は、更新済みの画像エンコーダ情報112、音声エンコーダ情報122a及び音声エンコーダ情報122bを出力することができる。
ここで、音声キャプションは、画像に対応する音声である。例えば、音声キャプションは、人が画像を見て、その画像の内容を説明するために発した音声を収録した信号によって表される。例えば、音声キャプションは、クラウドソーシングを利用して、各言語の話者に画像を見せ、話者が画像を説明するために発した音声を収録することによって得られてもよい。
図2は、音声キャプションについて説明する説明図である。図2には、異なる複数の言語の音声キャプションが示されている。図2には、英語、ヒンディ語及び日本語の音声キャプションの例が示されている。
また、図2の音声キャプションに対応する各言語のテキストは、説明のために表示しているものであり、音声キャプションには含まれない。また、ヒンディ語のテキストの下には、当該ヒンディ語のテキストを英訳したテキストが示されている。また、日本語のテキストの下には、当該日本語のテキストを英訳したテキストが示されている。
図2の例において、各言語の話者が見る画像は同一である。すなわち、各言語の話者は、2人の人物及びメリーゴーラウンドが写った画像を見る。しかしながら、得られた音声キャプションの内容及び長さはばらついている。つまり、言語が異なる複数の音声キャプションは、必ずしも互いに対訳の関係にならない。これは、例えば言語の文化及び語彙の違いに起因する。
ここで、図2に示すような、同一画像に対する複数の言語の音声キャプションを収集するためには、例えば異なる言語の話者に画像を提示した上で、音声による説明を依頼するといった手間が必要になる。
一方で、1つの画像に対する1つの言語の音声キャプションであれば、複数の言語の音声キャプションに比べれば容易に収集できると考えられる。例えば、映像配信サービス等を利用して、画像と音声のペアデータを自動的に収集することが考えられる。
そこで、本実施形態は、1つの画像に異なる複数の言語の音声キャプションを対応付けたデータが十分に得られない場合であっても、モデルの精度を向上させることを1つの目的とする。
図3は、学習装置の処理を説明する説明図である。図3のImage(EN)とImage(JP)は、互いに疎な(disjoint)画像データセットである。また、Image(EN)には英語の音声キャプションであるSpeech(EN)が対応付けられている。また、Image(JP)には日本語の音声キャプションであるSpeech(JP)が対応付けられている。
学習装置10は、Image(EN)、Image(JP)、Speech(EN)及びSpeech(JP)のエンコードを行い、特徴量を得る。そして、学習装置10は、Image(EN)とImage(JP)が類似する場合、Image(EN)及びSpeech(EN)のペアと、Image(JP)及びSpeech(JP)のペアと、を拡張ペア(Expanded pair)とみなす。
学習装置10は、Image(EN)とSpeech(EN)、Image(JP)とSpeech(JP)といった本来ペアとなるデータの特徴量だけでなく、Speech(EN)とSpeech(JP)のような拡張ペアとなるデータの特徴量が互いに類似するものとなるようにモデルを訓練する。
図1に戻り、画像特徴量算出部111は、画像を入力とし、画像を埋め込み空間にマッピングした画像特徴量を出力とするモデルである画像エンコーダを用いて、画像特徴量を算出する。また、画像エンコーダ情報112は、画像エンコーダを構築するためのパラメータである。
画像特徴量算出部111は、画像エンコーダ情報112を参照し、画像エンコーダを構築する。そして、画像特徴量算出部111は、画像エンコーダに画像151を入力し、画像特徴量を得る。つまり、画像特徴量算出部111は、画像の入力を受け付け、画像特徴量を出力する。
音声特徴量算出部121は、所定の言語の音声を入力とし、音声を埋め込み空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルである音声エンコーダを用いて、音声特徴量を算出する。また、音声エンコーダ情報122a及び音声エンコーダ情報122bは、対応する言語の音声エンコーダを構築するためのパラメータである。
音声特徴量算出部121は、音声エンコーダ情報122a及び音声エンコーダ情報122bを参照し、音声エンコーダを構築する。そして、音声特徴量算出部121は、対応する音声エンコーダに音声キャプション152a及び音声キャプション152bをそれぞれ入力し、音声特徴量を得る。つまり、音声特徴量算出部121は、音声キャプションの入力を受け付け、音声特徴量を出力する。また、音声特徴量算出部121は、複数の異なる言語のそれぞれに対応する音声エンコーダを用いて、複数の異なる言語の音声のそれぞれについて音声特徴量を算出する。
前述の通り、画像エンコーダ及び音声エンコーダは、いずれも埋め込み空間にマッピングされた特徴量を出力する。ここで、埋め込み空間を潜在空間と呼ぶ。潜在空間は、画像特徴量と音声特徴量によって共有される空間である。
図4を用いて、エンコーダ及び潜在空間について詳細に説明する。図4は、エンコーダの模式図である。画像エンコーダ113及び音声エンコーダ123aは、いずれもCNN(convolutional neural network)を含む。画像エンコーダ113は、画像用のCNNを含む。音声エンコーダ123aは、英語用のCNNを含む。なお、学習装置10は、日本語用のCNNを含む音声エンコーダ123bを、音声エンコーダ情報122bから構築することができる。さらに、画像エンコーダ113は、空間方向の平均化を行う層を含む。また、各音声エンコーダは、時間方向の平均化を行う層を含む。また、各エンコーダは、出力した特徴量を潜在空間にマッピングする。
ここで、i番目の画像をIiとする。また、画像Iiに対応する英語の音声キャプションをAi Eとする。このとき、画像エンコーダ113は、画像Iiを、d次元の潜在空間にマッピングする。また、音声エンコーダ123aは、音声キャプションAi Eを、d次元の潜在空間にマッピングする。なお、dはあらかじめ定められた次元数である。例えば、本実施形態では、dは1024である。
図4を用いて、画像特徴量算出部111が画像特徴量を得る処理を説明する。まず、画像特徴量算出部111は、224×224ピクセルのRGB画像(3チャンネル)を画像エンコーダ113に入力する。画像エンコーダ113は、事前に訓練されたVGG16(参考文献1を参照)のConv5までの層を含む。
参考文献1:K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. ICLR, 2015.
画像エンコーダ113は、VGG16のConv5の層から、512×14×14のテンソルを中間特徴量として出力する。つまり、画像エンコーダ113は、224×224の画像を14×14にまで縮小する。なお、画像エンコーダによる画像特徴量の出力、及び音声エンコーダによる音声特徴量の出力の過程で得られる特徴量を中間特徴量と呼ぶ。
さらに、画像エンコーダ113は、512×14×14のテンソルを、カーネルサイズが3×3のd個のフィルタからなるConv層に入力し、d×14×14のテンソルを出力する。さらに、画像エンコーダ113は、Spatial Meanpool層で空間方向の平均化を行い、d次元の画像特徴ベクトルvi Iを出力する。画像特徴量算出部111は、画像エンコーダ113によって出力された画像特徴ベクトルを、画像特徴量として得る。また、特徴ベクトルは、d次元空間への埋め込みベクトルということができる。
続いて、図4を用いて、音声特徴量算出部121が音声特徴量を得る処理を説明する。ここでは、音声エンコーダ123a及び図示しない音声エンコーダ123bの構成は同様であるものとする。
まず、音声特徴量算出部121は、音声キャプションに対して、フレームシフト長10ms、フレーム長25msの周波数分析、40個のメルフィルタバンク処理を行って得られるT×Fのメルフィルタバンク出力系列を、音声エンコーダ123aに入力する。なお、音声エンコーダ123aに入力される音声の形式は、メルフィルタバンク出力系列に限られない。例えば、音声エンコーダ123aには、STFT(短時間フーリエ変換:short-time Fourier transform)及びMFCC(メル周波数ケプストラム係数:Mel Frequency Cepstrum Coefficients)等が入力されてもよい。
また、音声特徴量算出部121は、複数の異なる言語の音声であって、切り捨て又は0埋めにより固定長に揃えられた音声のそれぞれについて音声特徴量を算出する。これにより、長さの異なる音声キャプションをミニバッチ処理することができるようになる。例えば、音声特徴量算出部121は、音声キャプションの時間がTよりも長い場合は、Tより後の音声キャプションを切り捨て、Tよりも短い場合は0埋めをする。Tはあらかじめ定められた音声キャプションの長さである。例えば、本実施形態では、Tは3072(ms)である。
音声エンコーダ123aは、CNNをベースとするDAVEnet(非特許文献1を参照)、及びSelf-attention(自己注意)層(参考文献2を参照)を含む。図4の例では、Self-attention層は、DAVEnetの出力側に配置される。
参考文献2:H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Self-attention generative adversarial networks,” in Proc. ICML, 2019.
音声エンコーダ123aは、DAVEnetの最終層であるMax pooling層から、512×T/16のテンソルを中間特徴量として出力する。ここで、DAVEnetによって出力される中間特徴量をx∈RD×Nとする。音声エンコーダ123aは、自己注意マップを計算するため、Self-attention層において、(1-1)式及び(1-2)式による特徴量変換を行う。
Figure 2022158736000002
ここで、Dはチャネル数である。また、Nは中間特徴量の長さ(ここではT/16)に相当する。Self-attention層における特徴量変換は、1×1の畳み込み層によるpointwiseconvolutionによって実装される。例えば、本実施形態では、Dは512であり、 ̄D(Dの直上に ̄)はD/8=64である。
さらに、音声エンコーダ123aは、自己注意マップβを(2-1)式及び(2-2)式により算出する。βはN×Nの行列である。si,jはi番目の音声特徴量とj番目の音声特徴量との類似の度合いである。(2-2)式に示すように、音声エンコーダ123aは、si,jをソフトマックス関数によって行方向に正規化したβi,jを要素とする自己注意マップβを算出する。
Figure 2022158736000003
さらに、音声エンコーダ123aは、中間特徴量xと自己注意マップからo=xβを計算し、さらに、y=x+oγをSelf-attention層の出力として得る。γは訓練によって最適化されるパラメータの1つである。
ここで、DAVEnetの出力側の層では、単語レベルの情報が獲得されることが知られている(例えば、非特許文献1を参照)。このため、本実施形態のように、DAVEnetの出力側にSelf-attention層を配置することで、音声キャプションから重要な単語の区間が得られることが期待される。
音声エンコーダ123aは、Self-attention層の出力を、カーネルサイズが1×17のd個のフィルタからなるConv層に入力し、d×T/16のテンソルを出力する。さらに、音声エンコーダ123aは、Temporal Meanpool層で時間方向の平均化を行い、d次元の音声特徴ベクトルvi Eを出力する。音声特徴量算出部121は、音声エンコーダ123aによって出力された音声特徴ベクトルを、音声特徴量として得る。
このように、音声特徴量算出部121は、音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、自己注意機構により、要素間の類似度を示す自己注意マップを出力し、自己注意マップを中間特徴量に掛けることにより音声特徴量を算出する。本実施形態では、自己注意機構は、Self-attention層として実現されている。
学習装置10は、画像特徴ベクトルvi Iと音声特徴ベクトルvi Eに加え、拡張ペアとして選択された音声間の特徴ベクトルが潜在空間において近くに配置されるように、各エンコーダのパラメータを訓練する。このとき、損失関数構成部131は、各特徴ベクトルを2つ組み合わせた各組について、12方向からなるTriplet loss(例えば、参考文献3を参照)を損失関数として構成することができる。なお、損失関数はTriplet lossに限られず、Semi-hard negative mining及びMasked margin softmax loss等であってもよい(例えば、非特許文献1及び参考文献4を参照)。
参考文献3:D. Harwath, G. Chuang, and J. Glass, “Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech,” in Proc. ICASSP, 2018.
参考文献4:G. Ilharco, Y. Zhang, and J. Baldridge, “Large-scale representation learning from visually grounded untranscribed speech,” in Proc. CoNLL, 2019.
損失関数構成部131による損失関数の構成方法を詳しく説明する。ここでは、学習用データとして、画像と言語Xの音声キャプションのペアデータ(Ii X, Ai X)、画像と言語Yの音声キャプションのペアデータ(Ij Y, Aj Y)が入力されるものとする。各ペアデータはデータセットを構成し、添え字i及びjは、データセット中のペアデータを識別するための番号である。なお、例えば言語Xと言語Yは、英語と日本語である。
また、以降の数式において、各エンコーダによって出力されるd次元の特徴ベクトルは太字で表記されるものとする。例えば、画像Ii X(Iは細字)を画像エンコーダに入力して得られる特徴ベクトルは、Ii X(Iは太字)のように表記される。また、例えば、音声キャプションAi X(Aは細字)を音声エンコーダに入力して得られる特徴ベクトルは、Ai X(Aは太字)のように表記される。
すなわち、画像特徴量算出部111は、画像を入力とし、画像を埋め込み空間にマッピングした特徴量を出力とするモデル(画像エンコーダ)を用いて、画像Ii Xと言語Xの音声Ai Xのペアのデータセットである言語Xのデータセットと、画像Ii Yと言語Yの音声Aj Yのペアのデータセットである言語Yのデータセットと、に含まれる各画像の特徴量である画像特徴量を算出する。
また、音声特徴量算出部121は、音声を入力とし、音声を埋め込み空間にマッピングした特徴量を出力とするモデル(音声エンコーダ)を用いて、言語Xのデータセットと、言語Yのデータセットと、に含まれる各音声の特徴量である音声特徴量を算出する。
そして、損失関数構成部131は、第1のデータセットの画像である対象画像のそれぞれに類似する類似画像を、第2のデータセットに含まれる画像の中から選択する。対象画像と類似画像の組み合わせが拡張ペアである。また、このとき、損失関数構成部131は選択部として機能する。
ここで、バッチサイズをBとすると、学習装置10に入力されるデータセットは(3)式のように表される。ただし、(3)式中のI、Aはいずれもベクトルを表す太字である。
Figure 2022158736000004
また、損失関数構成部131は、(4)式によって示されるN件のデータセットの画像の中から類似画像を選択するものとする。ただし、(4)式中のI、Aはいずれもベクトルを表す太字である。
Figure 2022158736000005
損失関数構成部131は、(5)式のように、言語Xのデータセットの画像に対する言語Yのデータセットの画像の画像類似度行列S(B×N行列)を計算し、対象画像Ii Xとの類似度が最も大きい画像Ili Yを類似画像として選択する。これにより、損失関数構成部131は、言語Xのデータセットの各画像について拡張ペア(Expanded pair)を決定する。ただし、(5)式中の関数sの引数Iはいずれもベクトルを表す太字である。
Figure 2022158736000006
同様に、損失関数構成部131は、(6)式のように、言語Yのデータセットの画像に対する言語Xのデータセットの画像の画像類似度行列S(B×N行列)を計算し、対象画像Ij Yとの類似度が最も大きい画像Imj Xを類似画像として選択する。これにより、損失関数構成部131は、言語Yのデータセットの各画像について拡張ペア(Expanded pair)を決定する。ただし、(6)式中の関数sの引数Iはいずれもベクトルを表す太字である。
Figure 2022158736000007
そして、損失関数構成部131は、(7)式のように損失関数LSを構成する。ただし、(7)式中のI、Aはいずれもベクトルを表す太字である。
Figure 2022158736000008
なお、(7)式に示すように、rank関数はa(Anchor)、p(positive)、n(negative)から構成され、aとpの類似度をaとnの類似度から引いた値にハイパーパラメータであるηを足し合わせた計算値と0とのうちの大きい方を出力するものである。
また、(7)式の損失関数の右辺の第1項と第2項は、ペアである(Ii X, Ai X)の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる(潜在空間で近くに配置される)ほど小さくなる項である。また、(7)式の損失関数の右辺の第3項と第4項は、ペアである(Ij Y, Aj Y)の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる(潜在空間で近くに配置される)ほど小さくなる項である。
さらに、(7)式の損失関数の右辺の第5項は、拡張ペアの音声同士(Ai X, Ali Y)の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる(潜在空間で近くに配置される)ほど小さくなる項である。
また、(7)式の損失関数の右辺の第6項は、拡張ペアの音声同士(Aj Y, Amj X)の類似度が、ペアでない画像、もしくは音声との類似度よりも大きくなる(潜在空間で近くに配置される)ほど小さくなる項である。
また、損失関数構成部131は、(8)式のように損失関数LSを構成してもよい。ただし、(8)式中のI、Aはいずれもベクトルを表す太字である。
Figure 2022158736000009
(8)式の重みwi,li及びwj,mjは、例えばペアの内積の値である。この重みは、そもそも拡張ペアの対象画像と類似画像の類似度、さらには拡張ペアの音声同士の類似度は様々であることを表現したものである。例えば、拡張ペアの対象画像と類似画像の類似度が大きいほど重みも大きくなり、重みを付与された項の訓練への影響が大きくなる。
更新部132は、損失関数構成部131によって構成された損失関数が最適化されるように、各モデルのパラメータを更新する。更新部132は、言語Xのデータセット及び言語Yのデータセットに含まれる画像の画像特徴量と、当該画像とペアである音声の音声特徴量とが類似し(例えば(7)式の右辺の第1項~第4項に相当)、かつ、対象画像とペアである音声の音声特徴量と、類似画像とペアである音声の音声特徴量と、が類似する(例えば(7)式の右辺の第5項及び第6項に相当)ように、画像特徴量算出部111及び音声特徴量算出部121によって用いられる各モデルのパラメータを更新する。
例えば、更新部132は、以下の設定に従い、確率的勾配降下法を利用して損失関数を減少させながら各パラメータを更新する。
慣性項(Momentum):0.9
重み減衰(Weight Decay):5×10-7
初期学習率:0.001
学習率の低減:10エポックごとに学習率を1/40にする
なお、更新部132は、確率的勾配降下法ではなく、AdamやRMSPropのようなその他の最適化アルゴリズムを利用してもよい。
[第1の実施形態の処理]
図5は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図5に示すように、まず、学習装置10には、言語Xのペア(言語Xに対応する画像+言語Xの音声キャプション)及び言語Yのペア(言語Yに対応する画像+言語Yの音声キャプション)のそれぞれのデータセットが入力される(ステップS11)。
次に、学習装置10は、エンコーダを用いて、各画像及び音声キャプションの特徴量を算出する(ステップS12)。ここで、学習装置10は、拡張ペアを選択する(ステップS13)。
続いて、学習装置10は、各ペアの類似度及び拡張ペアの類似度を大きくするための損失関数を構成する(ステップS14)。例えば、学習装置10は、もともとのペアの画像の特徴量と音声の特徴量の類似度、及び拡張ペアの音声の特徴量同士の類似度を大きくするための損失関数を構成する。そして、学習装置10は、損失関数が最適化されるようにエンコーダのパラメータを更新する(ステップS15)。
図6を用いて、図5のステップS13に相当する拡張ペアの選択処理を説明する。図6は、拡張ペアを選択する処理の流れを示すフローチャートである。学習装置10は、未選択の画像がなくなるまで(ステップS131、No)、ステップS132以降の処理を繰り返す。
学習装置10は、未選択の画像がある場合(ステップS131、Yes)、未選択の画像を対象画像として1つ選択する(ステップS132)。学習装置10は、選択した画像と異なる言語に対応する各画像との類似度を計算する(ステップS133)。例えば、学習装置10は、言語Xのデータセットの画像を選択した場合、当該選択した画像と、言語Yのデータセットの画像との類似度を計算する。
ここで、学習装置10は、類似度が最も大きい画像を類似画像として選択する(ステップS134)。そして、学習装置10は、対象画像と類似画像のペアを拡張ペアとする(ステップS135)。対象画像と類似画像には、もともとペアである音声キャプションが存在する。そのような音声キャプション同士も拡張ペアである。
第1の実施形態は、モダリティが画像及び言語が指定された音声である場合の実施形態ということができる。一方で、モダリティは、ここで説明したものに限られず、映像、及び所定のセンシングデータ等であってもよい。
すなわち、学習装置10は、複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する。
そして、学習装置10は、データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する。例えば、第1のデータセット及び第2のデータセットは、言語Xのデータセット及び言語Yのデータセットに相当する。
なお、第1のモダリティと第2のモダリティは同じであってもよい。第1の実施形態では、第1のモダリティと第2のモダリティは画像に相当する。
さらに、学習装置10は、第1のデータセット及び第2のデータセットに含まれるペア内のデータの特徴量が互いに類似し、かつ、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量とが類似するように、モデルのパラメータを更新する。
このように、本来ペアではない対象データと類似データとを拡張ペアとみなしてモデルを最適化することで、モダリティが異なる情報を対応付けたデータが十分に得られない場合であっても、クロスモーダルなデータの探索のためのモデルの精度を向上させることができる。
学習装置10は、第1のデータセットに含まれるペア内のデータの特徴量の類似度が大きいほど小さくなる項と、第2のデータセットに含まれるペア内のデータの特徴量の類似度が大きいほど小さくなる項と、対象データとペアであるデータの特徴量と類似データとペアであるデータの特徴量との類似度が大きいほど小さくなる項であって、ハイパーパラメータとして重みを設定可能な項と、を含む損失関数が最小化されるように、パラメータを更新する。
このように、学習装置10は、(7)式で示した損失関数を構成することで、本来のペアの類似度と拡張ペアの類似度を同時に最適化することができる。
学習装置10は、データセットのうちの第2のデータセットの第2のモダリティのデータである対象データのそれぞれに類似する類似データを、データセットのうちの第1のデータセットに含まれる第1のモダリティのデータの中からさらに選択する。これは、(5)式と(6)式に示した通り、学習装置10が、言語Xのデータセットを基準にした拡張ペアと、言語Yのデータセットを基準にした拡張ペアと、の両方を選択することを意味する。これにより、学習装置10は、モデルの精度をより向上させることができる。
学習装置10は、画像、映像、言語が指定された音声、所定のセンシングデータのうち、2つをモダリティとして組み合わせたペアのデータセットに含まれる各データの特徴量を算出することができる。
[第2の実施形態]
第2の実施形態では、第1の実施形態において訓練されたモデルを用いて、実際に推論を行う処理について説明する。訓練済みの画像エンコーダ及び音声エンコーダによれば、クロスモーダル探索が可能になる。クロスモーダル探索とは、異なる形態のデータを探索することである。例えば、クロスモーダル探索には、音声から画像を探索すること、画像から音声を探索すること、ある言語の音声から他の言語の音声を探索すること等が含まれる。また、各実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。
[第2の実施形態の構成]
図7は、第2の実施形態に係る探索装置の構成例を示す図である。図7に示すように、探索装置20は、画像特徴量算出部211、音声特徴量算出部221、探索部232を有する。また、探索装置20は、画像エンコーダ情報212及び音声エンコーダ情報222を記憶する。
探索装置20には、画像と各言語の音声キャプションが入力される。探索装置20に入力される画像は、探索のためのクエリである。例えば、探索装置20は、探索により得られた音声キャプションを探索結果として出力する。
画像特徴量算出部211は、学習装置10の画像特徴量算出部111と同様に、画像を入力として受け付け、画像特徴量を算出する。ただし、画像エンコーダ情報212は、第1の実施形態で説明した方法により訓練済みである。つまり、画像特徴量算出部211は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。
また、音声特徴量算出部221は、学習装置10の音声特徴量算出部121と同様に、音声キャプションを入力として受け付け、音声特徴量を出力する。ただし、音声エンコーダ情報222は、第1の実施形態で説明した方法により訓練済みである。つまり、音声特徴量算出部221は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。また、探索装置20は、画像特徴量算出部211が算出した画像特徴量を蓄積しておいてもよい。
また、探索装置20は、各言語に対応した複数の音声エンコーダを用いてもよい。音声エンコーダ情報222a及び音声エンコーダ情報222bは、それぞれ英語と日本語に対応する。
探索部232は、画像特徴量を基に、類似する音声を探索する。例えば、探索部232は、蓄積した音声特徴量情報の中から、入力された画像から算出した画像特徴量と類似するものを探索し、得られた音声特徴量に対応する音声を出力する。第1の実施形態で説明した通り、音声特徴量と画像特徴量はいずれも同一の潜在空間上にマッピングされる。さらに具体的には、音声特徴量と画像特徴量はいずれもd次元のベクトルである。このため、探索部232は、内積を算出すること等により、音声特徴量と画像特徴量の類似度を容易に比較することができる。
[第2の実施形態の処理]
図8は、第2の実施形態に係る探索装置の処理の流れを示すフローチャートである。図8に示すように、まず、探索装置20には、クエリである画像と、言語Xの音声キャプション及び言語Yの音声キャプションが入力される(ステップS21)。
探索装置20は、エンコーダを用いて、各画像及び音声キャプションの特徴量を算出する(ステップS22)。このとき、探索装置20は、音声キャプションの特徴量を蓄積しておいてもよい。
そして、探索装置20は、類似度を基にクエリ画像に類似する音声キャプションを探索する(ステップS23)。さらに、探索装置20は、探索により得られた音声キャプションを出力する(ステップS24)。
[第2の実施形態の効果]
このように、第2の実施形態によれば、音声から画像を探索するクロスモーダル探索を行うことができる。また、探索装置20は、音声をクエリとして、異なる言語の音声を探索するクロスリンガル探索を行うこともできる。
[実験結果]
第2の実施形態の探索装置を用いて行った実験について説明する。実験では、第1の実施形態の学習装置により訓練したエンコーダを用いて、第2の実施形態の探索装置により探索を行った。
実験では、英語と日本語がそれぞれ言語Xと言語Yに相当する。英語のデータセットは、98,555枚の画像と各画像に対応付けられた英語の音声キャプションを含む。また、日本語のデータセットは、98,555枚の画像と各画像に対応付けられた日本語の音声キャプションを含む。
なお、実験では、英語のデータセットと日本語のデータセットには同一の画像は含まれていないものとする。ただし、第1の実施形態及び第2の実施形態においては、異なる言語のデータセットに同一の画像が含まれていてもよい。
また、各データセットの98,555枚の画像と音声キャプションのペアのうち、97,555件を学習用のデータとし、1,000件を探索用のデータとした。また、実験では、各パラメータ等の条件を以下のように設定した。なお、ここに記載のない条件については、実施形態で説明したものに準ずる。
音声キャプションの長さT:20秒
潜在空間の次元数d:1024
損失関数:(7)式
損失関数のハイパーパラメータη:1
バッチサイズB:100
評価尺度:Recall@N
実験では、クエリから得られた特徴ベクトルから、ペアとなる評価用の特徴ベクトルを1,000件の中から探索する場合に、類似度が大きいN件を決定した。そして、クエリから得られた特徴ベクトルと評価用の特徴ベクトルのペアがN件の中に含まれていれば、探索は成功したことになる。このとき、探索成功となる割合がRecall@Nである。Recall@Nは、R@Nのように略記される場合がある。
なお、第2の実施形態は、画像をクエリとして音声キャプションを探索するものであったが、探索装置20は、任意の特徴ベクトルをクエリとして他の特徴ベクトルの類似度を計算し、探索することができる。
例えば、探索装置20は、英語の音声をクエリとして画像を探索することができる。また、探索装置20は、英語の音声をクエリとして日本語の音声を探索することができる(クロスリンガル探索)。
図9は、実験結果を示す図である。Nは、(4)式で説明した通り、類似画像を選択する元のデータの件数である。Baselineは、拡張ペアに関する項((7)式の第5項と第6項)を含まない損失関数を使用した場合の結果である。VGG16は、拡張ペアを選択する際の類似度の計算に見かけの類似度を使用した場合の結果である。例えば、この場合、画像認識器(VGG16)の出力OからSi,n=-JS(Oi X, On Y)で計算されるJensen-Shannon距離が類似度として使用される。Embeddingは、第1の実施形態と同様の手法を使用した場合の結果である。
I→Eは、画像をクエリとして英語の音声を探索することを意味する。また、E→Iは、英語の音声をクエリとして画像を探索することを意味する。また、I→Jは、画像をクエリとして日本語の音声を探索することを意味する。また、J→Iは、日本語の音声をクエリとして画像を探索することを意味する。また、J→Eは、日本語の音声をクエリとして英語の音声クエリを探索することを意味する。また、E→Jは、英語の音声をクエリとして日本語の音声クエリを探索することを意味する。
図9より、拡張ペアに関する項が損失関数に含まれる場合(VGG16、Embedding)の方が、Baselineと比べてRecall@Nが向上する傾向にあることがわかる。さらに、Embeddingについては、Nが増加するほど精度が向上することが図9に示されている。
図10は、実験による翻訳知識の獲得結果の例を示す図である。図10の翻訳知識は、非特許文献2に記載の方法によって獲得されたものである。Ground truthは、画像に英語と日本語の両方のキャプションを対応付けた場合の結果である。Ground truthに近いほど良好な結果であるということができる。図10に示すように、Embedding(N=103)の方が、Baselineと比べてノイズが少なく、言語間の対応関係が鮮明になっている。
また、図11に示すように、日本語の音声キャプションの代わりにヒンディ語の音声キャプションを用いて実験を行った場合も、拡張ペアに関する項が損失関数に含まれる場合(VGG16、Embedding)の方が、Baselineと比べてRecall@Nが向上する傾向にあることがわかった。
[その他のモダリティの例]
これまで、主にモダリティが画像と言語が指定された音声とである場合の例について説明してきた。一方で、前述の通り、実施形態には、これまで説明したもの以外にも様々なモダリティを適用することができる。
ここで、ペアデータのモダリティを(A,B)、(C,D)のようにおく。()はペアであることを意味する。例えば、上記の実施形態では、Aが画像、Bを英語の音声、Cを画像、Dが日本語の音声である。また、拡張ペアを選択する際には、AとCの類似度が計算される。このため、AとCは類似度を定義可能な関係にあればよい。
まず、B及びDを言語が異なる音声のキャプションとする。この場合、A及びCは、TV放送及び映像配信サービスから取得した映像コンテンツであってもよい。また、A及びCは、各種センシングデータであってもよい。その場合、異なる言語の話者が、A又はCを知覚し発話によってその内容を説明することでB又はDのデータを収集することができる。
例えば、A及びCが、心電図等の生体センサに基づくデータであるものとする。その場合、所定の言語を話す医師が当該心電図から読み取れる異常等についてコメントをすることで、B又はDに相当する音声キャプションを得ることができる。なお、心電図は波形信号で表されるため、実施形態と同様の周波数分析等を適用することが可能である。
また、例えば、A及びCが、スポーツ選手の身体に取り付けられた加速度計からの出力であるものとする。そして、その場合、所定の言語を話す話者が、スポーツ選手の動き(例えば、野球のバットのスイング)を見て説明を述べることでB又はDに相当する音声キャプションを得ることができる。
なお、AとCは異なっていてもよい。例えば、Aが画像(静止画像)、Bが英語の音声、Cが映像(動画像)、Dが日本語の音声であってもよい。この場合、動画像の代表的なフレームを静止画像と比較すること、静止画像を複数フレームにわたって並べた動画像を生成すること等によりAとCとの間の類似度を定義し、拡張ペアを選択することが考えられる。
また、様々なモダリティのデータを共通の埋め込み空間にマッピングするための手法として、既知の手法を採用することができる。例えば、ニューラルネットワークを利用することで、様々な形式のデータを指定した空間にマッピングすることが可能になる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、学習装置10及び探索装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は探索処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は探索装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、学習装置10及び探索装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理又は探索処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、学習用のデータを入力とし、訓練済みのエンコーダの情報を出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図12は、学習プログラムを実行するコンピュータの一例を示す図である。なお、探索プログラムについても同様のコンピュータによって実行されてもよい。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。CPU1020は、メモリと連結して上記の実施形態の処理を実行するようにプログラムされたものであってもよい。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な一時的でなくかつコンピュータで読み取り可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
20 探索装置
112、212 画像エンコーダ情報
122a、122b、222a、222b 音声エンコーダ情報
111、211 画像特徴量算出部
113 画像エンコーダ
121、221 音声特徴量算出部
123a、123b 音声エンコーダ
131 損失関数構成部
132 更新部
232 探索部

Claims (7)

  1. 複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出部と、
    前記データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する選択部と、
    前記第1のデータセット及び前記第2のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新部と、
    を有することを特徴とする学習装置。
  2. 前記更新部は、前記第1のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記第2のデータセットに含まれるペア内のデータの前記特徴量の類似度が大きいほど小さくなる項と、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量との類似度が大きいほど小さくなる項であって、ハイパーパラメータとして重みを設定可能な項と、を含む損失関数が最小化されるように、前記パラメータを更新することを特徴とする請求項1に記載の学習装置。
  3. 前記特徴量算出部は、画像、映像、言語が指定された音声、所定のセンシングデータのうち、2つをモダリティとして組み合わせたペアのデータセットに含まれる各データの特徴量を算出することを特徴とする請求項1又は2に記載の学習装置。
  4. 前記選択部は、前記データセットのうちの第2のデータセットの第2のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第1のデータセットに含まれる第1のモダリティのデータの中からさらに選択することを特徴とする請求項1から3のいずれか1項に記載の学習装置。
  5. 学習装置によって実行される学習方法であって、
    複数のモダリティのうちの対応するモダリティのデータを入力とし、入力されたデータを埋め込み空間にマッピングした特徴量を出力するモデルを用いて、前記複数のモダリティのうちの2つのモダリティを組み合わせたペアのデータセットに含まれる各データの特徴量を算出する特徴量算出工程と、
    前記データセットのうちの第1のデータセットの第1のモダリティのデータである対象データのそれぞれに類似する類似データを、前記データセットのうちの第2のデータセットに含まれる第2のモダリティのデータの中から選択する選択工程と、
    前記第1のデータセット及び前記第2のデータセットに含まれるペア内のデータの前記特徴量が互いに類似し、かつ、前記対象データとペアであるデータの前記特徴量と前記類似データとペアであるデータの前記特徴量とが類似するように、前記モデルのパラメータを更新する更新工程と、
    を含むことを特徴とする学習方法。
  6. コンピュータを、請求項1から4のいずれか1項に記載の学習装置として機能させるための学習プログラム。
  7. 画像を入力とし、前記画像を埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、画像と第1の言語の音声のペアのデータセットである第1のデータセットと、画像と第2の言語の音声のペアのデータセットである第2のデータセットと、に含まれる各画像の特徴量である画像特徴量を算出する画像特徴量算出部と、
    音声を入力とし、前記音声を前記埋め込み空間にマッピングした特徴量を出力とするモデルを用いて、前記第1のデータセットと、前記第2のデータセットと、に含まれる各音声の特徴量である音声特徴量を算出する音声特徴量算出部と、
    前記第1のデータセットの画像である対象画像のそれぞれに類似する類似画像を、前記第2のデータセットに含まれる画像の中から選択する選択部と、
    前記第1のデータセット及び前記第2のデータセットに含まれる画像の前記画像特徴量と、前記画像とペアである音声の前記音声特徴量とが類似し、かつ、前記対象画像とペアである音声の前記音声特徴量と、前記類似画像とペアである音声の前記音声特徴量と、が類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、
    を有することを特徴とする学習装置。
JP2021066028A 2021-04-01 2021-04-08 学習装置、学習方法及び学習プログラム Active JP7100737B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/219,893 US11830478B2 (en) 2021-04-01 2021-04-01 Learning device, learning method, and learning program for images and sound which uses a similarity matrix
US17/219,893 2021-04-01

Publications (2)

Publication Number Publication Date
JP7100737B1 JP7100737B1 (ja) 2022-07-13
JP2022158736A true JP2022158736A (ja) 2022-10-17

Family

ID=82399173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021066028A Active JP7100737B1 (ja) 2021-04-01 2021-04-08 学習装置、学習方法及び学習プログラム

Country Status (2)

Country Link
US (1) US11830478B2 (ja)
JP (1) JP7100737B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11817081B2 (en) * 2021-03-31 2023-11-14 Nippon Telegraph And Telephone Corporation Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180039859A1 (en) * 2016-06-15 2018-02-08 Massachusetts Institute Of Technology Joint acoustic and visual processing
US20200250538A1 (en) * 2019-02-01 2020-08-06 Google Llc Training image and text embedding models
WO2020179378A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 情報処理システム、情報処理方法および記録媒体
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
US20200380403A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Visually Guided Machine-learning Language Model
US20200380298A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Text-to-Visual Machine Learning Embedding Techniques

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538957B1 (en) * 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US9436891B2 (en) * 2013-07-30 2016-09-06 GlobalFoundries, Inc. Discriminating synonymous expressions using images
EP3596666A1 (en) * 2017-05-19 2020-01-22 Google LLC Multi-task multi-modal machine learning model
US11645478B2 (en) * 2020-11-04 2023-05-09 Adobe Inc. Multi-lingual tagging for digital images
US20220147743A1 (en) * 2020-11-09 2022-05-12 Nvidia Corporation Scalable semantic image retrieval with deep template matching

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180039859A1 (en) * 2016-06-15 2018-02-08 Massachusetts Institute Of Technology Joint acoustic and visual processing
US20200250538A1 (en) * 2019-02-01 2020-08-06 Google Llc Training image and text embedding models
WO2020179378A1 (ja) * 2019-03-04 2020-09-10 日本電気株式会社 情報処理システム、情報処理方法および記録媒体
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
US20200380403A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Visually Guided Machine-learning Language Model
US20200380298A1 (en) * 2019-05-30 2020-12-03 Adobe Inc. Text-to-Visual Machine Learning Embedding Techniques

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大石康智ほか: "画像を説明する多言語音声データを利用したクロスモーダル探索", 電子情報通信学会技術研究報告 [ONLINE], vol. 119, no. 64, JPN6022025257, 23 May 2019 (2019-05-23), pages 283 - 288, ISSN: 0004804521 *

Also Published As

Publication number Publication date
US11830478B2 (en) 2023-11-28
JP7100737B1 (ja) 2022-07-13
US20220319495A1 (en) 2022-10-06

Similar Documents

Publication Publication Date Title
US11948066B2 (en) Processing sequences using convolutional neural networks
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
US20240013055A1 (en) Adversarial pretraining of machine learning models
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US8494850B2 (en) Speech recognition using variable-length context
US20210081503A1 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
JP2021108096A (ja) 情報を出力する方法および装置
US11817081B2 (en) Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program
JP7108259B2 (ja) 情報を生成するための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
JP2015162244A (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
JP7100737B1 (ja) 学習装置、学習方法及び学習プログラム
CN113094578A (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
US20220398500A1 (en) Partially local federated learning
US20220188636A1 (en) Meta pseudo-labels
CN106503066B (zh) 基于人工智能的处理搜索结果方法和装置
US20220198274A1 (en) Method and system for unstructured information analysis using a pipeline of ml algorithms
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
Kilimci et al. Evaluating raw waveforms with deep learning frameworks for speech emotion recognition
Bykov et al. Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
JP6490989B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP7318062B1 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210408

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20210506

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220701

R150 Certificate of patent or registration of utility model

Ref document number: 7100737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150