JP7439564B2

JP7439564B2 - 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法

Info

Publication number: JP7439564B2
Application number: JP2020031669A
Authority: JP
Inventors: リュウチョン; レイユアン; ハオフー; ヤンシャザング; インインチェン; チェンフランシーン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-03-14
Filing date: 2020-02-27
Publication date: 2024-02-28
Anticipated expiration: 2040-02-27
Also published as: CN111695010A; JP2020149680A; US20200293826A1; US11587305B2

Description

例示的な実施形態の態様は、非テキスト入力による感覚媒体（例えば、音声及び画像の少なくとも一方）間の関連付けを学習することに関連した方法、プログラム、システム、及びユーザ経験に関する。

関連技術の深層学習技法においては、テキストラベルが付された大量のデータを必要とする。テキストラベルデータは、モデルを訓練するためにラベル付け実行者によって生成される。関連技術においては、テキストラベル付けを実行するためのコストが、現実世界の多くの状況下において、深層学習技法の使用を制限している。

例えば、数百万個の画像ラベルを使用してカスタマイズされた製品画像データセットを生成する関連技術の深層学習技法を使用することは、時には、そのような作業を実行できないほどに単調でコスト高である。さらに、関連技術の深層学習技法において必要とされているように、適切なテキストラベルを有した映像のために、画像の詳細な説明を生成することもまた、ラベル付け実行者が記録の確認及び入力などの作業のために膨大な時間とリソースを費やすという点において、多大なコストを必要とすることとなる。

したがって、関連技術の深層学習技法においては、テキストラベル付けに関連した関連技術におけるコストや欠点を受けることなく、リアルタイムでデータを収集し、データセットを生成するという、未解決の要望が存在している。

米国特許第５０９７３２６号明細書

"See What I Mean - a speech to image communication tool" Vimeo video: https://vimeo.com/75581546; ２０１４年公開, ２０１９年３月１４日検索 TORFI, A. "Lip Reading - Cross Audio-Visual Recognition using 3D Convolutional Neural Networks - Official Project Page" GitHub; https://github.com/astorfi/lip-reading-deepleaning; ２０１９年３月１４日検索 CHAUDHURY, S. et al., "Conditional generation of multi-modal data using constrained embedding space mapping" ICML 2017 Workshop on Implicit Models; ２０１７年 VUKOTIC, V. et al. "Bidirectional Joint Representation Learning with Symmetrical Deep Neural Networks for Multimodal and Crossmodal Applications" ICMR, ２０１６年６月, 米国ニューヨーク KIROS, R. "neural-storyteller" GitHub; https://github.com/ryankiros/neural-storyteller, ２０１９年３月１４日検索 SHEN, T. et al. "Style Transfer from Non-Parallel Text by Cross-Alignment" 31st Conference on Neural Information Processing Systems (NIPS 2017), 12 pages; 米国カリフォルニア州ロングビーチ VAN DEN OORD, A. et al. "WaveNet: A Generative Model for Raw Audio" ２０１６年９月１９日 "Microsoft Azure Speaker Verification" https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/; ２０１９年３月１４日検索 "Speaker Recognition API" https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home; ２０１９年３月１４日検索

本発明は、非テキスト入力による感覚媒体（例えば、音声、画像等）間の関連付けを学習することができるシステム、プログラム、及び方法を提供することを課題とする。

例示的な実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法は、第１タイプの非テキスト入力と第２タイプの非テキスト入力とを受信し、第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して第１タイプの非テキスト入力を符号化及び復号するとともに、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して第２タイプの非テキスト入力を符号化及び復号し、第１モダリティ（様式）に関連する第１オートエンコーダ表現と第２モダリティ（様相）に関連する第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、第１オートエンコーダ表現と第２オートエンコーダ表現とのブリッジング（橋渡し）を行い、符号化と復号とブリッジングとに基づき、第１タイプの非テキスト入力又は第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、第１モダリティと第２モダリティとのいずれか一方において生成すること、を含む。

さらなる態様によれば、第１タイプの非テキスト入力は音声であり、第２タイプの非テキスト入力は画像である。他の態様によれば、音声はマイクロホンによって検出され、画像はカメラによって検出される。

さらに他の態様によれば、第１タイプの非テキスト入力は、音声と、画像と、温度と、接触と、放射と、のうちの１つであり、第２タイプの非テキスト入力は、音声、画像、温度、接触、放射線、のうちの他の１つであり。

さらに他の態様によれば、第１タイプの非テキスト入力及び第２タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される。

追加的な態様によれば、テキストラベルは使用されず、受信と符号化と復号とブリッジングと生成とは、言語非依存である。

さらに他の態様によれば、第３タイプの非テキスト入力が受信され、第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、第３タイプの非テキスト入力が符号化され、第３オートエンコーダは、第３モダリティに関連する第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する深層ニューラルネットワークによって、第１オートエンコーダ及び第２オートエンコーダに対してブリッジングされ、第１オートエンコーダと第２オートエンコーダと第１畳み込みニューラルネットワークと第２畳み込みニューラルネットワークとの再訓練を必要とすることなく、第３タイプの非テキスト出力が生成される。

例示的な別の実施形態によれば、プログラムが提供され、当該プログラムは、第１タイプの非テキスト入力と第２タイプの非テキスト入力とを受信し、第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して前記第１タイプの非テキスト入力を符号化して復号するとともに、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して前記第２タイプの非テキスト入力を符号化して復号し、第１モダリティに関連した第１オートエンコーダ表現と第２モダリティに関連した第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第１オートエンコーダ表現と前記第２オートエンコーダ表現とのブリッジングを行い、前記符号化と前記復号と前記ブリッジングとに基づき、前記第１タイプの非テキスト入力あるいは前記第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、前記第１モダリティ及び前記第２モダリティのいずれか一方において生成すること、を含む方法をコンピュータに実行させる。

前記第１タイプの非テキスト入力は音声であってよく、前記第２タイプの非テキスト入力は画像であってもよい。

前記音声はマイクロホンによって検出されてもよく、前記画像は、カメラによって検出されてもよい。

前記第１タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの１つであってよく、前記第２タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の１つであってよい。

前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供されてもよい。

テキストラベルが使用とされず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってもよい。

前記方法は、第３タイプの非テキスト入力を受信し、第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、前記第３タイプの非テキスト入力を符号化し、前記第３オートエンコーダが、第３モダリティに関連した第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第１オートエンコーダ及び前記第２オートエンコーダに対してブリッジングされ、前記第１オートエンコーダ、前記第２オートエンコーダ、前記第１畳み込みニューラルネットワーク、及び前記第２畳み込みニューラルネットワークの再訓練を必要とすることなく、第３タイプの非テキスト出力を生成する
ことをさらに含んでもよい。

例示的なまた別の実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムが提供され、当該システムは、第１タイプの非テキスト入力を受信する第１タイプのセンサ、及び、第２タイプの非テキスト入力を受信する第２タイプのセンサと、前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力を受信し、第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して前記第１タイプの非テキスト入力を符号化して復号し、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して前記第２タイプの非テキスト入力を符号化して復号し、第１モダリティに関連した第１オートエンコーダ表現と第２モダリティに関連した第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第１オートエンコーダ表現と前記第２オートエンコーダ表現とのブリッジングを行う、プロセッサと、前記符号化と前記復号と前記ブリッジングとに基づき、前記第１タイプの非テキスト入力あるいは前記第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、前記第１モダリティ及び前記第２モダリティのいずれか一方において生成する出力装置と、を含む。

前記第１タイプのセンサはマイクロホンであってよく、前記第２タイプのセンサはカメラであってよい。

テキストラベルが使用されず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってよい。

前記プロセッサがさらに、第３タイプの非テキスト入力を受信し、第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、前記第３タイプの非テキスト入力を符号化し、前記第３オートエンコーダが、第３モダリティに関連した第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第１オートエンコーダ及び前記第２オートエンコーダに対してブリッジングされ、前記第１オートエンコーダ、前記第２オートエンコーダ、前記第１畳み込みニューラルネットワーク、及び前記第２畳み込みニューラルネットワークの再訓練を必要とすることなく、第３タイプの非テキスト出力を生成してもよい。

特許又は出願書類には、少なくとも１つのカラー図面が含まれている。カラー図面を含む本特許又は特許出願の公報の写しは、請求及び必要な手数料の支払いにより特許庁より提供される。

システム及び方法の例示的な実施形態を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態に関連した結果を示す。例示的な実施形態による例示的なプロセスを示す。いくつかの例示的な実施形態における使用に適した例示的なコンピュータ装置を備えた例示的な演算環境を示す。いくつかの例示的な実施形態に適した例示的な環境を示す。ロボットへの適用に関連した例示的な実施形態を示す。

以下の詳細な説明は、本出願の図面及び例示的な実施形態に関するさらなる詳細を提供する。図面にわたって重複する構成要素に関する参照符号及び説明は、簡略化のために省略されている。明細書全体にわたって使用されている用語は、例として提供されているものであって、限定を意図したものではない。

関連技術においては、非テキスト入力による感覚媒体の機械学習のための深層学習技法操作を可能とするツールが必要とされているという、未解決の要望が存在している。上述したように、関連技術のアプローチは、テキストラベルデータを得るためにコストを含み、このことが、データを要求する多数の機械学習作業にとっての障害となる。他方、人間は、テキストラベルがなくても、媒体間の関連付けを学習することができる（例えば、子供は、一般的に知られた数字を知らなくても、対象物に名前を付ける方法を学習することができる、あるいは、被験者は、英数字の観点から、その人が知らない言語で対象物に名前を付ける方法を学習することができる）。

例示的な実施形態の態様は、スピーチ（音声）と視覚とのモダリティ交差的な（cross-modality）関連付けに関するものである。関連技術のアプローチは、スピーチと視覚データとを連結するためのブリッジ（橋渡し）としてテキストを使用し得るが、例示的な実施形態は、キーボードを使用しないなどの非テキスト的な態様で、感覚媒体を使用した機械学習に関するものである。

キーボードによるラベル付けなどのテキストを除去することにより、様々な効果及び利点を奏することができる。例えば、これに限定されないが、機械学習技法を、より自然な態様で人の振る舞いをより正確に真似た態様で行うことができるとともに、予定やコストなどのキーボードによるラベル付けにおける関連技術の制限によって、制限を受けることがない。その結果、機械学習作業にとっての不十分な訓練データという関連技術の問題点も、軽減することができる。その上、訓練データの新たな領域を利用可能なものとすることができる。

さらに、例示的な実施形態によれば、テキストラベル付け及びこれによる複雑さに関連するコストが不要であることにより、通常の利用者がより容易に、関連技術のシステムにおいては現在利用できない方法でシステムを訓練することができる。例えば、これに限定されないが、例示的な実施形態は、視力又は聴力に障がいがある個人への支援に有益であり、視覚障がい者に対しては、視覚的な入力を音声出力として提供し得るとともに、聴覚障がい者に対しては、音声入力を視覚的な出力として提供することができる。

例示的な実施形態によれば、複数の深層畳み込みオートエンコーダが設けられる。より具体的には、一つの深層畳み込みオートエンコーダが、第１非テキスト領域（例えば、スピーチ表現の学習）のために設けられ、他の深層畳み込みオートエンコーダは、第２非テキスト領域（例えば、画像表現の学習）のために設けられる。これらにより、隠れた特性を抽出することができる。これらオートエンコーダの潜在空間は、スピーチ及び画像のそれぞれコンパクトな埋め込みを示す。これにより、２つのオートエンコーダの潜在空間同士がブリッジングされるように２つの深層ネットワークが訓練され、スピーチ対画像と画像対スピーチとの双方に関して、強固な対応付け（マッピング）が生成される。従って、音声を、ユーザが視覚化し得る画像へと変換することができる。このような対応付けにより、画像入力は、対応するスピーチ出力を生成（activate）することができる、あるいは逆に、スピーチ入力は、対応する画像出力を生成（activate）することができる。

本発明の概念に関連した例示的な実施形態は、様々な状況下で使用することができる。例えば、これに限定されないが、システムは、障がいを有する個人を支援するために使用することができる。さらに、大量の低コスト訓練データを利用可能として、自律的なロボットの訓練を実行し、機械学習アルゴリズム及びシステムを生成することができる。さらに、機械学習システムは、コストや予定などのテキストラベルに関連した関連技術の問題点及び欠点によって制限されることなく、使用することができる。

本例示的な実施形態においては、機械には、カメラ及びマイクロホンなどのセンサを設けられてもよく、センサは、人が同じ情報を感知する方法と同様に、連続的な態様で、リアルタイムデータを収集することができる。温度検出に関連した温度計、接触を検出するためのものであって圧力マップの作製に関連した感圧アレイ、放射センサ、あるいは、検出されるパラメータ情報に関連した他のセンサなどの、他のセンサを設けてもよい。収集されたリアルタイムデータは、この例示的な実施形態におけるエンコーダ／デコーダ構造によって使用される。例えば、検出装置は、通常の日常活動から、また、既存の映像から、使用可能なデータを得てもよい。関連技術のアプローチの場合のようにテキストラベル付け実行者がそのようなデータにラベルを付けるという関連技術の制限が無いことにより、例示的な実施形態は、環境の情報を連続的に検出して観測し得るとともに、その環境から学習を行うことができる。

図１は、構造１００の例示的な実施形態を示している。より具体的には、マイクロホンやカメラなどの装置から受信できる情報である、音声入力１０１及び画像入力１０３が提供されている。例示的な実施形態は、音声表現及び画像表現を学習するために、音声モジュール及び画像モジュールの各々に関して使用される、エンコーダ／デコーダ構造を含む。符号化プロセス１０９を通して、音声出力１０５が生成され、また、符号化プロセス１１１を通して、画像出力１０７が生成される。音声モジュールは、訓練用の入力及び出力として音声信号を使用しているので、深層ネットワークを訓練するためにテキストラベルは不要である。同様に、画像モジュールは、ネットワークの入力及び出力として画像を使用しているので、同様にテキストラベルは不要である。

エンコーダ及びデコーダからなる各対の間の表現とともに、１つのニューラルネットワークが音声表現１１３を画像表現１１５に対応付けるために使用され、別のニューラルネットワークが、画像表現１１９を音声表現１１７に対応付けるために使用される。上記の構成を有してパラメータを学習するこの例示的な実施形態によれば、音声入力が、音声出力と同様に画像出力も生成することができる。逆に、画像入力は、画像出力と同様に音声出力も生成することができる。

より具体的には、例示的な実施形態によれば、各々のモダリティ（様相）（図１においては２つのモダリティが図示されているが、例示的な実施形態は、２つのモダリティに限定されるものではなく、本明細書において説明するように、追加的なモダリティを提供してもよい）について、オートエンコーダは、この例ではそれぞれ音声及び映像モダリティである入力１０１及び１０３を受信するエンコーダ部分１２１、１２３を含んでいる。エンコーダ部分１２１、１２３の複数の層が入力情報に対して適用された後に、第１モダリティの表現が１２５で示すようにして生成され、第２モダリティの表現が１２７で示すようにして生成される。

第１モダリティの表現１２５及び第２モダリティの表現１２７は、その後、深層ニューラルネットワークに対して提供され、第１モダリティ表現１１３から第２モダリティ表現１１５への対応付け、あるいは第２モダリティ表現１１９から第１モダリティ表現１１７への対応付けなどの、モダリティ交差的ブリッジングが実行される。表現の送出及び受信は、表現１２５、１２７から延びる破線によって示されている。

さらに、デコーダ部分１２９、１３１が設けられており、これにより、上述したモダリティ交差的ブリッジングの結果を含む第１モダリティ表現１２５及び第２モダリティ表現１２７を復号することができる。デコーダ部分１２９、１３１の複数の層が、第１モダリティ表現１２５及び第２モダリティ表現１２７に対して適用されると、それぞれ出力１０５、１０７が生成される。

上記の例示的な実施形態は、異なる入力－出力の組合せに対して使用することができる。例えば、これに限定されないが、上記の構造が音声入力と学習した音声出力との間のペアリングに関する情報を有していない場合には、例示的な実施形態は、入力信号を、音声モジュールの入力及び出力の双方に対して供給してもよく、オートエンコーダによる学習手順を使用して表現を学習してもよい。音声入力と既存の音声出力との間のペアリング情報が既知である場合には、例示的な実施形態は、オートエンコーダによって、音声入力と既存の音声出力とを関連付けるために学習してもよい。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は、訓練のために、双方の出力と音声入力とを使用してもよい。逆に、例示的な実施形態を使用したものと同様のアプローチを、同様の方法で、画像モジュールの訓練のために適用することもできる。

例示的な実施形態は、画像クリップと音声クリップとの間の関係性を学習する。より具体的には、音声クリップと画像クリップとの間のペアリング情報は、例示的な実施形態に関連したシステムに対して提示される。例示的な実施形態によるペアリングは、ある人が他の人に対して対象物の名付け教示する際のペアリングと類似している。従って、例示的な実施形態は、より自然な学習アプローチを有した機械学習を提供する。図１に示すネットワーク内の対応するパラメータは、機械に対する教師によって提供されたペアリング情報を使用して訓練される。

より具体的には、ある例示的な実施形態によれば、画像学習モジュール及び音声学習モジュールの双方に関して、敵対的畳み込みオートエンコーダが使用され、これにより、低レベル特性の演算コストが節約されるとともに、訓練パラメータの数を低減させるために、音声入力は２次元のＭＦＣＣ表現へと変換されて、畳み込みオートエンコーダへと供給される。この変換は、画像学習モジュールに非常に類似した音声学習モジュールをもたらす。オートエンコーダは、エンコーダ及びデコーダのそれぞれについて７つの層を含んでいる。しかしながら、本発明の例示的な実施形態はこれに限定されるものではなく、本発明の範囲を逸脱することなく、７つの層を他の層数に置き換えてもよい。

例示的な実施形態によれば、３×３の畳み込みフィルタが使用され、各畳み込み層でデータが処理される。オートエンコーダは入力の忠実性を失うことなく音声入力を圧縮する。一例によれば、音声入力は、１６，３８４のサンプルを有してもよく、オートエンコーダの中間層は、２３２の次元を有してもよい。入力のこの３２次元の表現を使用して、例示的な実施形態はデコーダによって、可聴歪みを発生させることなく、同様の音声を再構成することができる。

画像に関しては、２８×２８の手書き画像が、７８４次元のベクトルへと再成形されて、画像オートエンコーダへと供給される。画像オートエンコーダは、５つの完全に連結された層を有しており、入力を３２次元の画像表現へと低減することができる。３２次元の画像表現を使用することにより、訓練済みのデコーダによって入力画像を再構成することができる。

図２は、スペクトログラム及び画像２００を示しており、これらは、隠れノードが使用されている場合には、潜在空間内のグリッド上に位置する様々な隠れノード値に対応している。これらの図はデータクラスタリング及び潜在空間を示している。２０１においては、音声学習モジュールの出力が、様々な隠れノード値に対応したスペクトログラムの形態で提供されている。２０３においては、画像学習モジュールの出力画像が、様々な隠れノード値に対応するものとして、提供されている。情報の損失及び出力上における大きな歪みを引き起こし得るものの、２つのノードの潜在空間が可視化のために提供されている。そのような欠点及び問題点を回避するために、また、音声エンコーダからの出力の歪みを小さなものに抑えるために、例示的な実施形態は、音声学習モジュール及び画像学習モジュールの双方に関して３２ビットノードを使用している。

３２ノードの音声表現層と３２ノードの画像表現層との間の対応付けを学習するために、各層あたりに５１２ノードを有する５層の完全に連結された２つのネットワークが使用され、音声から画像への対応付け、及び、画像から音声への対応付けをそれぞれ学習することができる。

上記の例示的な実施形態は、以下の例示的な例において、データに対して適用された。６０，０００個の訓練用画像と１０，０００個のテスト画像とを有するＭＮＩＳＴ手書きデジタルデータセットと、３人の話者と１５００個の録音（１人の話者あたりにつき、各数字に５０個）とを有するＦＳＤＤ（free spoken dataset）からの英語で話されたデジタルデータセットとが、ネットワークパラメータをチューニングするための訓練データとして使用された。

図３は、音声入力スペクトログラム３０１、３０７と、対応する音声学習モジュールスペクトログラム出力３０３、３０９と、音声入力を使用して画像デコーダによって得られた対応する出力画像３０５、３１１と、の例３００を示している。異なる話者からの音声を学習システムに対して供給すると、画像出力は、数字出力においてわずかの変動を有している。

図４の４００に示すように、典型的な手書き画像、及び、スピーチによって生成された画像は、ここで示すように、それぞれ画像入力４０１及び画像出力４０３として提供され、出力画像は入力画像と比較して、より認識可能なものとすることができる。このことは、図４に示す数字６、７、８に関して特に明らかである。

加えて、５１２ノードの潜在空間オートエンコーダは、画像から音声への対応付けを学習するために、敵対的なネットワークを使用して、画像対画像モジュール及び音声対音声モジュールの双方に関してテストされた。

図５の５００に示すように、画像学習モジュールの入力５０１と、画像学習モジュールの出力５０３と、入力画像５０１によって生成された対応する音声スペクトログラム出力５０５と、が示されている。図５に示す画像は、画像対画像モジュールが、潜在空間の拡張により、入力画像に対してより類似した画像を出力できることを示している。

図６は、入力６０１とオートエンコーダ出力６０３とスピーチ出力６０５とを含むＣＯＩＬ－１００（Columbia Object Image Library）データセットの結果６００を示している。このデータセットの画像は比較的大きいことから、入力画像を表現するために、畳み込みオートエンコーダを使用して５１２個の次元特性が抽出される。

さらに、ＡｂｓｔｒａｃｔＳｃｅｎｅのデータセットを使用して、１０，０００個の１２８×１２８画像についてスピーチ情報が生成された。上記の学習アーキテクチャを使用して、画像表現層及び音声表現層はそれぞれ、１０２４ノードへとスケールアップされた。同様に、音声対画像対応付けネットワーク及び画像対音声対応付けネットワークは、データの複雑さの増大に対処するために、５１２個から２０４８個へと増大された。

この例の結果が、図７の７００に示されている。より具体的には、図７の第１列は、グラウンドトゥルース（地上検証データ）７０１を示しており、第２列は、音声により生成された画像７０３を示している。

図８は、画像を使用して生成された３つのスピーチセグメント８０１、８０３、８０５のＭＦＣＣ（メル周波数ケプストラム係数）８００を示している。立会人に画像によって生成されたスピーチセグメントを聞くよう求めることにより、スピーチセグメントが容易に理解可能なものであるかどうかに判断された。

訓練品質を向上させるために、例示的な実施形態は、トークンとしてＩＤを有するトレーナを使用してもよい。画像を示した後にスピーチを生成するというモードに関しては、トークンは、ランダムな話者でもよく、あるいは特定の話者であってもよい。他方、スピーチをした後に画像を生成するというモードに関しては、例示的な実施形態が１つ又は複数の以下のオプションに基づいて動作し得るよう、結果は話者に非依存であるべきである。

ある例示的な実施形態によれば、互いに別個のエンコーダ・デコーダモデルを、２つのケースについて訓練してもよい。言い換えれば、一方のエンコーダ・デコーダモデルは話者非依存、すなわち、スピーチ対画像に関するものとしてもよく、他方のエンコーダ・デコーダモデルはトークンを使用し、画像対スピーチに関するものとしてもよい。

他の例示的な実施形態によれば、トークンを使用し、すべての話者についてトークンセットＩＤを有する組合せモデルを使用してもよい。この組合せモデルは、各発話について２度訓練を行う。これに代えて、大量のデータが存在する場合には、発話は、話者トークン、あるいは、「全話者（everyone）」トークンのいずれかに対して、ランダムに割り当てられてもよい。

さらに他の例示的な実施形態によれば、話者ＩＤを使用してもよい。しかしながら、この例示的な実施形態によれば、システムが注意を払う話者は、話者ＩＤを有している話者に限定され得る。このアプローチは、ある種の状況においては、例えば、空港で職員が個人を写真と照合するよう試みるような状況において有用であり、方言センサ及び個人に関連する話者ＩＤが存在する場合、より厳密で迅速な判断をすることができる。このアプローチを使用すれば、音声モジュールのクラスタ化を、より容易かつ明瞭な態様で行うことができる。

ここで説明した例示的な実施形態は、様々な実施及び応用されることができる。上述したように、例示的な実施形態の態様を使用することにより、身体障がいを有した人々、とりわけ、微細な運動スキルを要するキーボード又はマウスからのタイピングや情報入力を行うことがなく、視覚的な出力又は音声出力を提供できる人々を支援し得るシステムを構築することができる。さらに、例示的な実施形態はまた、人間と同様の方法で音声環境及び視覚的環境に関して学習する必要があり、それによってその環境内において安全にかつ効率的に実行し得る自律的なロボットの訓練などの分野においても有用であり得る。さらに、例示的な実施形態は、大量の低コスト訓練データを必要とする機械学習アルゴリズム及び／又はシステム、さらには、スケジュールやコストなどのテキストラベル付けに関する制限によって限定されることを意図していない機械学習システムを対象とすることができる。

ある例示的な実施形態によれば、聴力に障がいを有する人が周囲の人との会話の対象を判断することを支援したり、あるいは、視覚障がい者に対してスピーチを使用して環境の物理的な周囲状況を告げるために、言語非依存の装置を訓練することができる。

本発明の例示的な実施形態においては、テキストが使用されないことにより、訓練システムもまた言語非依存であり、国、文化、及び言語をまたがって使用することができる。例示的な実施形態が、共通のネットワークに対して接続された複数のセンサを含み得ることにより、同じ領域内で同じ言語を話すユーザ同士は、共通の方法でシステムを訓練し得る。

自律的なロボット訓練に関連する他の例示的な実施形態によれば、例示的なアプローチは共有された潜在空間、あるいは、機能制限された潜在空間において有利である。より具体的には、例示的な実施形態によれば、潜在空間間の結合を解除することにより、ユーザは、新たなモダリティが先に学習したモダリティに影響を及ぼすことなく、後から機械内により多くのモダリティを追加することができる。むしろ、例示的な実施形態によれば、新たなモダリティは自ら学習して、先のモダリティに対するより多くの結合を徐々に構築していく。

例えば、これに限定されないが、自律的なロボットは当初から、カメラなどの視覚的態様に関するセンサと、マイクロホンなどの音声的態様に関する他のセンサと、を有している。しかしながら、ユーザは、温度、接触、放射線、あるいは環境内で感じられ得る他のパラメータなどの他のモダリティに関する追加的なセンサを追加することを要望するかもしれない。そのような新たなモダリティは、従来技術ではなし得なかった手法でもって、既存のモダリティ（例えば、視覚及び音声モダリティ）に影響を及ぼすことなく、例示的な実施形態に対して追加されることができる。さらに、ロボットは、深海や宇宙空間などの人間の動作が困難な環境に関連する学習を可能としてもよい。

接触モダリティに関連するある例示的な実施形態によれば、ロボットに対して、瓶又はコップなどの対象物を把持する方法を教えてもよい。ロボットは、接触に関連する自身の訓練データに基づいて学習することにより、対象物をより小さな力で掴むかあるいはより大きな力で掴むかを判断することができる。テキストラベル付けという概念が存在しないことにより、ロボットは自身の出力を検出された入力として使用してもよく、あるいは予め準備された人間の訓練データから学習してもよい。

図９は、例示的な実施形態における例示的なプロセス９００を示している。この例示的なプロセス９００は、ここで説明するように、１つ又は複数の装置を使用して実行されてもよい。

９０１において、様々なタイプの非テキスト入力が、検出装置から受信される。例えば、これに限定されないが、音声入力が、あるタイプの非テキスト入力としてマイクロホンから受信されてもよく、画像入力が、他のタイプの非テキスト入力としてカメラから受信されてもよい。例示的な実施形態は、上記の２つのタイプの非テキスト入力に限定されるものではなく、温度、接触、放射線、映像、あるいは検出可能な他の入力などの他の非テキスト入力を、例示的な実施形態に含んでもよい。

９０３において、入力を受信した各タイプの非テキスト入力に対し、自動的な符号化及び復号が実行される。この自動的な符号化及び復号は、例えば畳み込みニューラルネットワークを使用して実行してもよい。これにより、マイクロホンから受信された音声入力を一つのオートエンコーダによって符号化することができ、カメラから受信された画像入力を他のオートエンコーダによって符号化することができる。それぞれのタイプの非テキスト入力表現の各々を学習する深層畳み込みオートエンコーダを使用することにより、出力を生成することができる。

９０５において、深層ネットワークを使用して、９０３において使用された２つの深層畳み込みオートエンコーダの潜在空間同士のブリッジングが行われる。より具体的には、第１モダリティ表現と第２モダリティ表現との間の対応付けを学習する深層ニューラルネットワークが使用され、第１タイプのオートエンコーダ表現と第２タイプのオートエンコーダ表現との間の潜在空間のブリッジングが行われる。例えば、これに限定されないが、深層ネットワークは、音声タイプの入力と画像タイプの出力との間において相互変換を行い得るように、あるいはその逆を行い得るように構成されている。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は訓練のために、音声入力に対して音声出力及び画像出力の双方を使用することができる。同様のアプローチを、画像入力が利用可能である場合には画像入力に対して行うことができる。ペアリング情報が利用可能でない場合には、オートエンコーダの訓練は履歴データを使用して行うことができる。

９０７において、符号化、復号、及びブリッジングに基づき、第１モダリティ又は第２モダリティのいずれかである非テキスト入力に対して、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を含む適切な出力が、各タイプの非テキスト入力について生成される。例えば、音声学習モジュールの出力スペクトログラム、あるいは、様々な隠れノード値に対応した出力画像が、出力として提供されてもよい。入力及び出力の例は、上述の図面に図示されているとともに、例示的な実施形態に関する説明において記述されている。

図１０は、いくつか例示的な実施形態における使用に適した例示的なコンピュータ装置１００５を備えた例示的な演算環境１０００を示している。演算環境１０００内のコンピュータ装置１００５は、１つ又は複数の処理ユニット、コア、又はプロセッサ１０１０、メモリ１０１５（例えば、ＲＡＭ、ＲＯＭ、等）、内部記憶装置１０２０（例えば、磁気記憶装置、光学記憶装置、固体素子記憶装置、及び有機記憶装置の少なくとも一つ）、及び、Ｉ／Ｏインターフェース１０２５の少なくとも一つを含むことができる。これらのうちの任意の構成要素は、情報通信のために通信機構すなわちバス１０３０上で接続されるか、コンピュータ装置１００５内に埋め込まれることができる。

コンピュータ装置１００５は、入力／インターフェース１０３５及び出力装置／インターフェース１０４０に通信可能に接続されることができる。入力／インターフェース１０３５及び出力装置／インターフェース１０４０のいずれか一方あるいは双方は、有線又は無線インターフェースであってよく、着脱可能であってもよい。入力／インターフェース１０３５は、入力を提供するために使用し得る任意の装置、構成要素、センサ、インターフェース、物理的又は仮想的なこれらのものを含むことができる（例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソルコントロール、マイクロホン、カメラ、点字、モーションセンサ、光学的読取器等）。

出力装置／インターフェース１０４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字、等を含むことができる。いくつかの例示的な実施形態においては、入力／インターフェース１０３５（例えば、ユーザインターフェース）及び出力装置／インターフェース１０４０は、コンピュータ装置１００５に埋め込まれるか、物理的に接続されることができる。他の例示的な実施形態においては、他の演算装置が、コンピュータ装置１００５のための入力／インターフェース１０３５及び出力装置／インターフェース１０４０として機能してもよく、あるいは、これらの機能を提供してもよい。

コンピュータ装置１００５の例は、これらに限定されないが、高移動性装置（例えば、スマートフォン、車両又は他の機械内の装置、人及び動物等によって携行される装置）、携帯装置（例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオ等）、及び、携帯用に構成されていない装置（例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、インフォメーションセンターの情報端末、内部に１つ又は複数のプロセッサが埋め込まれるか接続されたテレビ、ラジオ等）を含むことができる。

コンピュータ装置１００５は、外部記憶装置１０４５及びネットワーク１０５０に通信可能に（例えばＩ／Ｏインターフェース１０２５を介して）接続されることができ、これにより、同じ構成のあるいは他の構成の１つ又は複数の演算装置を含む任意の数のネットワーク化された構成要素や装置やシステムに対しての通信することができる。コンピュータ装置１００５、あるいは接続された任意の演算装置は、サーバ、クライアント、シンサーバ（thin server）、汎用機、特定用途の機械、又は他のラベルとして機能するか、参照されることができる。例えば、これに限定されないが、ネットワーク１０５０は、ブロックチェーンネットワーク及びクラウドの少なくとも一つを含んでもよい。

Ｉ／Ｏインターフェース１０２５は、これらに限定されないが、演算環境１０００内の少なくともすべての接続された構成要素、装置、ネットワークに対して、及びこれらからの情報通信のために、任意の通信又はＩ／Ｏプロトコルあるいは規格（例えば、イーサネット（登録商標）、８０２．１１ｘｓ、ユニバーサルシステムバス、ＷｉＭＡＸ、モデム、携帯電話ネットワークプロトコル等）を使用した、無線及び有線の少なくとも一方であるインターフェースを含むことができる。ネットワーク１０５０は、任意のネットワーク又はそれらの組合せであってよい（例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、携帯電話ネットワーク、人工衛星ネットワーク等）。

コンピュータ装置１００５は、一過性及び持続性の媒体を含むコンピュータ使用可能又はコンピュータ可読の媒体を使用するか、あるいは、これ使用して通信を行うことができる。一過性の媒体は、伝送媒体（例えば、金属ケーブル、光ファイバ）、信号、搬送波等を含む。持続性の媒体は、磁性媒体（例えば、ディスク、テープ）、光媒体（例えば、ＣＤ－ＲＯＭ、デジタルビデオディスク、ブルーレイディスク）、固体素子媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体素子記憶装置）、及び、他の不揮発性の記憶装置又はメモリを含む。

コンピュータ装置１００５を使用することにより、いくつかの例示的な演算環境内における技術や方法や応用やプロセスやコンピュータ実行可能な命令を実施することができる。コンピュータ実行可能な命令は、一過性の媒体から取得され、持続性媒体に格納して持続性媒体から取得されることができる。コンピュータ実行可能な命令は、１つ又は複数の任意のプログラムやスクリプトや機械言語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ビジュアルベーシック（登録商標）、Ｐｙｔｈｏｎ、Ｐｅｒｌ、ＪａｖａＳｃｒｉｐｔ（登録商標）、等）から生じさせることができる。

１つ又は複数のプロセッサ１０１０は、ネイティブ又は仮想環境下において、任意のオペレーティングシステム（ＯＳ）（図示せず）のもとで実行することができる。論理ユニット１０５５、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット１０６０、入力ユニット１０６５、出力ユニット１０７０、非テキスト入力ユニット１０７５、非テキスト出力ユニット１０８０、エンコーダ／デコーダ及び媒体交差的ニューラルネットワークユニット１０８５、及び、様々なユニットが互いに、あるいはＯＳに対して、あるいは他のアプリケーション（図示せず）に対して通信するためのユニット相互通信機構１０９５、を含む、１つ又は複数のアプリケーションを配置することができる。

例えば、非テキスト入力ユニット１０７５、非テキスト出力ユニット１０８０、及びエンコーダ／デコーダ及び媒体交差的ニューラルネットワークユニット１０８５は、上述した構造に対して、上述した１つ又は複数のプロセスを実施することができる。説明したユニット及び構成要素は、設計、機能、構成、又は実施に関して変更することができるとともに、提供された説明に限定されるものではない。

いくつかの例示的な実施形態においては、情報あるいは実行命令がＡＰＩユニット１０６０によって受信されると、１つ又は複数の他のユニット（例えば、論理ユニット１０５５、入力ユニット１０６５、非テキスト入力ユニット１０７５、非テキスト出力ユニット１０８０、及び、エンコーダ／デコーダ及び媒体交差的ニューラルネットワークユニット１０８５）に伝達され得る。

例えば、非テキスト入力ユニット１０７５は、画像及び音声などの入力を受信して処理することができ、エンコーダ／デコーダ及び媒体交差的ニューラルネットワークユニット１０８５による処理を介して（例えば、上記の特に図２及び図５を参照して説明した態様を使用して）、非テキスト出力ユニット１０８０において画像出力あるいは音声出力を生成することができる。

いくつかの例においては、論理ユニット１０５５は、ユニット間の情報フローを制御し、上述したいくつかの例示的な実施形態においては、ＡＰＩユニット１０６０、入力ユニット１０６５、非テキスト入力ユニット１０７５、非テキスト出力ユニット１０８０、及び、エンコーダ／デコーダ及び媒体交差的ニューラルネットワークユニット１０８５によって提供されるサービスを管理するように構成してもよい。例えば、１つ又は複数のプロセス又は実施のフローは、論理ユニット１０５５のみによって、あるいは、論理ユニット１０５５とＡＰＩユニット１０６０との協働によって制御されてもよい。

図１１は、いくつかの例示的な実施形態に適した例示的な環境を示している。環境１１００は、装置１１０５～１１４５を含んでいる。これら装置の各々は、例えばネットワーク１１６０（例えば、有線接続又は無線接続）を介して、少なくとも１つの他の装置に対して通信可能に接続されている。いくつかの装置は、１つ又は複数の記憶装置１１３０、１１４５に対して通信可能に接続されてもよい。

１つ又は複数の装置１１０５～１１４５の例はそれぞれ、図１０において説明したコンピュータ装置１００５であってよい。装置１１０５～１１４５は、これらに限定されないが、モニタ及びウェブカメラを有する上述のコンピュータ１１０５（例えば、ラップトップ型のコンピュータ装置）、携帯デバイス１１１０（例えば、スマートフォンあるいはタブレット）、テレビ１１１５、車両に関連した装置１１２０、サーバコンピュータ１１２５、コンピュータ装置１１３５～１１４０、記憶装置１１３０、１１４５、を含むことができる。

いくつかの実施形態においては、装置１１０５～１１２０は、企業のユーザに関連したユーザ装置と見なすことができる。装置１１２５～１１４５は、サービスプロバイダに関連した装置（例えば、様々な図面を参照して上述したサービスを提供するために、及び、ウェブページ、テキスト、テキストセグメント、画像、画像セグメント、音声、音声セグメント、映像、映像セグメント、及び、それらに関する情報のうちの少なくとも一つのデータを格納するために、外部ホストによって使用されている装置）であってもよい。

図１２は、ロボットへの適用に関連する例示的な実施形態を示している。より具体的には、１２００にロボットが示されている。このロボットは、直接的接続又は無線通信により接続され、ロボットに対しての入力を提供するセンサ１２０１を含んでもよい。１つ又は複数のモダリティの各々に関連する複数のセンサを設けてもよい。実行可能なコンピュータ命令などの、この例示的な実施形態に関連した命令情報と、センサ１２０１から受信したデータと、を含む記憶装置１２０３が設けられている。マイクロプロセッサあるいはＣＰＵなどのプロセッサ１２０５が設けられ、このプロセッサ１２０５は、ロボットから遠隔又はロボット内に配置される記憶装置１２０３から命令及びデータを受信する。センサ１２０１もまた、遠隔から又はロボット内から、プロセッサ１２０５に対して直接的にデータを提供し得ることに注意されたい。

プロセッサ１２０５は、上記の例示的な実施形態において説明した様々な操作を実行し、出力コマンド及び出力データを生成する。出力コマンド及び出力データは、例えば、１つ又は複数のモダリティで情報を出力するプレーヤ１２０７に対して提供されてもよく、動作を実行するモータなどの装置１２０９に対して提供されてもよい。図１２の図示は、ネットワークを介しての通信を示しているが、図示されている構成要素間は、本発明の範囲を逸脱することなく、例えばロボット１２００の内部回路を使用した接続のように、互いに直接的に接続されてもよい。

上記の例示的な実施形態は、従来技術と比較して、様々な利点及び効果を有することができる。例えば、これに限定されないが、機械学習に対する関連技術のアプローチは、単一のモダリティ内における形式の転送を探求するものであり、感覚媒体を交差した関連付けに関しては、傍流としてテキストラベルを使用するに過ぎなかった。例示的な実施形態は、進歩という利点を有しているとともに、カメラ及びマイクロホンなどのＩＯＴタイプのセンサの進歩を活用し幅広く適用することで、テキストラベルを必要とすることなく、視聴覚という感覚データを関連付けするための新規な手法を提供することができる。

さらに、関連技術においては、スピーチをテキストへと変換するアプローチ、及びテキストを使用して画像を検索するアプローチがある。しかしながら、スピーチをテキストへと変換するには、予め定められたスピーチ認識エンジンが必要とされるが、上記の例示的な実施形態においては、機械学習に際して事前準備されたスピーチエンジンは不要である。事前準備されたスピーチエンジンを必要とする関連技術のアプローチは、また、感覚データから直接的に機械学習を実行することにも困難性を引き起こす。

加えて、画像及びスピーチに関して共通の潜在空間を使用する関連技術のアプローチとは対照的に、例示的な実施形態は、２つの埋め込みの間の対応付けを使用することに関するものである。より具体的には、関連技術のように共通の潜在空間を使用する場合、システムは単一の共有された潜在空間を、それぞれ個別の潜在空間へと置き換える必要があるため、多様体次元を実質的に増大させてしまい、さらに、２つの別個の空間を互いに近接させるために目的関数を導入させてしまう。この関連技術のアプローチはまた、異なるモダリティ間の干渉を引き起こし得る。本発明による例示的な実施形態を使用することにより、各モダリティの非連結状態での学習に関する学習構造を含み、非線形のモダリティリンクを別個に生成するので、例示的な実施形態において２つのモダリティ間の非線形関係の学習を続ける間、関連技術におけるモダリティ間の干渉に関連する問題点及び欠点が回避される。

加えて、例示的な実施形態は、テキストなどの１つのモダリティからのみのデータを含む関連技術のアプローチと比較して、画像及び音声などの異なる２つのモダリティの間のブリッジングを構築する点において相違している。よって、例示的な実施形態は、関連技術の手法では解決することができなかった、２つのモダリティ間に非対称な次元及び構造を有するデータに対して対処することができる。さらに、ニューラルネットワークアプローチに代えて参照表（ルックアップテーブル）を使用することは、関連技術における参照表と比較して選択肢とはならない。なぜなら、上述したＣＮＮベースのオートエンコーダを使用した例示的な実施形態と同様の機能を参照表により得ることは、参照表に関する空間的及び記憶装置の制限のために、即ち、試みたとしてもメモリ空間が不足してしまうために達成できないからである。

いくつかの例示的な実施形態が図示され説明されたが、これらの例示的な実施形態は、本明細書に記載される主題をこの技術分野に精通した人々に伝達するために提供される。本明細書に記載された主題は、記載された例示的な実施形態に限定されることなく、様々な態様でもって実施され得ることが理解されよう。本明細書に記載された主題は、詳細に定義されたあるいは説明された態様を用いることなく、また、他の構成要素や異なる構成要素を使用して、また、説明されていない態様でもって、実施することができる。当業者であれば、添付の特許請求の範囲及びその均等物において規定された本明細書に記載された主題から逸脱することなく、これらの例示的な実施形態に対して変更を行い得ることが理解されるだろう。

Claims

感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法であって、
第１タイプの非テキスト入力と第２タイプの非テキスト入力とを受信し、
第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して前記第１タイプの非テキスト入力を符号化して復号するとともに、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して前記第２タイプの非テキスト入力を符号化して復号し、
第１モダリティに関連した第１オートエンコーダ表現と第２モダリティに関連した第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第１オートエンコーダ表現と前記第２オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第１タイプの非テキスト入力あるいは前記第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、前記第１モダリティ及び前記第２モダリティのいずれか一方において生成すること、
を含む、コンピュータによって実施される方法。
前記第１タイプの非テキスト入力が音声であり、前記第２タイプの非テキスト入力が画像である、請求項１に記載のコンピュータによって実施される方法。
前記音声はマイクロホンによって検出され、前記画像はカメラによって検出される、請求項２に記載のコンピュータによって実施される方法。
前記第１タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの１つであり、
前記第２タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の１つである、請求項１に記載のコンピュータによって実施される方法。
前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力が、訓練のために自律的なロボットに対して提供される、請求項１に記載のコンピュータによって実施される方法。
テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項１に記載のコンピュータによって実施される方法。
第３タイプの非テキスト入力を受信し、
第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、前記第３タイプの非テキスト入力を符号化し、
前記第３オートエンコーダが、第３モダリティに関連した第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第１オートエンコーダ及び前記第２オートエンコーダに対してブリッジングされ、
前記第１オートエンコーダ、前記第２オートエンコーダ、前記第１畳み込みニューラルネットワーク、及び前記第２畳み込みニューラルネットワークの再訓練を必要とすることなく、第３タイプの非テキスト出力を生成する
ことをさらに含む、請求項１に記載のコンピュータによって実施される方法。
第１タイプの非テキスト入力と第２タイプの非テキスト入力とを受信し、
第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して前記第１タイプの非テキスト入力を符号化して復号するとともに、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して前記第２タイプの非テキスト入力を符号化して復号し、
第１モダリティに関連した第１オートエンコーダ表現と第２モダリティに関連した第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第１オートエンコーダ表現と前記第２オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第１タイプの非テキスト入力あるいは前記第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、前記第１モダリティ及び前記第２モダリティのいずれか一方において生成すること、
を含む方法をコンピュータに実行させる、プログラム。
前記第１タイプの非テキスト入力は音声であり、前記第２タイプの非テキスト入力は画像である、請求項８に記載のプログラム。
前記音声はマイクロホンによって検出され、前記画像は、カメラによって検出される、請求項９に記載のプログラム。
前記第１タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの１つであり、
前記第２タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の１つである、請求項８にプログラム。
前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項８に記載のプログラム。
テキストラベルが使用とされず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項８に記載のプログラム。
前記方法が、
第３タイプの非テキスト入力を受信し、
第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、前記第３タイプの非テキスト入力を符号化し、
前記第３オートエンコーダが、第３モダリティに関連した第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第１オートエンコーダ及び前記第２オートエンコーダに対してブリッジングされ、
前記第１オートエンコーダ、前記第２オートエンコーダ、前記第１畳み込みニューラルネットワーク、及び前記第２畳み込みニューラルネットワークの再訓練を必要とすることなく、第３タイプの非テキスト出力を生成する
ことをさらに含む、請求項８に記載のプログラム。
感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムであって、
第１タイプの非テキスト入力を受信する第１タイプのセンサ、及び、第２タイプの非テキスト入力を受信する第２タイプのセンサと、
前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力を受信し、第１畳み込みニューラルネットワークを有する第１オートエンコーダを使用して前記第１タイプの非テキスト入力を符号化して復号し、第２畳み込みニューラルネットワークを有する第２オートエンコーダを使用して前記第２タイプの非テキスト入力を符号化して復号し、第１モダリティに関連した第１オートエンコーダ表現と第２モダリティに関連した第２オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第１オートエンコーダ表現と前記第２オートエンコーダ表現とのブリッジングを行う、プロセッサと、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第１タイプの非テキスト入力あるいは前記第２タイプの非テキスト入力に基づいた、第１タイプの非テキスト出力及び第２タイプの非テキスト出力を、前記第１モダリティ及び前記第２モダリティのいずれか一方において生成する出力装置と、
を含む、コンピュータによって実施されるシステム。
前記第１タイプのセンサはマイクロホンであり、前記第２タイプのセンサはカメラである、請求項１５に記載のコンピュータによって実施されるシステム。
前記第１タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの１つであり、
前記第２タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の１つである、請求項１５に記載のコンピュータによって実施されるシステム。
前記第１タイプの非テキスト入力及び前記第２タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項１５に記載のコンピュータによって実施されるシステム。
テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項１５に記載のコンピュータによって実施されるシステム。
前記プロセッサがさらに、
第３タイプの非テキスト入力を受信し、
第３畳み込みニューラルネットワークを有する第３オートエンコーダを使用して、前記第３タイプの非テキスト入力を符号化し、
前記第３オートエンコーダが、第３モダリティに関連した第３タイプの表現と、第１タイプの表現及び第２タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第１オートエンコーダ及び前記第２オートエンコーダに対してブリッジングされ、
前記第１オートエンコーダ、前記第２オートエンコーダ、前記第１畳み込みニューラルネットワーク、及び前記第２畳み込みニューラルネットワークの再訓練を必要とすることなく、第３タイプの非テキスト出力を生成する、
請求項１５に記載のコンピュータによって実施されるシステム。