JP7439564B2 - 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 - Google Patents

非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 Download PDF

Info

Publication number
JP7439564B2
JP7439564B2 JP2020031669A JP2020031669A JP7439564B2 JP 7439564 B2 JP7439564 B2 JP 7439564B2 JP 2020031669 A JP2020031669 A JP 2020031669A JP 2020031669 A JP2020031669 A JP 2020031669A JP 7439564 B2 JP7439564 B2 JP 7439564B2
Authority
JP
Japan
Prior art keywords
type
autoencoder
input
text
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020031669A
Other languages
English (en)
Other versions
JP2020149680A (ja
Inventor
リュウ チョン
レイ ユアン
ハオ フー
ヤンシャ ザング
インイン チェン
チェン フランシーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2020149680A publication Critical patent/JP2020149680A/ja
Application granted granted Critical
Publication of JP7439564B2 publication Critical patent/JP7439564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

例示的な実施形態の態様は、非テキスト入力による感覚媒体(例えば、音声及び画像の少なくとも一方)間の関連付けを学習することに関連した方法、プログラム、システム、及びユーザ経験に関する。
関連技術の深層学習技法においては、テキストラベルが付された大量のデータを必要とする。テキストラベルデータは、モデルを訓練するためにラベル付け実行者によって生成される。関連技術においては、テキストラベル付けを実行するためのコストが、現実世界の多くの状況下において、深層学習技法の使用を制限している。
例えば、数百万個の画像ラベルを使用してカスタマイズされた製品画像データセットを生成する関連技術の深層学習技法を使用することは、時には、そのような作業を実行できないほどに単調でコスト高である。さらに、関連技術の深層学習技法において必要とされているように、適切なテキストラベルを有した映像のために、画像の詳細な説明を生成することもまた、ラベル付け実行者が記録の確認及び入力などの作業のために膨大な時間とリソースを費やすという点において、多大なコストを必要とすることとなる。
したがって、関連技術の深層学習技法においては、テキストラベル付けに関連した関連技術におけるコストや欠点を受けることなく、リアルタイムでデータを収集し、データセットを生成するという、未解決の要望が存在している。
米国特許第5097326号明細書
"See What I Mean - a speech to image communication tool" Vimeo video: https://vimeo.com/75581546; 2014年公開, 2019年3月14日検索 TORFI, A. "Lip Reading - Cross Audio-Visual Recognition using 3D Convolutional Neural Networks - Official Project Page" GitHub; https://github.com/astorfi/lip-reading-deepleaning; 2019年3月14日検索 CHAUDHURY, S. et al., "Conditional generation of multi-modal data using constrained embedding space mapping" ICML 2017 Workshop on Implicit Models; 2017年 VUKOTIC, V. et al. "Bidirectional Joint Representation Learning with Symmetrical Deep Neural Networks for Multimodal and Crossmodal Applications" ICMR, 2016年6月, 米国ニューヨーク KIROS, R. "neural-storyteller" GitHub; https://github.com/ryankiros/neural-storyteller, 2019年3月14日検索 SHEN, T. et al. "Style Transfer from Non-Parallel Text by Cross-Alignment" 31st Conference on Neural Information Processing Systems (NIPS 2017), 12 pages; 米国カリフォルニア州ロングビーチ VAN DEN OORD, A. et al. "WaveNet: A Generative Model for Raw Audio" 2016年9月19日 "Microsoft Azure Speaker Verification" https://azure.microsoft.com/en-us/services/cognitive-services/speaker-recognition/; 2019年3月14日検索 "Speaker Recognition API" https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home; 2019年3月14日検索
本発明は、非テキスト入力による感覚媒体(例えば、音声、画像等)間の関連付けを学習することができるシステム、プログラム、及び方法を提供することを課題とする。
例示的な実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法は、第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して第1タイプの非テキスト入力を符号化及び復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して第2タイプの非テキスト入力を符号化及び復号し、第1モダリティ(様式)に関連する第1オートエンコーダ表現と第2モダリティ(様相)に関連する第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、第1オートエンコーダ表現と第2オートエンコーダ表現とのブリッジング(橋渡し)を行い、符号化と復号とブリッジングとに基づき、第1タイプの非テキスト入力又は第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、第1モダリティと第2モダリティとのいずれか一方において生成すること、を含む。
さらなる態様によれば、第1タイプの非テキスト入力は音声であり、第2タイプの非テキスト入力は画像である。他の態様によれば、音声はマイクロホンによって検出され、画像はカメラによって検出される。
さらに他の態様によれば、第1タイプの非テキスト入力は、音声と、画像と、温度と、接触と、放射と、のうちの1つであり、第2タイプの非テキスト入力は、音声、画像、温度、接触、放射線、のうちの他の1つであり。
さらに他の態様によれば、第1タイプの非テキスト入力及び第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される。
追加的な態様によれば、テキストラベルは使用されず、受信と符号化と復号とブリッジングと生成とは、言語非依存である。
さらに他の態様によれば、第3タイプの非テキスト入力が受信され、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、第3タイプの非テキスト入力が符号化され、第3オートエンコーダは、第3モダリティに関連する第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する深層ニューラルネットワークによって、第1オートエンコーダ及び第2オートエンコーダに対してブリッジングされ、第1オートエンコーダと第2オートエンコーダと第1畳み込みニューラルネットワークと第2畳み込みニューラルネットワークとの再訓練を必要とすることなく、第3タイプの非テキスト出力が生成される。
例示的な別の実施形態によれば、プログラムが提供され、当該プログラムは、第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、を含む方法をコンピュータに実行させる。
前記第1タイプの非テキスト入力は音声であってよく、前記第2タイプの非テキスト入力は画像であってもよい。
前記音声はマイクロホンによって検出されてもよく、前記画像は、カメラによって検出されてもよい。
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであってよく、前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つであってよい。
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供されてもよい。
テキストラベルが使用とされず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってもよい。
前記方法は、第3タイプの非テキスト入力を受信し、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含んでもよい。
例示的なまた別の実施形態によれば、感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムが提供され、当該システムは、第1タイプの非テキスト入力を受信する第1タイプのセンサ、及び、第2タイプの非テキスト入力を受信する第2タイプのセンサと、前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力を受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号し、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行う、プロセッサと、前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成する出力装置と、を含む。
前記第1タイプのセンサはマイクロホンであってよく、前記第2タイプのセンサはカメラであってよい。
前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであってよく、前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つであってよい。
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供されてもよい。
テキストラベルが使用されず、前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存であってよい。
前記プロセッサがさらに、第3タイプの非テキスト入力を受信し、第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成してもよい。
特許又は出願書類には、少なくとも1つのカラー図面が含まれている。カラー図面を含む本特許又は特許出願の公報の写しは、請求及び必要な手数料の支払いにより特許庁より提供される。
システム及び方法の例示的な実施形態を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態に関連した結果を示す。 例示的な実施形態による例示的なプロセスを示す。 いくつかの例示的な実施形態における使用に適した例示的なコンピュータ装置を備えた例示的な演算環境を示す。 いくつかの例示的な実施形態に適した例示的な環境を示す。 ロボットへの適用に関連した例示的な実施形態を示す。
以下の詳細な説明は、本出願の図面及び例示的な実施形態に関するさらなる詳細を提供する。図面にわたって重複する構成要素に関する参照符号及び説明は、簡略化のために省略されている。明細書全体にわたって使用されている用語は、例として提供されているものであって、限定を意図したものではない。
関連技術においては、非テキスト入力による感覚媒体の機械学習のための深層学習技法操作を可能とするツールが必要とされているという、未解決の要望が存在している。上述したように、関連技術のアプローチは、テキストラベルデータを得るためにコストを含み、このことが、データを要求する多数の機械学習作業にとっての障害となる。他方、人間は、テキストラベルがなくても、媒体間の関連付けを学習することができる(例えば、子供は、一般的に知られた数字を知らなくても、対象物に名前を付ける方法を学習することができる、あるいは、被験者は、英数字の観点から、その人が知らない言語で対象物に名前を付ける方法を学習することができる)。
例示的な実施形態の態様は、スピーチ(音声)と視覚とのモダリティ交差的な(cross-modality)関連付けに関するものである。関連技術のアプローチは、スピーチと視覚データとを連結するためのブリッジ(橋渡し)としてテキストを使用し得るが、例示的な実施形態は、キーボードを使用しないなどの非テキスト的な態様で、感覚媒体を使用した機械学習に関するものである。
キーボードによるラベル付けなどのテキストを除去することにより、様々な効果及び利点を奏することができる。例えば、これに限定されないが、機械学習技法を、より自然な態様で人の振る舞いをより正確に真似た態様で行うことができるとともに、予定やコストなどのキーボードによるラベル付けにおける関連技術の制限によって、制限を受けることがない。その結果、機械学習作業にとっての不十分な訓練データという関連技術の問題点も、軽減することができる。その上、訓練データの新たな領域を利用可能なものとすることができる。
さらに、例示的な実施形態によれば、テキストラベル付け及びこれによる複雑さに関連するコストが不要であることにより、通常の利用者がより容易に、関連技術のシステムにおいては現在利用できない方法でシステムを訓練することができる。例えば、これに限定されないが、例示的な実施形態は、視力又は聴力に障がいがある個人への支援に有益であり、視覚障がい者に対しては、視覚的な入力を音声出力として提供し得るとともに、聴覚障がい者に対しては、音声入力を視覚的な出力として提供することができる。
例示的な実施形態によれば、複数の深層畳み込みオートエンコーダが設けられる。より具体的には、一つの深層畳み込みオートエンコーダが、第1非テキスト領域(例えば、スピーチ表現の学習)のために設けられ、他の深層畳み込みオートエンコーダは、第2非テキスト領域(例えば、画像表現の学習)のために設けられる。これらにより、隠れた特性を抽出することができる。これらオートエンコーダの潜在空間は、スピーチ及び画像のそれぞれコンパクトな埋め込みを示す。これにより、2つのオートエンコーダの潜在空間同士がブリッジングされるように2つの深層ネットワークが訓練され、スピーチ対画像と画像対スピーチとの双方に関して、強固な対応付け(マッピング)が生成される。従って、音声を、ユーザが視覚化し得る画像へと変換することができる。このような対応付けにより、画像入力は、対応するスピーチ出力を生成(activate)することができる、あるいは逆に、スピーチ入力は、対応する画像出力を生成(activate)することができる。
本発明の概念に関連した例示的な実施形態は、様々な状況下で使用することができる。例えば、これに限定されないが、システムは、障がいを有する個人を支援するために使用することができる。さらに、大量の低コスト訓練データを利用可能として、自律的なロボットの訓練を実行し、機械学習アルゴリズム及びシステムを生成することができる。さらに、機械学習システムは、コストや予定などのテキストラベルに関連した関連技術の問題点及び欠点によって制限されることなく、使用することができる。
本例示的な実施形態においては、機械には、カメラ及びマイクロホンなどのセンサを設けられてもよく、センサは、人が同じ情報を感知する方法と同様に、連続的な態様で、リアルタイムデータを収集することができる。温度検出に関連した温度計、接触を検出するためのものであって圧力マップの作製に関連した感圧アレイ、放射センサ、あるいは、検出されるパラメータ情報に関連した他のセンサなどの、他のセンサを設けてもよい。収集されたリアルタイムデータは、この例示的な実施形態におけるエンコーダ/デコーダ構造によって使用される。例えば、検出装置は、通常の日常活動から、また、既存の映像から、使用可能なデータを得てもよい。関連技術のアプローチの場合のようにテキストラベル付け実行者がそのようなデータにラベルを付けるという関連技術の制限が無いことにより、例示的な実施形態は、環境の情報を連続的に検出して観測し得るとともに、その環境から学習を行うことができる。
図1は、構造100の例示的な実施形態を示している。より具体的には、マイクロホンやカメラなどの装置から受信できる情報である、音声入力101及び画像入力103が提供されている。例示的な実施形態は、音声表現及び画像表現を学習するために、音声モジュール及び画像モジュールの各々に関して使用される、エンコーダ/デコーダ構造を含む。符号化プロセス109を通して、音声出力105が生成され、また、符号化プロセス111を通して、画像出力107が生成される。音声モジュールは、訓練用の入力及び出力として音声信号を使用しているので、深層ネットワークを訓練するためにテキストラベルは不要である。同様に、画像モジュールは、ネットワークの入力及び出力として画像を使用しているので、同様にテキストラベルは不要である。
エンコーダ及びデコーダからなる各対の間の表現とともに、1つのニューラルネットワークが音声表現113を画像表現115に対応付けるために使用され、別のニューラルネットワークが、画像表現119を音声表現117に対応付けるために使用される。上記の構成を有してパラメータを学習するこの例示的な実施形態によれば、音声入力が、音声出力と同様に画像出力も生成することができる。逆に、画像入力は、画像出力と同様に音声出力も生成することができる。
より具体的には、例示的な実施形態によれば、各々のモダリティ(様相)(図1においては2つのモダリティが図示されているが、例示的な実施形態は、2つのモダリティに限定されるものではなく、本明細書において説明するように、追加的なモダリティを提供してもよい)について、オートエンコーダは、この例ではそれぞれ音声及び映像モダリティである入力101及び103を受信するエンコーダ部分121、123を含んでいる。エンコーダ部分121、123の複数の層が入力情報に対して適用された後に、第1モダリティの表現が125で示すようにして生成され、第2モダリティの表現が127で示すようにして生成される。
第1モダリティの表現125及び第2モダリティの表現127は、その後、深層ニューラルネットワークに対して提供され、第1モダリティ表現113から第2モダリティ表現115への対応付け、あるいは第2モダリティ表現119から第1モダリティ表現117への対応付けなどの、モダリティ交差的ブリッジングが実行される。表現の送出及び受信は、表現125、127から延びる破線によって示されている。
さらに、デコーダ部分129、131が設けられており、これにより、上述したモダリティ交差的ブリッジングの結果を含む第1モダリティ表現125及び第2モダリティ表現127を復号することができる。デコーダ部分129、131の複数の層が、第1モダリティ表現125及び第2モダリティ表現127に対して適用されると、それぞれ出力105、107が生成される。
上記の例示的な実施形態は、異なる入力-出力の組合せに対して使用することができる。例えば、これに限定されないが、上記の構造が音声入力と学習した音声出力との間のペアリングに関する情報を有していない場合には、例示的な実施形態は、入力信号を、音声モジュールの入力及び出力の双方に対して供給してもよく、オートエンコーダによる学習手順を使用して表現を学習してもよい。音声入力と既存の音声出力との間のペアリング情報が既知である場合には、例示的な実施形態は、オートエンコーダによって、音声入力と既存の音声出力とを関連付けるために学習してもよい。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は、訓練のために、双方の出力と音声入力とを使用してもよい。逆に、例示的な実施形態を使用したものと同様のアプローチを、同様の方法で、画像モジュールの訓練のために適用することもできる。
例示的な実施形態は、画像クリップと音声クリップとの間の関係性を学習する。より具体的には、音声クリップと画像クリップとの間のペアリング情報は、例示的な実施形態に関連したシステムに対して提示される。例示的な実施形態によるペアリングは、ある人が他の人に対して対象物の名付け教示する際のペアリングと類似している。従って、例示的な実施形態は、より自然な学習アプローチを有した機械学習を提供する。図1に示すネットワーク内の対応するパラメータは、機械に対する教師によって提供されたペアリング情報を使用して訓練される。
より具体的には、ある例示的な実施形態によれば、画像学習モジュール及び音声学習モジュールの双方に関して、敵対的畳み込みオートエンコーダが使用され、これにより、低レベル特性の演算コストが節約されるとともに、訓練パラメータの数を低減させるために、音声入力は2次元のMFCC表現へと変換されて、畳み込みオートエンコーダへと供給される。この変換は、画像学習モジュールに非常に類似した音声学習モジュールをもたらす。オートエンコーダは、エンコーダ及びデコーダのそれぞれについて7つの層を含んでいる。しかしながら、本発明の例示的な実施形態はこれに限定されるものではなく、本発明の範囲を逸脱することなく、7つの層を他の層数に置き換えてもよい。
例示的な実施形態によれば、3×3の畳み込みフィルタが使用され、各畳み込み層でデータが処理される。オートエンコーダは入力の忠実性を失うことなく音声入力を圧縮する。一例によれば、音声入力は、16,384のサンプルを有してもよく、オートエンコーダの中間層は、232の次元を有してもよい。入力のこの32次元の表現を使用して、例示的な実施形態はデコーダによって、可聴歪みを発生させることなく、同様の音声を再構成することができる。
画像に関しては、28×28の手書き画像が、784次元のベクトルへと再成形されて、画像オートエンコーダへと供給される。画像オートエンコーダは、5つの完全に連結された層を有しており、入力を32次元の画像表現へと低減することができる。32次元の画像表現を使用することにより、訓練済みのデコーダによって入力画像を再構成することができる。
図2は、スペクトログラム及び画像200を示しており、これらは、隠れノードが使用されている場合には、潜在空間内のグリッド上に位置する様々な隠れノード値に対応している。これらの図はデータクラスタリング及び潜在空間を示している。201においては、音声学習モジュールの出力が、様々な隠れノード値に対応したスペクトログラムの形態で提供されている。203においては、画像学習モジュールの出力画像が、様々な隠れノード値に対応するものとして、提供されている。情報の損失及び出力上における大きな歪みを引き起こし得るものの、2つのノードの潜在空間が可視化のために提供されている。そのような欠点及び問題点を回避するために、また、音声エンコーダからの出力の歪みを小さなものに抑えるために、例示的な実施形態は、音声学習モジュール及び画像学習モジュールの双方に関して32ビットノードを使用している。
32ノードの音声表現層と32ノードの画像表現層との間の対応付けを学習するために、各層あたりに512ノードを有する5層の完全に連結された2つのネットワークが使用され、音声から画像への対応付け、及び、画像から音声への対応付けをそれぞれ学習することができる。
上記の例示的な実施形態は、以下の例示的な例において、データに対して適用された。60,000個の訓練用画像と10,000個のテスト画像とを有するMNIST手書きデジタルデータセットと、3人の話者と1500個の録音(1人の話者あたりにつき、各数字に50個)とを有するFSDD(free spoken dataset)からの英語で話されたデジタルデータセットとが、ネットワークパラメータをチューニングするための訓練データとして使用された。
図3は、音声入力スペクトログラム301、307と、対応する音声学習モジュールスペクトログラム出力303、309と、音声入力を使用して画像デコーダによって得られた対応する出力画像305、311と、の例300を示している。異なる話者からの音声を学習システムに対して供給すると、画像出力は、数字出力においてわずかの変動を有している。
図4の400に示すように、典型的な手書き画像、及び、スピーチによって生成された画像は、ここで示すように、それぞれ画像入力401及び画像出力403として提供され、出力画像は入力画像と比較して、より認識可能なものとすることができる。このことは、図4に示す数字6、7、8に関して特に明らかである。
加えて、512ノードの潜在空間オートエンコーダは、画像から音声への対応付けを学習するために、敵対的なネットワークを使用して、画像対画像モジュール及び音声対音声モジュールの双方に関してテストされた。
図5の500に示すように、画像学習モジュールの入力501と、画像学習モジュールの出力503と、入力画像501によって生成された対応する音声スペクトログラム出力505と、が示されている。図5に示す画像は、画像対画像モジュールが、潜在空間の拡張により、入力画像に対してより類似した画像を出力できることを示している。
図6は、入力601とオートエンコーダ出力603とスピーチ出力605とを含むCOIL-100(Columbia Object Image Library)データセットの結果600を示している。このデータセットの画像は比較的大きいことから、入力画像を表現するために、畳み込みオートエンコーダを使用して512個の次元特性が抽出される。
さらに、Abstract Sceneのデータセットを使用して、10,000個の128×128画像についてスピーチ情報が生成された。上記の学習アーキテクチャを使用して、画像表現層及び音声表現層はそれぞれ、1024ノードへとスケールアップされた。同様に、音声対画像対応付けネットワーク及び画像対音声対応付けネットワークは、データの複雑さの増大に対処するために、512個から2048個へと増大された。
この例の結果が、図7の700に示されている。より具体的には、図7の第1列は、グラウンドトゥルース(地上検証データ)701を示しており、第2列は、音声により生成された画像703を示している。
図8は、画像を使用して生成された3つのスピーチセグメント801、803、805のMFCC(メル周波数ケプストラム係数)800を示している。立会人に画像によって生成されたスピーチセグメントを聞くよう求めることにより、スピーチセグメントが容易に理解可能なものであるかどうかに判断された。
訓練品質を向上させるために、例示的な実施形態は、トークンとしてIDを有するトレーナを使用してもよい。画像を示した後にスピーチを生成するというモードに関しては、トークンは、ランダムな話者でもよく、あるいは特定の話者であってもよい。他方、スピーチをした後に画像を生成するというモードに関しては、例示的な実施形態が1つ又は複数の以下のオプションに基づいて動作し得るよう、結果は話者に非依存であるべきである。
ある例示的な実施形態によれば、互いに別個のエンコーダ・デコーダモデルを、2つのケースについて訓練してもよい。言い換えれば、一方のエンコーダ・デコーダモデルは話者非依存、すなわち、スピーチ対画像に関するものとしてもよく、他方のエンコーダ・デコーダモデルはトークンを使用し、画像対スピーチに関するものとしてもよい。
他の例示的な実施形態によれば、トークンを使用し、すべての話者についてトークンセットIDを有する組合せモデルを使用してもよい。この組合せモデルは、各発話について2度訓練を行う。これに代えて、大量のデータが存在する場合には、発話は、話者トークン、あるいは、「全話者(everyone)」トークンのいずれかに対して、ランダムに割り当てられてもよい。
さらに他の例示的な実施形態によれば、話者IDを使用してもよい。しかしながら、この例示的な実施形態によれば、システムが注意を払う話者は、話者IDを有している話者に限定され得る。このアプローチは、ある種の状況においては、例えば、空港で職員が個人を写真と照合するよう試みるような状況において有用であり、方言センサ及び個人に関連する話者IDが存在する場合、より厳密で迅速な判断をすることができる。このアプローチを使用すれば、音声モジュールのクラスタ化を、より容易かつ明瞭な態様で行うことができる。
ここで説明した例示的な実施形態は、様々な実施及び応用されることができる。上述したように、例示的な実施形態の態様を使用することにより、身体障がいを有した人々、とりわけ、微細な運動スキルを要するキーボード又はマウスからのタイピングや情報入力を行うことがなく、視覚的な出力又は音声出力を提供できる人々を支援し得るシステムを構築することができる。さらに、例示的な実施形態はまた、人間と同様の方法で音声環境及び視覚的環境に関して学習する必要があり、それによってその環境内において安全にかつ効率的に実行し得る自律的なロボットの訓練などの分野においても有用であり得る。さらに、例示的な実施形態は、大量の低コスト訓練データを必要とする機械学習アルゴリズム及び/又はシステム、さらには、スケジュールやコストなどのテキストラベル付けに関する制限によって限定されることを意図していない機械学習システムを対象とすることができる。
ある例示的な実施形態によれば、聴力に障がいを有する人が周囲の人との会話の対象を判断することを支援したり、あるいは、視覚障がい者に対してスピーチを使用して環境の物理的な周囲状況を告げるために、言語非依存の装置を訓練することができる。
本発明の例示的な実施形態においては、テキストが使用されないことにより、訓練システムもまた言語非依存であり、国、文化、及び言語をまたがって使用することができる。例示的な実施形態が、共通のネットワークに対して接続された複数のセンサを含み得ることにより、同じ領域内で同じ言語を話すユーザ同士は、共通の方法でシステムを訓練し得る。
自律的なロボット訓練に関連する他の例示的な実施形態によれば、例示的なアプローチは共有された潜在空間、あるいは、機能制限された潜在空間において有利である。より具体的には、例示的な実施形態によれば、潜在空間間の結合を解除することにより、ユーザは、新たなモダリティが先に学習したモダリティに影響を及ぼすことなく、後から機械内により多くのモダリティを追加することができる。むしろ、例示的な実施形態によれば、新たなモダリティは自ら学習して、先のモダリティに対するより多くの結合を徐々に構築していく。
例えば、これに限定されないが、自律的なロボットは当初から、カメラなどの視覚的態様に関するセンサと、マイクロホンなどの音声的態様に関する他のセンサと、を有している。しかしながら、ユーザは、温度、接触、放射線、あるいは環境内で感じられ得る他のパラメータなどの他のモダリティに関する追加的なセンサを追加することを要望するかもしれない。そのような新たなモダリティは、従来技術ではなし得なかった手法でもって、既存のモダリティ(例えば、視覚及び音声モダリティ)に影響を及ぼすことなく、例示的な実施形態に対して追加されることができる。さらに、ロボットは、深海や宇宙空間などの人間の動作が困難な環境に関連する学習を可能としてもよい。
接触モダリティに関連するある例示的な実施形態によれば、ロボットに対して、瓶又はコップなどの対象物を把持する方法を教えてもよい。ロボットは、接触に関連する自身の訓練データに基づいて学習することにより、対象物をより小さな力で掴むかあるいはより大きな力で掴むかを判断することができる。テキストラベル付けという概念が存在しないことにより、ロボットは自身の出力を検出された入力として使用してもよく、あるいは予め準備された人間の訓練データから学習してもよい。
図9は、例示的な実施形態における例示的なプロセス900を示している。この例示的なプロセス900は、ここで説明するように、1つ又は複数の装置を使用して実行されてもよい。
901において、様々なタイプの非テキスト入力が、検出装置から受信される。例えば、これに限定されないが、音声入力が、あるタイプの非テキスト入力としてマイクロホンから受信されてもよく、画像入力が、他のタイプの非テキスト入力としてカメラから受信されてもよい。例示的な実施形態は、上記の2つのタイプの非テキスト入力に限定されるものではなく、温度、接触、放射線、映像、あるいは検出可能な他の入力などの他の非テキスト入力を、例示的な実施形態に含んでもよい。
903において、入力を受信した各タイプの非テキスト入力に対し、自動的な符号化及び復号が実行される。この自動的な符号化及び復号は、例えば畳み込みニューラルネットワークを使用して実行してもよい。これにより、マイクロホンから受信された音声入力を一つのオートエンコーダによって符号化することができ、カメラから受信された画像入力を他のオートエンコーダによって符号化することができる。それぞれのタイプの非テキスト入力表現の各々を学習する深層畳み込みオートエンコーダを使用することにより、出力を生成することができる。
905において、深層ネットワークを使用して、903において使用された2つの深層畳み込みオートエンコーダの潜在空間同士のブリッジングが行われる。より具体的には、第1モダリティ表現と第2モダリティ表現との間の対応付けを学習する深層ニューラルネットワークが使用され、第1タイプのオートエンコーダ表現と第2タイプのオートエンコーダ表現との間の潜在空間のブリッジングが行われる。例えば、これに限定されないが、深層ネットワークは、音声タイプの入力と画像タイプの出力との間において相互変換を行い得るように、あるいはその逆を行い得るように構成されている。音声出力と画像出力との双方が利用可能である場合には、例示的な実施形態は訓練のために、音声入力に対して音声出力及び画像出力の双方を使用することができる。同様のアプローチを、画像入力が利用可能である場合には画像入力に対して行うことができる。ペアリング情報が利用可能でない場合には、オートエンコーダの訓練は履歴データを使用して行うことができる。
907において、符号化、復号、及びブリッジングに基づき、第1モダリティ又は第2モダリティのいずれかである非テキスト入力に対して、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を含む適切な出力が、各タイプの非テキスト入力について生成される。例えば、音声学習モジュールの出力スペクトログラム、あるいは、様々な隠れノード値に対応した出力画像が、出力として提供されてもよい。入力及び出力の例は、上述の図面に図示されているとともに、例示的な実施形態に関する説明において記述されている。
図10は、いくつか例示的な実施形態における使用に適した例示的なコンピュータ装置1005を備えた例示的な演算環境1000を示している。演算環境1000内のコンピュータ装置1005は、1つ又は複数の処理ユニット、コア、又はプロセッサ1010、メモリ1015(例えば、RAM、ROM、等)、内部記憶装置1020(例えば、磁気記憶装置、光学記憶装置、固体素子記憶装置、及び有機記憶装置の少なくとも一つ)、及び、I/Oインターフェース1025の少なくとも一つを含むことができる。これらのうちの任意の構成要素は、情報通信のために通信機構すなわちバス1030上で接続されるか、コンピュータ装置1005内に埋め込まれることができる。
コンピュータ装置1005は、入力/インターフェース1035及び出力装置/インターフェース1040に通信可能に接続されることができる。入力/インターフェース1035及び出力装置/インターフェース1040のいずれか一方あるいは双方は、有線又は無線インターフェースであってよく、着脱可能であってもよい。入力/インターフェース1035は、入力を提供するために使用し得る任意の装置、構成要素、センサ、インターフェース、物理的又は仮想的なこれらのものを含むことができる(例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング/カーソルコントロール、マイクロホン、カメラ、点字、モーションセンサ、光学的読取器等)。
出力装置/インターフェース1040は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字、等を含むことができる。いくつかの例示的な実施形態においては、入力/インターフェース1035(例えば、ユーザインターフェース)及び出力装置/インターフェース1040は、コンピュータ装置1005に埋め込まれるか、物理的に接続されることができる。他の例示的な実施形態においては、他の演算装置が、コンピュータ装置1005のための入力/インターフェース1035及び出力装置/インターフェース1040として機能してもよく、あるいは、これらの機能を提供してもよい。
コンピュータ装置1005の例は、これらに限定されないが、高移動性装置(例えば、スマートフォン、車両又は他の機械内の装置、人及び動物等によって携行される装置)、携帯装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオ等)、及び、携帯用に構成されていない装置(例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、インフォメーションセンターの情報端末、内部に1つ又は複数のプロセッサが埋め込まれるか接続されたテレビ、ラジオ等)を含むことができる。
コンピュータ装置1005は、外部記憶装置1045及びネットワーク1050に通信可能に(例えばI/Oインターフェース1025を介して)接続されることができ、これにより、同じ構成のあるいは他の構成の1つ又は複数の演算装置を含む任意の数のネットワーク化された構成要素や装置やシステムに対しての通信することができる。コンピュータ装置1005、あるいは接続された任意の演算装置は、サーバ、クライアント、シンサーバ(thin server)、汎用機、特定用途の機械、又は他のラベルとして機能するか、参照されることができる。例えば、これに限定されないが、ネットワーク1050は、ブロックチェーンネットワーク及びクラウドの少なくとも一つを含んでもよい。
I/Oインターフェース1025は、これらに限定されないが、演算環境1000内の少なくともすべての接続された構成要素、装置、ネットワークに対して、及びこれらからの情報通信のために、任意の通信又はI/Oプロトコルあるいは規格(例えば、イーサネット(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、携帯電話ネットワークプロトコル等)を使用した、無線及び有線の少なくとも一方であるインターフェースを含むことができる。ネットワーク1050は、任意のネットワーク又はそれらの組合せであってよい(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、携帯電話ネットワーク、人工衛星ネットワーク等)。
コンピュータ装置1005は、一過性及び持続性の媒体を含むコンピュータ使用可能又はコンピュータ可読の媒体を使用するか、あるいは、これ使用して通信を行うことができる。一過性の媒体は、伝送媒体(例えば、金属ケーブル、光ファイバ)、信号、搬送波等を含む。持続性の媒体は、磁性媒体(例えば、ディスク、テープ)、光媒体(例えば、CD-ROM、デジタルビデオディスク、ブルーレイディスク)、固体素子媒体(例えば、RAM、ROM、フラッシュメモリ、固体素子記憶装置)、及び、他の不揮発性の記憶装置又はメモリを含む。
コンピュータ装置1005を使用することにより、いくつかの例示的な演算環境内における技術や方法や応用やプロセスやコンピュータ実行可能な命令を実施することができる。コンピュータ実行可能な命令は、一過性の媒体から取得され、持続性媒体に格納して持続性媒体から取得されることができる。コンピュータ実行可能な命令は、1つ又は複数の任意のプログラムやスクリプトや機械言語(例えば、C、C++、C#、Java(登録商標)、ビジュアルベーシック(登録商標)、Python、Perl、JavaScript(登録商標)、等)から生じさせることができる。
1つ又は複数のプロセッサ1010は、ネイティブ又は仮想環境下において、任意のオペレーティングシステム(OS)(図示せず)のもとで実行することができる。論理ユニット1055、アプリケーションプログラミングインターフェース(API)ユニット1060、入力ユニット1065、出力ユニット1070、非テキスト入力ユニット1075、非テキスト出力ユニット1080、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085、及び、様々なユニットが互いに、あるいはOSに対して、あるいは他のアプリケーション(図示せず)に対して通信するためのユニット相互通信機構1095、を含む、1つ又は複数のアプリケーションを配置することができる。
例えば、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及びエンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085は、上述した構造に対して、上述した1つ又は複数のプロセスを実施することができる。説明したユニット及び構成要素は、設計、機能、構成、又は実施に関して変更することができるとともに、提供された説明に限定されるものではない。
いくつかの例示的な実施形態においては、情報あるいは実行命令がAPIユニット1060によって受信されると、1つ又は複数の他のユニット(例えば、論理ユニット1055、入力ユニット1065、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及び、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085)に伝達され得る。
例えば、非テキスト入力ユニット1075は、画像及び音声などの入力を受信して処理することができ、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085による処理を介して(例えば、上記の特に図2及び図5を参照して説明した態様を使用して)、非テキスト出力ユニット1080において画像出力あるいは音声出力を生成することができる。
いくつかの例においては、論理ユニット1055は、ユニット間の情報フローを制御し、上述したいくつかの例示的な実施形態においては、APIユニット1060、入力ユニット1065、非テキスト入力ユニット1075、非テキスト出力ユニット1080、及び、エンコーダ/デコーダ及び媒体交差的ニューラルネットワークユニット1085によって提供されるサービスを管理するように構成してもよい。例えば、1つ又は複数のプロセス又は実施のフローは、論理ユニット1055のみによって、あるいは、論理ユニット1055とAPIユニット1060との協働によって制御されてもよい。
図11は、いくつかの例示的な実施形態に適した例示的な環境を示している。環境1100は、装置1105~1145を含んでいる。これら装置の各々は、例えばネットワーク1160(例えば、有線接続又は無線接続)を介して、少なくとも1つの他の装置に対して通信可能に接続されている。いくつかの装置は、1つ又は複数の記憶装置1130、1145に対して通信可能に接続されてもよい。
1つ又は複数の装置1105~1145の例はそれぞれ、図10において説明したコンピュータ装置1005であってよい。装置1105~1145は、これらに限定されないが、モニタ及びウェブカメラを有する上述のコンピュータ1105(例えば、ラップトップ型のコンピュータ装置)、携帯デバイス1110(例えば、スマートフォンあるいはタブレット)、テレビ1115、車両に関連した装置1120、サーバコンピュータ1125、コンピュータ装置1135~1140、記憶装置1130、1145、を含むことができる。
いくつかの実施形態においては、装置1105~1120は、企業のユーザに関連したユーザ装置と見なすことができる。装置1125~1145は、サービスプロバイダに関連した装置(例えば、様々な図面を参照して上述したサービスを提供するために、及び、ウェブページ、テキスト、テキストセグメント、画像、画像セグメント、音声、音声セグメント、映像、映像セグメント、及び、それらに関する情報のうちの少なくとも一つのデータを格納するために、外部ホストによって使用されている装置)であってもよい。
図12は、ロボットへの適用に関連する例示的な実施形態を示している。より具体的には、1200にロボットが示されている。このロボットは、直接的接続又は無線通信により接続され、ロボットに対しての入力を提供するセンサ1201を含んでもよい。1つ又は複数のモダリティの各々に関連する複数のセンサを設けてもよい。実行可能なコンピュータ命令などの、この例示的な実施形態に関連した命令情報と、センサ1201から受信したデータと、を含む記憶装置1203が設けられている。マイクロプロセッサあるいはCPUなどのプロセッサ1205が設けられ、このプロセッサ1205は、ロボットから遠隔又はロボット内に配置される記憶装置1203から命令及びデータを受信する。センサ1201もまた、遠隔から又はロボット内から、プロセッサ1205に対して直接的にデータを提供し得ることに注意されたい。
プロセッサ1205は、上記の例示的な実施形態において説明した様々な操作を実行し、出力コマンド及び出力データを生成する。出力コマンド及び出力データは、例えば、1つ又は複数のモダリティで情報を出力するプレーヤ1207に対して提供されてもよく、動作を実行するモータなどの装置1209に対して提供されてもよい。図12の図示は、ネットワークを介しての通信を示しているが、図示されている構成要素間は、本発明の範囲を逸脱することなく、例えばロボット1200の内部回路を使用した接続のように、互いに直接的に接続されてもよい。
上記の例示的な実施形態は、従来技術と比較して、様々な利点及び効果を有することができる。例えば、これに限定されないが、機械学習に対する関連技術のアプローチは、単一のモダリティ内における形式の転送を探求するものであり、感覚媒体を交差した関連付けに関しては、傍流としてテキストラベルを使用するに過ぎなかった。例示的な実施形態は、進歩という利点を有しているとともに、カメラ及びマイクロホンなどのIOTタイプのセンサの進歩を活用し幅広く適用することで、テキストラベルを必要とすることなく、視聴覚という感覚データを関連付けするための新規な手法を提供することができる。
さらに、関連技術においては、スピーチをテキストへと変換するアプローチ、及びテキストを使用して画像を検索するアプローチがある。しかしながら、スピーチをテキストへと変換するには、予め定められたスピーチ認識エンジンが必要とされるが、上記の例示的な実施形態においては、機械学習に際して事前準備されたスピーチエンジンは不要である。事前準備されたスピーチエンジンを必要とする関連技術のアプローチは、また、感覚データから直接的に機械学習を実行することにも困難性を引き起こす。
加えて、画像及びスピーチに関して共通の潜在空間を使用する関連技術のアプローチとは対照的に、例示的な実施形態は、2つの埋め込みの間の対応付けを使用することに関するものである。より具体的には、関連技術のように共通の潜在空間を使用する場合、システムは単一の共有された潜在空間を、それぞれ個別の潜在空間へと置き換える必要があるため、多様体次元を実質的に増大させてしまい、さらに、2つの別個の空間を互いに近接させるために目的関数を導入させてしまう。この関連技術のアプローチはまた、異なるモダリティ間の干渉を引き起こし得る。本発明による例示的な実施形態を使用することにより、各モダリティの非連結状態での学習に関する学習構造を含み、非線形のモダリティリンクを別個に生成するので、例示的な実施形態において2つのモダリティ間の非線形関係の学習を続ける間、関連技術におけるモダリティ間の干渉に関連する問題点及び欠点が回避される。
加えて、例示的な実施形態は、テキストなどの1つのモダリティからのみのデータを含む関連技術のアプローチと比較して、画像及び音声などの異なる2つのモダリティの間のブリッジングを構築する点において相違している。よって、例示的な実施形態は、関連技術の手法では解決することができなかった、2つのモダリティ間に非対称な次元及び構造を有するデータに対して対処することができる。さらに、ニューラルネットワークアプローチに代えて参照表(ルックアップテーブル)を使用することは、関連技術における参照表と比較して選択肢とはならない。なぜなら、上述したCNNベースのオートエンコーダを使用した例示的な実施形態と同様の機能を参照表により得ることは、参照表に関する空間的及び記憶装置の制限のために、即ち、試みたとしてもメモリ空間が不足してしまうために達成できないからである。
いくつかの例示的な実施形態が図示され説明されたが、これらの例示的な実施形態は、本明細書に記載される主題をこの技術分野に精通した人々に伝達するために提供される。本明細書に記載された主題は、記載された例示的な実施形態に限定されることなく、様々な態様でもって実施され得ることが理解されよう。本明細書に記載された主題は、詳細に定義されたあるいは説明された態様を用いることなく、また、他の構成要素や異なる構成要素を使用して、また、説明されていない態様でもって、実施することができる。当業者であれば、添付の特許請求の範囲及びその均等物において規定された本明細書に記載された主題から逸脱することなく、これらの例示的な実施形態に対して変更を行い得ることが理解されるだろう。

Claims (20)

  1. 感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法であって、
    第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
    第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
    第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
    前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
    を含む、コンピュータによって実施される方法。
  2. 前記第1タイプの非テキスト入力が音声であり、前記第2タイプの非テキスト入力が画像である、請求項1に記載のコンピュータによって実施される方法。
  3. 前記音声はマイクロホンによって検出され、前記画像はカメラによって検出される、請求項2に記載のコンピュータによって実施される方法。
  4. 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
    前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項1に記載のコンピュータによって実施される方法。
  5. 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力が、訓練のために自律的なロボットに対して提供される、請求項1に記載のコンピュータによって実施される方法。
  6. テキストラベルが使用されず、
    前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項1に記載のコンピュータによって実施される方法。
  7. 第3タイプの非テキスト入力を受信し、
    第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
    前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
    前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
    ことをさらに含む、請求項1に記載のコンピュータによって実施される方法。
  8. 第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
    第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
    第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
    前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
    を含む方法をコンピュータに実行させる、プログラム。
  9. 前記第1タイプの非テキスト入力は音声であり、前記第2タイプの非テキスト入力は画像である、請求項8に記載のプログラム。
  10. 前記音声はマイクロホンによって検出され、前記画像は、カメラによって検出される、請求項9に記載のプログラム。
  11. 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
    前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項8にプログラム。
  12. 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項8に記載のプログラム。
  13. テキストラベルが使用とされず、
    前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項8に記載のプログラム。
  14. 前記方法が、
    第3タイプの非テキスト入力を受信し、
    第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
    前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
    前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
    ことをさらに含む、請求項8に記載のプログラム。
  15. 感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムであって、
    第1タイプの非テキスト入力を受信する第1タイプのセンサ、及び、第2タイプの非テキスト入力を受信する第2タイプのセンサと、
    前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力を受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号し、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行う、プロセッサと、
    前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成する出力装置と、
    を含む、コンピュータによって実施されるシステム。
  16. 前記第1タイプのセンサはマイクロホンであり、前記第2タイプのセンサはカメラである、請求項15に記載のコンピュータによって実施されるシステム。
  17. 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
    前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項15に記載のコンピュータによって実施されるシステム。
  18. 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項15に記載のコンピュータによって実施されるシステム。
  19. テキストラベルが使用されず、
    前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項15に記載のコンピュータによって実施されるシステム。
  20. 前記プロセッサがさらに、
    第3タイプの非テキスト入力を受信し、
    第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
    前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
    前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する、
    請求項15に記載のコンピュータによって実施されるシステム。
JP2020031669A 2019-03-14 2020-02-27 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 Active JP7439564B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/353991 2019-03-14
US16/353,991 US11587305B2 (en) 2019-03-14 2019-03-14 System and method for learning sensory media association without using text labels

Publications (2)

Publication Number Publication Date
JP2020149680A JP2020149680A (ja) 2020-09-17
JP7439564B2 true JP7439564B2 (ja) 2024-02-28

Family

ID=72423828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020031669A Active JP7439564B2 (ja) 2019-03-14 2020-02-27 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法

Country Status (3)

Country Link
US (1) US11587305B2 (ja)
JP (1) JP7439564B2 (ja)
CN (1) CN111695010A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10931976B1 (en) * 2019-10-14 2021-02-23 Microsoft Technology Licensing, Llc Face-speech bridging by cycle video/audio reconstruction
EP3961434A1 (en) * 2020-08-27 2022-03-02 Samsung Electronics Co., Ltd. Method and apparatus for concept matching
KR20220055296A (ko) 2020-10-26 2022-05-03 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2023110285A1 (en) * 2021-12-16 2023-06-22 Asml Netherlands B.V. Method and system of defect detection for inspection sample based on machine learning model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041206A (ja) 2015-08-21 2017-02-23 日本電信電話株式会社 学習装置、探索装置、方法、及びプログラム
US20180144746A1 (en) 2010-06-07 2018-05-24 Affectiva, Inc. Audio analysis learning using video data
JP2018526711A (ja) 2015-06-03 2018-09-13 インナーアイ リミテッドInnerEye Ltd. ブレインコンピュータインタフェースによる画像の分類
WO2018213841A1 (en) 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
US20190005976A1 (en) 2017-07-03 2019-01-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0410045A1 (en) 1989-07-27 1991-01-30 Koninklijke Philips Electronics N.V. Image audio transformation system, particularly as a visual aid for the blind

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180144746A1 (en) 2010-06-07 2018-05-24 Affectiva, Inc. Audio analysis learning using video data
JP2018526711A (ja) 2015-06-03 2018-09-13 インナーアイ リミテッドInnerEye Ltd. ブレインコンピュータインタフェースによる画像の分類
JP2017041206A (ja) 2015-08-21 2017-02-23 日本電信電話株式会社 学習装置、探索装置、方法、及びプログラム
WO2018213841A1 (en) 2017-05-19 2018-11-22 Google Llc Multi-task multi-modal machine learning model
US20190005976A1 (en) 2017-07-03 2019-01-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jiquan Ngiam et al.,Multimodal Deep Learning,ICML'11: Proceedings of the 28th Internatinal Conference on Machine Learning,米国,2011年06月28日
Qiong Liu et al.,Sensory Media Association through Reciprocation Training ,2019 IEEE International Symposium on Multimedia (ISM),米国,IEEE,2019年12月09日,pp. 108-111

Also Published As

Publication number Publication date
CN111695010A (zh) 2020-09-22
JP2020149680A (ja) 2020-09-17
US20200293826A1 (en) 2020-09-17
US11587305B2 (en) 2023-02-21

Similar Documents

Publication Publication Date Title
JP7439564B2 (ja) 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法
US11769018B2 (en) System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
JP2021015264A (ja) 視覚支援スピーチ処理
WO2018006375A1 (zh) 一种虚拟机器人的交互方法、系统及机器人
CN107097234B (zh) 机器人控制系统
Hrytsyk et al. Augmented reality for people with disabilities
JP7292782B2 (ja) 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム
JP2021117967A (ja) センサからの自動学習方法及びプログラム
CN114580425B (zh) 命名实体识别的方法和装置,以及电子设备和存储介质
CN117877125B (zh) 动作识别及其模型训练方法、装置、电子设备、存储介质
JP7537189B2 (ja) 方法、プログラム、及び装置
Rastgoo et al. All you need in sign language production
Suman et al. Sign Language Interpreter
CN113903338A (zh) 面签方法、装置、电子设备和存储介质
Rathod et al. Transfer learning using whisper for dysarthric automatic speech recognition
US20230098678A1 (en) Speech signal processing method and related device thereof
Abdullah et al. Hierarchical attention approach in multimodal emotion recognition for human robot interaction
Lee et al. AI TTS smartphone app for communication of speech impaired people
US11417093B1 (en) Image capture with context data overlay
US11899846B2 (en) Customizable gesture commands
CN113177457B (zh) 用户服务方法、装置、设备及计算机可读存储介质
WO2023208090A1 (en) Method and system for personal identifiable information removal and data processing of human multimedia
JP7238579B2 (ja) 端末装置、出席管理システム、出席管理方法、及びプログラム
CN117633703A (zh) 一种基于智能手表的多模态交互系统及方法
Palanivel et al. Visual recognition system for hearing impairment using internet of things

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R150 Certificate of patent or registration of utility model

Ref document number: 7439564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150