JP2021056499A

JP2021056499A - 方法、プログラム、及び装置

Info

Publication number: JP2021056499A
Application number: JP2020150111A
Authority: JP
Inventors: アランポートアンドリュー; Allan Port Andrew; ブーセチャウダードア; Buse Cavdir Doga; チョルファンキム; Kim Chul-Hwan; ミタッシュクマーパテル; Patel Miteshkumar; ジーキンバードナルド; G Kimber Donald; チョン　リュウ; Qiong Liu; リュウチョン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-10-01
Filing date: 2020-09-07
Publication date: 2021-04-08
Also published as: CN113515188A; US20210097888A1; US11069259B2

Abstract

【課題】幾何学的構造を維持したままで、人間の第１のモダリティ又は感覚と、第２のモダリティ又は感覚との間での変換を可能にする。【解決手段】コンピュータが、受信信号を第１のモダリティに埋め込み、第１のモダリティの埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、第２のモダリティで出力を生成し、出力に基づいて、知覚されるように構成された第２のモダリティの信号をレンダリングし、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習操作を実行することによって、訓練されるモデルを適用する、方法とする。【選択図】図１

Description

（関連出願の相互参照）
この出願は、２０１９年１０月１日に提出された米国特許出願第６２／９０９，０８８号の優先権を主張し、その内容は参照により本明細書に組み込まれる。

本開示は、第１のモダリティから第２のモダリティへの特徴ベクトルのトランスモーダル変換（transmodal translation）に関連する、方法、プログラム、及び装置に関する。

人間は、眼や耳などを介した感覚フィードバックを望んでいる場合がある。しかしながら、一部の人間は視覚障害を有する可能性があり、彼らは眼による感覚フィードバックを得ることができない。さらに、一部の人間は、人工装具などの医療機器からのフィードバックを必要とする場合がある。一般的には、特に視覚障害などがある場合、人間は自分の神経系又は生物学的システムを増強し、強力なフィードバックを受け取りたいと思う可能性がある。

例えば、これに限定される訳ではないが、人間は視覚によって、部屋やインターフェースなどの目標物を簡単にちらりと（例えば、１秒）見た後で、目標物に関する主要な特徴を説明することができる。しかしながら、対象物に関連して説明される主要な特徴が数語よりも長い場合、又は追加のコンテキストや説明が必要な場合には、英語などの言語の話し言葉で出力を伝達する必要があるため、主要な特徴の伝達に必要な時間が１秒を超えるなど長すぎる場合がある。したがって、言語による伝達だけを使用する関連技術の手法では不十分な場合がある。

人間以外にも、コウモリなどの一部の動物は、視覚ナビゲーションを使用する代わりに、聴覚システムをナビゲーションに使用できる場合がある。しかしながら、このような手法は、様々な周波数範囲で信号を感知する能力及び聴きとる能力が異なるため、人間にとって効果的ではない可能性がある。しかしながら、関連技術は聴覚システムを使用するような適応能力を有していない。

AMOS, B.,et al., OpenFace: A General-Purpose Face Recognition Library with Mobile Applications, Technical Report CMU-CS-16-118, Carnegie Mellon University School of Computer Science, Pittsburgh, PA, 2016, 20 pgs. ARANDJELOVIC, R.,et al., NetVLAD: CNN Architecture for Weakly Supervised Place Recognition, IEEE Computer Vision and Pattern Recognition(CPR)2016, May 2, 2016, 17 pgs. BUNKER, D., Speech2Face: Reconstructed Lip Syncing withGenerative Adversarial Networks, Data Reflexions: Thoughts and Projects, 2017, 8 pgs. CONNORS, E. C.,et al., Action Video Game Play and Transfer of Navigation and Spatial Cognition Skills in Adolescents who are Blind, Frontiers in Human Neuroscience 8(133), March 2014, 9 pgs. ENGEL, J.,et al., Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders, ICML'17: Proceedings of the 34th International Conference on Machine Learning, 70, August 2017, pp.1068-1077. GOODFELLOW, I. J.,et al., Generative Adversarial Nets, Advances in Neural Information Processing Systems, 27, 2014, 9 pgs. HERMANS, A.,et al., In Defense of the Triplet Loss for Person Re-Identification, arXiv:1703.07737, 2017, 15 pgs. NAGRANI, A.,et al., Seeing Voices and Hearing Faces: Cross-modal biometric matching, Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp.8427-8436. PANAYOTOV, V.,et al., Librispeech: An ASR corpus based on public domain audio books, 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2015, 5206-5210. PENG, X.,et al., Reconstruction-Based Disentanglement for Pose-invariant Face Recognition, IEEE International Conference on Computer Vision (ICCV), 2017, pp.1623-1632. SCHROFF, F.,et al., FaceNet: A Unified Embedding for Face Recognition and Clustering, Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp.815-823/ STILES, N. R. B.,et al., Auditory Sensory Substitution is Intuitive and Automatic with Texture Stimuli, Scientific Reports, 5:15628, 2015, 14 pgs.

深層学習に対する関連技術の手法は、比較的低次元のユークリッド空間に高レベルの視覚情報を効果的に埋め込む方法を提供してきた。しかしながら、関連技術の深層学習の手法には満たされていないニーズがある。それは、幾何学的構造を維持したままで、人間の第１のモダリティ又は感覚と、第２のモダリティ又は感覚との間での変換を可能にすることである。

本開示の技術は、幾何学的構造を維持したままで、人間の第１のモダリティ又は感覚と、第２のモダリティ又は感覚との間での変換を可能にすることを目的とする。

例示的な一実装形態によれば、コンピュータにより実施される方法が提供される。この方法は、コンピュータが、受信信号を第１のモダリティに埋め込み、第１のモダリティの埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、第２のモダリティで出力を生成し、出力に基づいて、知覚されるように構成された第２のモダリティの信号をレンダリングし、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する。

例示的な実装形態はまた、コンピュータにより、受信信号を第１のモダリティに埋め込みを行うステップと、第１のモダリティの埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、第２のモダリティで出力を生成するステップと、出力に基づいて、知覚されるように構成された第２のモダリティの信号をレンダリングするステップと、を実行させるためのプログラムであって、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、プログラムを含む。

例示的な実装形態はまた、第１のモダリティを有する情報を受け付けるように構成された入力デバイスと、第２のモダリティを有する情報を出力するように構成された出力デバイスと、第１のモダリティを有する情報を取得し、第２のモダリティを有する情報を生成するプロセッサと、を備え、プロセッサは、受信信号を第１のモダリティに埋め込み、第１のモダリティの埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、第２のモダリティで出力を生成し、出力に基づいて、知覚されるように構成された第２のモダリティの信号をレンダリングし、埋め込み、再埋め込み、及び生成は、生成された出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、装置を含む。

埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行されるようにしてもよい。再埋め込みは、再埋め込みネットワークによって実行されるようにしてもよい。敵対的学習の実行は、識別機損失を生成するために、生成された出力と出力の実際のバージョンとを識別する識別機ネットワークに生成された出力を提供することを含んでいてもよい。計量学習の実行は、知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル（ＭＦＣ）変換を適用することを含んでいてもよい。第１のモダリティは視覚であり、第２のモダリティは音声であってもよい。

入力デバイスはカメラを含み、出力デバイスはスピーカ又はヘッドフォンを含んでいてもよい。入力デバイス及び出力デバイスは、ウェアラブルデバイスに取り付けられていてもよい。ウェアラブルデバイスは眼鏡を含んでいてもよい。プロセッサは、特徴埋め込みモデルを適用するエンコーダによって埋め込みを行い、再埋め込みネットワークによって再埋め込みを行うように構成されていてもよい。第１のモダリティと第２のモダリティとの間のマッピングを学習するために、注釈付きデータを必要としなくてもよい。

例示的な実装形態を示す図であり、パイプラインを示している。例示的な実装形態に係る試作品を示す図である。例示的な実装形態に係る立体音響レンダリング手法を示す図である。例示的な実装形態に係る補間手法を示す図である。いくつかの例示的な実装形態の例示的なプロセスを示す図である。いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置を備えた例示的なコンピューティング環境を示す図である。いくつかの例示的な実装形態に適した例示的な環境を示す図である。

以下の詳細な説明は、本出願の図面及び例示的な実装形態の詳細を提供する。図面間の重複する要素の参照符号及び説明は、明確化のために省略されている。説明全体にわたって使用される用語は、例示として提供されており、限定を意図するものではない。

例示的な実装態様は、視覚（または他のタイプの）信号などの第１のモダリティから高レベルの情報が抽出され、それを音声（acoustically）などの第２のモダリティとして表す、深層学習ベースのシステムを対象とする。目標の音声分布は、十分なサイズの音（例えば、人間の発話）のあらゆる分布に合わせて調整することができる。

発話は音として開示されているが、他の音で代用してもよい。これに限定される訳ではないが、例えば、人間の発話音を使用する代わりに、音楽などの別の音を、人間の発話音の代わりに、又は人間の発話音と組み合わせて使用することができる。

例示的な実装形態によれば、信号から音声(audio)への変換システムは、特徴埋め込みモデルが（例えば、顔、対象物、感情などを）識別するように教えることができるすべての信号間の学習された幾何学的関係を保持する。その結果、知覚障害のあるユーザが自分の環境をよりよく理解できるように、知覚的に聞こえる高レベルの情報を含む音が生成され得る。例示的な実装形態では、高レベルの画像特徴と音声との間のマッピングを学習するために注釈付きデータを必要とせずにこれを実現することができる。

関連技術に関して上記で説明したように、話し言葉（spoken language）を使用して視覚障害のある人に視覚情報を伝達する場合、簡潔さが課題となり得る。例示的な実装態様は、機械学習された特徴の埋め込みを活用して視覚情報を知覚音声領域に変換することに関するシステムと方法を対象としている。埋め込みのユークリッド幾何学は、第１のモダリティと第２のモダリティとの間で保持される。これに限定される訳ではないが、例えば、未変換の特徴ベクトル間の距離は、対応する変換値（例えば、音声信号）間のメルケプストラムベースの音響心理学的距離に等しい（又は強く同等である）。

さらに、例示的な実装形態では、高レベルの特徴（例えば、顔、対象物、感情）と音声との間のマッピングを学習するために、注釈付きのデータは必要ない。その代わりに、例示的な実装形態では、以下でさらに詳しく説明するように、敵対的学習を使用して関連付けを学習する。

例示的な実装形態によれば、第１のモダリティから第２のモダリティへの特徴ベクトルのトランスモーダル変換が提供される。より具体的には、視覚モダリティから音声モダリティへのトランスモーダル変換が提供される。このトランスモーダル変換は支援デバイスで使用され得る。

より具体的には、幾何学的構造を転送することができる。これに限定される訳ではないが、例えば、顔認識の例示的な使用事例では、１２８次元の球などの多次元の球に埋め込まれた顔の視覚的印象を提供することができる。三重項損失関数が適用され、類似する顔がより近くに表示されたり、及び／又は異なる顔がさらに離れて表示されたりする。次に、上記で説明した埋め込み画像は、例示的な実装形態に従って音声領域に転送され、音声信号に関連付けられる。より具体的には、音（sound）は、人間の直感に相関するように識別されてもよい。さらに、音の間で補間を行ってもよい。より具体的には、第１のモダリティのデータポイントに最もよく一致する２つの音の間にスペースがある場合、特に人間の発話に関しては、適切な音は２つの音の間の補間によって生成され得る。

１つの例示的な実装形態によれば、深層学習ベースのフレームワークは、画像又は他の信号から抽出された高レベルの情報（例えば、顔の識別／表情、対象物の位置など）を音声に変換する。この例示的な実装形態は、ユークリッド空間のサブセットに入力を埋め込む任意の特徴埋め込みモデルに基づいて構築され得る（即ち、任意のモデル、ｆ：X→Y、ここで、||ｆ(ｙ_１)-ｆ(ｙ_２)||_２は有意である）。

例示的な実装形態によれば、画像から所望の特徴を抽出することができる事前訓練された特徴埋め込みモデルが提供される。このモデルは「ベースモデル」と呼ばれることもある。次に、再埋め込みネットワークで訓練が実行され、ベースモデルの出力が目標の知覚音声領域にマッピングされる。この知覚音声領域は、十分に大きく多様な音のデータセットによって決定され得る。

より具体的には、敵対的生成ネットワークを用いた敵対的学習（ＧＡＮ）手法を使用して、再埋め込みネットワークを訓練する。例えば、ＧＡＮ手法では、ｉ）出力音が目標のデータセットによって特定された音分布に適合すること、ｉｉ）ベースモデルの出力間の距離と、再埋め込みモデルの対応する出力間の距離とが等しいこと、が強制される。例示的な実装形態では、２つの音声信号間の距離は、それらの信号のメル周波数ケプストラル係数（ＭＦＣＣ）の差の２乗を合計することで計算することができる。しかしながら、ＭＦＣＣのみを知覚距離に使用すると、様々なデメリット（例えば、ノイズの類似性に基づく誤差）が生じるおそれがある。したがって、ＭＦＣＣの使用は、以下で説明するように組み合わせて使用される。さらに、訓練データには、元のデータセット、別の関連するデータセット、又はベースモデルに関連付けられた出力と同じ形状のランダムに生成された配列が含まれる場合がある。

図１は、例示的な実装形態に係るパイプライン１００を示す。より具体的には、画像１０１に関連する信号又は他の入力信号などの入力信号が、エンコーダ１０３に提供される。例えば、エンコーダ１０３は、ＦａｃｅＮｅｔであってもよいが、これに限定される訳ではない。エンコーダ１０３は、入力信号又は入力画像１０１を、高次元空間からベクトル又はより上位のテンソルに符号化する動作を実行する。より具体的には、エンコーダ１０３は、これに限定される訳ではないが、特徴埋め込みネットワークなどの特徴埋め込みモデル１０５を含んでいてもよい。所望により、特徴埋め込みモデル１０５は、事前に訓練され固定されていてもよく、或いは識別不可能／訓練不可能であってもよい。例示的な実装形態の一例によれば、特徴埋め込みネットワークは、ＦａｃｅＮｅｔのＯｐｅｎＦａｃｅ実装を採用することができる。しかしながら、本開示の例示的な実装形態はこれに限定されるものではない。

エンコーダ１０３の出力は、再埋め込みネットワーク１０９を含む再埋め込みブロック１０７に提供される。再埋め込みブロック１０７は、エンコーダ１０３の出力である特徴マップを音声空間に送る。ネットワークによって生成される音のタイプを制御するために、「識別」ネットワークが提供されて、特徴ベクトルを音の目標分布に適合する音に変換する。

再埋め込みネットワーク１０７の出力は、生成された音であり、敵対的学習１１１と計量学習１１７とに提供される。敵対的学習１１１は、識別機１１３が実際の音と生成された音とを識別する能力を改善し、生成器が識別機１１３をだます音を生成する能力を改善するために提供される。例示的な実装形態によれば、生成器は、再埋め込みネットワーク１０７のみを備えてもよく、又はエンコーダ１０３と再埋め込みネットワーク１０７との組み合わせを備えていてもよい。

より具体的には、出力音を目標分布に適合させるために、識別器ネットワークが使用される。識別器ネットワークは、音が、目標分布から発生したものか、生成器によって合成されたものかを予測するように訓練されている。生成器ネットワーク（即ち、再埋め込みネットワーク）は、次の２つの目標で訓練される。１．識別機をだますこと、２．任意の２つの生成された出力（例えば音）間の距離が、対応する２つの入力間の距離と（スケーリング定数まで）ほぼ等しくなるようにすること。訓練中には、識別器ネットワークは、生成された音の例と、目標分布からの音声である「実際の音声」の例とを受け取る。したがって、符号１１５で識別器損失が発生する。以下で説明するように、計量学習及び計量損失と共に、例示的なディクテーションによるモデルは、敵対的生成ネットワーク（ＧＡＮ）である。

計量学習１１７は、出力音が有意の知覚距離を有することを促すために提供される。より具体的には、エンコーダ１０３が固定されているか、識別不可能であるか、又は重みの更新を許容しない場合には、ＭＦＣＣ変換１１９に基づく計量損失関数が提供される。ＭＦＣＣ変換１１９は、画像／信号から音への変換が、事前訓練されたエンコーダ１０３によって学習されたメトリックを保存することを実行する。より具体的には、計量損失関数は、関係（１）で表される以下に示す関数を含むことができる。

ここで、Ｎはバッチサイズ、φはエンコーダ、ｘ_ｉは入力バッチのｉ番目の画像（又は信号）、ｙ_ｉはｉ番目の生成された音声出力である。したがって、符号１２１で計量損失が発生する。

それを行うのにコストが法外に高くない場合など特定の条件下では、訓練データが利用可能であり、エンコーダ１０３は識別可能かつ訓練可能であり、必要に応じて、例示的な実装形態ではエンコーダ１０３の重みの更新が可能にすることができる。さらに、別の任意選択の例示的な手法として、例示的な実装形態では、システムが最初からエンドツーエンドで訓練されるのを可能にすることができる。したがって、関係（１）の代わりに、適切な距離ベースの損失関数（例えば、三重項損失）が使用される。

例示的な実装形態によれば、前述の態様と組み合わせて関連するハードウェアを含むようにプロトタイプを提供することができる。例えば、図２に示すように、ウェアラブルハードウェアのプロトタイプ２００が提供されるが、これに限定される訳ではない。例えば、カメラなどの視覚入力デバイス２０１が、「オープンイヤー」ヘッドフォン（例えばステレオスピーカ）等の音声出力部が埋め込まれている眼鏡フレームなどの、ウェアラブルデバイス２０３に取り付けられてもよいが、これに限定される訳ではない。カメラは、深度カメラ（Depth Camera）であってもよく、それは取り付け部品２０５によって眼鏡に取り付けられる。この例示的な実装形態によれば、ユーザは装置を着用することができ、ユーザが頭を動かすことにより、カメラに画像を撮影させることができ、画像内の１つまたは複数の対象物に関連付けられた出力音を提供することができる。

しかしながら、例示的な実装形態はこれに限定される訳ではなく、ユーザの位置又はユーザにより着用された位置に関連付けられ得る画像を受信又は撮影するように構成された他の構造が提供されてもよい（例えば、帽子、時計、衣服、医療機器、携帯電話、又はユーザに配置される又はユーザと一緒に配置される可能性のあるその他の対象物）。さらに、音声出力は、当業者によって理解される、他のスピーカ、ヘッドフォン、または手法によって提供されてもよい。

図２の一例示的な実装形態によれば、空間化された音声およびＲＧＢＤカメラが使用され、例示的な実装形態によって検出された対象物の位置及び奥行きを伝達する機能をユーザに提供する。より具体的には、対象物及び顔が検出され、切り取られ、パイプライン１００を介して送信されて、音が生成され得る。これらの生成された音は、立体音響（spatialized audio）を用いて再生され、それらの識別情報、場所、及び／又は他の特性を、自然であると認識されるやり方で示すことができる。

図３は、例示的な実装形態による立体音響（spatial audio）レンダリングシステム３００の概要を示す。より具体的には、例示的な実装形態では、音声サンプルが取得され、シーン内のサンプル又は顔の各々に関連付けられたソースノードが生成される。したがって、画像内の対象物の位置は、聴覚シーン内の音源位置までの距離データを使用して変換される。

これに限定される訳ではないが、例えば、符号３０１で、符号３０３の３次元（３Ｄ）顔位置データが受信され、符号３０５で、生成された音声を含む媒体要素機能に提供される。符号３０７で、ソースノードが、媒体要素音声機能によって作成される。符号３０９で、レンダリング機能が回転行列の適用などによって実行され、それに応じて左右の音声チャネル３１１として生成される。これは次に、符号３１３でヘッドフォンに出力される。

前述の例示的な実装形態を評価することができる。これに限定される訳ではないが、例えば、ＦａｃｅＮｅｔベースのモデルを使用して、予備的なユーザ調査を実行し、１つ又は複数の領域に関して例示的な実装形態を評価することができる。

１つの評価手法によれば、計量（metric）との知覚的一致が評価され得る。同じ顔または２つの異なる顔の２つのランダムに選択された画像が与えられると、例示的な実装形態によって出力された２つの対応する音が、人間によってそれぞれ同じであるか異なると認識されるかどうかの判定が行われる。これに限定される訳ではないが、例えば、この評価は、異なる音に関連付けられていると認識されている異なる顔と、同一又は類似の音に関連付けられていると認識されている同一又は類似の顔とに基づく。

別の評価された手法によれば、音の想起性（memorability）を評価することができる。ランダムに選択された異なる顔の画像がｋ個ある場合、ユーザが出力音を効果的に想起できるかどうかを判定することができる。例示的な評価された手法によれば、生成された音と識別情報とのペアリングを記憶するユーザのパフォーマンスは、ランダムに割り当てられた英語名から作成されたコントロールのペアリングに関して比較することができる。これに限定される訳ではないが、例えば、この評価は、音が人に関連付けられていることを覚えているユーザなど、音に関連付けられている意味を思い出すことを簡単に学習できるユーザに関連付けられる。

さらに別の評価された手法によれば、質問応答及び意図しない特徴抽出が評価され得る。これに限定される訳ではないが、例えば、眼鏡をかけている顔と眼鏡をかけていない顔とで異なる音を想起できるか、髪の色の音を想起できるかなど、生成された音から簡単なパターンを抽出するユーザの能力をテストすることができる。

図４は、第１のモダリティから第２のモダリティへの変換に関連する例示的な実装形態による手法４００を示す。ここで、第１のモダリティは視覚であり、第２のモダリティは音である。ここで、「モダリティ」という用語は、視覚、音、温度、圧力などの知覚された情報に関連するモードを意味することができる。例えば、伝達されることが望まれる情報に関して判定がなされなければならない。本開示の例示的な実装形態によれば、顔４０１などの視覚ベースの情報に関して、上述したエンコーダを使用することができる。

エンコーダは、距離ベースの損失で訓練された任意のエンコーダとすることができる。これに限定される訳ではないが、例えば、ＦａｃｅＮｅｔは、類似の顔の画像がエンコーダとして類似のベクトルに（Ｌ２距離で）送信されるように、１２８次元の単位ベクトルとして画像の顔を埋め込むように設計されたネットワークであり、エンコーダとして使用され得る。次に、変換システムは、顔の画像から音へのマッピングを提供し、類似の顔は類似の音にマッピングされ、異なる顔は異なる音にマッピングされる。これに限定される訳ではないが、例えば、目標データセットは、人間の発話から構成され得る。その場合、生成された音も人間の発話に似ているが、必ずしも認識可能な単語やフレーズであるとは限らない。

符号４０３に示すように、顔の画像は高次元の球体に埋め込まれている。距離ベースの損失が小さい顔は類似しているとみなされ、一方、距離ベースの損失が大きい顔は類似性が低いとみなされる。

符号４０５で、音は、音の目標分布に適合するように生成される。データセットは、十分に大きく、音のサンプルに対して変化するように選択されて、ユーザが理解するか、効果的に解釈することを学習することができる音間の直感的な類似性に相関する音声信号を提供する。

符号４０７では、上述したように、計量損失や識別機損失の計算を含む、敵対的学習及び計量学習が実行され、選択された音のサンプルが直感に最も密接に相関することを保証する。

上述した例示的な実装形態は、顔に関連付けられた認識可能な音声をユーザに提供する方法で、第１のモダリティから第２のモダリティへの変換を対象としているが、本開示の例示的な実装形態は、本発明の範囲から逸脱することなく、前述の例示的な実装形態を、他のアプリケーションと組み合わせたり、他のアプリケーションで置き換えることができ、これに限定される訳ではない。

これに限定される訳ではないが、例えば、例示的な実装形態は、視覚障害のあるユーザが環境をナビゲートするのを支援するなど、ナビゲーション支援に関連するシステムで使用することができる。視覚障害に関わらず、ユーザが環境を効果的にナビゲートできるように、奥行きと障害物に関する音情報を提供することができる。いくつかの例示的な実装形態では、これは、鉄道駅または他の混雑したエリアなどをユーザが歩くことに焦点を合わせることができる。しかしながら、本開示の例示的な実装形態は、これに限定される訳ではなく、視覚障害者が以前は困難または危険であったスポーツ、趣味などの活動に参加することができるなど、他のナビゲーション目的が考慮されてもよい。

例示的な実装形態は、視覚障害のあるユーザが見ることができるよう支援することに関連して使用することもできる。さらに、視覚障害のあるなしに関わらず、ユーザは自身の標準範囲外の視覚入力を提供されてもよく、ユーザが背中の後ろを見ることができるなど、その範囲外の情報をユーザに提供できる場合がある。そのような手法は、首や背中の怪我など他の仕方で障害を有していて、頭を回すことができないが、人の往来、運転、又は首や背中をひねるとユーザが環境内で機能を実行できるようになる他の状況で、ナビゲートが可能になることを望むユーザにとっても有用であり得る。

同様に、例示的な実装形態は、通常目に見えるもの以外のスペクトル領域で見る能力をユーザに提供することができる。例えば、変換は、第１の視覚領域から第２の視覚領域への変換、即ち、音声領域から視覚領域への変換であってもよいが、これに限定される訳ではない。さらに、本開示の例示的な実装形態は、２つの領域に限定されず、複数の領域（例えば、温度、視覚、圧力など）が関与していてもよい。

例示的な実装形態はまた、義肢やロボットアームに関連するフィードバックなどのフィードバックをユーザに提供することができる。例えば、第１の領域における圧力検知情報は、音声フィードバックに変換されて、圧力レベルの適切さをユーザに伝達するための音声出力を提供してもよい。

別の例示的な実装形態によれば、音声入力は、視覚などの第２のモダリティに変換される、産業設定における第１のモダリティとして提供されてもよい。これに限定される訳ではないが、例えば、標準範囲内で動作している機器は、通常、ある範囲内の振動を放出している。しかしながら、機器が誤作動やメンテナンス期間に近づくと、機器によって放出される音が変化したり、他の音が機器から放出されたりすることがあるが、これらの音は、視覚では検出できない（例えば、微小亀裂または内部の亀裂）か、費用や出入りの難しさのために簡単にアクセスすることができない。例示的な実装形態では、そのような音を検知すると、第２のモダリティへの変換を実行して、故障しそうな部品に関するメンテナンス情報、またはメンテナンス実施に関するメンテナンス情報を提供することができる。

さらに、例示的な実装形態はまた、ビデオ、映画、クローズドキャプションなどにおける、画像キャプション変換を対象にしてもよい。

図５は、例示的な実装形態による例示的なプロセス５００を示す。例示的なプロセス５００は、本明細書で説明するように、１つまたは複数のデバイス上で実行され得る。例示的なプロセスは、学習５０１と推論５０３とを含むことができる。

学習５０１において、敵対的学習操作５０５が実行され得る。上記で説明したように、実際の音と生成された音を識別できる識別機の場合、識別機損失が発生する。符号５０７で、ＭＦＣ変換を使用することにより、例えば、上記で説明したような計量損失関数を使用することによって、計量損失が決定される。したがって、出力音声情報は、有意の知覚距離を有する音を生成することができる。

モデルが学習５０１で訓練されると、推論５０３では、符号５０９で画像や信号などの情報が第１のモダリティで受け取られる。上記で説明したように、特徴埋め込みモデルを使用することなどにより、エンコーダを使用して埋め込みを実行することができる。

符号５１１で、埋め込まれた第１のモダリティの情報が、第２のモダリティに変換される。本開示の例示的な実装形態では、第１のモダリティは画像または信号であり、第２のモダリティは画像または信号に関連する音である。これに限定される訳ではないが、例えば、再埋め込みネットワークを使用して、画像に対応する音間の距離損失に基づいて、適切な音を決定する操作を実行することができる。

符号５１３で、音声がレンダリングされ得る。これに限定される訳ではないが、例えば、出力は、ヘッドフォン、又は耳や耳の近くに音声出力を有するウェアラブル眼鏡に関連する前述のデバイスに提供され得るし、第２のモダリティでユーザに音声出力を提供することができる。さらに、当業者には理解されるように、推論５０３と学習（例えば、訓練）５０１との間で誤差逆伝播法を実行することができる。

符号５０１で適切かつ十分なデータセットで訓練されたモデルの場合、類似の新しい顔は類似の新しい音に変換され、非類似の新しい顔は非類似の新しい音に変換される。これらの音は、依然として目標分布に適合する。

さらに、モデルが訓練されると、モデルはすべての可能な顔に関連付けられた音を有し（例えば、「周囲識別技術なし」）、エンコーダによって生成された単位ベクトルが以前に遭遇した単位ベクトルと異なっていても、可能なすべての顔には固有の音が割り当てられ、依然として距離が維持される。

例示的な実装形態によれば、顔ごとに指定された音を音声の目標分布に合わせる必要はなく、画像が音声に変換されるときに、依然としてこれらのポイント間の距離が維持されることだけが必要である。その結果、可能性のある顔各々に固有の音が割り当てられる。この手法によれば、訓練中にモデルが受け取る入力がより均一に分散されるため、モデルはソース領域の幾何学的配置を学習するように支援され得る。

図６は、いくつかの例示的な実装形態での使用に適した例示的なコンピュータ装置６０５を備えた例示的なコンピューティング環境６００を示している。コンピューティング環境６００におけるコンピュータ装置６０５は、１又は複数の処理ユニット、コア、若しくはプロセッサ６１０、メモリ６１５（例えば、ＲＡＭ、ＲＯＭ、及び／又は同様のもの）、内部記憶装置６２０（例えば、磁気、光、固体記憶装置、及び／又は有機）、及び／又はＩ／Ｏインターフェース６２５を含むことができる。これらのいずれも、情報を通信するために通信機構又はバス６３０に接続されてもよく、又はコンピュータ装置６０５に内蔵されていてもよい。

本開示の例示的な実装形態によれば、神経活動に関連する処理は、中央処理装置（ＣＰＵ）であるプロセッサ６１０上で行うことができる。あるいは、本発明の概念から逸脱することなく、他のプロセッサを代わりに使用してもよい。これに限定される訳ではないが、例えば、グラフィックス処理ユニット（ＧＰＵ）、及び/又はニューラル処理ユニット（ＮＰＵ）を、前述の例示的な実装の処理を実行するために、ＣＰＵの代わりに又はＣＰＵと組み合わせて使用することができる。

コンピュータ装置６０５は、入力／ユーザインターフェース６３５及び出力装置／インターフェース６４０に通信可能に接続されていてもよい。入力／ユーザインターフェース６３５及び出力装置／インターフェース６４０の一方又は両方は、有線又は無線インターフェースとすることができ、着脱可能とすることができる。入力／ユーザインターフェース６３５は、入力を提供するために使用され得る、物理的若しくは仮想的な任意の装置、コンポーネント、センサ、又はインターフェース（例えば、ボタン、タッチスクリーンインターフェース、キーボード、ポインティング／カーソル制御、マイク、カメラ、点字、モーションセンサ、光学リーダなど）を含んでいてもよい。

出力装置／インターフェース６４０は、ディスプレイ、テレビ、モニタ、プリンタ、スピーカ、点字などを含んでいてもよい。いくつかの例示的な実装形態において、入力／ユーザインターフェース６３５及び出力装置／インターフェース６４０は、コンピュータ装置６０５に内蔵されていてもよく、又はコンピュータ装置６０５に物理的に接続されていてもよい。他の例示的な実装形態では、他のコンピュータ装置は、コンピュータ装置６０５についても入力／ユーザインターフェース６３５や、出力装置／インターフェース６４０として機能してもよく、又はそれらの機能を提供してもよい。

コンピュータ装置６０５の例は、これに限定されるものではないが、高度なモバイル装置（例えば、スマートフォン、車両及び他の機械に搭載された装置、人間及び動物によって携行される装置など）、モバイル装置（例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、ポータブルテレビ、ラジオなど）、及び移動用に設計されていない装置（例えば、デスクトップコンピュータ、他のコンピュータ、情報キオスク、１又は複数のプロセッサが内蔵された及び／又はそれに接続されたテレビ、ラジオなど）を含んでいてもよい。

コンピュータ装置６０５は、同一又は異なる構成の１又は複数のコンピュータ装置を含む、任意の数のネットワークコンポーネント、装置、及びシステムと通信するために、外部記憶装置６４５及びネットワーク６５０に（例えば、Ｉ／Ｏインターフェース６２５を介して）通信可能に接続されていてもよい。コンピュータ装置６０５又は任意の接続されたコンピュータ装置は、サーバ、クライアント、シンサーバ、汎用マシーン、専用マシーン、又は他のラベルのサービスを提供するように機能してもよく、又はそのように呼ばれてもよい。これに限定される訳ではないが、例えば、ネットワーク６５０は、ブロックチェーンネットワーク及び／又はクラウドを含んでもよい。

Ｉ／Ｏインターフェース６２５は、これに限定されるものではないが、コンピューティング環境６００内の少なくとも全ての接続されたコンポーネント、装置、及びネットワークとの間で情報を通信するために、任意の通信又はＩ／Ｏプロトコル又は標準規格（例えば、イーサネット（登録商標）、８０２．１１ｘ、ユニバーサルシステムバス、ＷｉＭａｘ、モデム、セルラーネットワークプロトコルなど）を使用する有線及び／又は無線インターフェースを含むことができる。ネットワーク６５０は、任意のネットワーク又はネットワークの組み合わせ（例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、電話ネットワーク、セルラーネットワーク、衛星ネットワークなど）とすることができる。

コンピュータ装置６０５は、一時的媒体及び非一時的媒体を含むコンピュータ使用可能な媒体又はコンピュータ可読媒体を利用して、使用及び／又は通信することができる。一時的媒体は、伝送媒体（例えば、金属ケーブル、光ファイバ）、信号、搬送波などを含む。非一時的媒体は、磁気媒体（例えば、ディスク及びテープ）、光媒体（例えば、ＣＤ−ＲＯＭ、ディジタルビデオディスク、ブルーレイディスク）、固体媒体（例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、固体記憶装置）、及び他の不揮発性記憶装置又はメモリを含む。

コンピュータ装置６０５は、いくつかの例示的なコンピューティング環境において、技術、方法、アプリケーション、プロセス、又はコンピュータ実行可能命令を実行するために使用されてもよい。コンピュータ実行可能命令は、一時的媒体から取得されてもよく、非一時的媒体に記憶されて非一時的媒体から取得されてもよい。実行可能命令は、プログラミング言語、スクリプト言語、及び機械語（例えば、Ｃ、Ｃ＋＋、Ｃ＃、Ｊａｖａ（登録商標）、ビジュアルベーシック、パイソン、パール、ＪａｖａＳｃｒｉｐｔ（登録商標）など）のうちの１又は複数から生成されてもよい。

プロセッサ６１０は、ネイティブな環境又は仮想環境において、任意のオペレーティングシステム（ＯＳ）（図示しない）の下で動作することができる。論理ユニット６６０、アプリケーションプログラミングインターフェース（ＡＰＩ）ユニット６６５、入力ユニット６７０、出力ユニット６７５、並びに、異なるユニットが互いに通信すると共にＯＳや他のアプリケーション（図示しない）と通信するためのユニット間通信機構６９５を含む１又は複数のアプリケーションが展開されてもよい。

例えば、符号化ユニット６７５、再埋め込みユニット６８０、及び学習ユニット６８５は、上述した構造に関して上記で示した１又は複数のプロセスを実行することができる。説明されたユニット及び要素は、設計、機能、構成、又は実装において変更される可能性があり、提供された説明には限定されない。

いくつかの例示的な実装形態では、情報又は実行命令がＡＰＩユニット６６０によって取得されると、それは１又は複数の他のユニット（例えば、論理ユニット６５５、入力ユニット６６５、符号化ユニット６７５、再埋め込みユニット６８０、及び学習ユニット６８５）に伝達され得る。

例えば、符号化ユニット６７５は、上記で説明したように、シミュレートされたデータ、履歴データ、又は１若しくは複数のセンサから、第１のモダリティの情報を取得して処理することができる。符号化ユニット６７５の出力は、再埋め込みユニット６８０に提供され、再埋め込みユニット６８０は、例えば、上述され且つ図１〜図７に図示されるような音を生成するために必要な操作を実行する。さらに、学習ユニット６８５は、符号化ユニット６７５及び再埋め込みユニット６８０の出力に基づいて、敵対的学習及び計量学習などの操作を実行することができると共に、計量損失関数を使用して、実際の音と生成された音を識別し、出力音に有意の知覚距離を持たせるようにする操作を実行することができる。

いくつかの例では、論理ユニット６５５は、ユニット間の情報の流れを制御し、上述のいくつかの例示的な実装形態では、ＡＰＩユニット６６０、入力ユニット６６５、符号化ユニット６７５、再埋め込みユニット６８０、および学習ユニット６８５によって提供されるサービスを指示するように構成することができる。例えば、１又は複数のプロセス又は実装の流れは、論理ユニット６５５のみによって、又はＡＰＩユニット６６０と併せて制御され得る。

図７は、いくつかの例示的な実装形態に適した例示的な環境を示す。環境７００は、装置７０５〜７４５を含み、それぞれは、例えば、ネットワーク７６０を介して（例えば、有線接続及び／又は無線接続によって）少なくとも１つの他の装置に通信可能に接続されている。いくつかの装置は、１又は複数の記憶装置７３０及び記憶装置７４５に通信可能に接続されていてもよい。

１又は複数の装置７０５〜７４５の例は、それぞれ図６に記載されているコンピュータ装置６０５であってもよい。装置７０５〜７４５は、これに限定される訳ではないが、上述したようにモニタ及び関連するウェブカメラを有するコンピュータ装置７０５（例えば、ラップトップコンピュータ装置）、モバイル装置７１０（例えば、スマートフォンまたはタブレット）、テレビ７１５、車両７２０に関連する装置、サーバーコンピュータ７２５、コンピュータ装置７３５〜７４０、記憶装置７３０、７４５を含んでもよい。

いくつかの実装形態では、装置７０５〜７２０は、ユーザに関連付けられたユーザ装置とみなすことができ、ユーザは、前述の例示的な実装形態の入力として使用される検知された入力をリモートで取得することができる。本開示の例示的な実装形態では、これらのユーザ装置７０５〜７２０のうちの１又は複数は、ユーザの身体に（例えば、眼鏡上に）あるカメラやユーザに音声出力を提供することに関連するスピーカなどの１又は複数のセンサに関連付けることができ、上記で説明したように、本開示の例示的な実装形態の必要に応じて情報を検知することができる。

本開示の例示的な実装形態は、関連技術の手法と比較して、様々な利益及び利点を有することができる。これに限定される訳ではないが、例えば、関連技術の手法は、画像内の情報の伝達をピクセル単位で使用することができるが、本開示の例示的な実装形態は、ピクセル情報を符号化又は保存せずに、代わりに、学習された特徴埋め込みによって抽出された高レベルの情報を符号化又は保存する。その結果、特徴空間の幾何学的構造を知覚音声領域にマッピングすることで、情報を幅広い領域から知覚的に意味のある音声に変換することができる。

さらに、本開示の例示的な実装形態は、出力音声信号の分布を調整する機能を提供することができる。その結果、ユーザは、変換がどのような音に聞こえるかを思いのままに制御することができる。これに限定される訳ではないが、例えば、音声出力は、オーディオ出力は、ユーザの好みの話し言葉の音素を使用するように条件付けられてもよい。さらに、例示的な実装形態に関する区別としても、関連技術の手法は、顔情報や立体音響フィードバックを提供しない。

本明細書で説明する例示的な実装形態は、関連技術の視覚障害者のための音声支援装置が、立体音響を含むことができるが、関連技術の手法は、人間の顔情報、顔の表情、感情的な反応、身体の動きの質又は相互作用を提供しない点で、関連技術とはさらに区別することができる。

いくつかの例示的な実装形態が示され、説明されているが、これらの例示的な実装形態は、本明細書に記載される主題を当業者に伝えるために提供される。本明細書に記載された主題は、記載された例示的な実装形態に限定されることなく、様々な形態で実施されてもよいことを理解されたい。本明細書に記載された主題は、具体的に定義若しくは記載された事項を使用して、又は記載されていない他の若しくは異なる要素若しくは事項を使用して実施できる。当業者は、添付の特許請求の範囲及びその均等物で定義された本明細書に記載された主題から逸脱することなく、これらの例示的な実装形態に対して変更を行うことができることを理解するであろう。

本開示の特定の非限定的な実施形態の態様は、上記で考察された特徴及び／又は上述されていない他の特徴に対処する。しかしながら、非限定的な実施形態の態様は、上述の特徴に対処する必要はなく、本開示の非限定的な実施形態の態様が上述の特徴に対処しなくてもよい。

Claims

コンピュータが、
受信信号を第１のモダリティに埋め込み、
前記第１のモダリティの前記埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、前記第２のモダリティで出力を生成し、
前記出力に基づいて、知覚されるように構成された前記第２のモダリティの信号をレンダリングし、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
方法。
前記埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行される、請求項１に記載の方法。
前記再埋め込みは、再埋め込みネットワークによって実行される、請求項１に記載の方法。
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含む、請求項１に記載の方法。
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル（ＭＦＣ）変換を適用することを含む、請求項１に記載の方法。
前記第１のモダリティは視覚であり、前記第２のモダリティは音声である、請求項１に記載の方法。
コンピュータにより、
受信信号を第１のモダリティに埋め込みを行うステップと、
前記第１のモダリティの前記埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、前記第２のモダリティで出力を生成するステップと、
前記出力に基づいて、知覚されるように構成された前記第２のモダリティの信号をレンダリングするステップと、
を実行させるためのプログラムであって、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
プログラム。
前記埋め込みは、特徴埋め込みモデルを適用するエンコーダによって実行される、請求項７に記載のプログラム。
前記再埋め込みは、再埋め込みネットワークによって実行される、請求項７に記載のプログラム。
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含む、請求項７に記載のプログラム。
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル（ＭＦＣ）変換を適用することを含む、請求項７に記載のプログラム。
前記第１のモダリティは視覚であり、前記第２のモダリティは音声である、請求項７に記載のプログラム。
第１のモダリティを有する情報を受け付けるように構成された入力デバイスと、
第２のモダリティを有する情報を出力するように構成された出力デバイスと、
前記第１のモダリティを有する前記情報を取得し、前記第２のモダリティを有する前記情報を生成するプロセッサと、
を備え、
前記プロセッサは、
受信信号を第１のモダリティに埋め込み、
前記第１のモダリティの前記埋め込まれた受信信号を第２のモダリティの信号に再埋め込みして、前記第２のモダリティで出力を生成し、
前記出力に基づいて、知覚されるように構成された前記第２のモダリティの信号をレンダリングし、
前記埋め込み、前記再埋め込み、及び前記生成は、生成された前記出力から目標分布の実際の例を識別することに関連する敵対的学習の操作を実行すること、及び知覚距離を有する前記出力を生成することに関連する計量学習の操作を実行することによって、訓練されるモデルを適用する、
装置。
前記入力デバイスはカメラを含み、前記出力デバイスはスピーカ又はヘッドフォンを含む、請求項１３に記載の装置。
前記第１のモダリティは視覚であり、前記第２のモダリティは音声である、請求項１３に記載の装置。
前記入力デバイス及び前記出力デバイスは、ウェアラブルデバイスに取り付けられる、請求項１３に記載の装置。
前記ウェアラブルデバイスは眼鏡を含む、請求項１６に記載の装置。
前記プロセッサは、特徴埋め込みモデルを適用するエンコーダによって埋め込みを行い、再埋め込みネットワークによって再埋め込みを行うように構成される、請求項１３に記載の装置。
前記敵対的学習の実行は、識別機損失を生成するために、前記生成された出力と前記出力の実際のバージョンとを識別する識別機ネットワークに生成された前記出力を提供することを含み、
前記計量学習の実行は、前記知覚距離の決定に関連する計量損失関数を生成するために、メル周波数ケプストラル（ＭＦＣ）変換を適用することを含む、
請求項１３に記載の装置。
前記第１のモダリティと前記第２のモダリティとの間のマッピングを学習するために、注釈付きデータを必要としない、請求項１３に記載の装置。