JP2007528031A

JP2007528031A - 音声および映像ソースデータを分離および評価する技術

Info

Publication number: JP2007528031A
Application number: JP2007503119A
Authority: JP
Inventors: ネフィアン、アラ; ラジャラム、シャムサンダー
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-03-30
Filing date: 2005-03-25
Publication date: 2007-10-04
Anticipated expiration: 2025-03-25
Also published as: KR101013658B1; CN1930575A; US20050228673A1; EP1730667A1; WO2005098740A1; KR20080088669A; KR20070004017A; JP5049117B2; CN1930575B

Abstract

音声および映像を、分離および評価する方法、システム、および装置が提供される。音声および映像はキャプチャされ、１人以上の話し手の発言を検出することを目的として映像が評価される。視覚的特徴は、発言する話し手に関連付けられる。音声および映像は分離され、各話し手に関連する音声を分離すること、および、音声に関連するノイズを除去することを目的として、対応する音声の一部が視覚的特徴にマッチングされる。

Description

本発明の実施形態は、概して、音声認識に関する。本発明の実施形態は、特に、音声処理を改善するために音声と共に視覚的特徴を使用する技術に関する。

音声認識は、ソフトウェア技術の分野において進歩を続けている。その進歩の大部分は、ハードウェアの改善により可能となっている。例えば、プロセッサは、より高速かつ入手しやすくなり、また、メモリのサイズは、より大きくなって、プロセッサ内におけるメモリのサイズもより大きくなった。その結果、処理デバイスおよびメモリデバイス内において音声を正確に検出して処理する技術は、大きく進歩した。

しかし、多くの強力なプロセッサおよび豊富なメモリをもってしても、音声認識は、多くの点において問題を抱えている。例えば、特定の話し手から音声がキャプチャされた場合、話し手の環境に関連する多様なバックグラウンドノイズが存在することが多い。このバックグラウンドノイズは、いつ話し手が実際に話しているのかを検出することを困難にし、また、無視されるべきバックグランドノイズに起因するキャプチャされた音声の部分に対して、話し手に起因するキャプチャされた音声の部分を検出することを困難にする。

音声認識システムによって１人以上の話し手が監視されているとき、他の問題が生じる。この問題は、ビデオ会議中のような、２人以上の人間が会話しているときに生じる。音声は、会話の中から正確に収集されうるが、複数の話し手の中の特定の１人に対して正確に関連付けられることができない。また、複数の話し手が存在するような環境では、２人以上の話し手が実際に同時に発言して、既存および従来の音声認識システムに対して重大な分解能の問題を引き起こす状況となりうる。

従来の音声認識技術の多くは、いくつかの判定および分解を行うために、主にキャプチャされた音声に注目して、ソフトウェアによる広範な分析を使用することにより、上述の問題および他の問題の解決を試みてきた。しかし、音声が発生するとき、話し手には視覚的な変化も発生する。すなわち、話し手の口が上下に動く。これらの視覚的特徴は、従来の音声認識技術を拡張すること、および、より強固かつ正確な音声認識技術を生み出すことを目的として使用されることができる。

このため、音声および映像の分離および評価を同時に行う、改良された音声認識技術が必要とされている。

音声および映像の、分離および評価を行う方法を示すフロー図である。

図１Ａの方法から生成されるモデル・パラメータを有する、ベイジアン・ネットワークの一例を示す図である。

音声および映像の、分離および評価を行うもう１つの方法を示すフロー図である。

音声および映像の、分離および評価を行う他のもう１つの方法を示すフロー図である。

音声および映像のソースを、分離および分析するシステムを示す図である。

音声および映像のソースを、分離および分析する装置を示す図である。

図１Ａは、音声および映像を、分離および評価する１つの方法１００Ａを示すフロー図である。この方法は、コンピュータアクセス可能な媒体において実装される。一実施形態では、この処理は、１つ以上のプロセッサ上に存在して実行される、１つ以上のソフトウェア・アプリケーションである。いくつかの実施形態では、ソフトウェア・アプリケーションは、配布することを目的としてリムーバブルのコンピュータ読み取り可能な媒体に埋め込まれ、処理デバイスと接続された場合、実行することを目的として処理デバイスにロードされる。他の実施形態では、ソフトウェア・アプリケーションは、サーバまたはリモートサービスのような、ネットワーク上のリモート処理デバイスにおいて実行される。

更に他の実施形態では、ソフトウェア命令群の１つ以上の部分は、ネットワーク上のリモート・デバイスからダウンロードされ、ローカル処理デバイス上にインストールされて実行される。ソフトウェア命令群へのアクセスは、いかなるハード・ワイヤード・ネットワーク、ワイヤレス・ネットワーク、またはハード・ワイヤード・ネットワークとワイヤレス・ネットワークの組み合わせによっても行うことができる。更に、一実施形態では、方法の処理のいくつかの部分は、処理デバイスのファームウェア内、または、処理デバイス上で実行されるオペレーティング・システム内に実装されてもよい。

最初に、１つまたは複数のカメラおよび１つまたは複数のマイクロフォンが処理デバイスに接続された、方法１００Ａを有する環境が提供される。いくつかの実施形態では、カメラおよびマイクロフォンは、同一のデバイス内に組み込まれる。他の実施形態では、カメラ、マイクロフォン、および方法１００Ａを有する処理デバイスの全ては、処理デバイス内に統合される。カメラおよび／またはマイクロフォンが方法１００Ａを実行する処理デバイスに直接統合されない場合、映像および音声は、全てのハード・ワイヤード、ワイヤレス、またはハード・ワイヤードとワイヤレスとの組み合わせの接続または切替によって、プロセッサに伝達されることができる。カメラは、映像を電気的にキャプチャ（例：時間とともに変化する複数の画像）し、マイクロフォンは、音声を電気的にキャプチャする。

方法１００Ａを処理する目的は、１人以上の話し手に関連する音声（会話音声）を正確に関連付けるベイジアン・ネットワークに関連するパラメータを学習すること、および、話し手の環境に関連するノイズをより正確に識別して除外することである。これを行うために、この方法は、トレーニング・セッション中に、１つまたは複数のマイクロフォンによって電気的にキャプチャされた話し手に関連する音声と、１つまたは複数のカメラによって電気的にキャプチャされた話し手に関連する映像とをサンプリングする。音声映像データシーケンスは、Ｔが０より大きい整数である場合、時間０から開始し時間Ｔまで継続する。時間の単位は、ミリ秒、マイクロ秒、秒、分、時間などでもよい。トレーニング・セッションの長さおよび時間の単位は、方法１００Ａについての設定可能なパラメータであり、本発明のいかなる特定の実施形態によっても限定されない。

１１０において、カメラは、カメラの視界に存在する１人以上の話し手に関連する映像をキャプチャする。映像は、フレームに関連付けられる。そして、各フレームは、トレーニング・セッション中の特定の時間単位に関連付けられる。映像がキャプチャされるのと同時に、マイクロフォンは、１１１において、話し手に関連する音声をキャプチャする。１１０および１１１において、映像および音声は、方法１００Ａを実行する処理デバイスにアクセス可能な環境内において、電気的にキャプチャされる。

映像フレームがキャプチャされるにつれて、１１２において、フレーム内にキャプチャされた話し手の顔および口を検出することを目的として、映像フレームは、分析または評価される。各フレーム内の顔および口の検出は、いつフレームが話し手の口が動いていることを示すか、および、いつ話し手の口が動いていないのかを判定することを目的として、実行される。最初に顔を検出することは、分析される各フレームのピクセル領域を話し手の顔として識別される領域に限定することによって、口に関連する動作の検出における複雑さを軽減することを支援する。

一実施形態では、顔の検出は、フレーム内の顔を識別するようにトレーニングされたニューラル・ネットワークを使用することによって、実現される。ニューラル・ネットワークへの入力は、複数のピクセルを有するフレームであり、出力は、話し手の顔を識別する、元のフレームより少ない数のピクセルを有する元のフレームの小さい部分である。そして、顔を表現するピクセルは、顔の中の口を識別して、各顔の口における変化を監視するピクセル・ベクトル・マッチング分類器に転送される。その後、各顔の口における変化は、分析することを目的として提供される。

これを行う技術の１つは、連続するフレームにおいて発生する絶対的な差異が設定可能な閾値を増加させるように、口の領域をなすピクセルの総数を計算することである。閾値は、設定可能であって、閾値が超えられた場合は口が動いたことを示し、閾値が超えられない場合は口が動いていないことを示す。処理されたフレームのシーケンスは、視覚的特徴に関連するバイナリ・シーケンスを生成することを目的として、閾値を有する設定可能なフィルタサイズ（例：９またはその他）によってローパスフィルタされることができる。

１１３において、視覚的特徴は、生成され、動いている口を有するフレームを示すこと、および、動いていない口を有するフレームを示すことを目的として、フレームに関連付けられる。この方法によって、キャプチャされた映像のフレームが処理されるにつれて、各フレームは、いつ話し手の口が動いているのか、および、いつ話し手の口が動いていないのかを判定することを目的として、追跡記録および監視される。

映像フレーム内でいつ話し手が発言しているかおよび発言していないかを識別することを目的とした上述の技術例は、本発明の実施形態を限定することを意図しない。これらの実施例は、本発明を説明することを目的として提供され、以前に処理したフレームと比較して、フレーム内の口が動いているとき、または、動いていないときを識別することを目的として使用される全ての技術は、本発明の実施形態の範囲に含まれることが意図される。

１２０において、ミックスされた音声および映像は、マイクロフォンからの音声データと、視覚的特徴との両方を使用することによって、互いに分離される。音声は、アップサンプルされた、キャプチャされた映像のフレームに直接対応する、タイムラインに関連付けられる。映像フレームは、音声信号とは異なるレートでキャプチャされる（現在のデバイスは、概して、３０ｆｐｓ（フレーム／秒）での映像キャプチャを可能にしており、音声は、１４．４Ｋｆｐｓ（キロ（１０００）フレーム／秒）でキャプチャされる）ことに注意すべきである。更に、映像の各フレームは、いつ話し手の口が動いているのか、および、動いていないのかを識別する、視覚的特徴を含む。次に、話し手の口が動いていることを示す視覚的特徴を有する、対応するフレームと同一のタイムスライスにおける音声が選択される。すなわち、１３０において、フレームに関連する視覚的特徴は、フレームおよび音声の両方に関連する、同一のタイムスライスにおける音声とマッチングされる。

この結果、話し手が発言しているときの音声が反映されるので、音声分析に使用することを目的とした、より正確な音声表現が得られる。更に、カメラによって１人より多い話し手がキャプチャされている場合、音声は、特定の話し手に関連付けられることができる。これは、独特な音声の特徴に関連する１人の話し手の音声が、異なる音声の特徴に関連する他の話し手の音声から識別されることを可能にする。更に、他のフレーム（口の動作を示さないフレーム）からの潜在的なノイズは、その周波数帯域と共に容易に識別されることができ、話し手が発言している場合、話し手に関連する周波数帯域から削除されることができる。これにより、音声のより正確な反映が、実現され、かつ、話し手の環境からフィルタリングされる。また、２人の話し手が同時に発言しているときでさえも、複数の異なる話し手に関連する音声は、より正確に識別可能となる。

音声および映像を正確に分離すること、および、音声を特定の話し手による音声の選択部分に正確に再マッチングすることに関連する属性およびパラメータは、この分離および再マッチングをベイジアン・ネットワークとしてモデル化することを目的として、形式化および表現されることができる。例えば、音声および映像の観察は、Ｍがマイクロフォンの数であるときのミックスされた音声の観察Ｘ_ｊｔ，ｊ＝１−Ｍと、Ｎが音声映像ソースまたは話し手の数であるときの視覚的特徴Ｗ_ｉｔ，ｉ＝１−Ｎとの積として得られる、Ｚ_ｉｔ＝［Ｗ_ｉｔＸ_ｌｔ...Ｗ_ｉｔＸ_Ｍｔ］^Ｔ，ｔ＝１−Ｔ（Ｔは整数）として表現されることができる。この音声の選択および視覚的観察は、視覚的な会話が観察されない場合における音声信号の急激な削減を可能にすることによって、音声的な静寂の検出を改善する。音声および視覚的な会話をミックスする処理は、下記の方程式によって表わすことができる。

方程式（１）から（５）では、Ｓ_ｉｔは、時間ｔにおけるｉ番目の話し手に対応する音声のサンプルであり、Ｃ_ｓは、音声サンプルの共分散行列である。方程式（１）は、音声ソースの統計的な独立性を表す。方程式（２）は、平均０のガウス密度関数を表し、共分散Ｃ_ｓは、各ソースの音声サンプルを表す。方程式（３）におけるパラメータｂは、同一の話し手に対応する、連続する音声サンプル間の直線関係を表し、Ｃ_ｓｓは、連続する時間の瞬間における、音声サンプルの共分散行列である。方程式（４）は、Ａ＝［ａ_ｉｊ］，Ｉ＝１−Ｎ，ｊ＝１−Ｍが、音声ミックス行列であり、Ｃ_ｘが、ミックスされた、観察された音声信号の共分散行列であるときの、音声ミックス処理を表すガウス密度関数を示す。Ｖ_ｉは、音声および映像の観察Ｚ_ｉｔを未知の独立したソース信号に関係付けるＭＸＮ行列であり、Ｃ_ｚは、音声および映像の観察Ｚ_ｉｔの共分散行列である。この音声と映像のベイジアン・ミックス・モデルは、ソースの独立性制約（上記方程式（１）に示される）を有する、カルマンフィルタとして考えられることができる。モデル・パラメータを学習する際に、音声観察を洗練させることは、行列Ａの初期推定値を提供する。モデル・パラメータＡ、Ｖ、ｂ_ｉ、Ｃ_ｓ、Ｃ_ｓｓ、およびＣ_ｚは、最尤推定法を使用することによって学習される。更に、ソースは、制約されたカルマンフィルタおよび学習されたパラメータを使用して、推定される。これらのパラメータは、視覚的観察およびノイズの観点から話し手の発言をモデル化する、ベイジアン・ネットワークを設定するために使用されることができる。モデル・パラメータを有するベイジアン・ネットワークのサンプルは、図１Ｂの１００Ｂに示される。

図２は、音声および映像を、分離および評価する他の方法２００を示すフロー図である。方法２００は、コンピュータ読み取り可能およびアクセス可能な媒体において実装される。方法２００の処理は、全てまたは部分的に、リムーバブルなコンピュータ読み取り可能な媒体上、オペレーティング・システム内、ファームウェア内、方法２００を実行する処理デバイスに関連するメモリまたはストレージ内、または、方法がリモートサービスとして動作するリモート処理デバイス内に実装されることができる。方法２００に関連する命令群は、ネットワークによってアクセスされることができ、ネットワークは、ハード・ワイヤード、ワイヤレス、またはハード・ワイヤードおよびワイヤレスの組み合わせであってもよい。

最初に、カメラおよびマイクロフォン、または、複数のカメラおよびマイクロフォンは、１人以上の話し手に関連する映像および音声を監視およびキャプチャするように設定される。２１０において、音声および映像情報は、電気的にキャプチャまたは記録される。次に、２１１において、映像は音声から分離されるが、映像と音声は、後の段階において必要に応じて映像および音声がリミックスされることができるように、映像の各フレームおよび記録された音声の各断片と時間とを関連付けるメタデータを維持する。例えば、映像のフレーム１は、時間１に関連付けられることができ、時間１には、音声に関連する音声断片１が存在する。この時間依存性は、映像および音声に関連するメタデータであり、映像および音声を１つのマルチメディア・データファイルにリミックスまたは再統合することを目的として使用されることができる。

次に、２２０および２２１において、各フレームの視覚的特徴を取得して各フレームと関連付けることを目的として、映像のフレームは、分析される。視覚的特徴は、いつ話し手の口が動いているのか、または、動いていないのかを識別して、いつ話し手が発言しているかを示す視覚的な手がかりを与える。いくつかの実施形態では、２１１において映像および音声が分離される前に、視覚的特徴は、キャプチャまたは判定される。

一実施形態では、２２２において、各フレーム内の処理する必要があるピクセルを話し手の顔を表すピクセルのセットに縮小することを目的として、ニューラル・ネットワークを実行することにより、視覚的な手がかりは、映像の各フレームと関連付けられる。顔領域が識別されると、処理されたフレームの顔ピクセルは、２２３において、いつ話し手の口が動いているかまたは動いていないかを検出するフィルタリング・アルゴリズムに転送される。フィルタリング・アルゴリズムは、話し手の口が動いた（開いた）ことが検出されたときに、以前に処理されたフレームと比較して、話し手が発言していることが判定されることができるように、以前に処理されたフレームを追跡記録する。映像の各フレームに関連するメタデータは、いつ話し手の口が動いているかまたは動いていないかを識別する、視覚的特徴を有する。

全ての映像フレームが処理されると、音声および映像は、まだ分離されていない場合は、２１１において分離されることができる。その後に、２３０において、音声および映像は、互いに再マッチングまたはリミックスされることができる。マッチング処理の間、話し手の口が動いていることを示す視覚的特徴を有するフレームは、２３１において、同一のタイムスライスにおける音声とリミックスされる。例えば、映像のフレーム５は話し手が発言していることを示す視覚的特徴を有し、かつ、フレーム５は時間１０において記録されたと仮定すると、時間１０における音声断片が取得され、フレーム５とリミックスされる。

いくつかの実施形態では、２４０において、話し手が発言していることを示す視覚的特徴を有しないフレームの音声に関連する周波数帯域は、潜在的ノイズと識別されることができ、話し手が発言しているフレームにマッチングされた音声から同様のノイズを削除することを目的として、話し手が発言していることを示すフレームに対して使用されることにより、マッチング処理は、より強固にされることができる。

例えば、第１の周波数帯域が、話し手が発言していないフレーム１から９の音声内、および、話し手が発言しているフレーム１０の音声内において検出されたと仮定する。第１の周波数帯域は、フレーム１０にマッチングされた、対応する音声においても現れる。フレーム１０は、第２の周波数帯域を有する音声ともマッチングされる。このように、第１の周波数帯域はノイズであることが判定されたので、この第１の周波数帯域は、フレーム１０にマッチングされた音声から除去されることができる。この結果、フレーム１０にマッチングされた音声断片は、明らかにより正確なものとなり、この音声断片について実行される音声認識技術は、改善される。

同様に、マッチング処理は、同一フレームにおける二人の異なる話し手の発言を識別することを目的として使用されることができる。例えば、フレーム３において第１の話し手が発言し、フレーム５において第２の話し手が発言すると仮定する。次に、フレーム１０において第１および第２の話し手の両方が同時に発言すると仮定する。フレーム３に関連する音声断片は、視覚的特徴の第１のセットを有し、フレーム５における音声断片は、視覚的特徴の第２のセットを有する。このため、フレーム１０の音声断片は、それぞれ別の話し手に関連付けられた、２つの独立したセグメントにフィルタリングされることができる。キャプチャされた音声の明瞭さを更に高めることを目的として、ノイズを除去する上記に説明された技術は、同時に発言している複数の話し手を識別するために使用される技術に対して統合または追加されてもよい。これは、音声認識システムが分析することを目的として、より信頼性の高い音声を入手することを可能にする。

いくつかの実施形態では、図１Ａに関連して上記に説明された通り、マッチング処理は、２４１において、ベイジアン・ネットワークを設定するために使用されることができるパラメータを生成することを目的として、形式化されうる。パラメータによって設定されたベイジアン・ネットワークは、それ以降、話し手と相互作用すること、ノイズを削減するために動的な判定をすること、複数の異なる話し手を識別すること、および、同時に発言している複数の異なる話し手を識別することを目的として使用されることができる。その後、ベイジアン・ネットワークは、音声が潜在的ノイズであると識別される処理の瞬間において、いくつかの音声についてフィルタアウトまたはゼロ出力を生成してもよい。

図３は、音声および映像を、分離および評価する更に他の方法３００を示すフロー図である。この方法は、ソフトウェア命令群、ファームウェア命令群、またはソフトウェアおよびファームウェア命令群の組み合わせとして、コンピュータ読み取り可能およびアクセス可能な媒体において実装される。命令群は、全てのネットワーク接続上の処理デバイス上にリモートにインストールされることができ、オペレーティング・システム内にプリインストールされることができ、または１つ以上のリムーバブルのコンピュータ読み取り可能な媒体からインストールされることができる。方法３００の命令群を実行する処理デバイスは、独立したカメラまたはマイクロフォンデバイス、マイクロフォンとカメラの複合デバイス、または、処理デバイスに統合されたカメラおよびマイクロフォンデバイスと接続する。

３１０において、発言している第１の話し手および発言している第２の話し手に関連する映像が監視される。映像が監視されると同時に、３１０Ａにおいて、第１および第２の話し手に関連する発言、および、話し手の環境に関連する全てのバックグラウンドノイズに関連する音声がキャプチャされる。映像は、話し手の画像および話し手の環境の一部をキャプチャし、音声は、話し手および話し手の環境に関連する音声をキャプチャする。

３２０において、映像は、フレームに分解され、各フレームは、それが記録された特定の時間に関連付けられる。更に、話し手の口における動きの有無を検出することを目的として、各フレームは、分析される。いくつかの実施形態では、この分析は、３２１において、フレームをより小さい断片に分解し、視覚的特徴を各フレームに関連付けることによって、実現される。視覚的特徴は、どの話し手が発言しているか、および、どの話し手が発言していないかを示す。１つのシナリオでは、この処理は、まず、処理された各フレーム内の話し手の顔を識別することを目的としてトレーニングされたニューラル・ネットワークを使用し、次に、顔を、以前に処理されたフレームと比較して顔に関連する口の動きを調査するベクトル分類またはマッチング・アルゴリズムに転送することによって実行されることができる。

３２２において、視覚的特徴を取得することを目的として各フレームが分析されたあと、音声および映像は、分離される。映像の各フレームまたは音声の各断片は、最初にキャプチャまたは記録された時間に関連するタイムスタンプを有する。このタイムスタンプは、必要に応じて音声が適切なフレームとリミックスされることを可能にし、音声が複数の話し手のうちの特定の一人に対してより正確にマッチングされることを可能にし、ノイズが低減または削除されることを可能にする。

３３０において、音声のいくつかの部分は、第１の話し手にマッチングされ、音声のいくつかの部分は、第２の話し手にマッチングされる。この処理は、処理された各フレームおよびその視覚的特徴に基づいて、多様な方法によって実行されることができる。マッチング処理は、３３１において、分離された音声および映像の時間依存性に基づいて、実行される。例えば、同一のタイムスタンプを有する音声とマッチングされた、話し手が発言していないことを示す視覚的特徴を有するフレームは、３３２において図示されるように、話し手の環境において発生しているノイズに関連する周波数帯域を識別することを目的として使用されることができる。識別されたノイズの周波数帯域は、検出された音声をより明瞭または明快にすることを目的として、フレームおよび対応する音声断片において使用されることができる。更に、１人の話し手だけが発言しているときの音声にマッチングされたフレームは、ユニークな音声的特徴を使用することにより、両方の話し手が発言している複数の異なるフレームにおいて、話し手を識別することを目的として使用されることができる。

いくつかの実施形態では、３４０において、３２０および３３０の分析および／またはマッチング処理は、後の話し手との相互作用において使用することを目的として、モデル化されることができる。すなわち、ベイジアン・ネットワークは、後の第１および第２の話し手との会議の際に、ベイジアン・モデルが音声の分離および認識を判定および改善することができるような分析およびマッチング処理を定義するパラメータによって、設定されることができる。

図４は、音声および映像のソースを、分離および分析するシステム４００を示す図である。音声および映像のソースを、分離および分析するシステム４００は、コンピュータアクセス可能な媒体において実装され、図１Ａから３それぞれの方法１００Ａ、２００、および３００に関連して上記に説明された技術を実装する。すなわち、音声および映像のソースを分離および分析するシステム４００は、動作しているとき、映像内で話し手から発せられる音声と合わせて、話し手に関連する映像を評価する技術を使用することによって、音声の認識を改善する。

音声および映像のソースを分離および分析するシステム４００は、カメラ４０１、マイクロフォン４０２、および処理デバイス４０３を有する。いくつかの実施形態では、３つのデバイス４０１から４０３は、１つの複合デバイスに統合される。他のいくつかの実施形態では、３つのデバイス４０１から４０３は、ローカルまたはネットワーク接続によって、互いに接続され通信する。通信は、ハード・ワイヤ接続、ワイヤレス接続、またはハード・ワイヤおよびワイヤレスの組み合わせの接続によって実行されることができる。更に、いくつかの実施形態では、カメラ４０１およびマイクロフォン４０２は、１つの複合デバイス（例：ビデオカムコーダなど）に統合され、処理デバイス４０３に接続される。

処理デバイス４０３は、上述の図１Ａから３それぞれの方法１００Ａ、２００、および３００の技術を実装する、命令群４０４を有する。命令群は、プロセッサ４０３およびそれに関連するメモリまたは通信命令群によって、映像をカメラ４０１から受信し、音声をマイクロフォン４０２から受信する。映像は、発言しているまたは発言していない１人以上の話し手のフレームを表現し、音声は、バックグランドノイズに関連する音声および話し手に関連する音声を表現する。

命令群４０４は、視覚的特徴を各フレームと関連付けることを目的として、音声の各フレームを分析する。視覚的特徴は、いつ特定の話し手または両方の話し手が発言しているのか、および、いつ話し手が発言していないのかを識別する。いくつかの実施形態では、命令群４０４は、他のアプリケーションまたは命令群のセットと協力して、上述の機能を実現する。例えば、各フレームは、トレーニングされたニューラル・ネットワーク・アプリケーション４０４Ａによって識別された、話し手の顔を有することができる。フレーム内の顔は、顔の口が動いているかどうかまたは動いていないかどうかを検出することを目的として、以前処理されたフレームの顔と比較してフレーム内の顔を評価する、ベクトル・マッチング・アプリケーション４０４Ｂに転送されることができる。

命令群４０４は、視覚的特徴が映像の各フレームと関連付けられた後、音声と映像フレームを分離する。各音声断片および映像フレームは、タイムスタンプを有する。タイムスタンプは、カメラ４０１、マイクロフォン４０２、またはプロセッサ４０３によって割り当てられてもよい。あるいは、命令群４０４が音声および映像を分離した場合、命令群４０４は、そのときのタイムスタンプを割り当てる。タイムスタンプは、分離された音声および映像をリミックスおよび再マッチングするために使用されることができる、時間依存性を提供する。

次に、命令群４０４は、フレームおよび音声断片を別々に評価する。このように、話し手が発言していないことを示す視覚的特徴を有するフレームは、潜在的ノイズを識別することを目的として、マッチングする音声断片およびそれに対応する周波数帯域を識別するために使用されることができる。潜在的ノイズは、音声断片の明瞭さを改善することを目的として、話し手が発言していることを示す視覚的特徴を有するフレームから除去されることができ、この明瞭さは、音声断片を評価する音声認識システムを改善する。命令群４０４は、また、各個人の話し手に関連するユニークな音声的特徴を評価および識別することを目的として使用されることができる。また、これらのユニークな音声的特徴は、１つの音声断片を、それぞれユニークな話し手に関連するユニークな音声的特徴を有する、２つの音声断片に分割することを目的として使用されることができる。このように、命令群４０４は、複数の話し手が同時に発言しているとき、個々の話し手を検出することができる。

いくつかの実施形態では、命令群４０４がカメラ４０１およびマイクロフォン４０２による１人以上の話し手との相互作用から学習して実行する処理は、ベイジアン・ネットワーク・アプリケーション４０４Ｃ内に設定されることができるパラメータデータに形式化されることができる。これは、後の話し手との会話セッションにおいて、命令群４０４に依存することなく、ベイジアン・ネットワーク・アプリケーション４０４Ｃがカメラ４０１、マイクロフォン４０２、およびプロセッサ４０３と相互作用することを可能にする。話し手が新しい環境にいる場合は、命令群４０４は、ベイジアン・ネットワーク・アプリケーション４０４Ｃによって、自身の性能を向上することを目的として、再度使用されることができる。

図５は、音声および映像のソースを分離および分析する装置５００を示す図である。音声および映像のソースを分離および分析する装置５００は、コンピュータ読み取り可能な媒体５０１に存在し、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアの組み合わせとして実装される。音声および映像のソースを分離および分析する装置５００は、１つ以上の処理デバイスにロードされると、会話が行われているときに同時に監視される音声を組み込むことよって、１人以上の話し手に関連する音声の認識を改善する。音声および映像のソースを分離および分析する装置５００は、１つ以上のコンピュータ・リムーバブル・メディアまたはリモート・ストレージ・ロケーションに存在することができ、後に、実行することを目的として処理デバイスに転送される。

音声および映像のソースを分離および分析する装置５００は、音声映像ソース分離ロジック５０２、顔検出ロジック５０３、口検出ロジック５０４、および音声映像マッチング・ロジック５０５を有する。顔検出ロジック５０３は、映像のフレーム内における顔のロケーションを検出する。一実施形態では、顔検出ロジック５０３は、ピクセルのフレームを受け取って、そのピクセルのサブセットを顔または複数の顔として識別するように設計された、トレーニングされたニューラル・ネットワークである。

口検出ロジック５０４は、顔に関連するピクセルを受け取って、その顔の口に関連するピクセルを識別する。口検出ロジック５０４は、また、いつ顔の口が動いたかまたは動いていないかを判定することを目的として、複数の顔のフレームを互いに比較して評価する。口検出ロジック５０４の結果は、視覚的特徴として映像の各フレームに関連付けられ、それは、音声映像マッチング・ロジックによって使用される。

口検出ロジック５０４が視覚的特徴を映像の各フレームに関連付けると、音声映像分離ロジック５０３は、映像を音声から分離する。いくつかの実施形態では、音声映像分離ロジック５０３は、口検出ロジック５０４が各フレームを処理する前に、映像を音声から分離する。映像の各フレームおよび音声の各断片は、タイムスタンプを有する。これらのタイムスタンプは、音声映像分離ロジック５０２によって音声および映像が分離される際に割り当てられてもよく、または、映像をキャプチャするカメラおよび音声をキャプチャするマイクロフォンのような、他の処理によって割り当てられてもよい。あるいは、映像および音声をキャプチャするプロセッサは、映像および音声をタイムスタンプすることを目的として、命令群を使用することができる。

音声映像マッチング・ロジック５０５は、独立した、タイムスタンプされた映像フレームおよび音声のストリームを受信する。映像フレームは、口検出ロジック５０４によって割り当てられた関連する視覚的特徴を有する。各フレームおよび断片は、ノイズを識別すること、および、特定かつユニークな話し手に関連する音声を識別することを目的として、評価される。このマッチング処理および選択的なリミックス処理に関連するパラメータは、話し手の発言をモデル化するベイジアン・ネットワークを設定するために使用されることができる。

音声および映像ソースを分離および分析する装置５００のいくつかのコンポーネントは、他のコンポーネントに統合されることができ、また、図５に含まれない追加のコンポーネントが追加されることができる。このため、図５は、本発明の実施形態を説明することのみを目的として提供され、本発明の実施形態を限定しない。

上述の説明は、限定的ではなく説明的である。上記の説明を読解することにより、当業者には多くの他の実施形態が明白となる。このため、本発明の実施形態の範囲は、添付の特許請求の範囲および特許請求の範囲の均等物の全ての範囲によって決定される。

３７Ｃ．Ｆ．Ｒ．１．７２（ｂ）に従うために、読者が技術的な開示内容の本質および要旨を手早く理解することを可能にする要約が提供される。要約は、特許請求の範囲または意味を解釈するためまたは限定するために使用されないことを想定して、提出される。

実施形態に関する上述の説明では、本開示内容を簡潔にすることを目的として、種々の特徴が１つの実施形態にまとめられている。本開示内容の方法は、特許請求される本発明の実施形態が各特許請求項において明示的に示される機能より多くの機能を必要とするというように解釈されるべきではない。むしろ、添付の特許請求の範囲が示すように、本発明の特許請求の範囲は、開示された１つの実施形態の全ての特徴よりも狭い範囲である。このように、各特許請求項が独立する典型的な実施形態として自立する、添付の特許請求の範囲は、実施形態の詳細な説明に組み込まれる。

Claims

発言する話し手に関連する視覚的特徴を電気的にキャプチャすることと、
音声を電気的にキャプチャすることと、
前記音声の選択部分と前記視覚的特徴とをマッチングすることと、
前記音声の前記残りの部分を前記話し手に関連しない潜在的ノイズとして識別することと、
を備える方法。
別の発言する話し手に関連する追加の視覚的特徴を電気的にキャプチャすることと、
前記潜在的ノイズに含まれる前記音声の前記残りの部分のいくつかと、前記追加の発言する話し手とをマッチングすることと、
を更に備える請求項１に記載の方法。
前記マッチングすることおよび前記識別することに関連するパラメータを生成し、発言する話し手をモデル化するベイジアン・ネットワークに前記パラメータを提供することを更に備える請求項１に記載の方法。
前記視覚的特徴を電気的にキャプチャすることは、発言する前記話し手に関連する電気的映像に対して、前記話し手の顔を検出および監視するようにトレーニングされたニューラル・ネットワークを実行することを更に有する請求項１に記載の方法。
前記話し手の口における動きの有無を検出するために、前記話し手の前記検出された顔をフィルタリングすることを更に備える請求項４に記載の方法。
前記マッチングすることは、前記キャプチャされた視覚的特徴の一部と、同一のタイムスライスにおける前記キャプチャされた音声の一部とを比較することを更に有する請求項１に記載の方法。
前記キャプチャされた視覚的特徴の選択部分が前記話し手は発言していないことを示す間、音声の前記キャプチャをサスペンドすることを更に備える請求項１に記載の方法。
第１の話し手および第２の話し手の電気的映像を監視することと、
発言する前記第１および第２の話し手に関連する音声を同時にキャプチャすることと、
いつ前記第１および第２の話し手がそれぞれ各自の口を動かしているかどうかを検出するために、前記映像を分析することと、
前記分析に基づいて、前記キャプチャされた音声の一部を前記第１の話し手にマッチングし、前記キャプチャされた音声の他の部分を前記第２の話し手にマッチングすることと、
を備える方法。
後の前記第１および第２の話し手との相互作用のために、前記分析をモデル化することを更に備える請求項８に記載の方法。
分析することは、前記第１および第２の話し手の顔を検出するためにニューラル・ネットワークを実行すること、および、いつ前記第１および第２の話し手の各自の口が動いているかまたは動いていないかを検出するためにベクトル分類アルゴリズムを実行することを更に備える請求項８に記載の方法。
分析の準備において、前記電気的映像を前記同時にキャプチャされた音声から分離することを更に備える請求項８に記載の方法。
前記分析が前記第１および第２の話し手の前記口が動いていることを検出しないとき、音声の前記キャプチャをサスペンドすることを更に備える請求項８に記載の方法。
前記キャプチャされた音声の選択部分が前記第１の話し手または前記第２の話し手にマッチングされない場合、前記キャプチャされた音声の前記選択部分をノイズとして識別することを更に備える請求項８に記載の方法。
マッチングすることは、前記電気的映像の選択部分が監視されたとき、および、前記音声の選択部分がキャプチャされたときに関連する時間依存性を識別することを更に備える請求項８に記載の方法。
カメラと、
マイクロフォンと、
処理デバイスと
を備え、
前記カメラは、話し手の映像をキャプチャして前記映像を前記処理デバイスに伝達し、
前記マイクロフォンは、前記話し手および前記話し手に関連する環境に関連する音声をキャプチャして前記音声を前記処理デバイスに伝達し、
前記処理デバイスは、前記話し手が発言しているときの前記映像の視覚的特徴を識別し、前記音声の一部を前記視覚的特徴にマッチングするために時間依存性を使用する命令群を有する
システム。
前記キャプチャされた映像は、第２の話し手の画像、および、前記第２の話し手に関連する発言を含む音声を有し、前記命令群は、前記視覚的特徴のいくつかが前記第２の話し手が発言していることを示すとき、前記音声のいくつかの部分と前記第２の話し手とをマッチングする請求項１５に記載のシステム。
前記命令群は、前記キャプチャされた映像から前記話し手の顔を検出するために、ニューラル・ネットワークと相互作用する請求項１５に記載のシステム。
前記命令群は、前記キャプチャされた映像内において、いつ前記顔に関連する口が動いたのか、または、動かないのかを検出するために、ピクセル・ベクトル・アルゴリズムと相互作用する請求項１７に記載のシステム。
前記命令群は、後の相互作用において、いつ前記話し手が発言しているかを判定するため、および、発言する前記話し手に関連する適切な音声を判定するために、前記話し手との後の相互作用をモデル化するベイジアン・ネットワークを設定するパラメータデータを生成する請求項１８に記載のシステム。
命令群が保存されたマシンアクセス可能な媒体であって、
前記命令群は、マシンによりアクセスされることによって、
発言する話し手に関連する音声および映像を分離し、
前記話し手の口が動いていること、または、動いていないことを示す視覚的特徴を前記映像から識別し、
前記音声の一部を、前記口が動いていることを示す前記視覚的特徴の選択部分に関連付ける
媒体。
前記音声の他の部分を、前記口が動いていないことを示す、前記視覚的特徴の他の部分に関連付ける命令群を更に有する請求項２０に記載の媒体。
前記命令群は、
他の話し手の他の口が動いていること、または、動いていないことを示す第２の視覚的特徴を前記映像から識別し、
前記音声の他の部分を、前記他の口が動いていることを示す前記第２の視覚的特徴の選択部分に関連付ける
命令をさらに有する請求項２０に記載の媒体。
識別するための前記命令群は、
前記話し手の顔を検出するためにニューラル・ネットワークを実行し、
前記検出された顔の中において前記話し手の前記口の動きを検出するためにベクトル・マッチング・アルゴリズムを実行する
命令群を更に有する請求項２０に記載の媒体。
関連付けるための前記命令群は、前記音声の前記部分がキャプチャされた時間、および、前記映像内の前記視覚的特徴の前記選択部分がキャプチャされた時間に関連する同一のタイムスライスをマッチングする命令群を更に有する請求項２０に記載の媒体。
顔検出ロジックと、
口検出ロジックと、
音声映像マッチング・ロジックと
を備え、
前記顔検出ロジックは、映像内で話し手の顔を検出し、
前記口検出ロジックは、前記映像の前記顔に含まれる口の動きの有無を検出および監視し、
前記映像マッチング・ロジックは、キャプチャされた音声の一部と、前記口検出ロジックによって識別された全ての口の動作とをマッチングする
コンピュータアクセス可能な媒体に存在する装置。
前記装置は、発言する前記話し手をモデル化するベイジアン・ネットワークを設定するために使用される請求項２５に記載の装置。
前記顔検出ロジックは、ニューラル・ネットワークを備える請求項２５に記載の装置。
前記装置は、処理デバイス上に存在し、前記処理デバイスは、カメラおよびマイクロフォンに接続される請求項２５に記載の装置。