JP2007528031A - 音声および映像ソースデータを分離および評価する技術 - Google Patents

音声および映像ソースデータを分離および評価する技術 Download PDF

Info

Publication number
JP2007528031A
JP2007528031A JP2007503119A JP2007503119A JP2007528031A JP 2007528031 A JP2007528031 A JP 2007528031A JP 2007503119 A JP2007503119 A JP 2007503119A JP 2007503119 A JP2007503119 A JP 2007503119A JP 2007528031 A JP2007528031 A JP 2007528031A
Authority
JP
Japan
Prior art keywords
speaker
video
audio
mouth
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007503119A
Other languages
English (en)
Other versions
JP5049117B2 (ja
Inventor
ネフィアン、アラ
ラジャラム、シャムサンダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2007528031A publication Critical patent/JP2007528031A/ja
Application granted granted Critical
Publication of JP5049117B2 publication Critical patent/JP5049117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Burglar Alarm Systems (AREA)
  • Emergency Alarm Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

音声および映像を、分離および評価する方法、システム、および装置が提供される。音声および映像はキャプチャされ、1人以上の話し手の発言を検出することを目的として映像が評価される。視覚的特徴は、発言する話し手に関連付けられる。音声および映像は分離され、各話し手に関連する音声を分離すること、および、音声に関連するノイズを除去することを目的として、対応する音声の一部が視覚的特徴にマッチングされる。

Description

本発明の実施形態は、概して、音声認識に関する。本発明の実施形態は、特に、音声処理を改善するために音声と共に視覚的特徴を使用する技術に関する。
音声認識は、ソフトウェア技術の分野において進歩を続けている。その進歩の大部分は、ハードウェアの改善により可能となっている。例えば、プロセッサは、より高速かつ入手しやすくなり、また、メモリのサイズは、より大きくなって、プロセッサ内におけるメモリのサイズもより大きくなった。その結果、処理デバイスおよびメモリデバイス内において音声を正確に検出して処理する技術は、大きく進歩した。
しかし、多くの強力なプロセッサおよび豊富なメモリをもってしても、音声認識は、多くの点において問題を抱えている。例えば、特定の話し手から音声がキャプチャされた場合、話し手の環境に関連する多様なバックグラウンドノイズが存在することが多い。このバックグラウンドノイズは、いつ話し手が実際に話しているのかを検出することを困難にし、また、無視されるべきバックグランドノイズに起因するキャプチャされた音声の部分に対して、話し手に起因するキャプチャされた音声の部分を検出することを困難にする。
音声認識システムによって1人以上の話し手が監視されているとき、他の問題が生じる。この問題は、ビデオ会議中のような、2人以上の人間が会話しているときに生じる。音声は、会話の中から正確に収集されうるが、複数の話し手の中の特定の1人に対して正確に関連付けられることができない。また、複数の話し手が存在するような環境では、2人以上の話し手が実際に同時に発言して、既存および従来の音声認識システムに対して重大な分解能の問題を引き起こす状況となりうる。
従来の音声認識技術の多くは、いくつかの判定および分解を行うために、主にキャプチャされた音声に注目して、ソフトウェアによる広範な分析を使用することにより、上述の問題および他の問題の解決を試みてきた。しかし、音声が発生するとき、話し手には視覚的な変化も発生する。すなわち、話し手の口が上下に動く。これらの視覚的特徴は、従来の音声認識技術を拡張すること、および、より強固かつ正確な音声認識技術を生み出すことを目的として使用されることができる。
このため、音声および映像の分離および評価を同時に行う、改良された音声認識技術が必要とされている。
音声および映像の、分離および評価を行う方法を示すフロー図である。
図1Aの方法から生成されるモデル・パラメータを有する、ベイジアン・ネットワークの一例を示す図である。
音声および映像の、分離および評価を行うもう1つの方法を示すフロー図である。
音声および映像の、分離および評価を行う他のもう1つの方法を示すフロー図である。
音声および映像のソースを、分離および分析するシステムを示す図である。
音声および映像のソースを、分離および分析する装置を示す図である。
図1Aは、音声および映像を、分離および評価する1つの方法100Aを示すフロー図である。この方法は、コンピュータアクセス可能な媒体において実装される。一実施形態では、この処理は、1つ以上のプロセッサ上に存在して実行される、1つ以上のソフトウェア・アプリケーションである。いくつかの実施形態では、ソフトウェア・アプリケーションは、配布することを目的としてリムーバブルのコンピュータ読み取り可能な媒体に埋め込まれ、処理デバイスと接続された場合、実行することを目的として処理デバイスにロードされる。他の実施形態では、ソフトウェア・アプリケーションは、サーバまたはリモートサービスのような、ネットワーク上のリモート処理デバイスにおいて実行される。
更に他の実施形態では、ソフトウェア命令群の1つ以上の部分は、ネットワーク上のリモート・デバイスからダウンロードされ、ローカル処理デバイス上にインストールされて実行される。ソフトウェア命令群へのアクセスは、いかなるハード・ワイヤード・ネットワーク、ワイヤレス・ネットワーク、またはハード・ワイヤード・ネットワークとワイヤレス・ネットワークの組み合わせによっても行うことができる。更に、一実施形態では、方法の処理のいくつかの部分は、処理デバイスのファームウェア内、または、処理デバイス上で実行されるオペレーティング・システム内に実装されてもよい。
最初に、1つまたは複数のカメラおよび1つまたは複数のマイクロフォンが処理デバイスに接続された、方法100Aを有する環境が提供される。いくつかの実施形態では、カメラおよびマイクロフォンは、同一のデバイス内に組み込まれる。他の実施形態では、カメラ、マイクロフォン、および方法100Aを有する処理デバイスの全ては、処理デバイス内に統合される。カメラおよび/またはマイクロフォンが方法100Aを実行する処理デバイスに直接統合されない場合、映像および音声は、全てのハード・ワイヤード、ワイヤレス、またはハード・ワイヤードとワイヤレスとの組み合わせの接続または切替によって、プロセッサに伝達されることができる。カメラは、映像を電気的にキャプチャ(例:時間とともに変化する複数の画像)し、マイクロフォンは、音声を電気的にキャプチャする。
方法100Aを処理する目的は、1人以上の話し手に関連する音声(会話音声)を正確に関連付けるベイジアン・ネットワークに関連するパラメータを学習すること、および、話し手の環境に関連するノイズをより正確に識別して除外することである。これを行うために、この方法は、トレーニング・セッション中に、1つまたは複数のマイクロフォンによって電気的にキャプチャされた話し手に関連する音声と、1つまたは複数のカメラによって電気的にキャプチャされた話し手に関連する映像とをサンプリングする。音声映像データシーケンスは、Tが0より大きい整数である場合、時間0から開始し時間Tまで継続する。時間の単位は、ミリ秒、マイクロ秒、秒、分、時間などでもよい。トレーニング・セッションの長さおよび時間の単位は、方法100Aについての設定可能なパラメータであり、本発明のいかなる特定の実施形態によっても限定されない。
110において、カメラは、カメラの視界に存在する1人以上の話し手に関連する映像をキャプチャする。映像は、フレームに関連付けられる。そして、各フレームは、トレーニング・セッション中の特定の時間単位に関連付けられる。映像がキャプチャされるのと同時に、マイクロフォンは、111において、話し手に関連する音声をキャプチャする。110および111において、映像および音声は、方法100Aを実行する処理デバイスにアクセス可能な環境内において、電気的にキャプチャされる。
映像フレームがキャプチャされるにつれて、112において、フレーム内にキャプチャされた話し手の顔および口を検出することを目的として、映像フレームは、分析または評価される。各フレーム内の顔および口の検出は、いつフレームが話し手の口が動いていることを示すか、および、いつ話し手の口が動いていないのかを判定することを目的として、実行される。最初に顔を検出することは、分析される各フレームのピクセル領域を話し手の顔として識別される領域に限定することによって、口に関連する動作の検出における複雑さを軽減することを支援する。
一実施形態では、顔の検出は、フレーム内の顔を識別するようにトレーニングされたニューラル・ネットワークを使用することによって、実現される。ニューラル・ネットワークへの入力は、複数のピクセルを有するフレームであり、出力は、話し手の顔を識別する、元のフレームより少ない数のピクセルを有する元のフレームの小さい部分である。そして、顔を表現するピクセルは、顔の中の口を識別して、各顔の口における変化を監視するピクセル・ベクトル・マッチング分類器に転送される。その後、各顔の口における変化は、分析することを目的として提供される。
これを行う技術の1つは、連続するフレームにおいて発生する絶対的な差異が設定可能な閾値を増加させるように、口の領域をなすピクセルの総数を計算することである。閾値は、設定可能であって、閾値が超えられた場合は口が動いたことを示し、閾値が超えられない場合は口が動いていないことを示す。処理されたフレームのシーケンスは、視覚的特徴に関連するバイナリ・シーケンスを生成することを目的として、閾値を有する設定可能なフィルタサイズ(例:9またはその他)によってローパスフィルタされることができる。
113において、視覚的特徴は、生成され、動いている口を有するフレームを示すこと、および、動いていない口を有するフレームを示すことを目的として、フレームに関連付けられる。この方法によって、キャプチャされた映像のフレームが処理されるにつれて、各フレームは、いつ話し手の口が動いているのか、および、いつ話し手の口が動いていないのかを判定することを目的として、追跡記録および監視される。
映像フレーム内でいつ話し手が発言しているかおよび発言していないかを識別することを目的とした上述の技術例は、本発明の実施形態を限定することを意図しない。これらの実施例は、本発明を説明することを目的として提供され、以前に処理したフレームと比較して、フレーム内の口が動いているとき、または、動いていないときを識別することを目的として使用される全ての技術は、本発明の実施形態の範囲に含まれることが意図される。
120において、ミックスされた音声および映像は、マイクロフォンからの音声データと、視覚的特徴との両方を使用することによって、互いに分離される。音声は、アップサンプルされた、キャプチャされた映像のフレームに直接対応する、タイムラインに関連付けられる。映像フレームは、音声信号とは異なるレートでキャプチャされる(現在のデバイスは、概して、30fps(フレーム/秒)での映像キャプチャを可能にしており、音声は、14.4Kfps(キロ(1000)フレーム/秒)でキャプチャされる)ことに注意すべきである。更に、映像の各フレームは、いつ話し手の口が動いているのか、および、動いていないのかを識別する、視覚的特徴を含む。次に、話し手の口が動いていることを示す視覚的特徴を有する、対応するフレームと同一のタイムスライスにおける音声が選択される。すなわち、130において、フレームに関連する視覚的特徴は、フレームおよび音声の両方に関連する、同一のタイムスライスにおける音声とマッチングされる。
この結果、話し手が発言しているときの音声が反映されるので、音声分析に使用することを目的とした、より正確な音声表現が得られる。更に、カメラによって1人より多い話し手がキャプチャされている場合、音声は、特定の話し手に関連付けられることができる。これは、独特な音声の特徴に関連する1人の話し手の音声が、異なる音声の特徴に関連する他の話し手の音声から識別されることを可能にする。更に、他のフレーム(口の動作を示さないフレーム)からの潜在的なノイズは、その周波数帯域と共に容易に識別されることができ、話し手が発言している場合、話し手に関連する周波数帯域から削除されることができる。これにより、音声のより正確な反映が、実現され、かつ、話し手の環境からフィルタリングされる。また、2人の話し手が同時に発言しているときでさえも、複数の異なる話し手に関連する音声は、より正確に識別可能となる。
音声および映像を正確に分離すること、および、音声を特定の話し手による音声の選択部分に正確に再マッチングすることに関連する属性およびパラメータは、この分離および再マッチングをベイジアン・ネットワークとしてモデル化することを目的として、形式化および表現されることができる。例えば、音声および映像の観察は、Mがマイクロフォンの数であるときのミックスされた音声の観察Xjt,j=1−Mと、Nが音声映像ソースまたは話し手の数であるときの視覚的特徴Wit,i=1−Nとの積として得られる、Zit=[Witlt...WitMt,t=1−T(Tは整数)として表現されることができる。この音声の選択および視覚的観察は、視覚的な会話が観察されない場合における音声信号の急激な削減を可能にすることによって、音声的な静寂の検出を改善する。音声および視覚的な会話をミックスする処理は、下記の方程式によって表わすことができる。
Figure 2007528031
方程式(1)から(5)では、Sitは、時間tにおけるi番目の話し手に対応する音声のサンプルであり、Cは、音声サンプルの共分散行列である。方程式(1)は、音声ソースの統計的な独立性を表す。方程式(2)は、平均0のガウス密度関数を表し、共分散Cは、各ソースの音声サンプルを表す。方程式(3)におけるパラメータbは、同一の話し手に対応する、連続する音声サンプル間の直線関係を表し、Cssは、連続する時間の瞬間における、音声サンプルの共分散行列である。方程式(4)は、A=[aij],I=1−N,j=1−Mが、音声ミックス行列であり、Cが、ミックスされた、観察された音声信号の共分散行列であるときの、音声ミックス処理を表すガウス密度関数を示す。Vは、音声および映像の観察Zitを未知の独立したソース信号に関係付けるMXN行列であり、Cは、音声および映像の観察Zitの共分散行列である。この音声と映像のベイジアン・ミックス・モデルは、ソースの独立性制約(上記方程式(1)に示される)を有する、カルマンフィルタとして考えられることができる。モデル・パラメータを学習する際に、音声観察を洗練させることは、行列Aの初期推定値を提供する。モデル・パラメータA、V、b、C、Css、およびCは、最尤推定法を使用することによって学習される。更に、ソースは、制約されたカルマンフィルタおよび学習されたパラメータを使用して、推定される。これらのパラメータは、視覚的観察およびノイズの観点から話し手の発言をモデル化する、ベイジアン・ネットワークを設定するために使用されることができる。モデル・パラメータを有するベイジアン・ネットワークのサンプルは、図1Bの100Bに示される。
図2は、音声および映像を、分離および評価する他の方法200を示すフロー図である。方法200は、コンピュータ読み取り可能およびアクセス可能な媒体において実装される。方法200の処理は、全てまたは部分的に、リムーバブルなコンピュータ読み取り可能な媒体上、オペレーティング・システム内、ファームウェア内、方法200を実行する処理デバイスに関連するメモリまたはストレージ内、または、方法がリモートサービスとして動作するリモート処理デバイス内に実装されることができる。方法200に関連する命令群は、ネットワークによってアクセスされることができ、ネットワークは、ハード・ワイヤード、ワイヤレス、またはハード・ワイヤードおよびワイヤレスの組み合わせであってもよい。
最初に、カメラおよびマイクロフォン、または、複数のカメラおよびマイクロフォンは、1人以上の話し手に関連する映像および音声を監視およびキャプチャするように設定される。210において、音声および映像情報は、電気的にキャプチャまたは記録される。次に、211において、映像は音声から分離されるが、映像と音声は、後の段階において必要に応じて映像および音声がリミックスされることができるように、映像の各フレームおよび記録された音声の各断片と時間とを関連付けるメタデータを維持する。例えば、映像のフレーム1は、時間1に関連付けられることができ、時間1には、音声に関連する音声断片1が存在する。この時間依存性は、映像および音声に関連するメタデータであり、映像および音声を1つのマルチメディア・データファイルにリミックスまたは再統合することを目的として使用されることができる。
次に、220および221において、各フレームの視覚的特徴を取得して各フレームと関連付けることを目的として、映像のフレームは、分析される。視覚的特徴は、いつ話し手の口が動いているのか、または、動いていないのかを識別して、いつ話し手が発言しているかを示す視覚的な手がかりを与える。いくつかの実施形態では、211において映像および音声が分離される前に、視覚的特徴は、キャプチャまたは判定される。
一実施形態では、222において、各フレーム内の処理する必要があるピクセルを話し手の顔を表すピクセルのセットに縮小することを目的として、ニューラル・ネットワークを実行することにより、視覚的な手がかりは、映像の各フレームと関連付けられる。顔領域が識別されると、処理されたフレームの顔ピクセルは、223において、いつ話し手の口が動いているかまたは動いていないかを検出するフィルタリング・アルゴリズムに転送される。フィルタリング・アルゴリズムは、話し手の口が動いた(開いた)ことが検出されたときに、以前に処理されたフレームと比較して、話し手が発言していることが判定されることができるように、以前に処理されたフレームを追跡記録する。映像の各フレームに関連するメタデータは、いつ話し手の口が動いているかまたは動いていないかを識別する、視覚的特徴を有する。
全ての映像フレームが処理されると、音声および映像は、まだ分離されていない場合は、211において分離されることができる。その後に、230において、音声および映像は、互いに再マッチングまたはリミックスされることができる。マッチング処理の間、話し手の口が動いていることを示す視覚的特徴を有するフレームは、231において、同一のタイムスライスにおける音声とリミックスされる。例えば、映像のフレーム5は話し手が発言していることを示す視覚的特徴を有し、かつ、フレーム5は時間10において記録されたと仮定すると、時間10における音声断片が取得され、フレーム5とリミックスされる。
いくつかの実施形態では、240において、話し手が発言していることを示す視覚的特徴を有しないフレームの音声に関連する周波数帯域は、潜在的ノイズと識別されることができ、話し手が発言しているフレームにマッチングされた音声から同様のノイズを削除することを目的として、話し手が発言していることを示すフレームに対して使用されることにより、マッチング処理は、より強固にされることができる。
例えば、第1の周波数帯域が、話し手が発言していないフレーム1から9の音声内、および、話し手が発言しているフレーム10の音声内において検出されたと仮定する。第1の周波数帯域は、フレーム10にマッチングされた、対応する音声においても現れる。フレーム10は、第2の周波数帯域を有する音声ともマッチングされる。このように、第1の周波数帯域はノイズであることが判定されたので、この第1の周波数帯域は、フレーム10にマッチングされた音声から除去されることができる。この結果、フレーム10にマッチングされた音声断片は、明らかにより正確なものとなり、この音声断片について実行される音声認識技術は、改善される。
同様に、マッチング処理は、同一フレームにおける二人の異なる話し手の発言を識別することを目的として使用されることができる。例えば、フレーム3において第1の話し手が発言し、フレーム5において第2の話し手が発言すると仮定する。次に、フレーム10において第1および第2の話し手の両方が同時に発言すると仮定する。フレーム3に関連する音声断片は、視覚的特徴の第1のセットを有し、フレーム5における音声断片は、視覚的特徴の第2のセットを有する。このため、フレーム10の音声断片は、それぞれ別の話し手に関連付けられた、2つの独立したセグメントにフィルタリングされることができる。キャプチャされた音声の明瞭さを更に高めることを目的として、ノイズを除去する上記に説明された技術は、同時に発言している複数の話し手を識別するために使用される技術に対して統合または追加されてもよい。これは、音声認識システムが分析することを目的として、より信頼性の高い音声を入手することを可能にする。
いくつかの実施形態では、図1Aに関連して上記に説明された通り、マッチング処理は、241において、ベイジアン・ネットワークを設定するために使用されることができるパラメータを生成することを目的として、形式化されうる。パラメータによって設定されたベイジアン・ネットワークは、それ以降、話し手と相互作用すること、ノイズを削減するために動的な判定をすること、複数の異なる話し手を識別すること、および、同時に発言している複数の異なる話し手を識別することを目的として使用されることができる。その後、ベイジアン・ネットワークは、音声が潜在的ノイズであると識別される処理の瞬間において、いくつかの音声についてフィルタアウトまたはゼロ出力を生成してもよい。
図3は、音声および映像を、分離および評価する更に他の方法300を示すフロー図である。この方法は、ソフトウェア命令群、ファームウェア命令群、またはソフトウェアおよびファームウェア命令群の組み合わせとして、コンピュータ読み取り可能およびアクセス可能な媒体において実装される。命令群は、全てのネットワーク接続上の処理デバイス上にリモートにインストールされることができ、オペレーティング・システム内にプリインストールされることができ、または1つ以上のリムーバブルのコンピュータ読み取り可能な媒体からインストールされることができる。方法300の命令群を実行する処理デバイスは、独立したカメラまたはマイクロフォンデバイス、マイクロフォンとカメラの複合デバイス、または、処理デバイスに統合されたカメラおよびマイクロフォンデバイスと接続する。
310において、発言している第1の話し手および発言している第2の話し手に関連する映像が監視される。映像が監視されると同時に、310Aにおいて、第1および第2の話し手に関連する発言、および、話し手の環境に関連する全てのバックグラウンドノイズに関連する音声がキャプチャされる。映像は、話し手の画像および話し手の環境の一部をキャプチャし、音声は、話し手および話し手の環境に関連する音声をキャプチャする。
320において、映像は、フレームに分解され、各フレームは、それが記録された特定の時間に関連付けられる。更に、話し手の口における動きの有無を検出することを目的として、各フレームは、分析される。いくつかの実施形態では、この分析は、321において、フレームをより小さい断片に分解し、視覚的特徴を各フレームに関連付けることによって、実現される。視覚的特徴は、どの話し手が発言しているか、および、どの話し手が発言していないかを示す。1つのシナリオでは、この処理は、まず、処理された各フレーム内の話し手の顔を識別することを目的としてトレーニングされたニューラル・ネットワークを使用し、次に、顔を、以前に処理されたフレームと比較して顔に関連する口の動きを調査するベクトル分類またはマッチング・アルゴリズムに転送することによって実行されることができる。
322において、視覚的特徴を取得することを目的として各フレームが分析されたあと、音声および映像は、分離される。映像の各フレームまたは音声の各断片は、最初にキャプチャまたは記録された時間に関連するタイムスタンプを有する。このタイムスタンプは、必要に応じて音声が適切なフレームとリミックスされることを可能にし、音声が複数の話し手のうちの特定の一人に対してより正確にマッチングされることを可能にし、ノイズが低減または削除されることを可能にする。
330において、音声のいくつかの部分は、第1の話し手にマッチングされ、音声のいくつかの部分は、第2の話し手にマッチングされる。この処理は、処理された各フレームおよびその視覚的特徴に基づいて、多様な方法によって実行されることができる。マッチング処理は、331において、分離された音声および映像の時間依存性に基づいて、実行される。例えば、同一のタイムスタンプを有する音声とマッチングされた、話し手が発言していないことを示す視覚的特徴を有するフレームは、332において図示されるように、話し手の環境において発生しているノイズに関連する周波数帯域を識別することを目的として使用されることができる。識別されたノイズの周波数帯域は、検出された音声をより明瞭または明快にすることを目的として、フレームおよび対応する音声断片において使用されることができる。更に、1人の話し手だけが発言しているときの音声にマッチングされたフレームは、ユニークな音声的特徴を使用することにより、両方の話し手が発言している複数の異なるフレームにおいて、話し手を識別することを目的として使用されることができる。
いくつかの実施形態では、340において、320および330の分析および/またはマッチング処理は、後の話し手との相互作用において使用することを目的として、モデル化されることができる。すなわち、ベイジアン・ネットワークは、後の第1および第2の話し手との会議の際に、ベイジアン・モデルが音声の分離および認識を判定および改善することができるような分析およびマッチング処理を定義するパラメータによって、設定されることができる。
図4は、音声および映像のソースを、分離および分析するシステム400を示す図である。音声および映像のソースを、分離および分析するシステム400は、コンピュータアクセス可能な媒体において実装され、図1Aから3それぞれの方法100A、200、および300に関連して上記に説明された技術を実装する。すなわち、音声および映像のソースを分離および分析するシステム400は、動作しているとき、映像内で話し手から発せられる音声と合わせて、話し手に関連する映像を評価する技術を使用することによって、音声の認識を改善する。
音声および映像のソースを分離および分析するシステム400は、カメラ401、マイクロフォン402、および処理デバイス403を有する。いくつかの実施形態では、3つのデバイス401から403は、1つの複合デバイスに統合される。他のいくつかの実施形態では、3つのデバイス401から403は、ローカルまたはネットワーク接続によって、互いに接続され通信する。通信は、ハード・ワイヤ接続、ワイヤレス接続、またはハード・ワイヤおよびワイヤレスの組み合わせの接続によって実行されることができる。更に、いくつかの実施形態では、カメラ401およびマイクロフォン402は、1つの複合デバイス(例:ビデオカムコーダなど)に統合され、処理デバイス403に接続される。
処理デバイス403は、上述の図1Aから3それぞれの方法100A、200、および300の技術を実装する、命令群404を有する。命令群は、プロセッサ403およびそれに関連するメモリまたは通信命令群によって、映像をカメラ401から受信し、音声をマイクロフォン402から受信する。映像は、発言しているまたは発言していない1人以上の話し手のフレームを表現し、音声は、バックグランドノイズに関連する音声および話し手に関連する音声を表現する。
命令群404は、視覚的特徴を各フレームと関連付けることを目的として、音声の各フレームを分析する。視覚的特徴は、いつ特定の話し手または両方の話し手が発言しているのか、および、いつ話し手が発言していないのかを識別する。いくつかの実施形態では、命令群404は、他のアプリケーションまたは命令群のセットと協力して、上述の機能を実現する。例えば、各フレームは、トレーニングされたニューラル・ネットワーク・アプリケーション404Aによって識別された、話し手の顔を有することができる。フレーム内の顔は、顔の口が動いているかどうかまたは動いていないかどうかを検出することを目的として、以前処理されたフレームの顔と比較してフレーム内の顔を評価する、ベクトル・マッチング・アプリケーション404Bに転送されることができる。
命令群404は、視覚的特徴が映像の各フレームと関連付けられた後、音声と映像フレームを分離する。各音声断片および映像フレームは、タイムスタンプを有する。タイムスタンプは、カメラ401、マイクロフォン402、またはプロセッサ403によって割り当てられてもよい。あるいは、命令群404が音声および映像を分離した場合、命令群404は、そのときのタイムスタンプを割り当てる。タイムスタンプは、分離された音声および映像をリミックスおよび再マッチングするために使用されることができる、時間依存性を提供する。
次に、命令群404は、フレームおよび音声断片を別々に評価する。このように、話し手が発言していないことを示す視覚的特徴を有するフレームは、潜在的ノイズを識別することを目的として、マッチングする音声断片およびそれに対応する周波数帯域を識別するために使用されることができる。潜在的ノイズは、音声断片の明瞭さを改善することを目的として、話し手が発言していることを示す視覚的特徴を有するフレームから除去されることができ、この明瞭さは、音声断片を評価する音声認識システムを改善する。命令群404は、また、各個人の話し手に関連するユニークな音声的特徴を評価および識別することを目的として使用されることができる。また、これらのユニークな音声的特徴は、1つの音声断片を、それぞれユニークな話し手に関連するユニークな音声的特徴を有する、2つの音声断片に分割することを目的として使用されることができる。このように、命令群404は、複数の話し手が同時に発言しているとき、個々の話し手を検出することができる。
いくつかの実施形態では、命令群404がカメラ401およびマイクロフォン402による1人以上の話し手との相互作用から学習して実行する処理は、ベイジアン・ネットワーク・アプリケーション404C内に設定されることができるパラメータデータに形式化されることができる。これは、後の話し手との会話セッションにおいて、命令群404に依存することなく、ベイジアン・ネットワーク・アプリケーション404Cがカメラ401、マイクロフォン402、およびプロセッサ403と相互作用することを可能にする。話し手が新しい環境にいる場合は、命令群404は、ベイジアン・ネットワーク・アプリケーション404Cによって、自身の性能を向上することを目的として、再度使用されることができる。
図5は、音声および映像のソースを分離および分析する装置500を示す図である。音声および映像のソースを分離および分析する装置500は、コンピュータ読み取り可能な媒体501に存在し、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアの組み合わせとして実装される。音声および映像のソースを分離および分析する装置500は、1つ以上の処理デバイスにロードされると、会話が行われているときに同時に監視される音声を組み込むことよって、1人以上の話し手に関連する音声の認識を改善する。音声および映像のソースを分離および分析する装置500は、1つ以上のコンピュータ・リムーバブル・メディアまたはリモート・ストレージ・ロケーションに存在することができ、後に、実行することを目的として処理デバイスに転送される。
音声および映像のソースを分離および分析する装置500は、音声映像ソース分離ロジック502、顔検出ロジック503、口検出ロジック504、および音声映像マッチング・ロジック505を有する。顔検出ロジック503は、映像のフレーム内における顔のロケーションを検出する。一実施形態では、顔検出ロジック503は、ピクセルのフレームを受け取って、そのピクセルのサブセットを顔または複数の顔として識別するように設計された、トレーニングされたニューラル・ネットワークである。
口検出ロジック504は、顔に関連するピクセルを受け取って、その顔の口に関連するピクセルを識別する。口検出ロジック504は、また、いつ顔の口が動いたかまたは動いていないかを判定することを目的として、複数の顔のフレームを互いに比較して評価する。口検出ロジック504の結果は、視覚的特徴として映像の各フレームに関連付けられ、それは、音声映像マッチング・ロジックによって使用される。
口検出ロジック504が視覚的特徴を映像の各フレームに関連付けると、音声映像分離ロジック503は、映像を音声から分離する。いくつかの実施形態では、音声映像分離ロジック503は、口検出ロジック504が各フレームを処理する前に、映像を音声から分離する。映像の各フレームおよび音声の各断片は、タイムスタンプを有する。これらのタイムスタンプは、音声映像分離ロジック502によって音声および映像が分離される際に割り当てられてもよく、または、映像をキャプチャするカメラおよび音声をキャプチャするマイクロフォンのような、他の処理によって割り当てられてもよい。あるいは、映像および音声をキャプチャするプロセッサは、映像および音声をタイムスタンプすることを目的として、命令群を使用することができる。
音声映像マッチング・ロジック505は、独立した、タイムスタンプされた映像フレームおよび音声のストリームを受信する。映像フレームは、口検出ロジック504によって割り当てられた関連する視覚的特徴を有する。各フレームおよび断片は、ノイズを識別すること、および、特定かつユニークな話し手に関連する音声を識別することを目的として、評価される。このマッチング処理および選択的なリミックス処理に関連するパラメータは、話し手の発言をモデル化するベイジアン・ネットワークを設定するために使用されることができる。
音声および映像ソースを分離および分析する装置500のいくつかのコンポーネントは、他のコンポーネントに統合されることができ、また、図5に含まれない追加のコンポーネントが追加されることができる。このため、図5は、本発明の実施形態を説明することのみを目的として提供され、本発明の実施形態を限定しない。
上述の説明は、限定的ではなく説明的である。上記の説明を読解することにより、当業者には多くの他の実施形態が明白となる。このため、本発明の実施形態の範囲は、添付の特許請求の範囲および特許請求の範囲の均等物の全ての範囲によって決定される。
37 C.F.R. 1.72(b)に従うために、読者が技術的な開示内容の本質および要旨を手早く理解することを可能にする要約が提供される。要約は、特許請求の範囲または意味を解釈するためまたは限定するために使用されないことを想定して、提出される。
実施形態に関する上述の説明では、本開示内容を簡潔にすることを目的として、種々の特徴が1つの実施形態にまとめられている。本開示内容の方法は、特許請求される本発明の実施形態が各特許請求項において明示的に示される機能より多くの機能を必要とするというように解釈されるべきではない。むしろ、添付の特許請求の範囲が示すように、本発明の特許請求の範囲は、開示された1つの実施形態の全ての特徴よりも狭い範囲である。このように、各特許請求項が独立する典型的な実施形態として自立する、添付の特許請求の範囲は、実施形態の詳細な説明に組み込まれる。

Claims (28)

  1. 発言する話し手に関連する視覚的特徴を電気的にキャプチャすることと、
    音声を電気的にキャプチャすることと、
    前記音声の選択部分と前記視覚的特徴とをマッチングすることと、
    前記音声の前記残りの部分を前記話し手に関連しない潜在的ノイズとして識別することと、
    を備える方法。
  2. 別の発言する話し手に関連する追加の視覚的特徴を電気的にキャプチャすることと、
    前記潜在的ノイズに含まれる前記音声の前記残りの部分のいくつかと、前記追加の発言する話し手とをマッチングすることと、
    を更に備える請求項1に記載の方法。
  3. 前記マッチングすることおよび前記識別することに関連するパラメータを生成し、発言する話し手をモデル化するベイジアン・ネットワークに前記パラメータを提供することを更に備える請求項1に記載の方法。
  4. 前記視覚的特徴を電気的にキャプチャすることは、発言する前記話し手に関連する電気的映像に対して、前記話し手の顔を検出および監視するようにトレーニングされたニューラル・ネットワークを実行することを更に有する請求項1に記載の方法。
  5. 前記話し手の口における動きの有無を検出するために、前記話し手の前記検出された顔をフィルタリングすることを更に備える請求項4に記載の方法。
  6. 前記マッチングすることは、前記キャプチャされた視覚的特徴の一部と、同一のタイムスライスにおける前記キャプチャされた音声の一部とを比較することを更に有する請求項1に記載の方法。
  7. 前記キャプチャされた視覚的特徴の選択部分が前記話し手は発言していないことを示す間、音声の前記キャプチャをサスペンドすることを更に備える請求項1に記載の方法。
  8. 第1の話し手および第2の話し手の電気的映像を監視することと、
    発言する前記第1および第2の話し手に関連する音声を同時にキャプチャすることと、
    いつ前記第1および第2の話し手がそれぞれ各自の口を動かしているかどうかを検出するために、前記映像を分析することと、
    前記分析に基づいて、前記キャプチャされた音声の一部を前記第1の話し手にマッチングし、前記キャプチャされた音声の他の部分を前記第2の話し手にマッチングすることと、
    を備える方法。
  9. 後の前記第1および第2の話し手との相互作用のために、前記分析をモデル化することを更に備える請求項8に記載の方法。
  10. 分析することは、前記第1および第2の話し手の顔を検出するためにニューラル・ネットワークを実行すること、および、いつ前記第1および第2の話し手の各自の口が動いているかまたは動いていないかを検出するためにベクトル分類アルゴリズムを実行することを更に備える請求項8に記載の方法。
  11. 分析の準備において、前記電気的映像を前記同時にキャプチャされた音声から分離することを更に備える請求項8に記載の方法。
  12. 前記分析が前記第1および第2の話し手の前記口が動いていることを検出しないとき、音声の前記キャプチャをサスペンドすることを更に備える請求項8に記載の方法。
  13. 前記キャプチャされた音声の選択部分が前記第1の話し手または前記第2の話し手にマッチングされない場合、前記キャプチャされた音声の前記選択部分をノイズとして識別することを更に備える請求項8に記載の方法。
  14. マッチングすることは、前記電気的映像の選択部分が監視されたとき、および、前記音声の選択部分がキャプチャされたときに関連する時間依存性を識別することを更に備える請求項8に記載の方法。
  15. カメラと、
    マイクロフォンと、
    処理デバイスと
    を備え、
    前記カメラは、話し手の映像をキャプチャして前記映像を前記処理デバイスに伝達し、
    前記マイクロフォンは、前記話し手および前記話し手に関連する環境に関連する音声をキャプチャして前記音声を前記処理デバイスに伝達し、
    前記処理デバイスは、前記話し手が発言しているときの前記映像の視覚的特徴を識別し、前記音声の一部を前記視覚的特徴にマッチングするために時間依存性を使用する命令群を有する
    システム。
  16. 前記キャプチャされた映像は、第2の話し手の画像、および、前記第2の話し手に関連する発言を含む音声を有し、前記命令群は、前記視覚的特徴のいくつかが前記第2の話し手が発言していることを示すとき、前記音声のいくつかの部分と前記第2の話し手とをマッチングする請求項15に記載のシステム。
  17. 前記命令群は、前記キャプチャされた映像から前記話し手の顔を検出するために、ニューラル・ネットワークと相互作用する請求項15に記載のシステム。
  18. 前記命令群は、前記キャプチャされた映像内において、いつ前記顔に関連する口が動いたのか、または、動かないのかを検出するために、ピクセル・ベクトル・アルゴリズムと相互作用する請求項17に記載のシステム。
  19. 前記命令群は、後の相互作用において、いつ前記話し手が発言しているかを判定するため、および、発言する前記話し手に関連する適切な音声を判定するために、前記話し手との後の相互作用をモデル化するベイジアン・ネットワークを設定するパラメータデータを生成する請求項18に記載のシステム。
  20. 命令群が保存されたマシンアクセス可能な媒体であって、
    前記命令群は、マシンによりアクセスされることによって、
    発言する話し手に関連する音声および映像を分離し、
    前記話し手の口が動いていること、または、動いていないことを示す視覚的特徴を前記映像から識別し、
    前記音声の一部を、前記口が動いていることを示す前記視覚的特徴の選択部分に関連付ける
    媒体。
  21. 前記音声の他の部分を、前記口が動いていないことを示す、前記視覚的特徴の他の部分に関連付ける命令群を更に有する請求項20に記載の媒体。
  22. 前記命令群は、
    他の話し手の他の口が動いていること、または、動いていないことを示す第2の視覚的特徴を前記映像から識別し、
    前記音声の他の部分を、前記他の口が動いていることを示す前記第2の視覚的特徴の選択部分に関連付ける
    命令をさらに有する請求項20に記載の媒体。
  23. 識別するための前記命令群は、
    前記話し手の顔を検出するためにニューラル・ネットワークを実行し、
    前記検出された顔の中において前記話し手の前記口の動きを検出するためにベクトル・マッチング・アルゴリズムを実行する
    命令群を更に有する請求項20に記載の媒体。
  24. 関連付けるための前記命令群は、前記音声の前記部分がキャプチャされた時間、および、前記映像内の前記視覚的特徴の前記選択部分がキャプチャされた時間に関連する同一のタイムスライスをマッチングする命令群を更に有する請求項20に記載の媒体。
  25. 顔検出ロジックと、
    口検出ロジックと、
    音声映像マッチング・ロジックと
    を備え、
    前記顔検出ロジックは、映像内で話し手の顔を検出し、
    前記口検出ロジックは、前記映像の前記顔に含まれる口の動きの有無を検出および監視し、
    前記映像マッチング・ロジックは、キャプチャされた音声の一部と、前記口検出ロジックによって識別された全ての口の動作とをマッチングする
    コンピュータアクセス可能な媒体に存在する装置。
  26. 前記装置は、発言する前記話し手をモデル化するベイジアン・ネットワークを設定するために使用される請求項25に記載の装置。
  27. 前記顔検出ロジックは、ニューラル・ネットワークを備える請求項25に記載の装置。
  28. 前記装置は、処理デバイス上に存在し、前記処理デバイスは、カメラおよびマイクロフォンに接続される請求項25に記載の装置。
JP2007503119A 2004-03-30 2005-03-25 音声および映像ソースデータを分離および評価する技術 Expired - Fee Related JP5049117B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/813,642 2004-03-30
US10/813,642 US20050228673A1 (en) 2004-03-30 2004-03-30 Techniques for separating and evaluating audio and video source data
PCT/US2005/010395 WO2005098740A1 (en) 2004-03-30 2005-03-25 Techniques for separating and evaluating audio and video source data

Publications (2)

Publication Number Publication Date
JP2007528031A true JP2007528031A (ja) 2007-10-04
JP5049117B2 JP5049117B2 (ja) 2012-10-17

Family

ID=34964373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007503119A Expired - Fee Related JP5049117B2 (ja) 2004-03-30 2005-03-25 音声および映像ソースデータを分離および評価する技術

Country Status (6)

Country Link
US (1) US20050228673A1 (ja)
EP (1) EP1730667A1 (ja)
JP (1) JP5049117B2 (ja)
KR (2) KR101013658B1 (ja)
CN (1) CN1930575B (ja)
WO (1) WO2005098740A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US7716048B2 (en) * 2006-01-25 2010-05-11 Nice Systems, Ltd. Method and apparatus for segmentation of audio interactions
US8024189B2 (en) * 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
KR100835996B1 (ko) 2006-12-05 2008-06-09 한국전자통신연구원 적응형 발성 화면 분석 방법 및 장치
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
CN102405463B (zh) * 2009-04-30 2015-07-29 三星电子株式会社 利用多模态信息的用户意图推理装置及方法
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
US20100295782A1 (en) 2009-05-21 2010-11-25 Yehuda Binder System and method for control based on face ore hand gesture detection
CN102262880A (zh) * 2010-05-31 2011-11-30 苏州闻道网络科技有限公司 一种音频提取装置和方法
US8601076B2 (en) 2010-06-10 2013-12-03 Aol Inc. Systems and methods for identifying and notifying users of electronic content based on biometric recognition
US9311395B2 (en) 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
US8949123B2 (en) 2011-04-11 2015-02-03 Samsung Electronics Co., Ltd. Display apparatus and voice conversion method thereof
PL403724A1 (pl) * 2013-05-01 2014-11-10 Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
EP3192015A1 (en) 2014-09-09 2017-07-19 Intel Corporation Improved fixed point integer implementations for neural networks
GB2533373B (en) * 2014-12-18 2018-07-04 Canon Kk Video-based sound source separation
CN105991851A (zh) 2015-02-17 2016-10-05 杜比实验室特许公司 处理电话会议系统中的烦扰
US10129608B2 (en) * 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
US10109277B2 (en) * 2015-04-27 2018-10-23 Nuance Communications, Inc. Methods and apparatus for speech recognition using visual information
TWI564791B (zh) * 2015-05-19 2017-01-01 卡訊電子股份有限公司 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體
CN105959723B (zh) * 2016-05-16 2018-09-18 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection
US10593351B2 (en) * 2017-05-03 2020-03-17 Ajit Arun Zadgaonkar System and method for estimating hormone level and physiological conditions by analysing speech samples
US11456005B2 (en) * 2017-11-22 2022-09-27 Google Llc Audio-visual speech separation
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN109040641B (zh) * 2018-08-30 2020-10-16 维沃移动通信有限公司 一种视频数据合成方法及装置
WO2020172828A1 (zh) * 2019-02-27 2020-09-03 华为技术有限公司 一种声源分离方法、装置及设备
CN111832595B (zh) * 2019-04-23 2022-05-06 北京新唐思创教育科技有限公司 教师风格的确定方法及计算机存储介质
CN110544491A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种实时关联说话人及其语音识别结果的方法及装置
CN110517295A (zh) * 2019-08-30 2019-11-29 上海依图信息技术有限公司 一种结合语音识别的实时人脸轨迹跟踪方法及装置
CN110545396A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种基于定位去噪的语音识别方法及装置
CN110516755A (zh) * 2019-08-30 2019-11-29 上海依图信息技术有限公司 一种结合语音识别的身体轨迹实时跟踪方法及装置
CN110503957A (zh) * 2019-08-30 2019-11-26 上海依图信息技术有限公司 一种基于图像去噪的语音识别方法及装置
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN110827823A (zh) * 2019-11-13 2020-02-21 联想(北京)有限公司 语音辅助识别方法、装置、存储介质及电子设备
CN113035225B (zh) * 2019-12-09 2023-02-28 中国科学院自动化研究所 视觉声纹辅助的语音分离方法及装置
CN111028833B (zh) * 2019-12-16 2022-08-16 广州小鹏汽车科技有限公司 一种交互、车辆的交互方法、装置
US11688035B2 (en) 2021-04-15 2023-06-27 MetaConsumer, Inc. Systems and methods for capturing user consumption of information
US11836886B2 (en) * 2021-04-15 2023-12-05 MetaConsumer, Inc. Systems and methods for capturing and processing user consumption of information
CN113593529B (zh) * 2021-07-09 2023-07-25 北京字跳网络技术有限公司 说话人分离算法的评估方法、装置、电子设备和存储介质
CN116758902A (zh) * 2023-06-01 2023-09-15 镁佳(北京)科技有限公司 一种多人说话场景下音视频识别模型训练及识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JPH11282492A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、話者検出装置及び画像記録装置
JP2003189273A (ja) * 2001-12-20 2003-07-04 Sharp Corp 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5481543A (en) * 1993-03-16 1996-01-02 Sony Corporation Rational input buffer arrangements for auxiliary information in video and audio signal processing systems
US5506932A (en) * 1993-04-16 1996-04-09 Data Translation, Inc. Synchronizing digital audio to digital video
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
FR2761562B1 (fr) * 1997-03-27 2004-08-27 France Telecom Systeme de visioconference
KR100251453B1 (ko) * 1997-08-26 2000-04-15 윤종용 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US6381569B1 (en) * 1998-02-04 2002-04-30 Qualcomm Incorporated Noise-compensated speech recognition templates
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
JP2000175170A (ja) * 1998-12-04 2000-06-23 Nec Corp 多地点テレビ会議システム及びその通信方法
GB9908545D0 (en) * 1999-04-14 1999-06-09 Canon Kk Image processing apparatus
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6683968B1 (en) * 1999-09-16 2004-01-27 Hewlett-Packard Development Company, L.P. Method for visual tracking using switching linear dynamic system models
US6754373B1 (en) * 2000-07-14 2004-06-22 International Business Machines Corporation System and method for microphone activation using visual speech cues
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7203669B2 (en) * 2003-03-17 2007-04-10 Intel Corporation Detector tree of boosted classifiers for real-time object detection and tracking
US7454342B2 (en) * 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US20050027530A1 (en) * 2003-07-31 2005-02-03 Tieyan Fu Audio-visual speaker identification using coupled hidden markov models
US7362350B2 (en) * 2004-04-30 2008-04-22 Microsoft Corporation System and process for adding high frame-rate current speaker data to a low frame-rate video

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JPH11282492A (ja) * 1998-03-26 1999-10-15 Matsushita Electric Ind Co Ltd 音声認識装置、話者検出装置及び画像記録装置
JP2003189273A (ja) * 2001-12-20 2003-07-04 Sharp Corp 発言者識別装置及び該発言者識別装置を備えたテレビ会議システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157905A (ja) * 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2020187346A (ja) * 2019-05-10 2020-11-19 ネイバー コーポレーションNAVER Corporation オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置
JP6999734B2 (ja) 2019-05-10 2022-01-19 ネイバー コーポレーション オーディオビジュアルデータに基づく話者ダイアライゼーション方法および装置

Also Published As

Publication number Publication date
KR101013658B1 (ko) 2011-02-10
CN1930575A (zh) 2007-03-14
US20050228673A1 (en) 2005-10-13
EP1730667A1 (en) 2006-12-13
WO2005098740A1 (en) 2005-10-20
KR20080088669A (ko) 2008-10-02
KR20070004017A (ko) 2007-01-05
JP5049117B2 (ja) 2012-10-17
CN1930575B (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
JP5049117B2 (ja) 音声および映像ソースデータを分離および評価する技術
Afouras et al. My lips are concealed: Audio-visual speech enhancement through obstructions
US10109277B2 (en) Methods and apparatus for speech recognition using visual information
US11630999B2 (en) Method and system for analyzing customer calls by implementing a machine learning model to identify emotions
US9293133B2 (en) Improving voice communication over a network
Chen et al. The first multimodal information based speech processing (misp) challenge: Data, tasks, baselines and results
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
JP2011123529A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20200129934A (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
US10964326B2 (en) System and method for audio-visual speech recognition
JP2007088803A (ja) 情報処理装置
US9165182B2 (en) Method and apparatus for using face detection information to improve speaker segmentation
CN114762039A (zh) 一种会议数据处理方法及相关设备
Liu et al. MSDWild: Multi-modal Speaker Diarization Dataset in the Wild.
US20230095526A1 (en) Target speaker mode
Gogate et al. Av speech enhancement challenge using a real noisy corpus
CN117854507A (zh) 语音识别方法、装置、电子设备及存储介质
TWI769520B (zh) 多國語言語音辨識及翻譯方法與相關的系統
Hung et al. Towards audio-visual on-line diarization of participants in group meetings
KR101369270B1 (ko) 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
Berghi et al. Leveraging Visual Supervision for Array-Based Active Speaker Detection and Localization
Hung et al. Associating audio-visual activity cues in a dominance estimation framework
CN112397089B (zh) 语音发出者身份识别方法、装置、计算机设备及存储介质
CN116866509B (zh) 会议现场画面跟踪方法、装置和存储介质
US20230421702A1 (en) Distributed teleconferencing using personalized enhancement models

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100126

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100423

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100506

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100525

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100625

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110601

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110622

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120608

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120720

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees