JP2021007216A

JP2021007216A - 映像データを用いて容易化された音源強調

Info

Publication number: JP2021007216A
Application number: JP2020096190A
Authority: JP
Inventors: ネスタ、フランチェスコ; Nesta Francesco; ボネフ、ボイヤン; Bonev Boyan; ガウール、ウトカルシュ; Gaur Utkarsh
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2019-06-27
Filing date: 2020-06-02
Publication date: 2021-01-21
Anticipated expiration: 2040-06-02
Also published as: JP7525304B2; US20200412772A1; CN112151063A; US11082460B2

Abstract

【課題】騒音が多い環境において、対象の音声信号をより高い音質で抽出するシステムを提供する。【解決手段】システム３００において、映像サブシステム３０５は、映像入力デバイスから入力映像フレームＣ（ｌ）を受信し、顔検出コンポーネント３１５、顔識別コンポーネント３２０及び口唇動き検出コンポーネント３２５により処理を行う。そして、識別された話者が対象話者であることの確からしさである顔検出状態Ｆｄ（ｌ）と、対象話者が話しているか否の確率である口唇動き検出状態Ｌｐ（ｌ）を、音声サブシステム３１０に出力する。音声サブシステム３１０は、多チャンネル音声信号を受信し、映像サブシステム３０５からの顔検出状態Ｆｄ（ｌ）及び口唇動き検出状態Ｌｐ（ｌ）を統合して処理することにより、対象話者の発話を精度よく強調した出力音声信号ｓ（ｌ）を生成する。【選択図】図３

Description

本願は、一以上の実施形態によれば、全体としては音声信号処理に関しており、より具体的には、例えば、映像データを用いて容易化された音源強調に関している。

近年、音声及び映像会議システムが普及してきている。対象の音声信号の品質は、ノイズ及び／又は他の干渉音声の存在下では劣化する。このような音声品質の劣化は、特に、業務オフィスエリア、コールセンター、カフェテリア等の混雑した公共の環境において、直ちに気付かれることがある。このような事情なので、騒音が多い環境においてもなお、対象の音声信号についてより高い音質を可能にする音声環境ソルーションが望まれている。

本明細書において更に議論される様々な実施形態によれば、映像データを用いて音声信号を強調するためのシステム及び方法が提供される。いくつかの実施形態では、このようなシステム及び方法は、ノイズが多い環境においてさえも対象の音声（例えば、１以上の対象音源の発話）の強調を可能にする、統括化音声／映像アーキテクチャを提供し得る。いくつかの観点では、このようなシステム及び方法は、ボイスオーバーインターネットプロトコルアプリケーションのような音声アプリケーションにおける使用のために、音声信号、場合によっては映像信号を供給するために用いられることがある。

一以上の実施形態では、方法が、複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信することを含む。当該方法は、更に、映像入力デバイスによって撮像された画像を受信することを含む。当該方法は、更に、前記画像に少なくとも部分的に基づいて第１信号を規定することを含む。前記第１信号は、対象音源に関する確からしさを示している。当該方法は、更に、前記多チャンネル音声信号と前記第１信号とに少なくとも部分的に基づいて第２信号を規定することを含む。第２信号は、前記対象音源に由来する音声成分に関する確からしさを示している。当該方法は、更に、前記第２信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成することを含んでいる。

一以上の実施形態において、システムが、映像サブシステムと音声サブシステムとを備えている。前記映像サブシステムは、映像入力デバイスによって撮影された画像を受信するように構成されている。前記映像サブシステムは、前記画像に少なくとも部分的に基づいて第１信号を規定するように構成された識別コンポーネントを備えている。前記第１信号は、前記対象音源に関する確からしさを示している。前記音声サブシステムは、複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成されている。前記音声サブシステムは、前記多チャンネル音声信号と前記第１信号とに少なくとも部分的に基づいて第２信号を規定するように構成されたロジックコンポーネントを備えている。前記第２信号は、前記対象音源に起因する音声成分に関する確からしさを示している。前記音声サブシステムは、更に、前記第２信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントを備えている。

本開示の範囲は、参照することによって本項目に組み込まれる特許請求の範囲によって規定される。本開示のより完全な理解は、その追加的な利点の実現と共に、下記の１以上の実施形態の詳細な記載を考慮することによって当業者に与えられるであろう。初めに簡単に説明する添付図面のシートを参照する。

本開示の観点及びその利点は、以下の図面とそれに続く詳細な説明を参照することで、より良く理解可能である。類似の参照符号が１以上の図面に図示されている類似の構成要素を識別するために用いられており、それらの図示は、本開示の実施形態を図示する目的のものであり、限定する目的のものではないと理解されるべきである。図面における部材は、必ずしも寸法通りではなく、その代わり、本開示の原理を明確に図示することに重点が置かれている。

図１は、本開示の一以上の実施形態による、音源強調を容易化するように動作し得るシステムにおける例示的な動作環境を図示している。

図２は、本開示の一以上の実施形態による、音源強調を容易化するための音声／映像処理システムの概略図を図示している。

図３は、本開示の一以上の実施形態による、映像サブシステムと音声サブシステムとを備える例示的なシステムを図示している。

図４Ａは、入力映像フレームの例を図示している。

図４Ｂは、一以上の実施形態による、図４Ａの入力映像フレームの背景を処理することで得られた出力映像フレームの例を図示している。

図５は、本開示の一以上の実施形態による、複数の対象音源に対応するための映像サブシステム及び音声サブシステムを備える例示的なシステムを図示している。

図６は、本開示の一以上の実施形態による、映像データを用いて容易化された音源強調のための例示的な処理のフロー図を図示している。

図７は、本開示の一以上の実施形態による、音源強調を実施するための例示的な電子システムを図示している。

以下に提示される詳細な説明は、主題の技術の様々な構成の説明であることが意図されており、主題の技術が実施可能な構成がそれだけであることを表すことを意図しているのではない。添付図面は、本項目に組み込まれ、詳細な説明の一部を構成している。この詳細な説明は、主題の技術の深い理解を提供する目的で具体的な詳細を含んでいる。しかしながら、主題の技術がここに提示した具体的な詳細に限定されるものではなく、一以上の実施形態を用いて実施され得ることは、当業者には、歴然で明白であろう。一以上の例では、主題の技術の概念を曖昧にすることを避ける目的で、構造及び構成要素が、ブロック図の形で図示されている。この主題の開示の一以上の実施形態は、１以上の図によって図示され、及び／又は、１以上の図との関連で説明され、特許請求の範囲に提示されている。

映像データを用いて容易化された音源強調を行うために様々な技術が本明細書に提示されている。いくつかの実施形態では、映像データを用いて音声チャンネルのノイズを低減することを容易にするために、統括化音声／映像システムアーキテクチャが本明細書に提示されている。これに関し、選択的な音源強調を容易化するために、音声のモダリティと映像のモダリティとが共に用いられる。様々な実施形態を用いると、音声のモダリティのみが用いられる場合と比較して、対象音声（例えば、一以上の対象音源の発話）について、ノイズが多い環境においてさえ高い品質が提供され得る。いくつかの観点では、音声／映像システムは、あるユーザ（例えば、対象音源）を認証し、音声アプリケーションのセッション（例えば、通話）のフローを自動的に制御し、音声ノイズの低減を統括して、この認証されたユーザだけを強調し、（例えば、他の発話者に関連する）不所望な周辺ノイズを除去し、認証されたユーザが不在又は通話に関与していないときには、音声アプリケーションのセッションをスリープモードに自動的に設定してもよい。

音源強調技術は、単一マイクロホン又は多マイクロホンの環境において実施されてもよい。このような技術は、対象音源を強調し、及び／又は、ノイズを低減又は除去するために汎用的に用いられる。場合によっては、このような技術は、ノイズの空間的又はスペクトルの統計量に仮定を置くことによって対象音源を強調し、及び／又は、ノイズを低減又は除去することがある。例として、会議アプリケーションでは一般に、音源強調は、主たる会議ユーザからの発話のみを強調し、残りの全ての音を抑制するように実施され得る。場合によっては、残りの全ての音が抑制されながら、（例えば、それぞれがメインの会議ユーザと識別されている）複数のユーザからの発話が強調されてもよい。

本開示は、主として、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）アプリケーションのような音声アプリケーションとの関係で記述されているが、音源強調が望まれ得る任意のアプリケーションにおける音源強調の容易化のために、様々な実施形態が用いられ得る。更に、本開示は、全体として、多チャンネル音声の実装について記述されているが、いくつかの実施形態では、本開示の実施形態は、単一チャンネル音声の実装に適用され得る。

図１は、本開示の一以上の実施形態による、音源強調を容易化するようにシステム１０５が動作し得る例示的な動作環境１００を図示している。動作環境１００は、システム１０５と、対象音源１１０（例えば、ユーザの声）と、ノイズ源１１５Ａ〜Ｃを含んでいる。システム１０５は、音声／映像（Ａ／Ｖ）処理システム１２０と、音声入力デバイス１２５Ａ−Ｄ（例えば、マイクロホン）と、映像入力デバイス１３０（例えば、カメラ）と、音声出力デバイス１３５Ａ、１３５Ｂ（例えば、スピーカー）と、映像出力デバイス１４０（例えば、ディスプレイ）を備えている。図１に図示された例では、動作環境１００は、部屋１４５（例えば、会議室や家庭の部屋）の内部として図示されているが、動作環境１００は、車両の内部、屋外スタジアム、空港のような他のエリアを含み得ると考えられる。

システム１０５は、４つの音声入力デバイス、１つの映像入力デバイス、２つの音声出力デバイス及び１つの映像出力デバイスを備えるものとして示されているが、システム１０５は、図１に図示されているよりも少ない、又は、より多い、音声入力デバイス、映像入力デバイス、音声出力デバイス、映像出力デバイスを備えていてもよいことに留意されたい。更に、システム１０５は、これらの様々な音声及び映像デバイスを包含するものとして示されているが、これらの様々なデバイスが別の筐体及び／又は別のシステムの一部として設けられ、音声／映像処理システム１２０が、音声入力デバイス１２５Ａ−Ｄ、映像入力デバイス１３０、音声出力デバイス１３５Ａ、１３５Ｂ及び／又は映像出力デバイス１４０から分離されて通信可能に接続されてもよい。これに関し、いくつかの観点では、音声入力デバイス１２５Ａ−Ｄ、映像入力デバイス１３０、音声出力デバイス１３５Ａ、１３５Ｂ及び／又は映像出力デバイス１４０は、音声／映像処理システム１２０の一部であってもよく、及び／又は、そうでなければ音声／映像処理システム１２０に通信可能に結合されていてもよい。

音声／映像処理システム１２０は、音声入力デバイス１２５Ａ−Ｄから音声信号を受信し、映像入力デバイス１３０から映像信号（例えば、映像フレーム）を受信することがある。音声入力デバイス１２５Ａ−Ｄは、該音声信号を取得（例えば、検出、検知）してもよい。場合によっては、音声信号は、各チャンネルが音声入力デバイス１２５Ａ−Ｄの一つに対応し、多チャンネル音声信号を形成しているとして参照することがある。映像入力デバイス１３０は映像信号を取得（例えば、検出、検知）してもよい。映像信号は、映像フレーム又は画像として参照することがある。音声／映像処理システム１２０は、音声処理技術を用いて音声信号を処理し、対象音源１１０によって生成された対象音声１５０を検出して対象音声１５０を強調してもよい。対象音声１５０は、多チャンネル音声信号の音声成分である。対象音声１５０は、対象音声１５０を強調（例えば、振幅及び／又は明瞭性を増大）し、及び／又は、対象音声１５０以外の如何なる音も抑制（例えば、振幅を減少）することで強調されてもよい。音声／映像処理システム１２０は、音声出力デバイス１３５Ａ及び／又は１３５Ｂに音声信号を供給し、映像出力デバイス１４０に映像信号（例えば、静止画像又は映像）を供給することがある。音声出力デバイス１３５Ａ及び／又は１３５Ｂは、音声信号を出力してもよく、映像出力デバイス１４０は、一人以上のユーザによる消費のために映像信号を出力してもよい。

対象音源１１０は、音声／映像処理システム１２０によって声を強調すべき人物であってもよい。一実施形態では、対象音源１１０は、音声アプリケーションに関与している（例えば、参加している）人物であってもよい。例えば、当該人物は、ＶｏＩＰ通話に関与していることがある。対象音源１１０は、（例えば、少なくともＶｏＩＰ通話の目的で）許可ユーザ又は認証ユーザとして参照されることがある。対象音源１１０は、音声／映像処理システム１２０によって強調すべき対象音声１５０（例えば、発話）を生成する。対象音源１１０の他に、動作環境１００における他の音源として、ノイズ源１１５Ａ〜Ｃが挙げられる。様々な実施形態において、対象音声１５０以外の全ての音声がノイズとして処理される。図１に図示された例では、ノイズ源１１５Ａ、１１５Ｂ及び１１５Ｃは、音楽を再生しているラウドスピーカー、テレビ番組を再生しているテレビ、及び、会話をしている非対象の発話者を、それぞれ含んでいる。様々な動作環境において、他のノイズ源が存在し得ることは理解されよう。

音声／映像処理システム１２０は、多チャンネル音声信号を処理し、強調された音声信号を生成してもよい。強調された音声信号を生成する際、音声／映像処理システム１２０は、対象音声１５０と（例えば、ノイズ源１１５Ａ〜Ｃによって生成された）ノイズとが異なる方向からシステム１０５の音声入力デバイス１２５Ａ−Ｄに到達することがあり、各音源の位置が時間と共に変化することがあり、対象音声１５０及び／又はノイズが、部屋１４５の内部の備品（例えば、壁）で反射されることがあることを考慮に入れる。例えば、ノイズ源１１５Ａ〜Ｃは、部屋１４５の様々な位置でノイズを発生することがあり、及び／又は、対象音源１１０は、部屋１４５を歩き回りながら発話することがある。いくつかの実施形態では、強調された音声信号を得るための多チャンネル音声入力の処理が、ここで更に説明するように、映像入力デバイス１３０からの映像信号を使用することで容易化されることがある。

例として、音声／映像処理システム１２０は、音声信号を受信し、対象音源１１０によって生成された対象音声１５０の方向を識別し、強め合う干渉及びノイズをキャンセルする技術を用いて対象音源１１０によって生成された対象音声１５０（例えば、対象の発話又は他の音）を強調する（例えば、強調された対象信号とも呼ばれる）強調された音声信号を出力する空間フィルタ（例えば、ビーム成形器）を備えていてもよい。信号を検出及び／又は強調するための空間フィルタの動作は、映像信号（例えば、映像信号から抽出されたデータ）を使用することで容易化され得る。

音声／映像処理システム１２０は、例えば、発語認識エンジンや音声指令プロセッサ、又はＶｏＩＰ通話の間のＶｏＩＰアプリケーションへの入力信号のような音声アプリケーションにおける使用のために、強調された音声信号を供給してもよい。例として、例示の目的だけであるが、ＶｏＩＰアプリケーションを考える。様々な実施形態において、送信サイドを容易にするために、音声／映像処理システム１２０は、ネットワークを介した（例えば、会議アプリケーションのための）ＶｏＩＰ通信を容易化するために用いられ得る。ＶｏＩＰ通信は、音声だけ（例えば、音声信号だけ）を含んでいてもよく、音声と映像とを含んでいてもよい。場合によっては、音声／映像処理システム１２０は、映像入力デバイス１３０からの画像を処理し、例えば、画像をぼかし、ぼかした画像をＶｏＩＰ通話において用いるために供給してもよい。処理後の画像が、ＶｏＩＰ通話に供されてもよい。受信サイドを容易にするために、音声／映像処理システム１２０は、（例えば、直接に又はネットワークを介して）離れたデバイスから信号（例えば、音声信号、場合によっては映像信号）を受信し、受信した信号をＶｏＩＰ通信のために出力してもよい。例えば、受信した音声信号が音声出力デバイス１３５Ａ及び／又は１３５Ｂを介して出力されてもよく、受信した映像信号は、映像出力デバイス１４０を介して出力されてもよい。

一以上のアナログ−デジタルコンバータ（ＡＤＣ）が、一以上の入力デバイス（例えば、音声入力デバイス、映像入力デバイス）からのアナログ信号（例えば、音声信号、映像信号）をデジタル化するために送信サイドで用いられてもよく、一以上のデジタル−アナログコンバータ（ＤＡＣ）が、一以上の出力デバイス（例えば、音声出力デバイス、映像入力デバイス）によって供給されるデジタル信号からアナログ信号（例えば、音声信号、映像信号）を生成するために受信サイドで用いられてもよい。

図２は、本開示の一以上の実施形態による、音源強調を容易化するための音声／映像処理システム２００の概念図を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び／又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、音声／映像処理システム２００は、図１の音声／映像処理システム１２０であってもよく、含んでいてもよく、一部であってもよい。音声／映像処理システム２００は、他の動作環境においても用いられ得るが、例示の目的で、音声／映像処理システム２００を図１の動作環境１００との関連で説明する。

音声／映像処理システム２００は、映像サブシステム２０５と音声サブシステム２１０とを備えている。映像サブシステム２０５は、例えばカメラのような映像入力デバイス２２０から入力映像フレームc(l)（例えば、画像）を入力として受信し、出力映像フレームc^(l)と統括信号（図２において「統括」として示されている）とを生成する。映像サブシステム２０５は、例えばＶｏＩＰアプリケーションのような音声アプリケーション２１５における使用のために出力映像フレームc^(l)を供給（例えば、送信）し、統括信号を音声サブシステム２１０に供給（例えば、送信）する。出力映像フレームc^(l)は、映像入力フレームc(l)であってもよく、それを処理したものであってもよい。一の観点では、入力映像フレームc(l)は、出力映像フレームc^(l)を得るためにぼかされてもよい。例えば、対象音源を含まない入力映像フレームc(l)の一部分がぼかされてもよい。

音声サブシステム２１０は、動作環境にある音声入力デバイスのアレイによって検出されたＭ本の音声信号x₁(l), …, x_M(l)のセットで形成される多チャンネル音声入力信号と統括信号とを入力として受信する。ここで、lは、時間サンプルを示している。各音声信号は、対応する音声入力デバイスによって供給されてもよく、音声チャンネル（例えば、単にチャンネルとも呼ばれる）に対応付けられてもよい。図２においては、音声入力デバイス２２５Ａが、音声信号x₁(l)を供給し、音声入力デバイス２２５Ｂが、音声信号x_M(l)を供給する。音声入力デバイス２２５Ａ、２２５Ｂの間の楕円は、一以上の追加の音声入力デバイスを表すことがあり、または、追加の入力デバイスが無いこと（例えば、Ｍ＝２）を表すことがある。例示の目的では、音声入力デバイス２２５Ａ、２２５Ｂは、（例えば、マイクロホンアレイを構成する）マイクロホンであり、音声信号x₁(l)、x_M(l)は、マイクロホン信号である。ただし、他の実施形態では、音声入力デバイス２２５Ａ、２２５Ｂ及び／又は他の音声入力デバイスが、音声信号を音声サブシステム２１０に供給するための他の種類の音声入力デバイスであってもよい。

いくつかの観点では、対象音声を強調する空間的な音声処理を容易化するために、Ｍは、少なくとも２であってもよい。複数の音声入力デバイスが使用可能である場合、発話強調技術の性能を向上する空間的処理を行うために、該複数の音声入力デバイスが用いられ得る。このような空間ダイバーシティは、ビーム成形、及び／又は、所望の元信号（例えば、対象音源の声）をよりよく検出／抽出し、干渉源の信号（例えば、ノイズ及び／又は他の人物の声）を抑制する他の手法において用いられ得る。他の観点では、Ｍが１であり（例えば、単一のマイクロホン）、対象の音を強調するために適正な単一音声入力の処理を行ってもよい。

音声サブシステム２１０は、多チャンネルノイズ低減コンポーネントとゲートコンポーネントとを備えていてもよい。多チャンネルノイズ低減コンポーネントは、対象の発話者によって提供される音声信号の強調（例えば、そのような対象音源の発話の強調）を容易化してもよい。一実施形態では、多チャンネルノイズ低減コンポーネントは、外部からの音声アクティビティ検出（ＶＡＤ）によって制御されてもよい。場合によっては、多チャンネルノイズ低減コンポーネントは、幾何学的な制約がない（例えば、ユーザは、３６０°空間のどこにいてもよい）ように構成されてもよい。ゲートコンポーネントは、音声アプリケーション２１５に送られる信号をミュート（例えば、ミュートされた音声を生成）してもよい。例えば、ゲートコンポーネントは、対象音源が映像入力デバイス２２０の視界にないとき、及び／又は、音声アプリケーション２１５に関与していないとき、音声アプリケーション２１５に送られる信号をミュートしてもよい。この選択的なミュートは、映像サブシステム２０５によって供給され、継続的に更新されるデータ（例えば、１以上の状態変数）に基づいて制御されてもよい。

多チャンネルノイズ低減コンポーネントとゲートコンポーネントとは、多チャンネル音声入力信号と統括信号とに少なくとも部分的に基づいて動作してもよい。各時間サンプルlについて、音声サブシステム２１０は、出力音声信号s(l)（例えば、強調された音声信号）を生成し、この出力音声信号s(l)を、音声アプリケーション２１５における使用のために供給（例えば、送信）する。出力音声信号s(l)は、対象音源によって生成された対象音声（例えば、発話）に対応する多チャンネル音声入力信号の音声成分を強調してもよい。これに関し、音声サブシステム２１０は、音声信号のそれぞれを分析し（例えば、各音声チャンネルを分析し）、統括信号のような、映像サブシステム２０５からのデータを活用して対象音源に対応するこのような音声成分が存在するかを判定し、出力音声信号s(l)を得るために該音声成分を処理してもよい。

いくつかの実施形態では、音声／映像処理システム２００は、音声アプリケーションのセッション（例えば、会議、ＶｏＩＰ通話）のフローを管理するために用いられ得る。ある観点では、対象音源が映像入力デバイスの視野にいない、又はそうでなければ該音声アプリケーションのセッションに関与していないと判定された場合、音声／映像処理システム２００は、（例えば、ユーザによるマニュアル操作を必要とせずに）映像入力デバイス（例えば、カメラ）及び／又は一以上の音声入力デバイス（例えば、マイクロホン）をオンオフし、再生音及び／又は他の動作を低減してもよい。場合によっては、対象音源が不在又はセッションに関与していないとき、当該音声アプリケーションのセッションがスリープモードに設定（例えば、自動的に設定）されてもよい。

例えば、対象音源が映像入力デバイス２２０を凝視し、及び／又は，対象音源が映像入力デバイス２２０のしきい値距離の範囲内にいる場合には、対象音源がセッションに関与していると判定されることがある。場合によっては、対象音源が関与しているかは、対象音源の性質、例えば、映像入力デバイス２２０との関連での対象音源の振る舞いに関する履歴データ及び／又は対象音源の嗜好に依存していてもよい。例えば、このような履歴データ及び／又は嗜好は、対象音源が話しているときに（そうでなくてもセッションに参加しているとき）に映像入力デバイス２２０の視野外にいる習慣があるか、及び／又は、対象音源が話しているときに（そうでなくてもセッションに参加しているとき）に映像入力デバイス２２０を凝視するかを示すことがある。

様々な実施形態を用いて、音声／映像処理システム２００は、あるユーザを認証し（例えば、対象音源を指定／識別し）、音声アプリケーションのセッションを自動的に制御してもよい。音声ノイズの低減は、認証されたユーザを強調し、映像入力デバイス２２０の視野の外部又は内部の認証されていない如何なる話者に由来し得るノイズを含む、如何なる周辺ノイズも除去するように統括されてもよい。場合によっては、対象音源が不在又はセッションに関与していない場合、音声アプリケーションのセッションが、スリープモードに設定（例えば自動的に設定）されてもよい。

映像サブシステム２０５と音声サブシステム２１０のそれぞれは、映像信号及び音声信号をそれぞれ受信し、処理するために適宜の入力／インターフェース回路部を備えていてもよい。このような入力／インターフェース回路部は、アンチエイリアシングのフィルタリング、アナログ−デジタル変換、及び／又は、その他の処理演算を実施するために用いられてもよい。図２は、音声／映像処理システム２００の送信サイドを図示していることに留意されたい。場合によっては、音声／映像処理システム２００は、音声信号及び／又は映像信号を受信し、受信した信号を出力デバイスに供給する受信サイドも備えている。

図３は、本開示の一以上の実施形態による、映像サブシステム３０５と音声サブシステム３１０とを備える例示的なシステム３００を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び／又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、映像サブシステム３０５は、図２の映像サブシステム２０５であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図２の映像サブシステム２０５又はその一部を実装してもよい。一実施形態では、音声サブシステム３１０は、図２の音声サブシステム２１０であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図２の音声サブシステム２１０又はその一部を実装してもよい。

映像サブシステム３０５は、顔検出コンポーネント３１５と、顔識別コンポーネント３２０と、口唇動き検出コンポーネント３２５と、映像処理コンポーネント３３０とを備えている。（例えば、顔検知器としても参照され、及び／又は、顔検出器によって実装される）顔検出コンポーネント３１５は、映像入力デバイス（例えば、カメラ）から入力映像フレームc(l)を受信する。これに関し、映像入力デバイスは、入力映像フレームc(l)を撮像し、該入力映像フレームc(l)を顔検出コンポーネント３１５に供給してもよい。入力映像フレームc(l)は、映像入力デバイスの視野（例えば、視界とも参照される）にある画像データを備えている。

入力映像フレームc(l)に関し、顔検出コンポーネント３１５は、入力映像フレームc(l)において顔を検出し、入力映像フレームc(l)において検出された顔のそれぞれについて顔検出信号を生成する。入力映像フレームc(l)に顔が検出されない場合、顔検出コンポーネント３１５によって生成された顔検出信号は、入力映像フレームc(l)において検出された顔がないことを示していてもよい。図３において、顔検出コンポーネント３１５は、入力映像フレームc(l)においてＮ個の顔を検出し、顔検出信号bⁿ(l)を生成する。ここで、ｎは、１、・・・、Ｎである。各顔検出信号は、入力映像フレームc(l)に検出された顔それぞれに対応している。これに関し、顔検出コンポーネント３１５は、映像入力デバイスの視野に存在する各話者について顔検出信号を供給する。したがって、顔検出信号bⁿ(l)は、検出された顔として、又は、検出された顔に対応するものとして参照されることがある。例えば、b¹(l)は、第１話者に関する（例えば、対応する）顔検出信号であり、b²(l)は、第２話者に関する顔検出信号である、等である。各話者に関連付けられた序数／識別子（例えば、第１、第２）は、一般に任意であり、異なる話者を識別する便宜のために用いられることがあることに留意されたい。顔検出コンポーネント３１５は、顔識別コンポーネント３２０に顔検出信号bⁿ(l)を供給する。

顔検出コンポーネント３１５は、任意の顔の入力映像フレームc(l)における位置を特定してもよい。顔検出信号bⁿ(l)は、検出された顔の位置を示すデータであってもよく、該データを含んでいてもよい。非限定的な例として、顔検出コンポーネント３１５は、勾配ヒストグラム法、Viola-Jones法、畳み込みニューラルネットワーク（ＣＮＮ）法（例えば、マルチタスクＣＮＮ（ＭＴＣＮＮ法））、及び／又は、一般に、顔検出を容易化する適切な任意の他の手法を用いてもよい。場合によっては、これらの手法のそれぞれは、正しい位置及び正しい寸法で顔画像に適用されたときに高応答を出力する一組の包括パターンを用いて人間の顔をモデル化してもよい。ある観点では、顔検出信号bⁿ(l)のそれぞれは、入力映像フレームc(l)において検出された顔の位置及び大きさを表す（例えば、顔ボックスとも呼ばれる）境界ボックスである。例えば、検出された顔の位置及び／又は大きさは、入力映像フレームc(l)の座標として表され得る。場合によっては、入力映像フレームc(l)は、入力映像フレームc(l)において検出された顔のそれぞれが、その周囲に描かれた境界ボックスを有するように視覚的に調整されてもよい。

いくつかの観点では、顔検出コンポーネント３１５及び／又は他の検出コンポーネントは、位置及び大きさに加え、顔ランドマークのような検出された顔の特徴を識別してもよい。一例では、ＭＴＣＮＮベースの顔検出器は、検出された顔のそれぞれについて、２つの目、鼻及び口の２つの唇の概略的な位置の座標を出力してもよい。これらの顔ランドマークは、顔を真正面の顔になるように整列又は歪ませるために用いられてもよく、これは、一般に、顔認識を容易化する（例えば、顔認識をより易しくする）。ある観点では、顔検出コンポーネント３１５は、境界ボックスを出力する顔検出器と顔ランドマークを識別する一以上のランドマーク検出器とを備えていてもよい。

（例えば、識別コンポーネント、認識コンポーネント又は顔識別器とも呼ばれる）顔識別コンポーネント３２０は、顔検出コンポーネント３１５から顔検出信号bⁿ(l)を受信し、顔検出信号bⁿ(l)を処理して顔検出信号bⁿ(l)のいずれかが対象音源（例えば、許可ユーザ）に対応しているかを判定する。対象音源は、例えば会議アプリケーションのために音声／映像処理システム３００を用いているユーザであってもよい。これに関し、一実施形態では、対象音源は、その対象音声（例えば、声）が音声／映像処理システム３００によって強調されるべきユーザである。

顔検出信号bⁿ(l)のいずれかが対象音源に対応しているかの判定に基づいて、顔識別コンポーネント３２０は、顔検出信号b(l)と顔検出状態Fd(l)とを生成する。場合によっては、顔識別コンポーネント３２０は、該判定に基づいて信号d(l)も生成してもよい。信号d(l)は、境界ボックス及び／又は顔ランドマーク検出のような、入力映像フレームc(l)の処理を容易化するデータを含んでいてもよい。顔識別コンポーネント３２０は、顔検出信号bⁿ(l)のうちの一つが、対象音源に対応している可能性が最も高いと判定することがある。この顔検出信号が、顔検出信号b(l)として供給されてもよい。顔識別コンポーネント３２０は、顔検出信号b(l)を口唇動き検出コンポーネント３２５に送信する。例えば、顔検出信号b³(l)に対応する顔が、（例えば残りの顔検出信号と比較して）対象音源であることの最も高い確からしさを有していると判定された場合、顔識別コンポーネント３２０は、b(l) = b³(l)と設定して顔検出信号b(l)を口唇動き検出コンポーネント３２５に送信する。場合によっては、顔識別コンポーネント３２０が、検出された顔に対象音源に対応し得るものがない（例えば、検出された顔のいずれもが、対象音源であることの最小しきい値の確からしさを有していない）と判定することがある。

顔識別コンポーネント３２０によって生成された顔検出状態Fd(l)は、許可されたユーザが入力映像フレームc(l)に存在していると判定されているかを示していてもよい。これに関し、顔検出状態は、顔検出状態Fd(l)によって識別される音源が対象音源であることの確からしさ（例えば、確率、信頼スコア）を示す信号である。一の観点では、顔検出状態Fd(l)は、二値信号であってもよい。例えば、これらの場合には、顔検出状態Fd(l)が、映像入力デバイスの視野に対象音源が検出された（例えば、存在すると判定された）場合のみ１であり、そうでなければ０であってもよい。場合によっては、顔検出状態Fd(l)が、対象音源が音声アプリケーションに関与していると判定されたかを考慮に入れてもよい。これらの場合、顔検出状態Fd(l)は、対象音源が映像入力デバイスの視野に検出され、音声アプリケーションに関与している場合のみ１であり、そうでなければ０であってもよい。例えば、対象音源が凝視する方向及び／又は対象音源と映像入力デバイスとの間にあると推定される距離に基づいて、対象音源が関与していると判定されてもよい。他の観点では、顔検出状態Fd(l)は、二値でなくてもよく、顔検出状態Fd(l)によって識別される音源が対象音源であることの確からしさ（例えば、０と１の間）であってもよい。

いくつかの観点では、この判定を行うために、顔識別コンポーネント３２０は、顔検出信号bⁿ(l)に対応する検出された顔のいずれかが（図３ではprior IDとして示されている）事前顔識別子に十分に近いかを判定してもよい。事前顔識別子は、事前に定義された顔識別子として参照されることもある。事前顔識別子は、音声／映像処理システム３００の対象音源（例えば、許可／認証されたユーザ）の顔であってもよく、対応づけられていてもよい。ある観点では、事前顔識別子は、入力映像フレームc(l)に検出された顔と比較可能な対象音源の、例えば画像のようなデータであってもよい。

一例として、事前顔識別子は、能動的な加入／登録の段階で決定されてもよい。例えば、場合によっては、音声／映像処理システム３０５及び／又は音声アプリケーションを容易化することと関連する他のコンポーネントを用いる意図がある人物が、関連する装置及び／又はソフトウェアを用いる会員である、そうでなくても登録する必要があってもよい。事前顔識別子は、予め登録された顔であってもよい。これに関し、ユーザは、（例えば、少なくとも図２の音声アプリケーション２１５のような音声アプリケーションを用いる目的で）音声／映像処理システム３００の許可ユーザとして自らを予め登録する。該ユーザは、その後、加入／登録の直後、及び／又は後の時点で音声アプリケーションを用いるように進んでもよい。他の例として、事前顔識別子は、（音声アプリケーションのセッション（例えば通話）の目的で）対象音源が映像入力デバイスの視界にある主たる正面の顔であると仮定して音声アプリケーションのセッションの開始時に決定されてもよい。これに関し、音声／映像処理システム３０５は、音声／映像処理システム３０５に通信可能に接続された映像入力デバイスの正面に位置するユーザが対象音源であると識別する。場合によっては、顔が許可ユーザに対応しているという判定／識別が、顔の大きさや凝視する方向に基づいていてもよい。例えば、映像撮像デバイスの視界において最も大きい顔の人物であっても、当該人物の凝視が映像撮像デバイスから離れている場合（例えば、当該人物が映像撮像デバイスに関与していない場合）、又は、当該人物が映像撮像デバイスを歩いて通り過ぎた場合には許可ユーザでないと判定され得る。場合によっては、音声／映像処理システム３０５を用いる意図がある人物が、事前の加入／登録なしにアプリケーション（例えば、音声アプリケーション）を容易化すべきかは、音声／映像処理システム３０５及び／又は該アプリケーションの容易化に関連する他のコンポーネントの所持者及び／又は製造者からの設定、該アプリケーションのプロバイダからの設定（例えば、セキュリティ設定、プライバシー設定）、及び／又は、他の実体及び／又は要因に依存していてもよい。

いくつかの観点では、ユーザの認識／識別において該ユーザの実際の身元を判定しなくてもよく、また、ユーザのデータ（例えば、顔ランドマークの特徴のようなバイオメトリクス）を格納しなくてもよい。これに関し、ユーザの認識／識別では、一のセッション又は複数のセッションの間において、顔を含む画像を分析すること及び／又は用いられる音声（例えば、声）を分析することで得られた、このような区別をするためのデータを用いて、（例えば、顔の特徴に基づいて、及び／又は実際の身元を判定することなく）あるユーザを他のユーザと区別することができてもよい。

いくつかの観点では、顔（例えば、顔ランドマーク）が事前顔識別子に十分に近いかを判定するために、深層映像埋込 (deep video embedding) が顔検出信号bⁿ(l)の処理として又はその一部として用いられてもよい。顔識別コンポーネント３２０は、深層畳み込みニューラルネットワーク（ＤＣＮＮ）に依拠した手法を用いて顔、例えば対象音源の顔を認識してもよい。このような手法では、顔識別コンポーネント３２０は、入力映像フレームc(l)において、顔ランドマーク（例えば、人の唇、鼻、目、額等の位置、大きさ、及び／又は、形）を受信してもよい。場合によっては、顔ランドマークは、顔検出コンポーネント３１５から顔識別コンポーネント３２０によって受信されてもよい。ＤＣＮＮは、所定の顔画像パッチをＤ次元ベクトルｆに埋め込む（マッピングする）ように学習されてもよい。このＤＣＮＮは、同一個人の顔画像を、環境条件の差異及び／又は顔画像に影響する些細なポーズの差異と無関係に同一又は類似のベクトルｆにマッピングする。任意の２つの顔（例えば、埋込ベクトルｆ_１を有する第１の顔と埋込ベクトルｆ_２を有する第２の顔）の間の類似度は、Ｌ２類似度又はコサイン類似度のようなメトリックを介して、対応する埋込ベクトルｆ_１、ｆ_２の間で判定（算出、表現）されてもよい。偽陽性を避けるために、異なる２人の個人の顔ベクトルの間の類似度が、十分に大きい（例えば、これらの顔ベクトルの間の類似度がしきい値を超えている）ことが好ましい。

このようなネットワークを学習させるために、顔データセットが利用可能であると仮定される。場合によっては、顔データセットは、様々なポーズ、照明、化粧、及びその他の現実世界における条件での個人の顔画像（例えば、MS-Celeb-1M、CASIA-Webface）を含んでいてもよい。ＤＣＮＮの学習バッチのそれぞれは、顔データセットからサンプルされたデータトリプレットを含んでいてもよい。各データトリプレットは、（例えばアンカー（ａ）と称される）個人の顔画像と、（例えばポジティブ（ｐ）と称される）現実世界での変化を幾分伴う同一個人の他の顔画像と、（例えばネガティブ（ｎ）と称される）他の個人の顔画像とを含んでいてもよい。学習プロセスを開始するに当たり、ＤＣＮＮの重みはランダムに初期化されてもよい。この、ランダムに初期化されたＤＣＮＮは、トリプレットの損失を最小にするように、所定のトリプレットの３つの顔画像のそれぞれについて顔ベクトルを決定するために用いられてもよい。アンカーとポジティブの顔ベクトルの間の距離が大きいか、逆にアンカーとネガティブの顔ベクトルの間の距離が小さい場合には、トリプレットの損失が起こるとＤＣＮＮにペナルティーを与えなければならないかもしれない。

いくつかの観点では、前述の手法に代えて、又は加えて、顔識別コンポーネント３２０は、対象音源の検出を容易化するために他の手法を用いてもよい。顔識別コンポーネント３２０は、（例えば、一組の顔画像の共分散行列の固有ベクトル上の分類子の学習を行う）固有顔法を用いた顔認識を行い、及び／又は、データセットの全ての顔について線エッジのマップを計算し、到来する顔画像を判別するために分類子を用いてもよい。様々な手法が、事前に登録された（例えば、音声アプリケーション又は他のアプリケーションを使用する目的で事前に登録された）ユーザの顔を使用し得る。

口唇動き検出コンポーネント３２５は、顔検出信号b(l)を受け取り、（例えば対象音源と判定された）この検出された顔に関連する如何なる口唇の動きをも検出する。対象音源が発話しているか否かは、検出された口唇の任意の動きに少なくとも部分的に基づいていてもよい。口唇動きコンポーネント３２５は、口唇動き検出状態Lp(l)を生成し、口唇動き検出状態Lp(l)を音声統括ロジックコンポーネント３４０に送信する。口唇動き検出状態Lp(l)は、対象音源の唇が動いているか否の確率（例えば、確からしさ、信頼スコア）を示している。場合によっては、口唇動き検出状態Lp(l)は、対象音源が話しているか否の確率（例えば確からしさ、信頼スコア）を示している。

口唇の動きを検出するために、口唇動き検出コンポーネント３２５は、顔検出信号b(l)に対応する検出された顔の唇の上に、複数のランドスケープを識別し（例えば、設置し、位置させ）てもよい。場合によっては、与えられた顔について、唇が開いているか閉じているかを判定するために上唇と下唇との間の相対距離が特定（例えば、推測）されてもよい。相対距離が（例えば映像入力デバイスによって撮像された）フレーム間で十分に変化している（例えば、しきい値量を超えて変化している）場合、口唇動き検出コンポーネント３２５は、唇が動いていると判定してもよい。

映像処理コンポーネント３３０は、境界ボックスと顔ランドマーク検出とを含む顔検出出力を入力として受け取ってもよい。例として、一実施形態では、映像処理コンポーネント３３０は、背景ぼかしコンポーネントとして実装される。このような実施形態では、このような情報（信号d(l)として総称されている）は、顔の周囲にマスクを規定するために用いられてもよい。当該マスクは、背景ぼかしコンポーネントによってぼかすべき入力映像フレームc(l)の部分を識別し／指し示す。境界ボックス又は顔ランドマークの凸型外殻ポリゴンの何れが用いられる場合であっても、人の髪の毛と首が消し去られないように、検出された顔領域の形態が拡張されてもよい。ぼかしそれ自体は、ガウスぼかし、箱ぼかし、又は一般に任意の他の種類のぼかしであってもよい。ぼかしによって入力映像フレームc(l)から高周波情報を除去し、入力映像フレームc(l)に他の人がいてもぼかしを行った後ではその顔が識別できないようにしてもよい。場合によっては、背景領域の全体が単色に置き換えられることも可能である。この単色は、場面の背景の平均であってもよい。場合によっては、背景領域は、ユーザが選択した静止背景又はユーザが選択した動画背景のいずれであってもよい。例として、許可ユーザの実際の位置に無関係に、背景領域は、（例えば許可ユーザによって選択された）オフィスの背景、又は、自然をイメージした背景に置換されてもよい。場合によっては、背景領域の除去、置換及び／又はぼかしにより、（例えば、対象音源、他の人々及び／又は場所の）プライバシーが強化され得る。

信号d(l)に基づいて、背景ぼかしコンポーネントは、検出された許可ユーザの顔を取り囲む如何なる領域をぼかしてもよい。一の観点では、信号d(l)は、検出された許可ユーザの顔を取り囲む入力映像フレームc(l)のエリアを識別するマスクエリアを提供する。その代わりに、信号d(l)は、背景ぼかしコンポーネントが顔の領域の外の如何なる領域もぼかすように、顔の領域を提供する。場合によっては、ぼかしによって（許可ユーザ又は許可ユーザの周囲のために）プライバシーが提供され、及び／又は（入力映像フレームの他の局面がぼかされるので）対象音源の検出が容易化される。場合によっては、対象音源が検出されない場合、入力映像フレーム全体がぼかされ、又は、空白にされる。

図４Ａ、４Ｂは、本開示の一以上の実施形態による、入力映像フレームc(l) (４０５と符号が付されている)と、入力映像フレームc(l)の背景を処理することによって得られた出力映像フレームc^(l)（４１０と符号が付されている）の例を図示している。図４Ａにおいて、入力映像フレーム４０５は、（例えば、顔識別コンポーネント３２０によって）対象音源と判定された人物４１５と、ステレオ４２０と、人物４２５と、人物４３０とを含んでいる。図４Ｂに図示されているように、入力映像フレーム４０５は、出力映像フレーム４１０が人物４１５を含み、入力映像フレーム４０５のその他の部分（例えば、その背景）が斜め模様の背景に置き換えられるように処理される。場合によっては、映像サブシステム３０５は、例えばステレオ４２０のような、ノイズ源となりうる物体を入力映像フレームにおいて検出するために、（例えば物体検出器とも呼ばれる）物体検出コンポーネントを備えていてもよいことに留意されたい。検出された物体が識別され、音声ノイズの低減を容易化するために用いられてもよい。

背景ぼかしコンポーネントは、各フレームで顔検出入力を受信するので、背景ぼかしコンポーネントは、許可ユーザの動きと一致した（例えば、追随する）背景のぼかしを行ってもよい。例えば、背景のぼかしは、対象音源が立ち上がり、その頭を動かすなどをするにつれて対象音源を追随するように行われてもよい。場合によっては、映像入力デバイスによって映像フレームに撮像された対象音源の体全体が、対象音源の手及び／又はその他の体のパーツが消し去られないように区分されてもよい。例えば、許可ユーザの体のパーツを消し去らないことにより、許可ユーザは、ボディランゲージとジェスチャーとを用いてデータを伝達することがある。この区分は、ＤＣＮＮ又は体ポーズ推定（例えば、ＤＣＮＮに基づくOpenPose）に基づくセマンティックス区分を用いて行われてもよい。

以上では、映像処理コンポーネント３３０が入力映像フレームc(l)にぼかしを行う実施形態を記述しているが、映像処理コンポーネント３３０は、ぼかしを行うのに代えて、又は加えて、他の態様で入力映像フレームc(l)を処理してもよい。一例として、対象音源の視認性を向上するために入力映像フレームc(l)にフィルタを適用してもよい。他の例としては、ある用途では、例えばプライバシーの懸念のために及び／又は対象音源の嗜好に基づいて対象音源の外観を調整するために、フィルタが入力映像フレームc(l)に適用されてもよい。場合によっては、映像処理コンポーネント３３０は、任意的である。例えば、場合によっては、処理コンポーネントは用いられず、出力映像フレームc^(l)は、入力映像フレームc(l)と同一であってもよい。

ここで音声サブシステム３１０に言及すると、音声サブシステム３１０は、音声ＶＡＤコンポーネント３３５と、音声統括ロジックコンポーネント３４０と、音声処理コンポーネント３４５とを備えている。音声ＶＡＤコンポーネント３３５は、（音声入力x₁(l)、・・・、x_M(l)で構成される）多チャンネル音声信号を受信し、多チャンネル音声信号にＶＡＤ法を実施することに少なくとも部分的に基づいてＶＡＤ信号a(l)を生成する。音声ＶＡＤコンポーネント３３５は、（例えばニューラルネットワーク推定に基づく）外部音声に依拠するＶＡＤであってもよい。音声ＶＡＤコンポーネント３３５は、任意の適切なＶＡＤ法を用いて音声信号の異なる部分を識別し、音声信号のいずれかの部分（例えば、いずれかの音声成分）が、対象音源に由来し得るかを判定する。これに関し、ＶＡＤは、対象音源が話しているか（例えば、対象音声を生成しているか）を判定するために用いられてもよい。いくつかの実施形態では、ＶＡＤは、一般化固有値（ＧＥＶ）ビーム成形（最大ＳＮＲビーム成形とも呼ばれる）技術及び統括化独立ベクトル分析（ＩＶＡ）技術のような多チャンネル発話強調技術と共に用いられてもよい。例えば、一般化固有値追跡を包含するビーム成形技術が、受信された音声信号において対象音源を強調するために用いられてもよい。

いくつかの観点では、音声ＶＡＤコンポーネント３３５は、音声入力が発話か、発話でないかを判定するために用いられてもよく、映像サブシステム３０５（例えば、映像サブシステム３０５によって用いられるLp(l) 及びFd(l)）は、アクティビティが、対象音源（例えば、対象の発話）であるか、干渉する音声（例えば、干渉する発話）であるかを判定するために用いられてもよい。これに関し、場合によっては、音声ＶＡＤコンポーネント３３５が２人（又はそれ以上の）発話者を区別するために使用されない。例えば、ＶＡＤ信号a(l)は、人物が話している確率（例えば、確からしさ又は確信スコア）を示していてもよい。対象音源が発話していないときに対象音源が発話していると認識することに関連する偽陽性は、音声のモダリティだけが用いられるときに発生することがあり、同様に、映像のモダリティだけが用いられるときに発生することがある。例えば、映像のモダリティについて、口唇動き検出状態Lp(l)は、時々、偽陽性を生成することがある。例として、会話の間、発話者は音を出すことなく唇を動かすことがある。様々な実施形態を用いると、対象音源が実際には発話していないときに対象音源が発話していると識別することに関連する誤検出は、音声と映像のモダリティを一緒に組み合わせることで低減されることがある。ある場合には、音声統括ロジックコンポーネント３４０に関連して議論したように、各モダリティの誤検出を低減するためにa(l)とLp(l)の最小値（例えば、より小さい値）をとることで、音声と映像のモダリティが組み合わされてもよい。

音声統括ロジックコンポーネント３４０は、音声−映像ＶＡＤ統括信号p(l)とハードゲート信号g(l)とを生成する。信号p(l)及びg(l)は、顔検出状態Fd(l)と口唇動き検出状態Lp(l)とＶＡＤ信号a(l)とに少なくとも部分的に基づいて生成される。場合によっては、音声統括ロジックコンポーネント３４０は、顔検出状態Fd(l)と口唇動き検出状態Lp(l)とＶＡＤ信号a(l)との非線形の組み合わせを適用して信号p(l)及びg(l)を生成してもよい。顔検出状態Fd(l)と口唇動き検出状態Lp(l)は、総合して図２に図示されている「統括」信号を提供してもよい。これに関し、顔検出状態Fd(l)と口唇動き検出状態Lp(l)は、音声サブシステム３１０による音声処理を容易化するデータを供給する。

例として、（例示の目的のみで）全ての状態変数（例えば、Lp(l)、Fd(l)、a(l)及び／又はその他）が二値である、又は、０から１の間の範囲に制限されていると仮定して、p(l)は、a(l)とLp(l)とのうちの小さい値として定義されてもよい（例えば、p(l) = min(a(l), Lp(l))）。この例示的な場合では、「小さい」組み合わせを用いるに当たり、偽陰性より偽陽性が多くなるように対象の発話の検出を行うように各モダリティ（例えば、音声と映像）が設計されると仮定されてもよい。同様に、例として、g(l)は、Fd(l)とa(l)とうちの小さい値として定義されてもよい（例えば、g(l) = min(a(l), Fd(l))）。場合によっては、g(l)について、ゲーティングによって不快で速い不連続性が起こることを避けるために、時間的なスムージングが行われてもよい。

いくつかの観点では、映像サブシステム３０５からのこのようなデータは、妨げになる発話者によって生成された発話をノイズが含む場合であっても、孤立した妨げになるノイズを観測するという高い確信がある場合に信号の部分を識別するために一般に用いられるＶＡＤ（例えば、ニューラルネットワークに依拠するＶＡＤ）の使用を容易にすることがある。このような場合、ノイズ低減は、音声のモダリティを排他的に用いるよりも、むしろ映像のモダリティと共に音声のモダリティを用いる（例えば、映像サブシステム３０５による統括）ことで容易化可能である。

音声−映像ＶＡＤ統括信号p(l)は、動的多チャンネルフィルタのノイズ及び発話の統計値の推定を制御することがある。音声−映像ＶＡＤ統括信号p(l)は、多チャンネル音声信号の音声成分が実際に対象音源のものである（例えば、正しい音声成分に強調が行われている）という確率（例えば、確からしさ、信頼スコア）を示していてもよい。ハードゲート信号g(l)は、出力信号をハードによってミュートし又はミュートを解除するために用いられてもよい。例えば、ハードゲート信号g(l)は、（Fd(l)とLp(l)とに少なくとも部分的に基づいて）対象音源が映像撮像デバイスの視野にいない、又は、通話に関与していない確率が高い場合に出力信号をハードによってミュートするために用いられてもよい。ある観点では、音声統括ロジックコンポーネント３４０と音声処理コンポーネント３４５は、総合して、音声サブシステム３１０の多チャンネルノイズ低減コンポーネント及びゲートコンポーネントを実装してもよい。

いくつかの実施形態では、音声／映像処理システム３００は、音声アプリケーションのセッション（例えば、会議、ＶｏＩＰ通話）のフローを管理するために用いられ得る。ある観点では、対象音源が映像入力デバイスの視野にいない、又はそうでなくとも音声アプリケーションのセッションに関与していないと判定された場合、音声／映像処理システム３００は、映像入力デバイス（例えば、カメラ）及び／又は音声入力デバイス（例えば、マイクロホン）の１つ以上を（例えばユーザによるマニュアル操作を必要とせずに）オンオフし、再生音声及び／又は他の動作を低減してもよい。場合によっては、音声アプリケーションのセッションは、対象音源が不在、又は、セッションに関与していないときに（例えば自動的に）スリープモードに設定されてもよい。ある場合には、顔検出状態Fd(l)が、対象音源が映像入力デバイスの視野にいないことを示している状態（例えば、値）であるときに、音声／映像処理システム３００は、音声の再生をミュート（例えば、出力音声信号s(l)をゼロに設定）してもよい。音声再生をミュートすることで、音声アプリケーションのセッションのダウンリンクにおいてもプライバシーを向上させ得る。

映像サブシステム３０５と音声サブシステム３１０のそれぞれは、それぞれ映像信号と音声信号を受信して処理するために適切な入力／インターフェース回路部を備えていてもよい。このような入力／インターフェース回路部は、アンチエイリアシングのフィルタリング、アナログ−デジタル変換、及び／又は、他の処理演算を実施するために用いられてもよい。図３は、音声／映像処理システム３００の送信サイドを図示していることに留意されたい。場合によっては、音声／映像処理システム３００は、音声信号及び／又は映像信号を受信し、受信した信号を出力デバイスに供給する受信サイドも備えている。

このように、様々な実施形態を用いると、多チャンネル音声信号からの強調された音声信号（例えば、s(l)）の生成が、映像信号（例えば、c(l)）を用いることで容易化される。映像入力信号（例えば、c(l)）と音声入力信号（例えば、多チャンネル音声信号）とからユーザを認識／識別し、適切な出力映像信号（例えば、c^(l)）と出力音声信号（例えば、s(l)）とを生成することは、アプリケーション（例えば、音声アプリケーション）の１つのセッション又は複数のセッションの間、あるユーザを他のユーザから区別することができることを要することがある。当該あるユーザの他のユーザからの区別は、確率（例えば、確からしさ、信頼スコア）として表現されてもよく、例えばbⁿ(l)、b(l)、d(l)、Lp(l)、Fd(l)、a(l)、p(l)及びg(l)のような、映像サブシステム３０５による映像信号の適切な分析と、音声サブシステム３１０による、音声信号と映像サブシステム３０５の出力信号（例えば、Lp(l)、Fd(l)）の適切な分析によって得られる出力信号に少なくとも部分的に基づいていてもよい。

図５は、本開示の一以上の実施形態による、映像サブシステム５０５と音声サブシステム５１０とを備える例示的なシステム５００を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び／又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。一実施形態では、映像サブシステム５０５は、図２の映像サブシステム２０５であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図２の映像サブシステム２０５又はその一部を実装してもよい。一実施形態では、音声サブシステム５１０は、図２の音声サブシステム２１０であってもよく、含んでいてもよく、一部であってもよく、そうでなくとも図２の音声サブシステム２１０又はその一部を実装してもよい。

映像サブシステム５０５は、顔検出コンポーネント５１５と、顔識別コンポーネント５２０と、口唇動き検出コンポーネント５２５と、映像処理コンポーネント５３０とを備えている。音声サブシステム５１０は、音声ＶＡＤコンポーネント５３５と、音声統括ロジックコンポーネント５４０と、音声処理コンポーネント５４５とを備えている。図３の説明は、一般に、図５にも当てはまり、図３と図５の差異の例と、その他の説明が明確性のために提供される。これに関し、図５の音声／映像処理システム５００の構成要素は、図３の音声／映像処理システム３００の様々な対応する構成要素と同じ又は類似の態様で実装され得る。

図５において、音声／映像処理システム５００は、複数の対象音源のための音声信号強調（例えば、同時的な音声信号強調）を容易化するために用いられ得る。これに関し、強調された音声ストリームが、複数の対象音源について生成されてもよい。例として、ｍ番目の対象音源（例えば、ｍ番目の許可ユーザ）について、顔識別コンポーネント５２０が、顔検出信号b^m(l)、信号d^m(l)及び顔検出状態Fd^m(l)を供給し、口唇動き検出コンポーネント５２５が口唇動き検出状態Lp^m(l)を供給し、音声ＶＡＤコンポーネント５３５がＶＡＤ信号a^m(l)を供給し、音声統括ロジックコンポーネント５４０が音声−映像ＶＡＤ統括信号p^m(l)とハードゲート信号g^m(l)とを供給し、映像処理コンポーネント５３０が出力映像フレームc^{^m}(l)を供給し、音声処理コンポーネント５４５が出力音声信号s^m(l)を供給してもよい。顔識別コンポーネント５２０は、（事前ＩＤとして参照されている）複数の事前顔識別子に少なくとも部分的に基づいて、検出した顔のそれぞれを複数の対象音源の１つに関連付けてもよい。図３は、音声／映像処理システム３００が単一の対象音源に対応している図５の例示的なケースを図示している。

図６は、本開示の一以上の実施形態による、映像データを用いて容易化された音源強調のための例示的なプロセス６００のフロー図を図示している。例示的なプロセス６００は他のシステムと共に使用され得るが、ここでは、例示の目的で、例示的なプロセス６００を図３の音声／映像処理システム３００を参照して説明する。一以上の動作が、所望の通りに、組み合わされ、省略され、及び／又は異なる順序で行われてもよいことに留意されたい。

ブロック６０５において、映像サブシステム３０５は、映像入力デバイス（例えば、カメラ）によって撮像された画像（例えば、入力映像フレームc(l)）を受信する。ブロック６１０において、音声サブシステム３１０は、複数の音声入力デバイス（例えば、マイクロホン）によって検出された音声信号（例えば、x₁(l)、・・・x_M(l)）を含む多チャンネル音声信号を受信する。

ブロック６１５において、映像サブシステム３０５は、該画像に少なくとも部分的にも基づいて対象音源に関する確からしさ（例えば、確率、信頼スコア）を示す第１信号を規定する。いくつかの観点では、第１信号は、該画像において検出された顔が対象音源のものであることの確からしさを示していてもよい。場合によっては、第１信号は、顔識別コンポーネント３２０によって生成された顔検出状態Fd(l)であってもよい。顔検出状態Fd(l)は、二値信号であってもよく、非二値信号であってもよい。

ブロック６２０では、音声サブシステム３１０は、対象音源に由来する音声に関する確からしさを示す第２信号を規定する。第２信号は、ブロック６１５において映像サブシステム３０５によって生成された第１信号に少なくとも部分的に基づいて規定されてもよい。場合によっては、第２信号は、検出された唇の動き（例えば、口唇動き検出状態Lp(l)）及び音声ＶＡＤ信号（例えば、a(l)）に更に基づいて規定されてもよい。いくつかの観点では、第２信号は、多チャンネル音声信号に検出された音声成分が対象音源のものであることの確からしさを示していてもよい。場合によっては、第２信号は、音声統括ロジックコンポーネント３４０によって生成された音声−映像ＶＡＤ統括信号p(l)であってもよい。

ブロック６２５において、音声サブシステム３１０は、第２信号に少なくとも部分的に基づいて多チャンネル音声信号を処理して出力音声信号（例えば、強調された音声信号s(l)）を生成する。ブロック６３０において、映像サブシステム３０５は、該画像を処理して出力映像信号（例えば、c^(l)）を生成する。ある観点では、映像サブシステム３０５は、該画像をぼかす処理をしてもよい。ブロック６３５において、音声／映像処理システム３００は、（例えば、音声アプリケーションにおいて用いるために）出力音声信号を送信する。ブロック６４０において、音声／映像処理システム３００は、（例えば、音声アプリケーションにおいて用いるために）出力映像信号を送信する。例えば音声アプリケーションが音声のみの通話を行っている場合のように、場合によっては、ブロック６３０、６４０は、任意である場合がある。

図７は、本開示の一以上の実施形態による、音源強調を行うための例示的な電子システム７００を図示している。示されている構成要素の全てが必要ではないかもしれないが、一以上の実施形態は、図に示されていない追加の構成要素を備えることがある。構成要素を追加し、異なる構成要素を用い、及び／又は構成要素を少なくすることを含む、構成要素の配置及び種類の変更が、ここに提示されている特許請求の範囲から離れることなくなされ得る。

電子システム７００は、一以上のプロセッサ７０５と、メモリ７１０と、入力コンポーネント７１５と、出力コンポーネント７２０と、通信インターフェース７２５とを備えている。電子システム７００の様々なコンポーネントは、バス又はその他の電子通信インターフェースを介してやり取り及び通信を行ってもよい。電子システム７００は、例えば、携帯電話、タブレット、ラップトップコンピューター、デスクトップ、自動車、パーソナルデジタルアシスタント（ＰＤＡ）、テレビ、スピーカ（例えば、画像撮像が可能な会議用スピーカ）、又は、（例えば、音声入力デバイス及び映像入力デバイスから）音声及び映像信号を受信し、他のデバイスに直接に又はネットワークを介して信号を送信する如何なる電子デバイス一般であってもよく、また、接続されていてもよい。

プロセッサ７０５は、プロセッサ、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、プログラマブルロジックデバイス（ＰＬＤ）（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ））、デジタル信号処理（ＤＳＰ）デバイス、又は、ハードの配線を行い、ソフトウェア指令を実行し、又は、これらの両方の組み合わせによって構成されて、ここに議論した音源強調のための様々な演算を行うように構成され得る他のデバイスのうちの一以上を備えていてもよい。これに関し、プロセッサ７０５は、メモリ７１０及び／又は他のメモリコンポーネントに格納された命令を実行するように動作可能であってもよい。一実施形態では、プロセッサ７０５は、図１、図２、図３、及び図５それぞれの音声／映像処理システム１２０、２００、３００及び５００の様々なコンポーネントの動作を行ってもよい。例として、プロセッサ７０５は、音声入力デバイス（例えば、図１の１２５Ａ〜Ｄ）から多チャンネル音声入力信号を受信し、映像入力デバイス（例えば、図１の１３０）から画像を受信し、これらの音声及び映像信号を処理してもよい。

メモリ７１０は、音声データ、映像データ及びプログラム命令等のデータを格納するように動作可能な一以上のメモリデバイスとして実装されてもよい。メモリ７１０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気書き換え可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスクドライブのような揮発性及び不揮発性メモリデバイスを含む一以上の種類のメモリデバイス、及び／又は、他の種類のメモリを備えていてもよい。

入力コンポーネント７１５は、入力を受け取る一以上のデバイスを備えていてもよい。ある観点では、入力コンポーネント７１５は、タッチスクリーン、タッチパッドディスプレイ、キーパッド、一以上のボタン、ダイアル、ノブ、及び／又はユーザが電子システム７００とやり取りを行うことを可能にするように動作可能な他のコンポーネントを備えていてもよい。場合によっては、入力コンポーネント７１５は、音声入力デバイス（例えば、マイクロホン）又は映像入力デバイス（例えば、カメラ）を備えていてもよい。例えば、入力コンポーネント７１５は、入力音声信号と入力映像信号とをプロセッサ７０５に供給してもよい。他の場合では、入力コンポーネント７１５は、プロセッサ７０５に入力音声信号と入力映像信号とを音源強調の目的で供給する音声入力デバイス及び／又は映像入力デバイスを備えていない。出力コンポーネント７２０は、音声及び／又は映像出力を出力する一以上のデバイスを備えていてもよい。場合によっては、出力コンポーネント７２０は、音声出力デバイス（例えば、スピーカ）又は映像入力デバイス（例えば、ディスプレイ）を備えていてもよい。

通信インターフェース７２５は、電子システム７００とネットワークと外部デバイスの間の通信を容易化する。例えば、通信インターフェース７２５は、電子システム７００と、例えば外部デバイス７３０のような一以上のローカルデバイスとの間を、Ｗｉ−Ｆｉ（例えば、IEEE 802.11）又はブルートゥース（登録商標）によって接続すること可能にし、又は、ネットワーク７４０を介して外部デバイス７３５へのネットワークアクセスを提供するためにワイヤレスルータに接続することを可能にする。様々な実施形態において、通信インターフェース７２５は、電子システム７００と他のデバイスとの間の直接又は間接の通信を容易化するための有線及び／又は無線通信コンポーネントを備えていてもよい。例として、電子システム７００のユーザは、電子システム７００とネットワーク７４０の間の、及び、ネットワーク７４０と外部デバイス７３５の間の無線通信を介して外部デバイス７３５のユーザとＶｏＩＰ通話を行ってもよい。

当てはまる場合、本開示によって提供されている様々な実施形態は、ハードウェア、ソフトウェア、又は、ハードウェアとソフトウェアの組み合わせを用いて実施され得る。また、当てはまる場合には、ここに提示した様々なハードウェアコンポーネント及び／又はソフトウェアコンポーネントは、本開示の範囲から離れずに、ソフトウェア、ハードウェア及び／又はその両方を備える複合コンポーネントに組み合わされることがある。当てはまる場合、ここに提示されている様々なハードウェアコンポーネント及び／又はソフトウェアコンポーネントは、本開示の範囲から離れずに、ソフトウェア、ハードウェア及び／又はその両方を備えるサブコンポーネントに分離されることがある。加えて、当てはまる場合には、ソフトウェアコンポーネントは、ハードウェアコンポーネントとして実装され得るし、また逆も同様であると考えられる。

本開示によれば、プログラムコード及び／又はデータのようなソフトウェアは、一以上のコンピュータ読み取り可能媒体に格納されてもよい。ここに特定されたソフトウェアは、一以上の汎用又は特定用途の、ネットワーク化された及び／又はそうではない、コンピュータ及び／又はコンピュータシステムを用いて実装されてもよいと考えられる。当てはまる場合には、ここに記載した様々なステップの順序は、ここに記載した特徴を提供するように変更され、複合ステップに組み合わされ、及び／又は、サブステップに分割されてもよい。

前述の開示は、本開示を、開示されている、まさにその形態や特定の使用分野に限定することを意図したものではない。したがって、明示的に記載され、又は、本願に示唆されているものの何れであっても、様々な代替の実施形態及び／又は本開示の変形例が、本開示に照らして可能であると考えられる。本開示の上記された実施形態をもってすれば、当業者は、本開示の範囲から離れることなく形態及び詳細において変更がなされ得ると認識するであろう。したがって、本開示は、特許請求の範囲によってのみ限定される。

Claims

複数の音声入力デバイスによって検出された音声信号を備える多チャンネル音声信号を受信することと、
映像入力デバイスによって撮像された画像を受信することと、
前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第１信号を規定することと、
前記多チャンネル音声信号と前記第１信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第２信号を規定することと、
前記第２信号に少なくとも部分的に基づいて、出力音声信号を生成するように前記多チャンネル音声信号を処理することと、
を含む
方法。
前記処理することが、前記対象音源に由来する前記音声成分を強調し、
前記複数の音声入力デバイスが、マイクロホンのアレイを備えている
請求項１に記載の方法。
更に、
複数の画像を受信することと、
前記複数の画像において或る音源を前記対象音源として識別することと、
前記複数の画像に少なくとも部分的に基づいて前記音源について口唇動き検出を行うことと、
を含み、
前記第２信号が、前記口唇動き検出に更に基づいている
請求項１に記載の方法。
前記多チャンネル音声信号を処理することは、
前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び／又は、前記対象音源の唇の動きが検出されたかに少なくとも部分的に基づいてミュートされた音声を生成することを含む
請求項１に記載の方法。
前記第１信号が二値信号であり、
前記二値信号が、前記対象音源が前記画像にいると判定されることに少なくとも部分的に基づいて第１状態になる
請求項１に記載の方法。
更に、
前記画像において少なくとも一の顔を検出することと、
事前に定義された顔識別子に少なくとも部分的に基づいて、前記少なくとも一の顔の一つが、前記対象音源であると識別することと
を含む
請求項１に記載の方法。
更に、前記多チャンネル音声信号に対して音声アクティビティ検出（ＶＡＤ）を行ってＶＡＤ信号を生成することを含み、
前記第２信号が、前記ＶＡＤ信号に少なくとも部分的に基づいて規定される
請求項１に記載の方法。
更に、
前記画像における前記対象音源の位置を特定することと、
前記画像を処理して前記位置に少なくとも部分的に基づいて出力映像信号を生成することを備える
請求項１に記載の方法。
更に、
前記出力音声信号と前記出力映像信号とを、ネットワークを介して外部デバイスに送信することを備える
請求項８に記載の方法。
前記画像を処理することが、前記位置に少なくとも部分的に基づいて前記画像の一部をぼかして前記出力映像信号を生成することを含む
請求項８に記載の方法。
前記対象音源が前記画像にいないと判定された場合、前記出力映像信号が、全体がぼかされた画像又は全体が空白にされた画像を含んでいる
請求項８に記載の方法。
更に、
前記画像に少なくとも部分的に基づいて前記対象音源の凝視の方向を特定することを含み、
前記第１信号及び／又は前記第２信号が、前記凝視の前記方向に更に基づいている
請求項１に記載の方法。
更に、ボイスオーバーインターネットプロトコル（ＶｏＩＰ）アプリケーションにおいて使用するために前記出力音声信号を送信することを含む
請求項１に記載の方法。
更に、前記映像入力デバイスに対する前記対象音源の位置に少なくとも部分的に基づいて前記ＶｏＩＰアプリケーションのセッションをスリープモードに設定することを含む
請求項１３に記載の方法。
映像入力デバイスによって撮像された画像を受信するように構成された映像サブシステムであって、前記画像に少なくとも部分的に基づいて、対象音源に関する確からしさを示す第１信号を規定するように構成された識別コンポーネントを備える映像サブシステムと、
複数の音声入力デバイスによって検出された音声入力を含む多チャンネル音声信号を受信するように構成された音声サブシステムと
を備え、
前記音声サブシステムが、
前記多チャンネル音声信号と前記第１信号とに少なくとも部分的に基づいて、前記対象音源に由来する音声成分に関する確からしさを示す第２信号を規定するように構成されたロジックコンポーネントと、
前記第２信号に少なくとも部分的に基づいて前記多チャンネル音声信号を処理して出力音声信号を生成するように構成された音声処理コンポーネントと
を備える
システム。
前記映像サブシステムが、更に、前記画像における前記対象音源の位置に少なくとも部分的に基づいて前記画像を処理して出力映像信号を生成するように構成された映像処理コンポーネントを備える
請求項１５に記載のシステム。
前記映像処理コンポーネントが、前記位置に少なくとも部分的に基づいて前記画像の一部分をぼかして前記出力映像信号を生成するように構成された背景ぼかしコンポーネントを備える
請求項１６に記載のシステム。
前記識別コンポーネントが、前記複数の画像において或る音源を前記対象音源と識別するように更に構成されており、
前記映像サブシステムが、前記複数の画像に少なくとも部分的に基づいて口唇動き検出を前記音源に対して行うように構成された口唇動き検出コンポーネントを更に備え、
前記第２信号が前記口唇動き検出に更に基づいている
請求項１５に記載のシステム。
前記音声サブシステムが、前記多チャンネル音声信号に対して音声アクティビティ検出（ＶＡＤ）を行ってＶＡＤ信号を生成するように構成されたＶＡＤコンポーネントを更に備え、
前記第２信号が、前記ＶＡＤ信号に少なくとも部分的に基づいて規定される
請求項１５に記載のシステム。
前記音声処理コンポーネントが、前記多チャンネル音声信号を処理して、前記対象音源が前記画像にいると判定されたか、前記映像入力デバイスに対する前記対象音源の位置、前記対象音源の凝視の方向、及び／又は、前記対象音源の唇の動きが検出されたか、に少なくとも部分的に基づいて、ミュートされた音声を生成するように構成された
請求項１５に記載のシステム。