JP2022168843A

JP2022168843A - 捕捉されたオーディオのフェイスカバーにおける補償

Info

Publication number: JP2022168843A
Application number: JP2022068636A
Authority: JP
Inventors: シー．リンチジョン; c lynch John; デアラウージョミゲル; De Araujo Miguel; シンカルカトグルビンデル; Singh Kalkat Gurbinder; プン－ギンイェユージーン; Pung-Gin Yee Eugene; ブルースマッカーサークリストファー; Bruce Mcarthur Christopher
Original assignee: Avaya Management LP
Current assignee: Avaya Management LP
Priority date: 2021-04-26
Filing date: 2022-04-19
Publication date: 2022-11-08
Also published as: US20220343934A1; EP4084004A1; EP4084004B1; CN115331685A; EP4084004C0

Abstract

【課題】捕捉されたオーディオにおけるフェイスカバーによって引き起こされる減衰の補償を可能にする。【解決手段】特定の実施形態では、方法は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されることを判断することを含む。この方法は、さらに、ユーザからの音声を含むオーディオを受信し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整することを含む。【選択図】図１

Description

世界的には、口を覆うフェイスマスクなどのフェイスカバーは、世界的なパンデミックの間にウイルスやその他の感染症が広がるのを防ぐために広く使用されている。通常の（パンデミックではない）時代においても、ある人と他の人とを守るためにフェイスカバーは多くの状況で使われている。例えば、医療環境やその他の職場では、有害な空気中の汚染物質（例えば、有害な粉塵粒子）から保護するために、フェイスカバーが一般的である。フェイスカバーは、装着者が話したオーディオの一部をブロックする傾向があり、理解しにくくする。ブロックされた音声の構成要素は線形ではなく、大きな声で話したり、音声通話やビデオ通話の音量を上げたり、対面での会話で近づいたりするなど、通常の手段で音声レベルを上げるだけでは回復できない。

ここに開示された技術は、捕捉されたオーディオにおけるフェイスカバーによって引き起こされる減衰の補償を可能にする。特定の実施形態では、方法は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されることを判断することを含む。この方法は、さらに、ユーザからの音声を含むオーディオを受信し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整することを含む。

いくつかの実施形態において、本方法は、周波数を調整した後、ユーザシステムと別のユーザシステムとの間の通信セッションを介してオーディオを送信することを含む。

いくつかの実施形態では、周波数の振幅を調整することは、フェイスカバーによって生じる周波数の減衰に基づいて周波数を増幅することを含む。減衰は、周波数の第１の組が第１の量だけ増幅されるべきであり、周波数の第２の組が第２の量だけ増幅されるべきであることを示すことができる。

いくつかの実施形態において、本方法は、口がフェイスカバーによって覆われていない間に、ユーザからの参照音声を含む参照オーディオを受信することを含む。これらの実施形態において、本方法は、参照オーディオをオーディオと比較して、周波数がフェイスカバーによって減衰された量を判断することを含み得る。同様に、これらの実施形態において、本方法は、口がフェイスカバーによって覆われている間に、トレーニング音声を含むトレーニングオーディオをユーザから受信することを含み、トレーニング音声および参照用音声は、同じスクリプトからユーザによって話された単語を含み、参照用オーディオをトレーニングオーディオと比較して、周波数がフェイスカバーによって減衰された量を判断することを含むことができる。

いくつかの実施形態では、フェイスカバーがユーザの口を覆うように配置されていると判断することは、ユーザのビデオを受信し、顔認識を使用して口が覆われていると判断することを含む。

いくつかの実施形態では、周波数の振幅を調整することは、振幅を調整すべき周波数および量を示すフェイスカバーのプロファイルにアクセスすることを含む。

いくつかの実施形態では、本方法は、ユーザのビデオを受信し、ビデオ内のフェイスカバーをユーザについての合成された口に置き換えることを含む。

別の実施形態では、１つ以上のコンピュータ可読記憶媒体と、１つ以上のコンピュータ可読記憶媒体に動作可能に結合された処理システムとを有する装置が提供される。１つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令は、処理システムによって読み取られて実行されると、フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断するように処理システムに指示する。プログラム命令はさらに、ユーザからの音声を含むオーディオを受信するように処理システムに指示し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整する。

捕捉されたオーディオでフェイスカバーを補償するための実装を示す。捕捉されたオーディオでフェイスカバーを補償する操作を示す。捕捉されたオーディオでフェイスカバーを補償するための操作シナリオを示す。捕捉されたオーディオでフェイスカバーを補償するための実装を示す。捕捉されたオーディオでフェイスカバーを補償するための操作シナリオを示す。捕捉されたオーディオにおけるフェイスカバーを補償するための音声周波数スペクトルグラフを示す。捕捉されたビデオのフェイスカバーを補償するための動作シナリオを示す。捕捉されたオーディオでフェイスカバーを補償するためのコンピューティングアーキテクチャを示す。

本明細書に提供される実施例は、ユーザシステムに話しかけるときにファイスカバー（例えば、マスク、シールド等）の着用の効果を補償することを可能にする。ファイスカバーの効果は非線形（つまり、すべての音声周波数が同じ量の影響を受けるわけではない）であるため、ファイスカバーを着用しているユーザから捕捉された音声の量を単に増やすだけでは、これらの効果は考慮されない。むしろ、音声における周波数の振幅は、音声における周波数がファイスカバーによって影響されない（または無視できるほど影響されない）場合であっても、全体的に増加する。以下に説明する補償は、それぞれの周波数がファイスカバーによってどの程度影響を受けるかに基づいて、音声における周波数を選択的に増幅することによって、非線形効果を説明する。有利には、フェイスカバーによって影響を受けない周波数は増幅されないが、影響を受ける周波数は、これらの周波数がフェイスカバーによってどれだけ減衰されたかに対応する量だけ増幅される。

図１は、捕捉されたオーディオにおけるフェースカバーを補償するための構成１００を示す。構成１００は、補償器１２１およびマイクロホン１２２を有するユーザシステム１０１を含む。ユーザシステム１０１は、ユーザ１４１によって操作される。ユーザシステム１０１は、電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、会議室システム、または他のタイプのコンピューティングシステムであってもよい。補償器１２１は、ユーザシステム１０１（例えば、オーディオを捕捉する通信クライアントアプリケーションまたは他のアプリケーションのコンポーネントであってもよい）によって実行されるソフトウェア命令として、またはハードウェア処理回路として構成することができる。マイクロホン１２２は、音を捕捉し、その音声を表すオーディオを信号でユーザシステム１０１に提供する。マイクロホン１２２は、ユーザシステム１０１に組み込まれてもよく、有線接続を介してユーザシステム１０１に接続されてもよく、または無線接続を介してユーザシステム１０１に接続されてもよい。いくつかの例では、補償器１２１は、マイクロホン１２２に組み込まれてもよく、またはマイクロホン１２２とユーザシステム１０１との間のオーディオのための通信経路に接続されてもよい。

図２は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作２００を示す。動作２００は、この例では、ユーザシステム１０１の補償器１２１によって実行される。他の例では、動作２００は、以下の構成４００における通信セッションシステム４０１のような、ユーザシステム１０１から離れたシステム内の補償器によって実行されてもよい。動作２００において、補償器１２１は、フェイスカバー（この場合、フェイスカバー１３１）がユーザ１４１の口を覆うように配置されていることを判断する（２０１）。フェイスカバー１３１は、マスク、フェイスシールド、または他のタイプのカバーであってもよく、ユーザ１４１の口（そしてしばしばユーザ１４１の鼻）を覆うように配置された場合、粒子が口から周囲空気中に放出されたり、周囲空気から吸入されたりするのを防止することを目的とする。フェイスカバー１３１で口を覆うことによって、ユーザ１４１は、ユーザ１４１の音声によって生成された音が通過する材料（例えば、布、紙、フェイスシールドの場合はプラスチック、または他のタイプのフェイスカバー材料）を、口とマイクロホン１２２との間に配置する。

補償器１２１は、フェイスカバー１３１が（別のフェイスカバーとは対照的に）ユーザ１４１の口の上に具体的に配置されることを判断してもよく、フェイスカバー１３１のタイプ（例えば、布マスク、紙マスク、プラスチック製フェイスシールドなど）のフェイスカバーがユーザ１４１の口の上に配置されることを判断してもよく、または単に、追加の詳細なしにフェイスカバーがユーザ１４１の口の上に配置されることを判断してもよい。補償器１２１は、フェイスカバー１３１が装着されていることを示すユーザ１４１からの入力を受け取ることができ、ユーザ１４１の口がフェイスカバー１３１によって覆われている（例えば、ユーザ１４１の口が覆われていることを認識するために、顔認識アルゴリズムを使用することができる）ことを判断するためにユーザ１４１の捕捉されたビデオを処理することができ、フェイスカバーが存在することを示すユーザ１４１の音声のオーディオにおける特定の減衰パターンを認識することができ、または、何らかの他の方法でフェイスカバーがユーザ１４１の口の上に配置されていることを判断することができる。

補償器１２１は、ユーザ１４１からの音声を含むオーディオ１１１を受信する（２０２）。オーディオ１１１は、マイクロホン１２２によって捕捉された後、マイクロホン１２２から受信される。オーディオ１１１は、ユーザシステム１０１と他の通信システム（例えば、他のユーザによって操作される他のユーザシステム）との間の通信セッションで送信するためのオーディオであってもよく、ユーザシステム１０１または他の場所（例えば、クラウドストレージシステム）のメモリに記録するためのオーディオであってもよく、または何らかの他の理由でユーザ１４１から捕捉されたオーディオであってもよい。

補償器１２１は、フェイスカバー１３１がユーザ１４１の口を覆っていると判断したので、補償器１２１は、オーディオ１１１の周波数の振幅を調整して、フェイスカバー１３１を補償する（２０３）。ユーザ１４１の口とマイクロホン１２２との間にフェイスカバー１３１が存在することは、音がフェイスカバー１３１を通過するときにユーザ１４１の声によって生成される音の周波数の少なくとも一部の振幅を減衰させる。したがって、マイクロホン１２２によって捕捉された音を表すオーディオ１１１は、ユーザ１４１がマスクを着用していなかった場合の振幅と比較して、対応する周波数の振幅を減衰させる。補償器１２１は、影響を受けた周波数のそれぞれの振幅を、ユーザ１４１がフェイスカバー１３１を着用していなかった場合の振幅のレベル（または少なくともそのレベルに近いレベル）に調整する。補償器１２１は、オーディオ１１１のアナログバージョンまたはオーディオ１１１のデジタルバージョンで動作することができる。補償器１２１は、オーディオイコライザがオーディオの周波数のパワー（すなわち振幅）を調整するのと同様の方法で振幅を調整することができる。

いくつかの例において、特定の周波数が調整されるべき量は、補償器１２１内で予め定められてもよい。これらの例では、事前定義された調整量は、多くの異なるタイプ（例えば、布、紙、プラスチックなど）のフェイスカバーによって生じる減衰を考慮して調整が事前定義されている、「１つのサイズがすべてに適合」または「ベストフィット」の原理に基づいてもよい。例えば、一組の周波数が、典型的には、フェイスカバー材料に依存する振幅量の範囲によって減衰される場合、所定の調整は、その範囲の中間の量を定義することができる。いくつかの例では、補償器１２１が上記のフェイスカバー１３１の特定のタイプを判断した場合、所定の調整は、特定のタイプのフェイスカバーの量を含むことができる。例えば、一組の周波数の振幅が調整される量は、フェイスカバー１３１のタイプに応じて所定の量が異なる。

他の例では、補償器１２１は、周波数の振幅が減衰される量を認識するようにトレーニングされてもよく、その結果、これらの周波数は、比例した量に増幅されて、ユーザ１４１の音声を、フェイスカバー１３１が存在しなかったのと同様のレベルに戻すことができる。補償器１２１は、フェイスカバー１３１を説明するために特にトレーニングされてもよく、（例えば、布、紙などについてトレーニングされる）特定のタイプのフェイスカバーを説明するためにトレーニングされてもよく、（例えば、１つのサイズが上述のすべてのアプローチにフィットする）任意のタイプのフェイスカバーを説明するためにトレーニングされてもよく、ユーザ１４１が着用していると判断されたものに応じて異なるタイプのフェイスカバーを説明するためにトレーニングされてもよく（例えば、ユーザ１４１がフェイスカバー１３１の場合は布マスクを説明するようにトレーニングされ、ユーザ１４１が異なる時間に紙マスクを着用している場合は紙マスクを受け入れるようにトレーニングされている）、ユーザ１４１の音声を説明するために特にトレーニングされてもよく、複数のユーザの音声を説明するためにトレーニングされてもよく、および／または何らかの他の方法でトレーニングされてもよい。場合によっては、補償器１２１は、ユーザ１４１の口の上にフェイスカバーが存在しないときに、ユーザ１４１からのオーディオの中の音声を分析して、ユーザ１４１の音声レベル（すなわち、各周波数における振幅）から何が期待されるかを時間とともに学習することができる。フェイスカバー１３１を覆うフェイスのタイプがなぜであるかにかかわらず、補償器１２１は、補償器１２１が予想することを学習したレベルに対応するレベルにオーディオ１１１の周波数を単純に増幅することができる。場合によっては、補償器１２１は、マスクなしのユーザ１４１から予想されている補償器１２１とオーディオ１１１のレベルを比較することに基づいて、フェイスカバー１３１が上記ステップに存在することを認識することができる。

有利には、オーディオ１１１の減衰周波数の振幅を、フェイスカバー１３１がユーザ１４１の口をカバーしていない場合に予想されるレベルに近づける調整をすることにより、ユーザ１４１がフェイスカバー１３１を着用している間のユーザ１４１からの音声を理解しやすくなる。したがって、ユーザシステム１０１または他のシステム（例えば、通信セッション上の別のエンドポイント）によって再生される場合、ユーザ１４１の音声が、ユーザ１４１がフェイスカバー１３１を着用していない場合とまったく同じように聞こえないとしても、ユーザ１４１の音声は、調整が行われなかった場合よりも理解しやすくなる。

図３は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作シナリオ３００を示す。動作シナリオ３００は、フェイスカバー１３１を着用して口を覆うユーザ１４１を補償するように補償器１２１を明示的にトレーニングする方法の一例である。この例では、補償器１２１は、ステップ１において、ユーザ１４１がいかなる種類のフェイスカバーも着用していない間に、マイクロホン１２２を介してユーザ１４１から参照オーディオ３０１を受信する。参照オーディオ３０１は、ユーザ１４１が単語のスクリプトを話すユーザ１４１からの音声を含む。補償器１２１は、ユーザ１４１に（例えば、スクリプト内の単語をユーザ１４１に表示するようにユーザシステム１０１に指示する）スクリプトを提供してもよいし、ユーザ１４１が独自のものを使用してもよい。次に、補償器１２１は、ユーザ１４１がフェイスカバー１３１を着用して口を覆っている間に、ステップ２でマイクロホン１２２を介してトレーニングオーディオ３０２を受信する。トレーニングオーディオ３０２は、ユーザ１４１からの音声を含み、ユーザ１４１は、参照オーディオ３０１に使用されたのと同じスクリプトの単語を話す。補償器１２１はさらに、ユーザ１４１に、同じ方法（例えば、同じ音量、リズム、ペースなど）でスクリプトからの単語を話すように指示してもよく、ユーザ１４１は、単語を話して参照オーディオ３０１を生成し、参照オーディオ３０１ではなくトレーニングオーディオ３０２のために存在するフェイスカバー１３１の外側の参照オーディオ３０１とトレーニングオーディオ３０２との間の変数の数を最小にする。好ましくは、スクリプトは、ユーザ１４１の全音声周波数範囲を捕捉する単語を含む。この例では、トレーニングオーディオ３０２の受信は、参照オーディオ３０１の受信後に発生するが、他の例では、参照オーディオ３０１は、トレーニングオーディオ３０２の後に受信されてもよい。

補償器１２１は、ステップ３で参照オーディオ３０１をトレーニングオーディオ３０２と比較して、ユーザ１４１の音声の周波数が、フェイスカバー１３１によりトレーニングオーディオ３０２においてどの程度減衰されるかを判断する。参照オーディオ３０１およびトレーニングオーディオ３０２は、同じスクリプトを使用する音声を含むので、そこに含まれる周波数は、ユーザ１４１によって同様の振幅で話されるべきであった。したがって、参照オーディオ３０１の周波数とトレーニングオーディオ３０２の対応する周波数との間の振幅（すなわち、減衰）の差は、フェイスカバー１３１によって生じると仮定することができる。次に、補償器１２１は、少なくとも人間の音声についての典型的な周波数（例えば、約１２５Ｈｚ～８０００Ｈｚ）の範囲にわたる振幅の差を使用して、ステップ４において、ユーザ１４１がフェイスカバー１３１を着用するときに可能にすることができるプロファイルを作成する。このプロファイルは、後に受信されるオーディオ（例えば、オーディオ１１１）においてフェイスカバー１３１を着用するユーザ１４１を補償するために、これらの周波数およびそれらの周波数を増幅すべき量を補償器１２１に示す。

いくつかの例では、ユーザ１４１は、口の上に異なるタイプのフェイスカバーを着用しながら、補償器１２１を同様にトレーニングすることができる。ユーザ１４１に関連付けられた個別のプロファイルは、フェイスカバーのタイプごとに作成することができる。次に、補償器１２１は、着用されるフェイスカバーのタイプを判断した後、ユーザ１４１によって着用されるフェイスカバーの適切なプロファイルをロードするか、または別の方法でアクセスすることができる。例えば、ユーザ１４１は、彼らが布マスクを着用していることを示すことができ、それに応じて、補償器１２１は、布マスクを着用しているユーザ１４１のプロファイルをロードする。いくつかの例では、ユーザ１４１のために生成されたフェイスカバープロファイルをクラウドストレージシステムに格納することができる。ユーザ１４１がユーザシステム１０１以外のユーザシステムを操作していても、その他のユーザシステムはクラウドからプロファイルをロードして、プロファイルに対応するフェイスカバーを着用しているユーザ１４１を補償することができる。

図４は、捕捉されたオーディオにおけるフェイスカバーを補償するための構成４００を示す。構成４００は、通信セッションシステム４０１、ユーザシステム４０２～４０５、および通信ネットワーク４０６を含む。通信ネットワーク４０６は、通信セッションシステム４０１およびユーザシステム４０２～４０５が通信する、インターネットを含む１つ以上のローカルエリアおよび／または広域コンピューティングネットワークを含む。ユーザシステム４０２～４０５は、それぞれ、電話、ラップトップコンピュータ、デスクトップワークステーション、タブレットコンピュータ、会議室システム、または他のタイプのユーザ操作可能なコンピューティングデバイスを含むことができる。通信セッションシステム４０１は、音声／ビデオ会議サーバ、パケットテレコミュニケーションサーバ、ウェブベースのプレゼンテーションサーバ、またはエンドポイント間のユーザ通信セッションを容易にする他のタイプのコンピューティングシステムであってもよい。ユーザシステム４０２～４０５はそれぞれ、ユーザシステム４０２～４０５が通信セッションシステム４０１に接続し、通信セッションに参加することを可能にするクライアントアプリケーションを実行することができる。

動作時には、各ユーザ４２２～４２５によって操作されるユーザシステム４０２～４０５間でリアルタイム通信セッションが確立される。通信セッションは、ユーザ４２２～４２５が、それぞれのエンドポイント（すなわち、ユーザシステム４０２～４０５）を介して互いにリアルタイムで会話することを可能にする。通信セッションシステム４０１は、ユーザがいつフェイスカバーを着用しているかを判断し、フェイスカバーによって生じる減衰を補償するために通信セッションを通じてユーザから受信したオーディオを調整する補償器を含む。次いで、調整されたオーディオは、通信セッションの他のユーザに送信される。
この例では、ユーザ４２２のみがフェイスカバーを着用している。したがって、以下に説明するように、ユーザシステム４０３～４０５に送信されてユーザ４２３～４２５に再生される前に、ユーザシステム４０２からのユーザ４２２のオーディオのみが通信ネットワーク４０６によって調整される。他の例では、１人以上のユーザ４２３～４２５がフェイスカバーを着用していてもよく、通信セッションシステム４０１は、これらのユーザが受信したオーディオを同様に調整してもよい。

図５は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作シナリオ５００を示す。動作シナリオ５００では、ユーザシステム４０２は、ステップ１でユーザ通信５０１を捕捉し、通信セッションに含める。ユーザ通信５０１は、ユーザ４２２が話している捕捉されたオーディオを少なくとも含むが、ユーザシステム４０２のディスプレイのオーディオおよび／または画面捕捉ビデオと同時にユーザ４２２が捕捉したビデオのような他の形式のユーザ通信も含むことができる。ユーザシステム４０２は、通信セッションを介してユーザシステム４０３～４０５に配信するために、ステップ２でユーザ通信５０１を通信セッションシステム４０１に送信する。

通信セッションシステム４０１は、ステップ３において、ユーザ通信５０１を生成する際に（つまり、話すときに）、ユーザ４２２がフェイスカバー４３１を着用していることを認識する。通信セッションシステム４０１は、ユーザ通信５０１の分析から、ユーザ４２２がフェイスカバー４３１を着用していることを認識することができる。例えば、通信セッションシステム４０１は、ユーザ通信５０１のオーディオにおける周波数の振幅が、フェイスカバーが着用されていることを示すことを判断することができ、または、ユーザ通信５０１がユーザ４２２のビデオを含む場合、通信セッションシステム４０１は、顔認識アルゴリズムを使用して、ユーザ４２２の口がフェイスカバー４３１によって覆われていることを判断することができる。別の例では、ユーザシステム４０２は、ユーザ通信５０１の外部の通信セッションシステム４０１に対して、ユーザ４２２がフェイスカバー４３１を着用しているという指示を提供することができる。例えば、ユーザシステム４０２上で実行されるクライアントアプリケーションのユーザインターフェースは、フェイスカバー４３１が着用されていることを示すためにユーザ４２２が係合するトグルを含むことができる。ユーザは、フェイスカバー４３１が具体的に着用されていること、フェイスカバー４３１のタイプ（布マスク、紙マスク、フェイスシールド等）のフェイスカバーが着用されていること、またはタイプに関係なくフェイスカバーが着用されていることを示すか、または通信セッションシステム４０１が別の方法で認識することができる。

この例では、通信セッションシステム４０１は、ユーザに関連するフェイスカバーのプロファイルを記憶する。プロファイルは、動作シナリオ３００に記載されたものと同じトレーニングプロセスを実行する通信セッションシステム４０１によって生成されてもよく、または動作シナリオ３００に記載されたものと同様のトレーニングプロセスを実行するユーザシステムから受信されてもよい。通信セッションシステム４０１は、ステップ４において、フェイスカバー４３１のためのユーザ４２２に関連付けられたプロファイルをロードする。プロファイルは、具体的にはフェイスカバー４３１のためのものであってもよく、あるいは、特定の通信セッションシステム４０１によるフェイスカバー４３１の認識がステップ３においてどのように行われたか、あるいは、ユーザ４２２のために記憶されたプロファイルがどのように具体的であるか（例えば、プロファイルは、特定のマスクまたはマスクタイプのために記憶されてもよい）に応じて、フェイスカバー４３１のタイプのフェイスカバーのプロファイルであってもよい。特定のフェイスカバー４３１についてプロファイルが存在しない場合、通信セッションシステム４０１は、フェイスカバー４３１と同じタイプのフェイスカバーについてプロファイルが存在するかどうかを判断することができる。それでもプロファイルが存在しない場合（例えば、ユーザ４２２は、フェイスカバーのタイプについてトレーニングを受けていない可能性がある）、通信セッションシステム４０１は、フェイスカバーのタイプまたは一般的なフェイスカバーのデフォルトのプロファイルを使用することができる。デフォルトのプロファイルは、特にユーザ４２２のためのフェイスカバーによって生じる減衰に合わせて調整されていないが、ユーザ通信５０１においてオーディオを調整するためにデフォルトのプロファイルを使用することは、それにかかわらず、再生中の音声理解を改善する結果となる可能性が高い。

通信セッションシステム４０１は、ステップ５において、プロファイルに従ってユーザ通信５０１内のオーディオを調整する。特に、プロファイルは、オーディオにおける各周波数の振幅を増幅すべき量を示し、通信セッションシステム４０１は、通信セッションにおけるユーザ通信５０１の待ち時間を最小にするように、実質的にリアルタイムでこれらの増幅を実行する。オーディオを調整した後、通信セッションシステム４０１は、ステップ６でユーザ通信５０１を各ユーザシステム４０３～４０５に送信する。ユーザ通信５０１を受信すると、各ユーザシステム４０３～４０５は、ユーザ通信５０１のオーディオを各ユーザ４２３～４２５に再生する。ユーザ４２３～４２５の各々が再生されたオーディオを聞くと、その音声は、通信セッションシステム４０１によって行われた調整のために、ユーザ４２２がフェイスカバー４３１を介して話していなかったように、ユーザにとってより聞こえるべきである。

いくつかの例では、ステップ３を１回実行し、ステップ４で判断されたプロファイルを残りの通信セッションに使用することができる。他の例では、通信セッションシステム４０１は、通信セッションの後の方で、ユーザ４２２がもはやフェイスカバーを着用していない（例えば、フェイスカバー４３１がはずされたことを示すユーザ４２２からの入力を受け取ることができる、またはユーザ４２２を捕捉したビデオにおいてフェイスカバー４３１をもはや検出できない）ことを判断することができる。これらの例では、通信セッションシステム４０１は、補償すべきフェイスカバーがもはや存在しないので、ユーザ通信５０１におけるオーディオの調整を停止することができる。同様に、通信セッションシステム４０１が、フェイスカバー、フェイスカバー４３１、またはその他をユーザ４２２が再び装着したことを認識した場合、通信セッションシステム４０１は、そのフェイスカバーのプロファイルをリロードし、オーディオの調整を再び開始することができる。

図６は、捕捉されたオーディオにおけるフェイスカバーを補償するための音声周波数スペクトルグラフ６００を示す。スペクトルグラフ６００は、人間の音声に一般的な周波数範囲についてのヘルツ（Ｈｚ）単位の周波数に対するデシベル（ｄＢ）単位の振幅のグラフである。スペクトルグラフ６００は、参照オーディオ６２１を表す線と、トレーニングオーディオ６２２を表す線とを含む。参照オーディオ６２１は、参照オーディオ６２１が、ユーザがフェイスカバーを着用していない間にユーザから受信した音声を含むという点で、上からの参照オーディオ３０１と同様である。同様に、トレーニングオーディオ６２２は、トレーニングオーディオ６２２が、ユーザがフェイスカバーを着用している間にユーザから受信した音声を含むという点で、上からのトレーニングオーディオ３０２と同様である。スペクトルグラフ６００から明らかなように、トレーニングオーディオ６２２の振幅は、参照オーディオ６２１の振幅と比較してほぼ全面的に低く、振幅が低くなる量は周波数に関して非線形に変化する。

任意の同じ周波数における参照オーディオ６２１とトレーニングオーディオ６２２との差は、ユーザがフェイスカバーを着用している間にトレーニングオーディオ６２２のようなオーディオが受信されたときに、対応する周波数でオーディオを調整すべき量を示すために使用することができる。例えば、スペクトルグラフ６００に示された情報に基づいて、４２００Ｈｚでは、受信されたオーディオの振幅は、約７ｄＢ増加されるべきであるが、２０００Ｈｚでは増幅は不要である（すなわち、参照オーディオ６２１とトレーニングオーディオ６２２とがその点で重なる）。いくつかの例では、スペクトルグラフ６００上の参照オーディオ６２１およびトレーニングオーディオ６２２を表す連続線に基づいて、音声範囲内の可能なすべての周波数の振幅調整を追跡するのではなく、調整量を、それぞれ周波数範囲を含む周波数セットに分割することができる。これらのセットは、一定のサイズ（例えば、１００Ｈｚ）であってもよく、または同様の振幅調整量を有する周波数範囲に基づいてサイズを変化させてもよい。周波数範囲を変化させる例では、一方の範囲は、振幅の変化がないことに対応する２０００～２２００Ｈｚであってもよく、他方の範囲は、振幅の７ｄＢの変化に対応する４０００～４６００Ｈｚであってもよく、これは、スペクトルグラフ６００上に可視化することができ、補償器のベストフィットアルゴリズムを介して判断することができるような、その範囲内のすべての周波数にわたるベストフィット変更を表す。対応する振幅の変更を有する他の範囲もまた、音声周波数スペクトルの残りの部分に対応する。さらなる例では、調整される周波数セットは、単に、調整されるべき所与の周波数を超えるすべての周波数であってもよい。例えば、スペクトルグラフ６００に基づいて、補償器は、３４００Ｈｚを超えるすべての周波数が５ｄＢだけ増幅されるべきである一方、３４００Ｈｚ未満の周波数はそのままであるべきであると判断することができる。この方法で周波数を調整すると、特定のユーザとファイスカバーの組み合わせに対してより具体的な調整が判断されないデフォルトのプロファイルに適している場合があります。

図７は、捕捉されたビデオにおけるフェイスカバーを補償するための動作シナリオ７００を示す。動作シナリオ７００は、上述のユーザシステム１０１の一例であるユーザシステム７０１を含む。補償器１２１と同様の補償器は、以下に説明するステップを実行するようにユーザシステム７０１に指示してもよく、あるいは、ユーザシステム７０１の他のハードウェア／ソフトウェア要素は、代わりにユーザシステム７０１に指示してもよい。この例では、ステップ１で、ユーザ７４１は、１つ以上の他のエンドポイントとのリアルタイムビデオ通信セッションでユーザシステム７０１を操作し、ユーザ７４１のビデオ画像を含むビデオ７２１を捕捉する。この例では、ユーザ７４１はビデオ７２１でフェイスカバー７３１を着用しており、ユーザシステム７０１はステップ２でその事実を識別する。ユーザシステム７０１は、ビデオ７２１を処理する（例えば、顔認識を使用する）ことによってフェイスカバー７３１を識別してもよく、またはユーザ７４１が、上の例で説明した方法などの他の方法でフェイスカバー７３１を着用していることを識別してもよい。

フェイスカバー７３１を検出した後、ユーザシステム７０１は、ステップ３でビデオ７２１を編集して、フェイスカバー７３１を除去し、フェイスカバー７３１をユーザ７４１の口、鼻、頬、およびフェイスカバー７３１によっておおわれている他の要素の合成バージョンに置き換える。編集を行うためのアルゴリズムは、フェイスカバー無しのユーザ７４１のビデオを用いて予めトレーニングされてもよく、これにより、アルゴリズムは、ユーザ７４１がフェイスカバー７３１の下でどのように見えるかを学習することができる。次に、アルゴリズムは、ビデオ７２１の画像内のフェイスカバー７３１を、アルゴリズムがユーザ７４１の顔の覆われた部分であることを学習した合成バージョンで置き換える。いくつかの例では、アルゴリズムは、ユーザ７４１が特定の語を話すことと一致する口／顔の動きを合成するようにさらにトレーニングされ、ユーザ７４１が、通信セッションで実際に話しているユーザ７４１の捕捉されたオーディオに対応して話しているようにビデオ７２１に現れる（たとえば、上記の例で捕捉され、調整されたオーディオ）。同様に、アルゴリズムは、ユーザ７４１の顔の合成された部分を、フェイスカバー７３１の外側に見ることができるユーザ７４１の顔の部分によってなされる表現と関連して感情表現させるようにトレーニングすることができる。他の例では、アルゴリズムがユーザ７４１に対して具体的にトレーニングされていない場合、アルゴリズムは、アルゴリズムをトレーニングするために使用される他の人々に基づいて、およびアルゴリズムがビデオ７２１で見ることができるもの（例えば、肌の色、髪の色など）に基づいて、ユーザ７４１の顔の覆われた部分がどのように見えるかを推定することができる。

ビデオ７２１を編集してフェイスカバー７３１を置き換えた後、ステップ４でビデオ７２１が通信セッションを介して送信される。好ましくは、上記のステップは、通信セッションの待ち時間を低減するために実質的にリアルタイムで行われる。いずれにしても、受信エンドポイントで再生される場合、ビデオ７２１は、フェイスカバー７３１が見えないユーザ７４１のビデオ画像を含み、その代わりに、フェイスカバー７３１で覆われたユーザ７４１の顔の部分の合成バージョンである。この例では、ビデオ７２１はユーザシステム７０１から送信されるが、ビデオ７２１は、ビデオ共有サービスへの投稿や単にメモリへの保存など、他の例では他の目的に使用することができる。また、ユーザシステム７０１がビデオ７２１を捕捉する間、残りのステップの１つ以上は、ユーザシステム７０１自体ではなく、通信セッションシステムなどの他の場所で実行されてもよい。両方の音声が上記の例に従って調整され、ビデオが動作シナリオ７００に従って編集されるシナリオでは、ビデオ７２１を視聴し、対応する音声を聞くユーザには、ユーザ７４１がフェイスカバー７３１を着用していないように見えるべきである。いくつかの例では、動作シナリオ７００は、ビデオ内のフェイスカバー７３１を補償する一方で、対応するオーディオを補償しないようにしてもよい。

図８は、捕捉されたオーディオにおけるフェイスカバーを補償するためのコンピューティングアーキテクチャ８００を示す。コンピューティングアーキテクチャ８００は、ユーザシステム１０１、４０２～４０５、７０１および通信セッションシステム４０１のための例示的なコンピューティングアーキテクチャであるが、これらのシステムは代替構成を使用してもよい。コンピューティングアーキテクチャ８００は、通信インターフェース８０１、ユーザインターフェース８０２、および処理システム８０３を含む。処理システム８０３は、通信インターフェース８０１およびユーザインターフェース８０２にリンクされている。処理システム８０３は、処理回路８０５と、動作ソフトウェア８０７を記憶するメモリデバイス８０６とを含む。

通信インターフェース８０１は、ネットワークカード、ポート、ＲＦトランシーバ、処理回路及びソフトウェア、又は他のいくつかの通信デバイスのような通信リンクを介して通信するコンポーネントを含む。通信インターフェース８０１は、金属リンク、無線リンク、または光リンクを介して通信するように構成することができる。通信インターフェース８０１は、ＴＤＭ、ＩＰ、イーサネット、光ネットワーキング、無線プロトコル、通信シグナリング、またはそれらの組み合わせを含む他の何らかの通信フォーマットを使用するように構成することができる。

ユーザインターフェース８０２は、ユーザと対話するコンポーネントを含む。ユーザインターフェース８０２は、キーボード、ディスプレイスクリーン、マウス、タッチパッド、または他のユーザ入力／出力装置を含むことができる。ユーザインターフェース８０２は、いくつかの例では省略されてもよい。

処理回路８０５は、メモリデバイス８０６から動作ソフトウェア８０７を取り出して実行するマイクロプロセッサおよび他の回路を含む。メモリデバイス８０６は、ディスクドライブ、フラッシュドライブ、データ記憶回路、または他のいくつかのメモリ装置などのコンピュータ可読記憶媒体を備える。どの例においても、メモリデバイス８０６の記憶媒体は伝播された信号とはみなされない。オペレーティング・ソフトウェア８０７は、コンピュータ・プログラム、ファームウェア、または何らかの他の形態の機械可読処理命令を含む。オペレーティング・ソフトウェア８０７は、補償モジュール８０８を含む。オペレーティング・ソフトウェア８０７は、オペレーティング・システム、ユーティリティ、ドライバ、ネットワーク・インタフェース、アプリケーション、または他のタイプのソフトウェアをさらに含むことができる。処理回路８０５によって実行されると、動作ソフトウェア８０７は、処理システム８０３に、本明細書に記載されるようにコンピューティングアーキテクチャ８００を動作させるように指示する。

特に、補償モジュール８０８は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断するように処理システム８０３に指示する。補償モジュール８０８はまた、ユーザからの音声を含むオーディオを受信し、オーディオ内の周波数の振幅を調整してフェイスカバーを補償するように処理システム８０３に指示する。

本明細書に含まれる説明および図は、クレームされた発明の特定の構成を示す。発明の原理を教える目的で、いくつかの従来の態様は、単純化されているか、または省略されている。さらに、これらの構成からのいくつかの変形は、本発明の範囲内に含まれることが理解され得る。また、上述の特徴を様々な方法で組み合わせて複数の構成を形成することができることも理解されよう。その結果、本発明は、上記の特定の構成に限定されるものではなく、特許請求の範囲およびその均等物によってのみ限定される。

Claims

フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断することと、
前記ユーザからの音声を含むオーディオを受信することと、
前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することと
を含む方法。
前記周波数を調整することの後に、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを含む、請求項１に記載の方法。
前記周波数の前記振幅を調整することは、
前記フェイスカバーによって生じる前記周波数への減衰に基づいて前記周波数を増幅することを含み、前記減衰は、前記周波数のうちの第１のセットが第１の量によって増幅され、周波数の第２のセットが第２の量によって増幅されると示す、請求項１に記載の方法。
前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
前記フェイスカバーによって前記周波数が減衰された量を判断するために前記参照オーディオと前記オーディオを比較することとを含む、請求項１に記載の方法。
前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを含み、前記トレーニング音声および前記参照音声は、前記ユーザが同じスクリプトから話した複数の単語を含む、請求項４に記載の方法。
１つ以上のコンピュータ可読記憶媒体と、
前記１つ以上のコンピュータ可読記憶媒体と動作可能に結合された処理システムと、
前記１つ以上のコンピュータ可読記憶媒体に格納されたプログラム命令であって、前記処理システムによって読み取られて実行されると、前記処理システムに、
フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断し、
前記ユーザから音声を含むオーディオを受信し、
前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することを指示するプログラム命令とを含む装置。
前記プログラム命令は、前記処理システムに、
前記周波数を調整した後、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを指示する、請求項６に記載の装置。
前記複数の周波数の前記振幅を調整するために、前記プログラム命令は、前記処理システムに、
前記フェイスカバーによって生じる前記複数の周波数への減衰に基づいて前記複数の周波数を増幅することを指示し、
前記減衰は、前記複数の周波数の第１のセットが第１の量によって増幅されるべきであり、前記複数の周波数の第２のセットが第２の量によって増幅されるべきであることを示す、請求項６に記載の装置。
前記プログラム命令は、前記処理システムに
前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
前記参照オーディオと前記オーディオを比較して、前記フェイスカバーによって前記複数の周波数が減衰された量を判断することとを指示する、請求項６に記載の装置。
前記プログラム命令は、前記処理システムに、
前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを指示し、
前記トレーニング音声および前記参照音声は、ユーザによって同じスクリプトから話された複数の単語を含む、請求項９に記載の装置。