JP2022168843A - 捕捉されたオーディオのフェイスカバーにおける補償 - Google Patents

捕捉されたオーディオのフェイスカバーにおける補償 Download PDF

Info

Publication number
JP2022168843A
JP2022168843A JP2022068636A JP2022068636A JP2022168843A JP 2022168843 A JP2022168843 A JP 2022168843A JP 2022068636 A JP2022068636 A JP 2022068636A JP 2022068636 A JP2022068636 A JP 2022068636A JP 2022168843 A JP2022168843 A JP 2022168843A
Authority
JP
Japan
Prior art keywords
user
audio
face covering
frequencies
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022068636A
Other languages
English (en)
Inventor
シー. リンチ ジョン
c lynch John
デ アラウージョ ミゲル
De Araujo Miguel
シン カルカト グルビンデル
Singh Kalkat Gurbinder
プン-ギン イェ ユージーン
Pung-Gin Yee Eugene
ブルース マッカーサー クリストファー
Bruce Mcarthur Christopher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avaya Management LP
Original Assignee
Avaya Management LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avaya Management LP filed Critical Avaya Management LP
Publication of JP2022168843A publication Critical patent/JP2022168843A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • AHUMAN NECESSITIES
    • A62LIFE-SAVING; FIRE-FIGHTING
    • A62BDEVICES, APPARATUS OR METHODS FOR LIFE-SAVING
    • A62B18/00Breathing masks or helmets, e.g. affording protection against chemical agents or for use at high altitudes or incorporating a pump or compressor for reducing the inhalation effort
    • A62B18/08Component parts for gas-masks or gas-helmets, e.g. windows, straps, speech transmitters, signal-devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】捕捉されたオーディオにおけるフェイスカバーによって引き起こされる減衰の補償を可能にする。【解決手段】特定の実施形態では、方法は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されることを判断することを含む。この方法は、さらに、ユーザからの音声を含むオーディオを受信し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整することを含む。【選択図】図1

Description

世界的には、口を覆うフェイスマスクなどのフェイスカバーは、世界的なパンデミックの間にウイルスやその他の感染症が広がるのを防ぐために広く使用されている。通常の(パンデミックではない)時代においても、ある人と他の人とを守るためにフェイスカバーは多くの状況で使われている。例えば、医療環境やその他の職場では、有害な空気中の汚染物質(例えば、有害な粉塵粒子)から保護するために、フェイスカバーが一般的である。フェイスカバーは、装着者が話したオーディオの一部をブロックする傾向があり、理解しにくくする。ブロックされた音声の構成要素は線形ではなく、大きな声で話したり、音声通話やビデオ通話の音量を上げたり、対面での会話で近づいたりするなど、通常の手段で音声レベルを上げるだけでは回復できない。
ここに開示された技術は、捕捉されたオーディオにおけるフェイスカバーによって引き起こされる減衰の補償を可能にする。特定の実施形態では、方法は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されることを判断することを含む。この方法は、さらに、ユーザからの音声を含むオーディオを受信し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整することを含む。
いくつかの実施形態において、本方法は、周波数を調整した後、ユーザシステムと別のユーザシステムとの間の通信セッションを介してオーディオを送信することを含む。
いくつかの実施形態では、周波数の振幅を調整することは、フェイスカバーによって生じる周波数の減衰に基づいて周波数を増幅することを含む。減衰は、周波数の第1の組が第1の量だけ増幅されるべきであり、周波数の第2の組が第2の量だけ増幅されるべきであることを示すことができる。
いくつかの実施形態において、本方法は、口がフェイスカバーによって覆われていない間に、ユーザからの参照音声を含む参照オーディオを受信することを含む。これらの実施形態において、本方法は、参照オーディオをオーディオと比較して、周波数がフェイスカバーによって減衰された量を判断することを含み得る。同様に、これらの実施形態において、本方法は、口がフェイスカバーによって覆われている間に、トレーニング音声を含むトレーニングオーディオをユーザから受信することを含み、トレーニング音声および参照用音声は、同じスクリプトからユーザによって話された単語を含み、参照用オーディオをトレーニングオーディオと比較して、周波数がフェイスカバーによって減衰された量を判断することを含むことができる。
いくつかの実施形態では、フェイスカバーがユーザの口を覆うように配置されていると判断することは、ユーザのビデオを受信し、顔認識を使用して口が覆われていると判断することを含む。
いくつかの実施形態では、周波数の振幅を調整することは、振幅を調整すべき周波数および量を示すフェイスカバーのプロファイルにアクセスすることを含む。
いくつかの実施形態では、本方法は、ユーザのビデオを受信し、ビデオ内のフェイスカバーをユーザについての合成された口に置き換えることを含む。
別の実施形態では、1つ以上のコンピュータ可読記憶媒体と、1つ以上のコンピュータ可読記憶媒体に動作可能に結合された処理システムとを有する装置が提供される。1つまたは複数のコンピュータ可読記憶媒体に記憶されたプログラム命令は、処理システムによって読み取られて実行されると、フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断するように処理システムに指示する。プログラム命令はさらに、ユーザからの音声を含むオーディオを受信するように処理システムに指示し、フェイスカバーを補償するためにオーディオ内の周波数の振幅を調整する。
捕捉されたオーディオでフェイスカバーを補償するための実装を示す。 捕捉されたオーディオでフェイスカバーを補償する操作を示す。 捕捉されたオーディオでフェイスカバーを補償するための操作シナリオを示す。 捕捉されたオーディオでフェイスカバーを補償するための実装を示す。 捕捉されたオーディオでフェイスカバーを補償するための操作シナリオを示す。 捕捉されたオーディオにおけるフェイスカバーを補償するための音声周波数スペクトルグラフを示す。 捕捉されたビデオのフェイスカバーを補償するための動作シナリオを示す。 捕捉されたオーディオでフェイスカバーを補償するためのコンピューティングアーキテクチャを示す。
本明細書に提供される実施例は、ユーザシステムに話しかけるときにファイスカバー(例えば、マスク、シールド等)の着用の効果を補償することを可能にする。ファイスカバーの効果は非線形(つまり、すべての音声周波数が同じ量の影響を受けるわけではない)であるため、ファイスカバーを着用しているユーザから捕捉された音声の量を単に増やすだけでは、これらの効果は考慮されない。むしろ、音声における周波数の振幅は、音声における周波数がファイスカバーによって影響されない(または無視できるほど影響されない)場合であっても、全体的に増加する。以下に説明する補償は、それぞれの周波数がファイスカバーによってどの程度影響を受けるかに基づいて、音声における周波数を選択的に増幅することによって、非線形効果を説明する。有利には、フェイスカバーによって影響を受けない周波数は増幅されないが、影響を受ける周波数は、これらの周波数がフェイスカバーによってどれだけ減衰されたかに対応する量だけ増幅される。
図1は、捕捉されたオーディオにおけるフェースカバーを補償するための構成100を示す。構成100は、補償器121およびマイクロホン122を有するユーザシステム101を含む。ユーザシステム101は、ユーザ141によって操作される。ユーザシステム101は、電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、会議室システム、または他のタイプのコンピューティングシステムであってもよい。補償器121は、ユーザシステム101(例えば、オーディオを捕捉する通信クライアントアプリケーションまたは他のアプリケーションのコンポーネントであってもよい)によって実行されるソフトウェア命令として、またはハードウェア処理回路として構成することができる。マイクロホン122は、音を捕捉し、その音声を表すオーディオを信号でユーザシステム101に提供する。マイクロホン122は、ユーザシステム101に組み込まれてもよく、有線接続を介してユーザシステム101に接続されてもよく、または無線接続を介してユーザシステム101に接続されてもよい。いくつかの例では、補償器121は、マイクロホン122に組み込まれてもよく、またはマイクロホン122とユーザシステム101との間のオーディオのための通信経路に接続されてもよい。
図2は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作200を示す。動作200は、この例では、ユーザシステム101の補償器121によって実行される。他の例では、動作200は、以下の構成400における通信セッションシステム401のような、ユーザシステム101から離れたシステム内の補償器によって実行されてもよい。動作200において、補償器121は、フェイスカバー(この場合、フェイスカバー131)がユーザ141の口を覆うように配置されていることを判断する(201)。フェイスカバー131は、マスク、フェイスシールド、または他のタイプのカバーであってもよく、ユーザ141の口(そしてしばしばユーザ141の鼻)を覆うように配置された場合、粒子が口から周囲空気中に放出されたり、周囲空気から吸入されたりするのを防止することを目的とする。フェイスカバー131で口を覆うことによって、ユーザ141は、ユーザ141の音声によって生成された音が通過する材料(例えば、布、紙、フェイスシールドの場合はプラスチック、または他のタイプのフェイスカバー材料)を、口とマイクロホン122との間に配置する。
補償器121は、フェイスカバー131が(別のフェイスカバーとは対照的に)ユーザ141の口の上に具体的に配置されることを判断してもよく、フェイスカバー131のタイプ(例えば、布マスク、紙マスク、プラスチック製フェイスシールドなど)のフェイスカバーがユーザ141の口の上に配置されることを判断してもよく、または単に、追加の詳細なしにフェイスカバーがユーザ141の口の上に配置されることを判断してもよい。補償器121は、フェイスカバー131が装着されていることを示すユーザ141からの入力を受け取ることができ、ユーザ141の口がフェイスカバー131によって覆われている(例えば、ユーザ141の口が覆われていることを認識するために、顔認識アルゴリズムを使用することができる)ことを判断するためにユーザ141の捕捉されたビデオを処理することができ、フェイスカバーが存在することを示すユーザ141の音声のオーディオにおける特定の減衰パターンを認識することができ、または、何らかの他の方法でフェイスカバーがユーザ141の口の上に配置されていることを判断することができる。
補償器121は、ユーザ141からの音声を含むオーディオ111を受信する(202)。オーディオ111は、マイクロホン122によって捕捉された後、マイクロホン122から受信される。オーディオ111は、ユーザシステム101と他の通信システム(例えば、他のユーザによって操作される他のユーザシステム)との間の通信セッションで送信するためのオーディオであってもよく、ユーザシステム101または他の場所(例えば、クラウドストレージシステム)のメモリに記録するためのオーディオであってもよく、または何らかの他の理由でユーザ141から捕捉されたオーディオであってもよい。
補償器121は、フェイスカバー131がユーザ141の口を覆っていると判断したので、補償器121は、オーディオ111の周波数の振幅を調整して、フェイスカバー131を補償する(203)。ユーザ141の口とマイクロホン122との間にフェイスカバー131が存在することは、音がフェイスカバー131を通過するときにユーザ141の声によって生成される音の周波数の少なくとも一部の振幅を減衰させる。したがって、マイクロホン122によって捕捉された音を表すオーディオ111は、ユーザ141がマスクを着用していなかった場合の振幅と比較して、対応する周波数の振幅を減衰させる。補償器121は、影響を受けた周波数のそれぞれの振幅を、ユーザ141がフェイスカバー131を着用していなかった場合の振幅のレベル(または少なくともそのレベルに近いレベル)に調整する。補償器121は、オーディオ111のアナログバージョンまたはオーディオ111のデジタルバージョンで動作することができる。補償器121は、オーディオイコライザがオーディオの周波数のパワー(すなわち振幅)を調整するのと同様の方法で振幅を調整することができる。
いくつかの例において、特定の周波数が調整されるべき量は、補償器121内で予め定められてもよい。これらの例では、事前定義された調整量は、多くの異なるタイプ(例えば、布、紙、プラスチックなど)のフェイスカバーによって生じる減衰を考慮して調整が事前定義されている、「1つのサイズがすべてに適合」または「ベストフィット」の原理に基づいてもよい。例えば、一組の周波数が、典型的には、フェイスカバー材料に依存する振幅量の範囲によって減衰される場合、所定の調整は、その範囲の中間の量を定義することができる。いくつかの例では、補償器121が上記のフェイスカバー131の特定のタイプを判断した場合、所定の調整は、特定のタイプのフェイスカバーの量を含むことができる。例えば、一組の周波数の振幅が調整される量は、フェイスカバー131のタイプに応じて所定の量が異なる。
他の例では、補償器121は、周波数の振幅が減衰される量を認識するようにトレーニングされてもよく、その結果、これらの周波数は、比例した量に増幅されて、ユーザ141の音声を、フェイスカバー131が存在しなかったのと同様のレベルに戻すことができる。補償器121は、フェイスカバー131を説明するために特にトレーニングされてもよく、(例えば、布、紙などについてトレーニングされる)特定のタイプのフェイスカバーを説明するためにトレーニングされてもよく、(例えば、1つのサイズが上述のすべてのアプローチにフィットする)任意のタイプのフェイスカバーを説明するためにトレーニングされてもよく、ユーザ141が着用していると判断されたものに応じて異なるタイプのフェイスカバーを説明するためにトレーニングされてもよく(例えば、ユーザ141がフェイスカバー131の場合は布マスクを説明するようにトレーニングされ、ユーザ141が異なる時間に紙マスクを着用している場合は紙マスクを受け入れるようにトレーニングされている)、ユーザ141の音声を説明するために特にトレーニングされてもよく、複数のユーザの音声を説明するためにトレーニングされてもよく、および/または何らかの他の方法でトレーニングされてもよい。場合によっては、補償器121は、ユーザ141の口の上にフェイスカバーが存在しないときに、ユーザ141からのオーディオの中の音声を分析して、ユーザ141の音声レベル(すなわち、各周波数における振幅)から何が期待されるかを時間とともに学習することができる。フェイスカバー131を覆うフェイスのタイプがなぜであるかにかかわらず、補償器121は、補償器121が予想することを学習したレベルに対応するレベルにオーディオ111の周波数を単純に増幅することができる。場合によっては、補償器121は、マスクなしのユーザ141から予想されている補償器121とオーディオ111のレベルを比較することに基づいて、フェイスカバー131が上記ステップに存在することを認識することができる。
有利には、オーディオ111の減衰周波数の振幅を、フェイスカバー131がユーザ141の口をカバーしていない場合に予想されるレベルに近づける調整をすることにより、ユーザ141がフェイスカバー131を着用している間のユーザ141からの音声を理解しやすくなる。したがって、ユーザシステム101または他のシステム(例えば、通信セッション上の別のエンドポイント)によって再生される場合、ユーザ141の音声が、ユーザ141がフェイスカバー131を着用していない場合とまったく同じように聞こえないとしても、ユーザ141の音声は、調整が行われなかった場合よりも理解しやすくなる。
図3は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作シナリオ300を示す。動作シナリオ300は、フェイスカバー131を着用して口を覆うユーザ141を補償するように補償器121を明示的にトレーニングする方法の一例である。この例では、補償器121は、ステップ1において、ユーザ141がいかなる種類のフェイスカバーも着用していない間に、マイクロホン122を介してユーザ141から参照オーディオ301を受信する。参照オーディオ301は、ユーザ141が単語のスクリプトを話すユーザ141からの音声を含む。補償器121は、ユーザ141に(例えば、スクリプト内の単語をユーザ141に表示するようにユーザシステム101に指示する)スクリプトを提供してもよいし、ユーザ141が独自のものを使用してもよい。次に、補償器121は、ユーザ141がフェイスカバー131を着用して口を覆っている間に、ステップ2でマイクロホン122を介してトレーニングオーディオ302を受信する。トレーニングオーディオ302は、ユーザ141からの音声を含み、ユーザ141は、参照オーディオ301に使用されたのと同じスクリプトの単語を話す。補償器121はさらに、ユーザ141に、同じ方法(例えば、同じ音量、リズム、ペースなど)でスクリプトからの単語を話すように指示してもよく、ユーザ141は、単語を話して参照オーディオ301を生成し、参照オーディオ301ではなくトレーニングオーディオ302のために存在するフェイスカバー131の外側の参照オーディオ301とトレーニングオーディオ302との間の変数の数を最小にする。好ましくは、スクリプトは、ユーザ141の全音声周波数範囲を捕捉する単語を含む。この例では、トレーニングオーディオ302の受信は、参照オーディオ301の受信後に発生するが、他の例では、参照オーディオ301は、トレーニングオーディオ302の後に受信されてもよい。
補償器121は、ステップ3で参照オーディオ301をトレーニングオーディオ302と比較して、ユーザ141の音声の周波数が、フェイスカバー131によりトレーニングオーディオ302においてどの程度減衰されるかを判断する。参照オーディオ301およびトレーニングオーディオ302は、同じスクリプトを使用する音声を含むので、そこに含まれる周波数は、ユーザ141によって同様の振幅で話されるべきであった。したがって、参照オーディオ301の周波数とトレーニングオーディオ302の対応する周波数との間の振幅(すなわち、減衰)の差は、フェイスカバー131によって生じると仮定することができる。次に、補償器121は、少なくとも人間の音声についての典型的な周波数(例えば、約125Hz~8000Hz)の範囲にわたる振幅の差を使用して、ステップ4において、ユーザ141がフェイスカバー131を着用するときに可能にすることができるプロファイルを作成する。このプロファイルは、後に受信されるオーディオ(例えば、オーディオ111)においてフェイスカバー131を着用するユーザ141を補償するために、これらの周波数およびそれらの周波数を増幅すべき量を補償器121に示す。
いくつかの例では、ユーザ141は、口の上に異なるタイプのフェイスカバーを着用しながら、補償器121を同様にトレーニングすることができる。ユーザ141に関連付けられた個別のプロファイルは、フェイスカバーのタイプごとに作成することができる。次に、補償器121は、着用されるフェイスカバーのタイプを判断した後、ユーザ141によって着用されるフェイスカバーの適切なプロファイルをロードするか、または別の方法でアクセスすることができる。例えば、ユーザ141は、彼らが布マスクを着用していることを示すことができ、それに応じて、補償器121は、布マスクを着用しているユーザ141のプロファイルをロードする。いくつかの例では、ユーザ141のために生成されたフェイスカバープロファイルをクラウドストレージシステムに格納することができる。ユーザ141がユーザシステム101以外のユーザシステムを操作していても、その他のユーザシステムはクラウドからプロファイルをロードして、プロファイルに対応するフェイスカバーを着用しているユーザ141を補償することができる。
図4は、捕捉されたオーディオにおけるフェイスカバーを補償するための構成400を示す。構成400は、通信セッションシステム401、ユーザシステム402~405、および通信ネットワーク406を含む。通信ネットワーク406は、通信セッションシステム401およびユーザシステム402~405が通信する、インターネットを含む1つ以上のローカルエリアおよび/または広域コンピューティングネットワークを含む。ユーザシステム402~405は、それぞれ、電話、ラップトップコンピュータ、デスクトップワークステーション、タブレットコンピュータ、会議室システム、または他のタイプのユーザ操作可能なコンピューティングデバイスを含むことができる。通信セッションシステム401は、音声/ビデオ会議サーバ、パケットテレコミュニケーションサーバ、ウェブベースのプレゼンテーションサーバ、またはエンドポイント間のユーザ通信セッションを容易にする他のタイプのコンピューティングシステムであってもよい。ユーザシステム402~405はそれぞれ、ユーザシステム402~405が通信セッションシステム401に接続し、通信セッションに参加することを可能にするクライアントアプリケーションを実行することができる。
動作時には、各ユーザ422~425によって操作されるユーザシステム402~405間でリアルタイム通信セッションが確立される。通信セッションは、ユーザ422~425が、それぞれのエンドポイント(すなわち、ユーザシステム402~405)を介して互いにリアルタイムで会話することを可能にする。通信セッションシステム401は、ユーザがいつフェイスカバーを着用しているかを判断し、フェイスカバーによって生じる減衰を補償するために通信セッションを通じてユーザから受信したオーディオを調整する補償器を含む。次いで、調整されたオーディオは、通信セッションの他のユーザに送信される。
この例では、ユーザ422のみがフェイスカバーを着用している。したがって、以下に説明するように、ユーザシステム403~405に送信されてユーザ423~425に再生される前に、ユーザシステム402からのユーザ422のオーディオのみが通信ネットワーク406によって調整される。他の例では、1人以上のユーザ423~425がフェイスカバーを着用していてもよく、通信セッションシステム401は、これらのユーザが受信したオーディオを同様に調整してもよい。
図5は、捕捉されたオーディオにおけるフェイスカバーを補償するための動作シナリオ500を示す。動作シナリオ500では、ユーザシステム402は、ステップ1でユーザ通信501を捕捉し、通信セッションに含める。ユーザ通信501は、ユーザ422が話している捕捉されたオーディオを少なくとも含むが、ユーザシステム402のディスプレイのオーディオおよび/または画面捕捉ビデオと同時にユーザ422が捕捉したビデオのような他の形式のユーザ通信も含むことができる。ユーザシステム402は、通信セッションを介してユーザシステム403~405に配信するために、ステップ2でユーザ通信501を通信セッションシステム401に送信する。
通信セッションシステム401は、ステップ3において、ユーザ通信501を生成する際に(つまり、話すときに)、ユーザ422がフェイスカバー431を着用していることを認識する。通信セッションシステム401は、ユーザ通信501の分析から、ユーザ422がフェイスカバー431を着用していることを認識することができる。例えば、通信セッションシステム401は、ユーザ通信501のオーディオにおける周波数の振幅が、フェイスカバーが着用されていることを示すことを判断することができ、または、ユーザ通信501がユーザ422のビデオを含む場合、通信セッションシステム401は、顔認識アルゴリズムを使用して、ユーザ422の口がフェイスカバー431によって覆われていることを判断することができる。別の例では、ユーザシステム402は、ユーザ通信501の外部の通信セッションシステム401に対して、ユーザ422がフェイスカバー431を着用しているという指示を提供することができる。例えば、ユーザシステム402上で実行されるクライアントアプリケーションのユーザインターフェースは、フェイスカバー431が着用されていることを示すためにユーザ422が係合するトグルを含むことができる。ユーザは、フェイスカバー431が具体的に着用されていること、フェイスカバー431のタイプ(布マスク、紙マスク、フェイスシールド等)のフェイスカバーが着用されていること、またはタイプに関係なくフェイスカバーが着用されていることを示すか、または通信セッションシステム401が別の方法で認識することができる。
この例では、通信セッションシステム401は、ユーザに関連するフェイスカバーのプロファイルを記憶する。プロファイルは、動作シナリオ300に記載されたものと同じトレーニングプロセスを実行する通信セッションシステム401によって生成されてもよく、または動作シナリオ300に記載されたものと同様のトレーニングプロセスを実行するユーザシステムから受信されてもよい。通信セッションシステム401は、ステップ4において、フェイスカバー431のためのユーザ422に関連付けられたプロファイルをロードする。プロファイルは、具体的にはフェイスカバー431のためのものであってもよく、あるいは、特定の通信セッションシステム401によるフェイスカバー431の認識がステップ3においてどのように行われたか、あるいは、ユーザ422のために記憶されたプロファイルがどのように具体的であるか(例えば、プロファイルは、特定のマスクまたはマスクタイプのために記憶されてもよい)に応じて、フェイスカバー431のタイプのフェイスカバーのプロファイルであってもよい。特定のフェイスカバー431についてプロファイルが存在しない場合、通信セッションシステム401は、フェイスカバー431と同じタイプのフェイスカバーについてプロファイルが存在するかどうかを判断することができる。それでもプロファイルが存在しない場合(例えば、ユーザ422は、フェイスカバーのタイプについてトレーニングを受けていない可能性がある)、通信セッションシステム401は、フェイスカバーのタイプまたは一般的なフェイスカバーのデフォルトのプロファイルを使用することができる。デフォルトのプロファイルは、特にユーザ422のためのフェイスカバーによって生じる減衰に合わせて調整されていないが、ユーザ通信501においてオーディオを調整するためにデフォルトのプロファイルを使用することは、それにかかわらず、再生中の音声理解を改善する結果となる可能性が高い。
通信セッションシステム401は、ステップ5において、プロファイルに従ってユーザ通信501内のオーディオを調整する。特に、プロファイルは、オーディオにおける各周波数の振幅を増幅すべき量を示し、通信セッションシステム401は、通信セッションにおけるユーザ通信501の待ち時間を最小にするように、実質的にリアルタイムでこれらの増幅を実行する。オーディオを調整した後、通信セッションシステム401は、ステップ6でユーザ通信501を各ユーザシステム403~405に送信する。ユーザ通信501を受信すると、各ユーザシステム403~405は、ユーザ通信501のオーディオを各ユーザ423~425に再生する。ユーザ423~425の各々が再生されたオーディオを聞くと、その音声は、通信セッションシステム401によって行われた調整のために、ユーザ422がフェイスカバー431を介して話していなかったように、ユーザにとってより聞こえるべきである。
いくつかの例では、ステップ3を1回実行し、ステップ4で判断されたプロファイルを残りの通信セッションに使用することができる。他の例では、通信セッションシステム401は、通信セッションの後の方で、ユーザ422がもはやフェイスカバーを着用していない(例えば、フェイスカバー431がはずされたことを示すユーザ422からの入力を受け取ることができる、またはユーザ422を捕捉したビデオにおいてフェイスカバー431をもはや検出できない)ことを判断することができる。これらの例では、通信セッションシステム401は、補償すべきフェイスカバーがもはや存在しないので、ユーザ通信501におけるオーディオの調整を停止することができる。同様に、通信セッションシステム401が、フェイスカバー、フェイスカバー431、またはその他をユーザ422が再び装着したことを認識した場合、通信セッションシステム401は、そのフェイスカバーのプロファイルをリロードし、オーディオの調整を再び開始することができる。
図6は、捕捉されたオーディオにおけるフェイスカバーを補償するための音声周波数スペクトルグラフ600を示す。スペクトルグラフ600は、人間の音声に一般的な周波数範囲についてのヘルツ(Hz)単位の周波数に対するデシベル(dB)単位の振幅のグラフである。スペクトルグラフ600は、参照オーディオ621を表す線と、トレーニングオーディオ622を表す線とを含む。参照オーディオ621は、参照オーディオ621が、ユーザがフェイスカバーを着用していない間にユーザから受信した音声を含むという点で、上からの参照オーディオ301と同様である。同様に、トレーニングオーディオ622は、トレーニングオーディオ622が、ユーザがフェイスカバーを着用している間にユーザから受信した音声を含むという点で、上からのトレーニングオーディオ302と同様である。スペクトルグラフ600から明らかなように、トレーニングオーディオ622の振幅は、参照オーディオ621の振幅と比較してほぼ全面的に低く、振幅が低くなる量は周波数に関して非線形に変化する。
任意の同じ周波数における参照オーディオ621とトレーニングオーディオ622との差は、ユーザがフェイスカバーを着用している間にトレーニングオーディオ622のようなオーディオが受信されたときに、対応する周波数でオーディオを調整すべき量を示すために使用することができる。例えば、スペクトルグラフ600に示された情報に基づいて、4200Hzでは、受信されたオーディオの振幅は、約7dB増加されるべきであるが、2000Hzでは増幅は不要である(すなわち、参照オーディオ621とトレーニングオーディオ622とがその点で重なる)。いくつかの例では、スペクトルグラフ600上の参照オーディオ621およびトレーニングオーディオ622を表す連続線に基づいて、音声範囲内の可能なすべての周波数の振幅調整を追跡するのではなく、調整量を、それぞれ周波数範囲を含む周波数セットに分割することができる。これらのセットは、一定のサイズ(例えば、100Hz)であってもよく、または同様の振幅調整量を有する周波数範囲に基づいてサイズを変化させてもよい。周波数範囲を変化させる例では、一方の範囲は、振幅の変化がないことに対応する2000~2200Hzであってもよく、他方の範囲は、振幅の7dBの変化に対応する4000~4600Hzであってもよく、これは、スペクトルグラフ600上に可視化することができ、補償器のベストフィットアルゴリズムを介して判断することができるような、その範囲内のすべての周波数にわたるベストフィット変更を表す。対応する振幅の変更を有する他の範囲もまた、音声周波数スペクトルの残りの部分に対応する。さらなる例では、調整される周波数セットは、単に、調整されるべき所与の周波数を超えるすべての周波数であってもよい。例えば、スペクトルグラフ600に基づいて、補償器は、3400Hzを超えるすべての周波数が5dBだけ増幅されるべきである一方、3400Hz未満の周波数はそのままであるべきであると判断することができる。この方法で周波数を調整すると、特定のユーザとファイスカバーの組み合わせに対してより具体的な調整が判断されないデフォルトのプロファイルに適している場合があります。
図7は、捕捉されたビデオにおけるフェイスカバーを補償するための動作シナリオ700を示す。動作シナリオ700は、上述のユーザシステム101の一例であるユーザシステム701を含む。補償器121と同様の補償器は、以下に説明するステップを実行するようにユーザシステム701に指示してもよく、あるいは、ユーザシステム701の他のハードウェア/ソフトウェア要素は、代わりにユーザシステム701に指示してもよい。この例では、ステップ1で、ユーザ741は、1つ以上の他のエンドポイントとのリアルタイムビデオ通信セッションでユーザシステム701を操作し、ユーザ741のビデオ画像を含むビデオ721を捕捉する。この例では、ユーザ741はビデオ721でフェイスカバー731を着用しており、ユーザシステム701はステップ2でその事実を識別する。ユーザシステム701は、ビデオ721を処理する(例えば、顔認識を使用する)ことによってフェイスカバー731を識別してもよく、またはユーザ741が、上の例で説明した方法などの他の方法でフェイスカバー731を着用していることを識別してもよい。
フェイスカバー731を検出した後、ユーザシステム701は、ステップ3でビデオ721を編集して、フェイスカバー731を除去し、フェイスカバー731をユーザ741の口、鼻、頬、およびフェイスカバー731によっておおわれている他の要素の合成バージョンに置き換える。編集を行うためのアルゴリズムは、フェイスカバー無しのユーザ741のビデオを用いて予めトレーニングされてもよく、これにより、アルゴリズムは、ユーザ741がフェイスカバー731の下でどのように見えるかを学習することができる。次に、アルゴリズムは、ビデオ721の画像内のフェイスカバー731を、アルゴリズムがユーザ741の顔の覆われた部分であることを学習した合成バージョンで置き換える。いくつかの例では、アルゴリズムは、ユーザ741が特定の語を話すことと一致する口/顔の動きを合成するようにさらにトレーニングされ、ユーザ741が、通信セッションで実際に話しているユーザ741の捕捉されたオーディオに対応して話しているようにビデオ721に現れる(たとえば、上記の例で捕捉され、調整されたオーディオ)。同様に、アルゴリズムは、ユーザ741の顔の合成された部分を、フェイスカバー731の外側に見ることができるユーザ741の顔の部分によってなされる表現と関連して感情表現させるようにトレーニングすることができる。他の例では、アルゴリズムがユーザ741に対して具体的にトレーニングされていない場合、アルゴリズムは、アルゴリズムをトレーニングするために使用される他の人々に基づいて、およびアルゴリズムがビデオ721で見ることができるもの(例えば、肌の色、髪の色など)に基づいて、ユーザ741の顔の覆われた部分がどのように見えるかを推定することができる。
ビデオ721を編集してフェイスカバー731を置き換えた後、ステップ4でビデオ721が通信セッションを介して送信される。好ましくは、上記のステップは、通信セッションの待ち時間を低減するために実質的にリアルタイムで行われる。いずれにしても、受信エンドポイントで再生される場合、ビデオ721は、フェイスカバー731が見えないユーザ741のビデオ画像を含み、その代わりに、フェイスカバー731で覆われたユーザ741の顔の部分の合成バージョンである。この例では、ビデオ721はユーザシステム701から送信されるが、ビデオ721は、ビデオ共有サービスへの投稿や単にメモリへの保存など、他の例では他の目的に使用することができる。また、ユーザシステム701がビデオ721を捕捉する間、残りのステップの1つ以上は、ユーザシステム701自体ではなく、通信セッションシステムなどの他の場所で実行されてもよい。両方の音声が上記の例に従って調整され、ビデオが動作シナリオ700に従って編集されるシナリオでは、ビデオ721を視聴し、対応する音声を聞くユーザには、ユーザ741がフェイスカバー731を着用していないように見えるべきである。いくつかの例では、動作シナリオ700は、ビデオ内のフェイスカバー731を補償する一方で、対応するオーディオを補償しないようにしてもよい。
図8は、捕捉されたオーディオにおけるフェイスカバーを補償するためのコンピューティングアーキテクチャ800を示す。コンピューティングアーキテクチャ800は、ユーザシステム101、402~405、701および通信セッションシステム401のための例示的なコンピューティングアーキテクチャであるが、これらのシステムは代替構成を使用してもよい。コンピューティングアーキテクチャ800は、通信インターフェース801、ユーザインターフェース802、および処理システム803を含む。処理システム803は、通信インターフェース801およびユーザインターフェース802にリンクされている。処理システム803は、処理回路805と、動作ソフトウェア807を記憶するメモリデバイス806とを含む。
通信インターフェース801は、ネットワークカード、ポート、RFトランシーバ、処理回路及びソフトウェア、又は他のいくつかの通信デバイスのような通信リンクを介して通信するコンポーネントを含む。通信インターフェース801は、金属リンク、無線リンク、または光リンクを介して通信するように構成することができる。通信インターフェース801は、TDM、IP、イーサネット、光ネットワーキング、無線プロトコル、通信シグナリング、またはそれらの組み合わせを含む他の何らかの通信フォーマットを使用するように構成することができる。
ユーザインターフェース802は、ユーザと対話するコンポーネントを含む。ユーザインターフェース802は、キーボード、ディスプレイスクリーン、マウス、タッチパッド、または他のユーザ入力/出力装置を含むことができる。ユーザインターフェース802は、いくつかの例では省略されてもよい。
処理回路805は、メモリデバイス806から動作ソフトウェア807を取り出して実行するマイクロプロセッサおよび他の回路を含む。メモリデバイス806は、ディスクドライブ、フラッシュドライブ、データ記憶回路、または他のいくつかのメモリ装置などのコンピュータ可読記憶媒体を備える。どの例においても、メモリデバイス806の記憶媒体は伝播された信号とはみなされない。オペレーティング・ソフトウェア807は、コンピュータ・プログラム、ファームウェア、または何らかの他の形態の機械可読処理命令を含む。オペレーティング・ソフトウェア807は、補償モジュール808を含む。オペレーティング・ソフトウェア807は、オペレーティング・システム、ユーティリティ、ドライバ、ネットワーク・インタフェース、アプリケーション、または他のタイプのソフトウェアをさらに含むことができる。処理回路805によって実行されると、動作ソフトウェア807は、処理システム803に、本明細書に記載されるようにコンピューティングアーキテクチャ800を動作させるように指示する。
特に、補償モジュール808は、フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断するように処理システム803に指示する。補償モジュール808はまた、ユーザからの音声を含むオーディオを受信し、オーディオ内の周波数の振幅を調整してフェイスカバーを補償するように処理システム803に指示する。
本明細書に含まれる説明および図は、クレームされた発明の特定の構成を示す。発明の原理を教える目的で、いくつかの従来の態様は、単純化されているか、または省略されている。さらに、これらの構成からのいくつかの変形は、本発明の範囲内に含まれることが理解され得る。また、上述の特徴を様々な方法で組み合わせて複数の構成を形成することができることも理解されよう。その結果、本発明は、上記の特定の構成に限定されるものではなく、特許請求の範囲およびその均等物によってのみ限定される。

Claims (10)

  1. フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断することと、
    前記ユーザからの音声を含むオーディオを受信することと、
    前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することと
    を含む方法。
  2. 前記周波数を調整することの後に、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを含む、請求項1に記載の方法。
  3. 前記周波数の前記振幅を調整することは、
    前記フェイスカバーによって生じる前記周波数への減衰に基づいて前記周波数を増幅することを含み、前記減衰は、前記周波数のうちの第1のセットが第1の量によって増幅され、周波数の第2のセットが第2の量によって増幅されると示す、請求項1に記載の方法。
  4. 前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
    前記フェイスカバーによって前記周波数が減衰された量を判断するために前記参照オーディオと前記オーディオを比較することとを含む、請求項1に記載の方法。
  5. 前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを含み、前記トレーニング音声および前記参照音声は、前記ユーザが同じスクリプトから話した複数の単語を含む、請求項4に記載の方法。
  6. 1つ以上のコンピュータ可読記憶媒体と、
    前記1つ以上のコンピュータ可読記憶媒体と動作可能に結合された処理システムと、
    前記1つ以上のコンピュータ可読記憶媒体に格納されたプログラム命令であって、前記処理システムによって読み取られて実行されると、前記処理システムに、
    フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断し、
    前記ユーザから音声を含むオーディオを受信し、
    前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することを指示するプログラム命令とを含む装置。
  7. 前記プログラム命令は、前記処理システムに、
    前記周波数を調整した後、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを指示する、請求項6に記載の装置。
  8. 前記複数の周波数の前記振幅を調整するために、前記プログラム命令は、前記処理システムに、
    前記フェイスカバーによって生じる前記複数の周波数への減衰に基づいて前記複数の周波数を増幅することを指示し、
    前記減衰は、前記複数の周波数の第1のセットが第1の量によって増幅されるべきであり、前記複数の周波数の第2のセットが第2の量によって増幅されるべきであることを示す、請求項6に記載の装置。
  9. 前記プログラム命令は、前記処理システムに
    前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
    前記参照オーディオと前記オーディオを比較して、前記フェイスカバーによって前記複数の周波数が減衰された量を判断することとを指示する、請求項6に記載の装置。
  10. 前記プログラム命令は、前記処理システムに、
    前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを指示し、
    前記トレーニング音声および前記参照音声は、ユーザによって同じスクリプトから話された複数の単語を含む、請求項9に記載の装置。
JP2022068636A 2021-04-26 2022-04-19 捕捉されたオーディオのフェイスカバーにおける補償 Pending JP2022168843A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/240,425 2021-04-26
US17/240,425 US20220343934A1 (en) 2021-04-26 2021-04-26 Compensation for face coverings in captured audio

Publications (1)

Publication Number Publication Date
JP2022168843A true JP2022168843A (ja) 2022-11-08

Family

ID=81386982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022068636A Pending JP2022168843A (ja) 2021-04-26 2022-04-19 捕捉されたオーディオのフェイスカバーにおける補償

Country Status (4)

Country Link
US (1) US20220343934A1 (ja)
EP (1) EP4084004B1 (ja)
JP (1) JP2022168843A (ja)
CN (1) CN115331685A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12033656B2 (en) * 2021-06-19 2024-07-09 Kyndryl, Inc. Diarisation augmented reality aide
US11967332B2 (en) * 2021-09-17 2024-04-23 International Business Machines Corporation Method and system for automatic detection and correction of sound caused by facial coverings
US20230137381A1 (en) * 2021-10-29 2023-05-04 Centre For Intelligent Multidimensional Data Analysis Limited System and method for detecting a facial apparatus
US20230343351A1 (en) * 2022-04-25 2023-10-26 Cisco Technology, Inc. Transforming voice signals to compensate for effects from a facial covering

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039994A (ja) * 2009-08-18 2011-02-24 Nec Soft Ltd 部品検出装置、部品検出方法、プログラムおよび記録媒体
CN102760443A (zh) * 2012-06-21 2012-10-31 同济大学 一种小体积封闭空间中畸变语音的矫正方法
JP2022048050A (ja) * 2020-09-14 2022-03-25 株式会社三井光機製作所 マスク音声改良装置
JP2022092664A (ja) * 2020-12-11 2022-06-23 清水建設株式会社 会話補助装置
JP2022131511A (ja) * 2021-02-26 2022-09-07 株式会社Jvcケンウッド 音声認識制御装置、音声認識制御方法、及びプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9498658B2 (en) * 2013-02-01 2016-11-22 3M Innovative Properties Company Respirator mask speech enhancement apparatus and method
US9517366B2 (en) * 2013-02-01 2016-12-13 3M Innovative Properties Company Respirator mask speech enhancement apparatus and method
US11358063B2 (en) * 2020-03-06 2022-06-14 International Business Machines Corporation Generation of audience appropriate content
US11477366B2 (en) * 2020-03-31 2022-10-18 Snap Inc. Selfie setup and stock videos creation
DE202020103629U1 (de) * 2020-05-18 2020-10-05 FARAM TECH LAB s.r.l. Vorrichtung zur Desinfektion und Kontrolle von Personen, die einen Raum betreten möchten
US11160319B1 (en) * 2020-08-11 2021-11-02 Nantworks, LLC Smart article visual communication based on facial movement
US20220199103A1 (en) * 2020-12-23 2022-06-23 Plantronics, Inc. Method and system for improving quality of degraded speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039994A (ja) * 2009-08-18 2011-02-24 Nec Soft Ltd 部品検出装置、部品検出方法、プログラムおよび記録媒体
CN102760443A (zh) * 2012-06-21 2012-10-31 同济大学 一种小体积封闭空间中畸变语音的矫正方法
JP2022048050A (ja) * 2020-09-14 2022-03-25 株式会社三井光機製作所 マスク音声改良装置
JP2022092664A (ja) * 2020-12-11 2022-06-23 清水建設株式会社 会話補助装置
JP2022131511A (ja) * 2021-02-26 2022-09-07 株式会社Jvcケンウッド 音声認識制御装置、音声認識制御方法、及びプログラム

Also Published As

Publication number Publication date
US20220343934A1 (en) 2022-10-27
EP4084004A1 (en) 2022-11-02
EP4084004B1 (en) 2023-12-13
CN115331685A (zh) 2022-11-11
EP4084004C0 (en) 2023-12-13

Similar Documents

Publication Publication Date Title
JP2022168843A (ja) 捕捉されたオーディオのフェイスカバーにおける補償
JP6387429B2 (ja) Anrヘッドホンで周囲の自然さを提供すること
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
JP5956083B2 (ja) Anrヘッドホンでの閉塞効果低減処理
JP6055108B2 (ja) バイノーラルテレプレゼンス
JP6120980B2 (ja) 能動ヒアスルーを有するanrヘッドホンのためのユーザインターフェース
RU2461081C2 (ru) Интеллектуальная градиентная система шумоподавления
US8918197B2 (en) Audio communication networks
CN108141502A (zh) 音频信号处理
US20180227682A1 (en) Hearing enhancement and augmentation via a mobile compute device
WO2000022823A1 (fr) Appareil et procede de telecommunication
JP2020197712A (ja) コンテキストに基づく周囲音の増強及び音響ノイズキャンセル
TW201506914A (zh) 用於自我管理的聲音增強的方法和系統
CN118413804A (zh) 音频装置、音频分配系统和操作其的方法
CN114255776A (zh) 使用互连电子设备进行音频修改
US11290815B2 (en) Method for personalizing the audio signal of an audio or video stream
US20230410828A1 (en) Systems and methods for echo mitigation
KR20150087017A (ko) 시선 추적에 기반한 오디오 제어 장치 및 이를 이용한 화상통신 방법
JP2007251355A (ja) 対話システム用中継装置、対話システム、対話方法
US20230047187A1 (en) Extraneous voice removal from audio in a communication session
Bouserhal et al. Improving the quality of in-ear microphone speech via adaptive filtering and artificial bandwidth extension
US11509993B2 (en) Ambient noise detection using a secondary audio receiver
WO2023240510A1 (zh) 呼吸监测方法、装置、耳机及存储介质
Vaziri Evaluation of changes in speech production induced by conventional and level-dependent hearing protectors and noise characteristics
JP2023088360A (ja) ビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240801