JP2022168843A - 捕捉されたオーディオのフェイスカバーにおける補償 - Google Patents
捕捉されたオーディオのフェイスカバーにおける補償 Download PDFInfo
- Publication number
- JP2022168843A JP2022168843A JP2022068636A JP2022068636A JP2022168843A JP 2022168843 A JP2022168843 A JP 2022168843A JP 2022068636 A JP2022068636 A JP 2022068636A JP 2022068636 A JP2022068636 A JP 2022068636A JP 2022168843 A JP2022168843 A JP 2022168843A
- Authority
- JP
- Japan
- Prior art keywords
- user
- audio
- face covering
- frequencies
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000004891 communication Methods 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 24
- 230000002238 attenuated effect Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 13
- 239000004744 fabric Substances 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000001815 facial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 239000003570 air Substances 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000009021 linear effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 239000012080 ambient air Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- A—HUMAN NECESSITIES
- A62—LIFE-SAVING; FIRE-FIGHTING
- A62B—DEVICES, APPARATUS OR METHODS FOR LIFE-SAVING
- A62B18/00—Breathing masks or helmets, e.g. affording protection against chemical agents or for use at high altitudes or incorporating a pump or compressor for reducing the inhalation effort
- A62B18/08—Component parts for gas-masks or gas-helmets, e.g. windows, straps, speech transmitters, signal-devices
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic System (AREA)
Abstract
Description
この例では、ユーザ422のみがフェイスカバーを着用している。したがって、以下に説明するように、ユーザシステム403~405に送信されてユーザ423~425に再生される前に、ユーザシステム402からのユーザ422のオーディオのみが通信ネットワーク406によって調整される。他の例では、1人以上のユーザ423~425がフェイスカバーを着用していてもよく、通信セッションシステム401は、これらのユーザが受信したオーディオを同様に調整してもよい。
Claims (10)
- フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断することと、
前記ユーザからの音声を含むオーディオを受信することと、
前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することと
を含む方法。 - 前記周波数を調整することの後に、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを含む、請求項1に記載の方法。
- 前記周波数の前記振幅を調整することは、
前記フェイスカバーによって生じる前記周波数への減衰に基づいて前記周波数を増幅することを含み、前記減衰は、前記周波数のうちの第1のセットが第1の量によって増幅され、周波数の第2のセットが第2の量によって増幅されると示す、請求項1に記載の方法。 - 前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
前記フェイスカバーによって前記周波数が減衰された量を判断するために前記参照オーディオと前記オーディオを比較することとを含む、請求項1に記載の方法。 - 前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを含み、前記トレーニング音声および前記参照音声は、前記ユーザが同じスクリプトから話した複数の単語を含む、請求項4に記載の方法。
- 1つ以上のコンピュータ可読記憶媒体と、
前記1つ以上のコンピュータ可読記憶媒体と動作可能に結合された処理システムと、
前記1つ以上のコンピュータ可読記憶媒体に格納されたプログラム命令であって、前記処理システムによって読み取られて実行されると、前記処理システムに、
フェイスカバーがユーザシステムのユーザの口を覆うように配置されていることを判断し、
前記ユーザから音声を含むオーディオを受信し、
前記フェイスカバーにおける補償のために、前記オーディオの複数の周波数の振幅を調整することを指示するプログラム命令とを含む装置。 - 前記プログラム命令は、前記処理システムに、
前記周波数を調整した後、前記ユーザシステムと別のユーザシステムとの間の通信セッションにおいて前記オーディオを送信することを指示する、請求項6に記載の装置。 - 前記複数の周波数の前記振幅を調整するために、前記プログラム命令は、前記処理システムに、
前記フェイスカバーによって生じる前記複数の周波数への減衰に基づいて前記複数の周波数を増幅することを指示し、
前記減衰は、前記複数の周波数の第1のセットが第1の量によって増幅されるべきであり、前記複数の周波数の第2のセットが第2の量によって増幅されるべきであることを示す、請求項6に記載の装置。 - 前記プログラム命令は、前記処理システムに
前記口が前記フェイスカバーで覆われていない間に、前記ユーザからの参照音声を含む参照オーディオを受信することと、
前記参照オーディオと前記オーディオを比較して、前記フェイスカバーによって前記複数の周波数が減衰された量を判断することとを指示する、請求項6に記載の装置。 - 前記プログラム命令は、前記処理システムに、
前記口が前記フェイスカバーで覆われている間に、前記ユーザからのトレーニング音声を含むトレーニングオーディオを受信することを指示し、
前記トレーニング音声および前記参照音声は、ユーザによって同じスクリプトから話された複数の単語を含む、請求項9に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/240,425 | 2021-04-26 | ||
US17/240,425 US20220343934A1 (en) | 2021-04-26 | 2021-04-26 | Compensation for face coverings in captured audio |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022168843A true JP2022168843A (ja) | 2022-11-08 |
Family
ID=81386982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022068636A Pending JP2022168843A (ja) | 2021-04-26 | 2022-04-19 | 捕捉されたオーディオのフェイスカバーにおける補償 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220343934A1 (ja) |
EP (1) | EP4084004B1 (ja) |
JP (1) | JP2022168843A (ja) |
CN (1) | CN115331685A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12033656B2 (en) * | 2021-06-19 | 2024-07-09 | Kyndryl, Inc. | Diarisation augmented reality aide |
US11967332B2 (en) * | 2021-09-17 | 2024-04-23 | International Business Machines Corporation | Method and system for automatic detection and correction of sound caused by facial coverings |
US20230137381A1 (en) * | 2021-10-29 | 2023-05-04 | Centre For Intelligent Multidimensional Data Analysis Limited | System and method for detecting a facial apparatus |
US20230343351A1 (en) * | 2022-04-25 | 2023-10-26 | Cisco Technology, Inc. | Transforming voice signals to compensate for effects from a facial covering |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039994A (ja) * | 2009-08-18 | 2011-02-24 | Nec Soft Ltd | 部品検出装置、部品検出方法、プログラムおよび記録媒体 |
CN102760443A (zh) * | 2012-06-21 | 2012-10-31 | 同济大学 | 一种小体积封闭空间中畸变语音的矫正方法 |
JP2022048050A (ja) * | 2020-09-14 | 2022-03-25 | 株式会社三井光機製作所 | マスク音声改良装置 |
JP2022092664A (ja) * | 2020-12-11 | 2022-06-23 | 清水建設株式会社 | 会話補助装置 |
JP2022131511A (ja) * | 2021-02-26 | 2022-09-07 | 株式会社Jvcケンウッド | 音声認識制御装置、音声認識制御方法、及びプログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9498658B2 (en) * | 2013-02-01 | 2016-11-22 | 3M Innovative Properties Company | Respirator mask speech enhancement apparatus and method |
US9517366B2 (en) * | 2013-02-01 | 2016-12-13 | 3M Innovative Properties Company | Respirator mask speech enhancement apparatus and method |
US11358063B2 (en) * | 2020-03-06 | 2022-06-14 | International Business Machines Corporation | Generation of audience appropriate content |
US11477366B2 (en) * | 2020-03-31 | 2022-10-18 | Snap Inc. | Selfie setup and stock videos creation |
DE202020103629U1 (de) * | 2020-05-18 | 2020-10-05 | FARAM TECH LAB s.r.l. | Vorrichtung zur Desinfektion und Kontrolle von Personen, die einen Raum betreten möchten |
US11160319B1 (en) * | 2020-08-11 | 2021-11-02 | Nantworks, LLC | Smart article visual communication based on facial movement |
US20220199103A1 (en) * | 2020-12-23 | 2022-06-23 | Plantronics, Inc. | Method and system for improving quality of degraded speech |
-
2021
- 2021-04-26 US US17/240,425 patent/US20220343934A1/en active Pending
-
2022
- 2022-04-19 JP JP2022068636A patent/JP2022168843A/ja active Pending
- 2022-04-25 CN CN202210436522.0A patent/CN115331685A/zh active Pending
- 2022-04-26 EP EP22169889.7A patent/EP4084004B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039994A (ja) * | 2009-08-18 | 2011-02-24 | Nec Soft Ltd | 部品検出装置、部品検出方法、プログラムおよび記録媒体 |
CN102760443A (zh) * | 2012-06-21 | 2012-10-31 | 同济大学 | 一种小体积封闭空间中畸变语音的矫正方法 |
JP2022048050A (ja) * | 2020-09-14 | 2022-03-25 | 株式会社三井光機製作所 | マスク音声改良装置 |
JP2022092664A (ja) * | 2020-12-11 | 2022-06-23 | 清水建設株式会社 | 会話補助装置 |
JP2022131511A (ja) * | 2021-02-26 | 2022-09-07 | 株式会社Jvcケンウッド | 音声認識制御装置、音声認識制御方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20220343934A1 (en) | 2022-10-27 |
EP4084004A1 (en) | 2022-11-02 |
EP4084004B1 (en) | 2023-12-13 |
CN115331685A (zh) | 2022-11-11 |
EP4084004C0 (en) | 2023-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022168843A (ja) | 捕捉されたオーディオのフェイスカバーにおける補償 | |
JP6387429B2 (ja) | Anrヘッドホンで周囲の自然さを提供すること | |
US10475467B2 (en) | Systems, methods and devices for intelligent speech recognition and processing | |
JP5956083B2 (ja) | Anrヘッドホンでの閉塞効果低減処理 | |
JP6055108B2 (ja) | バイノーラルテレプレゼンス | |
JP6120980B2 (ja) | 能動ヒアスルーを有するanrヘッドホンのためのユーザインターフェース | |
RU2461081C2 (ru) | Интеллектуальная градиентная система шумоподавления | |
US8918197B2 (en) | Audio communication networks | |
CN108141502A (zh) | 音频信号处理 | |
US20180227682A1 (en) | Hearing enhancement and augmentation via a mobile compute device | |
WO2000022823A1 (fr) | Appareil et procede de telecommunication | |
JP2020197712A (ja) | コンテキストに基づく周囲音の増強及び音響ノイズキャンセル | |
TW201506914A (zh) | 用於自我管理的聲音增強的方法和系統 | |
CN118413804A (zh) | 音频装置、音频分配系统和操作其的方法 | |
CN114255776A (zh) | 使用互连电子设备进行音频修改 | |
US11290815B2 (en) | Method for personalizing the audio signal of an audio or video stream | |
US20230410828A1 (en) | Systems and methods for echo mitigation | |
KR20150087017A (ko) | 시선 추적에 기반한 오디오 제어 장치 및 이를 이용한 화상통신 방법 | |
JP2007251355A (ja) | 対話システム用中継装置、対話システム、対話方法 | |
US20230047187A1 (en) | Extraneous voice removal from audio in a communication session | |
Bouserhal et al. | Improving the quality of in-ear microphone speech via adaptive filtering and artificial bandwidth extension | |
US11509993B2 (en) | Ambient noise detection using a secondary audio receiver | |
WO2023240510A1 (zh) | 呼吸监测方法、装置、耳机及存储介质 | |
Vaziri | Evaluation of changes in speech production induced by conventional and level-dependent hearing protectors and noise characteristics | |
JP2023088360A (ja) | ビデオ通話装置、ビデオ通話方法、及びビデオ通話装置の制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240801 |