JP2023544253A - バイノーラル記録を処理するための方法及びデバイス - Google Patents
バイノーラル記録を処理するための方法及びデバイス Download PDFInfo
- Publication number
- JP2023544253A JP2023544253A JP2023516696A JP2023516696A JP2023544253A JP 2023544253 A JP2023544253 A JP 2023544253A JP 2023516696 A JP2023516696 A JP 2023516696A JP 2023516696 A JP2023516696 A JP 2023516696A JP 2023544253 A JP2023544253 A JP 2023544253A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- audio
- signal
- binaural
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000005236 sound signal Effects 0.000 claims abstract description 481
- 230000015556 catabolic process Effects 0.000 claims abstract description 18
- 238000006731 degradation reaction Methods 0.000 claims abstract description 18
- 210000000988 bone and bone Anatomy 0.000 claims description 73
- 230000009467 reduction Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000009877 rendering Methods 0.000 abstract description 9
- 238000004091 panning Methods 0.000 description 24
- 230000001360 synchronised effect Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 230000004044 response Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
Description
第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップ及び第1の出力オーディオ信号及び第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップ。
Claims (25)
- バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法であって、
前記第1のオーディオ信号からオーディオ情報を抽出するステップであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、ステップと、
前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、
動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するステップであって、
前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、
前記動的スケーリング係数は、前記第1のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、
ステップと、
前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。 - 前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップは、前記第1のオーディオ信号を処理する前記ステップに対応する別個の処理ステップを含む、請求項1に記載の方法。
- 前記第1の出力オーディオ信号を提供するステップは、
前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用することによって、ノイズ低減されたオーディオ信号を計算するステップと、
前記動的スケーリング係数に等しい混合比で、前記第1のオーディオ信号の各周波数帯域を前記ノイズ低減されたオーディオ信号の対応する周波数帯域と混合して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。 - 前記第1の出力オーディオ信号を提供するステップは、
各帯域について、k+(1-k)Bgainとして動的帯域利得を計算するステップであって、kは前記動的スケーリング係数であり、Bgainは前記計算された帯域利得である、ステップと、
第1のオーディオ信号の各帯域に対して前記動的帯域利得を適用して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。 - 各周波数帯域についての前記動的スケーリング係数は、前記第1のオーディオ信号の現在の時間フレーム及び前の時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項1から4のいずれか一項に記載の方法。
- 各動的スケーリング係数は、所定の閾値利得を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、請求項5に記載の方法。
- 前記第1のオーディオ信号の各周波数帯域について、音声アクティビティ検出(VAD)確率を計算するステップを更に含み、
各動的スケーリング係数は、VAD確率が所定のVAD確率閾値を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、
請求項5又は6に記載の方法。 - 前記動的スケーリング係数は、帯域利得の加重和に基づき、前記加重和は、前の時間フレームからの帯域利得を含み、前記方法は、
前記現在の時間フレームの前記帯域利得が所定の閾値利得を超えると決定するステップと、
前記現在のフレームに関連する前記帯域利得が前記所定の閾値利得を超える場合には、
現在の加重和を、前記現在の時間フレームの前記帯域利得と、前の時間フレームからの帯域利得を含む加重和との加重和として計算するステップと
を更に含む、請求項5から7のいずれか一項に記載の方法。 - 前記動的スケーリング係数は、1-Gとして決定され、Gは、前の時間フレームの周波数帯域からの帯域利得を少なくとも含む帯域利得の加重和である、請求項5から8のいずれか一項に記載の方法。
- 各周波数帯域についての前記動的スケーリング係数を決定するステップは、オフラインで実行され、各動的スケーリング係数は、前記第1のオーディオ信号の全ての時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項1から4のいずれか一項に記載の方法。
- 前記第1のオーディオ信号の各周波数帯域について、VAD確率を計算するステップと、
全てのフレームからの前記平均帯域利得に基づいて、前記第1のオーディオ信号の各周波数帯域についての動的スケーリング係数を決定するステップであって、前記帯域利得は所定の閾値利得を超え、前記VAD確率は所定の確率閾値を超える、ステップと
を更に含む、請求項10に記載の方法。 - 前記2つのオーディオ信号は、左チャネルオーディオ信号及び右チャネルオーディオ信号であり、前記方法は、
前記第1のオーディオ信号を中間チャネルオーディオ信号として推定するステップであって、前記中間信号は前記左信号と前記右信号との和から計算される、ステップと、
前記第2のオーディオ信号をサイドチャネルオーディオ信号として推定するステップであって、前記サイド信号は、前記左信号と前記右信号との間の差から計算される、ステップと、
前記中間出力信号とサイド出力信号との和として左出力オーディオ信号を推定すること、及び
前記中間出力信号とサイド出力信号との差として右出力オーディオ信号を推定すること
によって、前記バイノーラル出力オーディオ信号を決定するステップと
を更に含む、請求項1から11のいずれか一項に記載の方法。 - 追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含み、前記方法は、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと
を更に含む、請求項1から12のいずれか一項に記載の方法。 - 骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記骨振動センサ信号に基づいて前記追加のオーディオ信号の利得を制御するステップと
を更に含む、請求項13に記載の方法。 - 前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第1のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第2のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと
を更に含む、請求項13に記載の方法。 - 前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項15に記載の方法。
- 前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項15又は16に記載の方法。
- 前記オーディオ情報は、
前記第1のオーディオ信号の前記SNR、
前記第1のオーディオ信号の前記基本周波数、
前記第1のオーディオ信号の前記VAD確率、
骨振動センサによって取得された骨振動センサ信号、
骨振動センサによって取得された骨振動センサ信号から抽出された基本周波数、及び
骨振動センサによって取得された骨振動センサ信号から抽出されたVAD確率、
のうちの1つ又は複数を更に含む、請求項1から17のいずれか一項に記載の方法。 - 前記骨振動センサ信号から抽出された前記VAD確率に基づいて、前記第1のオーディオ信号の利得を制御するステップ
を更に含む、請求項18に記載の方法。 - 前記第1のオーディオ信号の各周波数帯域についての帯域利得を計算するステップは、トレーニングされたニューラルネットワークを用いて前記オーディオ情報から前記帯域利得を予測するステップを含む、請求項1から19のいずれか一項に記載の方法。
- コンピュータ上で実行されたときに、請求項1から20のいずれか一項に記載の方法を実行するためのコンピュータプログラムコードを含むコンピュータプログラム製品。
- バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号及び追加の記録デバイスからの追加のオーディオ信号を処理するための方法であって、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第1のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第2のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記処理された追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと、
前記第1のオーディオ信号及び第2のオーディオ信号に基づいて第1の出力オーディオ信号及び第2の出力オーディオ信号を提供するステップと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。 - 前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項22に記載の方法。
- 前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項22又は23に記載の方法。
- オーディオ処理デバイスであって、
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を受信する受信機であって、前記入力バイノーラルオーディオ信号は、第1のオーディオ信号及び第2のオーディオ信号を含む、受信機と、
前記受信機から前記第1のオーディオ信号を受信し、前記第1のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、抽出ユニットと、
前記オーディオ情報を受信し、前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得を計算するように構成された処理デバイスと、
動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するように構成された適用ユニットであって、前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、前記動的スケーリング係数は、前記第1のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、適用ユニットと、
前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するように構成された追加の処理モジュールと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成された出力段と
を備えるオーディオ処理デバイス。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ESP202030934 | 2020-09-15 | ||
ES202030934 | 2020-09-15 | ||
US202063117717P | 2020-11-24 | 2020-11-24 | |
US63/117,717 | 2020-11-24 | ||
US202163177771P | 2021-04-21 | 2021-04-21 | |
US63/177,771 | 2021-04-21 | ||
PCT/US2021/050534 WO2022060891A1 (en) | 2020-09-15 | 2021-09-15 | Method and device for processing a binaural recording |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023544253A true JP2023544253A (ja) | 2023-10-23 |
Family
ID=78414718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023516696A Pending JP2023544253A (ja) | 2020-09-15 | 2021-09-15 | バイノーラル記録を処理するための方法及びデバイス |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230360662A1 (ja) |
EP (1) | EP4214707A1 (ja) |
JP (1) | JP2023544253A (ja) |
CN (1) | CN116349252A (ja) |
WO (1) | WO2022060891A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928790A (zh) * | 2022-05-07 | 2022-08-19 | 皓角科技(上海)有限公司 | 音频信号处理电路及音频终端 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2974655B1 (fr) * | 2011-04-26 | 2013-12-20 | Parrot | Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres". |
EP2880655B8 (en) * | 2012-08-01 | 2016-12-14 | Dolby Laboratories Licensing Corporation | Percentile filtering of noise reduction gains |
-
2021
- 2021-09-15 JP JP2023516696A patent/JP2023544253A/ja active Pending
- 2021-09-15 US US18/026,281 patent/US20230360662A1/en active Pending
- 2021-09-15 CN CN202180068152.3A patent/CN116349252A/zh active Pending
- 2021-09-15 WO PCT/US2021/050534 patent/WO2022060891A1/en active Search and Examination
- 2021-09-15 EP EP21799375.7A patent/EP4214707A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230360662A1 (en) | 2023-11-09 |
EP4214707A1 (en) | 2023-07-26 |
WO2022060891A1 (en) | 2022-03-24 |
CN116349252A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6637014B2 (ja) | 音声信号処理のためのマルチチャネル直接・環境分解のための装置及び方法 | |
US9881635B2 (en) | Method and system for scaling ducking of speech-relevant channels in multi-channel audio | |
US10650796B2 (en) | Single-channel, binaural and multi-channel dereverberation | |
JP4964943B2 (ja) | オーディオ入力信号の反響コンテンツを抽出および変更するためのシステム | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US10553236B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
JP7201721B2 (ja) | 相関分離フィルタの適応制御のための方法および装置 | |
KR102191736B1 (ko) | 인공신경망을 이용한 음성향상방법 및 장치 | |
JP2017530396A (ja) | 音源を強調するための方法及び機器 | |
EP3005362B1 (en) | Apparatus and method for improving a perception of a sound signal | |
CN110364175B (zh) | 语音增强方法及系统、通话设备 | |
JP2023544253A (ja) | バイノーラル記録を処理するための方法及びデバイス | |
JPWO2020017518A1 (ja) | 音声信号処理装置 | |
CN110740404A (zh) | 一种音频相关性的处理方法及音频处理装置 | |
CN117153192B (zh) | 音频增强方法、装置、电子设备和存储介质 | |
US10091582B2 (en) | Signal enhancement | |
van Waterschoot et al. | Adaptive feedback cancellation for audio signals using a warped all-pole near-end signal model | |
JP3869823B2 (ja) | 音声の周波数特性の等化装置 | |
JP2011081316A (ja) | 音量制御装置及び電子機器 | |
JP2024509254A (ja) | メディアタイプに基づく残響除去 | |
US20200145748A1 (en) | Method of decreasing the effect of an interference sound and sound playback device | |
CN117499838A (zh) | 音频的处理方法、装置和非易失性计算机可读存储介质 | |
CN117334212A (zh) | 处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20230511 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240625 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240924 |