JP2020122990A - 適応チャネル間弁別的リスケーリングフィルタ - Google Patents
適応チャネル間弁別的リスケーリングフィルタ Download PDFInfo
- Publication number
- JP2020122990A JP2020122990A JP2020083721A JP2020083721A JP2020122990A JP 2020122990 A JP2020122990 A JP 2020122990A JP 2020083721 A JP2020083721 A JP 2020083721A JP 2020083721 A JP2020083721 A JP 2020083721A JP 2020122990 A JP2020122990 A JP 2020122990A
- Authority
- JP
- Japan
- Prior art keywords
- spectral
- channel
- audio signal
- magnitude
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000003044 adaptive effect Effects 0.000 title abstract description 7
- 230000005236 sound signal Effects 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 230000003595 spectral effect Effects 0.000 claims description 139
- 238000009499 grossing Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 230000001131 transforming effect Effects 0.000 claims description 11
- 238000012892 rational function Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 26
- 230000005540 biological transmission Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000001629 suppression Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本願は、米国仮出願第62/078,844号(2014年11月12日出願、名称「Adaptive Interchannel Discriminative Rescaling Filter」)に対する優先権を主張し、上記出願は、その全体が参照により本明細書に引用される。
本開示は、概して、音声データを隔離すること、オーディオ信号から雑音を除去すること、または別様にオーディオ信号を出力することに先立ってオーディオ信号を増強することを行うための技法を含むオーディオ信号を処理する技法に関する。オーディオ信号を処理するための装置およびシステムも、開示される。
例えば、本願は以下の項目を提供する。
(項目1)
オーディオ信号を変換する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上によって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと
を含む、方法。
(項目2)
増加的入力に基づいて、前記一次分数変換および前記高次有理関数変換のうちの少なくとも1つをビン毎に更新することをさらに含む、項目1に記載の方法。
(項目3)
事前SNR推定値および事後SNR推定値のうちの少なくとも1つを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、項目1に記載の方法。
(項目4)
信号電力レベル差(SPLD)データを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、項目1に記載の方法。
(項目5)
雑音の大きさの推定値および雑音電力レベル差(NPLD)に基づいて、前記基準チャネルの補正されたスペクトルの大きさを計算することをさらに含む、項目1に記載の方法。
(項目6)
前記雑音の大きさの推定値および前記NPLDに基づいて、前記一次チャネルの補正されたスペクトルの大きさを計算することをさらに含む、項目5に記載の方法。
(項目7)
前記スペクトルの大きさのうちの1つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、前記スペクトルの大きさのうちの1つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも1つをさらに含む、項目1に記載の方法。
(項目8)
オーディオ信号に適用されるフィルタ処理の程度を調節する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
単一チャネルPDFおよび結合チャネルPDFのうちの少なくとも1つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、
方法。
(項目9)
前記乗算リスケーリング係数は、利得として使用される、項目8に記載の方法。
(項目10)
前記一次および基準オーディオチャネルのうちの少なくとも1つの各スペクトルフレームに増加的入力を含めることをさらに含む、項目8に記載の方法。
(項目11)
前記増加的入力は、前記一次チャネルに対するスペクトルフレームの各ビンにおける事前SNRおよび事後SNRの推定値を含む、項目10に記載の方法。
(項目12)
前記増加的入力は、前記一次チャネルおよび前記基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりNPLDの推定値を含む、項目10に記載の方法。
(項目13)
前記増加的入力は、前記一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりSPLDの推定値を含む、項目10に記載の方法。
(項目14)
前記増加的入力は、前記一次チャネルと前記基準チャネルとの間のフレームあたり位相差の推定値を含む、項目10に記載の方法。
(項目15)
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素と
を備え、
前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
単一チャネルPDFおよび結合チャネルPDFのうちの少なくとも1つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、オーディオデバイス。
(項目16)
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素であって、
前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上によって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと
を含む、オーディオデバイス。
AIDRフィルタの多段階推定および弁別プロセスの図式的概観が、図1に提示される。一次および二次(基準)マイクロホンからの時間領域信号y1、y2が、AIDRフィルタの上流でサンプルの等しい長さのフレームyi(s,t)に処理されていると仮定され、i∈{1,2}であり、s=0,1,・・・は、フレーム内のサンプル指数であり、t=0,1,・・・は、フレーム指数である。これらのサンプルは、フーリエ変換を介してスペクトル領域にさらに変換されており、したがって、yi−>Yiであり、Yi(k,m)は、m番目のスペクトルフレームのk番目の離散周波数成分(「ビン」)を示し、k=1,2,・・・,Kであり、m=0,1,・・・である。スペクトルフレームあたりの周波数ビンの数Kは、典型的には、時間領域におけるサンプリング率に従って決定され、例えば、16kHzのサンプリング率に対して512ビンであることに留意されたい。Y1(k,m)およびY2(k,m)は、AIDRフィルタに必要な入力であると見なされる。
1. 一次信号に対するスペクトルフレームの各ビンにおける事前SNRξ(k,m)および事後SNRη(k,m)の推定値。これらの値は、典型的には、前の統計的フィルタ処理段階、例えば、MMSE、電力レベル差(PLD)等によって算出されているであろう。これらは、Yiと同一の長さのベクトル入力である。
2. 一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり雑音電力レベル差(NPLD)であるαNPLD(k,m)の推定値。これらの値は、PLDフィルタによって算出されているであろう。これらは、Yiと同一の長さのベクトル入力である。
3. 一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり音声電力レベル差(SPLD)である、αSPLD(k,m)の推定値。これらの値は、PLDフィルタによって算出されるであろう。これらは、Yiと同一の長さのベクトル入力である。
4. 前の音声活動検出(VAD)段階によって算出される、一次および二次信号における音声存在の確率である、S1および/またはS2の推定値。スカラーSi∈[0,1]であると仮定される。
5. 好適な事前処理段階、例えば、PHAT(位相変換)、GCC−PHAT(位相変換との一般化交差相関)等によって提供されるような、m番目のフレームにおける一次および基準入力のスペクトル間の位相角分離である、Δφ(m)の推定値。
必要な入力Yiは、まもなく説明されるであろうような弁別的リスケーリング(段階2)において使用するための単一ベクトルに組み合わせられる。AIDRフィルタの入力変換および組み合わせプロセスの拡大図が、図2に提示される。この組み合わせプロセスは、必ずしも、大きさYi(k,m)に直接作用するわけではなく、むしろ、生の大きさは、最初に、より好適な表現
に変換され得、それは、例えば、時間および周波数間変動を平滑化すること、または周波数依存性様式において大きさを再重みづけ/リスケールすることを行うように作用する。
1. 大きさの再正規化、例えば、
2. ある電力への大きさの引き上げ、すなわち
3. フレーム内の近傍の周波数ビンにわたりとられる加重平均による大きさの置き換え。この変換は、周波数における局所平滑化を提供し、すでにFFTの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。例として、大きさY(k,m)は、
を介して、その値および隣接する周波数ビンの大きさの値の加重平均に置き換えられ得、式中、wk=(1,2,1)は、周波数ビン重みのベクトルである。下付き文字kは、局所平均に対する重みベクトルが異なる周波数に対して異なり得る(例えば、低周波数に対してより狭く、高周波数に対してより広い)可能性を表すために、wに対して含まれる。重みベクトルは、k番目の(中央の)ビンに対して対称的である必要はない。例えば、それは、中央のビンの(ビン指数および対応する周波数の両方の)上方のビンをより重く重みづけするために非対称にされ得る。これは、有声音声中、基本周波数およびその高調波の近傍のビンに重点を置くために、有用であり得る。
4. 前のフレームからの対応するビンにわたりとられる加重平均による大きさの置き換え。この変換は、各周波数ビン内の時間平滑化を提供し、すでにFFTの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。時間平滑化は、種々の方法において実装され得る。例えば、
a)単純な加重平均化
b)指数平滑化
5. VADベースの重みづけを用いた指数平滑化。音声情報を含む/含まないそれらの前のフレームのみからのビンの大きさが含まれる時間平滑化を実施することも、有用であり得る。これは、事前信号処理段階によって算出される十分に正確なVAD情報(増加的入力)を要求する。VAD情報は、以下のように指数平滑化に組み込まれ得る。
a)
この変形では、m*<mは、Si(m*)が音声存在/不在を示す規定された閾値を上回る(または下回る)ような最も近い前のフレームの指数である。
b)代替として、音声存在の確率は、平滑化率を直接修正するために使用され得る。
この変形では、βは、Siの関数、例えば、シグモイド関数であり、パラメータは、Siが所与の閾値を下回って(上回って)移動するにつれて、β(Si)が固定値βa(βb)に接近するように選定される。
6. 心理音響的重要性による再重みづけ:メル周波数およびERBスケール重みづけ。
フレーム指数mに対する入力変換段階の最終出力は、u(m)と指定される。u(m)は、Yiと同一の長さKを有するベクトルであり、u(k,m)は、m番目のスペクトルフレームのk番目の離散周波数成分に関連付けられるuの成分を示すことに留意されたい。u(m)の算出は、修正された必要な入力
を要求し、一般的形態では、これは、ベクトル値関数
によって遂行される。
において高次有理式を伴い得る:
または、
等である。
第2段階の目標は、所望される音声よりも多く雑音を含むと推定されるそれらのY1(k,m)の大きさを低減させることによって、一次信号から雑音成分をフィルタ処理することである。段階1の出力u(m)は、この推定値としての役割を果たす。段階2の出力をY1(m)の各周波数成分に対する乗算利得のベクトルであるとする場合、k番目の利得は、u(k,m)が非常に低いSNRを示すとき、小さく(0に近似する)、u(k,m)が非常に高いSNRを示す場合、大きく(1に近似する、例えば、利得が非構成的であると制限される場合)すべきである。中間的な場合に対して、これらの極の間で漸進遷移であることが望ましい。
を介して達成される。要素毎のgは、非負区分的平滑関数
によって説明される。ある有限Bkに対して、0≦wk≦Bkであれば、gは、有界でなくても、非負でなくてもよい。しかしながら、各gkは、妥当な範囲の入力ukにわたって有限かつ非負であるべきである。
を特徴とする。
便宜上、
が、段階2の(一般化)ロジスティック関数においてu(k,m)に代入され得る。これは、数桁を上回って及び得る値をはるかに小さい間隔に集中させる効果を及ぼす。しかしながら、同一の最終結果が、対数を使用するパラメータ値のリスケーリングおよび代数再結合によって、関数入力の対数をとることに頼らずに達成され得る。
Claims (11)
- オーディオ信号を変換する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルおよび前記基準チャネルの各々のスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することにより、前記一次チャネルの1つ以上の変換されたスペクトルの大きさおよび前記基準チャネルの1つ以上の変換されたスペクトルの大きさを生成することと、
前記一次チャネルの変換されたスペクトルの大きさが前記基準チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
前記基準チャネルの変換されたスペクトルの大きさが前記一次チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、方法。 - 増加的入力に基づいて、前記一次分数変換および前記高次有理関数変換のうちの少なくとも1つをビン毎に更新することをさらに含む、請求項1に記載の方法。
- 事前SNR推定値および事後SNR推定値のうちの少なくとも1つを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、請求項1に記載の方法。
- 信号電力レベル差(SPLD)データを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、請求項1に記載の方法。
- 雑音の大きさの推定値および雑音電力レベル差(NPLD)に基づいて、前記基準チャネルの補正されたスペクトルの大きさを計算することと、前記雑音の大きさの推定値および前記NPLDに基づいて、前記一次チャネルの補正されたスペクトルの大きさを計算することとをさらに含む、請求項1に記載の方法。
- 1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することは、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上をさらに含む、請求項1に記載の方法。 - 前記スペクトルの大きさのうちの1つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、前記スペクトルの大きさのうちの1つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも1つをさらに含む、請求項1に記載の方法。
- オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素と
を備え、
前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさおよび前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することにより、前記一次チャネルの1つ以上の変換されたスペクトルの大きさおよび前記基準チャネルの1つ以上の変換されたスペクトルの大きさを生成することと、
前記一次チャネルの変換されたスペクトルの大きさが前記基準チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
前記基準チャネルの変換されたスペクトルの大きさが前記一次チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、オーディオデバイス。 - 1つ以上の周波数ビンに対する前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することは、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上を含む、請求項8に記載のデバイス。 - オーディオ信号を処理する方法であって、
オーディオデバイスの複数のマイクロホンを用いて、オーディオ信号の一次チャネルおよび二次チャネルを取得することと、
前記オーディオ信号の一次チャネルおよび二次チャネルのスペクトルの大きさを推定することと、
所与の周波数に対して、前記一次チャネルのスペクトルの大きさが、前記二次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
所与の周波数に対して、前記二次チャネルのスペクトルの大きさが、前記一次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、方法。 - 一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することにより、1つ以上の変換されたスペクトルの大きさを生成することをさらに含む、請求項10に記載のオーディオ信号を処理する方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021199951A JP7179144B2 (ja) | 2014-11-12 | 2021-12-09 | 適応チャネル間弁別的リスケーリングフィルタ |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462078844P | 2014-11-12 | 2014-11-12 | |
US62/078,844 | 2014-11-12 | ||
US14/938,816 | 2015-11-11 | ||
US14/938,816 US10013997B2 (en) | 2014-11-12 | 2015-11-11 | Adaptive interchannel discriminative rescaling filter |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017525347A Division JP6769959B2 (ja) | 2014-11-12 | 2015-11-12 | 適応チャネル間弁別的リスケーリングフィルタ |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021199951A Division JP7179144B2 (ja) | 2014-11-12 | 2021-12-09 | 適応チャネル間弁別的リスケーリングフィルタ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020122990A true JP2020122990A (ja) | 2020-08-13 |
Family
ID=55912723
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017525347A Expired - Fee Related JP6769959B2 (ja) | 2014-11-12 | 2015-11-12 | 適応チャネル間弁別的リスケーリングフィルタ |
JP2020083721A Withdrawn JP2020122990A (ja) | 2014-11-12 | 2020-05-12 | 適応チャネル間弁別的リスケーリングフィルタ |
JP2021199951A Active JP7179144B2 (ja) | 2014-11-12 | 2021-12-09 | 適応チャネル間弁別的リスケーリングフィルタ |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017525347A Expired - Fee Related JP6769959B2 (ja) | 2014-11-12 | 2015-11-12 | 適応チャネル間弁別的リスケーリングフィルタ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021199951A Active JP7179144B2 (ja) | 2014-11-12 | 2021-12-09 | 適応チャネル間弁別的リスケーリングフィルタ |
Country Status (6)
Country | Link |
---|---|
US (1) | US10013997B2 (ja) |
EP (1) | EP3219028A4 (ja) |
JP (3) | JP6769959B2 (ja) |
KR (1) | KR102532820B1 (ja) |
CN (1) | CN107969164B (ja) |
WO (1) | WO2016077557A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847173B2 (en) | 2018-02-13 | 2020-11-24 | Intel Corporation | Selection between signal sources based upon calculated signal to noise ratio |
CN110739005B (zh) * | 2019-10-28 | 2022-02-01 | 南京工程学院 | 一种面向瞬态噪声抑制的实时语音增强方法 |
CN111161749B (zh) * | 2019-12-26 | 2023-05-23 | 佳禾智能科技股份有限公司 | 可变帧长的拾音方法、电子设备、计算机可读存储介质 |
US20240062774A1 (en) * | 2022-08-17 | 2024-02-22 | Caterpillar Inc. | Detection of audio communication signals present in a high noise environment |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130054231A1 (en) * | 2011-08-29 | 2013-02-28 | Intel Mobile Communications GmbH | Noise reduction for dual-microphone communication devices |
WO2014108222A1 (en) * | 2013-01-08 | 2014-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Improving speech intelligibility in background noise by sii-dependent amplification and compression |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6584204B1 (en) * | 1997-12-11 | 2003-06-24 | The Regents Of The University Of California | Loudspeaker system with feedback control for improved bandwidth and distortion reduction |
JP3435687B2 (ja) * | 1998-03-12 | 2003-08-11 | 日本電信電話株式会社 | 収音装置 |
CN100397781C (zh) * | 2000-08-14 | 2008-06-25 | 清晰音频有限公司 | 声音增强系统 |
US7171003B1 (en) | 2000-10-19 | 2007-01-30 | Lear Corporation | Robust and reliable acoustic echo and noise cancellation system for cabin communication |
US6819480B2 (en) | 2002-05-02 | 2004-11-16 | Lucent Technologies Inc. | Method and apparatus for controlling the extinction ratio of transmitters |
CN101916567B (zh) * | 2009-11-23 | 2012-02-01 | 瑞声声学科技(深圳)有限公司 | 应用于双麦克风系统的语音增强方法 |
CN101976565A (zh) * | 2010-07-09 | 2011-02-16 | 瑞声声学科技(深圳)有限公司 | 基于双麦克风语音增强装置及方法 |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
KR101561755B1 (ko) | 2011-03-03 | 2015-10-19 | 사이퍼 엘엘씨 | 데이터 내의 공통 엘리먼트들의 자율적 검출 및 분리를 위한 시스템, 및 그와 연관된 방법 및 디바이스 |
US20140025374A1 (en) * | 2012-07-22 | 2014-01-23 | Xia Lou | Speech enhancement to improve speech intelligibility and automatic speech recognition |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
-
2015
- 2015-11-11 US US14/938,816 patent/US10013997B2/en active Active
- 2015-11-12 WO PCT/US2015/060337 patent/WO2016077557A1/en active Application Filing
- 2015-11-12 JP JP2017525347A patent/JP6769959B2/ja not_active Expired - Fee Related
- 2015-11-12 EP EP15858206.4A patent/EP3219028A4/en not_active Withdrawn
- 2015-11-12 CN CN201580073107.1A patent/CN107969164B/zh active Active
- 2015-11-12 KR KR1020177015629A patent/KR102532820B1/ko not_active Application Discontinuation
-
2020
- 2020-05-12 JP JP2020083721A patent/JP2020122990A/ja not_active Withdrawn
-
2021
- 2021-12-09 JP JP2021199951A patent/JP7179144B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130054231A1 (en) * | 2011-08-29 | 2013-02-28 | Intel Mobile Communications GmbH | Noise reduction for dual-microphone communication devices |
WO2014108222A1 (en) * | 2013-01-08 | 2014-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Improving speech intelligibility in background noise by sii-dependent amplification and compression |
Also Published As
Publication number | Publication date |
---|---|
JP6769959B2 (ja) | 2020-10-14 |
EP3219028A1 (en) | 2017-09-20 |
JP2022022393A (ja) | 2022-02-03 |
JP2017538151A (ja) | 2017-12-21 |
WO2016077557A1 (en) | 2016-05-19 |
EP3219028A4 (en) | 2018-07-25 |
JP7179144B2 (ja) | 2022-11-28 |
KR102532820B1 (ko) | 2023-05-17 |
CN107969164A (zh) | 2018-04-27 |
CN107969164B (zh) | 2020-07-17 |
US20160133272A1 (en) | 2016-05-12 |
KR20170082598A (ko) | 2017-07-14 |
US10013997B2 (en) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020122990A (ja) | 適応チャネル間弁別的リスケーリングフィルタ | |
EP3511937B1 (en) | Device and method for sound source separation, and program | |
KR102431896B1 (ko) | 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정 | |
EP2164066B1 (en) | Noise spectrum tracking in noisy acoustical signals | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
CN102903368B (zh) | 用于卷积盲源分离的方法和设备 | |
JP6554188B2 (ja) | 補聴器システムの動作方法および補聴器システム | |
JP6351538B2 (ja) | ディジタル音響信号用の多帯域信号プロセッサ | |
EP3899936B1 (en) | Source separation using an estimation and control of sound quality | |
CN102723082A (zh) | 基于保持语音信息的单耳音频处理系统和方法 | |
CN105103230B (zh) | 信号处理装置、信号处理方法、信号处理程序 | |
JP2016045221A (ja) | 信号解析装置、方法、及びプログラム | |
CN114041185A (zh) | 用于确定深度过滤器的方法和装置 | |
CN106847299B (zh) | 延时的估计方法及装置 | |
JP5609157B2 (ja) | 係数設定装置および雑音抑圧装置 | |
Chau et al. | A novel approach to multi-channel speech enhancement based on graph neural networks | |
CN114171043B (zh) | 回声的确定方法、装置、设备以及存储介质 | |
Yechuri et al. | An iterative posterior regularized nmf-based adaptive wiener filter for speech enhancement | |
US20240363132A1 (en) | High-performance small-footprint ai-based noise suppression model | |
Parameswaran | Objective assessment of machine learning algorithms for speech enhancement in hearing aids | |
Despotović et al. | Design of nonlinear predictors for adaptive predictive coding of speech signals | |
Srinivasan et al. | Speech enhancement using a generic noise codebook |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210527 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211209 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20211209 |
|
C11 | Written invitation by the commissioner to file amendments |
Free format text: JAPANESE INTERMEDIATE CODE: C11 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220106 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220126 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220127 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20220128 |