JP2020122990A - 適応チャネル間弁別的リスケーリングフィルタ - Google Patents

適応チャネル間弁別的リスケーリングフィルタ Download PDF

Info

Publication number
JP2020122990A
JP2020122990A JP2020083721A JP2020083721A JP2020122990A JP 2020122990 A JP2020122990 A JP 2020122990A JP 2020083721 A JP2020083721 A JP 2020083721A JP 2020083721 A JP2020083721 A JP 2020083721A JP 2020122990 A JP2020122990 A JP 2020122990A
Authority
JP
Japan
Prior art keywords
spectral
channel
audio signal
magnitude
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2020083721A
Other languages
English (en)
Inventor
シャーウッド エリク
Sherwood Erik
シャーウッド エリク
グルンドストルム カール
Grundstrom Carl
グルンドストルム カール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cirrus Logic Inc
Original Assignee
Cirrus Logic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cirrus Logic Inc filed Critical Cirrus Logic Inc
Publication of JP2020122990A publication Critical patent/JP2020122990A/ja
Priority to JP2021199951A priority Critical patent/JP7179144B2/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】適応チャネル間弁別的リスケーリングフィルタの提供。【解決手段】オーディオ信号をフィルタ処理する方法は、一次および基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、基準チャネルの雑音の大きさの推定値と一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供するために、PDFを最大化することとを含む。一次チャネルは、一次チャネルのスペクトルの大きさが基準チャネルのものよりも強いとき、強調され、基準チャネルのスペクトルの大きさが一次チャネルのものよりも強いとき、強調は抑えられる。乗算リスケーリング係数が、音声増強フィルタチェーンの事前段階において算出された利得に適用され、いかなる事前段階も存在しない場合、利得は、直接適用される。【選択図】図1

Description

(関連出願の引用)
本願は、米国仮出願第62/078,844号(2014年11月12日出願、名称「Adaptive Interchannel Discriminative Rescaling Filter」)に対する優先権を主張し、上記出願は、その全体が参照により本明細書に引用される。
(技術分野)
本開示は、概して、音声データを隔離すること、オーディオ信号から雑音を除去すること、または別様にオーディオ信号を出力することに先立ってオーディオ信号を増強することを行うための技法を含むオーディオ信号を処理する技法に関する。オーディオ信号を処理するための装置およびシステムも、開示される。
最新技術のモバイル電話を含む種々のオーディオデバイスは、意図された源からオーディオを受信するように位置付けられ、向けられる一次マイクロホンと、意図された源から背景雑音を受信する一方、オーディオを殆どまたは全く受信しないように位置付けられ、向けられる基準マイクロホンとを含む。多くの使用シナリオでは、基準マイクロホンは、一次マイクロホンによって取得されるオーディオ信号の一次チャネルに存在する可能性が高い雑音の量のインジケータを提供する。特に、一次チャネルと基準チャネルとの間の所与の周波数帯域に対する相対スペクトル電力レベルは、その周波数帯域が一次チャネルにおいて雑音によって支配されているか、または信号によって支配されているかを示し得る。次いで、その周波数帯域における一次チャネルオーディオは、適宜、選択的に抑制または増強され得る。
しかしながら、一次チャネルと基準チャネルとの間の修正されていない相対スペクトル電力レベルの関数と考えられる一次チャネルにおける音声(それぞれ、雑音)支配の確率は、周波数ビンによって変動し得、経時的に固定されていない場合があることが事実である。したがって、チャネル間の比較ベースのフィルタ処理における生の電力比、固定された閾値、および/または固定されたリスケーリング係数の使用は、一次チャネルオーディオにおける望ましくない音声抑制および/または雑音増幅をよくもたらし得る。
故に、入力チャネル間の雑音支配/音声支配電力レベルにおける差異を推定すること、一次入力チャネルにおいて雑音を抑制し、音声存在を増強することにおける改良が、追求される。
本発明の一側面は、いくつかの実施形態では、オーディオ信号を変換する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、複数の周波数ビンに対するオーディオ信号の一次チャネルのスペクトルの大きさを推定することと、複数の周波数ビンに対するオーディオ信号の基準チャネルのスペクトルの大きさを推定することとを含む。方法はさらに、一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対するスペクトルの大きさのうちの1つ以上のものを変換することと、1つ以上の周波数ビンに対するスペクトルの大きさのうちの1つ以上のものをさらに変換することとを含む。さらなる変換は、スペクトルの大きさのうちの1つ以上のものを再正規化することと、スペクトルの大きさのうちの1つ以上のものを累乗することと、スペクトルの大きさのうちの1つ以上のものを時間平滑化することと、スペクトルの大きさのうちの1つ以上のものを周波数平滑化することと、スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化することと、スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化することと、位相差の推定値を変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることと、VAD推定値を変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることとのうちの1つ以上のものを含むことができる。
いくつかの実施形態では、方法は、増加的入力に基づいて、一次分数変換および高次有理関数変換のうちの少なくとも1つをビン毎に更新することを含む。
いくつかの実施形態では、方法は、事前SNR推定値および事後SNR推定値のうちの少なくとも1つを、変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることを含む。
いくつかの実施形態では、方法は、信号電力レベル差(SPLD)データを、変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることを含む。
いくつかの実施形態では、方法は、雑音の大きさの推定値および雑音電力レベル差(NPLD)に基づいて、基準チャネルの補正されたスペクトルの大きさを計算することを含む。いくつかの実施形態では、方法は、雑音の大きさの推定値およびNPLDに基づいて、一次チャネルの補正されたスペクトルの大きさを計算することを含む。
いくつかの実施形態では、方法は、スペクトルの大きさのうちの1つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、スペクトルの大きさのうちの1つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも1つを含む。
本発明の別の側面は、いくつかの実施形態では、オーディオ信号に適用されるフィルタ処理の程度を調節する方法を特徴とする。方法は、オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、オーディオデバイスの基準マイクロホンを用いて、オーディオ信号の基準チャネルを取得することと、オーディオ信号の一次チャネルのスペクトルの大きさを推定することと、オーディオ信号の基準チャネルのスペクトルの大きさを推定することとを含む。方法はさらに、オーディオ信号の一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、オーディオ信号の基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、基準チャネルの雑音の大きさの推定値と一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供するために、単一チャネルPDFおよび結合チャネルPDFのうちの少なくとも1つを最大化することと、所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することとを含む。方法はさらに、一次チャネルのスペクトルの大きさが基準チャネルのスペクトルの大きさよりも強いとき、一次チャネルを強調することと、基準チャネルのスペクトルの大きさが一次チャネルのスペクトルの大きさよりも強いとき、一次チャネルの強調を抑えることとを含み、強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む。
いくつかの実施形態では、乗算リスケーリング係数は、利得として使用される。
いくつかの実施形態では、方法は、一次および基準オーディオチャネルのうちの少なくとも1つの各スペクトルフレームに増加的入力を含めることを含む。
いくつかの実施形態では、増加的入力は、一次チャネルに対するスペクトルフレームの各ビンにおける事前SNRおよび事後SNRの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりNPLDの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりSPLDの推定値を含む。いくつかの実施形態では、増加的入力は、一次チャネルと基準チャネルとの間のフレームあたり位相差の推定値を含む。
本発明の別の側面は、いくつかの実施形態では、オーディオ信号を受信し、オーディオ信号の一次チャネルを通信するための一次マイクロホンと、オーディオ信号を一次マイクロホンとは異なる状況で受信し、オーディオ信号の基準チャネルを通信するための基準マイクロホンと、オーディオ信号を処理し、オーディオ信号をフィルタ処理および/または明瞭化するための少なくとも1つの処理要素であって、本明細書に説明される方法のいずれかを行うためのプログラムを実行するように構成される、少なくとも1つの処理要素とを含む、オーディオデバイスを特徴とする。
例えば、本願は以下の項目を提供する。
(項目1)
オーディオ信号を変換する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上によって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと
を含む、方法。
(項目2)
増加的入力に基づいて、前記一次分数変換および前記高次有理関数変換のうちの少なくとも1つをビン毎に更新することをさらに含む、項目1に記載の方法。
(項目3)
事前SNR推定値および事後SNR推定値のうちの少なくとも1つを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、項目1に記載の方法。
(項目4)
信号電力レベル差(SPLD)データを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、項目1に記載の方法。
(項目5)
雑音の大きさの推定値および雑音電力レベル差(NPLD)に基づいて、前記基準チャネルの補正されたスペクトルの大きさを計算することをさらに含む、項目1に記載の方法。
(項目6)
前記雑音の大きさの推定値および前記NPLDに基づいて、前記一次チャネルの補正されたスペクトルの大きさを計算することをさらに含む、項目5に記載の方法。
(項目7)
前記スペクトルの大きさのうちの1つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、前記スペクトルの大きさのうちの1つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも1つをさらに含む、項目1に記載の方法。
(項目8)
オーディオ信号に適用されるフィルタ処理の程度を調節する方法であって、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
単一チャネルPDFおよび結合チャネルPDFのうちの少なくとも1つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、
方法。
(項目9)
前記乗算リスケーリング係数は、利得として使用される、項目8に記載の方法。
(項目10)
前記一次および基準オーディオチャネルのうちの少なくとも1つの各スペクトルフレームに増加的入力を含めることをさらに含む、項目8に記載の方法。
(項目11)
前記増加的入力は、前記一次チャネルに対するスペクトルフレームの各ビンにおける事前SNRおよび事後SNRの推定値を含む、項目10に記載の方法。
(項目12)
前記増加的入力は、前記一次チャネルおよび前記基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりNPLDの推定値を含む、項目10に記載の方法。
(項目13)
前記増加的入力は、前記一次チャネルおよび基準チャネルに対するスペクトルフレームの対応するビン間のビンあたりSPLDの推定値を含む、項目10に記載の方法。
(項目14)
前記増加的入力は、前記一次チャネルと前記基準チャネルとの間のフレームあたり位相差の推定値を含む、項目10に記載の方法。
(項目15)
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素と
を備え、
前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
前記オーディオ信号の前記一次チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
前記オーディオ信号の前記基準チャネルの高速フーリエ変換(FFT)係数の確率密度関数(PDF)をモデル化することと、
単一チャネルPDFおよび結合チャネルPDFのうちの少なくとも1つを最大化し、前記基準チャネルの雑音の大きさの推定値と前記一次チャネルの雑音の大きさの推定値との間の弁別的関連性差(DRD)を提供することと、
所与の周波数に対してどのスペクトルの大きさがより大きいかを決定することと、
前記一次チャネルのスペクトルの大きさが前記基準チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルを強調することと、
前記基準チャネルのスペクトルの大きさが前記一次チャネルのスペクトルの大きさよりも強い場合、前記一次チャネルの強調を抑えることと
を含み、
前記強調することおよび強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、いかなる事前段階も存在しない場合、利得を直接適用することとを含む、オーディオデバイス。
(項目16)
オーディオデバイスであって、
オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素であって、
前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
前記方法は、
オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさを推定することと、
複数の周波数ビンに対する前記オーディオ信号の前記基準チャネルのスペクトルの大きさを推定することと、
一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと、
前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
のうちの1つ以上によって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することと
を含む、オーディオデバイス。
本発明のより完全な理解が、図と併せて考慮されるとき、発明を実施するための形態を参照することによってもたらされ得る。
図1は、一実施形態による、適応チャネル間弁別的リスケーリングフィルタプロセスを例証する。 図2は、一実施形態による、適応チャネル間弁別的リスケーリングフィルタプロセスにおいて使用するための入力変換を例証する。 図3は、一実施形態による、雑音および音声電力レベルの比較を例証する。 図4は、一実施形態による、雑音および音声電力レベル確率分布関数の推定を例証する。 図5は、一実施形態による、雑音および音声電力レベルの比較を例証する。 図6は、一実施形態による、雑音および音声電力レベル確率分布関数の推定を例証する。 図7は、一実施形態による、雑音および音声電力レベルと弁別的利得関数の推定値との比較を例証する。 図8は、デジタルオーディオデータを分析するためのコンピュータアーキテクチャを例証する。
以下の説明は、本発明の例示的実施形態にすぎず、本発明の範囲、可用性、または構成を限定することは意図されない。むしろ、以下の説明は、本発明の種々の実施形態を実装するための便宜な例証を提供することが意図される。明白になるであろうように、種々の変更が、本明細書に記載されるような本発明の範囲から逸脱することなく、これらの実施形態に説明される要素の機能および配列において成され得る。したがって、本明細書における発明を実施するための形態は、限定ではなく、例証のみを目的として提示される。
本明細書における「一実施形態」または「ある実施形態」の言及は、実施形態と関連して説明される特定の特徴、構造、または特性が、本発明の少なくともある実施形態に含まれること示すことが意図される。本明細書の種々の箇所における語句「一実施形態では」または「ある実施形態」の出現は、必ずしも、全てが同一の実施形態を指すわけではない。
本発明は、デジタルデータを分析する方法、システム、およびコンピュータプログラム製品に及ぶ。分析されるデジタルデータは、例えば、デジタルオーディオファイル、デジタルビデオファイル、リアルタイムオーディオストリーム、およびリアルタイムビデオストリーム等の形態であり得る。本発明は、デジタルデータのソースにおけるパターンを識別し、識別されたパターンを使用し、デジタルデータを分析、分類、およびフィルタ処理し、例えば、音声データを隔離または増強する。本発明の特定の実施形態は、デジタルオーディオに関する。任意のオーディオソースからの非破壊オーディオ隔離および分離を実施するための実施形態が、設計される。
適応チャネル間弁別的リスケーリング(AIDR)フィルタの目的は、一次スペクトルYおよび基準スペクトルYの関連性調節相対電力レベルに基づいて、雑音からの電力よりも所望される信号からの電力をより多く含むと推測される一次マイクロホンからの入力のスペクトル表現のフィルタ処理の程度を調節することである。基準マイクロホンからの入力は、所望される信号からよりも交絡雑音からの関連性調節電力をより多く含むと推測される。
二次マイクロホン入力が一次マイクロホン入力よりも多くの音声を含む傾向がある(例えば、ユーザが電話を逆転された向きにおいて保持している)ことが検出される場合、YおよびYの相対的大きさに関する期待値も、逆転されるであろう。次いで、以下の説明では、YおよびY等の役割は、利得修正がYに適用され続け得ることを除いて、単純に置換される。
AIDRフィルタの論理は、大まかに言えば、所与の周波数に対して、基準入力が一次入力よりも強いとき、一次入力における対応するスペクトルの大きさは、信号よりも雑音を表し、抑制されるべきである(または少なくとも強調されない)。基準および一次入力の相対強度が逆転されると、一次入力における対応するスペクトルの大きさは、雑音よりも信号を表し、強調されるべきである(または少なくとも抑制されない)。
しかしながら、雑音抑制/音声増強文脈に関連する様式において、一次入力の所与のスペクトル成分が、実際には基準チャネルにおけるその対応物よりも「強い」かどうかを正確に決定することは、典型的には、一次および基準スペクトル入力の一方または両方が、好適な形態にアルゴリズム的に変換されることを要求する。変換に続いて、フィルタ処理および雑音抑制が、一次入力チャネルのスペクトル成分の弁別的リスケーリングを介して行われる。この抑制/増強は、典型的には、音声増強フィルタチェーンの事前段階において算出された利得に適用されるべき乗算リスケーリング係数を算出することによって達成されるが、リスケーリング係数は、パラメータの適切な選定によって利得自体としても使用され得る。
(1 フィルタ入力)
AIDRフィルタの多段階推定および弁別プロセスの図式的概観が、図1に提示される。一次および二次(基準)マイクロホンからの時間領域信号y、yが、AIDRフィルタの上流でサンプルの等しい長さのフレームy(s,t)に処理されていると仮定され、i∈{1,2}であり、s=0,1,・・・は、フレーム内のサンプル指数であり、t=0,1,・・・は、フレーム指数である。これらのサンプルは、フーリエ変換を介してスペクトル領域にさらに変換されており、したがって、y−>Yであり、Y(k,m)は、m番目のスペクトルフレームのk番目の離散周波数成分(「ビン」)を示し、k=1,2,・・・,Kであり、m=0,1,・・・である。スペクトルフレームあたりの周波数ビンの数Kは、典型的には、時間領域におけるサンプリング率に従って決定され、例えば、16kHzのサンプリング率に対して512ビンであることに留意されたい。Y(k,m)およびY(k,m)は、AIDRフィルタに必要な入力であると見なされる。
AIDRフィルタが、他の処理構成要素に続く音声増強フィルタチェーンに組み込まれる場合、追加の情報を伝える増加的入力が、各スペクトルフレームに加わり得る。(異なるフィルタ変形において使用される)特定の例示的着目入力は、以下を含む。
1. 一次信号に対するスペクトルフレームの各ビンにおける事前SNRξ(k,m)および事後SNRη(k,m)の推定値。これらの値は、典型的には、前の統計的フィルタ処理段階、例えば、MMSE、電力レベル差(PLD)等によって算出されているであろう。これらは、Yと同一の長さのベクトル入力である。
2. 一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり雑音電力レベル差(NPLD)であるαNPLD(k,m)の推定値。これらの値は、PLDフィルタによって算出されているであろう。これらは、Yと同一の長さのベクトル入力である。
3. 一次および二次信号に対するスペクトルフレームの対応するビン間のビンあたり音声電力レベル差(SPLD)である、αSPLD(k,m)の推定値。これらの値は、PLDフィルタによって算出されるであろう。これらは、Yと同一の長さのベクトル入力である。
4. 前の音声活動検出(VAD)段階によって算出される、一次および二次信号における音声存在の確率である、Sおよび/またはSの推定値。スカラーS∈[0,1]であると仮定される。
5. 好適な事前処理段階、例えば、PHAT(位相変換)、GCC−PHAT(位相変換との一般化交差相関)等によって提供されるような、m番目のフレームにおける一次および基準入力のスペクトル間の位相角分離である、Δφ(m)の推定値。
(2 段階1a:入力変換)
必要な入力Yは、まもなく説明されるであろうような弁別的リスケーリング(段階2)において使用するための単一ベクトルに組み合わせられる。AIDRフィルタの入力変換および組み合わせプロセスの拡大図が、図2に提示される。この組み合わせプロセスは、必ずしも、大きさY(k,m)に直接作用するわけではなく、むしろ、生の大きさは、最初に、より好適な表現

に変換され得、それは、例えば、時間および周波数間変動を平滑化すること、または周波数依存性様式において大きさを再重みづけ/リスケールすることを行うように作用する。
プロトタイプの変換(「段階1事前処理」)は、以下を含む。
1. 大きさの再正規化、例えば、

2. ある電力への大きさの引き上げ、すなわち
である。pは、負数であり得、必ずしも、整数値ではない場合があり、pは、pに等しくない場合があることに留意されたい。適切に選定されたpに対して、そのような変換の1つの効果は、所与のフレーム内のスペクトルピークを引き上げ、かつスペクトルトラフを平坦にすることによって、差異を強調することであり得る。
3. フレーム内の近傍の周波数ビンにわたりとられる加重平均による大きさの置き換え。この変換は、周波数における局所平滑化を提供し、すでにFFTの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。例として、大きさY(k,m)は、

を介して、その値および隣接する周波数ビンの大きさの値の加重平均に置き換えられ得、式中、w=(1,2,1)は、周波数ビン重みのベクトルである。下付き文字kは、局所平均に対する重みベクトルが異なる周波数に対して異なり得る(例えば、低周波数に対してより狭く、高周波数に対してより広い)可能性を表すために、wに対して含まれる。重みベクトルは、k番目の(中央の)ビンに対して対称的である必要はない。例えば、それは、中央のビンの(ビン指数および対応する周波数の両方の)上方のビンをより重く重みづけするために非対称にされ得る。これは、有声音声中、基本周波数およびその高調波の近傍のビンに重点を置くために、有用であり得る。
4. 前のフレームからの対応するビンにわたりとられる加重平均による大きさの置き換え。この変換は、各周波数ビン内の時間平滑化を提供し、すでにFFTの大きさを編集している場合がある事前処理ステップにおいて導入されている場合がある音楽雑音の悪影響を低減させることに役立ち得る。時間平滑化は、種々の方法において実装され得る。例えば、
a)単純な加重平均化

b)指数平滑化
である。ここは、β∈[0,1]は、前のフレームに対する現在のフレームからのビンの大きさの相対的重みづけを決定する平滑化パラメータである。
5. VADベースの重みづけを用いた指数平滑化。音声情報を含む/含まないそれらの前のフレームのみからのビンの大きさが含まれる時間平滑化を実施することも、有用であり得る。これは、事前信号処理段階によって算出される十分に正確なVAD情報(増加的入力)を要求する。VAD情報は、以下のように指数平滑化に組み込まれ得る。
a)

この変形では、m<mは、S(m)が音声存在/不在を示す規定された閾値を上回る(または下回る)ような最も近い前のフレームの指数である。
b)代替として、音声存在の確率は、平滑化率を直接修正するために使用され得る。

この変形では、βは、Sの関数、例えば、シグモイド関数であり、パラメータは、Sが所与の閾値を下回って(上回って)移動するにつれて、β(S)が固定値β(β)に接近するように選定される。
6. 心理音響的重要性による再重みづけ:メル周波数およびERBスケール重みづけ。
上記の段階のいずれかおよび/または全ては、組み合わせられ得る、またはいくつかの段階は、省略され得、それらのそれぞれのパラメータは、用途(例えば、モバイル電話ではなく、自動音声認識のために使用されるメルスケール再重みづけ)に従って調節されることに留意されたい。
(3 段階1b:適応入力組み合わせ)
フレーム指数mに対する入力変換段階の最終出力は、u(m)と指定される。u(m)は、Yと同一の長さKを有するベクトルであり、u(k,m)は、m番目のスペクトルフレームのk番目の離散周波数成分に関連付けられるuの成分を示すことに留意されたい。u(m)の算出は、修正された必要な入力

を要求し、一般的形態では、これは、ベクトル値関数

によって遂行される。
その最も単純な実装では、
に対するfのビンあたり作用は、一次分数変換として表され得る:
一般性を失うことなく、より大きい値のu(k,m)が、k番目の周波数ビンにおいて、時間指数mにおいて交絡雑音からよりも所望される信号からより多くの電力があることを示すと推測され得る。
より一般的には、fの分子および分母が、代わりに、

において高次有理式を伴い得る:
さらに、任意の区分的平滑変換が、この一般的表現(チザム近似)を用いて任意の所望される正確度内で表され得る。加えて、変換パラメータ(これらの例におけるA、B、C、D、またはAi,k、Cj,k)は、周波数ビンによって変動し得る。例えば、予期される雑音電力特性がより低い周波数とより高い周波数とにおいて異なる場合、より低い周波数とより高い周波数とにおけるビンに対して異なるパラメータを使用することが有用であり得る。
実践では、fのパラメータは、固定されず、むしろ、増加的入力に基づいてフレーム毎に更新され、例えば、


または、


等である。
生の入力Y(k,m),Y(k,m)に対する調節は、入力Y(k,m)のどの成分が所望される信号に主として関連するかを弁別する目的により関連する量への生のスペクトル電力推定値のビンあたり変換をもたらす。変換は、例えば、一次および/または基準スペクトルにおける相対ピークおよびトラフをリスケーリングすること、スペクトル過渡を平滑化(または鮮鋭化)すること、ならびに/または一次マイクロホンと基準マイクロホンとの間の向きもしくは空間的分離における差異を補正することを行うように作用し得る。そのような要因は経時的に変化し得るので、変換の関連パラメータは、典型的には、AIDRフィルタがアクティブである間、フレーム毎に1回更新される。
(4 段階2:弁別的リスケーリング)
第2段階の目標は、所望される音声よりも多く雑音を含むと推定されるそれらのY(k,m)の大きさを低減させることによって、一次信号から雑音成分をフィルタ処理することである。段階1の出力u(m)は、この推定値としての役割を果たす。段階2の出力をY(m)の各周波数成分に対する乗算利得のベクトルであるとする場合、k番目の利得は、u(k,m)が非常に低いSNRを示すとき、小さく(0に近似する)、u(k,m)が非常に高いSNRを示す場合、大きく(1に近似する、例えば、利得が非構成的であると制限される場合)すべきである。中間的な場合に対して、これらの極の間で漸進遷移であることが望ましい。
一般的に言って、フィルタの第2のステップでは、ベクトルuは、小さい値uが小さい値wにマッピングされ、大きい値uがより大きい非負値wにマッピングされるような方式で、ベクトルwに区分的に平滑に変換される。ここで、kは、周波数ビン指数を示す。この変換は、g(u)=wを与えるベクトル値関数

を介して達成される。要素毎のgは、非負区分的平滑関数

によって説明される。ある有限Bkに対して、0≦w≦Bであれば、gは、有界でなくても、非負でなくてもよい。しかしながら、各gは、妥当な範囲の入力uにわたって有限かつ非負であるべきである。
gのプロトタイプの例は、各座標における単純なシグモイド関数

を特徴とする。
一般化ロジスティック関数は、より柔軟性がある:
パラメータαは、wに対する最小値を設定する。これは、典型的には、Y(k,m)の全体的抑制を回避するために、小さい正値、例えば、0.1であるように選定される。
パラメータβは、wに対する最大値の一次決定因子であり、それは、概して、1に設定され、それによって、高SNR成分は、フィルタによって修正されない。しかしながら、いくつかの用途に対して、βは、1よりもわずかに大きくされ得る。AIDRが、例えば、より大きいフィルタ処理アルゴリズムにおける後処理構成要素として使用され、事前フィルタ処理段階が一次信号を(全体的に、または特定の周波数帯域において)減衰させる傾向にあるとき、β>1が、前に抑制されたいくつかの音声成分を復元するように作用し得る。
u(k,m)値の過渡的な中間範囲内のgの出力は、最大勾配の程度、横座標、および縦座標を制御する、パラメータδ、ν、およびμによって決定される。
これらのパラメータの初期値は、広い範囲の雑音条件下の種々の話者に対するu(k,m)値の分布を調べ、u(k,m)値を雑音および音声の相対電力レベルと比較することによって決定される。これらの分布は、混合SNRおよび雑音タイプによって実質的に変動し得、すなわち、話者間の変動は、少ない。(心理音響/周波数)帯域間にも明確な差異が存在する。種々の周波数帯域内の雑音対音声電力レベルに対する確率分布の実施例が、図3−6に示される。
そのように取得された経験的曲線は、一般化ロジスティック関数によって良好に合致される。一般化ロジスティック関数は、最良適合を提供するが、単純なシグモイドが、多くの場合、適切である。図7は、経験的確率データに対する基本シグモイド関数および一般化ロジスティック関数適合を示す。単一「最良」パラメータセットが、多くの話者および雑音タイプを集約することによって見出されることができるか、またはパラメータセットが、具体的話者および雑音タイプに適合され得る。
(5 補記)
便宜上、

が、段階2の(一般化)ロジスティック関数においてu(k,m)に代入され得る。これは、数桁を上回って及び得る値をはるかに小さい間隔に集中させる効果を及ぼす。しかしながら、同一の最終結果が、対数を使用するパラメータ値のリスケーリングおよび代数再結合によって、関数入力の対数をとることに頼らずに達成され得る。
段階2におけるパラメータ値は、固定された制限内で「デシジョンダイレクテッドベース」で調節され得る。
ベクトルwは、一次入力のスペクトルの大きさに適用されるべき乗算利得のスタンドアロンベクトルとして使用され得るか、または、それは、事前フィルタ処理段階において算出された利得に対するスケーリングおよび/もしくはシフト係数として使用され得る。
スタンドアロンフィルタが使用されるとき、AIDRフィルタは、事前SNRのアドホック推定値としてのスペクトル電力の修正された相対レベルと、利得関数としてのシグモイド関数とを使用して、基本雑音抑制を提供する。
本発明の実施形態はまた、デジタルデータを分析するためのコンピュータプログラム製品にも及び得る。そのようなコンピュータプログラム製品は、デジタルデータを分析する方法を実施するために、コンピュータプロセッサ上でコンピュータ実行可能命令を実行することが意図され得る。そのようなコンピュータプログラム製品は、エンコードされたコンピュータ実行可能命令を有するコンピュータ読み取り可能な媒体を備え得、コンピュータ実行可能命令は、好適なコンピュータ環境内の好適なプロセッサ上で実行されると、本明細書にさらに説明されるようなデジタルデータを分析する方法を実施する。
本発明の実施形態は、以下にさらに詳細に議論されるように、例えば、1つ以上のコンピュータプロセッサおよびデータ記憶装置もしくはシステムメモリ等のコンピュータハードウェアを含む専用または汎用コンピュータを備えているか、または利用し得る。本発明の範囲内の実施形態はまた、コンピュータ実行可能命令および/またはデータ構造を伝搬もしくは記憶するための物理的および他のコンピュータ読み取り可能な媒体を含む。そのようなコンピュータ読み取り可能な媒体は、汎用または専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ読み取り可能な媒体は、コンピュータ記憶媒体である。コンピュータ実行可能命令を伝搬するコンピュータ読み取り可能な媒体は、伝送媒体である。したがって、限定ではなく、例として、本発明の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ読み取り可能な媒体、すなわち、コンピュータ記憶媒体と、伝送媒体とを備えていることができる。
コンピュータ記憶媒体は、RAM、ROM、EEPROM、CD−ROM、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体を含む。
「ネットワーク」は、コンピュータシステムおよび/またはモジュールおよび/または他の電子デバイス間の電子データの転送を可能にする、1つ以上のデータリンクとして定義される。情報がネットワークまたは別の通信接続(有線、無線、または有線もしくは無線の組み合わせのいずれか)を経由してコンピュータに伝達もしくは提供されると、コンピュータは、適切に、接続を伝送媒体と見なす。伝送媒体は、汎用または専用コンピュータによって受信もしくはアクセスされ得る、コンピュータ実行可能命令および/もしくはデータ構造の形態の所望されるプログラムコード手段を伝搬もしくは伝送するように使用され得る、ネットワークおよび/もしくはデータリンクを含むことができる。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲内に含まれるべきである。
さらに、種々のコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令またはデータ構造の形態のプログラムコード手段は、伝送媒体からコンピュータ記憶媒体に自動的に伝達されることができる(逆もまた同様である)。例えば、ネットワークまたはデータリンクを経由して受信されるコンピュータ実行可能命令もしくはデータ構造は、ネットワークインターフェースモジュール(例えば、「NIC」)内のRAMにおいてバッファリングされ、次いで、最終的に、コンピュータシステムRAMおよび/またはコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体に伝達されることができる。したがって、コンピュータ記憶媒体は、また、(または場合によっては主として)伝送媒体を利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。
コンピュータ実行可能命令は、例えば、プロセッサにおいて実行されると、汎用コンピュータ、専用コンピュータ、または専用処理デバイスに、ある機能もしくは機能群を実施させる命令およびデータを含む。コンピュータ実行可能命令は、例えば、プロセッサ上で直接実行され得るバイナリ、アセンブリ言語等の中間フォーマット命令、または特定の機械もしくはプロセッサを標的とするコンパイラによるコンパイルを要求し得るさらに高レベルのソースコードであり得る。本主題は、構造的特徴および/または方法論的行為に特有の言語で説明されたが、添付される請求項に定義される主題は、必ずしも、上記に説明される、説明される特徴または行為に限定されないことを理解されたい。むしろ、説明される特徴および行為は、本請求項を実装する例示的形態として開示される。
当業者は、本発明が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル消費者用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、モバイル電話、PDA、ページャ、ルータ、スイッチ等を含む、多くのタイプのコンピュータシステム構成を伴うネットワークコンピューティング環境において実践され得ることを理解するであろう。本発明はまた、ネットワークを通して(有線データリンク、無線データリンク、または有線および無線データリンクの組み合わせのいずれかによって)リンクされる、ローカルおよびリモートコンピュータシステムが両方ともタスクを実施する、分散システム環境において実践され得る。分散システム環境では、プログラムモジュールが、ローカルおよびリモート両方のメモリ記憶デバイスに位置し得る。
図8を参照すると、デジタルオーディオデータを分析するための例示的コンピュータアーキテクチャ600が、例証される。本明細書ではコンピュータシステム600とも称されるコンピュータアーキテクチャ600は、1つ以上のコンピュータプロセッサ602と、データ記憶装置とを含む。データ記憶装置は、コンピューティングシステム600内のメモリ604であり得、揮発性または不揮発性メモリであり得る。コンピューティングシステム600はまた、データまたは他の情報の表示のためのディスプレイ612も備え得る。コンピューティングシステム600はまた、コンピューティングシステム600が、例えば、ネットワーク(おそらくインターネット610等)を経由して他のコンピューティングシステム、デバイス、またはデータソースと通信することを可能にする、通信チャネル608も含み得る。コンピューティングシステム600はまた、デジタルまたはアナログデータのソースがアクセスされることを可能にする、マイクロホン606等の入力デバイスも備え得る。そのようなデジタルまたはアナログデータは、例えば、オーディオまたはビデオデータであり得る。デジタルまたはアナログデータは、ライブマイクロホンン等からのリアルタイムストリーミングデータの形態であり得る、またはコンピューティングシステム600によって直接アクセス可能である、もしくは通信チャネル608を通して、もしくはインターネット610等のネットワークを介してより遠隔でアクセスされ得る、データ記憶装置614からアクセスされる記憶されたデータであり得る。
通信チャネル608は、伝送媒体の例である。伝送媒体は、典型的には、コンピュータ読み取り可能な命令、データ構造、プログラムモジュール、または他のデータを搬送波もしくは他の転送機構等の変調データ信号に具現化し、任意の情報送達媒体を含む。限定ではなく、例として、伝送媒体は、有線ネットワークおよび直接有線接続等の無線媒体、ならびに音響、高周波、赤外線、および他の無線媒体等の無線媒体を含む。本明細書で使用されるような用語「コンピュータ読み取り可能な媒体」は、コンピュータ記憶媒体および伝送媒体を両方とも含む。
本発明の範囲内の実施形態はまた、その上に記憶されるコンピュータ実行可能命令またはデータ構造を伝搬もしくは有するためのコンピュータ読み取り可能な媒体を含む。「コンピュータ記憶媒体」と称される、そのような物理的コンピュータ読み取り可能な媒体は、汎用または専用コンピュータによってアクセスされ得る任意の利用可能な物理的媒体であり得る。限定ではなく、例として、そのようなコンピュータ読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM、もしくは他の光学ディスク記憶装置、磁気ディスク記憶装置もしくは他の磁気記憶デバイス、またはコンピュータ実行可能命令もしくはデータ構造の形態の所望されるプログラムコード手段を記憶するように使用され得、汎用もしくは専用コンピュータによってアクセスされ得る、任意の他の物理的媒体等の物理的記憶装置および/またはメモリ媒体を含むことができる。
コンピュータシステムは、例えば、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、無線広域ネットワーク(「WWAN」)、およびさらにはインターネット110等のネットワークを経由して互いに接続され得る(またはその一部である)。故に、描写されるコンピュータシステムならびに任意の他の接続されるコンピュータシステムおよびそれらの構成要素はそれぞれ、メッセージ関連データを作成し、ネットワークを経由してメッセージ関連データ(例えば、インターネットプロトコル(「IP」)データグラムおよびIPデータグラムを利用する、伝送制御プロトコル(「TCP」)、ハイパーテキスト輸送プロトコル(「HTTP」)、または簡易メール転送プロトコル(「SMTP」)等の他の上位層プロトコル)を交換することができる。
開示される主題の他の側面、ならびにその種々の側面の特徴および利点は、上記に提供される開示、付随の図面、および添付される請求項の考慮を通して、当業者に明白となるはずである。
前述の開示は多くの詳細を提供しているが、これらは、続く請求項のいずれかの範囲を限定するものとして解釈されるべきではない。請求項の範囲から逸脱しない他の実施形態が、考案され得る。異なる実施形態からの特徴が、組み合わせて採用され得る。
最後に、本発明は、種々の例示的実施形態に対して上記に説明されたが、多くの変更、組み合わせ、および修正が、本発明の範囲から逸脱することなく、実施形態に成され得る。例えば、本発明は、音声検出における使用に対して説明されたが、本発明の側面は、他のオーディオ、ビデオ、データ検出スキームに容易に適用され得る。さらに、種々の要素、構成要素、および/またはプロセスが、代替方法において実装され得る。これらの代替は、特定の用途に応じて、または方法もしくはシステムの実装もしくは動作と関連付けられる任意の数の要因を考慮して、好適に選択されることができる。加えて、本明細書に説明される技法は、他のタイプの用途およびシステムと併用するために拡張または修正され得る。これらおよび他の変更または修正は、本発明の範囲内に含まれることが意図される。

Claims (11)

  1. オーディオ信号を変換する方法であって、
    オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
    前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
    複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルおよび前記基準チャネルの各々のスペクトルの大きさを推定することと、
    一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することにより、前記一次チャネルの1つ以上の変換されたスペクトルの大きさおよび前記基準チャネルの1つ以上の変換されたスペクトルの大きさを生成することと、
    前記一次チャネルの変換されたスペクトルの大きさが前記基準チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
    前記基準チャネルの変換されたスペクトルの大きさが前記一次チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
    を含み、
    前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
    前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、方法。
  2. 増加的入力に基づいて、前記一次分数変換および前記高次有理関数変換のうちの少なくとも1つをビン毎に更新することをさらに含む、請求項1に記載の方法。
  3. 事前SNR推定値および事後SNR推定値のうちの少なくとも1つを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、請求項1に記載の方法。
  4. 信号電力レベル差(SPLD)データを、前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせることをさらに含む、請求項1に記載の方法。
  5. 雑音の大きさの推定値および雑音電力レベル差(NPLD)に基づいて、前記基準チャネルの補正されたスペクトルの大きさを計算することと、前記雑音の大きさの推定値および前記NPLDに基づいて、前記一次チャネルの補正されたスペクトルの大きさを計算することとをさらに含む、請求項1に記載の方法。
  6. 1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することは、
    前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
    前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
    前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
    位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
    VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
    のうちの1つ以上をさらに含む、請求項1に記載の方法。
  7. 前記スペクトルの大きさのうちの1つ以上のものをフレーム内の近傍の周波数ビンにわたりとられる加重平均に置き換えることと、前記スペクトルの大きさのうちの1つ以上のものを前のフレームからの対応する周波数ビンにわたりとられる加重平均に置き換えることとのうちの少なくとも1つをさらに含む、請求項1に記載の方法。
  8. オーディオデバイスであって、
    オーディオ信号を受信し、前記オーディオ信号の一次チャネルを通信するための一次マイクロホンと、
    前記オーディオ信号を前記一次マイクロホンとは異なる状況で受信し、前記オーディオ信号の基準チャネルを通信するための基準マイクロホンと、
    前記オーディオ信号をフィルタ処理および/または明瞭化するために前記オーディオ信号を処理する少なくとも1つの処理要素と
    を備え、
    前記少なくとも1つの処理要素は、方法を実施するためのプログラムを実行するように構成され、
    前記方法は、
    オーディオデバイスの一次マイクロホンを用いて、オーディオ信号の一次チャネルを取得することと、
    前記オーディオデバイスの基準マイクロホンを用いて、前記オーディオ信号の基準チャネルを取得することと、
    複数の周波数ビンに対する前記オーディオ信号の前記一次チャネルのスペクトルの大きさおよび前記基準チャネルのスペクトルの大きさを推定することと、
    一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することにより、前記一次チャネルの1つ以上の変換されたスペクトルの大きさおよび前記基準チャネルの1つ以上の変換されたスペクトルの大きさを生成することと、
    前記一次チャネルの変換されたスペクトルの大きさが前記基準チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
    前記基準チャネルの変換されたスペクトルの大きさが前記一次チャネルの変換されたスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
    を含み、
    前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
    前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、オーディオデバイス。
  9. 1つ以上の周波数ビンに対する前記一次チャネルのスペクトルの大きさのうちの1つ以上のものおよび前記基準チャネルのスペクトルの大きさのうちの1つ以上のものを変換することは、
    前記スペクトルの大きさのうちの1つ以上のものを再正規化すること、
    前記スペクトルの大きさのうちの1つ以上のものを累乗すること、
    前記スペクトルの大きさのうちの1つ以上のものを時間平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものを周波数平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものをVADベースで平滑化すること、
    前記スペクトルの大きさのうちの1つ以上のものを心理音響的に平滑化すること、
    位相差の推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること、および、
    VAD推定値を前記変換されたスペクトルの大きさのうちの1つ以上のものと組み合わせること
    のうちの1つ以上を含む、請求項8に記載のデバイス。
  10. オーディオ信号を処理する方法であって、
    オーディオデバイスの複数のマイクロホンを用いて、オーディオ信号の一次チャネルおよび二次チャネルを取得することと、
    前記オーディオ信号の一次チャネルおよび二次チャネルのスペクトルの大きさを推定することと、
    所与の周波数に対して、前記一次チャネルのスペクトルの大きさが、前記二次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルを強調することと、
    所与の周波数に対して、前記二次チャネルのスペクトルの大きさが、前記一次チャネルのスペクトルの大きさよりも強いとき、前記一次チャネルの強調を抑えることと
    を含み、
    前記強調することおよび前記強調を抑えることは、事前段階が存在する場合、乗算リスケーリング係数を算出し、音声増強フィルタチェーンの事前段階において算出された利得に前記乗算リスケーリング係数を適用することと、事前段階が存在しない場合、利得を直接適用することとを含み、
    前記強調することおよび前記強調を抑えることは、オーディオ信号内の音声データを隔離することにより、前記音声データの出力を増強するようにフィルタ処理の程度を調節する、方法。
  11. 一次分数変換および高次有理関数変換のうちの少なくとも1つを適用することによって、1つ以上の周波数ビンに対する前記スペクトルの大きさのうちの1つ以上のものを変換することにより、1つ以上の変換されたスペクトルの大きさを生成することをさらに含む、請求項10に記載のオーディオ信号を処理する方法。
JP2020083721A 2014-11-12 2020-05-12 適応チャネル間弁別的リスケーリングフィルタ Withdrawn JP2020122990A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021199951A JP7179144B2 (ja) 2014-11-12 2021-12-09 適応チャネル間弁別的リスケーリングフィルタ

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462078844P 2014-11-12 2014-11-12
US62/078,844 2014-11-12
US14/938,816 2015-11-11
US14/938,816 US10013997B2 (en) 2014-11-12 2015-11-11 Adaptive interchannel discriminative rescaling filter

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017525347A Division JP6769959B2 (ja) 2014-11-12 2015-11-12 適応チャネル間弁別的リスケーリングフィルタ

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021199951A Division JP7179144B2 (ja) 2014-11-12 2021-12-09 適応チャネル間弁別的リスケーリングフィルタ

Publications (1)

Publication Number Publication Date
JP2020122990A true JP2020122990A (ja) 2020-08-13

Family

ID=55912723

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2017525347A Expired - Fee Related JP6769959B2 (ja) 2014-11-12 2015-11-12 適応チャネル間弁別的リスケーリングフィルタ
JP2020083721A Withdrawn JP2020122990A (ja) 2014-11-12 2020-05-12 適応チャネル間弁別的リスケーリングフィルタ
JP2021199951A Active JP7179144B2 (ja) 2014-11-12 2021-12-09 適応チャネル間弁別的リスケーリングフィルタ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017525347A Expired - Fee Related JP6769959B2 (ja) 2014-11-12 2015-11-12 適応チャネル間弁別的リスケーリングフィルタ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021199951A Active JP7179144B2 (ja) 2014-11-12 2021-12-09 適応チャネル間弁別的リスケーリングフィルタ

Country Status (6)

Country Link
US (1) US10013997B2 (ja)
EP (1) EP3219028A4 (ja)
JP (3) JP6769959B2 (ja)
KR (1) KR102532820B1 (ja)
CN (1) CN107969164B (ja)
WO (1) WO2016077557A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847173B2 (en) 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
CN110739005B (zh) * 2019-10-28 2022-02-01 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111161749B (zh) * 2019-12-26 2023-05-23 佳禾智能科技股份有限公司 可变帧长的拾音方法、电子设备、计算机可读存储介质
US20240062774A1 (en) * 2022-08-17 2024-02-22 Caterpillar Inc. Detection of audio communication signals present in a high noise environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054231A1 (en) * 2011-08-29 2013-02-28 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
WO2014108222A1 (en) * 2013-01-08 2014-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by sii-dependent amplification and compression

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6584204B1 (en) * 1997-12-11 2003-06-24 The Regents Of The University Of California Loudspeaker system with feedback control for improved bandwidth and distortion reduction
JP3435687B2 (ja) * 1998-03-12 2003-08-11 日本電信電話株式会社 収音装置
CN100397781C (zh) * 2000-08-14 2008-06-25 清晰音频有限公司 声音增强系统
US7171003B1 (en) 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
US6819480B2 (en) 2002-05-02 2004-11-16 Lucent Technologies Inc. Method and apparatus for controlling the extinction ratio of transmitters
CN101916567B (zh) * 2009-11-23 2012-02-01 瑞声声学科技(深圳)有限公司 应用于双麦克风系统的语音增强方法
CN101976565A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
KR101561755B1 (ko) 2011-03-03 2015-10-19 사이퍼 엘엘씨 데이터 내의 공통 엘리먼트들의 자율적 검출 및 분리를 위한 시스템, 및 그와 연관된 방법 및 디바이스
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054231A1 (en) * 2011-08-29 2013-02-28 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
WO2014108222A1 (en) * 2013-01-08 2014-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improving speech intelligibility in background noise by sii-dependent amplification and compression

Also Published As

Publication number Publication date
JP6769959B2 (ja) 2020-10-14
EP3219028A1 (en) 2017-09-20
JP2022022393A (ja) 2022-02-03
JP2017538151A (ja) 2017-12-21
WO2016077557A1 (en) 2016-05-19
EP3219028A4 (en) 2018-07-25
JP7179144B2 (ja) 2022-11-28
KR102532820B1 (ko) 2023-05-17
CN107969164A (zh) 2018-04-27
CN107969164B (zh) 2020-07-17
US20160133272A1 (en) 2016-05-12
KR20170082598A (ko) 2017-07-14
US10013997B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
JP2020122990A (ja) 適応チャネル間弁別的リスケーリングフィルタ
EP3511937B1 (en) Device and method for sound source separation, and program
KR102431896B1 (ko) 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정
EP2164066B1 (en) Noise spectrum tracking in noisy acoustical signals
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
CN102903368B (zh) 用于卷积盲源分离的方法和设备
JP6554188B2 (ja) 補聴器システムの動作方法および補聴器システム
JP6351538B2 (ja) ディジタル音響信号用の多帯域信号プロセッサ
EP3899936B1 (en) Source separation using an estimation and control of sound quality
CN102723082A (zh) 基于保持语音信息的单耳音频处理系统和方法
CN105103230B (zh) 信号处理装置、信号处理方法、信号处理程序
JP2016045221A (ja) 信号解析装置、方法、及びプログラム
CN114041185A (zh) 用于确定深度过滤器的方法和装置
CN106847299B (zh) 延时的估计方法及装置
JP5609157B2 (ja) 係数設定装置および雑音抑圧装置
Chau et al. A novel approach to multi-channel speech enhancement based on graph neural networks
CN114171043B (zh) 回声的确定方法、装置、设备以及存储介质
Yechuri et al. An iterative posterior regularized nmf-based adaptive wiener filter for speech enhancement
US20240363132A1 (en) High-performance small-footprint ai-based noise suppression model
Parameswaran Objective assessment of machine learning algorithms for speech enhancement in hearing aids
Despotović et al. Design of nonlinear predictors for adaptive predictive coding of speech signals
Srinivasan et al. Speech enhancement using a generic noise codebook

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211209

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211209

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220106

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220126

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220127

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20220128