JP2012525605A - 低複雑度の聴覚イベント境界検出 - Google Patents

低複雑度の聴覚イベント境界検出 Download PDF

Info

Publication number
JP2012525605A
JP2012525605A JP2012508517A JP2012508517A JP2012525605A JP 2012525605 A JP2012525605 A JP 2012525605A JP 2012508517 A JP2012508517 A JP 2012508517A JP 2012508517 A JP2012508517 A JP 2012508517A JP 2012525605 A JP2012525605 A JP 2012525605A
Authority
JP
Japan
Prior art keywords
audio signal
digital audio
subsampled
signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012508517A
Other languages
English (en)
Other versions
JP5439586B2 (ja
Inventor
エヌ. ディキンズ、グレン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2012525605A publication Critical patent/JP2012525605A/ja
Application granted granted Critical
Publication of JP5439586B2 publication Critical patent/JP5439586B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

聴覚イベント境界検出器は、入力デジタルオーディオ信号を、アンチエイリアスフィルタを用いることなくダウンサンプリングする方法を用いて、より狭い帯域の中間信号が、エイリアシングが発生している状態で得られるようにしている。イベント境界を示す当該中間信号のスペクトル変化は、適応フィルタを使用して、当該中間信号のサンプルの線形予測モデルを追跡することにより検出することができる。フィルタエラーのマグニチュードまたはパワーの変化は、入力オーディオ信号のスペクトルの変化に対応する。適応フィルタは、聴覚イベントの継続時間と一致する速度で収束するので、フィルタエラーのマグニチュードまたはパワーの変化は、イベント境界を示す。検出器は、時間−周波数変換をオーディオ信号の全帯域に用いる方法よりも複雑でない。

Description

本発明は、デジタルオーディオ信号を、関連する聴覚イベント境界ストリームに変換することに関する。
(関連出願の相互参照)
本出願は、2009年4月30日に出願され、かつ本明細書において参照されることにより出願の内容全体が本明細書に組み込まれる米国仮特許出願第61/174,467号の優先権を請求するものである。
本発明の種々の側面による聴覚イベント境界(auditory event boundary)検出器は、デジタルオーディオサンプルストリームを処理して、聴覚イベント境界が存在する時点を記録する。注目の聴覚イベント境界群は、音量の急激な増加(音または楽器音の立ち上がり)、及びスペクトルバランスの変化(音程変化及び音色の変化のような)を含むことができる。このようなイベント境界を検出すると、聴覚イベント境界ストリームを供給することができ、各聴覚イベント境界は、これらの聴覚イベント境界を抽出する場合の抽出元のオーディオ信号に関する発生時点を有する。このような聴覚イベント境界ストリームは、オーディオ信号の処理を、最小の可聴アーチファクトしか発生することがないように制御することを含む種々の目的のために有用となり得る。例えば、オーディオ信号の処理の特定の変化は、聴覚イベント境界においてしか、または聴覚イベント境界の近傍においてしか許容されない。処理を聴覚イベント境界における時点に、または聴覚イベント境界の近傍における時点に限定することから利点をもたらすことができる処理の例は、ダイナミックレンジ制御、ラウドネス制御、ダイナミック等化、及びオーディオチャネルをアップミキシングまたはダウンミキシングするために使用されるアクティブマトリクス化のようなアクティブマトリクス化を含むことができる。以下の出願及び特許のうちの一つ以上は、このような例に関するものであり、そして以下の出願及び特許の各々は、本明細書において参照されることにより、これらの出願及び特許の全体が本明細書に組み込まれる:
Micheal John Smithers(ミッシェルジョンスミザーズ)による「Method for Combining Signals Using Auditory Scene Analysis(信号を、聴覚情景分析を使用して合成する方法)」と題する2009年3月24日出願の米国特許第7,508,947号。国際特許出願第WO 2006/019719 A1号としても2006年2月23日に刊行されている。弁護士整理番号DOL147。
Seefeldt(シーフェルト)らによる「側帯波情報を用いたチャネル再構成」と題する2007年12月3日出願の米国特許出願第11/999,159号。国際特許出願第WO 2006/132857号としても2006年12月14日に刊行されている。弁護士整理番号DOL16101。
Seefeldt(シーフェルト)らによる「Controlling Spacial Audio Coding Parameters as a Function of Auditory Events(空間オーディオコーディングパラメータを聴覚イベントの関数として制御する)」と題する2008年2月1日出願の米国特許出願第11/989,974号。国際特許出願第WO 2007/016107号としても2007年2月8日に刊行されている。弁護士整理番号DOL16301。
Crockett(クロケット)らによる「Audio Gain Control Using Specific−Loudness−Based Auditory Event Dtection(特定ラウドネスに基づく聴覚イベント検出を使用するオーディオゲイン制御)」と題する2008年10月24日出願の米国特許出願第12/226,698号。国際特許出願第WO 2007/127023号としても2007年11月8日に刊行されている。弁護士整理番号DOL186US。
Smithers(スミザーズ)らによる「Audio Processing Using Auditory Scene Analysis and Spectral Skewness(聴覚情景分析及びスペクトル歪みを使用するオーディオ処理)」と題する2008年7月11日出願の特許協力条約に基づく国際出願番号PCT/US2008/008592。国際特許出願第WO 2009/011827号としても2009年1月1日に刊行されている。弁護士整理番号DOL220。
別の構成として、オーディオ信号の処理の特定の変化を、聴覚イベント境界群の間でしか許容することができない。処理を、隣接する聴覚イベント境界の間の時点に限定することから利点をもたらすことができる処理の例は、タイムスケーリング及び音程シフティングを含むことができる。以下の出願は、このような例に関するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる:
Brett Graham Crockett(ブレットグラハムクロケット)による「High Quality Time Scaling and Pitch−Scaling of Audio Signals(オーディオ信号の高品質タイムスケーリング及び音程スケーリング)」と題する2003年10月7日出願の米国特許第10/474,387号。国際特許出願第WO 2002/084645号としても2002年10月24日に刊行されている。弁護士整理番号DOL07503。
聴覚イベント境界群は、複数のオーディオチャネルを時間的に一致させ、そして特定するためにも有用となり得る。以下の出願は、このような例に関するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる:
Crockett(クロケット)らによる「Comparing Audio Using Characterizations Based on Auditory Events(オーディオを、オーディオイベントに基づく特徴付けを使用して比較する)」と題する2007年10月16日出願の米国特許第7,283,954号。国際特許出願第WO 2002/097790号としても2002年12月5日に刊行されている。弁護士整理番号DOL092。
Crockett(クロケット)らによる「Method for Time Aligning Audio Signals Using Characterizations Based on Auditory Events(オーディオ信号群を、オーディオイベントに基づく特徴付けを使用して時間一致させる方法)」と題する2008年12月2日出願の米国特許第7,461,002号。国際特許出願第WO 2002/097791号としても2002年12月5日に刊行されている。弁護士整理番号DOL09201。
本発明は、デジタルオーディオ信号を、関連する聴覚イベント境界ストリームに変換することに関するものである。オーディオ信号に関するこのような聴覚イベント境界ストリームは、上の目的のいずれかのために、または他の目的のために有用となり得る。
本発明の一つの側面は、デジタルオーディオ信号のスペクトルの変化の検出を、デジタルオーディオ信号をサブサンプリングしてエイリアシングを発生させ、そして次に、サブサンプリングされた信号に作用させることにより、より少ない複雑さ(例えば、少ないメモリ要求、及び小さい処理オーバーヘッド、当該処理オーバーヘッドは多くの場合、「MIPS」、百万命令/秒により特徴付けられる)で行なうことができるという認識である。サブサンプリングされると、デジタルオーディオ信号のスペクトル成分の全てが、順番はバラバラになるが、狭い帯域内に維持される(これらのスペクトル成分はベースバンドに「折り返される」)。デジタルオーディオ信号のスペクトルの変化は、エイリアス歪みのない信号成分、及びサブサンプリングから生じるエイリアス信号成分の周波数成分の変化を検出することにより経時的に検出することができる。
「デシメーション(decimation)(間引き)」という用語は多くの場合、オーディオ分野において使用されて、デジタルオーディオ信号の低域通過アンチエイリアスを行なった後のデジタルオーディオ信号のサブサンプリングまたは「ダウンサンプリング」を指す。アンチエイリアスフィルタを普通、用いることにより、エイリアス信号成分が、サブサンプリングされたナイキスト周波数よりも高い周波数から、サブサンプリングされたナイキスト周波数よりも低い周波数のエイリアス歪みのない(ベースバンド)信号成分に「折り返される現象」を最小限に抑制する。例えば:
<http://en.wikipedia.org/wiki/Decimation_(signal_processing)>
を参照されたい。
通常の慣行とは異なり、本発明の種々の側面によるエイリアシングは、アンチエイリアスフィルタに関連付けられる必要がない−実際、エイリアス信号成分群が抑圧されないことが望ましいが、これらのエイリアス信号成分は、エイリアス歪みのない(ベースバンド)信号成分とともに、サブサンプリングされたナイキスト周波数よりも低い周波数で現われることが望ましく、これは、ほとんどのオーディオ処理において不所望の結果となる。エイリアス信号成分及びエイリアス歪みのない(ベースバンド)信号成分の混合は、聴覚イベント境界をデジタルオーディオ信号内に検出するために適していることが判明しているので、境界検出が可能になって、狭い帯域に亘って、エイリアシングを発生させることなく採取される場合よりも少ない数の信号サンプルに対して作用させることができる。
48kHzのサンプリングレートを有するデジタルオーディオ信号を、サンプリング数が大幅に減るようにサブサンプリングして(例えば、16個のサンプルごとに16個のサンプルのうちの15個を無視することにより、サンプル群を3kHzで供給し、そして処理の複雑さを1/256に低減する)、ナイキスト周波数が1.5kHzになると、約50個のメモリワード、及び0.5MIPS未満の処理能力しか必要としない状態で、有用な結果が生み出されることが判明している。丁度上に述べたこれらの例示的な値は重要ではない。本発明は、このような例示的な値に限定されない。他のサンプリングレートが有用となり得る。エイリアシングを用い、そして複雑さを結果的に低くすることができるのにも拘わらず、デジタルオーディオ信号の変化に対する感度を、エイリアシングを用いる場合の実際の実施形態において高くすることができる。このような予期しない結果が、本発明の一つの側面である。
上の例では、48kHzのサンプリングレート、すなわちプロが広く使っているオーディオサンプリングレートを有するデジタル入力信号を仮定しているが、当該サンプリングレートは、単なる一例に過ぎず、重要ではない。コンパクトディスクの標準的なサンプリングレートである44.1kHzのような他のデジタル入力信号を用いてもよい。48kHzの入力サンプリングレート用に設計される本発明の実際の実施形態は、例えば44.1kHzで満足に動作することもできるか、またはその逆に、44.1kHzの入力サンプリングレート用に設計される本発明の実際の実施形態は、例えば48kHzで満足に動作することもできる。サンプリングレートが、デバイスまたはプロセスが設計される場合の入力信号サンプリングレートよりも約10%だけ高い、または低い場合、当該デバイスまたはプロセスにおけるパラメータ群は、満足の行く動作を達成するために調整を必要とする。
本発明の好適な実施形態では、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化を、サブサンプリングされた当該デジタルオーディオ信号の周波数スペクトルを明示的に計算することなく、検出することができる。このような検出アプローチを用いることにより、メモリ及び処理の複雑さの低減効果を最大にすることができる。以下に更に説明するように、これは、線形予測フィルタのようなスペクトル選択フィルタを、サブサンプリングされたデジタルオーディオ信号に適用することにより達成することができる。このアプローチは、時間領域で行なわれるものとして特徴付けることができる。
別の構成として、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化を、サブサンプリングされた当該デジタルオーディオ信号の周波数スペクトルを明示的に計算することにより、例えば時間−周波数変換を用いることにより、検出することができる。以下の出願は、このような例に関連するものであり、そして当該出願は、本明細書において参照されることにより、当該出願全体が本明細書に組み込まれる:
Brett Graham Crockett(ブレットグラハムクロケット)による「Segmenting Audio Signals into Auditory Events(オーディオ信号を聴覚イベント群にセグメント化する)」と題する2003年11月20日出願の米国特許第10/478,538号。国際特許出願第WO 2002/097792号としても2002年12月5日に刊行されている。弁護士整理番号DOL098。
このような周波数領域アプローチは、当該周波数領域アプローチに時間−周波数変換を用いるので、時間領域アプローチが必要とするよりも多くのメモリ及び処理を必要とするが、当該周波数領域アプローチは、少ない数のサンプルを有する、上述のサブサンプリングされたデジタルオーディオ信号に作用することができるので、デジタルオーディオ信号がダウンサンプリングされなかった場合よりも低い複雑さを(より小規模の変換を)実現する。従って、本発明の種々の側面は、サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算するステップと、そのように明示的に計算することがないステップの両方を含む。
本発明の種々の側面による聴覚イベント境界の検出は、スケール不変とすることにより、オーディオ信号の絶対レベルが、イベント検出、またはイベント検出感度にほとんど影響しないようにすることができる。
本発明の種々の側面による聴覚イベント境界の検出は、ヒスノイズ、クラックルノイズ、及びバックグラウンドノイズのような「バースト状の(burstry)」信号、またはノイズ状の信号に対する偽イベント境界の誤検出を最小にすることができる。
上述のように、注目の聴覚イベント境界は、デジタルオーディオサンプルにより表わされる音または楽器音の立ち上がり(音量の急激な増大)及び音程変化または音色変化(スペクトルバランスの変化)を含む。
立ち上がりは普通、瞬時の信号レベル(例えば、大きさまたはエネルギー)の急激な増加を探し出すことにより検出することができる。しかしながら、楽器音が、レガート発声のように、音程を全く途切れることなく変化させるとした場合、信号レベルの変化の検出は、イベント境界を検出するためには十分ではない。音量の急激な増大のみを検出すると、聴覚イベント境界であると考えることもできる音源の突然の停止が検出されないことになる。
本発明の一つの側面によれば、音程の変化は、適応フィルタを使用して、各連続するオーディオサンプルの線形予測モデル(LPC)を追跡することにより検出することができる。可変係数のフィルタは、将来時点のサンプルがいずれになるのかを予測し、フィルタリングされた結果を実際の信号と比較し、そしてフィルタを変更してエラーを最小にする。サブサンプリングされたデジタルオーディオ信号の周波数スペクトルが静止状態にある場合、フィルタは収束することになり、そしてエラー信号のレベルは小さくなる。スペクトルが変化する場合、フィルタが適応することになり、そして当該適応中に、エラー信号のレベルはずっと大きくなる。従って、変化が、エラー信号のレベルだけ生じるか、またはフィルタ係数が変化する必要がある度合いだけ生じる時点を検出することができる。スペクトルが、適応フィルタが適応することができるよりも高速に変化する場合、これは、予測フィルタのエラーのレベルの増加として記録される。適応予測フィルタは、所望の周波数選択性を達成するために十分長くする必要があり、かつ調整して、適切な収束速度を有することにより、連続するイベントを経時的に識別する必要がある。正規化最小二乗平均法のようなアルゴリズム、または他の適切な適応化アルゴリズムを使用して、フィルタ係数を更新することにより、次のサンプルを予測しようとする。重要ではなく、かつ他の適応速度を使用してもよいが、20〜50msで収束するように設定されるフィルタの適応速度が有用であることが判明している。フィルタを50msで収束させることができる適応速度によって、イベント群を約20Hzのレートで検出することができる。これは、ほぼ間違いなく、ヒトの最高のイベント知覚速度である。
別の構成として、スペクトルが変化すると、フィルタ係数が変化することになるので、エラー信号の変化を検出するのではなく、これらの係数の変化を検出することができる。しかしながら、これらの係数は、これらの係数が収束する方向に向かっているときに、更にゆっくり変化するので、これらの係数の変化を検出すると、エラー信号の変化を検出するときに発生することのない遅れが加わる。フィルタ係数の変化を検出するために、エラー信号の変化を検出する場合のように正規化を必要とするということは全くないが、エラー信号の変化を検出することは、一般的に、フィルタ係数の変化を検出することよりも簡単であるので、少ないメモリ、及び小さい処理能力で済ませることができる。
これらのイベント境界は、予測エラー信号のレベルの増加に関連付けられる。短期エラーレベルは、エラーのマグニチュード(magnitude)またはパワー(power)を時間平滑化フィルタでフィルタリングすることにより得られる。次に、この信号は、各イベント境界における急激な増大を呈するという特徴を有する。更に、信号のスケーリング及び処理の少なくとも一方を適用して、イベント境界群のタイミングを示す信号を生成することができる。イベント信号は、バイナリ「はい(yes)またはいいえ(no)」として、または或る範囲にある一つの値として、適切な閾値及び限界値を使用することにより供給することができる。正確な処理、及び予測エラー信号から生成される出力は、イベント境界検出器の所望の感度及び用途に依存する。
本発明の一つの側面は、聴覚イベント境界群を、絶対スペクトルバランスではなく、スペクトルバランスの相対変化により検出することができることである。従って、元のデジタルオーディオ信号スペクトルが、より小さいセクション群に分割され、そして互いに折り重なって、より狭い帯域を生成して分析を行なう上述のエイリアシング方法を適用することができる。従って、元のオーディオサンプルの一部を処理するだけで済む。このアプローチは、有効帯域を狭くすることにより、必要なフィルタ長が短くなるという利点を有する。元のサンプルの一部を処理するだけで済むので、計算上の複雑さが低減される。上述の実際の実施形態では、1/16のサンプリングを使用して、1/256の計算負荷低減を達成している。48kHz信号をサブサンプリングして3000Hzに下げることにより、有用なスペクトル感度を、例えば20タップ予測フィルタを用いて達成することができる。このようなサブサンプリングを行なわない状態では、約320タップを有する予測フィルタが必要になることになる。従って、メモリ及び処理オーバーヘッドを大幅に減らすことができる。
本発明の一つの側面は、サブサンプリングしてエイリアシングを発生させることによって、予測器の収束、及び聴覚イベント境界の検出に悪影響を与えることがないという認識である。これは、ほとんどの聴覚イベントが高調波イベントであり、そして多くの期間に亘って継続しているからであり、かつ注目の聴覚イベント境界の多くが、スペクトルのエイリアス歪みのないベースバンド部分の変化に関連付けられるからである。
本発明の種々の側面による聴覚イベント境界検出器の一つの例を示す模式機能ブロック図である。 本発明の種々の側面による聴覚イベント境界検出器の別の例を示す模式機能ブロック図である。図2の例は、図1の例とは、図2の例が、3番目の入力を分析部16’に追加して、サブサンプリングされたデジタルオーディオ信号の相関またはトーナリティの度合いの尺度を取得する様子を示している点で異なっている。 本発明の種々の側面による聴覚イベント境界検出器の更に別の例を示す模式機能ブロック図である。図3の例は、図2の例とは、図3の例が、追加のサブサンプラーまたはサブサンプリング機能部を有する点で異なっている。 図3の例の更なる詳細を示す模式機能ブロック図である。 図4の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール(水平軸)に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール(垂直軸)を有する。図5Aにおけるデジタル入力信号は、3つのトーンバーストを表わし、振幅がトーンバーストごとにステップ状に増加し、そして音程が各バーストの途中で変化している。 図4の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール(水平軸)に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール(垂直軸)を有する。図6A〜Fの例示的な波形セットは、図5A〜Fの波形セットとは、デジタルオーディオ信号が、2つの連続するピアノ鍵盤音を表わしている点で異なる。 図4の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的波形セットである。これらの波形セットの各々は、共通の時間スケール(水平軸)に沿って時間が一致している。各波形は、図示のように、当該波形固有のレベルスケール(垂直軸)を有する。図7A〜Fの例示的な波形セットは、図5A〜F及び図6A〜Fの波形セットとは、デジタルオーディオ信号が、バックグラウンドノイズが発生している状態の発話を表わしている点で異なる。
次に、種々の図を参照するに、図1〜4は、本発明の種々の側面による聴覚イベント境界検出器または検出プロセスの例を示す模式機能ブロック図である。これらの図では、同じ参照番号の使用は、デバイスまたは機能が、同じ参照番号が付されている別のデバイスまたは別の機能と、或いは他のデバイスまたは他の機能と略同じであることを意味している。ダッシュ記号付き番号(例えば「10’」)となっている参照番号は、デバイスまたは機能が、構造または機能に関して類似しているが、同じ基本参照番号またはダッシュ記号付き基本参照番号が付されている別のデバイスまたは別の機能、或いは他のデバイスまたは他の機能の変形とすることができることを意味している。図1〜4の例では、サブサンプリングされたデジタルオーディオ信号の周波数成分の変化は、サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することなく検出される。
図1は、本発明の種々の側面による聴覚イベント境界検出器の例を示す模式機能ブロック図である。特定のサンプリングレートのサンプルストリームを含むデジタルオーディオ信号は、エイリアスを生成するサブサンプラーまたはサブサンプリング機能部(「サブサンプリング」)2に印加される。当該デジタルオーディオ入力信号は、離散時間シーケンスx[n]で表わすことができ、この離散時間シーケンスは、オーディオソースから或るサンプリング周波数fでサンプリングされている。通常のサンプリングレート48kHzまたは44.1kHzの場合、サブサンプリング部2によってサンプリングレートを、16個のオーディオサンプルごとに16個のうちの15個を廃棄することにより1/16倍に低くすることができる。サブサンプリング部2の出力は、遅延部または遅延機能部(「遅延」)6を介して適応予測フィルタまたはフィルタ機能部(「予測器」)4に印加され、この予測器4は、スペクトル選択フィルタとして機能する。予測器4は、例えばFIRフィルタまたはフィルタリング機能部とすることができる。遅延部6は、単位遅延(サブサンプリングレートの)を持つことにより、確実に予測器4が現在のサンプルを使用しないようにすることができる。LPC予測フィルタの幾つかの共通表現は、当該フィルタ自体の内部の遅延を含む。例えば:
<http://en.wikipedia.org/wiki/Linear_prediction>
を参照されたい。
図1を参照し続けると、エラー信号は、予測器4の出力を入力信号から、減算器または減算機能部8(記号で示される)内で減算することにより変化する。予測器4は、立ち上がりイベント及びスペクトル変化イベントの両方に応答する。他の値も受け入れることができるが、元のオーディオを、48kHzを1/16倍してサブサンプリングすることにより、サンプルを3kHzで生成する場合、20タップのフィルタ長が有用であることが判明している。適応更新は、正規化最小二乗平均法または別の同様の適応化方式を使用して行なうことにより、例えば20〜50msの所望の収束時間を達成することができる。次に、予測器4からのエラー信号を、「マグニチュードまたはパワー」デバイスまたは機能部10(絶対値は、より固定小数点表示に適している)内で二乗する(エラー信号のエネルギーを供給する)か、または絶対値化し(エラー信号の絶対値を供給する)、そして次に、第1時間平滑化フィルタまたはフィルタリング機能部(「Short Term Filter(短期フィルタ)」)12及び第2時間平滑化フィルタまたはフィルタリング機能部(Longer Term Filter「長期フィルタ」)14内でフィルタリングして、第1信号及び第2信号をそれぞれ生成する。第1信号が、予測エラーの短期尺度(measure)であるのに対し、第2信号は、フィルタエラーのより長い期間に亘る平均である。重要ではなく、かつ他の値の、または他のタイプのフィルタを使用してもよいが、10〜20msの時定数を有する低域通過フィルタが、第1時間平滑化フィルタ12に有用であることが判明しており、そして50〜100msの時定数を有する低域通過フィルタが、第2時間平滑化フィルタ14に有用であることが判明している。
第1時間平滑化信号及び第2時間平滑化信号を、分析器または分析機能部(「Analyze(分析)」)16内で比較し、そして分析して、聴覚イベント境界ストリームを生成し、これらの聴覚イベント境界は、第2信号に対する第1信号の急激な増大によって示される。イベント境界信号を生成する一つのアプローチでは、第2信号に対する第1信号の比を考慮する。これは、入力信号の絶対値スケールの変化によって大きく影響されることがない信号を生成するという利点を有する。当該比を採取した後(割り算)、当該値を閾値と、または値範囲と比較して、バイナリ出力または連続値出力を生成することにより、イベント境界の存在を通知する。これらの値は重要ではなく、かつ用途要求に依存するが、長期間に亘ってフィルタリングされた信号に対する短期間に亘ってフィルタリングされた信号の比であって、1.2よりも大きい比は、イベント境界がある可能性があることを示唆しているのに対し、2.0よりも大きい比は、イベント境界が確実にあると考えることができる。バイナリイベント出力のための単一の閾値を用いることができ、或いは、複数値を、例えば0〜1の範囲を有するイベント境界尺度にマッピングすることができる。
他のフィルタ機構及び処理機構の少なくとも一方を使用して、イベント境界を表わす特徴をエラー信号のレベルから特定することができることが明らかである。また、イベント境界出力群の感度及び範囲は、これらの境界出力の印加先のデバイス(群)またはプロセス(群)に適応させることができる。これは、例えば聴覚イベント境界検出器内のフィルタリングパラメータ及び処理パラメータの少なくとも一方を変えることにより行なうことができる。
第2時間平滑化フィルタ(「Longer Term Filter(長期フィルタ)」)14は、より長い時定数を有するので、当該第2時間平滑化フィルタ14は、当該第2時間平滑化フィルタの入力として、第1時間平滑化フィルタ(「Short Term Filter(短期フィルタ)」)12の出力を使用することができる。これによって、第2フィルタ及び分析部を、より低いサンプリングレートで実行することができる。
改良されたイベント境界検出は、第2平滑化フィルタ14が、平滑化フィルタ12と比べたときに、レベル上昇に対するより長い時定数を有し、かつレベル低下に対する同じ時定数を有する場合に得られる。これにより、イベント境界を検出する際の遅延が、第1フィルタ出力を第2フィルタ出力に強制的に等しくするか、または第2フィルタ出力よりも強制的に大きくすることによって短くなる。
分析部16における除算または正規化は、略スケール不変の出力をほぼ達成すればよい。除算ステップを回避するために、粗い正規化を、比較及びレベルシフトにより行なうことができる。別の構成として、正規化を予測器4の手前で行なうことにより、予測フィルタをより少ないワードで動作させることができる。
ノイズ状の性質のイベントに対する感度の所望の低下を達成するために、予測器の状態を使用して、オーディオ信号のトーナリティ(tonality)または予測可能性の尺度を供給することができる。当該尺度を予測係数から抽出することにより、信号がよりトーナル(tonal)であるか、またはより予測可能性が高い場合に発生するイベントを強調し、そしてノイズ状の状態で発生するイベントを強調しないようにすることができる。
適応フィルタ4は、リーク係数を持つように設計することができ、このリーク係数によってフィルタ係数が、収束してトーナル入力(tonal input)に一致するということがない場合に経時的に減衰する。ノイズ状の信号が付加されると、予測係数はゼロに向かって減衰する。従って、フィルタ絶対値またはフィルタエネルギーの和の量は、スペクトル歪みの合理的な尺度となり得る。歪みのより良好な尺度は、これらのフィルタ係数の一部のみを使用して得ることができ;具体的には、最初の幾つかのフィルタ係数を無視することにより得ることができる。0.2以下の和は、スペクトル歪みが小さいことを表わすと考えられるので、値0にマッピングすることができるのに対し、1.0以上の和は、スペクトル歪みが非常に大きいことを表わすと考えられるので、値1にマッピングすることができる。スペクトル歪みの尺度を使用して、イベント境界出力信号を生成するために使用される信号または閾値を変更することにより、総合感度がノイズ状の信号に対して低くなるようにする。
図2は、本発明の種々の側面による聴覚イベント境界検出器の別の例を示す模式機能ブロック図である。図2の例は図1の例とは、図2の例が、分析部16’(ダッシュ記号で示すことにより、図1の分析部16とは異なることを示唆している)への3番目の入力が追加されている点で少なくとも異なる。「Skew」input(スキュー(歪み)入力)と表記することができるこの3番目の入力は、予測係数を分析器または分析機能部(「Analyze Correlation(相関分析)」)18で分析することにより得られるので、直ぐ上の2つの段落で説明したように、サブサンプリングされたデジタルオーディオ信号における相関またはトーナリティの度合いの尺度が得られる。
イベント境界信号を、3つの入力から生成するために、分析部16’処理は次のように動作することができる。まず、当該処理では、平滑化フィルタ14の出力に対する平滑化フィルタ12の出力の比を採取し、1を減算し、そして信号を強制的に、ゼロ以上にする。次に、この信号に、ノイズ状の信号に対する0から、トーナル信号(tonal signal)に対する1までの範囲の「歪み」入力を乗算する。この結果は、イベント境界の存在を示唆し、この場合、値が0.2を超えると、イベント境界がある可能性があることを示し、値が1.0を超えると、イベント境界が確実にあることを示す。上に説明した図1の例におけるように、出力は、単一の閾値をこの範囲に有するバイナリ信号に変換することができるか、または信頼度範囲に変換することができる。広範囲の値、及び最後のイベント境界信号を生成する別の方法も、幾つかのユーザには適切となり得ることは明らかである。
図3は、本発明の種々の側面による聴覚イベント境界検出器の更に別の例を示す模式機能ブロック図である。図3の例は図2の例とは、図3の例が、更に別のサブサンプラーまたはサブサンプリング機能部を有する点で少なくとも異なる。イベント境界検出に関連する処理が、イベント境界出力を、サブサンプリング部2によって可能になるサブサンプリングよりも少ない頻度でしか必要としない場合、更に別のサブサンプラーまたはサブサンプリング機能部(「サブサンプリング」)20を、短期フィルタ12の後段に設けることができる。例えば、サブサンプリング部2内で1/16に低下したサンプリングレートを、更に1/16に低下させて、出力されるイベント境界ストリーム内に発生し得るイベント境界を256サンプルごとに供給することができる。第2平滑化フィルタ、すなわち長期フィルタ14’は、サブサンプリング部20の出力を受信して、第2フィルタ入力を分析部16”に供給する。平滑化フィルタ14’への入力は、この時点で既に、平滑化フィルタ12で低域通過フィルタ処理され、そして20によりサブサンプリングされているので、14’のフィルタ特性をそれに応じて変更する必要がある。適切な構成は、入力の上昇に対する50〜100msの時定数、及び入力の低下に対する即時応答である。分析部16”への他の入力群の低下したサンプリングレートを一致させるために、予測器の係数も、同じサブサンプリングレート(この例における1/16)で、更に別のサブサンプラーまたはサブサンプリング機能部(「サブサンプリング」)22内でサブサンプリングして、分析部16”(二重ダッシュ記号で示すことにより、図1の分析部16、及び図2の分析部16’とは異なることを示唆している)への歪み入力を生成する必要がある。分析部16”は、図2の分析部16’とほぼ同様であるが、微小変更を加えて、より低いサンプリングレートに関して調整を行なうようになっている。間引き段20を追加して計算を大幅に少なくしている。サブサンプリング部20の出力では、信号は、ゆっくり時間変化する包絡線信号を表わすので、エイリアシングは大きな問題とはならない。
図4は、本発明の種々の側面によるイベント境界検出器の特定例を示している。この特定の実施形態は、着信オーディオを48kHzで、オーディオサンプル値が−1.0〜+1.0の範囲に収まるように処理するように設計された。この実施形態において具体化される種々の値及び定数は、重要ではないが、有用な動作点を示唆している。この図、及び以下の方程式は、例示的な信号を含む後続の図を生成するために使用されるプロセス及び本発明の特定の変形を詳細に表わしている。着信オーディオx[n]は、16番目ごとのサンプルを、サブサンプリング関数(「サブサンプリング)」)2’
により採取することによりサブサンプリングされる。遅延機能部(「遅延」)6及び予測機能部(「FIR予測器」)4’は、現在のサンプルの推定値を、以前のサンプル群
にわたって、20タップFIRフィルタを使用して生成する。上式では、w[n]は、サブサンプリング時点nにおけるi番目のフィルタ係数を表わしている。減算機能部8は、予測エラー信号
を生成する。これを使用して、予測器4’の係数を、正規化最小二乗平均適応プロセスに従って、リーク係数を加味して更新することにより、フィルタ
を安定させる。上式では、分母は正規化項であり、この正規化項は、前の20個の入力サンプルの二乗の和と、ゼロによる除算を回避するための小オフセット値の加算とを含んでいる。変数jを使用して前の20個のサンプルに、j=1〜20とする場合にx’[n−j]のようにインデックスを付している。次に、エラー信号を、マグニチュード機能部(「マグニチュード」)10’、及び簡易な1次低域通過フィルタである第1時間フィルタ(「短期フィルタ」)12’を通過させて、1次フィルタリングされた信号
を生成する。次に、この信号を、上昇する入力のための1次低域通過部、及び低下する入力のための即時応答部を有する第2時間フィルタ(「長期フィルタ」)14”を通過させて、2次フィルタリングされた信号
を生成する。予測器4’の係数を使用して、トーナリティ(「Analyze Correlation(相関分析部)」)18’の初期尺度を、3番目のフィルタ係数から最後のフィルタ係数までの絶対値の和
として生成する。この信号を、オフセット部35、スケーリング部36、及びリミッタ部(「リミッタ」)37を通過させて歪みの尺度
を生成する。1次及び2次フィルタリングされた信号、及び歪みの尺度を、加算部31、除算部32、減算部33、及びスケーリング部34で合成して、初期イベント境界通知信号
を生成する。最後に、この信号をオフセット部38、スケーリング部39、及びリミッタ部(「リミッタ」)40を通過させて、0〜1の範囲のイベント境界信号
を生成する。2つの時間フィルタ12’及び14”、及び2つの信号変換部35,36,37,及び38,39,40における値の類似性は、システムの固定設計または制約を表わしているのではない。
図5A〜F、図6A〜F、及び図7A〜Fは、図4の例による聴覚イベント境界検出デバイスまたは方法の動作を理解するために有用な例示的な波形セットである。これらの波形セットの各々は、共通時間スケール(水平軸)に沿って時間的に一致させている。各波形は、図示のように、当該波形固有のレベルスケール(垂直軸)を有する。
まず、図5A〜Fにおける例示的な波形セットを参照するに、図5Aのデジタル入力信号は、3つのトーンバーストを表わし、振幅がトーンバーストごとに階段状に増大し、音程が各バーストの途中で変化している。図5Bに示す簡易なマグニチュード測定では、音程の変化を検出することができないことが分かる。予測フィルタからのエラーは、トーンバーストの立ち上がり、音程変化、及び終了を検出することができるが、特徴は明瞭ではなく、かつ入力信号レベルに依存する(図5C)。上に説明したスケーリングにより、イベント境界をマーキングし、信号レベルとは独立のインパルスセットが得られる(図5D)。しかしながら、この信号は、最後のノイズ状の入力に対して不所望のイベント信号を生成し得る。次に、最初の2つのフィルタタップを除く全てのフィルタタップの絶対値和から得られる歪みの尺度(図5E)を使用して、強いスペクトル成分を伴うことなく発生する感度イベントを低下させる。最後に、スケーリングされ、かつ先端が切り取られた(truncated)イベント境界ストリーム(図5F)が、分析部によって得られる。
図6A〜Fの例示的な波形セットは、図5A〜Fの波形とは、デジタルオーディオ信号が2つの連続するピアノ鍵盤音を表わしている点で異なる。これは、図5A〜Fの例示的な波形が示しているように、予測エラーからどのようにして、イベント境界群を、これらのイベント境界がマグニチュード包絡線に明瞭に現われない(図6B)場合でも、特定することができるかを示している。この一連の例では、最後の方の鍵盤音が徐々に弱くなって消えて行くので、音の連続の最後ではイベントは信号に表れない。
図7A〜Fの例示的な波形セットは、図5A〜F及び図6A〜Fの波形とは、デジタルオーディオ信号が、バックグラウンドノイズが発生している状態の発話を表わしている点で異なる。歪み係数によって、バックグラウンドノイズのイベント群を、これらのイベントの帯域が本質的に広いので抑圧することができるのに対し、音声部分は、イベント境界群によって詳述される。
これらの例は、任意のトーナルサウンド(tonal sound)の突然の終了が検出されることを示している。サウンドの緩やかな減衰では、明確な境界がない(ただフェードアウトする)ので、イベント境界は検知されない。ノイズ状のサウンドが突然終了してもイベントは検知できないが、突然終了する大抵の発話または音楽イベントは、検出されることになる終了時に、或るスペクトル変化、またはピンチオフイベントを有することになる。
実装
本発明は、ハードウェア内で、またはソフトウェア内で、或いはハードウェア及びソフトウェアの組み合わせ(例えば、プログラマブルロジックアレイ)内で実施することができる。特に断らない限り、本発明の一部として含まれるアルゴリズムは、本質的に、いずれかの特定のコンピュータまたは他の装置に関連しているという訳ではない。具体的には、種々の汎用マシンを、本明細書において提供される示唆に基づいて記述されるプログラムを用いて使用することができるか、または更に特殊化された装置(例えば、集積回路)を作製して、必要な方法ステップ群を実行すると利便性を更に高めることができる。従って、本発明は、一つ以上のプログラマブルコンピュータシステムで実行される一つ以上のコンピュータプログラムで実施することができ、各プログラマブルコンピュータシステムは、少なくとも一つのプロセッサと、少なくとも一つのデータストレージシステム(揮発性及び不揮発性メモリ及び記憶素子の少なくとも一方を含む)と、少なくとも一つの入力デバイスまたはポートと、そして少なくとも一つの出力デバイスまたはポートと、を備える。プログラムコードを入力データに適用して、本明細書において記載される機能を実行し、そして出力情報を生成する。出力情報は、一つ以上の出力デバイスに公知の態様で適用される。
このようなプログラムの各々は、いずれの所望のコンピュータ言語(マシン言語、アセンブリ言語、または高位のプロシージャ言語、論理言語、またはオブジェクト指向プログラミング言語を含む)でも記述することができるので、コンピュータシステムと通信することができる。いずれにしても、言語はコンパイル言語とするか、または解釈言語とすることができる。
このようなコンピュータプログラムの各々は、汎用または特殊用途プログラマブルコンピュータが読み取ることができる記憶媒体または記憶装置(例えば、固体メモリまたは固体媒体、または磁気媒体または光媒体)に格納されるか、またはダウンロードされることにより、記憶媒体または記憶装置がコンピュータシステムによって読み取られて、本明細書において記載される手順を実行するときに、コンピュータを構成し、そして動作させることが好ましい。本発明によるシステムは、コンピュータプログラムにより構成されるコンピュータ可読記憶媒体として実現されると考えることもでき、このように構成される記憶媒体によってコンピュータシステムは、特定かつ所定の態様で動作するようになって、本明細書において記載される機能を実行する。
本発明の多数の実施形態について説明してきた。しかしながら、種々の変更を、本発明の技術思想及び範囲から逸脱しない限り加えることができることを理解されたい。例えば、本明細書において記載されるステップ群のうちの幾つかは、順番に関係なく行なうことができるので、記載される順番とは異なる順番で行なうことができる。

Claims (13)

  1. デジタルオーディオ信号を処理して、聴覚イベント境界ストリームを前記デジタルオーディオ信号から生成する方法であって、
    前記デジタルオーディオ信号をサブサンプリングして、前記デジタルオーディオ信号のサブサンプリングされたナイキスト周波数が前記デジタルオーディオ信号の帯域内にあるようにすることにより、サブサンプリングされたデジタルオーディオ信号を生成して、前記サブサンプリングされたナイキスト周波数よりも高い前記デジタルオーディオ信号内の信号成分が、前記サブサンプリングされたナイキスト周波数よりも低い周波数で、前記サブサンプリングされたデジタルオーディオ信号内に現われるようにすること、
    前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化を検出して、前記聴覚イベント境界ストリームを生成すること
    を含む、方法。
  2. 聴覚イベント境界は、前記サブサンプリングされたデジタルオーディオ信号の前記周波数成分の経時的な変化が閾値を上回る場合に検出される、請求項1に記載の方法。
  3. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化に対する感度が、ノイズ状の信号を表わすデジタルオーディオ信号に対しては引き下げられている、請求項1又は請求項2に記載の方法。
  4. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、前記サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することなく検出される、請求項1乃至3のいずれか一項に記載の方法。
  5. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、スペクトル選択フィルタを前記サブサンプリングされたデジタルオーディオ信号に適用することにより求められる、請求項1乃至4のいずれか一項に記載の方法。
  6. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化を検出することは、現在のサンプルを、前のサンプルセットから予測すること、予測エラー信号を生成すること、エラー信号レベルの経時的な変化が閾値を超える時点を検出することを含む、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分の経時的な変化が、前記サブサンプリングされたデジタルオーディオ信号の周波数スペクトルを明示的に計算することを含むプロセスにより検出される、請求項1乃至3のいずれか一項に記載の方法。
  8. 前記サブサンプリングされたデジタルオーディオ信号の周波数成分を明示的に計算することは、時間−周波数変換を、前記サブサンプリングされたデジタルオーディオ信号に適用することを含み、前記プロセスは更に、前記サブサンプリングされたデジタルオーディオ信号の周波数領域表現の経時的な変化を検出することを含む、請求項7に記載の方法。
  9. 検出される聴覚イベント境界は、境界の有無を示すバイナリ値を有する、請求項1乃至8のいずれか一項に記載の方法。
  10. 検出される聴覚イベント境界は、境界の不存在か、または前記境界の存在及び強度を示す或る範囲の値を有する、請求項1乃至8のいずれか一項に記載の方法。
  11. 請求項1乃至10のいずれか一項に記載の方法を実行するように適合された手段を備える装置。
  12. コンピュータ可読媒体に格納され、コンピュータに、請求項1乃至10のいずれか一項に記載の方法を実行させるコンピュータプログラム。
  13. 請求項1乃至10のいずれか一項に記載の方法を実行するコンピュータプログラムを格納するコンピュータ可読媒体。
JP2012508517A 2009-04-30 2010-04-12 低複雑度の聴覚イベント境界検出 Active JP5439586B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17446709P 2009-04-30 2009-04-30
US61/174,467 2009-04-30
PCT/US2010/030780 WO2010126709A1 (en) 2009-04-30 2010-04-12 Low complexity auditory event boundary detection

Publications (2)

Publication Number Publication Date
JP2012525605A true JP2012525605A (ja) 2012-10-22
JP5439586B2 JP5439586B2 (ja) 2014-03-12

Family

ID=42313737

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012508517A Active JP5439586B2 (ja) 2009-04-30 2010-04-12 低複雑度の聴覚イベント境界検出

Country Status (7)

Country Link
US (1) US8938313B2 (ja)
EP (1) EP2425426B1 (ja)
JP (1) JP5439586B2 (ja)
CN (1) CN102414742B (ja)
HK (1) HK1168188A1 (ja)
TW (1) TWI518676B (ja)
WO (1) WO2010126709A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259814A (zh) * 2020-02-11 2021-08-13 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US10115410B2 (en) * 2014-06-10 2018-10-30 Peter Graham Craven Digital encapsulation of audio signals
DE102014115967B4 (de) 2014-11-03 2023-10-12 Infineon Technologies Ag Kommunikationsvorrichtungen und Verfahren
EP3475944B1 (en) * 2016-06-22 2020-07-15 Dolby International AB Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain
US11036462B2 (en) 2017-04-24 2021-06-15 Maxim Integrated Products, Inc. System and method for reducing power consumption in an audio system by disabling filter elements based on signal level
EP3827429A4 (en) * 2018-07-25 2022-04-20 Dolby Laboratories Licensing Corporation COMPRESSOR TARGET CURVE TO AVOID AMPLIFICATION NOISE
EP3618019B1 (en) * 2018-08-30 2021-11-10 Infineon Technologies AG Apparatus and method for event classification based on barometric pressure sensor data
CN111916090B (zh) * 2020-08-17 2024-03-05 北京百瑞互联技术股份有限公司 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备
US12033650B2 (en) * 2021-11-17 2024-07-09 Beacon Hill Innovations Ltd. Devices, systems, and methods of noise reduction

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004528601A (ja) * 2001-05-25 2004-09-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の聴覚的イベントへの分割
WO2006058958A1 (en) * 2004-11-30 2006-06-08 Helsinki University Of Technology Method for the automatic segmentation of speech

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4935963A (en) 1986-01-24 1990-06-19 Racal Data Communications Inc. Method and apparatus for processing speech signals
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5325425A (en) * 1990-04-24 1994-06-28 The Telephone Connection Method for monitoring telephone call progress
CA2105269C (en) 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
KR0155315B1 (ko) 1995-10-31 1998-12-15 양승택 Lsp를 이용한 celp보코더의 피치 검색방법
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
DE60204039T2 (de) 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
AUPS270902A0 (en) 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
MX2007005027A (es) 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculo y ajuste de la sonoridad percibida y/o el balance espectral percibido de una senal de audio.
MX2007015118A (es) 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI396188B (zh) 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101432965B (zh) 2006-04-27 2012-07-04 杜比实验室特许公司 使用基于特性响度的听觉事件检测的音频增益控制
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
RU2413357C2 (ru) 2006-10-20 2011-02-27 Долби Лэборетериз Лайсенсинг Корпорейшн Обработка динамических свойств аудио с использованием перенастройки
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
KR101106031B1 (ko) 2007-01-03 2012-01-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 디지털/아날로그 음향 세기―보상 볼륨 제어 장치 및 그 제어 방법
WO2009011826A2 (en) 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
JP5192544B2 (ja) 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
WO2010127024A1 (en) 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
TWI503816B (zh) 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004528601A (ja) * 2001-05-25 2004-09-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の聴覚的イベントへの分割
WO2006058958A1 (en) * 2004-11-30 2006-06-08 Helsinki University Of Technology Method for the automatic segmentation of speech

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113259814A (zh) * 2020-02-11 2021-08-13 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途
CN113259814B (zh) * 2020-02-11 2023-02-17 迪芬尼声学科技股份有限公司 检测音频反馈的方法和音频处理系统及其用途

Also Published As

Publication number Publication date
US8938313B2 (en) 2015-01-20
WO2010126709A1 (en) 2010-11-04
EP2425426B1 (en) 2013-03-13
US20120046772A1 (en) 2012-02-23
TWI518676B (zh) 2016-01-21
CN102414742B (zh) 2013-12-25
TW201106338A (en) 2011-02-16
JP5439586B2 (ja) 2014-03-12
HK1168188A1 (en) 2012-12-21
CN102414742A (zh) 2012-04-11
EP2425426A1 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
JP5439586B2 (ja) 低複雑度の聴覚イベント境界検出
US8612222B2 (en) Signature noise removal
EP2546831B1 (en) Noise suppression device
US9530427B2 (en) Speech processing
JP4173641B2 (ja) 音声活動に基づくゲイン制限による音声強化
US8249861B2 (en) High frequency compression integration
RU2719543C1 (ru) Устройство и способ для определения предварительно определенной характеристики, относящейся к обработке искусственного ограничения частотной полосы аудиосигнала
JP2017533459A (ja) マルチチャネルオーディオ信号内の音声成分を強調するための信号処理装置
JP6374120B2 (ja) 発話の復元のためのシステムおよび方法
WO2012131438A1 (en) A low band bandwidth extender
US20150071463A1 (en) Method and apparatus for filtering an audio signal
KR102000227B1 (ko) 디지털 오디오 신호의 프리에코 판별 및 감쇠
EP4154251A1 (en) Method and unit for performing dynamic range control
JPH113091A (ja) 音声信号の立ち上がり検出装置
WO2019035835A1 (en) DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT
KR20020082643A (ko) 고속 푸우리에 변환(fft) 및 역고속 푸우리에변환(ifft)을 이용한 송,수신기의 동기검출장치
JP2003316380A (ja) 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
EP2760022B1 (en) Audio bandwidth dependent noise suppression

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130305

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130605

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5439586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250