JP2013515287A - 音声帯域拡張方法及び音声帯域拡張システム - Google Patents

音声帯域拡張方法及び音声帯域拡張システム Download PDF

Info

Publication number
JP2013515287A
JP2013515287A JP2012545928A JP2012545928A JP2013515287A JP 2013515287 A JP2013515287 A JP 2013515287A JP 2012545928 A JP2012545928 A JP 2012545928A JP 2012545928 A JP2012545928 A JP 2012545928A JP 2013515287 A JP2013515287 A JP 2013515287A
Authority
JP
Japan
Prior art keywords
band
audio signal
segment
band audio
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012545928A
Other languages
English (en)
Other versions
JP5620515B2 (ja
Inventor
ロゼッロ ノーバート
クレイン ファビアン
Original Assignee
マインドスピード テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マインドスピード テクノロジーズ インコーポレイテッド filed Critical マインドスピード テクノロジーズ インコーポレイテッド
Publication of JP2013515287A publication Critical patent/JP2013515287A/ja
Application granted granted Critical
Publication of JP5620515B2 publication Critical patent/JP5620515B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明は、第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声記号を含む第二帯域音声信号を生成する装置及び方法を提供する。本発明の方法は、低域カットオフ周波数と高域カットオフ周波数とを有する第一帯域音声信号のセグメントを受信するステップと、第一帯域音声信号のセグメントの高域カットオフ周波数を特定するステップと、第一帯域音声信号のセグメントが有声及び無声のいずれであるかを判定するステップと、第一帯域音声信号のセグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせるステップと、第一帯域音声信号の前記セグメントが無声である場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、高周波における第二帯域拡張を生じさせるステップと、第一及び第二帯域拡張を用いて、第一帯域音声信号を高域カットオフ周波数より高く拡張するステップとを含む。

Description

[関連出願の相互参照]本出願は、2009年12月21日に出願された米国仮特許出願第61/284,626号に基づく優先権を主張するものであり、この仮特許出願の全体は、参照により本明細書に組み入れられる。
本発明は、概して、信号処理に関するものである。本発明は、特に、音声信号処理に関するものである。
VoIP(Voice Over Internet Protocol)ネットワークは、より良い音声品質をエンドユーザに提供することを目的として、サンプリング周波数を8kHzから16kHzへ倍増させて音声帯域幅を拡げる広帯域音声技術の推進及び展開により進化し続けている。この新しいサンプリングレートは、7.5kHz(理論上は8kHz)までの新たな高帯域を含むことができ、音声の低周波数領域は50Hzまで拡張されることになる。その結果、音声の自然さ、識別性、ニュアンス、最終的な耳心地の良さが向上する。つまり、広帯域音声によって、摩擦音の「s」や破裂音の「p」などの特定の音がより正確に聞き取れるようになる。
この新しい技術の用途としては、主に、ヴォイスコール、会議、マルチメディアによるオーディオサービスが挙げられる。広帯域音声技術は、サンプリング周波数が8kHz、周波数レンジが200Hz〜3400Hz(理論上は4kHz)の狭帯域音声に基づく従来のキャリアクラスの音声サービスを上回る音声品質の実現を目指している。従来の狭帯域の電話端末では音声の理解性が第一に重視されたのに対して、新たな広帯域の電話端末では音声の心地良さが改善されることになる。広帯域音声技術は、当技術分野において、「高精細(HD)音声」とも称される。
図1は、広帯域音声周波数帯域幅と従来の旧式の狭帯域音声周波数帯域幅との比較を表す音声周波数帯域100を示している。図示されているように、広帯域音声周波数帯域幅は、50Hz〜7.5kHzの範囲であるのに対して、従来の旧式の狭帯域音声周波数帯域幅は200Hz〜3.4kHzの範囲である。
しかし、ネットワーク及び端末のインフラストラクチャに広帯域音声が完全に導入されるまでには、中間段階として狭帯域と広帯域とが共存する期間を経なければならない。専門家によると、広帯域音声をサポートできるようインフラ機器をアップグレードするには時間がかかるため、広帯域から狭帯域への移行期間は7年にも及ぶと予想されている。この中間段階の間において、すなわち狭帯域音声と広帯域音声とが共存するシステムにおいて、音声品質を向上するために、信号処理の研究者によっていくつかのモデルが提案されている。これらの多くは、CELP音声符号化アルゴリズムに基づいたモデルである。しかしながら、提案されたモデルでは、処理にかかる消費電力が高いにもかかわらず、わずかな性能向上しか得られないといった問題がある。
したがって、当技術分野においては、狭帯域と広帯域とが共存する中間段階の期間に対応して、狭帯域音声と広帯域音声とが共存するシステムの音声品質を効果的に一層改善することが必要とされている。
本発明は、音声帯域拡張システム及び音声帯域拡張方法を提供する。
これらのシステム及び方法は、少なくとも1つの図面と関連付けて概略的に図示及び/又は説明され、特許請求の範囲に完全な形で記載される。
広帯域音声周波数帯域幅と狭帯域音声周波数帯域幅との比較を示す音声周波数帯域の図である。 本発明の一実施形態に係る、音声帯域拡張が適用された通信システムにおける狭帯域端末から広帯域端末への音声信号の流れを示す図である。 本発明の一実施形態に係る、音声帯域拡張をスペクトログラムで示す図である。 本発明の一実施形態に係る、音声帯域拡張システムにおいて狭帯域信号に適用され得る帯域拡張の様々な要素又はステップを示す図である。 本発明の一実施形態に係る、高周波帯域拡張に用いられるシグモイド関数の理論形状を示す図である。 本発明の一実施形態に係る、期待される区間へのマッピングのために図5の軸が正規化及び中心化されたシグモイド関数の正規形状を示す図である。 本発明の一実施形態に係る、最適な高調波を発生させる、動的にスケーリングされたシグモイドを示す図である。 本発明の一実施形態に係る、最適な高調波を発生させる、動的にスケーリングされたシグモイドを示す図である。 本発明の一実施形態に係る、拡張された新たな音声信号エネルギーを規定範囲内に制御するための3700Hzハイパスフィルタ及び4000Hzハイパスフィルタの一例を示す図である。 本発明の一実施形態により生成された音声帯域拡張信号の領域を、比較のため、狭帯域音声信号の領域と真の広帯域音声信号との間に配置して示す図である。
本発明の特徴及び利点は、以下の詳細な説明及び添付図面より、当業者により容易に理解されるであろう。
本明細書は、リアルオブジェクトに対応する仮想オブジェクトにアクセスするためのシステム及びその方法を対象とする。以下、本発明の具体的な実施形態について説明する。なお、当業者であれば、本発明が、本明細書において具体的に記載されたものとは別な形で構成され得ることを理解できるだろう。さらに、本発明の明りょう化のために、本発明の具体的な詳細全てが記載されているわけではない。本明細書において記載されていない具体的な詳細は、当業者の知識の範囲内である。本明細書に添付の図面及びその詳細な説明は、単に本発明の例示的な実施形態を対象にするものである。簡潔な説明のため、本発明の原理を利用する他の実施形態については、本明細書に具体的に記載せず、添付図面にも具体的に図示しない。
本発明の様々な実施形態は、新たな広帯域電話端末における広帯域音声品質を向上させるために、従来の狭帯域電話端末から発せられた音声を広帯域音声信号まで拡げる、VoIPゲートウェイ及び広帯域電話端末の音声信号処理システム及び音声信号処理方法を提供することを目的とする。本発明の様々な実施形態による新規な音声信号処理アルゴリズムは、「音声帯域拡張(略称:SBE又はBWE)」と称することができる。本発明の様々な実施形態において、狭帯域音声は、高周波及び低周波において拡張され、元々の自然な広帯域音声に近い音声となる。その結果、本発明による広帯域電話端末は、通常の広帯域電話端末が広帯域音声信号を受信する場合と同じ音声品質で、狭帯域音声信号を受信することができる。
図2は、本発明の音声帯域拡張が実現される通信システム200における狭帯域端末205から広帯域端末230までの音声信号の流れを示す図である。図2に示されるように、通信システム200は、狭帯域端末205を有する。狭帯域端末205は、音声信号受信用のマイクを有する通常の狭帯域POTS(Plain Old Telephone System)電話とすることができる。第一周波数スペクトルは、周波数レンジが200Hz〜3400Hzの第一狭帯域音声信号201を示し、第二周波数スペクトルは、周波数レンジがそれぞれ50Hz〜200Hz、3400Hz〜7500Hzである第一広帯域音声信号202A、202Bを示していない。第一狭帯域音声信号201は、PSTNネットワーク210を通過して、第一メディアゲートウェイ215に送られる。第一メディアゲートウェイ215において、第一狭帯域音声信号201は、狭帯域エンコーダ216を用いて符号化され、G.711、G.729、G.723.1などの音声符号化技術を用いて符号化された狭帯域信号が生成される。符号化された狭帯域信号はその後、パケットネットワーク220を介して伝送され、第二メディアゲートウェイ225に送られる。第二メディアゲートウェイ225において、狭帯域デコーダ225が、第一狭帯域音声信号201を合成又は再生成するために、符号化された狭帯域信号を復号し、合成された狭帯域音声信号を生成する。この時、本発明の一実施形態では、第二メディアゲートウェイ225が、帯域拡張アルゴリズムを合成された狭帯域音声信号に適用し、周波数レンジが200Hz〜3400Hzの第二狭帯域音声信号228と、周波数レンジがそれぞれ50Hz〜200Hz、3400Hz〜7500Hzである第二広帯域音声信号229A、229Bとを生成する。その後、周波数レンジが50Hz〜7500Hzの音声信号が、広帯域端末230に送信されて、スピーカを通じてユーザに向けて再生される。本発明の帯域拡張アルゴリズムは、第二メディアゲートウェイ225において適用されるものとして説明したが、当該帯域拡張アルゴリズムは、音声信号が広帯域端末230で再生される前の、第二メディアゲートウェイ225を含む任意のコンピュータデバイスに適用され得る。
図3は、本発明の音声帯域拡張をスペクトログラムで示す図である。第一領域310は、従来の端末による8kHzの狭帯域信号の伝送を示す。第二領域320は、本発明の一実施形態に従って音声帯域拡張が実現された様子を示し、高帯域拡張317及び低帯域拡張319により、第一領域310の狭帯域信号が拡張されている。本発明の一実施形態において、音声帯域拡張アルゴリズムは、低周波数帯域拡張319ではなく高周波数帯域拡張317のみを実現し得る。第三領域320は、第一領域310との比較のため、16kHzの完全な広帯域周波数を示す。
図4は、音声帯域拡張システム400において狭帯域信号に適用され得る帯域拡張の様々な要素又はステップを示す図である。これらの要素又はステップはいずれも、コントローラ、マイクロプロセッサ、又は中央処理装置(CPU)を用いて、ハードウェア及びソフトウェアで実現することができる。一例として、ARMコア技術を搭載したMindspeed(登録商標)社のComcertoとして実現することができる。
説明の簡略化のため、音声帯域拡張システム400を、4つの主な要素又はステップで図示し説明する。これらの4つの要素又はステップとは、(1)信号の低域カットオフ周波数及び高域カットオフ周波数を特定する前処理(410)の要素又はステップ、(2)本発明の一実施形態において、最適な拡張を行うため、ノイズ/無声と、音声と、音楽とを区別する信号分類(420)の要素又はステップ、(3)低周波及び高周波に対する最適化された適応信号拡張(430)の要素又はステップ、そして(4)円滑な狭帯域信号との混合、イコライゼーション、そして利得適応などの、最終的な品質保証のための短期的及び長期的な後処理(440)の要素又はステップ、である。
前処理(410)の要素又はステップは、一実施形態において、0〜300Hzの低周波音声信号の有無を検出可能なローパスフィルタと、3200Hzを超える高周波の有無を検出可能なハイパスフィルタとを有する。低周波及び高周波においてカットオフされた狭帯域信号の検出又は特定は、後述するような、低周波及び高周波において帯域拡張された信号を既存の狭帯域信号と結合又は接続するための短期的及び長期的な後処理(440)の要素又はステップにおける更なる処理で利用され得る。例えば、低周波において、信号が0〜300Hzの間の何処で減衰するかが特定され、高周波において、カットオフ周波数が3200〜4000Hzの何処で生じるかが特定され得る。
信号分類(420)の要素又はステップに関しては、上述したように、一実施形態において、拡張型音声アクティビティ検出器(VAD)を用いて、ノイズと、音声と、音楽とを区別することができる。他実施形態においては、通常のVADを用いて、ノイズと音声とを区別することができる。VADを、エネルギーと、ゼロ交差と、スペクトルの平坦度を算出するためのスペクトルの傾きとを用いるように拡張し、音声がノイズへの移行のため突然カットオフされることのないより円滑な切り換えを実現することもでき、例えば、音声のオーバーハング期間が長くなり得る。
最適な適応信号拡張(430)の要素又はステップは、高周波拡張の要素又はステップと、低周波拡張の要素とに分けることができる。
高周波拡張の要素又はステップに関する信号処理の理論的基礎は以下のように説明される。本発明の一実施形態では、高周波での音声帯域拡張において、周波数領域にマッピングされた非線形信号成分が利用される。16ビットのサンプリングされた線形信号「x(n) 但し n = 0..N」を、表記の簡略化のため「x」で表すとすれば、下記のようになる。
Figure 2013515287
狭帯域信号を示す信号「x」は、区間[-1, 1]内の値、又は絶対値区間[0, 1]つまり| x | ≦ 1内にマッピングされ、それから[-1, 1]内の値の関数f(x)により変換される。
テイラー級数によれば、f(x)は、極限展開によりxの累乗の線形結合に展開され得る。つまり、下記のようになる。
Figure 2013515287
フーリエ変換の線形性を利用すると以下のようになる。
Figure 2013515287
ここで、F(ejnθ)関数は、新たな周波数、特に、音声帯域拡張に必要とされる高周波を導くものである。
信号に適用される関数f(x)の選択も重要であり、本発明の一実施形態においては、有声フレーム又は有声の音声セグメントに対しては、以下のようにシグモイド関数が適用される。
Figure 2013515287
パラメータ「a」の関数としたときのシグモイド関数の理論形状は、図5のようになる。そして、図5の軸は、期待される区間[-1, 1]へのマッピングで、正規化及び中心化され、図6のようになる。
この場合、例えば、a = 10の指数スケーリングにおいて中心化されたシグモイド関数は、以下のようになる。
Figure 2013515287
入力信号の振幅に関わらず、新たな周波数を大幅に増やすために、すなわち、低い値がシグモイドの有限の非線形部分に収まり、高い値がより高い非線形部分に収まらないようにするために、本発明の一実施形態では、図7に示されるように、自動利得制御(AGC)から得られる瞬時利得を利用し、シグモイドを動的にスケーリングして最適な高調波を発生させる。
本発明の一実施形態において、無声フレーム又は無声の音声セグメントに対しては、有声の音声セグメントとは異なる以下の関数が適用される。
Figure 2013515287
そして、変換された関数f(x)の両結果は最終的に、位相不連続(アーティファクト)を回避し、円滑な拡張音声信号を伝送できるようにするため、以下のようにプログラム可能な2成分のバランスと適応的に混合され得る。
Figure 2013515287
適応バランスは、以下のように定義され得る。
Figure 2013515287
ここで、係数「v」は、以下のように、エネルギーと、ゼロ交差と、傾き測定とを組み合わせたVADからの音声信号の有声プロフィールの関数における混合比を決定する。
Figure 2013515287
一実施形態において、有声の音声セグメントに対しては、シグモイド関数及び多項式関数の寄与が等しくなるように、q(v)に50%が選択され、(摩擦音とも称される)無声の音声セグメントに対しては、多項式関数の寄与が大きくなるように、q(v)に10%が選択される。当然のことながら、50%及び10%との値は一例にすぎない。また、時間パラメータ「t」は、2つの移行前状態からの移行を円滑にするために用いられ得る。
なお、少なくともVADが音楽信号を検出する一実施形態において、有声音声信号及び無声音声信号に用いられるものとは別の関数が、音楽品質の向上のために用いられる。
一方、低周波拡張ではまず、狭帯域信号における低周波の存在がスペクトル分析により特定される。次に、イコライザーは、推定される減衰を補償するため、低周波に対して適応増幅を行う。この処理により、低周波では、ネットワーク減衰(ITU勧告P.830、MIRSモデルを参照のこと)又は端末減衰から回復する。
4番目の短期的及び長期的な後処理(404)の要素又はステップは、適応ハイパスフィルタを用いて、広帯域領域に新たに拡張された高周波(例えば、図2の広帯域信号229A、229B)を、既存の狭帯域信号(例えば、図2の狭帯域信号228)に結合するために用いられる。この後処理(404)の要素又はステップでは、上述したように、最初に特定される狭帯域信号の高周波の存在及び境界を特定する1番目のカットオフ周波数特定(401)の要素又はステップの結果が用いられ、一実施形態においては楕円フィルタリングが利用される。好ましい実施形態において、広帯域の高周波信号は、元の狭帯域とその最大値又はカットオフ周波数で結合され、これにより、元の信号の周波数はそのまま維持される。さらに、帯域拡張信号の信号レベルは、例えば4〜5dBといった限られた変動幅で維持される。
図8は、3700Hzハイパスフィルタ及び4000Hzハイパスフィルタの一例を示す図である。最終的に広帯域端末に音声帯域拡張信号を伝送する前に、新たな拡張音声信号のエネルギーを例えば4〜5dBの規定範囲内に制御するための適応エネルギー利得に音声信号を通過させてもよい。本発明の一実施形態による完全かつ最終的な音声帯域拡張を、図9の音声帯域拡張信号領域920で示す。当該領域920は、比較のため、狭帯域音声信号領域910と真の広帯域音声信号930との間に配置されている。
上述したように、本発明の様々な実施形態は、既存の狭帯域スペクトルに基づいて、高周波の生成及び低周波数スペクトルの復元を行い、真の広帯域音声信号に極めて一致させる。そして、本発明の様々な実施形態は、音声システム密度を最小化するために、例えば、CELPコードブックマッピング拡張モデルよりも低い低複雑度を実現し、音声及び音響をカバーするために、音声からノイズ/音楽までの範囲に柔軟に拡張できる。さらに、本発明の帯域拡張は、サンプリング周波数が14kHz、20kHz、32kHzのスーパー広帯域から、「Hi−Fi音声」として知られる44.1kHzのウルトラ広帯域までの、次世代の広帯域音声信号通信及び広帯域音響信号通信にも適用され得る。つまり、第一帯域音声/音響は、第二帯域音声/音響に拡張することができ、第二帯域広帯域音声/音響は、第一帯域音声/音響よりも拡く、かつ、第一帯域音声/音響を含んでいる。
本発明の上記説明から、様々な技術を用いて、本発明の範囲から逸脱することなく本発明の思想を実施できることは明らかである。また、ここまで、特定の実施形態を具体的に参照しながら本発明を説明してきたが、当業者であれば理解できるように、本発明の趣旨及び範囲から逸脱することなく、形式や細部において変更を加えることは可能である。従って、上述した実施形態は全て例であって限定されるべきものではない。さらに、本発明は、本明細書に記載の特定の実施形態に限定されず、発明の範囲から逸脱することなく、多くの再構成、修正、そして置換が可能であることを理解されたい。

Claims (20)

  1. 第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声信号を含む第二帯域音声信号を生成する方法であって、
    低域カットオフ周波数と高域カットオフ周波数とを有する前記第一帯域音声信号のセグメントを受信するステップと、
    前記第一帯域音声信号の前記セグメントの前記高域カットオフ周波数を特定するステップと、
    前記第一帯域音声信号の前記セグメントが有声及び無声のいずれであるかを判定するステップと、
    前記第一帯域音声信号の前記セグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせるステップと、
    前記第一帯域音声信号の前記セグメントが無声である場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、前記高周波における第二帯域拡張を生じさせるステップと、
    前記第一及び第二帯域拡張を用いて、前記第一帯域音声信号を前記高域カットオフ周波数より高く拡張するステップと
    を含む方法。
  2. 前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数を特定するステップと、
    前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数より低い低周波を増幅して、低周波における帯域拡張を生じさせるステップと、
    前記低周波における帯域拡張を用いて、前記第一帯域音声信号を前記低域カットオフ周波数より低く拡張するステップと
    をさらに含む、請求項1記載の方法。
  3. 前記第一帯域音声信号の前記セグメントが有声、無声、及び音楽のいずれであるかを判定するステップと、
    前記第一帯域音声信号の前記セグメントが音楽である場合に、当該第一帯域音声信号の当該セグメントに第三帯域拡張関数を適用して、前記高周波における第三帯域拡張を生じさせるステップと
    をさらに含む、請求項1記載の方法。
  4. 前記第一及び第二帯域拡張を用いる前記ステップは、前記第一帯域音声信号の前記セグメントが無声及び有声のいずれであるかに基づいて、前記第一及び第二帯域拡張の異なる部分を用いる、請求項1記載の方法。
  5. 前記第一帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項1記載の方法。
  6. 前記第二帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項5記載の方法。
  7. 前記第一及び第二帯域拡張を用いる前記ステップは、
    Figure 2013515287
    を用いて、前記第一及び第二帯域拡張を適応的に混合するステップを有し、
    適応バランスは、
    Figure 2013515287
    と定義され、係数「v」は、各関数の混合比を決定する、請求項6記載の方法。
  8. 有声の音声セグメントに対しては、前記第一及び第二帯域拡張関数の寄与が等しくなるように、q(v)に50%が選択される、請求項7記載の方法。
  9. 無声の音声セグメントに対しては、前記第二帯域拡張関数の寄与が大きくなるように、q(v)に10%が選択される、請求項7記載の方法。
  10. 前記第二帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項5記載の方法。
  11. 第一帯域音声信号の帯域幅を拡張して、当該第一帯域音声信号より広く、かつ当該第一帯域音声記号を含む第二帯域音声信号を生成する装置であって、
    低域カットオフ周波数と高域カットオフ周波数とを有する前記第一帯域音声信号のセグメントを受信し、前記第一帯域音声信号の前記セグメントの前記高域カットオフ周波数を特定するように構成されているプリプロセッサと、
    前記第一帯域音声信号の前記セグメントが有声及び無声のいずれであるかを判定するように構成されている音声アクティビティ検出器と、
    プロセッサと
    を備え、当該プロセッサは、
    前記第一帯域音声信号の前記セグメントが有声である場合に、当該第一帯域音声信号の当該セグメントに第一帯域拡張関数を適用して、高周波における第一帯域拡張を生じさせ、
    前記第一帯域音声信号の前記セグメントが無声の場合に、当該第一帯域音声信号の当該セグメントに第二帯域拡張関数を適用して、前記高周波における第二帯域拡張を生じさせ、
    前記第一及び第二帯域拡張を用いて、前記第一帯域音声信号を前記高域カットオフ周波数より高く拡張する
    ように構成されている、装置。
  12. 前記プリプロセッサはさらに、前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数を特定するように構成され、
    前記プロセッサはさらに、
    前記第一帯域音声信号の前記セグメントの前記低域カットオフ周波数より低い低周波を増幅して、低周波における帯域拡張を生じさせ、
    前記低周波における帯域拡張を用いて、前記第一帯域音声信号を前記低域カットオフ周波数より低く拡張する
    ように構成されている、請求項11記載の装置。
  13. 前記音声アクティビティ検出器はさらに、前記第一帯域音声信号の前記セグメントが有声、無声、及び音楽のいずれであるかを判定するように構成され、
    前記プロセッサはさらに、前記第一帯域音声信号の前記セグメントが音楽である場合に、当該第一帯域音声信号の当該セグメントに第三帯域拡張関数を適用して、前記高周波における第三帯域拡張を生じさせるように構成されている、
    請求項11記載の装置。
  14. 前記プロセッサは、前記第一帯域音声信号の前記セグメントが無声及び有声のいずれであるかに基づいて、前記第一及び第二帯域拡張の異なる部分を用いるように構成されている、請求項11記載の装置。
  15. 前記第一帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項11記載の装置。
  16. 前記第二帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項15記載の装置。
  17. 前記プロセッサは、
    Figure 2013515287
    を用いて、前記第一及び第二帯域拡張を適応的に混合するように構成され、
    適応バランスは、
    Figure 2013515287
    と定義され、係数「v」は、各関数の混合比を決定する、請求項16記載の装置。
  18. 有声の音声セグメントに対しては、前記第一及び第二帯域拡張関数の寄与が等しくなるように、q(v)に50%が選択される、請求項17記載の装置。
  19. 無声の音声セグメントに対しては、前記第二帯域拡張関数の寄与が大きくなるように、q(v)に10%が選択される、請求項17記載の装置。
  20. 前記第二帯域拡張関数は、
    Figure 2013515287
    と定義され、xは前記第一帯域音声信号である、請求項11記載の装置。
JP2012545928A 2009-12-21 2010-12-16 音声帯域拡張方法及び音声帯域拡張システム Expired - Fee Related JP5620515B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US28462609P 2009-12-21 2009-12-21
US61/284,626 2009-12-21
US12/661,344 2010-03-15
US12/661,344 US8447617B2 (en) 2009-12-21 2010-03-15 Method and system for speech bandwidth extension
PCT/US2010/003205 WO2011084138A1 (en) 2009-12-21 2010-12-16 Method and system for speech bandwidth extension

Publications (2)

Publication Number Publication Date
JP2013515287A true JP2013515287A (ja) 2013-05-02
JP5620515B2 JP5620515B2 (ja) 2014-11-05

Family

ID=44152338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012545928A Expired - Fee Related JP5620515B2 (ja) 2009-12-21 2010-12-16 音声帯域拡張方法及び音声帯域拡張システム

Country Status (5)

Country Link
US (1) US8447617B2 (ja)
EP (1) EP2517202B1 (ja)
JP (1) JP5620515B2 (ja)
KR (1) KR101355549B1 (ja)
WO (1) WO2011084138A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017510836A (ja) * 2014-02-13 2017-04-13 クアルコム,インコーポレイテッド オーディオ信号の高調波帯域幅拡張
JP2017530409A (ja) * 2014-09-26 2017-10-12 サイファ,エルエルシー ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
JP2020512594A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE47180E1 (en) * 2008-07-11 2018-12-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8583425B2 (en) * 2011-06-21 2013-11-12 Genband Us Llc Methods, systems, and computer readable media for fricatives and high frequencies detection
TWI626645B (zh) * 2012-03-21 2018-06-11 南韓商三星電子股份有限公司 編碼音訊信號的裝置
US20150269952A1 (en) * 2012-09-26 2015-09-24 Nokia Corporation Method, an apparatus and a computer program for creating an audio composition signal
US9258428B2 (en) 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
US9319510B2 (en) * 2013-02-15 2016-04-19 Qualcomm Incorporated Personalized bandwidth extension
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
WO2019142514A1 (ja) 2018-01-17 2019-07-25 日本電信電話株式会社 復号装置、符号化装置、これらの方法及びプログラム
US11363147B2 (en) 2018-09-25 2022-06-14 Sorenson Ip Holdings, Llc Receive-path signal gain operations
CN113113032A (zh) * 2020-01-10 2021-07-13 华为技术有限公司 一种音频编解码方法和音频编解码设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254223A (ja) * 1990-03-02 1991-11-13 Eastman Kodak Japan Kk アナログデータ伝送方式
JPH0876798A (ja) * 1994-09-02 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH11126098A (ja) * 1997-10-23 1999-05-11 Sony Corp 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
JP2002082685A (ja) * 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2004266383A (ja) * 2003-02-27 2004-09-24 Oki Electric Ind Co Ltd 帯域補正装置
WO2006062202A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
WO2009110751A2 (ko) * 2008-03-04 2009-09-11 Lg Electronics Inc. 오디오 신호 처리 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
KR100614496B1 (ko) * 2003-11-13 2006-08-22 한국전자통신연구원 가변 비트율의 광대역 음성 및 오디오 부호화 장치 및방법
EP1875464B9 (en) * 2005-04-22 2020-10-28 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
US8041577B2 (en) * 2007-08-13 2011-10-18 Mitsubishi Electric Research Laboratories, Inc. Method for expanding audio signal bandwidth
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
GB2466668A (en) * 2009-01-06 2010-07-07 Skype Ltd Speech filtering
BR112012012119A2 (pt) * 2009-11-19 2021-01-05 Telefonaktiebolaget Lm Ericsson (Publ) Extensão de largura de banda de um sinal de áudio de banda baixa

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03254223A (ja) * 1990-03-02 1991-11-13 Eastman Kodak Japan Kk アナログデータ伝送方式
JPH0876798A (ja) * 1994-09-02 1996-03-22 Nippon Telegr & Teleph Corp <Ntt> 広帯域音声信号復元方法
JPH11126098A (ja) * 1997-10-23 1999-05-11 Sony Corp 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
JP2002082685A (ja) * 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2004266383A (ja) * 2003-02-27 2004-09-24 Oki Electric Ind Co Ltd 帯域補正装置
WO2006062202A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
WO2009110751A2 (ko) * 2008-03-04 2009-09-11 Lg Electronics Inc. 오디오 신호 처리 방법 및 장치
JP2011514558A (ja) * 2008-03-04 2011-05-06 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017510836A (ja) * 2014-02-13 2017-04-13 クアルコム,インコーポレイテッド オーディオ信号の高調波帯域幅拡張
JP2017530409A (ja) * 2014-09-26 2017-10-12 サイファ,エルエルシー ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
JP2020512594A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号のスペクトル強調処理に関する所定の特性を決定するための装置および方法
JP2020512593A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法
JP2020512591A (ja) * 2017-03-31 2020-04-23 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号を処理するための装置および方法
US11170794B2 (en) 2017-03-31 2021-11-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
JP7059301B2 (ja) 2017-03-31 2022-04-25 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 音響信号の人為的帯域幅制限処理に関する所定の特性を決定するための装置および方法

Also Published As

Publication number Publication date
US20110153318A1 (en) 2011-06-23
WO2011084138A1 (en) 2011-07-14
US8447617B2 (en) 2013-05-21
EP2517202A1 (en) 2012-10-31
KR20120107966A (ko) 2012-10-04
KR101355549B1 (ko) 2014-01-24
JP5620515B2 (ja) 2014-11-05
EP2517202B1 (en) 2018-07-04

Similar Documents

Publication Publication Date Title
JP5620515B2 (ja) 音声帯域拡張方法及び音声帯域拡張システム
US8229106B2 (en) Apparatus and methods for enhancement of speech
KR102060208B1 (ko) 적응적 음성 명료도 처리기
KR101914312B1 (ko) 감지된 스펙트럼 불균형의 개선을 위한 오디오 신호의 동적 보상
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
JP5551258B2 (ja) 狭帯域信号から「より上の帯域」の信号を決定すること
KR101214684B1 (ko) 대역폭 확장 시스템에서 고-대역 에너지를 추정하기 위한 방법 및 장치
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
JP4777918B2 (ja) 音声処理装置及び音声を処理する方法
US20100217606A1 (en) Signal bandwidth expanding apparatus
US6694018B1 (en) Echo canceling apparatus and method, and voice reproducing apparatus
JP2016535873A (ja) 適合的帯域幅拡張およびそのための装置
JP2009069856A (ja) 音声コーデックにおける擬似高帯域信号の推定方法
JP2017161917A (ja) 平均符号化レートを制御するためのシステムおよび方法
WO2012131438A1 (en) A low band bandwidth extender
JP5458057B2 (ja) 信号広帯域化装置、信号広帯域化方法、及びそのプログラム
JP2020190606A (ja) 音声雑音除去装置及びプログラム
JP2007226264A (ja) 雑音抑圧装置
WO2013054484A1 (ja) オーディオ信号出力装置およびオーディオ信号出力方法
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体
JP6565206B2 (ja) 音声処理装置および音声処理方法
JP6333043B2 (ja) 音声信号処理装置
WO2021214280A1 (en) Low cost adaptation of bass post-filter
CN116405822A (zh) 一种应用于开放式蓝牙耳机的低音增强系统及方法
Ekeroth Improvements of the voice activity detector in AMR-WB

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140902

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140918

R150 Certificate of patent or registration of utility model

Ref document number: 5620515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees