JP5111875B2 - スピーチ信号のスペクトル帯域幅を拡張する方法およびそのシステム - Google Patents

スピーチ信号のスペクトル帯域幅を拡張する方法およびそのシステム Download PDF

Info

Publication number
JP5111875B2
JP5111875B2 JP2007018580A JP2007018580A JP5111875B2 JP 5111875 B2 JP5111875 B2 JP 5111875B2 JP 2007018580 A JP2007018580 A JP 2007018580A JP 2007018580 A JP2007018580 A JP 2007018580A JP 5111875 B2 JP5111875 B2 JP 5111875B2
Authority
JP
Japan
Prior art keywords
speech signal
bandwidth
signal
bandwidth limited
limited speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007018580A
Other languages
English (en)
Other versions
JP2007206691A (ja
Inventor
アイザー ベルント
シュミット ゲルハルト
Original Assignee
ニュアンス コミュニケーションズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニュアンス コミュニケーションズ, インコーポレイテッド filed Critical ニュアンス コミュニケーションズ, インコーポレイテッド
Publication of JP2007206691A publication Critical patent/JP2007206691A/ja
Application granted granted Critical
Publication of JP5111875B2 publication Critical patent/JP5111875B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Transmitters (AREA)

Description

本発明はスピーチ信号のスペクトル帯域幅を拡張する方法に関する。
スピーチは、人間の情報伝達の最も自然で便利な方法である。この理由の一つには、19世紀の発明である電話システムの偉大なる成功がある。今日、加入者は、特にラジオ、コンパクトディスク、またはDVDなどといった他の音源と比較した場合、電話システムによって提供されるサービスの品質に、常に満足しているわけではない。アナログの電話システムを用いたスピーチの品質の低下は、長い加入者回線において、所定の信号レベルを保つために用いられる増幅器内に、帯域制限フィルタを導入することによって生じる。これらのフィルタは、約300Hzから3400Hzまでの通過帯域を有しており、異なるチャネル間のクロストークを低減するために適用される。しかしながら、そのような帯域通過フィルタを用いると、約50Hzから6000Hz間の範囲に亘る人間のスピーチの異なる周波数部分を相当に減衰する。約3400Hzから6000Hzの間の範囲における失われた周波数部分はスピーチの知覚可能性に影響を与え、その一方で、50Hzから300Hzの間の失われた低周波数構成要素は、結果として、より低いスピーチ品質を生じる。
近年、電話におけるスピーチ信号の品質を向上する多大な努力がなされている。電話におけるスピーチ信号の品質を向上する一つの実現性は、帯域幅の拡張によって送信後の帯域幅を増加させることである。これらの強化の基本的なアイデアは、3400Hz以上および300Hz以下のスピーチ信号要素を構築し、かつこの推定を用いて信号を補完することである。この場合、電話ネットワークには全く手を加えないことが可能である。当該技術分野において、帯域幅拡張方法は、スピーチ信号のスペクトルエンベロープが決定され、励起信号がそのエンベロープを取り除くことによって生成される方法であることが知られている。これらの方法において、コードブックの対およびニューラルネットワークが用いられ得る。しかしながら、これらの方法は、多くのメモリおよび処理性能を必要とする。
従来技術における方法は、エンベロープを決定し、かつ後の信号要素を取り除くために、長い期間をかけて平均化されなければならず、その結果、その信号処理が信号入力から信号出力までの間の遅延を引き起こすという弱点をさらに有する。特に、電話通信ネットワークにおいて、信号の遅延は、通話回線の相手方の加入者に対してスピーチ品質を悪化させないために、所定の値へと制限されている。
したがって、電話通信システムにおけるスピーチ品質を改善し、容易にインプリメントでき、信号遅延が最小化される方法を提供する必要性が存在する。
この要求は、独立請求項の特徴によって満たされる。従属請求項において、本発明の好適な実施の形態が記載される。
本発明の第1の局面に従い、基本周波数の少なくとも高調波を含む帯域幅制限されたスピーチ信号のスペクトル帯域幅を拡張する方法が提供される。本発明に従うと、非線形関数は、該帯域幅制限されたスピーチ信号において減衰された該スピーチ信号の低周波数要素を生成するために、該帯域幅制限されたスピーチ信号に適用される。本方法は、公知の方法に優るいくつかの利点を有する。まず、スピーチ信号のスペクトルエンベロープを計算する必要はない。その結果、拡張された帯域幅信号を計算する処理における処理の必要条件は、当該技術分野において公知なシステムよりも低い。さらに、本発明に従った方法は、上述の方法を用いて作動するシステムは遅延無く作動するという利点を有する。全てのスピーチ信号は異なる周波数要素からなる。それぞれのスピーチ信号は基本周波数を有し、高調波は基本周波数の整数の倍数である。電話通信システムにおいて、基本周波数および第1の高調波は、電話通信システムの送信システムによって減衰され得、除去され得る。したがって、スピーチシステムは、殆ど常に、高調波のみを含み、帯域通過フィルタによって除去された基本周波数を含まない。そのようなスピーチ信号が基本周波数の高調波を含む場合において、低周波数要素、すなわち高調波、ひいては第1の高調波は、非線形関数を帯域幅制限されたスピーチ信号に適用することによって生成され得る。
本発明の好適な実施形態に従うと、非線形関数は以下の二次関数である。
係数c、c、およびcは時間nに依存する。この非線形関数、すなわち、この二次関数は、帯域幅制限されたスピーチ信号に含まれていない信号要素を生成するために用いられる。この二次関数の利点は、基本周波数の整数の倍数であるスピーチ信号に対して、より大きな高調波および基本周波数要素が生成されるということである。これらの非線形関数の弱点は、スピーチ信号が動的に変化されるということである。通常、その動的変化は、使用される関数の指数とともに増加する。これが、この場合において、関数の指数が2に制限されている、すなわち、二次関数が用いられる理由である。
本発明の別の局面に従い、帯域幅制限されたスピーチ信号の絶対値の最大値Xmax(n)が決定される。帯域幅制限されたスピーチ信号のこの最大値は、サンプルのデジタルスピーチ信号の各値に対して決定され得、ここで、時間n−1における最大値は、時間nにおける最大値を調整するために用いられ得る。この最大値は、非線形関数の係数c、c、およびcを決定するために用いられ得る。本発明の好適な実施形態に従い、係数は、
のように、決定され、Knl,1,Knl,2,gmax,εは所定の定数であり、xmax(n)は、帯域幅制限されたスピーチ信号の絶対値の短時間最大値であり、xmit(n)は、非線形関数の出力の短時間平均値である。
maxの決定は、帯域幅制限されたスピーチ信号に適用される二次関数が用いられる場合、動的変化を制限するのに役立つ。係数においては、異なる定数に対して以下の値が使用される。好適な実施形態に従い、定数Knl,1は、0.5から1.5の間の範囲に存在し、好ましくは1.2である。定数Knl,2は、0.1から2の間の範囲であり、好ましくは1である。定数gmaxは、好ましくは1から3の間であり、好ましくは2である。定数εは、0による除算を避けるために用いられる。εに対しては、10−5などの非常に小さい値が用いられ得る。
本発明の別の実施形態に従い、方法は、非線形関数を帯域幅制限されたスピーチ信号に適用した後、定数要素を取り除くステップをさらに包含する。二次関数がスピーチ信号に対して乗算される場合、定数要素が生成される。係数c(n)は、この定数要素を取り除くために用いられる。cを決定するための等式において、値xmit(n)が用いられる。この値は、以下の等式
により、一次再帰を用いて計算される。
時間定数βmitは、0.95<βmit<0.9995の範囲から選択され得る。
非線形関数が帯域幅制限されたスピーチ信号に適用される場合、後者は、帯域幅制限されたスピーチ信号事態に既に含まれているか、または、約0Hzから50Hzまたは100Hzの範囲における低信号要素であって、声の信号要素を含まないもののいずれかである信号要素を含む。好適な実施形態に従い、非線形関数を適用した後の信号は、所定の値よりも低い低周波数信号要素を減衰するために、ハイパスフィルタリングされる。この値は、50Hzから100Hzの間において選択され得、スピーチ信号が男性の信号または女性の信号であるかどうかという事実に依存し得る。このハイパスフィルタは、一次のバターワースフィルタ(無限インパルス応答フィルタ)であり得る。このハイパスフィルタの出力信号
は、以下の等式
に従う。
フィルタ係数ahpおよびbhpに対して、以下の値(ahp=0.99およびbhp=0.95)が適切な値であることが証明されている。これらのフィルタ係数は上述の値に近い範囲から選択され得ることは理解されるべきである。
拡張された信号は、オリジナルの帯域幅制限されたスピーチ信号に既に含まれている要素をさらに含む。これらの信号要素を取り除くために、帯域幅制限されたスピーチ信号に含まれる信号要素が除去されるように、その信号はローパスフィルタリングされる。これらの2つのフィルタリングのステップの後、スピーチ信号は、帯域幅制限されたスピーチ信号において減衰された低周波数要素を有したままである。例示のために、結果としてのフィルタリングされた信号は、約50Hzまたは100Hzから300Hzの間における範囲の信号要素を有し得る。
次のこともまた重要であるが、この低周波数スピーチ信号は帯域幅制限されたスピーチ信号に加えられ、その結果、改善された帯域幅拡張されたスピーチ信号を生じる。その拡張されたスピーチ信号もまた低周波数要素を有するという事実のために、スピーチ信号の品質は改善され得る。本発明の別の実施形態に従い、帯域幅制限されたスピーチ信号の周波数スペクトルの帯域幅の低い方の端が決定され得、所定の周波数スペクトルが帯域幅制限されたスピーチ信号に含まれていない場合、低周波数要素は上述のように生成され、帯域幅制限された信号に加えられる。帯域幅制限されたスピーチ信号の帯域幅の低い方の端が知られている場合、非線形関数の適用によって生成された信号におけるより高い周波数を除去するためのローパスフィルタは適宜に適合され得る。
本発明の別の実施形態に従い、帯域幅制限されたスピーチ信号の平均基本関数が決定され得る。該平均基本周波数以下の信号要素は、声の要素を含むのではなく、ノイズを含む。スピーチ信号の平均基本周波数が知られている場合、ハイパスフィルタリングは、該平均基本周波数に適合され得る。
本発明の好適な実施形態に従い、帯域幅制限されたスピーチ信号は電話通信ネットワークを介して送信されたスピーチ信号であり、スピーチ信号の低信号要素が除去される。しかしながら、スピーチ信号は、そのスピーチ信号の帯域幅が信号の送信のために制限される任意の他の送信システムを介して送信されることもまた可能である。本発明はさらに、上述のような、スペクトル帯域幅を拡張するためのシステムに関し、そのシステムは、帯域幅制限されたスピーチ信号の最大信号強度を決定する決定ユニットと、帯域幅制限されたスピーチ信号に含まれていないスピーチ信号の低周波数要素を生成するために、非線形関数が帯域幅制限されたスピーチ信号に適用される、処理ユニットとを備える。さらに、ハイパスフィルタは、非線形関数を帯域幅制限されたスピーチ信号に適用した後、信号をハイパスフィルタリングするために提供される。さらに、ローパスフィルタは、非線形関数を帯域幅制限されたスピーチ信号に適用した後、好適には、ハイパスフィルタを適用した後、信号をフィルタリングするために提供される。さらに、帯域幅拡張された、改善されたスピーチ信号を得るために、加算器は、オリジナルの帯域幅制限されたスピーチ信号をハイパスフィルタリングおよびローパスフィルタリングされた信号に加えるシステムにおいて提供され得る。
スピーチ信号が拡張されるべきかどうかを知るために、スピーチ信号の帯域幅を決定し、次いで、周波数要素を加える必要があるかどうかを決定する帯域幅決定ユニットが提供される。
さらに、スピーチ信号の平均基本周波数を決定する基本周波数決定ユニットが提供され得る。平均基本周波数のこの知識を用いて、ハイパスフィルタは適宜に適合され得る。基本周波数以下の信号要素は除去され得る。
本発明のこれらおよび他の局面は以下に記載の実施形態から明らかになる。
本発明はさらに以下の手段を備える。
(項目1)
基本周波数の少なくとも高調波を含む帯域幅制限されたスピーチ信号のスペクトル帯域幅を拡張する方法であって、非線形関数は、該帯域幅制限されたスピーチ信号において減衰された該スピーチ信号の低周波数要素を生成するために、該帯域幅制限されたスピーチ信号に適用される、方法。
(項目2)
上記非線形関数が以下の二次関数
であり、係数c0、c1、およびc2は時間nに依存していることを特徴とする、項目1に記載の方法であって、上記帯域幅制限されたスピーチ信号に対して該非線形関数を適用し、その結果、第1の拡張されたスピーチ信号を生じる、方法。
(項目3)
上記帯域幅制限されたスピーチ信号の最大値xmax(n)を決定するステップをさらに包含することを特徴とする、項目1または2に記載の方法。
(項目4)
上記係数が、
のように、決定されることを特徴とする、項目3に記載の方法であって、
nl,1,Knl,2,gmax,εは所定の定数であり、xmax(n)は、帯域幅制限されたスピーチ信号の絶対値の短時間最大値であり、xmit(n)は、非線形関数の出力の短時間平均値である、方法。
(項目5)
上記非線形関数を上記帯域幅制限されたスピーチ信号に適用した後、上記定数要素を取り除くステップをさらに包含することを特徴とする、項目1〜4のいずれか一項に記載の方法。
(項目6)
所定の値よりも低い低周波数信号要素を減衰するために、上記非線形関数を上記帯域幅制限されたスピーチ信号に適用した後、該信号をハイパスフィルタリングするステップをさらに包含することを特徴とする、項目1〜5のいずれか一項に記載の方法。
(項目7)
上記非線形関数を上記帯域幅制限されたスピーチ信号に適用した後、該信号をローパスフィルタリングするステップをさらに包含することを特徴とする、項目1〜6のいずれか一項に記載の方法であって、該帯域幅制限されたスピーチ信号に含まれる該信号要素は除去され、その結果、該帯域幅制限されたスピーチ信号において減衰された周波数要素を有する低周波数スピーチ信号を生じる、方法。
(項目8)
上記低周波数スピーチ信号を上記帯域幅制限されたスピーチ信号に加えるステップをさらに包含し、その結果、改善された帯域幅拡張されたスピーチ信号を生じることを特徴とする、項目7に記載の方法。
(項目9)
上記帯域幅制限されたスピーチ信号の周波数スペクトルの帯域幅の低い方の端を決定するステップをさらに包含し、所定の周波数スペクトルが該帯域幅制限されたスピーチ信号に含まれていない場合、低周波数要素が生成され、該帯域幅制限されたスピーチ信号に加えられることを特徴とする、項目1〜8のいずれか一項に記載の方法。
(項目10)
上記帯域幅制限されたスピーチ信号に既に含まれている周波数要素をフィルタ除去するローパスフィルタは、該スピーチ信号の決定された帯域幅にしたがって調整される、項目9に記載の方法。
(項目11)
上記帯域幅制限されたスピーチ信号の平均基本周波数を決定するステップをさらに包含することを特徴とする、項目1〜10のいずれか一項に記載の方法であって、上記ハイパスフィルタリングすることは該平均基本周波数に適合される、方法。
(項目12)
上記帯域幅制限されたスピーチ信号は、上記スピーチ信号のうちの低信号要素をフィルタ除去する電話通信ネットワークを介して送信されたスピーチ信号である、項目1〜11のいずれか一項に記載の方法。
(項目13)
帯域幅制限されたスピーチ信号のスペクトル帯域幅を拡張するシステムであって、
該帯域幅制限されたスピーチ信号の最大信号強度を決定する決定ユニット(31)と、
所定の信号要素よりも低いスピーチ信号の低周波数要素を生成するために、非線形関数が該帯域幅制限されたスピーチ信号に適用される、処理ユニット(32)と、
該非線形関数を該帯域幅制限されたスピーチ信号に適用した後、該信号をハイパスフィルタリングするためのハイパスフィルタ(33)と、
該非線形関数を該帯域幅制限されたスピーチ信号に適用した後、該信号をフィルタリングするローパスフィルタ(34)と、
該ハイパスフィルタリングおよびローパスフィルタリングされた信号が、オリジナルの帯域幅制限されたスピーチ信号に加えられる、加算器(35)と
を備える、システム。
(項目14)
上記帯域幅制限されたスピーチ信号の帯域幅を決定する帯域幅決定ユニット(61)をさらに備える、項目13に記載のシステム。
(項目15)
上記帯域幅制限されたスピーチ信号の平均基本周波数を決定する基本周波数決定ユニット(63)をさらに備える、項目13または14に記載のシステム。
(摘要)
本発明は、基本周波数の少なくとも高調波を含む帯域幅制限されたスピーチ信号のスペクトル帯域幅を拡張する方法に関し、非線形関数は、該帯域幅制限されたスピーチ信号において減衰された該スピーチ信号の低周波数要素を生成するために、該帯域幅制限されたスピーチ信号に適用される。
本発明により、電話通信システムにおけるスピーチ品質を改善し、容易にインプリメントでき、信号遅延が最小化される方法が提供され得る。
図1において、本発明にしたがった帯域幅拡張が用いられ得る電話通信システムが示される。電話通信システムの第1の加入者10はその電話通信システムの第2の加入者11と通信する。第1の加入者からのスピーチ信号はネットワーク15を介して送信される。点線は、送信されたスピーチ信号が呼のルーティングに依存して生じる帯域幅制限を被る位置を示す。アナログ電話システムを用いたスピーチ品質の低下は、増幅器内の帯域制限フィルタ(これらのフィルタは通常、約300Hzから約3400Hzの帯域幅を有する)によって生じる。スピーチ信号を受信する加入者11に対するスピーチ品質を向上させる一つの実現性は、帯域幅拡張ユニット16を用いた送信後に帯域幅を増加させることである。電話通信システムからの信号出力はx(n)である。帯域幅拡張ユニット16において、拡張されたスピーチ信号y(n)が加入者11に送信される前に、その帯域幅は拡張される。本例において、約50Hzから300Hzのスピーチ信号の低スペクトル要素が生成される。拡張されたサウンド信号において、そのサウンドはより自然であり、様々な聴取から示されるように、そのスピーチ品質は一般に向上されている。
図2において、GSMネットワークを介しての送信前および送信後の信号のスペクトルが示される。この場合、セル式電話は信号を受信するために用いられる。図2において、グラフ21は、加入者10から発せられた場合の信号のスペクトルを示す。さらに、スペクトル22は、その信号が帯域幅拡張ユニット16に入力される前に測定されたものとして示される。通信システムの出力信号22から見ることができるように、低周波数要素は、大いに減衰されている。300Hzにおいて減衰は既に10dBである。
図3において、低周波数範囲において、帯域幅制限された信号22の帯域幅を拡張するために用いられ得るシステムが示される。電話通信システムを介して受信された帯域幅制限されたスピーチ信号x(n)は、まず、最大決定ユニットに入力され、そこで、時間nに依存する短時間最大値xmaxが推定される。この最大値は、前の推定された最大値の倍数補正(multiplicative correction)を用いて推定される。その最大値は以下の等式によって決定される。
この推定において、二つの定数である減衰定数Δdekおよび増分定数Δinkが用いられる。この再帰的な式において、この二つの定数であるΔdekおよびΔinkは以下の条件
を満たし得る。
さらに、定数Kmaxが用いられ、以下の区間
から選択され得る。
定数Kmaxは、低閾値Kmaxによって推定された最大値を制限するために用いられる。この式を用いて、最大値がスピーチ信号の実際の最大値にどの程度、近似しているかが決定される。Kmaxが低閾値0.25の場合、このことは、推定された最小値が少なくとも実際の値の四分の一であることを意味する。最も高い閾値4は、推定された最大値が、実際の最大値よりも4倍も大きくなり得ることを意味する。二つの定数であるΔdekおよびΔinkは、1.001<Δink<2の区間から選択され得、定数Δdekは、0.5<Δdek<0.999の区間から選択され得る。KmaxならびにΔdekおよびΔinkの以下の値
が用いられ得ることを試験が示している。
帯域幅制限されたスピーチ信号はまた、非線形関数が帯域幅制限されたスピーチ信号に適用される処理ユニット32に供給される。その記載の導入部分において説明されるように、基本周波数の高調波を含むスピーチ信号が非線形関数を用いて乗算される場合に、帯域幅拡張は得られ得る。この状況において、以下の二次関数(1)
が用いられる。
スピーチ信号において、基本周波数は、スピーチ信号を発する側の人間に依存する。男性の声の信号は50Hzから100Hzの間の基本周波数を有し得、他方で、女性の声、または子供の声の基本周波数は、約150Hzから200Hzの基本周波数を有し得る。図2において見られ得るように、これらの基本周波数は、大いに減衰されているか、または、帯域幅制限されたスピーチ信号において抑制されている。第1の高調波、ひいては第2の高調波もまた、大いに減衰され得る。上述の二次関数において、係数c、c、およびcは、時間変化の係数である。これらの時間変化の係数は、以下の理由のために用いられる。
二次関数が、信号上において/信号に対して適用される場合、その信号は、大幅に、動的に変化する。この大幅な動的変化を制限するために、時間変化の係数が用いられる。これは、係数が、処理ユニットの入力において存在している現在の入力信号に適合されることを意味している。その係数は、上述の等式(2)、(3)、および(4)によって計算され、他方で、上で計算された短時間最大値xmax(n)が、
のように、用いられる。
上の等式から見られ得るように、関数の二次項の係数cは、信号の動的変化を制限するために、分母の最大値xmaxを有する。その係数を計算するために用いられる他の定数は、以下の範囲
から選択され得る。
好適には、以下の値
が用いられ得る。
係数c(n)は、乗算に由来する定数要素を除去するために用いられる。cの計算に対して、上述の一次の再帰的な式(5)によって計算される値xmit(n)
が用いられる。
時間定数βmitは、以下の範囲
から選択され得る。
処理ユニット32の結果としての信号出力は信号xnl(n)である。この拡張されたスピーチ信号は、300Hzまでの範囲において低周波数要素を有するが、300Hzから3400Hzの間の範囲において、帯域幅制限されたスピーチ信号x(n)の信号要素をも含む。以下において、不必要な信号要素は取り除かれる必要がある。上述にて説明されたように、基本スピーチ周波数以下(例えば、100Hz以下)の信号要素は、声の信号の一部ではない信号要素である。例示の目的で、第1の加入者10が車両内にて携帯電話を用いている場合、その車両の周囲のサウンドは、基本スピーチ周波数以下の低要素を有し得る。これらの低信号要素は、図3に示されるハイパスフィルタ33において取り除かれ得る。好適な実施形態において、ハイパスフィルタは、一次バターワースフィルタであり得る。このバターワースフィルタの出力信号
は、以下の等式
によって計算される。
フィルタ係数ahpおよびbhpの以下の値
が適切であることが見出された。
ハイパスフィルタ33における低信号要素を取り除いた後、オリジナルの帯域幅制限されたスピーチ信号x(n)に含まれる信号要素は、信号
に依然として存在している。電話通信システムおよび全てのより高い信号要素によって送信されたこれらの信号要素は、ローパスフィルタ34を用いることによって除去され得る。出力信号enl(n)は以下の等式
によって表現され得る。
この状況において、Ntp,ma=Ntp,ar=4〜7次のチェビシェフ(Tschebyscheff)のローパスフィルタが適切であることが証明されている。ローパスフィルタ34における所望の信号要素を除去した後、出力信号enl(n)は、電話通信システムにおいて除去されたスピーチ信号の低周波数要素(例えば、50Hzまたは100Hzから約300Hzの間における信号要素)を含む。これらの低信号要素は、加算器35において、帯域幅制限されたスピーチ信号x(n)に加算され、帯域幅拡張されたスピーチ信号y(n)を結果として生じる。さらに、重み付け因子gnlは、以下の等式
によって見ることができるように、低信号要素を減衰または増幅のいずれかをするために用いられ得る。
因子gnlは1として選択され得、その結果、帯域幅制限されたスピーチ信号に対する低周波数要素の増幅または減衰は得られない。異なる実施形態に依存して、因子gnlは、0.001から4の間の範囲に存在し得る。
図5において、スピーチ信号の時間に沿った周波数の分析が示される。図5aにおいて、第1の加入者によって発せられたスピーチ信号の信号要素が示される。その信号は、ユーザの口付近にて直接、記録されたものである。図5aに示された信号が電話通信ネットワークを介して別のセル式電話に送信された場合、受信され、デコードされた信号は、図5bに示される周波数要素を有する。300Hz以下の失われた低信号要素が明瞭に示されている。図3と関連して説明されたように、図5bに示される信号を処理した後、図5cに示されるように、その信号は得られ得る。図5cから見られ得るように、低信号要素は再構築され得る。図5aおよび図5cが完全に一致しない場合においても、図5cに示された信号の信号品質は、図5bに示された信号の信号品質よりも改善されている。
図4において、帯域幅制限されたスピーチ信号の帯域幅を拡張するために必要とされる異なるステップが要約されている。ステップ41において方法を開始した後、スピーチ信号の最大値xmax(n)は、決定ユニット31において決定される(ステップ42)。最大値xmax(n)を用いて、等式(1)の非線形関数は、ステップ43において決定され得る。この非線形関数は次いで、処理ユニット32における帯域幅制限されたスピーチ信号に適用される(ステップ44)。その結果としての信号xnl(n)は次いで、基本スピーチ周波数以下のノイズ要素を取り除くために、ハイパスフィルタ33においてハイパスフィルタリングされる(ステップ45)。次のステップ46において、信号
は、帯域幅制限されたスピーチ信号それ自体に既に含まれている信号要素を取り除くために、ローパスフィルタリングされる。次のこともまた重要であるが、フィルタ信号enl(n)は、次いで、ステップ47において、オリジナルの帯域幅制限されたスピーチ信号に加えられ、その結果、低周波数要素、基本周波数、ひいては第1の高調波が含まれる、改善されたスピーチ信号y(n)を生じる。帯域幅拡張はステップ48にて終了する。
図6において、帯域幅拡張のシステムのさらなる実施形態が示される。図6のシステムは、図3に示されたシステムと同じ要素を含むが、それらの要素は、図3に関連して記載されたものと同じ参照番号を有し、同様に動作する。したがって、これらの要素の詳細な記載は省略される。
スピーチ信号の減衰は、信号を記録するために用いられるマイクロフォン、あるいは、信号がコード化される方法、または、第1の加入者の電話または電話通信ネットワークにおける信号処理のそれぞれに依存し得る。その結果、広範囲の周波数に亘るスピーチ信号の大幅な減衰が生じ得る。その他の場合、信号の減衰はそれほど顕著ではない場合もあり、または、その信号は、低周波数範囲においては全く減衰されない。低周波数が減衰される場合、これらの低周波数が生成され、その信号に加えられる必要がある。しかしながら、低周波数が信号に存在している場合、信号要素はその信号に加えられる必要はない。異なる減衰状況において反応することができるために、スピーチ信号に存在する周波数を検出することが役立ち得る。これは、帯域幅決定ユニット61においてなされ得、その帯域幅決定ユニット61においては、信号の周波数要素が分析され、結果として、どの周波数要素が送信されているか、およびどの周波数要素が減衰されているかが決定され得る。スピーチ信号x(n)の推定された周波数要素に依存して、ローパスフィルタ34は、決定されたスペクトルにしたがって制御され得る。この目的のために、計算ユニット62が提供され得、フィルタ係数atp,iおよびbtp,iが計算され、信号x(n)自体に既に含まれている要素が、ローパスフィルタ34において除去されるように、スピーチ信号の帯域幅に適合される。その適合されたフィルタ係数は次いで、ローパスフィルタに供給される。その信号が全ての信号要素を含む場合、そのシステムは、ローパスフィルタリングが実行されないように制御される。
以下において、図3に支援されたシステムの別の適合が記載される。既に上述されているように、基本周波数以下の信号要素はスピーチ要素を含まず、抑制される必要があり、ハイパスフィルタ33によってなされる。しかしながら、基本周波数は定数値ではなく、男性あるいは女性または子供の声は電話通信システムを介して転送されるかどうかという事実に依存し得る。この基本周波数は、50Hzから200Hzの間において変化し得る。したがって、ハイパスフィルタ33は、基本周波数に適合され得る。これは、基本周波数決定ユニット63によって達成され得、スピーチ信号の平均基本周波数が決定される。決定される基本周波数が非常に低い場合(例えば50Hz)、ハイパスフィルタリングは省略され得るか、または、ハイパスフィルタリングは、50Hz以下の信号のみは除去される方法において適合され得る。基本周波数が約200Hzの場合において、ハイパスフィルタ33は適宜に適合される必要があり、決定された基本周波数以下の周波数を除去する必要がある。平均基本周波数がユニット63において決定される場合、ハイパスフィルタに対するフィルタ係数は、フィルタ係数計算ユニット64において適宜に適合され得、次いで、ハイパスフィルタ33に供給される。
帯域幅決定ユニット61およびそれに対応するフィルタ係数計算ユニット62は、基本周波数決定ユニット63から独立して用いられ得る。これは、二つのユニット61およびユニット63のいずれか、またはユニット61およびユニット63の両方が用いられ得ることを意味する。
要約すると、本発明は、電話帯域制限されたスピーチ信号の低周波数部分を拡張し、スピーチ品質を向上することができる方法およびシステムを提供する。他の精巧な方法に優る利点は、記載された方法の、計算における非常に低い複雑性および遅延の縮減である。これらの利点は、可能な用途の範囲を広げる。スピーチ信号のエンベロープを計算する必要はない。したがって、そのシステムは、スピーチ信号における遅延を生成しない。さらに、記載された方法は、記録されたスピーチ信号、および記録するために用いられるハードウェア、またはISDN、GSMまたはCDMAなどの信号送信のために用いられるハードウェアの多くの異なる周波数特性と連動して用いられ得る。さらに、そのシステムは、例えば、信号が車両などの環境から送信される場合など、話者の環境に由来するノイズ要素を容易に扱うことが可能である。
以上のように、本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。
本発明の帯域幅拡張が用いられ得る電話通信システムを示す。 電話通信ネットワークを介した送信前および送信後の信号のスペクトルを示す。 スピーチ信号の帯域幅を拡張するためのシステムを示す。 帯域幅拡張を実行する異なるステップを含むフローチャートを示す。 図5aは、スピーチ信号、送信後のスピーチ信号、および拡張されたスピーチ信号の周波数分析を示す。 図5bは、スピーチ信号、送信後のスピーチ信号、および拡張されたスピーチ信号の周波数分析を示す。 図5cは、スピーチ信号、送信後のスピーチ信号、および拡張されたスピーチ信号の周波数分析を示す。 スピーチ信号の帯域幅を拡張するシステムの別の実施形態を示す。
符号の説明
10 第1の加入者
11 第2の加入者
15 ネットワーク
16 帯域幅拡張ユニット
21、22 スペクトルグラフ
31 決定ユニット
32 処理ユニット
33 ハイパスフィルタ
34 ローパスフィルタ
35 加算器
61 帯域幅決定ユニット
62 計算ユニット
63 基本周波数決定ユニット
64 フィルタ係数計算ユニット

Claims (12)

  1. 基本周波数の少なくとも高調波を含む帯域幅制限されたスピーチ信号x(n)のスペクトル帯域幅を拡張する方法であって、
    該方法は、
    非線形関数を、該帯域幅制限されたスピーチ信号に適用することにより、拡張されたスピーチ信号x nl (n)を生成することを含み、
    該非線形関数が以下の二次関数

    であり、係数c0、c1、およびc2は時間nに依存しており、
    該係数が、

    のように、決定され、K nl,1 、K nl,2 、g max 、εは所定の定数であり、x max (n)は、該帯域幅制限されたスピーチ信号の絶対値の短時間最大値であり、x mit (n)は、該二次関数の短時間平均値である、方法。
  2. 前記非線形関数を前記帯域幅制限されたスピーチ信号に適用した後、前記定数要素を取り除くステップをさらに包含することを特徴とする、請求項に記載の方法。
  3. 所定の値よりも低い低周波数信号要素を減衰するために、前記非線形関数を前記帯域幅制限されたスピーチ信号に適用した後、該信号をハイパスフィルタリングするステップをさらに包含することを特徴とする、請求項1〜のいずれか一項に記載の方法。
  4. 前記非線形関数を前記帯域幅制限されたスピーチ信号に適用した後、該信号をローパスフィルタリングするステップをさらに包含することを特徴とする、請求項1〜のいずれか一項に記載の方法であって、該帯域幅制限されたスピーチ信号に含まれる該信号要素は除去され、その結果、該帯域幅制限されたスピーチ信号において減衰された周波数要素を有する低周波数スピーチ信号を生じる、方法。
  5. 前記低周波数スピーチ信号を前記帯域幅制限されたスピーチ信号に加えるステップをさらに包含し、その結果、改善された帯域幅拡張されたスピーチ信号を生じることを特徴とする、請求項に記載の方法。
  6. 前記帯域幅制限されたスピーチ信号の周波数スペクトルの帯域幅の低い方の端を決定するステップをさらに包含し、所定の周波数スペクトルが該帯域幅制限されたスピーチ信号に含まれていない場合、低周波数要素が生成され、該帯域幅制限されたスピーチ信号に加えられることを特徴とする、請求項1〜のいずれか一項に記載の方法。
  7. 前記帯域幅制限されたスピーチ信号に既に含まれている周波数要素をフィルタ除去するローパスフィルタは、該スピーチ信号の決定された帯域幅にしたがって調整される、請求項に記載の方法。
  8. 前記帯域幅制限されたスピーチ信号の平均基本周波数を決定するステップをさらに包含することを特徴とする、請求項1〜のいずれか一項に記載の方法であって、前記ハイパスフィルタリングすることは該平均基本周波数に適合される、方法。
  9. 前記帯域幅制限されたスピーチ信号は、前記スピーチ信号のうちの低信号要素をフィルタ除去する電話通信ネットワークを介して送信されたスピーチ信号である、請求項1〜のいずれか一項に記載の方法。
  10. 帯域幅制限されたスピーチ信号のスペクトル帯域幅を拡張するシステムであって、
    該帯域幅制限されたスピーチ信号の最大信号強度を決定する決定ユニット(31)と、
    所定の信号要素よりも低いスピーチ信号の低周波数要素を生成するために、非線形関数が該帯域幅制限されたスピーチ信号に適用される、処理ユニット(32)であって、該非線形関数が以下の二次関数

    であり、係数c0、c1、およびc2は時間nに依存しており、
    該係数が、

    のように、決定され、K nl,1 、K nl,2 、g max 、εは所定の定数であり、x max (n)は、該帯域幅制限されたスピーチ信号の絶対値の短時間最大値であり、x mit (n)は、該二次関数の短時間平均値である、処理ユニットと、
    該非線形関数を該帯域幅制限されたスピーチ信号に適用した後、該信号をハイパスフィルタリングするためのハイパスフィルタ(33)と、
    該非線形関数を該帯域幅制限されたスピーチ信号に適用した後、該信号をフィルタリングするローパスフィルタ(34)と、
    該ハイパスフィルタリングおよびローパスフィルタリングされた信号が、オリジナルの帯域幅制限されたスピーチ信号に加えられる、加算器(35)と
    を備える、システム。
  11. 前記帯域幅制限されたスピーチ信号の帯域幅を決定する帯域幅決定ユニット(61)をさらに備える、請求項10に記載のシステム。
  12. 前記帯域幅制限されたスピーチ信号の平均基本周波数を決定する基本周波数決定ユニット(63)をさらに備える、請求項10または11に記載のシステム。
JP2007018580A 2006-01-31 2007-01-29 スピーチ信号のスペクトル帯域幅を拡張する方法およびそのシステム Expired - Fee Related JP5111875B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP06001984A EP1814107B1 (en) 2006-01-31 2006-01-31 Method for extending the spectral bandwidth of a speech signal and system thereof
EP06001984.1 2006-01-31

Publications (2)

Publication Number Publication Date
JP2007206691A JP2007206691A (ja) 2007-08-16
JP5111875B2 true JP5111875B2 (ja) 2013-01-09

Family

ID=36228644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007018580A Expired - Fee Related JP5111875B2 (ja) 2006-01-31 2007-01-29 スピーチ信号のスペクトル帯域幅を拡張する方法およびそのシステム

Country Status (4)

Country Link
US (1) US7756714B2 (ja)
EP (1) EP1814107B1 (ja)
JP (1) JP5111875B2 (ja)
AT (1) ATE528748T1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521637B (zh) 2008-02-28 2012-07-18 华为技术有限公司 一种信道估计的方法、设备和系统
JP5493655B2 (ja) * 2009-09-29 2014-05-14 沖電気工業株式会社 音声帯域拡張装置および音声帯域拡張プログラム
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
WO2012169133A1 (ja) * 2011-06-09 2012-12-13 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP6174856B2 (ja) * 2012-12-27 2017-08-02 キヤノン株式会社 雑音抑制装置、その制御方法、及びプログラム
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
KR20180056032A (ko) 2016-11-18 2018-05-28 삼성전자주식회사 신호 처리 프로세서 및 신호 처리 프로세서의 제어 방법
US10841726B2 (en) 2017-04-28 2020-11-17 Hewlett-Packard Development Company, L.P. Immersive audio rendering

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3243174B2 (ja) * 1996-03-21 2002-01-07 株式会社日立国際電気 狭帯域音声信号の周波数帯域拡張回路
EP0994464A1 (fr) * 1998-10-13 2000-04-19 Koninklijke Philips Electronics N.V. Procédé destiné à génére un signal large bande a partir d'un signal en bande étroite, appareil pour realiser un tel procédé et equipement téléphonique comportant un tel appareil
DE10010037B4 (de) * 2000-03-02 2009-11-26 Volkswagen Ag Verfahren zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen
KR20040035749A (ko) * 2001-08-31 2004-04-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 사운드 신호의 대역폭 확장 방법
DE602004020765D1 (de) * 2004-09-17 2009-06-04 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten Tonsignalen
DE602005001048T2 (de) * 2005-01-31 2008-01-03 Harman Becker Automotive Systems Gmbh Erweiterung der Bandbreite eines schmalbandigen Sprachsignals
EP1772855B1 (en) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Method for extending the spectral bandwidth of a speech signal

Also Published As

Publication number Publication date
EP1814107B1 (en) 2011-10-12
JP2007206691A (ja) 2007-08-16
EP1814107A1 (en) 2007-08-01
US7756714B2 (en) 2010-07-13
ATE528748T1 (de) 2011-10-15
US20080059155A1 (en) 2008-03-06

Similar Documents

Publication Publication Date Title
JP5111875B2 (ja) スピーチ信号のスペクトル帯域幅を拡張する方法およびそのシステム
JP4681163B2 (ja) ハウリング検出抑圧装置、これを備えた音響装置、及び、ハウリング検出抑圧方法
US8676571B2 (en) Audio signal processing system and audio signal processing method
US7577263B2 (en) System for audio signal processing
AU666161B2 (en) Noise attenuation system for voice signals
US8085930B2 (en) Communication system
US20110137646A1 (en) Noise Suppression Method and Apparatus
US8538052B2 (en) Generation of probe noise in a feedback cancellation system
JPWO2006046293A1 (ja) 雑音抑圧装置
KR20040030817A (ko) 통신 시스템, 에코 제거 수단 및 에코 제거 방법
KR20010043833A (ko) 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감
US7889874B1 (en) Noise suppressor
US20050228647A1 (en) Method and system for controlling potentially harmful signals in a signal arranged to convey speech
JP4261622B2 (ja) 通信システムにおける非線形処理装置および方法
CN101904097B (zh) 噪声抑制方法和设备
JP2001324989A (ja) 信号、特に音声信号を整形する装置
JP2000105599A (ja) 雑音レベル時間変動率計算方法及び装置と雑音低減方法 及び装置
US20060104460A1 (en) Adaptive time-based noise suppression
JP2010092057A (ja) 受話音声処理装置及び受話音声再生装置
JP2010521855A (ja) 通信システム
JP4269364B2 (ja) 信号処理方法及び装置、並びに帯域幅拡張方法及び装置
CN115810361A (zh) 回声消除方法、终端设备及存储介质
KR20020056957A (ko) 통신 시스템에서 음향 배경 잡음을 억제하기 위한 방법 및장치
KR20070022206A (ko) 오디오 신호 처리를 위한 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110113

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20110819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5111875

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees