JP4100721B2 - 励起パラメータの評価 - Google Patents

励起パラメータの評価 Download PDF

Info

Publication number
JP4100721B2
JP4100721B2 JP07782995A JP7782995A JP4100721B2 JP 4100721 B2 JP4100721 B2 JP 4100721B2 JP 07782995 A JP07782995 A JP 07782995A JP 7782995 A JP7782995 A JP 7782995A JP 4100721 B2 JP4100721 B2 JP 4100721B2
Authority
JP
Japan
Prior art keywords
frequency band
signal
band signal
modified
modified frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP07782995A
Other languages
English (en)
Other versions
JPH0844394A (ja
Inventor
ダニエル・ウエイン・グリフィン
ジェ・エス・リム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Voice Systems Inc
Original Assignee
Digital Voice Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Voice Systems Inc filed Critical Digital Voice Systems Inc
Publication of JPH0844394A publication Critical patent/JPH0844394A/ja
Application granted granted Critical
Publication of JP4100721B2 publication Critical patent/JP4100721B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

【0001】
【発明の背景】
本発明は、音声解析と合成において励起パラメータが評価される精度の改良に関する。
音声解析と合成は電気通信や音声認識等の種々の応用分野において汎く用いられている。あるタイプの音声解析・合成システムであるボコーダ(vocoder)は、短い時間感覚での励起に対して、音声をシステムの応答としてモデル化する。ボコーダ・システムとしては線形予測ボコーダ、準同型ボコーダ、チャネルボコーダ、正弦変換コーダ(STC)、マルチバンド励起ボコーダ(MBE)、改良型マルチバンド励起ボコーダ(IMBE)等が知られている。
ボコーダは、典型的には、励起パラメータとシステムパラメータに基づいて音声を合成する。典型的には、入力信号は、例えば、ハミングの窓(Hamming Window)を用いてセグメント化される。そして、各セグメントについて、システムパラメータと励起パラメータが決定される。システムパラメータは、スペクトル・エンベロープ(spectral envelope)或はシステムのインパルス応答を含む。励起パラメータは、入力信号がピッチを持つか否かを示す有声/無声決定および基本周波数(又はピッチ)を含む。IMBE(TM)ボコーダのように、音声を周波数バンドに分割するボコーダにおいては、励起パラメータは、単一の有声/無声決定ではなく、各周波数バンド毎の有声/無声決定を含むこともできる。正確な励起パラメータは高品質の音声合成にとって本質的である。
励起パラメータは、音声合成が必要とされない音声認識等の分野においても使用される。励起パラメータの精度は、そのシステムのパフォーマンスに直接影響する。
【0002】
【発明の要約】
ある態様において、一般的に、本発明は音声信号に対して非線形操作を施して、音声信号の基本周波数を強調し、それによって、基本周波数やその他の励起パラメータが決定される精度を改善する。励起パラメータを決定する典型的なアプローチでは、アナログ音声信号s(t)をサンプリングして、音声信号s(n)を生成する。音声信号s(n)は窓w(n)に掛け合わされ、一般に、音声セグメントもしくは音声フレームと呼ばれる窓掛け信号sW(n)(windowed signal・窓による重み付けを行った信号)が生成される。窓掛け信号sW(n)に関してフーリエ変換が施されて、周波数スペクトラムsW(ω)が生成され、それから励起パラメータが決定される。
音声信号s(n)が基本周波数ωo又はピッチ周期no(no=2π/ωo)で周期的である場合、音声信号s(n)の周波数スペクトルは、ωoとその高調周波数(ωoの整数倍)でエネルギを有する線形スペクトルとなるべきである。予想されるように、sW(ω)はωoおよびその高調周波数付近に中心を有するスペクトルピークを有する。しかしながら、窓掛け操作によって、スペクトルピークはある幅を有し、その幅は窓w(n)の長さと形状に依存し、かつ、窓w(n)の長さが増大するにしたがって、減少する傾向を有する。この窓掛けによってもたらされるエラーは励起パラメータを精度を低下させる。スペクトルピークの幅を減少させ、それによって励起パラメータの精度を向上させるためには、窓w(n)の長さは、できるだけ長くする必要がある。
【0003】
窓w(n)の最大有効長は制限される。音声信号は定常的な信号ではなく、その代わりに時間によって変化する基本周波数を持つ。有意の励起パラメータを得るために、解析された音声セグメントは、実質的に変化しない基本周波数を持たなければならない。したがって、窓w(n)の長さは、基本周波数が窓内で大きく変化しないように十分に短くなければならない。
窓w(n)の最大長さの制限に加えて、変化する基本周波数はスペクトルピークを拡げる傾向がある。この拡大効果は周波数が増加するに応じて大きくなる。例えば、窓の間で基本周波数がΔωoだけ変化したとすると、m次の高調波の周波数即ちmwoの周波数はmΔωoだけ変化し、mωoに対応するスペクトルピークはωoに対応するスペクトルピークより、より大きく拡げられる。より高次の高調波での増加する拡大は、基本周波数の評価と高周波バンドについての有声/無声決定の生成における高次同調波の有効性を低下させる。
非線形演算を施すことによって、変化する基本周波数の高次同調波への大きなインパクトは減少されるか、消失され、より高次の同調波は基本周波数の評価及び有声/無声決定の生成にとってより有効に作用する。適当な非線形演算は、複素数(又は実数)から実数値にマッピングし、複素数(又は実数)値の大きさの非減少関数である出力を生成する。かかる非線形演算は、例えば、絶対値、絶対値の2乗、絶対値のあるべき乗もしくは絶対値の対数を含む。
【0004】
非線形演算は、入力信号の基本周波数において、スペクトルピークを有する出力信号を生成する傾向を有する。このことは、入力信号が基本周波数においてスペクトルピークを持たない場合にも正しい。例えば、ωoの3次と4次の同調波の間の領域にある周波数のみを通過させるバンドパスフィルタが音声信号s(n)に対して設置され、バンドパスフィルタの出力x(n)は3ωo,4ωoおよび5ωoにスペクトルピークを有する。
x(n)はωoにおいてスペクトルピークを持たないにもかかわらず、|x(n)|2はあるピークを持つであろう。実信号x(n)については|x(n)|2はx2(n)に等しい。よく知られているように、x2(n)のフーリエ変換はx(n)のフーリエ変換x(ω)のx(ω)を用いた畳み込み(convolution)
【数1】
Figure 0004100721
x(ω)を用いたx(ω)の畳み込みは、x(ω)がスペクトルピークを有する周波数間の差に等しい周波数においてスペクトルピークを持つ。周期信号のスペクトルピーク間の差は、基本周波数とその倍数である。かくして、3ωo,4ωoおよび5ωoにおいてx(ω)がスペクトルピークを有する例において、x(ω)を用いて畳み込まれたx(ω)はωo(4ωo−3ωo,5ωo−4ωo)においてスペクトルピークを持つ。典型的な周期信号について、基本周波数におけるスペクトルピークは、最も際立ったものとなる。
【0005】
上記の議論は、複素信号にも適用される。複素信号x(n)について、|x(n)|2のフーリエ変換は以下の通りである。
【数2】
Figure 0004100721
これは、x(ω)のx*(ω)との自己相関であり、nωoだけ離れたスペクトルピークがnωoにおいてピークを生成するという性質をも有する。
|x(n)|,ある実数aについて|x(n)|aおよびlog|x(n)|は|x(n)|2と同じではないけれども、|x(n)|2についての上記の議論は、定量的なレベルでは近似的に適用することができる。例えば、|x(n)|=y(n)0.5(ここで、y(n)=|x(n)|2について、y(n)のテイラー級数展開は以下のように表される。
【数3】
Figure 0004100721
乗算は連係的であるので、信号yk(n)のフーリエ変換はyk-1(n)のフーリエ変換を用いて畳み込んだY(ω)である。|x(n)|2以外の非線形演算の挙動はY(ω)のY(ω)による多重畳み込みの挙動を観察することによって|x(n)|2から派生されうる。Y(ω)がnωoにおいてピークを有するとすると、Y(ω)のY(ω)を用いた多重畳み込みも、nωoにおいてピークを有することであろう。
【0006】
上で示した如く非線形演算は周期信号の基本周波数を強調し、かつ、それは周期信号がより高次の同調波において大きなエネルギを含む場合には、とりわけ有用である。
本発明によれば、入力信号に対する励起パラメータは入力信号を少なくとも2つの周波数バンド信号に分割することによって、生成される。その後、周波数バンド信号の少なくとも1つに関して非線形演算が行われ、それによって、少なくとも1つの修正周波数バンド信号を生成する。最終的に各修正周波数バンド信号について、その修正周波数バンド信号が有声か無声かを決定する。典型的には、有声/無声の決定は規則的な時間間隔でなされる。
ある修正周波数バンド信号が有声か無声かを決定するため、有声エネルギ(修正周波数バンド信号の評価された基本周波数と評価された基本周波数の高次同調波に寄与する全エネルギの1部)と修正周波数バンド信号の全エネルギが計算される。通常、0.5ω0以下の周波数は全エネルギには含まれないものとする。なぜならば、これら周波数を含むとパフォーマンスが低下するからである。修正周波数バンド信号は、その修正周波数バンド信号の有声エネルギが修正周波数バンド信号の全エネルギの予め決められた割合を越えた時に、有声であると判定され、そうでなければ無声と判定される。修正周波数バンド信号は有声であると判定された場合、有声度が全エネルギに対する有声エネルギの比に基づいて評価される。有声エネルギは修正周波数バンド信号とそれ自信もしくは他の修正周波数バンド信号との相関からも決定することができる。
【0007】
計算上の負荷を低減するため、即ち、パラメータの数を減少させるため、有声/無声の決定をするに先立って修正周波数バンド信号のセットは、他の、典型的にはより少ない修正周波数バンド信号のセットに変換することができる。例えば、第1のセットの2つの修正周波数バンド信号は第2のセットにおいて、単一の修正周波数バンド信号に結合される。
デジタル化した音声の基本周波数も評価することができる。多くの場合、この評価はある修正周波数バンド信号を少なくとも1つの他の周波数バンド信号(修正されている場合も修正されない場合もある)と組み合わせること、及び結果として得られる組み合わせ信号の基本周波数を評価することの2つの工程を含む。したがって、例えば、少なくとも2つの修正周波数バンド信号を生成するため、非線形演算が少なくとも2つの周波数バンド信号に関してなされた時に、修正周波数バンド信号は1つの信号に組み合わすことができ、かつ、その信号の基本周波数の評価が作り出される。修正周波数バンド信号は和算によって組み合わせることができる。他の方式では信号対雑音比は修正周波数バンド信号の各々について決定することができ重みつけされた組み合わせが高い信号対雑音比を持ったある修正周波数バンド信号がその信号に対してある低い信号対雑音比を有する修正周波数バンド信号より多く寄与するように生成される。
他の態様において、一般的に本発明は非線形演算を用いることによって基本周波数評価の精度を改善することを特徴としている。非線形演算は入力信号に対して行われ、それによって基本周波数が評価される修正信号を生成する。いま一つの方式では入力信号は少なくとも2つの周波数バンド信号に分割され、次いでこれら周波数バンド信号に関して非線形演算がなされ、修正周波数バンド信号を生成する。最後に、修正周波数バンド信号は基本周波数が評価される結合された信号を生成すべく組み合わされる。本発明の他の特徴と利点は以下の詳細な実施例についての説明と請求の範囲から明らかになるであろう。
【0008】
【実施例】
図1から図5はある信号の周波数バンドが有声か無声か、ソフトウエアによって好ましい課題に設定される種々のブロックと単位を決定するためのシステムの構成を示している。
図1を参照して、有声/無声決定システム10においてサンプルユニット12がアナログの音声信号s(t)をサンプリングして音声信号s(n)を生成する。典型的な音声のコード化への応用についてはサンプリングレートは6kHzから10kHzの範囲に設定される。
チャネル処理ユニット14は音声信号s(n)を少なくとも2つの周波数バンドに分割し、それら周波数バンドを処理して周波数バンド信号の第1のセットT0(ω)…TI(ω)を生成する。以下で議論するように、チャネル処理ユニット14は各チャネル処理ユニット14の第1ステージに用いられているバンドパスフィルタのパラメータによって差別化されている。本実施例においては、16個のチャネル処理ユニットが設けられている(I=15)。
リマップユニット16は周波数バンド信号の第1のセットを変換して、周波数バンド信号の第2のセットU0(ω)…UK(ω)を生成する。好ましい実施例においては、周波数バンド信号の第2のセットにおいては11の周波数バンド信号がある(K=10)。このようにして、リマップユニット16は16個のチャネル処理ユニット14からの周波数バンド信号を11個の周波数バンド信号にマッピングする。リマップユニット16は、周波数バンド信号の第1のセットの低周波数成分T0(ω)…T5(ω)を周波数バンド信号の第2のセットU0(ω)…U5(ω)に直接にマッピングすることによって上記の処理を行う。リマップユニット16は第1のセットの残りの周波数バンド信号の各1対を第2のセットにおける単一の周波数信号になるように組み合わせる。例えば、T6(ω)とT7(ω)は結合されてU6(ω)が生成され、また、T14(ω)とT15(ω)とが組み合わされてU10(ω)が生成される。リマッピングについては他の種々の方式も採用することができる。
【0009】
次に有声/無声決定ユニット18は、それぞれは第2のセットの1つの周波数バンド信号に関係している、周波数バンド信号が有声か無声かを決定し、かつ、これら決定の結果を示す出力信号(V/UV0…V/UVK)を生成する。各決定ユニット18は周波数バンド信号の全エネルギに対する関連した周波数バンド信号の有声エネルギの比を計算する。この比が所定のしきい値を越えると決定ユニット18はその周波数バンド信号が有声であると判定する。そうでない場合その周波数バンド信号は無声であると判定する。
決定ユニット18はその関係する周波数バンド信号の有声エネルギを以下のように計算する。
【数4】
Figure 0004100721
ここで、Inは[(n−0.25)ω0、(n+0.25)ω0]であり、
ω0は基本周波数の評価値(以下で記述されるようにして生成される)及びNは考慮すべき基本周波数ω0の同調波の数である。決定ユニット18は、それらの関連する周波数バンド信号の全エネルギを以下の通りに演算する。
【数5】
Figure 0004100721
いま一つの方式では、周波数バンド信号が有声か無声かを決定するだけでなく、決定ユニット18はある周波数バンド信号が有声である割合を決定する。上で述べた有声/無声の決定と同様にして有声の度合は全エネルギに対する有声エネルギの比の関数であり:その比が1に近いときは、周波数バンド信号は有声度が高くその比が2分の1に等しいかそれ以下の時には無声である確立が高く、さらにその比が2分の1と1の間の値であるときには、周波数バンド信号はその比によって示される度合に応じて有声である。
【0010】
図2を参照して、基本周波数評価ユニット20は結合ユニット22と評価器を含む結合ユニット22はチャネル処理ユニット14(図1)の出力Ti(ω)を足し合わせてX(ω)を生成する。いま一つの方法では結合ユニット22は各チャネル処理ユニット14の出力について信号対雑音比を評価し、かつ、より高い信号対雑音比を有する出力が低い信号対雑音比を有する出力よりもX(ω)に対してより大きく寄与するように種々の出力を重み付けする。
評価器24はωminからωmaxの範囲でX(ω)を最大にする値ω0を選択することによって、基本周波数(ω0)を評価する。X(ω)はωの離散サンプルについてのみ適用されるのでX(ω0)のω0近傍での放物線補間が評価の精度を向上するのに用いられる。評価器24はX(ω)のバンド幅内のω0のN個の高調波のピーク近傍における放物線評価を組み合わせることによって基本周波数評価の精度をも改善する。
基本周波数の評価が一旦決定されると、有声エネルギEV(ω0)は以下の通りに計算される。
【数6】
Figure 0004100721
ここで、Inは[(n−0.25)ω0、(n+0.25)ω0]である。
その後、有声エネルギEV(0.5ω0)が計算され、かつ、EV(ω0)と比較され、基本周波数の最終評価としてω0と0.5ω0との間を選択する。
図3を参照して、いま一つの基本周波数評価ユニット26は非線形演算ユニット28、窓掛けと高速フーリエ変換(FFT)ユニット30と評価器32を含む。非線形演算ユニット28はs(n)について非線形演算、ここでは絶対値の2乗を施し、s(n)の基本周波数を強調すると共にω0を評価するに際して、有声エネルギの決定を容易化する。
【0011】
窓掛けとFFTユニット30は非線形演算ユニット28の出力を掛け合わせてそれをセグメント化し、かつ、結果の積のFFTとX(ω)とを演算する。最後に、前記評価器24と同一の働きを成す評価器32は基本周波数の評価値を生成する。
図4を参照して、音声信号s(n)がチャネル処理ユニット14に入力されると特定周波数バンドに属する成分si(n)はバンドパスフィルタ34によって分離される。バンドパスフィルタ34は演算の負荷を減少させるために、ダウンサンプリングを用いておりシステムのパフォーマンスに何らの深刻な影響を与えることなしにそれを実行する。バンドパスフィルタ34は有限インパルスレスポンス(FIR)もしくは無限インパルスレスポンス(IIR)フィルタとして構成することができ、或はFFTを用いるバンドパスフィルタ34は17周波数において32点FIRフィルタの出力を演算するために32点実数入力FFTを用いて構成することもでき、FFTが計算される時間ごとに入力音声サンプルをシフトすることによってダウンサンプリングを実行する。例えば、使用される第1FFTが32の内の1点をサンプリングするとすれば、10のダウンサンプリングファクタは第2のFFTにおいて42の内の11のサンプル点を用いることによって達成される。
第1の非線形演算ユニット36は、分離された周波数バンドsi(n)について非線形演算を実行し、分離された周波数バンドsi(n)の基本周波数を強調する。si(n)(iは0より大きい)の複素数の値については絶対値│si(n)│が使用される。s0(n)の実数値についてはs0(n)が0より大きければそのままs0(n)の値が用いられ、s0(n)が0かそれより小さい場合には0が用いられる。
非線形演算ユニット36の出力がローパスフィルタとダウンサンプリングユニット38を通過するとデータレートは減少し、かつ、その結果としてシステムのそれ以後の要素の演算負荷を減少させる。ローパスフィルタとダウンサンプリングユニット38としては、ダウンサンプリングファクタ2について異なるサンプルごとに演算を行う7点FIRフィルタが用いられる。
窓掛け及びFFTユニット40はローパスフィルタとダウンサンプリングユニット38の出力をある窓で掛け合わせその積の実数入力FFTとSi(ω)を演算する。
【0012】
最後に、第2非線形演算ユニット42はSi(ω)について非線形演算を施し、有声もしくは全エネルギの評価を容易化すると共に基本周波数評価において用いられる場合には、チャネル処理ユニット14の出力Ti(ω)を構造的に組み合わせることを保証する。絶対値の2乗はTi(ω)の全ての成分を実数で正の値とするので、好適に用いられる。
他の実施例は請求の範囲に含まれる。例えば、図5を参照していま一つの有声/無声決定システム44はサンプリングユニット12、チャネル処理ユニット14、リマップユニット16及び有声/無声決定ユニット18を含み、これらユニットは有声/無声決定システム10の対応するユニットと同一の働きを成す。しかしながら、非線形演算は高周波数バンドに最も有利に適用されるので決定システム44は高周波に対応する周波数バンドのチャネル処理ユニットのみを用い、かつ、低周波に対応する周波数バンドではチャネル変換ユニット46を用いる。チャネル変換ユニットは入力信号に対して非線形演算を施すのみならず、周波数バンド信号を発生するよく知られた技術にしたがって入力信号を処理する。例えば、チャネル変換ユニット46はバンドパスフィルタと窓掛けとFFTユニットを含むことができる。いま一つの方式では窓掛け及びFFTユニット40と図4の非線形演算ユニット42は窓掛け及び自己相関ユニットによって置換することができる。有声エネルギと全エネルギは自己相関から演算される。
【図面の簡単な説明】
【図1】 図1は、ある信号の周波数バンドが有声か無声かを決定するためのシステムのブロックダイヤグラムである。
【図2】 図2は、基本周波数評価ユニットのブロックダイヤグラムである。
【図3】 図3は、基本周波数評価ユニットのブロックダイヤグラムである。
【図4】 図4は、図1のシステムのチャネル処理ユニットのブロックダイヤグラムである。
【図5】 図5は、信号の周波数バンドが有声か無声かを決定するためのシステムのブロックダイヤグラムである。
【符号の説明】
10…有声/無声決定システム、 12…サンプルユニット、
14…チャネル処理ユニット、 16…リマップユニット、
18…有声/無声決定ユニット、 20…基本周波数評価ユニット、
22…結合ユニット、 24…評価器、
26…基本周波数評価ユニット、 28…非線形演算ユニット、
30…窓掛けと高速フーリエ変換(FFT)ユニット、
32…評価器、 34…バンドパスフィルタ、
36…非線形演算ユニット、 38…ダウンサンプリングユニット、
40…窓掛け及びFFTユニット、 42…非線形演算ユニット。

Claims (32)

  1. デジタル音声信号を解析して、デジタル音声信号について励起パラメータを決定する方法であって
    デジタル音声信号を少なくとも2つの周波数バンド信号に分割する工程と、
    少なくとも1つの周波数バンド信号について、複素数値から実数値にマッピングし、複素数値の大きさの非減少関数である出力を生成する非線形演算を実行して少なくとも1つの修正周波数バンド信号を生成する工程と、
    少なくとも1つの修正周波数バンド信号について修正周波数バンド信号が有声か無声かを決定する工程と、
    を含み、
    上記決定工程は、
    修正周波数バンド信号の有声エネルギを決定する工程と、
    修正周波数バンド信号の全エネルギを決定する工程と、
    修正周波数バンド信号の有声エネルギが修正周波数バンド信号の全エネルギの所定の比率を越えた時に修正周波数バンド信号が有声であると判定する工程と、
    修正周波数バンド信号の有声エネルギが修正周波数バンド信号の全エネルギの所定の比率に等しいかそれ以下である場合に修正周波数バンド信号が無声であると判定する工程と、
    を含む、デジタル音声信号について励起パラメータを決定する方法。
  2. 上記決定工程は正規の時間間隔で実行される請求項1記載の方法。
  3. デジタル音声信号は、音声をコード化する1つの工程として分析される請求項1記載の方法。
  4. さらに、デジタル音声信号の基本周波数を評価する工程を含む請求項1記載の方法。
  5. 少なくとも1つの修正周波数バンド信号の基本周波数を評価する工程を更に含む請求項1記載の方法。
  6. 修正周波数バンド信号を少なくとも1つの他の周波数バンド信号と組み合わせて結合信号を生成する工程と、
    結合信号の基本周波数を評価する工程と
    を更に含む請求項1記載の方法。
  7. 上記非線形演算実行工程は少なくとも2つの周波数バンド信号について実行され、少なくとも2つの修正周波数バンド信号を生成し、かつ、
    上記結合工程は少なくとも2つの修正周波数バンド信号を結合することからなる請求項6記載の方法。
  8. 上記結合工程は修正周波数バンド信号と少なくとも1つの他の周波数バンド信号とを足し合わせて結合信号を生成する請求項6記載の方法。
  9. 修正周波数バンド信号と少なくとも1つの他の周波数バンド信号について信号対雑音比を決定する工程を更に含み、
    上記結合工程は修正周波数バンド信号と少なくとも1つの他の周波数バンド信号を重み付けし、高い信号対雑音比を有する周波数バンド信号が低い信号対雑音比を有する周波数バンド信号に比べてより多く寄与するように結合信号を生成する請求項6記載の方法。
  10. 有声エネルギは修正周波数バンド信号の評価された基本周波数及びその基本周波数の同調波に寄与する全エネルギの一部である請求項6に記載の方法。
  11. 修正周波数バンド信号の有声エネルギは、修正周波数バンド信号とそれ自信もしくはその他の修正周波数バンド信号との相関から得られる請求項1に記載の方法。
  12. 修正周波数バンド信号が有声であると判定された場合、上記決定工程は修正周波数バンド信号の有声エネルギと修正周波数信号の全エネルギとを比較することによって修正周波数バンド信号について有声度を評価する工程を更に含む請求項1に記載の方法。
  13. 上記実行工程は上記実行工程によって生成された修正周波数バンド信号の数が上記分割工程によって生成された周波数バンド信号の数と等しくなるように全ての周波数バンド信号について非線形演算を実行することを含む請求項1記載の方法。
  14. 上記実行工程は上記実行工程によって生成される修正周波数バンド信号の数が、上記分割工程によって生成される周波数バンド信号の数より少なくなるように周波数バンド信号の幾つかについてのみ非線形演算を実行することを含む請求項1記載の方法。
  15. 非線形演算が施される周波数バンド信号は、非線形演算が施されない周波数バンド信号よりも高い周波数に対応するものである請求項14に記載の方法。
  16. 非線形演算が実行されない周波数バンド信号について周波数バンド信号が有声か無声かを決定する工程を更に含む請求項15に記載の方法。
  17. 非線形演算は絶対値である請求項1記載の方法。
  18. 非線形演算は絶対値の2乗である請求項1記載の方法。
  19. 非線形演算はある実数の乗の絶対値である請求項1記載の方法。
  20. 少なくとも2つの周波数バンド信号について非線形演算を実行して、修正周波数バンド信号の第1のセットを生成する工程と、
    修正周波数バンド信号の第1のセットを少なくとも1つの修正周波数バンド信号の第2のセットに変換する工程と、
    第2セットの少なくとも1つの修正周波数バンド信号について修正周波数バンド信号が有声か無声かを決定する工程と、
    を更に含む請求項1記載の方法。
  21. 上記変換工程は、第1のセットの少なくとも2つの修正周波数バンド信号を組み合わせて第2のセットの1つの修正周波数バンド信号を生成する請求項20に記載の方法。
  22. デジタル音声の基本周波数を評価する工程を更に含む請求項20に記載の方法。
  23. 修正周波数バンド信号の第2のセットのある修正周波数バンド信号を少なくとも1つの他の周波数バンド信号と組み合わせて結合信号を生成する工程と、
    結合信号の基本周波数を評価する工程と、
    をさらに含む請求項20に記載の方法。
  24. 上記修正周波数バンド信号が有声であると判定された時に上記決定工程は修正周波数バンド信号の有声エネルギを修正周波数バンド信号の全エネルギと比較することによって修正周波数バンド信号の有声度を評価することを含む請求項20に記載の方法。
  25. 励起パラメータの幾つかをコード化する工程を更に含む請求項1記載の方法。
  26. デジタル音声信号を解析してデジタル音声信号の励起パラメータを決定する方法であって、
    入力信号を2つの周波数バンド信号に分割する工程と、
    周波数バンド信号の最初の1つに、複素数値から実数値にマッピングし、複素数値の大きさの非減少関数である出力を生成する非線形演算を施して第1修正周波数バンド信号を生成する工程と、
    第1修正周波数バンド信号と少なくとも1つの他の周波数バンド信号とを組み合わせて結合周波数バンド信号を生成する工程と、
    結合周波数バンド信号の基本周波数を評価する工程と、
    を含む、デジタル音声信号の励起パラメータを決定する方法。
  27. デジタル音声信号を解析してデジタル音声信号の励起パラメータを決定する方法であって
    デジタル音声信号を少なくとも2つの周波数バンド信号に分割する工程と、
    周波数バンド信号の少なくとも1つについて、複素数値から実数値にマッピングし、複素数値の大きさの非減少関数である出力を生成する非線形演算を施して少なくとも1つの修正バンド信号を生成する工程と、
    少なくとも1つの修正バンド信号から基本周波数を評価する工程と、
    を含む、デジタル音声信号の励起パラメータを決定する方法。
  28. デジタル音声信号を解析してデジタル音声信号の基本周波数を決定する方法であって
    デジタル音声信号を少なくとも2つの周波数バンド信号に分割する工程と、
    周波数バンド信号の少なくとも2つについて、複素数値から実数値にマッピングし、複素数値の大きさの非減少関数である出力を生成する非線形演算を施して少なくとも2つの修正周波数バンド信号を生成する工程と、
    少なくとも2つの修正周波数バンド信号を組み合わせて結合信号を生成する工程と、
    結合信号の基本周波数を評価する工程と、
    を含む、デジタル音声信号の基本周波数を決定する方法。
  29. デジタル音声信号を解析してデジタル音声信号の励起パラメータを決定することによって音声をコード化するシステムであって
    デジタル音声信号を少なくとも2つの周波数バンド信号に分割する手段と、
    周波数バンド信号の少なくとも1つについて、複素数値から実数値にマッピングし、複素数値の大きさの非減少関数である出力を生成する非線形演算を実行し、少なくとも1つの修正周波数バンド信号を生成する手段と、
    少なくとも1つの修正周波数バンド信号について該修正周波数バンド信号が有声か無声かを決定する手段と、
    を備えた音声をコード化するシステム。
  30. 少なくとも1つの修正周波数バンド信号を少なくとも1つの他の周波数バンド信号と組み合わせて結合信号を生成する手段と、
    結合信号の基本周波数を評価する手段と
    をさらに含む請求項29に記載のシステム。
  31. 上記実行する手段が上記実行手段によって生成される修正周波数バンド信号の数が分割手段によって生成される周波数バンド信号の数より少なくなるように周波数バンド信号の幾つかのみについて非線形演算を施す手段を更に含む請求項29に記載のシステム。
  32. 実行手段が非線形演算を施す周波数バンド信号は上記実行手段が非線形演算を施さない周波数バンド信号に比べてより高い周波数に対応するものである請求項31に記載のシステム。
JP07782995A 1994-04-04 1995-04-03 励起パラメータの評価 Expired - Lifetime JP4100721B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US222119 1994-04-04
US08/222,119 US5715365A (en) 1994-04-04 1994-04-04 Estimation of excitation parameters

Publications (2)

Publication Number Publication Date
JPH0844394A JPH0844394A (ja) 1996-02-16
JP4100721B2 true JP4100721B2 (ja) 2008-06-11

Family

ID=22830914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07782995A Expired - Lifetime JP4100721B2 (ja) 1994-04-04 1995-04-03 励起パラメータの評価

Country Status (9)

Country Link
US (1) US5715365A (ja)
EP (1) EP0676744B1 (ja)
JP (1) JP4100721B2 (ja)
KR (1) KR100367202B1 (ja)
CN (1) CN1113333C (ja)
CA (1) CA2144823C (ja)
DE (1) DE69518454T2 (ja)
DK (1) DK0676744T3 (ja)
NO (1) NO308635B1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US7698949B2 (en) * 2005-09-09 2010-04-20 The Boeing Company Active washers for monitoring bolted joints
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) * 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
JPS6051720B2 (ja) * 1975-08-22 1985-11-15 日本電信電話株式会社 音声の基本周期抽出装置
US4091237A (en) * 1975-10-06 1978-05-23 Lockheed Missiles & Space Company, Inc. Bi-Phase harmonic histogram pitch extractor
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
DE3266042D1 (en) * 1981-09-24 1985-10-10 Gretag Ag Method and apparatus for reduced redundancy digital speech processing
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
DE3276732D1 (en) * 1982-04-27 1987-08-13 Philips Nv Speech analysis system
FR2544901B1 (fr) * 1983-04-20 1986-02-21 Zurcher Jean Frederic Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4622680A (en) * 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
WO1990013112A1 (en) * 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Voice encoder
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
EP0459362B1 (en) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech

Also Published As

Publication number Publication date
CA2144823A1 (en) 1995-10-05
NO308635B1 (no) 2000-10-02
KR100367202B1 (ko) 2003-03-04
DK0676744T3 (da) 2000-12-18
EP0676744A1 (en) 1995-10-11
DE69518454D1 (de) 2000-09-28
CA2144823C (en) 2006-01-17
CN1118914A (zh) 1996-03-20
CN1113333C (zh) 2003-07-02
NO951287D0 (no) 1995-04-03
DE69518454T2 (de) 2001-04-12
EP0676744B1 (en) 2000-08-23
KR950034055A (ko) 1995-12-26
NO951287L (no) 1995-10-05
JPH0844394A (ja) 1996-02-16
US5715365A (en) 1998-02-03

Similar Documents

Publication Publication Date Title
JP4100721B2 (ja) 励起パラメータの評価
US5826222A (en) Estimation of excitation parameters
JP3467269B2 (ja) 音声分析−合成方法
US6526376B1 (en) Split band linear prediction vocoder with pitch extraction
US5664052A (en) Method and device for discriminating voiced and unvoiced sounds
US6741960B2 (en) Harmonic-noise speech coding algorithm and coder using cepstrum analysis method
EP1031141B1 (en) Method for pitch estimation using perception-based analysis by synthesis
JP3475446B2 (ja) 符号化方法
US6496797B1 (en) Apparatus and method of speech coding and decoding using multiple frames
US20210335373A1 (en) Concept for encoding of information
CN103189916A (zh) 估计信号模式的方法和设备
JPH09281996A (ja) 有声音/無声音判定方法及び装置、並びに音声符号化方法
JPH0573093A (ja) 信号特徴点の抽出方法
JPH11219198A (ja) 位相検出装置及び方法、並びに音声符号化装置及び方法
Chang et al. Pitch estimation of speech signal based on adaptive lattice notch filter
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
Dunn et al. Sinewave analysis/synthesis based on the Fan-Chirp tranform
KR100628170B1 (ko) 음성을 코딩하기 위한 장치 및 방법
Sugiura et al. Regularized Modified Covariance Method for Spectral Analysis of Bone-Conducted Speech
JPH0990998A (ja) 音響信号変換復号化方法

Legal Events

Date Code Title Description
A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20031209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20031212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040518

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041109

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071211

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080111

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110328

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120328

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130328

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140328

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term