JP2000515992A - 言語コーディング - Google Patents
言語コーディングInfo
- Publication number
- JP2000515992A JP2000515992A JP10508614A JP50861498A JP2000515992A JP 2000515992 A JP2000515992 A JP 2000515992A JP 10508614 A JP10508614 A JP 10508614A JP 50861498 A JP50861498 A JP 50861498A JP 2000515992 A JP2000515992 A JP 2000515992A
- Authority
- JP
- Japan
- Prior art keywords
- phase
- signal
- spectrum
- decoder
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 67
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 18
- 238000012546 transfer Methods 0.000 claims description 16
- 230000005284 excitation Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 1
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】
言語信号用デコーダは、時間にしたがって変化する信号を合成するために振幅スペクトル情報を受信する手段;振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルをもつ最小の位相フィルタに対応する位相スペクトル情報を計算する手段(7);振幅スペクトル情報および位相スペクトル情報から、時間にしたがって変化する信号を生成する手段(8);および信号の位相スペクトルを修正するように動作できる位相調節手段(31,32)をもつ。
Description
【発明の詳細な説明】
言語コーディング
本発明は、言語のコーディングおよびデコーディング、とくにシステム内のコ
ーディングプロセスがコード化されている信号内に含まれている全部または一部
の位相情報を送ることに失敗しているようなシステムに関する。
本発明の1つの態様にしたがって、言語信号用デコーダであり:
振幅スペクトル情報を受信して、時間で変化する信号を合成する手段と;
振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルを
もつ最小位相フィルタに対応する位相スペクトル情報を計算する手段と;
振幅スペクトル情報および位相スペクトル情報から、時間で変化する信号を
生成する手段と;
信号の位相スペクトルを修正するように動作できる位相調節手段とを含む言
語信号のデコーダを提供する。
本発明は別の態様では、最小位相合成フィルタの応答を定義する情報と励起信
号合成のための振幅スペクトル情報とを含む言語信号をデコードするデコーダで
あり:
振幅スペクトル情報から、励起信号を生成する手段と;
応答情報によって制御され、かつ励起信号をフィルタ処理するために接続さ
れた合成フィルタと;
位相調節信号を推定して、信号の位相を修正する位相調節手段とを含むデコ
ーダを提供する。
別の態様では、本発明は言語信号をコーディングおよびデコーディングする方
法であり:
(a)言語信号の振幅スペクトルを表す信号を生成することと;
(b)信号を受信することと;
(c)受信した信号から、受信した信号により決まる振幅スペクトルをもち
、かつz−面プロットとして見たときに、単位円の外側に少なくとも1つの極を
もつ伝達関数に対応する位相スペクトルをもつ合成言語信号を生成することとを
含む言語信号をコーディングおよびデコーディングする方法を提供する。
ここで本発明の幾つかの実施形態を例示的に添付の図面を参照して記載するこ
とにする。
図1は、周知の言語コーダおよびデコーダのブロック図である。
図2は、人間の発声システム(vocal system)のモデルを示す。
図3は、本発明の1つの実施形態の言語デコーダのブロック図である。
図4および5は、図3のデコーダから得られたテスト結果を示す図である。
図6は、(周知の)ローゼンバーグパルス(Rosenberg pulse)の形状のグラフ
である。
図7は、本発明の第2の形式の言語デコーダのブロック図である。
図8は、周知の形式の言語コーダのブロック図である。
図9は、図9のコーダで使用するための、本発明のデコーダの第3の実施形態
のブロック図である。
図10は、本発明を示すz面プロットである。
この第1の例は、言語信号のコーディングおよびデコーディングにシヌソイド
(正弦波状の)変換コーディング(STC)技術を使用することを仮定している
。この技術はMcAulayおよびQuatieriによって提案され、R.J.McAulayおよびT.F.
Quatieriによる文献"Speech Analysis/Synthesis based on a Sinusoidal Repre
sentation"(IEEE Trans.Acoust.Speech Signal Process.ASSP-34,pp.744乃
至754,1986年)、および同じくR.J.McAulayおよびT.F.Quatieriによる文献"Low-
rate Speech Speech Coding based on the Sinusoidal Model"("Advances in S
peech Signal Processing"(Ed.S.FuruiおよびM.M.Sondhi,Marcel Dekker Inc.,
1992年)に含まれる)に記載されている。原理を図1に示し、ここではコーダは
入力1においてディジタル形式で言語サンプルを受信し;通常20msの継続期間
の言語セグメントは高速フーリエ変換(FFT)ユニット2でフーリエ解析され
、言語の短期間の周波数スペクトルを決定することになっている。とくに、これ
は重要な振幅スペクトルにおけるピークの振幅および周波数であり、周波数は−
有声音の場合−ピッチ検出器3によって得られるピッチ周波数の高調波であると
仮定される。位相スペクトルは、伝送効率という観点では伝送されず、また、振
幅スペクトル表示は、デコーダへ送るために、この例では包絡線を振幅スペク
トルに合わせ、かつ1組の係数(例えば、LSP(ラインスペクトル対)係数)
によってこの包絡線を特徴付けることによって得られる。この機能は変換ユニッ
ト4でフーリエ係数を受取り、曲線を合わせ、さらにユニット5で包絡線をコー
ダの出力を形成するLSP係数に変換して行われる。
対応するデコーダも図1に示されている。図1のデコーダは包絡線情報を受取
っても、位相情報が不足しているときは、幾つかの仮定に基いて位相スペクトル
を再構成しなければならない。受け取ったLSP係数によって表される振幅スペ
クトルが最小の位相伝達関数の振幅スペクトルであるという仮定を使用する−こ
の仮定は、人間の音声システムを瞬時に(インパルスで)励起された最小位相フ
ィルタとみなすことができる仮定に等しい。したがってユニット6は受け取った
LSP係数から振幅スペクトルを導き出し、ユニット7は最小位相の仮定に基い
てこの振幅スペクトルに対応する位相スペクトルを計算する。2つのスペクトル
から、シヌソイド合成器8はこのスペクトルによって決まる振幅と位相をもつ、
ピッチ周波数の高調波である1組のシヌソイドの和を生成する。
シヌソイド言語合成では、合成言語信号y(n)は正弦波の和によって構成さ
れる。
なお、Akおよびφkは、周波数トラックωkと関係する各正弦波成分の振幅お
よび位相を表し、Nはシヌソイドの数である。
これは前提条件ではないが、シヌソイドが高調波に関係していると仮定するこ
とが一般的であり、したがって:
なお、
なお、φk(n)は高調波の瞬時相関位相、Ψk(n)は瞬時線形位相成分、ω0
(n)は瞬時基本ピッチ周波数を表す。
シヌソイド合成の簡単な例には、オーバーラップおよび加算方法である。この
方法では、Ak(n)、ω0(n)、Ψk(n)は定期的に更新され、短い時間、
例えば10ms、では一定のフレームであると仮定される。したがってi番目の
信号フレームは次のように合成することができる:
これは、本質的に逆ディスクリート(離散的)フーリエ変換であることに注意
すべきである。隣合うフレームを次のように組合わせることによってフレームの
境界で不連続を避けることができる:
なお、W(n)は、オーバーラップおよび付加ウインドウであり、例えば三角
形または台形をしており、Tは多数のサンプル期間として表されるフレームの継
続期間である。
別の方法で、y(n)は式2に振幅および位相の項を補間することによって継
続的に計算することができる。このような方法では、大きさの成分Ak(n)は
しばしば更新の間に線形補間され、一方で位相成分を補間する多数の方法が報告
されてきた。1つの方法(McAulayおよびQuatieri)では、瞬時の結合位相(Ψk
(n)+φ(n))およびピッチ周波数ω0(n)は各更新点で特定される。し
たがって補間された位相の軌道は三次多項式によって表すことができる。別の方
法(Kleijn)では、Ψk(n)およびφk(n)が別々に補間される。この場合、φ
(n)は更新点で直接に特定され、線形に補間され、一方で線形位相成分Ψ(n
)はピッチ周波数ω0(n)に関して更新点で特定され、四次多項式の補間のみ
が必要である。
上述から、シヌソイド合成器は、定期的に更新される値Ak(n)、ω0(n)
、φk(n)から連続する信号を生成するユニットとして一般化できることが明
らかである。シヌソイドの数を固定するか、時間で変化させることができる。
したがって、我々は元の位相情報が得られず、何らかの方法でφkを合成器で
導き出さなければならないようなシヌソイド合成方法に関心がある。
図1のシステムは合理的に満足のいく結果をだすが、ここで記載するコーダお
よびデコーダは位相スペクトルについての代わりの仮定を提供する。人間の発声
装置を、時間で変化するフィルタH(z)(zはz−変換変数である)を駆動し
ている規則的な一連のデルタ関数を構成するインパルス励起e(n)としてみな
すことができるという概念は、図2に示したように、3つのフィルタによって形
成されるH(z)について検討することによってより精度良くすることができる
。すなわち3つのフィルタは伝達関数G(z)をもつ声門(グロッタル)フィル
タ20、伝達関数V(z)をもつ声道(ボーカルトライト)フィルタ21、および伝
達関数L(z)をもつ唇放出フィルタ(lip radiation filter)である。ここでは
、フィルタの変数およびインパルス応答を表す時間ドメイン表現は小文字で示さ
れ、z変換および周波数ドメインの表示は大文字で同じ文字で表されている。し
たがって言語信号s(n)は次のように記載することができる:
または、
e(n)のスペクトルは、ピッチ周波数の高調波における一連のラインである
ので、各高調波の周波数におけるsの大きさは次のように示すことができる:
なお、Aはe(n)の振幅によって決定される定数であり、位相は次のように
示すことができる:
なお、mは整数である。
図1のデコーダにおける振幅スペクトルが|H(ej ω)|に対応すると仮定する
と、再生された言語は、使用される位相スペクトルがargH(ej ω)と異な
る程度まで等級を下げることになる。
ここで成分G、V、およびLを考えると、最小の位相は声道の伝達関数V(z
)についての良い仮定である。通常これは、次の伝達関数をもつ全極モデル(all
-pole model)によって表すことができる。
なお、ρiは伝達関数の極であり、言語のフォルマント周波数に直接に関係し
ており、Pは極の数である。
唇放出フィルタは微分器として考えることができる:
なお、αは単一のゼロを表し、1(unity)に近い値をもつ(通常、0.95)
。
最小の位相仮定はV(z)およびL(z)に対しては良いのであるが、G(z
)に対しては有効度は低くなると考えられる。何れのフィルタ伝達関数も最小位
相関数と全通過(オールパス)フィルタとの積として表すことができるが、次の
ように仮定することもできることに注意すべきである:
図3を参照して簡潔に記載したデコーダは、Gに関係付けられた振幅スペクト
ルが次の式に対応しているという仮定に基いている。
デコーダは、Gapの適切な伝達関数は次の式の通りであるという仮定に基いて
処理を進める。 Gapに対する対応する位相スペクトルは、次のとおりである。
図3のデコーダにおいて、要素6、7、および8は図1に示したものと同じで
ある。しかしながら参照符号7で計算される位相スペクトルが調節される。ユニ
ット31はピッチ周波数を受取り、ωの相関する値に対する式17、すなわち言語
の現在のフレームに対するピッチ周波数の高調波にしたがってφFの値を計算す
る。次に加算器32でφFの値を最小の位相値に加えてから、シヌソイド合成器8
へ出力する。
図3のデコーダでは、固定値β1=β2=0.8(しかしながら、以下に記載し
たように、βを変化させることも可能である)で実験を行なった。実験から、測
定された位相エラーにおいて改善がみられ(図4参照)、関連のテストでは聞き
手が4つのデコーダの出力を聞き、言語品質を好きな順序に4つのデコーダを置
くように求められる(図5参照)。選択によって得点を付け:第1の選択=4、
第2の選択=3、第3の選択=2、第4の選択=1、得点が加算される。
この結果は、Rosenburgパルスの図を含んでいる。A.E.Rosenburgの文献("Eff
ect of Glottal Pulse Shape on the Quality of Natural Vowels",J.Acoust.S
oc.of America,Vol.49,No.2,1971年,pp.583-590)によって記載されている
ように、声門フィルタGの出力に対して仮定されるパルスの形状である。Rosenb
urgパルスの形状は図6に示されており、次のように定められる: なお、pはピッチ期間であり、TPおよびTNはそれぞれ声門の開放および閉鎖
回数である。
したがって式16の代わりに、図7に示されるように参照符号31で式17から
のg(t)の位相に等しい計算された位相を適用する。しかしながら、最小の位
相伝達関数によって表すことができるローゼンバーグパルススペクトルの成分が
2回使用されないようにするために、式17に対応する振幅スペクトルは、参照
符号71で計算され、位相スペクトル計算ユニット7によって処理される前に、振
幅値から差引かれる。得られた結果はTP=0.33P、TN=0.1Pである。
同じ考え方を声門励起および声道応答を畳込みを解く(deconvolve)試行を行
う構成、−いわゆる線形予測コーダに応用することができる。ここで(図8参照
)、入力言語をフレームごとに解析して(60)、入力言語をもつフレームに類似し
たスペクトル応答をもつフィルタのパラメータを決定する。次にこの応答の逆特
性をもつフィルタ61を設定し、言語信号をこの逆フィルタへ送って、残りの信号
r(n)を生成する。この残りの信号r(n)は、理想的には平らなスペクトル
をもち、実際には元の言語のスペクトルよりも平らである。コーダが情報と共に
フィルタ応答の詳細を送り(63)、デコーダが励起信号を構成することができるよ
うにする(64)。励起信号は、ある程度残りの信号に類似しているが、デコーダが
合成フィルタを駆動するのに使用され、出力言語信号を生成することができる。
多くの提案で、残りの情報を送る異なる方法が作られた。例えば、
(a)有声音にはピッチ期間および利得値を送ってパルス発生器を制御し、
また無声音には利得値を送ってノイズ発生器を制御する;
(b)残りを量子化した形(RELPコーディング)、
(c)残りをベクトル−量子化した形(CELPコーディング)、
(d)不規則なパルス列のコード化した表示(MPLPCコーディング)、
(e)デコーダがフレームの長さの繰返しシーケンスを合成できるようにす
る残りの信号の信号サイクルの特徴(particulars)(プロトタイプ波形補間また
はPWI)、(W.B.Kleijinによる文献("Encoding Speech using prototype Wav
eforms",IEEE Trans.Speech and Audio Processing,Vol 1,No.4,1993年10
月,pp.386乃至399)、およびW.B.KleijinとJ.Haagenによる文献("A Speech Code
r based on Decomposition of Characteristic Waveforms",Proc ICASSP,1995
年,pp.508乃至511)参照)。
送られるフィルタ情報から励起に関する位相情報を削除される場合には、図2
に関係して記載したのと類似の状況が生じる。したがって使用される位相スペク
トルに関して仮定をたてることが必要である。何れの場合でもLPC解析から最
小の位相伝達関数を生成されるので、合成フィルタのために位相情報が含まれる
か否かは問題ではない。したがってここでの議論の目的にとっては位相応答が送
られるフィルタ情報(通常は1組のフィルタ係数)に含まれるか否か、または最
小位相の仮定に基いてデコーダでそれが計算されるか否かは重要ではない。
この文脈でとくに重要なものはPWIコーダであり、ここでは一般に抽出され
たプロトタイプの残りのピッチサイクルをフーリエ変換を用いて解析している。
フーリエ係数を単に量子化するのではなく、振幅およびピッチ期間のみを送るこ
とによって伝送容量を節約することができる。したがって図9の構成では、図8
の要素と同じ要素は同じ参照符号であり、励起ユニット63は−PWI原理にした
がって動作し、出力の組でフーリエ係数を生成し−次にユニット80で大きさの情
報のみを抽出し、これをデコーダへ送る。デコーダにおいてユニット91は−図3
のユニット31と類似しており−式16を使用して位相調整値φFを計算し、励起
発生器64の位相を制御する。この例では次の表にしたがって、β1は0.95に
設定され、β2はピッチ期間pの関数として制御される: 表1−定の範囲のピッチ期間に対してF(z)で使用される値
これらの値を選択して、式15の全通過伝達関数がもつ位相応答は、ローゼン
バーグパルスの位相スペクトルの一部に対応し、TP=0.4pおよびTN=0.
16pであり、LPC合成フィルタ65によってモデル化されない。以前のように
、加算器83に前もって調整を加えて、PWI励起発生器64に送る前にフーリエ係
数に変換し戻される。
計算ユニット91は、式16を構成するためにプログラムされたディジタル信号
処理ユニットによって実現することができる。
z面上の極とゼロに関してこれらの調節の効果を検討することが重要である。
仮想全伝達関数H(z)はG、V、およびLの積であり、したがって図9に示さ
れているように、単位円内にはρiにP極、αに1つのゼロがあり、単位円の外
側には1/β1および1/β2に2つの極がある。逆LPC解析の効果は逆フィル
タ61を生成して、ρiとほぼ一致するゼロによってスペクトルを平らにすること
である。フィルタ、最小の位相フィルタは1/β1および1/β2において単位円
の外側でゼロを生成することはできないが、その代りにβ1およびβ2でゼロを生
成する。β1およびβ2は位相応答ではなく、大きさの応答を平らにするのに役立
つ(フィルタは極を生成して、通常αと同様の値をもつβ1のように、αでゼロ
を打ち消すことはできない)ので、振幅スペクトルにおいてαゼロと1
/β1の極とは打ち消し合い、逆フィルタはちょうどρiおよびβ2でゼロをもつ
と仮定することが一般的である。したがって残りがもつ位相スペクトルは、z面
においてβ1およびβ2における2つのゼロ(βは元の信号に対応する値をもつ)
と1/β1および1/β2(βはLPC解析によって決定される値をもつ)におけ
る極とによって表される。この情報は失われており、これらの位置においてゼロ
および極をもつ式15および16にしたがう全通過フィルタの計算によって近似
値が求められる。
この説明は、位相調節が式16によって全ての周波数において決定されること
を断定している。しかしながら、その代りに周波数範囲の下方部分から−言語の
特徴によって設定されるか、または依存できる範囲で式16のみを適用し、ラン
ダム位相をより高い周波数成分に適用することができる。
上述で図9に関して記載した構成は、主として有声音のために設計されている
。無声音に適応させるために、コーダは通常のやり方で有声音/無声音言語検出
器92をもち、デコーダがスイッチ93を介して、励起発生器64とコーダからの利得
信号によって振幅を制御する音声発生器との間でスイッチする。
調節は位相値を付加することによって示されたが、これは所望の結果を達成す
る唯一の方法ではなく;その代りに、例えば合成フィルタ65の後ろ(または前)
には式15の応答をもつ全通過フィルタによって配置することができる。
記載したデコーダはコード化され、それに送られた信号のデコーディングに関
して説明したが、デコーダは、記憶され、後で検索されるコード化された信号か
ら言語を生成するのに役立つ−すなわちデコーダは言語合成器の一部を形成でき
ることに注意すべきである。
─────────────────────────────────────────────────────
フロントページの続き
(81)指定国 EP(AT,BE,CH,DE,
DK,ES,FI,FR,GB,GR,IE,IT,L
U,MC,NL,PT,SE),OA(BF,BJ,CF
,CG,CI,CM,GA,GN,ML,MR,NE,
SN,TD,TG),AP(GH,KE,LS,MW,S
D,SZ,UG,ZW),EA(AM,AZ,BY,KG
,KZ,MD,RU,TJ,TM),AL,AM,AT
,AU,AZ,BA,BB,BG,BR,BY,CA,
CH,CN,CU,CZ,DE,DK,EE,ES,F
I,GB,GE,GH,HU,IL,IS,JP,KE
,KG,KP,KR,KZ,LC,LK,LR,LS,
LT,LU,LV,MD,MG,MK,MN,MW,M
X,NO,NZ,PL,PT,RO,RU,SD,SE
,SG,SI,SK,SL,TJ,TM,TR,TT,
UA,UG,US,UZ,VN,YU,ZW
(72)発明者 チートハム、バリー・マイケル・ジョージ
イギリス国、エル69・3ビーエックス、リ
バプール、サウス・モスリー・ヒル・ロー
ド 99
Claims (1)
- 【特許請求の範囲】 1.言語信号用デコーダであり: 振幅スペクトル情報を受信して、時間で変化する信号を合成する手段と; 振幅スペクトル情報から、振幅スペクトル情報に対応する振幅スペクトルを もつ最小位相フィルタに対応する位相スペクトル情報を計算する手段と; 振幅スペクトル情報および位相スペクトル情報から、時間で変化する信号を 生成する手段と; 信号の位相スペクトルを修正するように動作できる位相調節手段とを含む言 語信号のデコーダ。 2.最小位相合成フィルタの応答を定義する情報と励起信号合成のための振幅ス ペクトル情報とを含む言語信号をデコードするデコーダであり: 振幅スペクトル情報から、励起信号を生成する手段と; 応答情報によって制御され、かつ励起信号をフィルタ処理するために接続さ れた合成フィルタと; 位相調節信号を推定して、信号の位相を修正する位相調節手段とを含むデコ ーダ。 3.励起発生手段を接続して、位相調節信号を受取り、それによって決定される 位相スペクトルをもつ励起を発生する請求項2記載のデコーダ。 4.動作において位相調節手段を置いて、信号の位相をその生成後に調節するよ うにした請求項1または2記載のデコーダ。 5.z面の表示において単位円の外側に少なくとも1つの極をもつ全通過フィル タの伝達関数にしたがって、位相調節手段を動作して、位相を調節することがで きる請求項1乃至4の何れか1個記載のデコーダ。 6.z面の表示において単位円の外側に2つの極をもつ全通過フィルタの伝達関 数にしたがって、位相調節手段を動作して、位相を調節することができる請求項 1乃至4の何れか1個記載のデコーダ。 7.動作において調節手段を置いて、デコーダが受信したピッチ期間情報の関数 として該または前記極の位置が変化するようにした請求項5または6記載のデコ ーダ。 8.言語信号をコーディングおよびデコーディングする方法であり: (a)言語信号の振幅スペクトルを表す信号を生成することと; (b)信号を受信することと; (c)受信した信号から、受信した信号により決まる振幅スペクトルをもち z−面プロットとして見たときに、単位円の外側に少なくとも1つの極をもつ伝 達関数に対応する位相スペクトルをもつ合成言語信号を生成することとを含む言 語信号をコーディングおよびデコーディングする方法。 9.受信した信号から最小の位相スペクトルを計算し、最小の位相スペクトルと 前記極に対応するスペクトルの組み合わせである複合位相スペクトルを形成する ことによって、合成言語信号の位相スペクトルを決定する請求項8記載の方法。 10.信号が最小の位相合成フィルタを定める信号を含み、定められた合成フィ ルタおよび前記極に対応する位相スペクトルによって合成言語信号の位相スペク トルを決定する請求項8記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96305576 | 1996-07-30 | ||
EP96305576.9 | 1996-07-30 | ||
PCT/GB1997/002037 WO1998005029A1 (en) | 1996-07-30 | 1997-07-28 | Speech coding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000515992A true JP2000515992A (ja) | 2000-11-28 |
Family
ID=8225033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10508614A Pending JP2000515992A (ja) | 1996-07-30 | 1997-07-28 | 言語コーディング |
Country Status (6)
Country | Link |
---|---|
US (1) | US6219637B1 (ja) |
EP (1) | EP0917709B1 (ja) |
JP (1) | JP2000515992A (ja) |
AU (1) | AU3702497A (ja) |
DE (1) | DE69702261T2 (ja) |
WO (1) | WO1998005029A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005532585A (ja) * | 2002-07-08 | 2005-10-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオコーディング |
JP2013015829A (ja) * | 2011-06-07 | 2013-01-24 | Yamaha Corp | 音声合成装置 |
JP2018532131A (ja) * | 2015-12-10 | 2018-11-01 | ▲華▼侃如 | 調波モデルと音源−声道特徴分解に基づく音声分析合成方法 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3644263B2 (ja) * | 1998-07-31 | 2005-04-27 | ヤマハ株式会社 | 波形形成装置及び方法 |
EP0987680B1 (en) * | 1998-09-17 | 2008-07-16 | BRITISH TELECOMMUNICATIONS public limited company | Audio signal processing |
DE69939086D1 (de) | 1998-09-17 | 2008-08-28 | British Telecomm | Audiosignalverarbeitung |
US6397175B1 (en) * | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US20030048129A1 (en) * | 2001-09-07 | 2003-03-13 | Arthur Sheiman | Time varying filter with zero and/or pole migration |
US7353168B2 (en) * | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US7664633B2 (en) * | 2002-11-29 | 2010-02-16 | Koninklijke Philips Electronics N.V. | Audio coding via creation of sinusoidal tracks and phase determination |
GB2398981B (en) * | 2003-02-27 | 2005-09-14 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
KR101019936B1 (ko) * | 2005-12-02 | 2011-03-09 | 퀄컴 인코포레이티드 | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 |
KR101475894B1 (ko) * | 2013-06-21 | 2014-12-23 | 서울대학교산학협력단 | 장애 음성 개선 방법 및 장치 |
KR20160087827A (ko) | 2013-11-22 | 2016-07-22 | 퀄컴 인코포레이티드 | 고대역 코딩에서의 선택적 위상 보상 |
CN113114160B (zh) * | 2021-05-25 | 2024-04-02 | 东南大学 | 一种基于时变滤波器的线性调频信号降噪方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4475227A (en) * | 1982-04-14 | 1984-10-02 | At&T Bell Laboratories | Adaptive prediction |
JPS6031325A (ja) * | 1983-07-29 | 1985-02-18 | Nec Corp | 予測停止adpcm符号化方式およびその回路 |
DE3678717D1 (de) * | 1986-04-30 | 1991-05-16 | Ibm | Verfahren und einrichtung zur tonerkennung. |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
GB9417185D0 (en) * | 1994-08-25 | 1994-10-12 | Adaptive Audio Ltd | Sounds recording and reproduction systems |
-
1997
- 1997-07-28 EP EP97933782A patent/EP0917709B1/en not_active Expired - Lifetime
- 1997-07-28 AU AU37024/97A patent/AU3702497A/en not_active Abandoned
- 1997-07-28 WO PCT/GB1997/002037 patent/WO1998005029A1/en active IP Right Grant
- 1997-07-28 JP JP10508614A patent/JP2000515992A/ja active Pending
- 1997-07-28 DE DE69702261T patent/DE69702261T2/de not_active Expired - Lifetime
- 1997-07-28 US US09/029,832 patent/US6219637B1/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005532585A (ja) * | 2002-07-08 | 2005-10-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオコーディング |
JP2013015829A (ja) * | 2011-06-07 | 2013-01-24 | Yamaha Corp | 音声合成装置 |
JP2018532131A (ja) * | 2015-12-10 | 2018-11-01 | ▲華▼侃如 | 調波モデルと音源−声道特徴分解に基づく音声分析合成方法 |
Also Published As
Publication number | Publication date |
---|---|
WO1998005029A1 (en) | 1998-02-05 |
AU3702497A (en) | 1998-02-20 |
EP0917709B1 (en) | 2000-06-07 |
EP0917709A1 (en) | 1999-05-26 |
DE69702261T2 (de) | 2001-01-25 |
DE69702261D1 (de) | 2000-07-13 |
US6219637B1 (en) | 2001-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5787387A (en) | Harmonic adaptive speech coding method and system | |
JP2787179B2 (ja) | 音声合成システムの音声合成方法 | |
US5864794A (en) | Signal encoding and decoding system using auditory parameters and bark spectrum | |
US5890108A (en) | Low bit-rate speech coding system and method using voicing probability determination | |
US8280724B2 (en) | Speech synthesis using complex spectral modeling | |
JP4550289B2 (ja) | Celp符号変換 | |
EP1846920B1 (en) | Method for generating concealment frames in communication system | |
KR100472585B1 (ko) | 음성신호의재생방법및장치와그전송방법 | |
US7792672B2 (en) | Method and system for the quick conversion of a voice signal | |
Moulines et al. | Time-domain and frequency-domain techniques for prosodic modification of speech | |
EP0865028A1 (en) | Waveform interpolation speech coding using splines functions | |
JP2000515992A (ja) | 言語コーディング | |
US20050065784A1 (en) | Modification of acoustic signals using sinusoidal analysis and synthesis | |
Quatieri et al. | Phase coherence in speech reconstruction for enhancement and coding applications | |
JPH10319996A (ja) | 雑音の効率的分解と波形補間における周期信号波形 | |
JPH11510274A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
JPH09512645A (ja) | マルチパルス分析音声処理システムおよび方法 | |
JP2798003B2 (ja) | 音声帯域拡大装置および音声帯域拡大方法 | |
JP2001508197A (ja) | 構成信号にノイズを加算してlpc原理により符号化された音声のオーディオ再生のための方法及び装置 | |
Arakawa et al. | High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum | |
JP3583945B2 (ja) | 音声符号化方法 | |
JP3163206B2 (ja) | 音響信号符号化装置 | |
JP3510168B2 (ja) | 音声符号化方法及び音声復号化方法 | |
JP2583883B2 (ja) | 音声分析装置および音声合成装置 | |
Vích et al. | Pitch synchronous transform warping in voice conversion |