JP4112027B2 - 再生成位相情報を用いた音声合成 - Google Patents
再生成位相情報を用いた音声合成 Download PDFInfo
- Publication number
- JP4112027B2 JP4112027B2 JP03403096A JP3403096A JP4112027B2 JP 4112027 B2 JP4112027 B2 JP 4112027B2 JP 03403096 A JP03403096 A JP 03403096A JP 3403096 A JP3403096 A JP 3403096A JP 4112027 B2 JP4112027 B2 JP 4112027B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voiced
- spectral
- information
- unvoiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000003786 synthesis reaction Methods 0.000 title description 32
- 230000015572 biosynthetic process Effects 0.000 title description 31
- 230000003595 spectral effect Effects 0.000 claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 29
- 230000005236 sound signal Effects 0.000 claims description 15
- 238000001308 synthesis method Methods 0.000 claims description 15
- 238000003708 edge detection Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 25
- 238000013139 quantization Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000005284 excitation Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010295 mobile communication Methods 0.000 description 5
- 238000011069 regeneration method Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000008929 regeneration Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000000116 mitigating effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 2
- 240000007471 Garcinia livingstonei Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001439211 Almeida Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000001451 molecular beam epitaxy Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明は、低から中レートの効率的な符号化(エンコード)および復号化(デコード)を促進する音声を表現する方法に関するものである。
【0002】
【従来の技術】
最近の刊行物には、J.L.フラナガン(J.L.Flanagan)による、位相ボコーダ−周波数−基礎音声解析−合成システムについて論じている「音声解析(Speech Analysys)」、「合成と知覚(Synthesis and Perception)」、スプリンガーフェアラグ(SpringerVerlag)、1972,pp.378386;ジャヤント(Jayant et al.)等による、一般的な音声符号化について論じている「波形のデジタル符号化(Digital Coding of Waveforms)」、プレンティス−ホール(PrenticeHall)、1984;正弦波処理方法(sinusoidal prosessing method)について開示している米国特許番号4,885,790号公報;正弦波符号化法(sinusoidal coding method)について開示している米国特許番号5,054,072号公報;アルメイダ(Almeida et al.)等による、調和モデル化およびコーダ(Harmonic modelling and Coder)について開示している「有声音声の非静的モデル化(Nonstationary Modelling of Voiced Speech)」、IEEE TASSP,Vol.ASSP31,No.3 June 1983,pp664677;アルメイダ(Almeida et al.)等による、多項式音声合成方法(Polynomial voiced synthesis method)について開示している「可変周波数合成:改善された調和符号化法(VariableFrequency Synthesis:An Improved Harmonic Coding Scheme)」、IEEE Proc. ICASSP 84、pp27.5.127.5.4;クァティエリ(Quatieri et al.)等による、正弦波表現に基づいた解析合成技術(analysissynthesis technique based on a sinusodial representation)について開示している「正弦波表現に基づいた音声変換(Speech taransformations Based on a Sinusodial Representation)」、IEEE TASSP,Vol,ASSP34,No.6,Dec.1986,pp.14491986;マクオーレイ等による、正弦波変換音声コーダ(the sinusoidal transform speech coder)について開示している「音声の正弦波表現に基づいた中間レート符号化(Midrate Coding Based on a Sinusodial Representation of speech)」、Proc.ICASSP 85,pp.945948, Tampa, FL.,March 2629,1985;グリフィンによる、マルチバンド励起(MBE)音声モデルおよび8000bpsMBE音声コーダについて開示している「マルチバンド励起ボコーダ(Multiband Excitation Vocoder)」,Ph.D.Thesis,M.I.T, 1987;ハードウィック(Hardwick)による、4800bpsマルチバンド励起音声コーダについて開示している「4.8kbpsマルチバンド励起コーダ」,SM. Thesis, M.I.T, May 1988;米国電気通信工業会(TIA)による、APCOプロジェクト25標準に対する7.2kbpsIMBE音声コーダについて開示している「APCOプロジェクト25ボコーダ記述(Apco Project 25 Vocoder Description)」,Version 1.3, July 15,1993,IS102BABA;MBEのランダム位相合成(MBE random quantaization)について開示している米国特許番号5,081,681号公報;MBEチャネルエラー緩和法およびフォーマット増大法について開示している米国特許番号5,247,579号公報;MBE量子化とエラー緩和法について開示している米国特許番号5,226,084号公報がある。これらの出版物の内容は、本明細書において参照されている。(IMBEはデジタルボイスシステム社(Digital Voice Systems, Inc.)の商標である。)
【0003】
音声の符号化(以下、エンコードと称す。)および復号化(以下、デコードと称す。)の問題点は、多くの用途を有し、このために広範囲に研究されてきた。多くの場合、音声の品質すなわち明瞭さを損なうことなく音声信号を表現するのに必要なデータレートを減少させることが要求される。この問題は、一般に「音声圧縮(speech compression)」と言われているが、音声コーダあるいはボコーダにより解決される。
【0004】
音声コーダは一般的に2つの部分の処理として見られる。第1部分は、一般的にエンコーダと言われている、A/D変換器を介してマイクロホンの出力を通過させることにより生成されるもののような音声のデジタル表現で始まり、圧縮されたビットストリームを出力する。第2部分は、一般的にデコーダと言われている、圧縮されたビットストリームを、D/A変換器およびスピーカを介して再生するために適した音声のデジタル表現に変換する。多くの利用において、エンコーダおよびデコーダは物理的に分離されており、ビットストリームは通信チャネルを介して、それらの間を伝送される。
【0005】
音声コーダの重要なパラメータは、それが達成する圧縮の量であり、それはそのビットレートを介して測定される。達成された現実の圧縮ビットレートは、一般的に所望の忠実さ(すなわち、音声の品質)および音声のタイプの関数である。異なるタイプの音声コーダが、高レート(8kbps以上)、中レート(3〜8kbps)、低レート(3kbps以下)で動作するように設計されてきた。最近、中レートの音声コーダは、広範囲の移動通信の利用(セルラ電話、衛星電話、地上移動ラジオ、飛行機電話等)において、強い関心が持たれてきた主題である。これらの利用は、代表的に高い品質の音声と、聴覚雑音やチャネル雑音(ビットエラー)により引き起こされる物(artifacts)に対する堅固さとを必要とする。
移動通信に対する高い適性が示されてきた音声コーダの1つのクラスは、基本的な音声のモデルに基づいている。このクラスからの例は、線形な予想ボコーダ、準同型ボコーダ(homomorphic vocoder)、正弦波変換ボコーダ、マルチバンド励起音声コーダおよびチャネルボコーダを含む。これらのボコーダにおいて、音声は、短いセグメント(代表的には10−40ms)に分割され、また各セグメントは1組のパラメータにより特徴づけられる。これらのパラメータは代表的に、各音声セグメントのピッチ、発声状態およびスペクトルの包絡線を含む少数の基礎的要素を表す。モデルを基礎とした音声コーダは、これらのパラメータのそれぞれに対する周知のいくつかの表現の1つを利用することができる。例えば、ピッチは、ピッチ期間、基本周波数あるいはCELPコーダにおいてのように長い期間の予想遅延として表現されれもよい。同様に、発声状態は、1つかあるいはそれ以上の、有声/無声の決定、発声可能性の測定を介して、あるいは確率的なエネルギーに対する期間の割合により表現される。スペクトルの包絡線は、全極フィルタ応答(LPC)によりしばしば表現されるが、1組の調波の振幅あるいは他のスペクトル測定により同等に特徴づけられてもよい。通常は、少数パラメータのみが音声セグメントを表現するために必要であるが、モデルを基礎とした音声コーダは代表的には、中から低レートで動作することができる。しかしながら、モデルを基礎としたシステムの品質は、基礎モデルの正確さに依存する。それ故、これらの音声コーダが高い音声品質を達成するためには、高い正確さを有するモデルが使用されなければならない。
【0006】
良質な音声を提供し、中から低ビットレートでよく動作する前述してきた1つの音声モデルは、グリフィンとリムにより開発されたマルチバンド励起(MBE)音声モデルである。このモデルは、より自然に聞こえる音声を生成可能とし、音響背景雑音の存在に対しより堅固にする、柔軟な音声構造を使用している。これらの特性により、MBE音声モデルが商業的な移動通信の用途において採用されてきた。
【0007】
MBE音声モデルは、基本周波数、1組のバイナリの有声/無声(V/UV)決定および1組の調波の振幅を使用して、音声のセグメントを表す。より古典的なモデルに対するMBEモデルの初期の利点は、発声表現の中にある。MBEモデルは、セグメント毎に古典的な単一のV/UVを1組の決定に一般化し、それぞれは特定の周波数バンド内の発声状態を表現する。この音声モデルにおける柔軟性の追加により、MBEモデルは、摩擦音のような混合された音声によりよく適応する。さらに、この追加の柔軟性により、背景の音響雑音により汚れた音声をより正確に表現する。多方面にわたる試験により、この一般化が改善された有声音の品質と正確さを結果として生ずることが示された。
【0008】
音声コーダに基づいたMBEのエンコーダは、各音声セグメントに対する1組のモデルパラメータを評価する。MBEモデルパラメータは、相互のピッチ期間である基本周波数と、発声状態を特徴づける1組のV/UV決定と、スペクトルの包絡線を特徴づける1組のスペクトル振幅(強度)とからなる。かつて、MBEモデルパラメータが各セグメントに対して評価されてきた、それらは、エンコーダで量子化され、1フレームのビットが生成される。それから、これらのビットは、任意にエラー訂正/検出コード(ECC)により保護され、次に結果ビットストリームは対応するデコーダに転送される。デコーダは、受信ビットストリームを個々のフレームに変換し、選択的エラー制御デコードを実行し、ビットエラー補正および/または検出を行う。次に結果ビットは、それからデコーダが、オリジナルを認識できるほどに近い音声信号を合成するMBEモデルパラメータを再構築するために使用される。実践において、デコーダは、分離された有声および無声の成分を合成し、2つの成分を追加し、最終的な出力を生成する。
【0009】
【発明が解決しようとする課題】
MBEに基づいたシステムにおいて、スペクトルの振幅は、評価された基本周波数の各調波でのスペクトルの包絡線を表現するために用いられる。代表的には、各調波は、対応する調波を含む周波数バンドが有声であると断定するか、無声であると断定するかに依存して、有声かあるいは無声かに分類される。エンコーダは、各調波の周波数に対するスペクトル振幅を評価し、MBEはシステムの従来技術において、異なる振幅評価装置が、有声に分類されるか無声に分類されるかに依存して使用される。デコーダで、有声および無声の調波が再度認識され、分離された有声および無声成分は、異なる手順を用いて合成される。無声成分は、ホワイトノイズ信号をフィルタするために、重みつき重ね合わせ付加法(a weighted overlapadd method)を用いて合成される。フィルタは、有声と断定される全周波数領域をゼロにセットし、さもなければ、無声と分類されたスペクトル振幅を調和する。有声成分は、有声に分類された各調波に割り当てられたオシレータにより、同調させたオシレータバンクを用いて合成される。瞬間の振幅、周波数および位相が補間され、隣接するセグメントで対応するパラメータを調和する。高機能を提供するためにMBEに基づいた音声コーダが示されてきたが、音声品質において劣化を引き出すという複数の問題が認識されてきた。リスニング試験により、周波数領域において、合成された信号の大きさと位相の両方が、高い音声品質と正確さを得るために慎重に制御されなければならないことが立証された。スペクトル強度における加工物(artifacts)は広範囲の効果を有し得るが、中から低ビットレートでの1つの一般的な問題は、消音品質の導入および/または、音声の知覚される鼻音性の増大である。これらの問題は、たいてい、強度の再構築における重大な量子化エラー(少なすぎるビットにより引き起こされる)の結果である。音声フォルマントに対応するスペクトル強度を増大する音声フォルマント増大法は、残りのスペクトル強度を減衰しながら、これらの問題を解決しようとするために採用されてきた。これらの方法は、知覚される品質をある点まで改善するが、やがては、それらが導くひずみが非常に大きくなり、品質が悪化し始める。
【0010】
性能は、デコーダが有声音声成分の位相を再生成しなければならないという事実により引き起こされる位相加工物の導入により、しばしば、さらに低減される。低から中データレートにおいては、エンコーダとデコーダの間で任意の位相情報を転送するのに十分なビットでない。結果として、エンコーダは、実際の信号位相を無視し、デコーダは、自然に聞こえる音声を生成するための方法において、人工的に有声位相を再生成しなければならない。
【0011】
広範囲の実験は、再生成された位相が知覚品質において重大な効果を有することを示した。位相を再生成する初期の方法は、初期位相のいくつかの組からの単純な統合された調波の周波数を含んでいた。この処理は、有声成分がセグメントの境界で連続であったということを立証した。しかしながら、高品質音声を生ずる初期位相の1組を選択することは、問題のあることがわかった。もし、初期位相をゼロに設定すれば、生ずる音声は、「ぶんぶんいう音」と判断され、もし、初期位相がでたらめに決められたら、音声は「反響音」と判断される。聞き取り試験は、有声成分が音声を支配する場合は、でたらめさはより少ないのが好ましく、無声成分が音声を支配する場合は、位相のでたらめさがより多いのが好ましいことを示した。結果として単純な有声率が、この方法で位相のでたらめさの量を制御するために計算された。有声であることに従属したランダム位相は、多くの用途に対し適していることが示されたが、聞き取り試験は、まだ有声の成分位相に対するいくつかの品質の問題を追従した。試験は、音声の品質が、ランダム位相の利用をやめ、その代わりに個々に各調波の周波数で、実際の音声により近くなるように位相を制御することにより、大幅に改善され得たことを立証した。
【0012】
そこで、本発明は、この事実に基づき、低から中レートの効率的な符号化(エンコード)および復号化(デコード)を促進する、音声を表現する方法または装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
本発明に係る音声合成方法は、音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と発声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する方法であって、前記合成デジタル音声信号のデコードおよび合成する方法は、前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供するステップと、前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定するステップと、前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定するステップと、前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成するステップと、少なくとも1つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成するステップと、有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成するステップとからなる。
【0014】
本発明に係る音声合成装置は、音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と音声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する装置であって、前記合成デジタル音声信号のデコードおよび合成する前記装置は、前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供する手段と、前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定する手段と、前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定する手段と、前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成する手段と、少なくとも1つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成する手段と、有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成する手段とからなる。
【0015】
好ましくは、前記方法または前記装置において、それから合成音声信号が合成される前記デジタルビットは、スペクトル包絡線情報と発声情報を表すビットと、基本周波数情報を表すビットとからなる。
【0016】
好ましくは、前記方法または前記装置において、前記スペクトル包絡線情報は、複数の前記音声信号の基本周波数の調波でのスペクトル強度を表す情報からなる。
【0017】
好ましくは、前記方法または前記装置において、前記スペクトル強度は、周波数バンドが有声であるか無声であるかに依存せず、スペクトル包絡線を表す。
【0018】
好ましくは、前記方法または前記装置において、前記再生成されたスペクトル位相情報は、それが関係した複数の調波の付近でのスペクトル包絡線の形状から決定される。
【0019】
好ましくは、前記方法または前記装置において、前記再生成されたスペクトル位相情報は、端検出カーネルを前記スペクトル包絡線の表現に適用することにより決定される。
【0020】
好ましくは、前記方法または前記装置において、前記端検出カーネルが適用される前記スペクトル包絡線の表現は、圧縮される。
【0021】
好ましくは、前記方法または前記装置において、前記合成音声信号の無声音声成分は、でたらめな雑音信号に対するフィルタ応答から決定される。
【0022】
好ましくは、前記方法または前記装置において、前記有声音声成分は、前記基本周波数と再生成されたスペクトル位相情報から決定される特性を持った正弦波発信器のバンクを使用することにより、少なくとも部分的に決定される。
【0023】
第1態様において、本発明は、音声合成において有声成分を再生成する改善された方法を備える。位相は、有声成分のスペクトルの包絡線から評価される(例えば、有声成分の近くのスペクトルの包絡線の形状から)。デコーダは、スペクトルの包絡線および複数のフレームのそれぞれに対する発声情報を再構築し、また発声情報は、特定のフレームに対する周波数バンドが有声か無声であるかを決定するために使用される。音声成分は、再生成スペクトル位相情報を使用して有声周波数バンドに対して合成される。無声周波数バンドに対する成分は、例えば、ランダム雑音信号に対するフィルタ応答からの他の技術を用いて生成される。ここで、フィルタは、無声周波数バンドにおいて近似的なスペクトル包絡線、および有声周波数バンドにおいて近似的にゼロの大きさを有している。
【0024】
好ましくは、合成音声信号を合成するデジタルビットは、基本周波数情報を表現するビットを含み、またスペクトルの包絡線情報は、複数の基本周波数の調波でのスペクトルの大きさからなる。発声情報は、各周波数バンド(およびバンド内の各高調波)を、有声か無声か分類するために使用され、また有声バンド内の調波に対して、個々の位相は、調波の周波数周辺に位置するスペクトルの包絡線(スペクトル強度により表わされるスペクトル形状)の関数として再生成される。
【0025】
好ましくは、スペクトル強度は、周波数バンドが有声か無声かどうかには依存せず、スペクトルの包絡線を表す。再生成スペクトル位相情報は、スペクトルの包絡線の表現に対する端検出カーネルを用いることにより決定され、また端検出カーネルが用いられているスペクトルの包絡線の表現は圧縮される。音声成分は、正弦波発振器のバンクを使用して、少なくとも部分的に決定される。ここで、発振器の特性は、基本周波数および再生成されたスペクトル位相情報から決定される。
【0026】
本発明は、従来技術に関するpeaktorms値の点から実際の音声に近似的により近く合成音声を生成し、それにより改善されたダイナミックレンジを生ずる。さらに、合成音声は、より自然に知覚され、より少ないひずみに関係した位相を示す。
【0027】
本発明の他の特徴および利点は、以下の実施の形態および請求の範囲の記述により明らかになるであろう。
【0028】
【発明の実施の形態】
以下に、本発明の実施の形態の詳細な説明を行う。
【0029】
実施の形態1.
本発明の好ましい実施の形態が、新しいMBEに基づいた音声コーダにおいて説明されている。このシステムは、移動衛星、セルラ電話、地上移動ラジオ(SMR、PMR)等のような移動通信の用途を含む広範囲の環境に対し応用できる。この新しい音声コーダは、標準MBE音声モデルと、モデルパラメータとこれらのパラメータから音声を合成するための新規の解析/合成手順とを結合する。新しい方法は、音声品質を改善し、エンコードに必要なビットレートを低くし、音声信号を転送する。本発明は、この特定のMBEに基づく音声コーダにおいて説明されているが、ここで開示された技術と方法は、当業者によれば本発明の真意と範囲から離れることなしに、すぐに他のシステムや技術に対しても利用できる。
【0030】
新しいMBEに基づく音声コーダにおいて、8kHzでサンプリングされたデジタル音声信号は、ハミングウインドウ(Hamming window)のような短いウインドウ関数(20−40ms)によるデジタル音声信号を多重化することにより、最初に重なったセグメントに分割される。フレームは、代表的に20ms毎に計算され、各フレームに対しては、基本周波数と発声決定が計算される。新しいMBEに基づく音声コーダにおいて、これらのパラメータは、発明の名称が「励起パラメータの評価」である審査中の米国特許出願、08/222,229号および08/371,743号に記述されている新しい改善された方法に従って計算される。または、基本周波数と発声決定が、「APCO Project25 Vocoder」と名付けられたTIA暫定標準IS102BABAに記述されているように計算される。両方の場合において、少数の発声決定(代表的には、12かそれ以下)が、各フレーム内で異なる周波数バンドの発声状態をモデル化するために使用される。例えば、3.6kbps音声コーダにおいて、代表的には、8個の有声/無声決定(以下、V/UV決定と称す。)が、0から4kHzの間で8つの異なる周波数バンドに対する発声状態を表すために使用される。
【0031】
s(n)は、不連続な音声信号を表すとし、i番目のフレームに対する音声スペクトル、Sw(ω,i・S)は、以下の式に従い計算される。
【数1】
ここで、ω(n)はウィンドウ関数であり、Sはフレームサイズであり、代表的には20msである(8kHzで160サンプル)。i番目のフレームに対する評価された基本周波数および発声決定は、それぞれ1≦k≦Kに対してω0(i・s)とvk(i・s)として表わされる。ここでKは、V/UV決定(代表的にはK=8)の合計数である。表記上の簡単化から、フレームインデックスi・sは、現状のフレームを参照するときに省略でき、ここで、Sw(ω)、ω0およびvkは、それぞれ、現状のスペクトル、基本周波数、および発声決定を示している。
【0032】
MBEシステムにおいて、スペクトルの包絡線は、代表的には、音声スペクトルSw(ω)から評価される1組のスペクトル振幅として表される。スペクトル振幅は、代表的には、各調波周波数(すなわち、ω=ω0l、l=0,1,...)で計算される。従来技術のMBEシステムにはないが、本発明は、発声状態に依存しないこれらのスペクトル振幅を評価する新しい方法を備える。これは、不連続性がなくなるために、よりなめらかなスペクトル振幅の組を生じ、またそれは、音声遷移が生じた時はいつでも、従来技術のMBEにおて正常に存在する。本発明は、局所スペクトルエネルギーの正確な表現を提供するさらなる利点を備え、それらにより知覚される音の大きさを保存する。さらに、発明は、局所スペクトルエネルギーを保存し、高効率高速フーリエ変換(FFT)により、正常に採用された周波数サンプリング点の効果を補償する。これはまた、スペクトル振幅のなめらかな組を達成するのに貢献する。なめらかさは、量子化効率を増加させ、チャネルエラーの緩和と同様に、よりよきフォルマントを増大(すなわち、前段フィルタリング)させるということから、全体の性能に対して重要である。
【0033】
スペクトルの大きさのなめらかな組を計算するために、有声と無声音声の特性を考慮する必要がある。有声音声に対して、スペクトルエネルギー(すなわち、|Sw(ω)|2)は、調波周波数付近に集中し、無声音声に対して、スペクトルエネルギーは、より一様に分配される。従来技術のMBEシステムにおいて、無声スペクトル強度が、各対応する調波周波数付近に集中した周波数間隔(代表的には、予想された基本周波数に等しい)に対する、平均のスペクトルエネルギーとして計算される。反対に、従来技術のMBEシステムにおいて、有声スペクトル強度は、同じ周波数間隔において、全スペクトルエネルギーのいくつかの端数(たいてい、1)に等しくなるよう設定される。平均エネルギーと全エネルギーは、大きく異なるため、特に周波数間隔が広い(すなわち、大きな基本周波数)場合は、発声状態間で遷移する調波を連続させる時はいつでも、不連続性が、しばしばスペクトルの大きさにおいて導かれる(すなわち、有声から無声、あるいは無声から有声に)。
【0034】
従来技術のMBEシステムに見られる前記の問題を解決することができる1つのスペクトル強度の表現は、対応する間隔内の平均のスペクトルエネルギーあるいは全スペクトルエネルギーとしての各スペクトル強度を表すことである。これらの両解決策は、発声遷移での不連続性を除去し、高速フーリエ変換(FFT)あるいは不連続フーリエ変換(DFT)のようなスペクトル変換が結合された時、他の変化を導くであろう。実際には、FFTは、FFTの長さN(代表的には、2のべき乗)で決定される単一のサンプリング点上で、Sw(ω)を評価するために使用される。例えば、N点のFFTは、次式で示されるように、0から2π間のN周波数サンプルを生ずる。
【数2】
好ましい実施の形態において、スペクトルは、N=256でFFTを使用することにより計算され、ω(n)は代表的には、表1に示された255点の対称なウインドウ関数に等しく設定される。
【0035】
その複雑さの低さから、スペクトルを計算するためにFFTを使用することが望まれる。しかしながら、結果として生ずるサンプリング間隔2π/Nは、一般的には、多重化された基本周波数の逆数にならない。結果として、任意の2つの連続した調波周波数間のFFTサンプルの数は、調波間では一定にならない。もし、平均スペクトルエネルギが調波の大きさを表すために使用された場合、集中したスペクトル分布を有する有声の調波は、各平均値の計算に用いられるFFTサンプル数が変化することによる調波間の変動を経験する。同様に、もし全スペクトルエネルギーが、調波の大きさを表すために使用された場合、より一様なスペクトル分布を有する無声の調波は、全エネルギーが計算されるFFTサンプル数が変化することによる調波間の変動を経験する。両方の場合において、FFTから利用できる少数の周波数サンプルは、特に基本周波数が小さい時に、スペクトル強度の急激な変動を導く。
【0036】
本発明は、全スペクトル強度に対して、発声変移の不連続性を除去するため、補償された全エネルギー法を用いる。本発明の補償された方法は、また、変動に関係したFFTが、有声または無声の大きさのどちらかをひずませることを防止する。特に、本発明は、次式に従って計算されるMl(0≦l≦L)により示される現行のフレームに対するスペクトル強度の組を計算する。
【数3】
この式から、各スペクトル強度はスペクトルエネルギー|Sw(m)2|の重みづけられた合計として計算される、そこでは、重みづけ関数は、各特定のスペクトル強度に対して調波周波数により、オフセットとなる。重みづけ関数G(ω)は、調波周波数lω0と、2πm/Nで起こるFFT周波数サンプルとの間のオフセットを補償するために決定される。この関数は、各フレームが変化し、以下のように評価された基本周波数を反映する。
【数4】
このスペクトル強度表現の1つの変化する特性は、有声と無声の両調波に対する局所的なスペクトルエネルギー|Sw(m)2|に基づいているということである。スペクトルエネルギーは、それが音声信号の位相により影響されることなしに相対的な周波数の中身と音の大きさの情報を運ぶため、一般的に人間が音声を知覚する方法に近い近似であると考えられている。新しい強度の表現が発声状態に依存しないため、表現において、有声と無声領域間の遷移による、あるいは有声と無声エネルギの混合による、変動あるいは不連続性がない。重み関数G(ω)は、さらに、FFTサンプリング点による任意の変動を除去する。これは、評価された基本周波数の調波間で測定されたエネルギーを、なめらかになるように補間することにより達成される。式(4)に開示された重みづけ関数のさらなる利点は、音声における全エネルギーがスペクトル強度の中に保存されるということである。これは、スペクトル強度の組において、全エネルギーに対する以下の式を確かめることにより、より明確になる。
【数5】
この式は、0≦m≦Lω0N/(2π)の間隔で、G(2πm/N−lω0)の総和を1と等しいことにすることにより、単純化することができる。これは、スペクトル強度におけるエネルギーが音声スペクトルにおけるエネルギーに等しいために、音声の全エネルギーがこの間隔で保存されることを意味する。式(5)の分母が、式(1)に従ってSw(m)を計算する時に用いられるウインドウ関数ω(n)を単純に補償することに注意すべきである。もう1つの重要な点は、表現のバンド幅がLω0の積に依存することである。実際において、望まれるバンド幅は、たいてい、πで表現されるナイキスト周波数のいくつかの関数になる。結果として、スペクトル強度の合計数Lは、現行フレームに対する予想された基本周波数の基礎礎周波数に反比例し、代表的には次式で表現される。
L=απ/ω0 (6)
ここで、0≦α<1である。8kHzのサンプリングレートを用いた3.6kbpsシステムは、バンド幅が3700Hzになるα=0.925で設計される。
【0037】
前述した以外の重み関数は、式(3)においてもまた用いられる。事実、もし、式(5)における総計G(ω)がいくつかの効果的なバンド幅に対する定数(代表的には1)に近似的に等しい場合、全パワーが保持される。式(4)で与えられる重み関数は、サンプリング点により導かれる任意の変化をなめらかにするFFTサンプリング間隔(2π/N)に対する線形補間を用いる。別の方法として、2次のあるいは他の補間法を、本発明の範囲から離脱することなしに、G(ω)内に組み込むことも可能である。
【0038】
本発明は、MBE音声モデルの2値的なV/UV決定の点から記述されているが、本発明は、発声情報に対する代わりの表現を用いたシステムにもまた利用できる。例えば、正弦波コーダにおける普及している1つの表現は、カットオフ周波数によって発声情報を表すことである。そこでは、スペクトルは、このカットオフ周波数より下では有声で、それより上では無声であると考えられている。
【0039】
本発明は、FFTサンプリング点により引き起こされる発声の変移と変化の不連続性を阻止することにより、大きさの表現のなめらかさを改善する。なめらかさの増加が、少数ビットによるスペクトル強度の正確な量子化を促進するということは、情報理論によりよく知られている。3.6kbpsのシステムにおいて、72ビットが、各20msフレームに対するモデルパラメータを量子化するために用いられる。7ビットが基本周波数を量子化するために用いられ、8ビットが8つの異なる周波数バンド(それぞれ、近似的に500Hz)におけるV/UV決定をコード化するために用いられる。フレーム当たりの残りの57ビットが、各フレームに対するスペクトル強度を量子化するために用いられる。異なるブロックの不連続余弦波変換(DCT:Discrete Cosine Transform)法は、スペクトル強度の対数に対し適用される。本発明において、なめらかさを増加することにより、より多くの信号パワーを緩やかに変化するDCT成分をまとめる。フレーム当たりの利用可能ビット数に対するより低いスペクトルのひずみを与えるこの効果を説明するためにビット割り当てと量子化ステップサイズが調整される。移動通信での利用において、移動チャネルに対する伝送の前のビットストリームに対するさらなる余剰を含むことが、しばしば望まれる。この余剰は、代表的には、ビットエラーが伝送する間に導かれるビットエラーが訂正および/または検出されるような方法で、ビットストリームに対してさらなる余剰を追加するエラー訂正および/またはコード検出により生成される。例えば、4.8kbps移動衛星での利用において、1.2kbpsの余剰データが3.6kbpsの音声データに追加される。1つの[24,12]のゴレイコード(Golay Code)と3つの[15,11]のハミングコード(Hamming Code)の組み合わせが、各フレームに追加される24の余剰ビットを生成するために使用される。たたみこみ(convolutional)、BCH、リード−ソロモン(ReedSolomon)等のような他の多くのエラー訂正コードもまた、エラーの強固さを変化させ仮想的に任意のチャネルの状態に対応させるために用いることができる。
【0040】
受信機において、デコーダは、送信されてきたビットストリームを受信し、各フレームに対してモデルパラメータ(基本周波数、V/UV決定およびスペクトル強度)を再構築する。実際において、受信したビットストリームが、チャネル内の雑音によるビットエラーを含んでも良い。結果として、エラーにおいて、V/UVビットが、有声強度が無声として、すなわち逆に解釈されながら、デコードされてもよい。本発明は、強度それ自身を発声状態に依存しないため、これらの音声エラーからの知覚されたひずみを減少する。本発明の他の利点は、受信機でのフォルマント増大時に生ずる。実験により、もし、フォルマントのピークでのスペクトル強度がフォルマントの谷でのスペクトル強度に関連して増加するならば、知覚される品質が増加することが示された。この処理は、量子化時に導かれるフォルマントの広がりのいくつかを逆転する傾向にある。その時、音声は、より「ばりばり」するように聞こえ、反響音はより少なくなる。実際には、スペクトル強度は、それらが局所的な平均値より大きい場合に増加し、局所的な平均値より小さい場合には減少する。望ましくないが、スペクトル強度の不連続性は、見せかけの増加あるいは減少を導きながら、フォルマントとして現れ得る。本発明の改善されたなめらかさは、改善されたフォルマントの増大を導き、見せかけの変化を減少するこの問題を解決する。
【0041】
以前のMBEシステムのように、新しいエンコーダに基づくMBEは、任意のスペクトル位相情報の評価あるいは伝送を行わない。結果として、新しいデコーダに基づくMBEは、有声音声合成の間、全有声調波に対する合成位相を再生成しなけらばならない。発明は、実際の音声に、より近似させる位相生成法に依存した新しい強度を備え、音声品質を全体を改善する。有声の成分においてでたらめな位相を使用する従来技術は、スペクトル包絡線の局所的ななめらかさの測定により、置き換えられる。このことは、スペクトル位相が極とゼロ位置に依存する線形システム理論により正当化される。実際には、以下の形式の端検出計算は、現行フレームに対するデコードされたスペクトル強度に適用される。
【数6】
ここで、パラメータBlは圧縮されたスペクトル強度を表し、h(m)は適当にスケールされた端検出カーネルである。この方程式の出力は、有声の調波間の位相関係を決定する再生成された位相値の組φlである。これらの値は、発声状態にかかわらず、全ての調波に対して定義されていることに注意すべきである。しかしながら、MBEに基づくシステムにおいて、有声の合成手順はこれらの位相値を使用し、無声合成手順はそれらを無視する。実際には、再生成された位相値は、以下により詳細に説明するように(式(20)参照)、次のフレームを合成する間に使用されてもよいため、全調波に対して計算され、格納される。
【0042】
圧縮された強度パラメータBlは、一般的に、ダイナミックレンジを減少するために、スペクトル強度Mlを圧伸関数(a compamding function)に渡すことにより計算される。さらに、外挿法が実行され、強度表現の端(すなわち、l≦0およびl>L)を越えたさらなるスペクトル値を生成する。スペクトル強度Ml(すなわち、その音の大きさすなわちボリューム)の任意の全体のスケーリングを付加的なオフセットBlに変換するという理由から、1つの特別な適当な圧縮関数は対数である。式(7)のh(m)がゼロ平均と仮定すると、このオフセットは、無視され、再生成された位相値φlは、スケーリングに依存しない。実際にlog2は、デジタル計算機において簡単に計算できるため、使用されてきた。このことは、Blに対する次式を導く。
【数7】
l>Lの時のBlの外挿値は、表現されたバンド幅より高い調波の周波数でのなめらかさを強調するために設計される。γ=0.72の値が、3.6kbpsシステムで使用されてきたが、一般的に、高い周波数成分が低周波数成分ほど全体の音声に対して貢献していないために、この値が臨界であるとは考えられていない。聞き取り試験は、l≦0の時、Blの値が、知覚品質において、重大な効果を持ち得ることを示した。l=0での値は、電話通信のような多くの応用においてDC応答がないために、小さい値に設定された。さらに聞き取り試験は、正あるいは負の極端のどちらに対しても、B0=0が好ましいことを示した。対称な応答Bl=Blの利用は、聞き取り試験に基づくのと同様にシステム理論にも基づいていた。
【0043】
適当な端検出カーネルh(m)の選択は、全体の品質に対して重要となる。形状とスケーリングの双方とも、音声合成において使用される位相変数φlに影響する。しかしながら、広範囲の可能なカーネルがうまく採用された。一般的に、よく設計されたカーネルを導くいくつかの束縛が見出されてきた。特に、m>0でh(m)≧0の時、およびh(m)=−h(−m)の時、関数は、不連続性を極限するために、よりよく適性化される。さらにスケーリングの独立性に対するゼロ平均カーネルを得るために、強制的にh(0)=0とすることは有益である。もう1つの望ましい特性は、h(m)の絶対値が、スペクトル強度の局所的な変化に焦点を合わせるために、|m|の増加と共に減衰すべきことである。これは、mに反比例するh(m)を作成することにより可能である。これらの全束縛を満たす(多くの中の)1つの方程式は、式(9)で示される。
【数8】
本発明の好ましい実施の形態はλ=0.44で式(9)を用いる。この値により、わずかな複雑さで良質音声の音声を生成されることが見出され、合成音声は、オリジナル音声に近いピーク/rmsエネルギー率(a peaktorms energy ratio)を有することが見出された。λの別の値で行われた試験は、好ましい値からの小さな変化がほとんど等価な性能を生ずることを示した。カーネル長Dは、なめらかさの量に対する複雑さがトレードオフされるように調整される。より長いDの値は、一般的に聞き手に好まれる、しかしながら、D=19の値は、本質的により長い長さと等価であることが見出され、またこれにより、D=19が新しい3.6kbpsシステムにおいて使用される。
【0044】
式(7)の形式は、全ての再生成された各フレームに対する位相変数がFFTおよび逆FFT操作を介して計算され得る。処理装置に依存して、FFTの実行は、大きなDおよびLに対する直接計算よりもより大きな計算効率を導くことができる。
【0045】
再生成された位相変数の計算は、発声状態に依存しない発明の新しいスペクトル強度の表現により、大きく促進される。前述のように、式(7)を介して適用されたカーネルは、端あるいは他のスペクトル包絡線の変動を強調する。これは、スペクトル位相が、極とゼロ位置を介して、スペクトル強度の変化に関連づけられる線形システムの位相関係を近似するためになされる。この特性を利用するために、位相再生成手順は、スペクトル強度が正確に音声のスペクトルの包絡線を表現するということを仮定しなければならない。これは、従来技術よりもよりなめらかなスペクトル強度の組を生成するということから、本発明の新しいスペクトル強度表現により促進される。発声変移により引き起こされる不連続性と変動の除去、およびFFTサンプリング点は、スペクトル包絡線における真の変化のより正確な評価を与える。結果として、位相再生成が増大され、全体の音声品質が改善される。
【0046】
かつて、上記手順に従い、再生成位相変数φlが計算され、式(10)に示されるように別々の正弦波成分の総和として、有声合成処理が有声音声Sv(n)を合成する。有声合成法は、簡単な順番に割り当てられた調波に基づき、現行フレームのl番目のスペクトル振幅と、前のフレームのl番目のスペクトル振幅とをペアにする。この処理において、調波の数、基本周波数、V/UV決定および現行フレームのスペクトル振幅は、L(0)、ω0(0)、vk(0)およびMl(0)としてそれぞれ表記され、一方で、前のフレームに対して、同じパラメータが、L(−S)、ω0(−S)、vk(−S)およびMl(−S)として表記される。Sの値は、新しい3.6kbpsシステムにおいて20ms(160サンプル)であるフレーム長に等しい。
【数9】
【0047】
有声成分Sv,l(n)は、l番面の調波のペアからの有声音声に対する貢献を表す。実際には、有声の成分は緩やかに変化する正弦波として設計される。その時、音声成分の振幅と位相は、現合成間隔の端(すなわち、n=−Sおよびn=0)で、前のおよび現行フレームからのモデルパラメータを近似するために調整され、−S<n<0の間隔の間は、これらのパラメータ間で補間する。
【0048】
パラメータの数が、連続したフレーム間で異なっても良いという事実に適応するため、合成法は、許されるバンド幅を越えた全調波が次式に示すようにゼロに等しくなることを仮定する。
Ml(0)=0 l>L(0) の時 (11)
Ml(−S)=0 l>L(−S)の時 (12)
さらに、通常のバンド幅の外側のこれらのスペクトル振幅は、無声として分類される。これらの仮定は、現行フレームのスペクトル振幅の数が前のフレームのスペクトル振幅の数に等しくない場合(すなわち、L(0)≠L(−S))に必要となる。
【0049】
振幅と位相関数は、各調波対に対して別々に計算される。特に、発声状態および基本周波数の相対的な変化は、現合成間隔の間の各調波に対して使用される4つの可能な関数を決定する。第1の可能な場合は、前のおよび現行音声フレームの両方に対し、l番目の調波が無声として分類された時に生ずる。その場合において、次式で示されるような間隔で有声成分がゼロに等しく設定される。
sv,l(n)=0 −S<n≦0の時 (13)
この場合において、l番目の調波付近の音声エネルギーは、全体的に無声であり、無声合成手順は、全体の貢献を合成するために責任がある。
【0050】
代わりに、もしl番目の調波が現行フレームに対し無声として分類され、前のフレームに対し有声として分類された時は、Sv,l(n)は次式で与えられる、
この場合、この範囲のスペクトルのエネルギーは、有声合成法から無声合成法へ、合成間隔上を移行する。
【0051】
同様に、もしl番目の調波が現行フレームに対し有声として分類され、前のフレームに対し無声として分類された時は、Sv,l(n)は次式で与えられる、
この場合、この範囲のスペクトルのエネルギーは、無声合成法から有声合成法へ移行する。
【0052】
あるいは、もし、l番目の調波が現行および前の両フレームに対し有声として分類された時、およびl≧8または|ω0(0)−ω0(−S)|≧0.1ω0(0)の時は、Sv,l(n)は、次式で与えられる。ここで、変数nは−S<n≦0の範囲に限定される。
sv,l(n)=ωs(n+s)Ml(−S)cos[ω0(−S)(n+s)l
+θl(−S)]+ωs(n)Ml(0)cos[ω0(0)nl+θl(0)] (16)
調波が、両フレームにおいて有声であると分類された事実は、局所的なスペクトルエネルギーが有声のままである状況に対応し、また完全に有声成分内で合成される。この場合は、調波の周波数において、比較的大きな変化に対応することから、重なり追加アプローチ(a overlapadd approach)が前のおよび現行フレームからの貢献を結合するために使用される。式(14)、(15)、(16)で使用される位相変数θl(−S)およびθl(0)は、n=−Sおよびn=0で式(20)において記述された連続した位相関数θl(n)を評価することにより決定される。
【0053】
最終の合成規則は、l番目のスペクトル振幅が現および前の両フレームに対して有声である場合、または、l<8または|ω0(0)−ω0(−S)|<0.1ω0(0)の場合に使用される。前者の場合、局所的なスペクトルエネルギーが全体的に有声である時のみ生ずる。しかしながら、この場合、前のおよび現行フレーム間の周波数の差は、合成間隔上の正弦波位相において、連続した遷移ができるように十分に小さい。この場合、有声成分は、次式に従って計算される。
sv,l(n)=al(n)cos[θl(n)] −S<n≦0の時 (17)
ここで、振幅関数al(n)は、式(18)によって計算され、位相関数θl(n)は、式(19)および式(20)で記述されるタイプの低次の多項式である。
前述の位相更新処理は、現行および前の両フレーム(すなわち、φl(0)およびφl(−S))に対する本発明の再生成された位相値を使用し、l番目の調波に対する位相関数を制御する。これは、線形な位相項を介して合成境界の端での位相の連続性を確実にし、さもなければ所望の差異生成位相に合致する、式(19)で表される2番目の位相多項式を介して実行される。さらに、この位相多項式の変化率は、間隔終端での適当な調波の周波数に、近似的に等しい。
【0054】
式(14)、(15)、(16)および(18)で用いられた合成ウインドウωs(n)は、代表的には、現行のおよび前のフレームにおけるモデルパラメータ間で補間するように設計される。これは、以下の重ね合わせ付加方程式が現行の合成間隔全体に対し満足される時に促進される。
ωs(n)+ωs(n+s)=1 −S<n≦0の時 (21)
新しい3.6kbpsシステムにおいて有益であると見出され、上記束縛に合致する、1つの合成ウインドウは、次式で定義される。
【数10】
20msのフレームサイズ(S=160)に対して、β=50の値が代表的に使用される。式(22)にある合成ウインドウは、本質的に線形補間を使用することと等価である。
【0055】
式(10)を介した合成された有声音声成分および前述の手順は、さらに無声成分に追加され、合成処理を完成させなければならない。無声音声成分u,v(n)は、通常は、有声周波数バンドにおいては、ゼロのフィルタ応答で、無声周波数バンドにおいては、スペクトル強度により決定されるフィルタ応答で、ホワイトノイズ信号をフィルタリングすることにより合成される。実際には、これは、フィルタリングを行うためFFTと逆FFTを使用する重みづけ重ね合わせ付加手順を介して実行される。この手順はよく知られているため、完全な詳細については、参考文献で調べることができる。
【0056】
実施の形態2.
図1は、本発明の新しいMBEに基づいた音声エンコーダの図面である。図に示すように、音声エンコーダは、乗算器11と、基本周波数評価回路12と、マルチバンドV/UV決定回路13と、スペクトル強度計算回路14と、FFT(高速フーリエ変換)回路15と、パラメータ量子化/エンコード回路16とから構成される。デジタル音声信号S(n)は、乗算器11において、スライドしたウインドウ関数ω(n−iS)でセグメント化される。ここで、Sは代表的には20msである。Sw(n)で表記される処理された音声セグメントが、基本周波数評価回路12、マルチバンドV/UV決定回路13、スペクトル強度計算回路14で処理され、基本周波数ω0、有声/無声決定vkおよびスペクトル強度Mlそれぞれが算出される。FFT回路15において、高速フーリエ変換(FFT)による音声セグメントのスペクトル領域への変換後に、スペクトル強度計算回路14で、発声情報と独立してスペクトル強度が計算される。パラメータ量子化/エンコード回路16において、MBEのモデルパラメータのフレームは、それから量子化され、デジタルビットストリームにエンコードされる。
【0057】
図2は、本発明の新しいMBEに基づいた音声デコーダの図面である。図に示すように、音声デコーダは、パラメータデコード/再構築回路21と、音声バンド決定回路22と、スペクトル位相再生成回路23と、無声合成回路24と、有声合成回路25と、加算器26とから構成される。図1で示される対応するエンコーダにより生成されるデジタルビットストリームが、パラメータデコード/再構築回路21において最初にデコードされ、MBEのモデルパラメータが、各フレームを再構築するために使用される。音声バンド決定回路22において、再構築された発声情報Vkは、K個の音声バンドを再構築するため、また各調波の周波数を有声あるいは無声として、それが含まれるバンドの発声状態に依存して、分類するために使用される。スペクトル位相φlは、有声と分類された全調波の周波数を表し、スペクトル位相再生成回路23にてスペクトル強度Mlから生成され、有声合成回路25にて有声成分Sv(n)を合成するために使用される。加算器26にて、有声合成回路25からの有声成分(無声バンドを表す)が、無声合成回路24からの無声成分に加えられ、合成音声信号を生成する。
【0058】
ここで説明した特別な技術に関する種々の代替案や拡張は、本発明の真意と範囲を離脱することなしに使用できる。例えば、3番目の位相多項式は、式(19)のΔωlを正しい境界条件を持った2乗項で置き換えても使用できる。さらに、従来技術は、他の変形例と同様に代替のウインドウ関数や補間法も説明する。発明の他の実施の形態は請求の範囲の中に含まれる。
【0059】
【発明の効果】
本発明によれば、従来技術に関するpeaktorms値の点から実際の音声により近い合成音声を生成し、それにより改善されたダイナミックレンジを生ずる。さらに合成音声は、より自然に知覚される。
【図面の簡単な説明】
【図1】 本発明の実施の形態における新しいMBEに基づいた音声エンコーダの構成図。
【図2】 本発明の実施の形態における新しいMBEに基づいた音声デコーダの構成図。
【符号の説明】
11…乗算器、12…基本周波数評価回路、13…マルチバンドU/UV決定回路、14…スペクトル強度計算回路、15…FFT(高速フーリエ変換)回路、16…パラメータ量子化/エンコード回路、21…パラメータデコード/再構築回路、22…音声バンド決定回路、23…スペクトル位相再生成回路、24…無声合成回路、25…有声合成回路、26…加算器。
Claims (10)
- 音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と発声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する方法であって、
前記合成デジタル音声信号のデコードおよび合成する方法は、
前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供するステップと、
前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定するステップと、
前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定するステップと、
前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する音声成分を合成するステップと、
少なくとも1つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成するステップと、
有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成するステップと
からなることを特徴とする音声合成方法。 - 音声信号を複数のフレームに分割し、各フレームの複数の周波数バンドのそれぞれが、有声あるいは無声バンドのどちらとして合成されるべきかを表す発声情報を決定し、音声フレームを処理して周波数バンドにおいてスペクトル強度を表すスペクトル包絡線情報を決定し、スペクトル包絡線と音声情報を量子化およびエンコードすることにより生成される形式の複数のデジタルビットから合成デジタル音声信号をデコードおよび合成する装置であって、
前記合成デジタル音声信号のデコードおよび合成する前記装置は、
前記複数のデジタルビットをデコードして、複数フレームのそれぞれに対し、スペクトル包絡線と発声情報を提供する手段と、
前記スペクトル包絡線情報を処理して、複数フレームのそれぞれに対し、再生成されたスペクトル位相情報を決定する手段と、
前記発声情報から特定のフレームに対する周波数バンドが有声であるか無声であるかを決定する手段と、
前記再生成されたスペクトル位相情報を用いて有声の周波数バンドに対する言音声語成分を合成する手段と、
少なくとも1つの無声周波数バンドにおいて、前記音声信号を表す音声成分を合成する手段と、
有声および無声周波数バンドに対する合成された前記音声成分を結合することにより、前記音声信号を合成する手段と
からなることを特徴とする音声合成装置。 - 請求項1または請求項2に記載の方法または装置において、それから合成音声信号が合成される前記デジタルビットは、スペクトル包絡線情報と発声情報を表すビットと、基本周波数情報を表すビットとからなることを特徴とする音声合成方法または音声合成装置。
- 請求項3に記載の方法または装置において、前記スペクトル包絡線情報は、複数の前記音声信号の基本周波数の調波でのスペクトル強度を表す情報からなることを特徴とする音声合成方法または音声合成装置。
- 請求項4に記載の方法または装置において、前記スペクトル強度は、周波数バンドが有声であるか無声であるかに依存せず、スペクトル包絡線を表すことを特徴とする音声合成方法または音声合成装置。
- 請求項4に記載の方法または装置において、前記再生成されたスペクトル位相情報は、それが関係した複数の調波の付近でのスペクトル包絡線の形状から決定されることを特徴とする音声合成方法または音声合成装置。
- 請求項4に記載の方法または装置において、前記再生成されたスペクトル位相情報は、端検出カーネルを前記スペクトル包絡線の表現に適用することにより決定されることを特徴とする音声合成方法または音声合成装置。
- 請求項7に記載の方法または装置において、前記端検出カーネルが適用される前記スペクトル包絡線の表現は、圧縮されることを特徴とする音声合成方法または音声合成装置。
- 請求項4に記載の方法または装置において、前記合成音声信号の無声音声成分は、でたらめな雑音信号に対するフィルタ応答から決定されることを特徴とする音声合成方法または音声合成装置。
- 請求項4に記載の方法または装置において、前記有声音声成分は、前記基本周波数と再生成されたスペクトル位相情報から決定される特性を持った正弦波発信器のバンクを使用することにより、少なくとも部分的に決定されることを特徴とする音声合成方法または音声合成装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/392,099 US5701390A (en) | 1995-02-22 | 1995-02-22 | Synthesis of MBE-based coded speech using regenerated phase information |
US392099 | 1995-02-22 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007182242A Division JP2008009439A (ja) | 1995-02-22 | 2007-07-11 | 再生成位相情報を用いた音声合成 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08272398A JPH08272398A (ja) | 1996-10-18 |
JP4112027B2 true JP4112027B2 (ja) | 2008-07-02 |
Family
ID=23549243
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03403096A Expired - Lifetime JP4112027B2 (ja) | 1995-02-22 | 1996-02-21 | 再生成位相情報を用いた音声合成 |
JP2007182242A Withdrawn JP2008009439A (ja) | 1995-02-22 | 2007-07-11 | 再生成位相情報を用いた音声合成 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007182242A Withdrawn JP2008009439A (ja) | 1995-02-22 | 2007-07-11 | 再生成位相情報を用いた音声合成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US5701390A (ja) |
JP (2) | JP4112027B2 (ja) |
KR (1) | KR100388388B1 (ja) |
CN (1) | CN1136537C (ja) |
AU (1) | AU704847B2 (ja) |
CA (1) | CA2169822C (ja) |
TW (1) | TW293118B (ja) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774856A (en) * | 1995-10-02 | 1998-06-30 | Motorola, Inc. | User-Customized, low bit-rate speech vocoding method and communication unit for use therewith |
JP3707116B2 (ja) * | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
FI116181B (fi) * | 1997-02-07 | 2005-09-30 | Nokia Corp | Virheenkorjausta ja virheentunnistusta hyödyntävä informaationkoodausm enetelmä ja laitteet |
KR100416754B1 (ko) * | 1997-06-20 | 2005-05-24 | 삼성전자주식회사 | 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법 |
JP2001507822A (ja) | 1997-09-30 | 2001-06-12 | シーメンス・アクチエンゲゼルシャフト | スピーチ信号のエンコード方法 |
KR100341044B1 (ko) * | 1997-12-08 | 2002-07-13 | 다니구찌 이찌로오, 기타오카 다카시 | 음성 신호 가공 방법 및 음성 신호 가공 장치 |
KR100274786B1 (ko) * | 1998-04-09 | 2000-12-15 | 정영식 | 재생타이어의 제조방법 및 그 장치 |
KR100294918B1 (ko) * | 1998-04-09 | 2001-07-12 | 윤종용 | 스펙트럼혼합여기신호의진폭모델링방법 |
US6438517B1 (en) * | 1998-05-19 | 2002-08-20 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
US6119082A (en) * | 1998-07-13 | 2000-09-12 | Lockheed Martin Corporation | Speech coding system and method including harmonic generator having an adaptive phase off-setter |
US6324409B1 (en) | 1998-07-17 | 2001-11-27 | Siemens Information And Communication Systems, Inc. | System and method for optimizing telecommunication signal quality |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6304843B1 (en) * | 1999-01-05 | 2001-10-16 | Motorola, Inc. | Method and apparatus for reconstructing a linear prediction filter excitation signal |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6505152B1 (en) * | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
AU7486200A (en) * | 1999-09-22 | 2001-04-24 | Conexant Systems, Inc. | Multimode speech encoder |
US6782360B1 (en) | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6675027B1 (en) * | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6975984B2 (en) * | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
JP3404350B2 (ja) * | 2000-03-06 | 2003-05-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化パラメータ取得方法、音声復号方法及び装置 |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US6466904B1 (en) * | 2000-07-25 | 2002-10-15 | Conexant Systems, Inc. | Method and apparatus using harmonic modeling in an improved speech decoder |
EP1199709A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Error Concealment in relation to decoding of encoded acoustic signals |
US7243295B2 (en) * | 2001-06-12 | 2007-07-10 | Intel Corporation | Low complexity channel decoders |
US6941263B2 (en) * | 2001-06-29 | 2005-09-06 | Microsoft Corporation | Frequency domain postfiltering for quality enhancement of coded speech |
US8605911B2 (en) | 2001-07-10 | 2013-12-10 | Dolby International Ab | Efficient and scalable parametric stereo coding for low bitrate audio coding applications |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
ATE288617T1 (de) | 2001-11-29 | 2005-02-15 | Coding Tech Ab | Wiederherstellung von hochfrequenzkomponenten |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
WO2004006225A1 (en) * | 2002-07-08 | 2004-01-15 | Koninklijke Philips Electronics N.V. | Sinusoidal audio coding |
AU2003250410A1 (en) * | 2002-09-17 | 2004-04-08 | Koninklijke Philips Electronics N.V. | Method of synthesis for a steady sound signal |
SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
US7970606B2 (en) | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US8359197B2 (en) * | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
US7383181B2 (en) | 2003-07-29 | 2008-06-03 | Microsoft Corporation | Multi-sensory speech detection system |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) * | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7574008B2 (en) * | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7346504B2 (en) | 2005-06-20 | 2008-03-18 | Microsoft Corporation | Multi-sensory speech enhancement using a clean speech prior |
KR100770839B1 (ko) * | 2006-04-04 | 2007-10-26 | 삼성전자주식회사 | 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치 |
JP4894353B2 (ja) * | 2006-05-26 | 2012-03-14 | ヤマハ株式会社 | 放収音装置 |
US8036886B2 (en) | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
KR101547344B1 (ko) * | 2008-10-31 | 2015-08-27 | 삼성전자 주식회사 | 음성복원장치 및 그 방법 |
US8620660B2 (en) | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
JP6147744B2 (ja) * | 2011-07-29 | 2017-06-14 | ディーティーエス・エルエルシーDts Llc | 適応音声了解度処理システムおよび方法 |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US9640185B2 (en) | 2013-12-12 | 2017-05-02 | Motorola Solutions, Inc. | Method and apparatus for enhancing the modulation index of speech sounds passed through a digital vocoder |
EP2916319A1 (en) | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
AU2015238519B2 (en) | 2014-03-25 | 2017-11-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control |
CN114694632A (zh) | 2015-09-16 | 2022-07-01 | 株式会社东芝 | 语音处理装置 |
US10734001B2 (en) * | 2017-10-05 | 2020-08-04 | Qualcomm Incorporated | Encoding or decoding of audio signals |
CN113066476B (zh) * | 2019-12-13 | 2024-05-31 | 科大讯飞股份有限公司 | 合成语音处理方法及相关装置 |
US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
CN111681639B (zh) * | 2020-05-28 | 2023-05-30 | 上海墨百意信息科技有限公司 | 一种多说话人语音合成方法、装置及计算设备 |
US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3706929A (en) * | 1971-01-04 | 1972-12-19 | Philco Ford Corp | Combined modem and vocoder pipeline processor |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
GB1563801A (en) * | 1975-11-03 | 1980-04-02 | Post Office | Error correction of digital signals |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
DE3266042D1 (en) * | 1981-09-24 | 1985-10-10 | Gretag Ag | Method and apparatus for reduced redundancy digital speech processing |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
AU570439B2 (en) * | 1983-03-28 | 1988-03-17 | Compression Labs, Inc. | A combined intraframe and interframe transform coding system |
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
US4799059A (en) * | 1986-03-14 | 1989-01-17 | Enscan, Inc. | Automatic/remote RF instrument monitoring system |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
DE3640355A1 (de) * | 1986-11-26 | 1988-06-09 | Philips Patentverwaltung | Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
NL8701798A (nl) * | 1987-07-30 | 1989-02-16 | Philips Nv | Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal. |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
US5095392A (en) * | 1988-01-27 | 1992-03-10 | Matsushita Electric Industrial Co., Ltd. | Digital signal magnetic recording/reproducing apparatus using multi-level QAM modulation and maximum likelihood decoding |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
JPH0782359B2 (ja) * | 1989-04-21 | 1995-09-06 | 三菱電機株式会社 | 音声符号化装置、音声復号化装置及び音声符号化・復号化装置 |
EP0422232B1 (en) * | 1989-04-25 | 1996-11-13 | Kabushiki Kaisha Toshiba | Voice encoder |
US5036515A (en) * | 1989-05-30 | 1991-07-30 | Motorola, Inc. | Bit error rate detection |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
JP3218679B2 (ja) * | 1992-04-15 | 2001-10-15 | ソニー株式会社 | 高能率符号化方法 |
JPH05307399A (ja) * | 1992-05-01 | 1993-11-19 | Sony Corp | 音声分析方式 |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
-
1995
- 1995-02-22 US US08/392,099 patent/US5701390A/en not_active Expired - Lifetime
-
1996
- 1996-02-13 AU AU44481/96A patent/AU704847B2/en not_active Expired
- 1996-02-16 TW TW085101995A patent/TW293118B/zh not_active IP Right Cessation
- 1996-02-17 KR KR1019960004013A patent/KR100388388B1/ko not_active IP Right Cessation
- 1996-02-19 CA CA002169822A patent/CA2169822C/en not_active Expired - Lifetime
- 1996-02-21 JP JP03403096A patent/JP4112027B2/ja not_active Expired - Lifetime
- 1996-02-22 CN CNB961043342A patent/CN1136537C/zh not_active Expired - Lifetime
-
2007
- 2007-07-11 JP JP2007182242A patent/JP2008009439A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN1136537C (zh) | 2004-01-28 |
AU704847B2 (en) | 1999-05-06 |
CA2169822C (en) | 2006-01-10 |
CN1140871A (zh) | 1997-01-22 |
JP2008009439A (ja) | 2008-01-17 |
KR100388388B1 (ko) | 2003-11-01 |
TW293118B (ja) | 1996-12-11 |
US5701390A (en) | 1997-12-23 |
JPH08272398A (ja) | 1996-10-18 |
KR960032298A (ko) | 1996-09-17 |
AU4448196A (en) | 1996-08-29 |
CA2169822A1 (en) | 1996-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4112027B2 (ja) | 再生成位相情報を用いた音声合成 | |
US5754974A (en) | Spectral magnitude representation for multi-band excitation speech coders | |
JP4166673B2 (ja) | 相互使用可能なボコーダ | |
US8200497B2 (en) | Synthesizing/decoding speech samples corresponding to a voicing state | |
US5752222A (en) | Speech decoding method and apparatus | |
US9653088B2 (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
US9245533B2 (en) | Enhancing performance of spectral band replication and related high frequency reconstruction coding | |
US6377916B1 (en) | Multiband harmonic transform coder | |
EP1232494B1 (en) | Gain-smoothing in wideband speech and audio signal decoder | |
JP2009530685A (ja) | Mdct係数を使用する音声後処理 | |
JP2004310088A (ja) | 半レート・ボコーダ | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
JP4558205B2 (ja) | スピーチコーダパラメータの量子化方法 | |
JP5291004B2 (ja) | 通信ネットワークにおける方法及び装置 | |
US7103539B2 (en) | Enhanced coded speech | |
Ekeroth | Improvements of the voice activity detector in AMR-WB | |
Wreikat et al. | Design Enhancement of High Quality, Low Bit Rate Speech Coder Based on Linear Predictive Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20060614 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20060619 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070711 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120418 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120418 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130418 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130418 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140418 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |