JPH06337699A - ピッチ・エポック同期線形予測符号化ボコーダおよび方法 - Google Patents

ピッチ・エポック同期線形予測符号化ボコーダおよび方法

Info

Publication number
JPH06337699A
JPH06337699A JP6133864A JP13386494A JPH06337699A JP H06337699 A JPH06337699 A JP H06337699A JP 6133864 A JP6133864 A JP 6133864A JP 13386494 A JP13386494 A JP 13386494A JP H06337699 A JPH06337699 A JP H06337699A
Authority
JP
Japan
Prior art keywords
signal
input
speech
determining
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6133864A
Other languages
English (en)
Inventor
Bruce A Fette
ブルース・アラン・フェッテ
Sean S You
シアン・サンソー・ユー
Chad S Bergstrom
チャド・スコット・バーグストロム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JPH06337699A publication Critical patent/JPH06337699A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

(57)【要約】 【目的】 音声信号の特徴をデジタル表現に適する形で
迅速かつ正確に決定する装置および方法、ならびに高い
忠実度を得ると共に広いデジタル帯域を必要とせずにデ
ジタル表現から音声信号を発生するする方法および装置
を提供する。 【構成】 音声信号のピッチ・エポック同期エンコード
を行なう方法は、入力音声信号を供給するステップ、前
記入力音声信号を処理して、線形予測符号化係数および
有声/無声を含む音質の特徴を決定するステップ、およ
び前記入力音声信号に対応して励起の特徴を決定し、入
力音声信号が有声音声から成る時は周波数領域技術を用
いて励起関数を発生するステップから成る。また、この
方法は、前記入力音声信号が無声音声から成る時、時間
領域技術を用いて前記入力音声信号の特徴を決定して励
起関数を発生するステップ、および前記励起関数をエン
コードして前記入力音声信号を表わすデジタル出力信号
を発生するステップも含む。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般的にデジタル的に
エンコードされた人間の音声の分野に関し、特にエンコ
ードおよびデコード処理技術に関するものである。更に
特定すれば、デジタル的に音声をエンコードし、これま
でより狭い帯域を用いて、デジタル的にエンコードされ
た音声を伝送すると共に、明瞭性を向上させデジタル・
コードからの音声信号を同期させる、高忠実度技術に関
するものである。
【0002】
【従来の技術】本発明に関連する特許出願として、本願
と同一譲受人に譲渡された、1992年7月14日に出
願され、「低ビット・レート・ボコーダ手段および方
法」と題する、特開平4−20859号がある。
【0003】音声信号のデジタル・エンコードおよび/
またはデジタル信号のデコードによって、情報通信に利
用可能な音声信号を供給することは、確実な通信機能、
デジタル・リンクを介した通信、またはコンピュータの
命令から得られた音声信号(speech out signal)を提供
する多くの電子製品にとって、重要なことである。
【0004】多くのデジタル音声システムでは、合成音
声の質が悪く知覚が困難であることが問題となってい
る。入力音声基本要素の特徴決定が不十分なこと、帯域
に限界があること、およびエンコードされたデジタル表
現から後に合成音声信号を再構成することが全て、合成
音声の音質の低下によって知覚が困難となる原因であ
る。更に、ある種の情報搬送能力が失われ、話し手が伝
えようとする(imparted by)ニュアンス、イントネーシ
ョンおよび強調など、微妙であるが重要な伝達要素が、
デジタル状で伝送される音声信号のエンコードおよびそ
の後のデコード処理における転化(corruption)によっ
て、程度に差はあるものの、失われてしまうのである。
【0005】特に、自動回帰線形予測符号化(auto-regr
essive linear predictive coding)(LPC)技術は、
全てが極でゼロ点がないシステム伝達関数を含んでい
る。これら従来技術による符号化技術、特に線形予測符
号化分析を利用するものは、鼻腔からの共鳴が音質に与
える影響(contribution)を全て無視する傾向があり(鼻
腔からの共鳴は本来、人間音声装置を記述する伝達関数
において、「ゼロ点」を与える)、再生された音声は人
工的な「鈴の音のような(tinny)」或いは「鼻音」状の
音質を有する結果となる。
【0006】音声をデジタル的にエンコードおよびデコ
ード処理するための標準的な技術は、信号処理分析技術
を利用するが、質の高いリアル・タイムの通信を実現す
るには、かなりの帯域を必要とする。
【0007】
【発明が解決しようとする課題】したがって、音声信号
の特徴をデジタル表現に適する形で迅速かつ正確に決定
する装置および方法、ならびに高い忠実度(fidelity)を
得ると共に広いデジタル帯域を必要とせずに、デジタル
表現から音声信号を発生する方法および装置が、現在必
要とされているのである。
【0008】
【課題を解決するための手段】端的に述べると、新規で
改善されたデジタル音声表現および再構成装置、ならび
にそのための方法が提供される。
【0009】即ち、音声信号のピッチ・エポック同期エ
ンコード処理方法が提供される。この方法は、入力音声
信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声(voicing)を
含む音質の特徴を決定するステップ、入力音声信号が有
声音声から成る時、周波数領域技術を用いて入力音声信
号の特徴を決定することにより励起関数(excitation fu
nction)を供給するステップ、前記入力音声信号が無有
音声から成る時、時間領域技術を用いて前記入力音声信
号の特徴を決定することにより励起関数を供給するステ
ップ、および前記励起関数をエンコードして前記入力音
声信号を表すデジタル出力信号を供給するステップから
成る。
【0010】好適実施例では、前記装置は、エンコード
された音声信号を表すデジタル信号のピッチ・エポック
同期デコード処理のための装置から成る。前記装置は、
デジタル信号を受信する入力、前記入力に結合される入
力デジタル信号の有声/無声(voicing)を判定する装
置、前記入力デジタル信号が有声音声を表す時は周波数
領域技術を用いて音声信号を合成する第1装置、および
前記入力デジタル信号が無声音声を表す時は時間領域技
術を用いて音声信号を合成する第2装置から成る。前記
第1および第2装置は、各々前記有声/無声を判定する
装置に結合された音声信号を合成する。
【0011】エンコードされた音声信号を表すデジタル
信号のピッチ・エポック同期デコードを行なう装置は、
デジタル信号を受信する入力と、前記入力デジタル信号
の有声/無声を判定する装置とを含む。前記有声/無声
を判定する装置は、前記入力に結合されている。前記装
置は、前記デジタル信号が有声音声を表す時は周波数領
域技術を用いて音声信号を合成する第1装置と、前記入
力デジタル信号が無声音声を表す時は時間領域技術を用
いて音声信号を合成する第2装置も含む。前記音声信号
を合成する第1および第2装置は、各々前記有声/無声
を判定する装置に結合されている。
【0012】音声信号のピッチ・エポック同期エンコー
ドを行なう装置は、入力音声信号を受信する入力と、前
記入力音声信号の有声/無声を判定する装置とを含む。
前記有声/無声を判定する装置は前記入力に結合されて
いる。前記装置は、更に、周波数領域技術を用いて前記
入力音声信号の特徴を決定する第1装置を含み、これは
前記有声/無声を判定する装置に結合されている。前記
第1特徴決定装置は、前記入力音声信号が有声音声から
成る時に動作し、周波数領域で特徴を決定された音声を
出力信号として供給する。前記装置は更に、時間領域技
術を用いて入力音声信号の特徴を決定する第2装置も含
む。この装置も前記有声/無声を判定する装置に結合さ
れている。前記第2特徴決定装置は、入力音声信号が無
声音声から成る時に動作し、特徴が決定された音声を出
力信号として供給する。前記装置は、前記特徴が決定さ
れた信号をエンコードし、前記入力音声信号を表すデジ
タル出力信号を発生するエンコーダも含む。このエンコ
ーダは前記第1および第2特徴決定装置に結合されてい
る。
【0013】
【実施例】ここで用いられる「励起」、「励起関数」、
「駆動関数」、および「励起波形」という用語は、等価
な意味を有し、線形予測符号化装置によってその出力信
号の1つとして発生される波形を示すものである。ま
た、ここで用いられる、「目標」、「励起目標」および
「目標エポック(target epoch)」という用語も等価な意
味を有し、第1にエンコード装置における特徴決定のた
めに選択されるエポック、そして第2に、デコード装置
における後の補間のために選択されるエポックを示す。
図1は、本発明による送信機10内の音声デジタイザ1
5をフロー・チャート形式で示す簡略ブロック図であ
る。
【0014】有声音声(voiced speech)(例えば、「s
hoot」中の「oo」)の主要成分は、変化が緩慢な
包絡線および周期を有する、擬似周期的インパルス状駆
動関数または励起関数として表すと都合がよい。この周
期のことを「ピッチ周期」またはエポックと呼び、駆動
関数内に1つの個別インパルスを含む。逆に、無声音声
(例えば、「hiss」中の「ss」)に関連する駆動
関数は、元来非常にランダムであり、形状のあるノイズ
(shaped noise)、即ち時間可変包絡線を有するノイズに
似ている。ここで、包絡線形状は、主要な情報搬送成分
である。
【0015】複合有声/無声駆動波形を、システム伝達
関数への入力として考えることができ、その出力が結果
的に得られる音声波形を発生する。この複合駆動波形
は、人間の音声のための「励起関数」と呼ぶこともでき
る。したがって、励起関数の効率的な特徴決定によっ
て、個々の話し手固有の属性により近い近似をもたらす
ことになる。前記属性は、これまでの帯域が狭い音声符
号化構成(例えば、LPC10e)では、不十分に表現
されているか、或いは全く無視されている。
【0016】本発明による構成においては、音声信号が
高域通過フィルタ12に入力11を通じて結合される。
高域通過フィルタ12は、フレームを基準とした線形予
測符号化(LPC)装置14に、リンク13を通じて結
合されている。LPC装置14は、リンク16を通じて
自動相関器17に励起関数を供給する。
【0017】自動相関器17は、擬似周期的励起波形の
サンプル(または領域)における整数ピッチ期間τを推
定する。励起関数およびτの推定は、リンク18を通じ
てピッチ・ループ・フィルタ19に入力され、入力音声
信号と関連のある励起関数構造を推定する。ピッチ・ル
ープ・フィルタ19は、当技術では公知のものである
(例えば、"Pitch Prediction Filters In Speech Codi
ng" by R. P. Ramachandran and P. Kabal, in IEEE Tr
ansactions on Acoustics, Speech and Signal Process
ing, vol. 37, no. 4, 1989年4月号を参照された
い)。LPC予測利得(フレーム基準LPC装置14か
らの)、ピッチ・ループ・フィルタ予測利得(ピッチ・
ループ・フィルタ19からの)、およびフィルタ係数値
(ピッチ・ループ・フィルタ19からの)に対する推定
は判断ブロック22において用いられ、入力音声データ
が表すのは有声入力音声データか、或いは無声入力音声
データかを判断する。
【0018】無声励起データ(unvoiced excitation dat
a)は、リンク23を通じてブロック24に結合され、こ
こで隣接するRMSレベルが計算される。これらRMS
レベルを表す信号は、次にリンク25を通じてベクトル
量子コードブック41に結合される。このコードブック
41の全体的な構造(composition)および機能は当技術
では公知である。
【0019】典型的に、240サンプルから成る30ミ
リ秒フレームの無声励起信号が、20の隣接するタイム
・スロットに分割される。各タイム・スロット中に発生
する励起信号を分析し、それが表すレベルによって特徴
を決定する。このレベルはRMS(二乗平均)レベルと
して実現するのが好ましい。無声フレーム構造(composi
tion)を伝送のに効果的なこの技術は、再生される無声
音声信号の音質について大幅な妥協をすることなく、あ
るレベルの計算の簡略化を図るものである。このような
簡略化は、これよりもかなり精巧な周波数領域高速フー
リエ変換(FFT)方法では不可能なことである。
【0020】有声励起データは、ブロック24’におい
て周波数領域で処理され、音声の特徴は「エポック毎」
を基準に分析される。これらのデータはリンク26を通
じてブロック27に結合され、ここでエポック位置が決
定される。エポック位置判定に続いて、データはリンク
28を通じてブロック27’に結合され、ピッチの端数
(fractional pitch)が判定される。次にデータはリンク
28’を通じてブロック29に結合され、エポック位置
決めデータを(ブロック27から)与えられた入力音声
に対して、励起同期LPC分析が行われる。これらは両
方ともリンク28’を通じて供給される。
【0021】このプロセスは、修正LPC係数および励
起関数を発生し、これらをリンク30を通じてブロック
31に結合し、各フレームにおいて1つの励起エポック
を補間目標として選択する。この単一エポックは、ラン
ダムに選択してもよいし、当技術では公知のように、閉
ループ・プロセスを通じて選択してもよい。目標励起関
数に対応する励起同期LPC係数(LPC装置29か
ら)は、係数補間目標として選択され、リンク30を通
じて補間目標の選択31に結合される。選択された補間
目標(ブロック31)は、リンク32を通じて相関補間
目標33に結合される。
【0022】LPC係数を利用して、送信機において省
かれたデータを、受信機側で補間によって再発生する
(後に図4に関連して論ずる)。LPC係数と1つの励
起エポックに対応する情報の1組のみが送信機において
エンコードされるので、残りの励起波形およびエポック
同期係数は、受信機において選択された「目標」から得
なければならない。伝送された目標間の線形補間を用い
ると、失われた情報をうまく再発生することができる
が、これ以外の非線形方法を用いることもできる。この
ように、送信機において1つの励起エポックのみ(即
ち、有声音声)が周波数領域で分析され、フレーム毎に
エンコードされ、中間にあるエポックには受信機9にお
ける補間によって挿入される。
【0023】選択されたエポックは、リンク32を通じ
てブロック33に結合され、隣接するフレームにおいて
選択されたエポック(例えば、前のフレームにおいて選
択されたフレーム)が、相互に相関付けられ、最適エポ
ック開始インデックスを決定すると共に、補間プロセス
の有効性を改善する。2つの目標を相関付けることによ
り、補間に先だって、最大相関インデックスのシフト
を、位置決めオフセットとして導入してもよい。このオ
フセットは、2つの目標の「位相」を強制的に一致させ
ることによって、標準的な補間方法を改善するものであ
る。補間前にこの相関手順を実行できない場合、しばし
ば受信機9(図2、後に述べる)において再構成された
励起包絡線に重大なエラーを生じることがある。
【0024】相関付けられた目標エポックは、リンク3
4を通じて循環シフト36’に結合され、データはデー
タ・アレイ内でシフト、即ち「回転」させられる。シフ
トされたデータはリンク37’を通じて結合され、次に
高速フーリエ変換(FFT)(ブロック36”)が行わ
れる。変換されたデータはリンク37”を通じて結合さ
れ、次に周波数領域でエンコードされる(ブロック3
8)。受信機9において(後に図2に関連して論ず
る)、補間を用いて、送信機10で省略された情報を再
発生する。送信機では、1組のLPC係数と1つの励起
エポックがエンコードされるのみであるので、残りの励
起波形およびエポック同期係数は、受信機において、選
択された「目標」から得なければ成らない。伝送された
目標間で線形補間を用いて失った情報を再発生すると良
い結果が得られるが、他の非線形な方法(schemata)も用
いることができる。
【0025】1つの励起エポックのみについて、データ
のフレーム毎に周波数領域で特徴が決定され(そして結
果がエンコードされる)、励起エポックの際立った特徴
(feature)を適切に表現するために必要とされるのは、
少数の特徴決定サンプルのみである。例えば、4段階の
振幅(magnitude)レベルと16段階の位相レベルを用い
るのが便利である。これらのレベルは、例えば、16の
真値位相(real-valuedphase)および4つの真値振幅に連
続的に変化させることができるので便利である。
【0026】周波数領域エンコード・プロセス(ブロッ
ク36’,36”,38)は、高速フーリエ変換(FF
T)を含む。1つのエポックを表すデータのM個のサン
プル、典型的に30ないし80個のサンプルを巡回的に
シフトし(ブロック36’)、位相の傾斜(slope)を減
少させるのが望ましい。これらM個のサンプルにインデ
ックスを付け、N番目のサンプルとして示されるエポッ
クのピークを示すサンプルがFFT入力マトリクスの最
初の位置に置かれ、このN番目のサンプルに先立つサン
プルが,FFT入力マトリクスの最後のN−1個の位置
(即ち、位置2n−Nから2nまで、ここで2nはフレ
ーム・サイズである)に置かれ、N+1番目からM番目
のサンプルが、N番目のサンプルに続くようにするのが
望ましい。これら2つの巡回シフトを合計することによ
り、周波数領域の位相傾斜を効果的に減少させ、符号化
の正確さを向上させると共に、受信機9(図2)におけ
る補間プロセスも改善することになる。入力データによ
って占有されていないFFT入力マトリクスの2n−M
個の要素にゼロを配することによって、データを「ゼロ
で満たし」、その結果を高速フーリエ変換する。ここで
2nはFFT入力マトリクスのサイズを表す。
【0027】周波数領域における振幅および位相データ
は、比較的少ないサンプルで特徴を決定するのが望まし
い。例えば、周波数スペクトルを4つの1キロヘルツ帯
域に分割し、代表的な信号レベルをこれら4つの帯域の
各々について決めておけばよい。位相データは16個の
値で特徴を決定するのが便利であり、再構成された音声
の音質が高められるのは、より低い周波数、例えば、ス
ペクトルの下から500ヘルツ、を有する特徴決定位相
に、より大きな強調が配される時である。忠実度が高い
音声の再生が可能と考えられている、FFT36”から
の256個のデータ点を表すために選択された位置の例
を、以下の表1に示す。表1に掲げられている値は例で
あり、他の値を代わりに用いてもよいことは、本発明が
属する技術分野に精通するものであれば、認めるであろ
う。
【0028】表1:(ブロック38によって)選択され
た(FFT、ブロック36”からの)位相データの25
6サンプルから選択されたサンプルのリスト 0, 1, 2, 3 ,4, 8, 12, 16, 20, 24, 28, 32, 48, 64,
96, 128
【0029】表1に示すリストでは、初期(低周波数)
データ(要素0−4)に最も重い強調を行い、中間デー
タ(要素5−23)はそれより軽く強調を行い、更に周
波数が高くなるにつれて強調が徐々に軽くなっている。
このように選択した1組のデータを用いると、励起の特
徴の内話し手に左右される特徴が強く保持されるので、
再構成される音声は高音特性(tenor charactor)と、元
の入力音声のデータ搬送ニュアンス(data-conveying nu
ances)をより正確に表すことになる。
【0030】ここでは、有用な結果をもたらす個別レベ
ルの数の一例として、4つの振幅スペクトル帯域と16
の位相レベルについて述べたが、他の数の特徴決定デー
タを用い、それに伴って、結果を記述するのに必要なデ
ータ量(volume of data)の増減や、音声信号再構成の忠
実度の変更も可能であることは、認められよう。
【0031】数個の特徴決定サンプルに圧縮された励起
エポック1つのみを各フレームに用いるので、結果的に
得られるデジタル的にエンコードされた音声を伝送する
のに必要なデータ・レート(帯域)を低下させることが
できる。伝送帯域についての要求を低くしても、高音質
の音声が受信機において生成される。無声音声を表すデ
ータに用いられる特徴決定プロセス(ブロック24)を
用いた場合のように、有声音声用の周波数領域エンコー
ド手順は、本発明においてなされるような注意深い励起
特徴のモデル化が不可能な単純で洗練されていない技術
に比較して、忠実度に関して著しい利点が得られる。
【0032】結果的に得られた(即ち、ブロック38か
らの)特徴決定データは、リンク39を通じてベクトル
量子化コードブック41に渡される。無声(リンク2
5)および有声(リンク39)音声を表すベクトル量子
化データは、ベクトル量子化コードブック41を用いて
符号化され、符号化されたデジタル出力信号は、伝送媒
体、暗号化装置等に、リンク42を通じて結合される。
【0033】図2は、図1の送信機のような装置によっ
て供給されるデジタル・データのために受信機9に設け
られた合成器45を、フロー・チャート状に示した簡略
ブロック図である。受信機9はデジタル入力44を有
し、音声信号を表すデジタル・データを外部装置(図示
せず)からベクトル量子化コードブック41に結合する
と共に、暗号化された受信データの解読、受信RFまた
は光データの復調、公衆電話交換システムとのインター
フェース等を行う。ベクトル量子化コードブック41か
らの量子化データは、リンク44’を通じて判断ブロッ
ク46に結合され、ベクトル量子化入力データが有声フ
レームを表すのか、無声フレームを表すのかを判定す
る。
【0034】ベクトル量子化データ(リンク44’)が
無声フレームを表す時、これらのデータはリンク47を
通じて時間領域信号処理ブロック48に結合される。時
間領域信号処理ブロック48は、リンク47に結合され
たブロック51を含んでいるのが望ましい。ブロック5
1は、連続RMSレベル間で線形補間を行い、無声励起
包絡線を再発生するものである。この結果が振幅変調ノ
イズ発生器53に用いられる。振幅変調ノイズ発生器5
3は、リンク52を通じて、ガウス乱数発生器として実
現され、無声励起信号を再構成することが望ましい。こ
の無声励起関数を、リンク54を通じて格子合成フィル
タ62に結合する。62のような格子合成フィルタは当
技術では一般的であり、例えば、Digital Processing o
f SpeechSignals, by L. R. Rabiner and R. W. Schafe
r (Prentice Hall, Englewood Cliffs, NJ, 1978)に記
載されている。
【0035】ベクトル量子化データ(リンク44’)が
有声入力音声を表す時、これらのデータをリンク56を
通じて振幅および位相補間器57に結合し、失われた周
波数領域の振幅および位相データを補間する(これらの
データは伝送帯域要求を下げるために伝送されたのでは
ない)。これらのデータは逆フーリエ変換(ブロック5
9)され、結果として得られたデータはリンク66を通
じて、後のLPC係数補間(ブロック66’)のために
結合される。LPC係数補間(ブロック66’)はリン
ク66”を通じて、エポック補間67に結合され、ここ
で、目標励起(iFFT59から)およびこれと同様の
以前に得られた励起目標(例えば、以前のフレーム)と
の間でデータを補間し、エンコード・プロセス(即ち、
図1の送信機10の音声デジタイザ15における)中に
用いられる励起波形を近似した励起関数(リンク68に
対応する)を再構成する。
【0036】リンク68を通じて結合されたデータに現
れる逆FFTプロセスの人工的音質(artifact)の低減
は、ウインドウ処理(ブロック69)を行い、FFT出
力マトリクス(ブロック59)の開始および終端で生じ
るエッジ効果または「スパイク」、即ちFFTフレーム
境界部における不連続を抑制することによって達成され
る。ウインドウ処理(ブロック69)は台形状ウインド
ウ関数(window function)を用いて行うのが便利である
が、当技術で公知の他のウインドウ関数を用いて行って
もよい。1つのフレーム内では励起包絡線およびピッチ
の変化が比較的緩やかであるために、これらの補間され
連結された励起エポックは、元の励起の特徴によく似る
ので、元の入力音声の再現を高い忠実度で行うことがで
きる。再構成された有声音声を表すウインドウ処理の結
果を、リンク16を通じて格子合成(lattice synthesi
s)フィルタ62に結合する。
【0037】有声および無声フレームの双方に対して、
格子合成フィルタ62は、外部装置(例えば、スピー
カ、イヤホン等、図2には示されていない)に結合され
る高音質の出力音声を合成する。この出力音声は、入力
された音声信号に酷似しており、話し手によって変わる
元の入力音声信号の固有の属性を保持すると同時に、必
要な帯域も狭くて済む(例えば2400ビット/秒即ち
ボー)。
【0038】図3は、本発明による音声デジタイザ15
(図1)と音声合成器45(図2)とを用いた、音声通
信装置77の、非常に簡略化したブロック図である。音
声デジタイザ15および音声合成器45は、Motorola,
Inc. of Phoenix, AZから入手可能なType DSP56001、Ty
pe DSP56002またはType DSP96002集積回路のようなデジ
タル信号プロセッサにおいて、アセンブリ言語プログラ
ム等を用いて実施することができる。当技術では公知の
ように、デジタル信号処理集積回路に付随するメモリ回
路等も必要とされることもある。
【0039】音声通信装置77は、音声入力11に結合
されている音声入力装置78を含む。音声入力装置78
は、例えばマイクロホン、ハンドセット・マイクロホン
とすることができ、或いは電話機または無線装置、また
はメモリ装置(図示せず)、またはその他の音声データ
源に結合してもよい。音声入力11からの入力音声は、
図1および関連する説明に記載したように、音声デジタ
イザ15によってデジタル化される。デジタル化された
音声は、出力42を通じて音声デジタイザ15から出力
される。
【0040】当技術では公知なように、音声通信装置7
7は、通信プロセッサ79を出力42に結合し、リンク
81を通じて出力信号を発生してもよく、通信プロセッ
サ79は、発呼(dialing)、スピーカホーン多重化、変
調、信号の電話(telephony)または無線ネットワークへ
の結合、ファクシミリ伝送、デジタル信号の暗号化(例
えば、出力42からのデジタル音声)、データ圧縮、請
求書交付機能等のような付加機能を実行するために設け
られるものである。
【0041】同様に、通信プロセッサ83は、リンク8
2を通じて入来する信号を受信し、当技術では公知なよ
うに、適切な結合、スピーカホーンの多重化、復調、暗
号解読、ファクシミリ受信、データ圧縮解除、請求書交
付機能等を行う。
【0042】音声を表すデジタル信号は、リンク44を
通じて、通信プロセッサ83から音声合成器45に結合
される。音声合成器45は音声信号に対応する電気信号
を、リンク61を通じて出力装置84に供給する。出力
装置84は、スピーカ、ハンドセット受信要素、または
このような信号を受容可能な他のいずれかの装置とする
ことができる。
【0043】通信プロセッサ79,83は物理的に異な
るプロセッサである必要はないが、これら通信プロセッ
サ79,83によって実現される機能は、例えば、音声
デジタイザ15および/または音声合成器45を構成す
る同一装置によって実行可能であることは認められよ
う。
【0044】本発明の一実施例では、リンク81,82
は共通双方向データ・リンクとしてもよいことは認めら
れよう。本発明の一実施例では、通信プロセッサ79,
83は1つの共通なプロセッサでもよく、および/また
は音声またはその他の信号を表わすデジタル・データを
記憶するための、或いは後に処理するための装置、例え
ば、テレビジョン、カムコーダ(camcorder)等へのリン
クを備えていてもよい。 音声通信装置77は、したが
って、音声信号のデジタル・エンコード、伝送およびデ
コードを行ない、忠実度の高い音声信号再生と共に、所
与の忠実度レベルに対する帯域要求の減少を可能にす
る、新規の装置および方法をもたらすものである。本発
明で用いる固有の周波数領域における励起特徴決定(有
声音声入力に対する)および再構成技術は、大幅な帯域
の節約を可能とすると共に、これまでかなり高いデータ
・レートを有するデジタル・システムでなければ達成で
きなかった音質のデジタル音声を得ることができる。
【0045】例えば、エポックの選択、選択されたエポ
ックの高速フーリエ変換、および選択されたエポックを
表わすデータの間引きによる必要なデータ量の低減によ
って、エンコード・プロセスにおいて多大な恩恵および
利点を得ることができ、一方受信機におけるフレームか
らフレームへの補間によって、エンコードされた信号か
ら入力音声信号を忠実度高く再構成することが可能とな
る。更に、1組の音声サンプルを一連の隣接するウイン
ドウに分割することによって、無声音声の特徴を決定す
ること、および隣接するウインドウ各々についてRMS
信号レベルを測定することも、信号処理の複雑度をかな
り減少するものである。
【0046】ここに記載されたは、音声信号のピッチ・
エポック同期エンコードを行なうための方法であり、こ
の方法は、入力音声信号を供給するステップ、前記入力
音声信号を処理して、線形予測コーディング係数および
有声/無声を含む音質の特徴を決定するステップ、入力
音声信号が有声音声から成る時は周波数領域技術を用い
て入力音声信号の特徴を決定して、励起関数を発生する
ステップ、前記入力音声信号が無声音声から成る時は時
間領域技術を用いて前記入力音声信号の特徴を決定し
て、励起関数を発生するステップ、および前記励起関数
をエンコードして前記入力音声信号を表わすデジタル出
力信号を供給するステップから成る。
【0047】時間領域技術を用いての入力音声信号の特
徴決定は、無声音声フレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々に対して二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を供給するステップから
なる。
【0048】周波数領域技術を用いての入力音声信号の
特徴決定は、音声信号フレーム内のエポック励起位置を
決定するステップ、端数ピッチを判定するステップ、エ
ポック同期LPC分析を行なうことによって1群の同期
線形予測符号化(LPC)係数を決定するステップ、お
よび特定の音声データのエポック内から補間励起目標を
選択し、目標励起関数を発生するステップから成り、前
記目標励起関数は、エポック毎(per-epoch)の音声パラ
メータを含み、前記エンコード・ステップは端数ピッチ
および同期LPC係数のエンコードを含む。
【0049】更に、周波数領域技術を用いての入力音声
信号の特徴決定は、現在選択されている補間励起目標を
以前に選択された補間励起目標と相関付けるステップ、
前記相関付けられた補間励起目標のインデックスを調節
するステップ、および前記インデックスを調節され相関
付けられた補間励起目標に高速フーリエ変換を行なうス
テップを含む。
【0050】また、エンコードされた音声信号を表わす
デジタル信号をデコードする方法が開示され、この方法
は、入力デジタル信号を供給するステップ、該入力デジ
タル信号の有声/無声を判定するステップ、前記入力デ
ジタル信号が有声音声を表わす時に周波数領域技術を用
いて音声信号を合成するステップ、および前記入力デジ
タル信号が無声音声を表わす時に時間領域技術を用いて
音声信号を合成するステップから成る。
【0051】前記入力デジタル信号が無声音声を表わす
時に、時間領域技術を用いて音声信号を合成するステッ
プは、更に、一連の隣接する二乗平均(RMS)振幅を
デコードするステップ、隣接するRMS振幅間で補間を
行ない励起包絡線を再発生するステップ、前記励起包絡
線を用いてノイズ発生器を変調し、無声音声励起を与え
るステップ、および前記無声励起から無声音声を合成す
るステップを含む。
【0052】前記入力デジタル信号が有声音声を表わす
時に、周波数領域技術を用いて音声信号を合成するステ
ップは、更に、伝送された位相間で位相を補間し、位相
を記述するアレイを補間された位相データで満たすステ
ップ、補間された位相データの高速逆フーリエ変換を行
ない、再構成目標エポックを得るステップ、線形予測符
号化(LPC)係数の補間を行ない、送信機において省
かれたLPC係数をシミュレートし、再構成されたLP
C係数を得るステップ、再構成された目標エポック間で
補間を行ない、再構成された有声励起関数を得るステッ
プ、および格子合成フィルタを用いて再構成された有声
励起関数および再構成されたLPC係数から音声信号を
合成し、再構成された音声信号を得るステップから成
る。
【0053】再構成有声励起関数からの音声信号の合成
は、再構成された有声励起関数にウインドウ処理を行な
うステップを含む。
【0054】また、エンコードされた音声信号を表わす
デジタル信号のピッチ・エポック同期デコードを行なう
装置が開示され、この装置は、デジタル信号を受信する
入力、前記入力に結合され入力デジタル信号の有声/無
声を判定する手段、前記入力デジタル信号が有声音声を
表わす時、周波数領域技術を用いて音声信号を合成する
第1手段、および前記入力デジタル信号が無声音声を表
わす時、時間領域技術を用いて音声信号を合成する第2
手段から成り、前記第1および第2手段は、各々前記有
声/無声判定手段に結合された音声信号を合成するもの
である。
【0055】前記音声信号を合成する第2手段は、前記
有声/無声を判定する手段に結合され、一連の隣接する
代表的振幅(representative amplitude)をデコードする
手段、および前記デコード手段に結合されたノイズ発生
器を含む。前記ノイズ発生器は、前記一連の隣接する代
表的振幅から得られた包絡線で変調されたレベルのノイ
ズを発生し、再構成された有声励起関数から合成無声音
声を発生する。
【0056】一連の隣接する代表的振幅をデコードする
前記手段は、一連の隣接する二乗平均(RMS)振幅を
デコードする手段である。
【0057】前記ノイズ発生器は、ガウス・ノイズ発生
器である。
【0058】音声信号を合成する前記第1手段は、前記
有声/無声判定手段に結合され、伝送された位相間で位
相を補間することによって、位相を記述するアレイを補
間された位相データで満たす手段、前記補間された位相
データに高速逆フーリエ変換(iFFT)を行なうこと
によって、再構成された目標エポックを得る手段であっ
て、前記iFFT手段は前記補間手段に結合する手段、
前記iFFT手段に結合され、線形予測符号化(LP
C)係数の補間によって1組の再構成されたLPC係数
を発生し、省かれたLPC係数をシミュレートするLP
C係数補間手段、前記LPC係数補間手段に結合され、
前記再構成された目標エポック間で補間を行ない、再構
成された有声励起関数を得るエポック補間手段、および
前記エポック補間手段に結合され、前記再構成された有
声励起関数と前記1組の再構成されたLPC係数から音
声信号を合成し、再構成音声信号を得る格子合成フィル
タ手段を含む。
【0059】音声信号を合成する前記第1手段は、前記
エポック補間手段に結合され、前記再構成された有声励
起関数にウインドウ処理を行なうことによって前記高速
逆フーリエ変換手段からの人工的音質を除去し、前記格
子合成フィルタ手段に結合された出力を有するウインド
ウ処理手段を含む。
【0060】また、音声信号のピッチ・エポック同期エ
ンコードを行なう装置が開示され、この装置は、入力音
声信号を受信する入力、前記入力に結合され、前記入力
音声信号の有声/無声を判定する手段、前記有声/無声
判定手段に結合され、前記入力音声信号が有声音声から
成る時に動作し、周波数領域技術を用いて前記入力音声
信号の特徴を決定し、特徴が決定された音声を出力信号
として発生する第1手段、前記有声/無声判定手段に結
合され、前記入力音声信号が無声音声から成る時に動作
し、時間領域技術を用いて前記入力音声信号の特徴を決
定し、特徴が決定された音声を出力信号として供給する
第2手段、および前記第1および第2特徴決定手段に結
合され、前記特徴が決定された音声をエンコードし、入
力音声信号を表わすデジタル出力信号を発生する手段か
ら成る。
【0061】前記第2特徴決定手段は、前記有声/無声
判定手段に結合され、1フレーム長からなる一連の隣接
するタイム・スロットにおいて、代表的信号レベルを計
算する手段、および前記代表的信号レベルを計算する手
段に結合され、前記入力音声信号に対応するベクトル量
子化デジタル信号を発生するベクトル量子化コードブッ
クを含む。
【0062】前記代表的信号レベルを計算する手段は、
一連の隣接タイム・スロットにおいて二乗平均信号レベ
ルを計算する手段から成る。
【0063】前記入力音声の特徴を決定する第1手段
は、前記有声/無声判定手段に結合され、音声データ・
フレーム内のエポック励起位置を決定する手段、および
前記判定手段に結合され、特定の音声データのエポック
内から励起目標を選択し、目標励起関数を発生する補間
目標選択手段を含み、前記目標励起手段はエポック毎に
音声パラメータを含む。
【0064】前記入力音声の特徴を決定する第1手段
は、前記目標選択手段と結合され、現在選択されている
補間励起目標を以前に選択された補間励起目標と相関付
ける手段、前記相関付け手段と結合され、相関付けられ
た補間励起目標のインデックスを調節する手段、および
前記調節手段に結合され、前記インデックスを調節され
た相関付けられた補間励起目標を変換し、変換されたデ
ータを発生する高速フーリエ変換手段を含む。
【0065】前記入力音声の特徴を決定する第1手段
は、更に、前記エンコード手段に結合され、前記変換さ
れたデータの振幅および位相の特徴を決定し、前記変換
されたデータから散在するデータ集合を発生する手段を
含む。
【0066】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が無声音声
から成る時時間領域技術を用いて前記入力音声信号の特
徴を決定して励起関数を発生するステップ、および前記
励起関数をエンコードして、前記入力音声信号を表わす
デジタル出力信号を発生するステップから成り、前記時
間領域技術を用いて入力音声信号の特徴を決定するステ
ップは、無声音声のフレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々について二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を発生するステップを含
む。
【0067】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が有声音声
から成る時周波数領域技術を用いて前記入力音声信号の
特徴を決定し、励起関数を発生するステップ、および前
記励起関数をエンコードして、前記入力音声信号を表わ
すデジタル出力信号を発生するステップから成り、前記
周波数領域技術を用いて入力音声信号の特徴を決定する
ステップは、音声データ・フレーム内でエポック励起位
置を決定するステップ、エポック同期LPC分析を行な
うことによって、1群の同期線形予測符号化(LPC)
係数を決定するステップ、および特定の音声データのエ
ポック内から補間励起目標を選択し、目標励起関数を発
生するステップを含み、前記目標励起関数はエポック毎
の音声パラメータを含み、更に、前記エンコード・ステ
ップは、端数ピッチおよび同期LPC係数をエンコード
し、前記励起関数をエンコードして前記入力音声信号を
表わすデジタル出力信号を発生することを含む。
【0068】このように、従来技術の方法および機構に
関連する具体的な問題を克服し、ある利点を得ることが
できる、ピッチ・エポック同期線形予測符号化ボコーダ
および方法について説明した。公知技術に対する改善は
意義深いものである。従来方法の高価、複雑、大電力消
費という欠点が回避される。同様に、達成可能なデータ
・レートを犠牲にすることなく、忠実度を向上させるこ
とができる。
【0069】これまでの特定実施例の説明は、本発明の
全体的な特徴を完全に明らかにするので、現在の知識を
応用することにより、全体的な概念から逸脱することな
く、種々の用途のために容易に改造および/または適合
させることができよう。したがって、そのような適合お
よび改造は、開示された実施例の同等物の意味および範
囲内のものとして解釈されるべきであり、またそのよう
に意図するものである。
【0070】ここで用いた文章および用語は、説明のた
めのものであり、限定のためではないことは理解されよ
う。したがって、本発明は、特許請求の範囲の真意およ
び広範な範囲に該当する全ての代替物、改造物、同等
物、および変更物を含むことを意図するものである。
【図面の簡単な説明】
【図1】本発明による送信機内の音声デジタイザをフロ
ー・チャート形式で表した簡略ブロック図。
【図2】図1の送信機のような装置によって供給される
デジタル・データのために、受信機内に設けられた音声
合成器をフロー・チャート形式で表した簡略ブロック
図。
【図3】本発明による図1の音声デジタイザおよび図2
の音声合成器を用いた、音声通信装置のかなり簡略化し
たブロック図。
【符号の説明】 9 受信機 10 送信機 11 入力 12 高域通過フィルタ 14 線形予測符号化(LPC)装置 15 音声デジタイザ 17 自動相関器 19 ピッチ・ループ・フィルタ 41 ベクトル量子化コードブック 42 出力 45 合成器 53 振幅変調ノイズ発生器 57 振幅および位相補間器 62 格子合成フィルタ 77 音声通信装置 78 音声入力装置 79,83 通信プロセッサ 84 出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チャド・スコット・バーグストロム アメリカ合衆国アリゾナ州チャンドラー、 サウス・オーク501

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】音声信号のピッチ・エポック同期エンコー
    ドを行なう方法であって:入力音声信号(11)を供給
    するステップ;前記入力音声信号(11)を処理し、線
    形予測符号化係数および有声/無声を含む音質の特徴を
    決定するステップ(12,14,17,19,22);
    前記入力音声信号(11)が有声音声から成る時、周波
    数領域技術(24’)を用いて入力音声信号の特徴を決
    定し、励起関数(39)を発生するステップ;前記入力
    音声信号(11)が無声音声から成る時、時間領域技術
    (24)を用いて前記入力音声信号の特徴を決定し、励
    起関数(25)を発生するステップ;および前記励起関
    数(25,39)をエンコードし(41)、前記入力音
    声信号(11)を表わすデジタル出力信号(42)を発
    生するステップ;から成ることを特徴とする方法。
  2. 【請求項2】エンコードされた音声信号を表わすデジタ
    ル信号をデコードする方法であって:入力デジタル信号
    (44)を供給するステップ、前記入力デジタル信号
    (44)の有声/無声を判定するステップ(46)、前
    記入力デジタル信号が有声音声を表わす時周波数領域技
    術(48’)を用いて音声信号を合成するステップ、お
    よび前記入力デジタル信号が無声音声を表わす時、時間
    領域技術(48)を用いて音声信号を合成するステッ
    プ、から成ることを特徴とする方法。
  3. 【請求項3】エンコードされた音声信号を表わすデジタ
    ル信号のピッチ・エポック同期デコードを行なう装置で
    あって:デジタル信号を受信する入力(44);前記入
    力(44)に結合され、前記入力デジタル信号の有声/
    無声を判定する手段(45);前記有声/無声を判定す
    る手段(45)に結合され、前記入力デジタル信号が有
    声音声を表わす時、周波数領域技術を用いて音声信号を
    合成する第1手段(45);および前記有声/無声を判
    定する手段(45)に結合され、前記入力デジタル信号
    が無声音声を表わす時、時間領域技術を用いて音声信号
    を合成する第2手段(45);から成ることを特徴とす
    る装置。
  4. 【請求項4】音声信号のピッチ・エポック同期エンコー
    ドを行なう装置であって:入力音声信号を受信する入力
    (11);前記入力(11)に結合され、前記入力音声
    信号の有声/無声を判定する手段(15);前記有声/
    無声を判定する手段(15)に結合され、前記入力音声
    信号が有声音声から成る時に動作し、周波数領域技術を
    用いて前記入力音声信号の特徴を決定し、特徴が決定さ
    れた音声を出力信号として発生する第1手段(15);
    前記有声/無声を判定する手段(15)に結合され、前
    記入力音声信号が無声音声から成る時に動作し、時間領
    域技術を用いて前記入力音声信号の特徴を決定し、特徴
    が決定された音声を出力信号として発生する第2手段
    (15);および前記第1および第2特徴決定手段(1
    5)に結合され、前記特徴が決定された音声をエンコー
    ドし、前記入力音声信号を表わすデジタル出力信号を発
    生する手段(15);から成ることを特徴とする装置。
  5. 【請求項5】音声信号のピッチ・エポック同期エンコー
    ドを行なう方法であって:入力音声信号(11)を供給
    するステップ;前記入力音声信号(11)を処理し、線
    形予測符号化係数および有声/無声を含む音質の特徴を
    決定するステップ(12,14,17,19,22);
    前記入力音声信号(11)が無声音声から成る時、時間
    領域技術(24)を用いて前記入力音声信号の特徴を決
    定し、励起関数(25)を発生するステップ;および前
    記励起関数をエンコードし(41)、前記入力音声信号
    (11)を表わすデジタル出力信号(42)を発生する
    ステップ;から成り、前記時間領域技術(24)を用い
    て入力音声信号の特徴を決定するステップは、無声音声
    のフレームを一連の隣接領域に分割するステップ(2
    4);前記隣接領域の各々について二乗平均振幅(RM
    S)を決定するステップ(24);およびベクトル量子
    化コードブックを用いて前記RMS振幅をエンコード
    し、無声音声を表わすデジタル信号を発生するステップ
    (24);を含むことを特徴する方法。
  6. 【請求項6】音声信号のピッチ・エポック同期エンコー
    ドを行なう方法であって:入力音声信号(11)を供給
    するステップ;前記入力音声信号(11)を処理し、線
    形予測符号化係数および有声/無声を含む音質の特徴を
    決定するステップ(12,14,17,19,22);
    前記入力音声信号(11)が有声音声から成る時、周波
    数領域技術(24’)を用いて入力音声信号の特徴を決
    定し、励起関数(39)を発生するステップ;および前
    記励起関数をエンコードし(41)、前記入力音声信号
    (11)を表わすデジタル出力信号(42)を発生する
    ステップ;から成り、前記周波数領域技術(24’)を
    用いて入力音声信号の特徴を決定するステップは:音声
    データ・フレーム内でエポック励起位置を決定するステ
    ップ(27);端数ピッチを判定するステップ(2
    7’);エポック同期LPC分析を行なうことによっ
    て、1群の同期線形予測符号化(LPC)係数を決定す
    るステップ(29);および特定の音声データのエポッ
    ク内から補間励起目標を選択して、目標励起関数を発生
    するステップ(31)であって、前記目標励起関数はエ
    ポック毎の音声パラメータを含み、前記エンコード・ス
    テップは端数ピッチと同期LPC係数とをエンコードす
    ることを含む、前記選択ステップ;を含むことを特徴と
    する方法。
JP6133864A 1993-05-28 1994-05-25 ピッチ・エポック同期線形予測符号化ボコーダおよび方法 Pending JPH06337699A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US068325 1987-07-01
US08/068,325 US5504834A (en) 1993-05-28 1993-05-28 Pitch epoch synchronous linear predictive coding vocoder and method

Publications (1)

Publication Number Publication Date
JPH06337699A true JPH06337699A (ja) 1994-12-06

Family

ID=22081837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6133864A Pending JPH06337699A (ja) 1993-05-28 1994-05-25 ピッチ・エポック同期線形予測符号化ボコーダおよび方法

Country Status (4)

Country Link
US (2) US5504834A (ja)
EP (1) EP0627725A3 (ja)
JP (1) JPH06337699A (ja)
CA (1) CA2123188A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526956A (ja) * 2014-07-26 2017-09-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
JP3680374B2 (ja) * 1995-09-28 2005-08-10 ソニー株式会社 音声合成方法
JPH09127995A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
CN1163870C (zh) * 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
PL193723B1 (pl) * 1997-04-07 2007-03-30 Koninkl Philips Electronics Nv Sposób i urządzenie do kodowania sygnału mowy oraz sposób i urządzenie do dekodowania sygnału mowy
US5893056A (en) * 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6381570B2 (en) 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6721282B2 (en) * 2001-01-12 2004-04-13 Telecompression Technologies, Inc. Telecommunication data compression apparatus and method
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US20040252585A1 (en) * 2001-10-10 2004-12-16 Smith Dexter G. Digital geophone system
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
DE602005010592D1 (de) * 2005-11-15 2008-12-04 Alcatel Lucent Verfahren zur Übertragung von Kanalqualitätsinformationen in einem Multiträger-Funkkommunikationssystem und entsprechende Mobilstation und Basisstation

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4439839A (en) * 1981-08-24 1984-03-27 International Telephone And Telegraph Corporation Dynamically programmable processing element
US4710959A (en) * 1982-04-29 1987-12-01 Massachusetts Institute Of Technology Voice encoder and synthesizer
US4742550A (en) * 1984-09-17 1988-05-03 Motorola, Inc. 4800 BPS interoperable relp system
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4815134A (en) * 1987-09-08 1989-03-21 Texas Instruments Incorporated Very low rate speech encoder and decoder
JP2763322B2 (ja) * 1989-03-13 1998-06-11 キヤノン株式会社 音声処理方法
US4963034A (en) * 1989-06-01 1990-10-16 Simon Fraser University Low-delay vector backward predictive coding of speech
US5206884A (en) * 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
JPH06138896A (ja) * 1991-05-31 1994-05-20 Motorola Inc 音声フレームを符号化するための装置および方法
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526956A (ja) * 2014-07-26 2017-09-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
US10586547B2 (en) 2014-07-26 2020-03-10 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
US10885926B2 (en) 2014-07-26 2021-01-05 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding for high bit rates

Also Published As

Publication number Publication date
CA2123188A1 (en) 1994-11-29
US5504834A (en) 1996-04-02
EP0627725A2 (en) 1994-12-07
EP0627725A3 (en) 1997-01-29
US5579437A (en) 1996-11-26

Similar Documents

Publication Publication Date Title
JP3871347B2 (ja) スペクトル帯域複製を用いた原始コーディングの強化
KR102125410B1 (ko) 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법
JPH06337699A (ja) ピッチ・エポック同期線形予測符号化ボコーダおよび方法
US5479559A (en) Excitation synchronous time encoding vocoder and method
US5602959A (en) Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5903866A (en) Waveform interpolation speech coding using splines
RU2417457C2 (ru) Способ конкатенации кадров в системе связи
AU2002318813B2 (en) Audio signal decoding device and audio signal encoding device
US8417515B2 (en) Encoding device, decoding device, and method thereof
KR100882771B1 (ko) 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치
US20050096917A1 (en) Methods for improving high frequency reconstruction
AU2003243441B2 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US5924061A (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
JPH09127995A (ja) 信号復号化方法及び信号復号化装置
US5727125A (en) Method and apparatus for synthesis of speech excitation waveforms
JP4099879B2 (ja) 帯域幅拡張方法及び装置
JP3437421B2 (ja) 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体
JP2010515090A (ja) 音声コード化の方法および装置
CN116110424A (zh) 一种语音带宽扩展方法及相关装置
JPH11194799A (ja) 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体