JPH06337699A - ピッチ・エポック同期線形予測符号化ボコーダおよび方法 - Google Patents
ピッチ・エポック同期線形予測符号化ボコーダおよび方法Info
- Publication number
- JPH06337699A JPH06337699A JP6133864A JP13386494A JPH06337699A JP H06337699 A JPH06337699 A JP H06337699A JP 6133864 A JP6133864 A JP 6133864A JP 13386494 A JP13386494 A JP 13386494A JP H06337699 A JPH06337699 A JP H06337699A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- input
- speech
- determining
- voiced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Abstract
(57)【要約】
【目的】 音声信号の特徴をデジタル表現に適する形で
迅速かつ正確に決定する装置および方法、ならびに高い
忠実度を得ると共に広いデジタル帯域を必要とせずにデ
ジタル表現から音声信号を発生するする方法および装置
を提供する。 【構成】 音声信号のピッチ・エポック同期エンコード
を行なう方法は、入力音声信号を供給するステップ、前
記入力音声信号を処理して、線形予測符号化係数および
有声/無声を含む音質の特徴を決定するステップ、およ
び前記入力音声信号に対応して励起の特徴を決定し、入
力音声信号が有声音声から成る時は周波数領域技術を用
いて励起関数を発生するステップから成る。また、この
方法は、前記入力音声信号が無声音声から成る時、時間
領域技術を用いて前記入力音声信号の特徴を決定して励
起関数を発生するステップ、および前記励起関数をエン
コードして前記入力音声信号を表わすデジタル出力信号
を発生するステップも含む。
迅速かつ正確に決定する装置および方法、ならびに高い
忠実度を得ると共に広いデジタル帯域を必要とせずにデ
ジタル表現から音声信号を発生するする方法および装置
を提供する。 【構成】 音声信号のピッチ・エポック同期エンコード
を行なう方法は、入力音声信号を供給するステップ、前
記入力音声信号を処理して、線形予測符号化係数および
有声/無声を含む音質の特徴を決定するステップ、およ
び前記入力音声信号に対応して励起の特徴を決定し、入
力音声信号が有声音声から成る時は周波数領域技術を用
いて励起関数を発生するステップから成る。また、この
方法は、前記入力音声信号が無声音声から成る時、時間
領域技術を用いて前記入力音声信号の特徴を決定して励
起関数を発生するステップ、および前記励起関数をエン
コードして前記入力音声信号を表わすデジタル出力信号
を発生するステップも含む。
Description
【0001】
【産業上の利用分野】本発明は、一般的にデジタル的に
エンコードされた人間の音声の分野に関し、特にエンコ
ードおよびデコード処理技術に関するものである。更に
特定すれば、デジタル的に音声をエンコードし、これま
でより狭い帯域を用いて、デジタル的にエンコードされ
た音声を伝送すると共に、明瞭性を向上させデジタル・
コードからの音声信号を同期させる、高忠実度技術に関
するものである。
エンコードされた人間の音声の分野に関し、特にエンコ
ードおよびデコード処理技術に関するものである。更に
特定すれば、デジタル的に音声をエンコードし、これま
でより狭い帯域を用いて、デジタル的にエンコードされ
た音声を伝送すると共に、明瞭性を向上させデジタル・
コードからの音声信号を同期させる、高忠実度技術に関
するものである。
【0002】
【従来の技術】本発明に関連する特許出願として、本願
と同一譲受人に譲渡された、1992年7月14日に出
願され、「低ビット・レート・ボコーダ手段および方
法」と題する、特開平4−20859号がある。
と同一譲受人に譲渡された、1992年7月14日に出
願され、「低ビット・レート・ボコーダ手段および方
法」と題する、特開平4−20859号がある。
【0003】音声信号のデジタル・エンコードおよび/
またはデジタル信号のデコードによって、情報通信に利
用可能な音声信号を供給することは、確実な通信機能、
デジタル・リンクを介した通信、またはコンピュータの
命令から得られた音声信号(speech out signal)を提供
する多くの電子製品にとって、重要なことである。
またはデジタル信号のデコードによって、情報通信に利
用可能な音声信号を供給することは、確実な通信機能、
デジタル・リンクを介した通信、またはコンピュータの
命令から得られた音声信号(speech out signal)を提供
する多くの電子製品にとって、重要なことである。
【0004】多くのデジタル音声システムでは、合成音
声の質が悪く知覚が困難であることが問題となってい
る。入力音声基本要素の特徴決定が不十分なこと、帯域
に限界があること、およびエンコードされたデジタル表
現から後に合成音声信号を再構成することが全て、合成
音声の音質の低下によって知覚が困難となる原因であ
る。更に、ある種の情報搬送能力が失われ、話し手が伝
えようとする(imparted by)ニュアンス、イントネーシ
ョンおよび強調など、微妙であるが重要な伝達要素が、
デジタル状で伝送される音声信号のエンコードおよびそ
の後のデコード処理における転化(corruption)によっ
て、程度に差はあるものの、失われてしまうのである。
声の質が悪く知覚が困難であることが問題となってい
る。入力音声基本要素の特徴決定が不十分なこと、帯域
に限界があること、およびエンコードされたデジタル表
現から後に合成音声信号を再構成することが全て、合成
音声の音質の低下によって知覚が困難となる原因であ
る。更に、ある種の情報搬送能力が失われ、話し手が伝
えようとする(imparted by)ニュアンス、イントネーシ
ョンおよび強調など、微妙であるが重要な伝達要素が、
デジタル状で伝送される音声信号のエンコードおよびそ
の後のデコード処理における転化(corruption)によっ
て、程度に差はあるものの、失われてしまうのである。
【0005】特に、自動回帰線形予測符号化(auto-regr
essive linear predictive coding)(LPC)技術は、
全てが極でゼロ点がないシステム伝達関数を含んでい
る。これら従来技術による符号化技術、特に線形予測符
号化分析を利用するものは、鼻腔からの共鳴が音質に与
える影響(contribution)を全て無視する傾向があり(鼻
腔からの共鳴は本来、人間音声装置を記述する伝達関数
において、「ゼロ点」を与える)、再生された音声は人
工的な「鈴の音のような(tinny)」或いは「鼻音」状の
音質を有する結果となる。
essive linear predictive coding)(LPC)技術は、
全てが極でゼロ点がないシステム伝達関数を含んでい
る。これら従来技術による符号化技術、特に線形予測符
号化分析を利用するものは、鼻腔からの共鳴が音質に与
える影響(contribution)を全て無視する傾向があり(鼻
腔からの共鳴は本来、人間音声装置を記述する伝達関数
において、「ゼロ点」を与える)、再生された音声は人
工的な「鈴の音のような(tinny)」或いは「鼻音」状の
音質を有する結果となる。
【0006】音声をデジタル的にエンコードおよびデコ
ード処理するための標準的な技術は、信号処理分析技術
を利用するが、質の高いリアル・タイムの通信を実現す
るには、かなりの帯域を必要とする。
ード処理するための標準的な技術は、信号処理分析技術
を利用するが、質の高いリアル・タイムの通信を実現す
るには、かなりの帯域を必要とする。
【0007】
【発明が解決しようとする課題】したがって、音声信号
の特徴をデジタル表現に適する形で迅速かつ正確に決定
する装置および方法、ならびに高い忠実度(fidelity)を
得ると共に広いデジタル帯域を必要とせずに、デジタル
表現から音声信号を発生する方法および装置が、現在必
要とされているのである。
の特徴をデジタル表現に適する形で迅速かつ正確に決定
する装置および方法、ならびに高い忠実度(fidelity)を
得ると共に広いデジタル帯域を必要とせずに、デジタル
表現から音声信号を発生する方法および装置が、現在必
要とされているのである。
【0008】
【課題を解決するための手段】端的に述べると、新規で
改善されたデジタル音声表現および再構成装置、ならび
にそのための方法が提供される。
改善されたデジタル音声表現および再構成装置、ならび
にそのための方法が提供される。
【0009】即ち、音声信号のピッチ・エポック同期エ
ンコード処理方法が提供される。この方法は、入力音声
信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声(voicing)を
含む音質の特徴を決定するステップ、入力音声信号が有
声音声から成る時、周波数領域技術を用いて入力音声信
号の特徴を決定することにより励起関数(excitation fu
nction)を供給するステップ、前記入力音声信号が無有
音声から成る時、時間領域技術を用いて前記入力音声信
号の特徴を決定することにより励起関数を供給するステ
ップ、および前記励起関数をエンコードして前記入力音
声信号を表すデジタル出力信号を供給するステップから
成る。
ンコード処理方法が提供される。この方法は、入力音声
信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声(voicing)を
含む音質の特徴を決定するステップ、入力音声信号が有
声音声から成る時、周波数領域技術を用いて入力音声信
号の特徴を決定することにより励起関数(excitation fu
nction)を供給するステップ、前記入力音声信号が無有
音声から成る時、時間領域技術を用いて前記入力音声信
号の特徴を決定することにより励起関数を供給するステ
ップ、および前記励起関数をエンコードして前記入力音
声信号を表すデジタル出力信号を供給するステップから
成る。
【0010】好適実施例では、前記装置は、エンコード
された音声信号を表すデジタル信号のピッチ・エポック
同期デコード処理のための装置から成る。前記装置は、
デジタル信号を受信する入力、前記入力に結合される入
力デジタル信号の有声/無声(voicing)を判定する装
置、前記入力デジタル信号が有声音声を表す時は周波数
領域技術を用いて音声信号を合成する第1装置、および
前記入力デジタル信号が無声音声を表す時は時間領域技
術を用いて音声信号を合成する第2装置から成る。前記
第1および第2装置は、各々前記有声/無声を判定する
装置に結合された音声信号を合成する。
された音声信号を表すデジタル信号のピッチ・エポック
同期デコード処理のための装置から成る。前記装置は、
デジタル信号を受信する入力、前記入力に結合される入
力デジタル信号の有声/無声(voicing)を判定する装
置、前記入力デジタル信号が有声音声を表す時は周波数
領域技術を用いて音声信号を合成する第1装置、および
前記入力デジタル信号が無声音声を表す時は時間領域技
術を用いて音声信号を合成する第2装置から成る。前記
第1および第2装置は、各々前記有声/無声を判定する
装置に結合された音声信号を合成する。
【0011】エンコードされた音声信号を表すデジタル
信号のピッチ・エポック同期デコードを行なう装置は、
デジタル信号を受信する入力と、前記入力デジタル信号
の有声/無声を判定する装置とを含む。前記有声/無声
を判定する装置は、前記入力に結合されている。前記装
置は、前記デジタル信号が有声音声を表す時は周波数領
域技術を用いて音声信号を合成する第1装置と、前記入
力デジタル信号が無声音声を表す時は時間領域技術を用
いて音声信号を合成する第2装置も含む。前記音声信号
を合成する第1および第2装置は、各々前記有声/無声
を判定する装置に結合されている。
信号のピッチ・エポック同期デコードを行なう装置は、
デジタル信号を受信する入力と、前記入力デジタル信号
の有声/無声を判定する装置とを含む。前記有声/無声
を判定する装置は、前記入力に結合されている。前記装
置は、前記デジタル信号が有声音声を表す時は周波数領
域技術を用いて音声信号を合成する第1装置と、前記入
力デジタル信号が無声音声を表す時は時間領域技術を用
いて音声信号を合成する第2装置も含む。前記音声信号
を合成する第1および第2装置は、各々前記有声/無声
を判定する装置に結合されている。
【0012】音声信号のピッチ・エポック同期エンコー
ドを行なう装置は、入力音声信号を受信する入力と、前
記入力音声信号の有声/無声を判定する装置とを含む。
前記有声/無声を判定する装置は前記入力に結合されて
いる。前記装置は、更に、周波数領域技術を用いて前記
入力音声信号の特徴を決定する第1装置を含み、これは
前記有声/無声を判定する装置に結合されている。前記
第1特徴決定装置は、前記入力音声信号が有声音声から
成る時に動作し、周波数領域で特徴を決定された音声を
出力信号として供給する。前記装置は更に、時間領域技
術を用いて入力音声信号の特徴を決定する第2装置も含
む。この装置も前記有声/無声を判定する装置に結合さ
れている。前記第2特徴決定装置は、入力音声信号が無
声音声から成る時に動作し、特徴が決定された音声を出
力信号として供給する。前記装置は、前記特徴が決定さ
れた信号をエンコードし、前記入力音声信号を表すデジ
タル出力信号を発生するエンコーダも含む。このエンコ
ーダは前記第1および第2特徴決定装置に結合されてい
る。
ドを行なう装置は、入力音声信号を受信する入力と、前
記入力音声信号の有声/無声を判定する装置とを含む。
前記有声/無声を判定する装置は前記入力に結合されて
いる。前記装置は、更に、周波数領域技術を用いて前記
入力音声信号の特徴を決定する第1装置を含み、これは
前記有声/無声を判定する装置に結合されている。前記
第1特徴決定装置は、前記入力音声信号が有声音声から
成る時に動作し、周波数領域で特徴を決定された音声を
出力信号として供給する。前記装置は更に、時間領域技
術を用いて入力音声信号の特徴を決定する第2装置も含
む。この装置も前記有声/無声を判定する装置に結合さ
れている。前記第2特徴決定装置は、入力音声信号が無
声音声から成る時に動作し、特徴が決定された音声を出
力信号として供給する。前記装置は、前記特徴が決定さ
れた信号をエンコードし、前記入力音声信号を表すデジ
タル出力信号を発生するエンコーダも含む。このエンコ
ーダは前記第1および第2特徴決定装置に結合されてい
る。
【0013】
【実施例】ここで用いられる「励起」、「励起関数」、
「駆動関数」、および「励起波形」という用語は、等価
な意味を有し、線形予測符号化装置によってその出力信
号の1つとして発生される波形を示すものである。ま
た、ここで用いられる、「目標」、「励起目標」および
「目標エポック(target epoch)」という用語も等価な意
味を有し、第1にエンコード装置における特徴決定のた
めに選択されるエポック、そして第2に、デコード装置
における後の補間のために選択されるエポックを示す。
図1は、本発明による送信機10内の音声デジタイザ1
5をフロー・チャート形式で示す簡略ブロック図であ
る。
「駆動関数」、および「励起波形」という用語は、等価
な意味を有し、線形予測符号化装置によってその出力信
号の1つとして発生される波形を示すものである。ま
た、ここで用いられる、「目標」、「励起目標」および
「目標エポック(target epoch)」という用語も等価な意
味を有し、第1にエンコード装置における特徴決定のた
めに選択されるエポック、そして第2に、デコード装置
における後の補間のために選択されるエポックを示す。
図1は、本発明による送信機10内の音声デジタイザ1
5をフロー・チャート形式で示す簡略ブロック図であ
る。
【0014】有声音声(voiced speech)(例えば、「s
hoot」中の「oo」)の主要成分は、変化が緩慢な
包絡線および周期を有する、擬似周期的インパルス状駆
動関数または励起関数として表すと都合がよい。この周
期のことを「ピッチ周期」またはエポックと呼び、駆動
関数内に1つの個別インパルスを含む。逆に、無声音声
(例えば、「hiss」中の「ss」)に関連する駆動
関数は、元来非常にランダムであり、形状のあるノイズ
(shaped noise)、即ち時間可変包絡線を有するノイズに
似ている。ここで、包絡線形状は、主要な情報搬送成分
である。
hoot」中の「oo」)の主要成分は、変化が緩慢な
包絡線および周期を有する、擬似周期的インパルス状駆
動関数または励起関数として表すと都合がよい。この周
期のことを「ピッチ周期」またはエポックと呼び、駆動
関数内に1つの個別インパルスを含む。逆に、無声音声
(例えば、「hiss」中の「ss」)に関連する駆動
関数は、元来非常にランダムであり、形状のあるノイズ
(shaped noise)、即ち時間可変包絡線を有するノイズに
似ている。ここで、包絡線形状は、主要な情報搬送成分
である。
【0015】複合有声/無声駆動波形を、システム伝達
関数への入力として考えることができ、その出力が結果
的に得られる音声波形を発生する。この複合駆動波形
は、人間の音声のための「励起関数」と呼ぶこともでき
る。したがって、励起関数の効率的な特徴決定によっ
て、個々の話し手固有の属性により近い近似をもたらす
ことになる。前記属性は、これまでの帯域が狭い音声符
号化構成(例えば、LPC10e)では、不十分に表現
されているか、或いは全く無視されている。
関数への入力として考えることができ、その出力が結果
的に得られる音声波形を発生する。この複合駆動波形
は、人間の音声のための「励起関数」と呼ぶこともでき
る。したがって、励起関数の効率的な特徴決定によっ
て、個々の話し手固有の属性により近い近似をもたらす
ことになる。前記属性は、これまでの帯域が狭い音声符
号化構成(例えば、LPC10e)では、不十分に表現
されているか、或いは全く無視されている。
【0016】本発明による構成においては、音声信号が
高域通過フィルタ12に入力11を通じて結合される。
高域通過フィルタ12は、フレームを基準とした線形予
測符号化(LPC)装置14に、リンク13を通じて結
合されている。LPC装置14は、リンク16を通じて
自動相関器17に励起関数を供給する。
高域通過フィルタ12に入力11を通じて結合される。
高域通過フィルタ12は、フレームを基準とした線形予
測符号化(LPC)装置14に、リンク13を通じて結
合されている。LPC装置14は、リンク16を通じて
自動相関器17に励起関数を供給する。
【0017】自動相関器17は、擬似周期的励起波形の
サンプル(または領域)における整数ピッチ期間τを推
定する。励起関数およびτの推定は、リンク18を通じ
てピッチ・ループ・フィルタ19に入力され、入力音声
信号と関連のある励起関数構造を推定する。ピッチ・ル
ープ・フィルタ19は、当技術では公知のものである
(例えば、"Pitch Prediction Filters In Speech Codi
ng" by R. P. Ramachandran and P. Kabal, in IEEE Tr
ansactions on Acoustics, Speech and Signal Process
ing, vol. 37, no. 4, 1989年4月号を参照された
い)。LPC予測利得(フレーム基準LPC装置14か
らの)、ピッチ・ループ・フィルタ予測利得(ピッチ・
ループ・フィルタ19からの)、およびフィルタ係数値
(ピッチ・ループ・フィルタ19からの)に対する推定
は判断ブロック22において用いられ、入力音声データ
が表すのは有声入力音声データか、或いは無声入力音声
データかを判断する。
サンプル(または領域)における整数ピッチ期間τを推
定する。励起関数およびτの推定は、リンク18を通じ
てピッチ・ループ・フィルタ19に入力され、入力音声
信号と関連のある励起関数構造を推定する。ピッチ・ル
ープ・フィルタ19は、当技術では公知のものである
(例えば、"Pitch Prediction Filters In Speech Codi
ng" by R. P. Ramachandran and P. Kabal, in IEEE Tr
ansactions on Acoustics, Speech and Signal Process
ing, vol. 37, no. 4, 1989年4月号を参照された
い)。LPC予測利得(フレーム基準LPC装置14か
らの)、ピッチ・ループ・フィルタ予測利得(ピッチ・
ループ・フィルタ19からの)、およびフィルタ係数値
(ピッチ・ループ・フィルタ19からの)に対する推定
は判断ブロック22において用いられ、入力音声データ
が表すのは有声入力音声データか、或いは無声入力音声
データかを判断する。
【0018】無声励起データ(unvoiced excitation dat
a)は、リンク23を通じてブロック24に結合され、こ
こで隣接するRMSレベルが計算される。これらRMS
レベルを表す信号は、次にリンク25を通じてベクトル
量子コードブック41に結合される。このコードブック
41の全体的な構造(composition)および機能は当技術
では公知である。
a)は、リンク23を通じてブロック24に結合され、こ
こで隣接するRMSレベルが計算される。これらRMS
レベルを表す信号は、次にリンク25を通じてベクトル
量子コードブック41に結合される。このコードブック
41の全体的な構造(composition)および機能は当技術
では公知である。
【0019】典型的に、240サンプルから成る30ミ
リ秒フレームの無声励起信号が、20の隣接するタイム
・スロットに分割される。各タイム・スロット中に発生
する励起信号を分析し、それが表すレベルによって特徴
を決定する。このレベルはRMS(二乗平均)レベルと
して実現するのが好ましい。無声フレーム構造(composi
tion)を伝送のに効果的なこの技術は、再生される無声
音声信号の音質について大幅な妥協をすることなく、あ
るレベルの計算の簡略化を図るものである。このような
簡略化は、これよりもかなり精巧な周波数領域高速フー
リエ変換(FFT)方法では不可能なことである。
リ秒フレームの無声励起信号が、20の隣接するタイム
・スロットに分割される。各タイム・スロット中に発生
する励起信号を分析し、それが表すレベルによって特徴
を決定する。このレベルはRMS(二乗平均)レベルと
して実現するのが好ましい。無声フレーム構造(composi
tion)を伝送のに効果的なこの技術は、再生される無声
音声信号の音質について大幅な妥協をすることなく、あ
るレベルの計算の簡略化を図るものである。このような
簡略化は、これよりもかなり精巧な周波数領域高速フー
リエ変換(FFT)方法では不可能なことである。
【0020】有声励起データは、ブロック24’におい
て周波数領域で処理され、音声の特徴は「エポック毎」
を基準に分析される。これらのデータはリンク26を通
じてブロック27に結合され、ここでエポック位置が決
定される。エポック位置判定に続いて、データはリンク
28を通じてブロック27’に結合され、ピッチの端数
(fractional pitch)が判定される。次にデータはリンク
28’を通じてブロック29に結合され、エポック位置
決めデータを(ブロック27から)与えられた入力音声
に対して、励起同期LPC分析が行われる。これらは両
方ともリンク28’を通じて供給される。
て周波数領域で処理され、音声の特徴は「エポック毎」
を基準に分析される。これらのデータはリンク26を通
じてブロック27に結合され、ここでエポック位置が決
定される。エポック位置判定に続いて、データはリンク
28を通じてブロック27’に結合され、ピッチの端数
(fractional pitch)が判定される。次にデータはリンク
28’を通じてブロック29に結合され、エポック位置
決めデータを(ブロック27から)与えられた入力音声
に対して、励起同期LPC分析が行われる。これらは両
方ともリンク28’を通じて供給される。
【0021】このプロセスは、修正LPC係数および励
起関数を発生し、これらをリンク30を通じてブロック
31に結合し、各フレームにおいて1つの励起エポック
を補間目標として選択する。この単一エポックは、ラン
ダムに選択してもよいし、当技術では公知のように、閉
ループ・プロセスを通じて選択してもよい。目標励起関
数に対応する励起同期LPC係数(LPC装置29か
ら)は、係数補間目標として選択され、リンク30を通
じて補間目標の選択31に結合される。選択された補間
目標(ブロック31)は、リンク32を通じて相関補間
目標33に結合される。
起関数を発生し、これらをリンク30を通じてブロック
31に結合し、各フレームにおいて1つの励起エポック
を補間目標として選択する。この単一エポックは、ラン
ダムに選択してもよいし、当技術では公知のように、閉
ループ・プロセスを通じて選択してもよい。目標励起関
数に対応する励起同期LPC係数(LPC装置29か
ら)は、係数補間目標として選択され、リンク30を通
じて補間目標の選択31に結合される。選択された補間
目標(ブロック31)は、リンク32を通じて相関補間
目標33に結合される。
【0022】LPC係数を利用して、送信機において省
かれたデータを、受信機側で補間によって再発生する
(後に図4に関連して論ずる)。LPC係数と1つの励
起エポックに対応する情報の1組のみが送信機において
エンコードされるので、残りの励起波形およびエポック
同期係数は、受信機において選択された「目標」から得
なければならない。伝送された目標間の線形補間を用い
ると、失われた情報をうまく再発生することができる
が、これ以外の非線形方法を用いることもできる。この
ように、送信機において1つの励起エポックのみ(即
ち、有声音声)が周波数領域で分析され、フレーム毎に
エンコードされ、中間にあるエポックには受信機9にお
ける補間によって挿入される。
かれたデータを、受信機側で補間によって再発生する
(後に図4に関連して論ずる)。LPC係数と1つの励
起エポックに対応する情報の1組のみが送信機において
エンコードされるので、残りの励起波形およびエポック
同期係数は、受信機において選択された「目標」から得
なければならない。伝送された目標間の線形補間を用い
ると、失われた情報をうまく再発生することができる
が、これ以外の非線形方法を用いることもできる。この
ように、送信機において1つの励起エポックのみ(即
ち、有声音声)が周波数領域で分析され、フレーム毎に
エンコードされ、中間にあるエポックには受信機9にお
ける補間によって挿入される。
【0023】選択されたエポックは、リンク32を通じ
てブロック33に結合され、隣接するフレームにおいて
選択されたエポック(例えば、前のフレームにおいて選
択されたフレーム)が、相互に相関付けられ、最適エポ
ック開始インデックスを決定すると共に、補間プロセス
の有効性を改善する。2つの目標を相関付けることによ
り、補間に先だって、最大相関インデックスのシフト
を、位置決めオフセットとして導入してもよい。このオ
フセットは、2つの目標の「位相」を強制的に一致させ
ることによって、標準的な補間方法を改善するものであ
る。補間前にこの相関手順を実行できない場合、しばし
ば受信機9(図2、後に述べる)において再構成された
励起包絡線に重大なエラーを生じることがある。
てブロック33に結合され、隣接するフレームにおいて
選択されたエポック(例えば、前のフレームにおいて選
択されたフレーム)が、相互に相関付けられ、最適エポ
ック開始インデックスを決定すると共に、補間プロセス
の有効性を改善する。2つの目標を相関付けることによ
り、補間に先だって、最大相関インデックスのシフト
を、位置決めオフセットとして導入してもよい。このオ
フセットは、2つの目標の「位相」を強制的に一致させ
ることによって、標準的な補間方法を改善するものであ
る。補間前にこの相関手順を実行できない場合、しばし
ば受信機9(図2、後に述べる)において再構成された
励起包絡線に重大なエラーを生じることがある。
【0024】相関付けられた目標エポックは、リンク3
4を通じて循環シフト36’に結合され、データはデー
タ・アレイ内でシフト、即ち「回転」させられる。シフ
トされたデータはリンク37’を通じて結合され、次に
高速フーリエ変換(FFT)(ブロック36”)が行わ
れる。変換されたデータはリンク37”を通じて結合さ
れ、次に周波数領域でエンコードされる(ブロック3
8)。受信機9において(後に図2に関連して論ず
る)、補間を用いて、送信機10で省略された情報を再
発生する。送信機では、1組のLPC係数と1つの励起
エポックがエンコードされるのみであるので、残りの励
起波形およびエポック同期係数は、受信機において、選
択された「目標」から得なければ成らない。伝送された
目標間で線形補間を用いて失った情報を再発生すると良
い結果が得られるが、他の非線形な方法(schemata)も用
いることができる。
4を通じて循環シフト36’に結合され、データはデー
タ・アレイ内でシフト、即ち「回転」させられる。シフ
トされたデータはリンク37’を通じて結合され、次に
高速フーリエ変換(FFT)(ブロック36”)が行わ
れる。変換されたデータはリンク37”を通じて結合さ
れ、次に周波数領域でエンコードされる(ブロック3
8)。受信機9において(後に図2に関連して論ず
る)、補間を用いて、送信機10で省略された情報を再
発生する。送信機では、1組のLPC係数と1つの励起
エポックがエンコードされるのみであるので、残りの励
起波形およびエポック同期係数は、受信機において、選
択された「目標」から得なければ成らない。伝送された
目標間で線形補間を用いて失った情報を再発生すると良
い結果が得られるが、他の非線形な方法(schemata)も用
いることができる。
【0025】1つの励起エポックのみについて、データ
のフレーム毎に周波数領域で特徴が決定され(そして結
果がエンコードされる)、励起エポックの際立った特徴
(feature)を適切に表現するために必要とされるのは、
少数の特徴決定サンプルのみである。例えば、4段階の
振幅(magnitude)レベルと16段階の位相レベルを用い
るのが便利である。これらのレベルは、例えば、16の
真値位相(real-valuedphase)および4つの真値振幅に連
続的に変化させることができるので便利である。
のフレーム毎に周波数領域で特徴が決定され(そして結
果がエンコードされる)、励起エポックの際立った特徴
(feature)を適切に表現するために必要とされるのは、
少数の特徴決定サンプルのみである。例えば、4段階の
振幅(magnitude)レベルと16段階の位相レベルを用い
るのが便利である。これらのレベルは、例えば、16の
真値位相(real-valuedphase)および4つの真値振幅に連
続的に変化させることができるので便利である。
【0026】周波数領域エンコード・プロセス(ブロッ
ク36’,36”,38)は、高速フーリエ変換(FF
T)を含む。1つのエポックを表すデータのM個のサン
プル、典型的に30ないし80個のサンプルを巡回的に
シフトし(ブロック36’)、位相の傾斜(slope)を減
少させるのが望ましい。これらM個のサンプルにインデ
ックスを付け、N番目のサンプルとして示されるエポッ
クのピークを示すサンプルがFFT入力マトリクスの最
初の位置に置かれ、このN番目のサンプルに先立つサン
プルが,FFT入力マトリクスの最後のN−1個の位置
(即ち、位置2n−Nから2nまで、ここで2nはフレ
ーム・サイズである)に置かれ、N+1番目からM番目
のサンプルが、N番目のサンプルに続くようにするのが
望ましい。これら2つの巡回シフトを合計することによ
り、周波数領域の位相傾斜を効果的に減少させ、符号化
の正確さを向上させると共に、受信機9(図2)におけ
る補間プロセスも改善することになる。入力データによ
って占有されていないFFT入力マトリクスの2n−M
個の要素にゼロを配することによって、データを「ゼロ
で満たし」、その結果を高速フーリエ変換する。ここで
2nはFFT入力マトリクスのサイズを表す。
ク36’,36”,38)は、高速フーリエ変換(FF
T)を含む。1つのエポックを表すデータのM個のサン
プル、典型的に30ないし80個のサンプルを巡回的に
シフトし(ブロック36’)、位相の傾斜(slope)を減
少させるのが望ましい。これらM個のサンプルにインデ
ックスを付け、N番目のサンプルとして示されるエポッ
クのピークを示すサンプルがFFT入力マトリクスの最
初の位置に置かれ、このN番目のサンプルに先立つサン
プルが,FFT入力マトリクスの最後のN−1個の位置
(即ち、位置2n−Nから2nまで、ここで2nはフレ
ーム・サイズである)に置かれ、N+1番目からM番目
のサンプルが、N番目のサンプルに続くようにするのが
望ましい。これら2つの巡回シフトを合計することによ
り、周波数領域の位相傾斜を効果的に減少させ、符号化
の正確さを向上させると共に、受信機9(図2)におけ
る補間プロセスも改善することになる。入力データによ
って占有されていないFFT入力マトリクスの2n−M
個の要素にゼロを配することによって、データを「ゼロ
で満たし」、その結果を高速フーリエ変換する。ここで
2nはFFT入力マトリクスのサイズを表す。
【0027】周波数領域における振幅および位相データ
は、比較的少ないサンプルで特徴を決定するのが望まし
い。例えば、周波数スペクトルを4つの1キロヘルツ帯
域に分割し、代表的な信号レベルをこれら4つの帯域の
各々について決めておけばよい。位相データは16個の
値で特徴を決定するのが便利であり、再構成された音声
の音質が高められるのは、より低い周波数、例えば、ス
ペクトルの下から500ヘルツ、を有する特徴決定位相
に、より大きな強調が配される時である。忠実度が高い
音声の再生が可能と考えられている、FFT36”から
の256個のデータ点を表すために選択された位置の例
を、以下の表1に示す。表1に掲げられている値は例で
あり、他の値を代わりに用いてもよいことは、本発明が
属する技術分野に精通するものであれば、認めるであろ
う。
は、比較的少ないサンプルで特徴を決定するのが望まし
い。例えば、周波数スペクトルを4つの1キロヘルツ帯
域に分割し、代表的な信号レベルをこれら4つの帯域の
各々について決めておけばよい。位相データは16個の
値で特徴を決定するのが便利であり、再構成された音声
の音質が高められるのは、より低い周波数、例えば、ス
ペクトルの下から500ヘルツ、を有する特徴決定位相
に、より大きな強調が配される時である。忠実度が高い
音声の再生が可能と考えられている、FFT36”から
の256個のデータ点を表すために選択された位置の例
を、以下の表1に示す。表1に掲げられている値は例で
あり、他の値を代わりに用いてもよいことは、本発明が
属する技術分野に精通するものであれば、認めるであろ
う。
【0028】表1:(ブロック38によって)選択され
た(FFT、ブロック36”からの)位相データの25
6サンプルから選択されたサンプルのリスト 0, 1, 2, 3 ,4, 8, 12, 16, 20, 24, 28, 32, 48, 64,
96, 128
た(FFT、ブロック36”からの)位相データの25
6サンプルから選択されたサンプルのリスト 0, 1, 2, 3 ,4, 8, 12, 16, 20, 24, 28, 32, 48, 64,
96, 128
【0029】表1に示すリストでは、初期(低周波数)
データ(要素0−4)に最も重い強調を行い、中間デー
タ(要素5−23)はそれより軽く強調を行い、更に周
波数が高くなるにつれて強調が徐々に軽くなっている。
このように選択した1組のデータを用いると、励起の特
徴の内話し手に左右される特徴が強く保持されるので、
再構成される音声は高音特性(tenor charactor)と、元
の入力音声のデータ搬送ニュアンス(data-conveying nu
ances)をより正確に表すことになる。
データ(要素0−4)に最も重い強調を行い、中間デー
タ(要素5−23)はそれより軽く強調を行い、更に周
波数が高くなるにつれて強調が徐々に軽くなっている。
このように選択した1組のデータを用いると、励起の特
徴の内話し手に左右される特徴が強く保持されるので、
再構成される音声は高音特性(tenor charactor)と、元
の入力音声のデータ搬送ニュアンス(data-conveying nu
ances)をより正確に表すことになる。
【0030】ここでは、有用な結果をもたらす個別レベ
ルの数の一例として、4つの振幅スペクトル帯域と16
の位相レベルについて述べたが、他の数の特徴決定デー
タを用い、それに伴って、結果を記述するのに必要なデ
ータ量(volume of data)の増減や、音声信号再構成の忠
実度の変更も可能であることは、認められよう。
ルの数の一例として、4つの振幅スペクトル帯域と16
の位相レベルについて述べたが、他の数の特徴決定デー
タを用い、それに伴って、結果を記述するのに必要なデ
ータ量(volume of data)の増減や、音声信号再構成の忠
実度の変更も可能であることは、認められよう。
【0031】数個の特徴決定サンプルに圧縮された励起
エポック1つのみを各フレームに用いるので、結果的に
得られるデジタル的にエンコードされた音声を伝送する
のに必要なデータ・レート(帯域)を低下させることが
できる。伝送帯域についての要求を低くしても、高音質
の音声が受信機において生成される。無声音声を表すデ
ータに用いられる特徴決定プロセス(ブロック24)を
用いた場合のように、有声音声用の周波数領域エンコー
ド手順は、本発明においてなされるような注意深い励起
特徴のモデル化が不可能な単純で洗練されていない技術
に比較して、忠実度に関して著しい利点が得られる。
エポック1つのみを各フレームに用いるので、結果的に
得られるデジタル的にエンコードされた音声を伝送する
のに必要なデータ・レート(帯域)を低下させることが
できる。伝送帯域についての要求を低くしても、高音質
の音声が受信機において生成される。無声音声を表すデ
ータに用いられる特徴決定プロセス(ブロック24)を
用いた場合のように、有声音声用の周波数領域エンコー
ド手順は、本発明においてなされるような注意深い励起
特徴のモデル化が不可能な単純で洗練されていない技術
に比較して、忠実度に関して著しい利点が得られる。
【0032】結果的に得られた(即ち、ブロック38か
らの)特徴決定データは、リンク39を通じてベクトル
量子化コードブック41に渡される。無声(リンク2
5)および有声(リンク39)音声を表すベクトル量子
化データは、ベクトル量子化コードブック41を用いて
符号化され、符号化されたデジタル出力信号は、伝送媒
体、暗号化装置等に、リンク42を通じて結合される。
らの)特徴決定データは、リンク39を通じてベクトル
量子化コードブック41に渡される。無声(リンク2
5)および有声(リンク39)音声を表すベクトル量子
化データは、ベクトル量子化コードブック41を用いて
符号化され、符号化されたデジタル出力信号は、伝送媒
体、暗号化装置等に、リンク42を通じて結合される。
【0033】図2は、図1の送信機のような装置によっ
て供給されるデジタル・データのために受信機9に設け
られた合成器45を、フロー・チャート状に示した簡略
ブロック図である。受信機9はデジタル入力44を有
し、音声信号を表すデジタル・データを外部装置(図示
せず)からベクトル量子化コードブック41に結合する
と共に、暗号化された受信データの解読、受信RFまた
は光データの復調、公衆電話交換システムとのインター
フェース等を行う。ベクトル量子化コードブック41か
らの量子化データは、リンク44’を通じて判断ブロッ
ク46に結合され、ベクトル量子化入力データが有声フ
レームを表すのか、無声フレームを表すのかを判定す
る。
て供給されるデジタル・データのために受信機9に設け
られた合成器45を、フロー・チャート状に示した簡略
ブロック図である。受信機9はデジタル入力44を有
し、音声信号を表すデジタル・データを外部装置(図示
せず)からベクトル量子化コードブック41に結合する
と共に、暗号化された受信データの解読、受信RFまた
は光データの復調、公衆電話交換システムとのインター
フェース等を行う。ベクトル量子化コードブック41か
らの量子化データは、リンク44’を通じて判断ブロッ
ク46に結合され、ベクトル量子化入力データが有声フ
レームを表すのか、無声フレームを表すのかを判定す
る。
【0034】ベクトル量子化データ(リンク44’)が
無声フレームを表す時、これらのデータはリンク47を
通じて時間領域信号処理ブロック48に結合される。時
間領域信号処理ブロック48は、リンク47に結合され
たブロック51を含んでいるのが望ましい。ブロック5
1は、連続RMSレベル間で線形補間を行い、無声励起
包絡線を再発生するものである。この結果が振幅変調ノ
イズ発生器53に用いられる。振幅変調ノイズ発生器5
3は、リンク52を通じて、ガウス乱数発生器として実
現され、無声励起信号を再構成することが望ましい。こ
の無声励起関数を、リンク54を通じて格子合成フィル
タ62に結合する。62のような格子合成フィルタは当
技術では一般的であり、例えば、Digital Processing o
f SpeechSignals, by L. R. Rabiner and R. W. Schafe
r (Prentice Hall, Englewood Cliffs, NJ, 1978)に記
載されている。
無声フレームを表す時、これらのデータはリンク47を
通じて時間領域信号処理ブロック48に結合される。時
間領域信号処理ブロック48は、リンク47に結合され
たブロック51を含んでいるのが望ましい。ブロック5
1は、連続RMSレベル間で線形補間を行い、無声励起
包絡線を再発生するものである。この結果が振幅変調ノ
イズ発生器53に用いられる。振幅変調ノイズ発生器5
3は、リンク52を通じて、ガウス乱数発生器として実
現され、無声励起信号を再構成することが望ましい。こ
の無声励起関数を、リンク54を通じて格子合成フィル
タ62に結合する。62のような格子合成フィルタは当
技術では一般的であり、例えば、Digital Processing o
f SpeechSignals, by L. R. Rabiner and R. W. Schafe
r (Prentice Hall, Englewood Cliffs, NJ, 1978)に記
載されている。
【0035】ベクトル量子化データ(リンク44’)が
有声入力音声を表す時、これらのデータをリンク56を
通じて振幅および位相補間器57に結合し、失われた周
波数領域の振幅および位相データを補間する(これらの
データは伝送帯域要求を下げるために伝送されたのでは
ない)。これらのデータは逆フーリエ変換(ブロック5
9)され、結果として得られたデータはリンク66を通
じて、後のLPC係数補間(ブロック66’)のために
結合される。LPC係数補間(ブロック66’)はリン
ク66”を通じて、エポック補間67に結合され、ここ
で、目標励起(iFFT59から)およびこれと同様の
以前に得られた励起目標(例えば、以前のフレーム)と
の間でデータを補間し、エンコード・プロセス(即ち、
図1の送信機10の音声デジタイザ15における)中に
用いられる励起波形を近似した励起関数(リンク68に
対応する)を再構成する。
有声入力音声を表す時、これらのデータをリンク56を
通じて振幅および位相補間器57に結合し、失われた周
波数領域の振幅および位相データを補間する(これらの
データは伝送帯域要求を下げるために伝送されたのでは
ない)。これらのデータは逆フーリエ変換(ブロック5
9)され、結果として得られたデータはリンク66を通
じて、後のLPC係数補間(ブロック66’)のために
結合される。LPC係数補間(ブロック66’)はリン
ク66”を通じて、エポック補間67に結合され、ここ
で、目標励起(iFFT59から)およびこれと同様の
以前に得られた励起目標(例えば、以前のフレーム)と
の間でデータを補間し、エンコード・プロセス(即ち、
図1の送信機10の音声デジタイザ15における)中に
用いられる励起波形を近似した励起関数(リンク68に
対応する)を再構成する。
【0036】リンク68を通じて結合されたデータに現
れる逆FFTプロセスの人工的音質(artifact)の低減
は、ウインドウ処理(ブロック69)を行い、FFT出
力マトリクス(ブロック59)の開始および終端で生じ
るエッジ効果または「スパイク」、即ちFFTフレーム
境界部における不連続を抑制することによって達成され
る。ウインドウ処理(ブロック69)は台形状ウインド
ウ関数(window function)を用いて行うのが便利である
が、当技術で公知の他のウインドウ関数を用いて行って
もよい。1つのフレーム内では励起包絡線およびピッチ
の変化が比較的緩やかであるために、これらの補間され
連結された励起エポックは、元の励起の特徴によく似る
ので、元の入力音声の再現を高い忠実度で行うことがで
きる。再構成された有声音声を表すウインドウ処理の結
果を、リンク16を通じて格子合成(lattice synthesi
s)フィルタ62に結合する。
れる逆FFTプロセスの人工的音質(artifact)の低減
は、ウインドウ処理(ブロック69)を行い、FFT出
力マトリクス(ブロック59)の開始および終端で生じ
るエッジ効果または「スパイク」、即ちFFTフレーム
境界部における不連続を抑制することによって達成され
る。ウインドウ処理(ブロック69)は台形状ウインド
ウ関数(window function)を用いて行うのが便利である
が、当技術で公知の他のウインドウ関数を用いて行って
もよい。1つのフレーム内では励起包絡線およびピッチ
の変化が比較的緩やかであるために、これらの補間され
連結された励起エポックは、元の励起の特徴によく似る
ので、元の入力音声の再現を高い忠実度で行うことがで
きる。再構成された有声音声を表すウインドウ処理の結
果を、リンク16を通じて格子合成(lattice synthesi
s)フィルタ62に結合する。
【0037】有声および無声フレームの双方に対して、
格子合成フィルタ62は、外部装置(例えば、スピー
カ、イヤホン等、図2には示されていない)に結合され
る高音質の出力音声を合成する。この出力音声は、入力
された音声信号に酷似しており、話し手によって変わる
元の入力音声信号の固有の属性を保持すると同時に、必
要な帯域も狭くて済む(例えば2400ビット/秒即ち
ボー)。
格子合成フィルタ62は、外部装置(例えば、スピー
カ、イヤホン等、図2には示されていない)に結合され
る高音質の出力音声を合成する。この出力音声は、入力
された音声信号に酷似しており、話し手によって変わる
元の入力音声信号の固有の属性を保持すると同時に、必
要な帯域も狭くて済む(例えば2400ビット/秒即ち
ボー)。
【0038】図3は、本発明による音声デジタイザ15
(図1)と音声合成器45(図2)とを用いた、音声通
信装置77の、非常に簡略化したブロック図である。音
声デジタイザ15および音声合成器45は、Motorola,
Inc. of Phoenix, AZから入手可能なType DSP56001、Ty
pe DSP56002またはType DSP96002集積回路のようなデジ
タル信号プロセッサにおいて、アセンブリ言語プログラ
ム等を用いて実施することができる。当技術では公知の
ように、デジタル信号処理集積回路に付随するメモリ回
路等も必要とされることもある。
(図1)と音声合成器45(図2)とを用いた、音声通
信装置77の、非常に簡略化したブロック図である。音
声デジタイザ15および音声合成器45は、Motorola,
Inc. of Phoenix, AZから入手可能なType DSP56001、Ty
pe DSP56002またはType DSP96002集積回路のようなデジ
タル信号プロセッサにおいて、アセンブリ言語プログラ
ム等を用いて実施することができる。当技術では公知の
ように、デジタル信号処理集積回路に付随するメモリ回
路等も必要とされることもある。
【0039】音声通信装置77は、音声入力11に結合
されている音声入力装置78を含む。音声入力装置78
は、例えばマイクロホン、ハンドセット・マイクロホン
とすることができ、或いは電話機または無線装置、また
はメモリ装置(図示せず)、またはその他の音声データ
源に結合してもよい。音声入力11からの入力音声は、
図1および関連する説明に記載したように、音声デジタ
イザ15によってデジタル化される。デジタル化された
音声は、出力42を通じて音声デジタイザ15から出力
される。
されている音声入力装置78を含む。音声入力装置78
は、例えばマイクロホン、ハンドセット・マイクロホン
とすることができ、或いは電話機または無線装置、また
はメモリ装置(図示せず)、またはその他の音声データ
源に結合してもよい。音声入力11からの入力音声は、
図1および関連する説明に記載したように、音声デジタ
イザ15によってデジタル化される。デジタル化された
音声は、出力42を通じて音声デジタイザ15から出力
される。
【0040】当技術では公知なように、音声通信装置7
7は、通信プロセッサ79を出力42に結合し、リンク
81を通じて出力信号を発生してもよく、通信プロセッ
サ79は、発呼(dialing)、スピーカホーン多重化、変
調、信号の電話(telephony)または無線ネットワークへ
の結合、ファクシミリ伝送、デジタル信号の暗号化(例
えば、出力42からのデジタル音声)、データ圧縮、請
求書交付機能等のような付加機能を実行するために設け
られるものである。
7は、通信プロセッサ79を出力42に結合し、リンク
81を通じて出力信号を発生してもよく、通信プロセッ
サ79は、発呼(dialing)、スピーカホーン多重化、変
調、信号の電話(telephony)または無線ネットワークへ
の結合、ファクシミリ伝送、デジタル信号の暗号化(例
えば、出力42からのデジタル音声)、データ圧縮、請
求書交付機能等のような付加機能を実行するために設け
られるものである。
【0041】同様に、通信プロセッサ83は、リンク8
2を通じて入来する信号を受信し、当技術では公知なよ
うに、適切な結合、スピーカホーンの多重化、復調、暗
号解読、ファクシミリ受信、データ圧縮解除、請求書交
付機能等を行う。
2を通じて入来する信号を受信し、当技術では公知なよ
うに、適切な結合、スピーカホーンの多重化、復調、暗
号解読、ファクシミリ受信、データ圧縮解除、請求書交
付機能等を行う。
【0042】音声を表すデジタル信号は、リンク44を
通じて、通信プロセッサ83から音声合成器45に結合
される。音声合成器45は音声信号に対応する電気信号
を、リンク61を通じて出力装置84に供給する。出力
装置84は、スピーカ、ハンドセット受信要素、または
このような信号を受容可能な他のいずれかの装置とする
ことができる。
通じて、通信プロセッサ83から音声合成器45に結合
される。音声合成器45は音声信号に対応する電気信号
を、リンク61を通じて出力装置84に供給する。出力
装置84は、スピーカ、ハンドセット受信要素、または
このような信号を受容可能な他のいずれかの装置とする
ことができる。
【0043】通信プロセッサ79,83は物理的に異な
るプロセッサである必要はないが、これら通信プロセッ
サ79,83によって実現される機能は、例えば、音声
デジタイザ15および/または音声合成器45を構成す
る同一装置によって実行可能であることは認められよ
う。
るプロセッサである必要はないが、これら通信プロセッ
サ79,83によって実現される機能は、例えば、音声
デジタイザ15および/または音声合成器45を構成す
る同一装置によって実行可能であることは認められよ
う。
【0044】本発明の一実施例では、リンク81,82
は共通双方向データ・リンクとしてもよいことは認めら
れよう。本発明の一実施例では、通信プロセッサ79,
83は1つの共通なプロセッサでもよく、および/また
は音声またはその他の信号を表わすデジタル・データを
記憶するための、或いは後に処理するための装置、例え
ば、テレビジョン、カムコーダ(camcorder)等へのリン
クを備えていてもよい。 音声通信装置77は、したが
って、音声信号のデジタル・エンコード、伝送およびデ
コードを行ない、忠実度の高い音声信号再生と共に、所
与の忠実度レベルに対する帯域要求の減少を可能にす
る、新規の装置および方法をもたらすものである。本発
明で用いる固有の周波数領域における励起特徴決定(有
声音声入力に対する)および再構成技術は、大幅な帯域
の節約を可能とすると共に、これまでかなり高いデータ
・レートを有するデジタル・システムでなければ達成で
きなかった音質のデジタル音声を得ることができる。
は共通双方向データ・リンクとしてもよいことは認めら
れよう。本発明の一実施例では、通信プロセッサ79,
83は1つの共通なプロセッサでもよく、および/また
は音声またはその他の信号を表わすデジタル・データを
記憶するための、或いは後に処理するための装置、例え
ば、テレビジョン、カムコーダ(camcorder)等へのリン
クを備えていてもよい。 音声通信装置77は、したが
って、音声信号のデジタル・エンコード、伝送およびデ
コードを行ない、忠実度の高い音声信号再生と共に、所
与の忠実度レベルに対する帯域要求の減少を可能にす
る、新規の装置および方法をもたらすものである。本発
明で用いる固有の周波数領域における励起特徴決定(有
声音声入力に対する)および再構成技術は、大幅な帯域
の節約を可能とすると共に、これまでかなり高いデータ
・レートを有するデジタル・システムでなければ達成で
きなかった音質のデジタル音声を得ることができる。
【0045】例えば、エポックの選択、選択されたエポ
ックの高速フーリエ変換、および選択されたエポックを
表わすデータの間引きによる必要なデータ量の低減によ
って、エンコード・プロセスにおいて多大な恩恵および
利点を得ることができ、一方受信機におけるフレームか
らフレームへの補間によって、エンコードされた信号か
ら入力音声信号を忠実度高く再構成することが可能とな
る。更に、1組の音声サンプルを一連の隣接するウイン
ドウに分割することによって、無声音声の特徴を決定す
ること、および隣接するウインドウ各々についてRMS
信号レベルを測定することも、信号処理の複雑度をかな
り減少するものである。
ックの高速フーリエ変換、および選択されたエポックを
表わすデータの間引きによる必要なデータ量の低減によ
って、エンコード・プロセスにおいて多大な恩恵および
利点を得ることができ、一方受信機におけるフレームか
らフレームへの補間によって、エンコードされた信号か
ら入力音声信号を忠実度高く再構成することが可能とな
る。更に、1組の音声サンプルを一連の隣接するウイン
ドウに分割することによって、無声音声の特徴を決定す
ること、および隣接するウインドウ各々についてRMS
信号レベルを測定することも、信号処理の複雑度をかな
り減少するものである。
【0046】ここに記載されたは、音声信号のピッチ・
エポック同期エンコードを行なうための方法であり、こ
の方法は、入力音声信号を供給するステップ、前記入力
音声信号を処理して、線形予測コーディング係数および
有声/無声を含む音質の特徴を決定するステップ、入力
音声信号が有声音声から成る時は周波数領域技術を用い
て入力音声信号の特徴を決定して、励起関数を発生する
ステップ、前記入力音声信号が無声音声から成る時は時
間領域技術を用いて前記入力音声信号の特徴を決定し
て、励起関数を発生するステップ、および前記励起関数
をエンコードして前記入力音声信号を表わすデジタル出
力信号を供給するステップから成る。
エポック同期エンコードを行なうための方法であり、こ
の方法は、入力音声信号を供給するステップ、前記入力
音声信号を処理して、線形予測コーディング係数および
有声/無声を含む音質の特徴を決定するステップ、入力
音声信号が有声音声から成る時は周波数領域技術を用い
て入力音声信号の特徴を決定して、励起関数を発生する
ステップ、前記入力音声信号が無声音声から成る時は時
間領域技術を用いて前記入力音声信号の特徴を決定し
て、励起関数を発生するステップ、および前記励起関数
をエンコードして前記入力音声信号を表わすデジタル出
力信号を供給するステップから成る。
【0047】時間領域技術を用いての入力音声信号の特
徴決定は、無声音声フレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々に対して二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を供給するステップから
なる。
徴決定は、無声音声フレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々に対して二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を供給するステップから
なる。
【0048】周波数領域技術を用いての入力音声信号の
特徴決定は、音声信号フレーム内のエポック励起位置を
決定するステップ、端数ピッチを判定するステップ、エ
ポック同期LPC分析を行なうことによって1群の同期
線形予測符号化(LPC)係数を決定するステップ、お
よび特定の音声データのエポック内から補間励起目標を
選択し、目標励起関数を発生するステップから成り、前
記目標励起関数は、エポック毎(per-epoch)の音声パラ
メータを含み、前記エンコード・ステップは端数ピッチ
および同期LPC係数のエンコードを含む。
特徴決定は、音声信号フレーム内のエポック励起位置を
決定するステップ、端数ピッチを判定するステップ、エ
ポック同期LPC分析を行なうことによって1群の同期
線形予測符号化(LPC)係数を決定するステップ、お
よび特定の音声データのエポック内から補間励起目標を
選択し、目標励起関数を発生するステップから成り、前
記目標励起関数は、エポック毎(per-epoch)の音声パラ
メータを含み、前記エンコード・ステップは端数ピッチ
および同期LPC係数のエンコードを含む。
【0049】更に、周波数領域技術を用いての入力音声
信号の特徴決定は、現在選択されている補間励起目標を
以前に選択された補間励起目標と相関付けるステップ、
前記相関付けられた補間励起目標のインデックスを調節
するステップ、および前記インデックスを調節され相関
付けられた補間励起目標に高速フーリエ変換を行なうス
テップを含む。
信号の特徴決定は、現在選択されている補間励起目標を
以前に選択された補間励起目標と相関付けるステップ、
前記相関付けられた補間励起目標のインデックスを調節
するステップ、および前記インデックスを調節され相関
付けられた補間励起目標に高速フーリエ変換を行なうス
テップを含む。
【0050】また、エンコードされた音声信号を表わす
デジタル信号をデコードする方法が開示され、この方法
は、入力デジタル信号を供給するステップ、該入力デジ
タル信号の有声/無声を判定するステップ、前記入力デ
ジタル信号が有声音声を表わす時に周波数領域技術を用
いて音声信号を合成するステップ、および前記入力デジ
タル信号が無声音声を表わす時に時間領域技術を用いて
音声信号を合成するステップから成る。
デジタル信号をデコードする方法が開示され、この方法
は、入力デジタル信号を供給するステップ、該入力デジ
タル信号の有声/無声を判定するステップ、前記入力デ
ジタル信号が有声音声を表わす時に周波数領域技術を用
いて音声信号を合成するステップ、および前記入力デジ
タル信号が無声音声を表わす時に時間領域技術を用いて
音声信号を合成するステップから成る。
【0051】前記入力デジタル信号が無声音声を表わす
時に、時間領域技術を用いて音声信号を合成するステッ
プは、更に、一連の隣接する二乗平均(RMS)振幅を
デコードするステップ、隣接するRMS振幅間で補間を
行ない励起包絡線を再発生するステップ、前記励起包絡
線を用いてノイズ発生器を変調し、無声音声励起を与え
るステップ、および前記無声励起から無声音声を合成す
るステップを含む。
時に、時間領域技術を用いて音声信号を合成するステッ
プは、更に、一連の隣接する二乗平均(RMS)振幅を
デコードするステップ、隣接するRMS振幅間で補間を
行ない励起包絡線を再発生するステップ、前記励起包絡
線を用いてノイズ発生器を変調し、無声音声励起を与え
るステップ、および前記無声励起から無声音声を合成す
るステップを含む。
【0052】前記入力デジタル信号が有声音声を表わす
時に、周波数領域技術を用いて音声信号を合成するステ
ップは、更に、伝送された位相間で位相を補間し、位相
を記述するアレイを補間された位相データで満たすステ
ップ、補間された位相データの高速逆フーリエ変換を行
ない、再構成目標エポックを得るステップ、線形予測符
号化(LPC)係数の補間を行ない、送信機において省
かれたLPC係数をシミュレートし、再構成されたLP
C係数を得るステップ、再構成された目標エポック間で
補間を行ない、再構成された有声励起関数を得るステッ
プ、および格子合成フィルタを用いて再構成された有声
励起関数および再構成されたLPC係数から音声信号を
合成し、再構成された音声信号を得るステップから成
る。
時に、周波数領域技術を用いて音声信号を合成するステ
ップは、更に、伝送された位相間で位相を補間し、位相
を記述するアレイを補間された位相データで満たすステ
ップ、補間された位相データの高速逆フーリエ変換を行
ない、再構成目標エポックを得るステップ、線形予測符
号化(LPC)係数の補間を行ない、送信機において省
かれたLPC係数をシミュレートし、再構成されたLP
C係数を得るステップ、再構成された目標エポック間で
補間を行ない、再構成された有声励起関数を得るステッ
プ、および格子合成フィルタを用いて再構成された有声
励起関数および再構成されたLPC係数から音声信号を
合成し、再構成された音声信号を得るステップから成
る。
【0053】再構成有声励起関数からの音声信号の合成
は、再構成された有声励起関数にウインドウ処理を行な
うステップを含む。
は、再構成された有声励起関数にウインドウ処理を行な
うステップを含む。
【0054】また、エンコードされた音声信号を表わす
デジタル信号のピッチ・エポック同期デコードを行なう
装置が開示され、この装置は、デジタル信号を受信する
入力、前記入力に結合され入力デジタル信号の有声/無
声を判定する手段、前記入力デジタル信号が有声音声を
表わす時、周波数領域技術を用いて音声信号を合成する
第1手段、および前記入力デジタル信号が無声音声を表
わす時、時間領域技術を用いて音声信号を合成する第2
手段から成り、前記第1および第2手段は、各々前記有
声/無声判定手段に結合された音声信号を合成するもの
である。
デジタル信号のピッチ・エポック同期デコードを行なう
装置が開示され、この装置は、デジタル信号を受信する
入力、前記入力に結合され入力デジタル信号の有声/無
声を判定する手段、前記入力デジタル信号が有声音声を
表わす時、周波数領域技術を用いて音声信号を合成する
第1手段、および前記入力デジタル信号が無声音声を表
わす時、時間領域技術を用いて音声信号を合成する第2
手段から成り、前記第1および第2手段は、各々前記有
声/無声判定手段に結合された音声信号を合成するもの
である。
【0055】前記音声信号を合成する第2手段は、前記
有声/無声を判定する手段に結合され、一連の隣接する
代表的振幅(representative amplitude)をデコードする
手段、および前記デコード手段に結合されたノイズ発生
器を含む。前記ノイズ発生器は、前記一連の隣接する代
表的振幅から得られた包絡線で変調されたレベルのノイ
ズを発生し、再構成された有声励起関数から合成無声音
声を発生する。
有声/無声を判定する手段に結合され、一連の隣接する
代表的振幅(representative amplitude)をデコードする
手段、および前記デコード手段に結合されたノイズ発生
器を含む。前記ノイズ発生器は、前記一連の隣接する代
表的振幅から得られた包絡線で変調されたレベルのノイ
ズを発生し、再構成された有声励起関数から合成無声音
声を発生する。
【0056】一連の隣接する代表的振幅をデコードする
前記手段は、一連の隣接する二乗平均(RMS)振幅を
デコードする手段である。
前記手段は、一連の隣接する二乗平均(RMS)振幅を
デコードする手段である。
【0057】前記ノイズ発生器は、ガウス・ノイズ発生
器である。
器である。
【0058】音声信号を合成する前記第1手段は、前記
有声/無声判定手段に結合され、伝送された位相間で位
相を補間することによって、位相を記述するアレイを補
間された位相データで満たす手段、前記補間された位相
データに高速逆フーリエ変換(iFFT)を行なうこと
によって、再構成された目標エポックを得る手段であっ
て、前記iFFT手段は前記補間手段に結合する手段、
前記iFFT手段に結合され、線形予測符号化(LP
C)係数の補間によって1組の再構成されたLPC係数
を発生し、省かれたLPC係数をシミュレートするLP
C係数補間手段、前記LPC係数補間手段に結合され、
前記再構成された目標エポック間で補間を行ない、再構
成された有声励起関数を得るエポック補間手段、および
前記エポック補間手段に結合され、前記再構成された有
声励起関数と前記1組の再構成されたLPC係数から音
声信号を合成し、再構成音声信号を得る格子合成フィル
タ手段を含む。
有声/無声判定手段に結合され、伝送された位相間で位
相を補間することによって、位相を記述するアレイを補
間された位相データで満たす手段、前記補間された位相
データに高速逆フーリエ変換(iFFT)を行なうこと
によって、再構成された目標エポックを得る手段であっ
て、前記iFFT手段は前記補間手段に結合する手段、
前記iFFT手段に結合され、線形予測符号化(LP
C)係数の補間によって1組の再構成されたLPC係数
を発生し、省かれたLPC係数をシミュレートするLP
C係数補間手段、前記LPC係数補間手段に結合され、
前記再構成された目標エポック間で補間を行ない、再構
成された有声励起関数を得るエポック補間手段、および
前記エポック補間手段に結合され、前記再構成された有
声励起関数と前記1組の再構成されたLPC係数から音
声信号を合成し、再構成音声信号を得る格子合成フィル
タ手段を含む。
【0059】音声信号を合成する前記第1手段は、前記
エポック補間手段に結合され、前記再構成された有声励
起関数にウインドウ処理を行なうことによって前記高速
逆フーリエ変換手段からの人工的音質を除去し、前記格
子合成フィルタ手段に結合された出力を有するウインド
ウ処理手段を含む。
エポック補間手段に結合され、前記再構成された有声励
起関数にウインドウ処理を行なうことによって前記高速
逆フーリエ変換手段からの人工的音質を除去し、前記格
子合成フィルタ手段に結合された出力を有するウインド
ウ処理手段を含む。
【0060】また、音声信号のピッチ・エポック同期エ
ンコードを行なう装置が開示され、この装置は、入力音
声信号を受信する入力、前記入力に結合され、前記入力
音声信号の有声/無声を判定する手段、前記有声/無声
判定手段に結合され、前記入力音声信号が有声音声から
成る時に動作し、周波数領域技術を用いて前記入力音声
信号の特徴を決定し、特徴が決定された音声を出力信号
として発生する第1手段、前記有声/無声判定手段に結
合され、前記入力音声信号が無声音声から成る時に動作
し、時間領域技術を用いて前記入力音声信号の特徴を決
定し、特徴が決定された音声を出力信号として供給する
第2手段、および前記第1および第2特徴決定手段に結
合され、前記特徴が決定された音声をエンコードし、入
力音声信号を表わすデジタル出力信号を発生する手段か
ら成る。
ンコードを行なう装置が開示され、この装置は、入力音
声信号を受信する入力、前記入力に結合され、前記入力
音声信号の有声/無声を判定する手段、前記有声/無声
判定手段に結合され、前記入力音声信号が有声音声から
成る時に動作し、周波数領域技術を用いて前記入力音声
信号の特徴を決定し、特徴が決定された音声を出力信号
として発生する第1手段、前記有声/無声判定手段に結
合され、前記入力音声信号が無声音声から成る時に動作
し、時間領域技術を用いて前記入力音声信号の特徴を決
定し、特徴が決定された音声を出力信号として供給する
第2手段、および前記第1および第2特徴決定手段に結
合され、前記特徴が決定された音声をエンコードし、入
力音声信号を表わすデジタル出力信号を発生する手段か
ら成る。
【0061】前記第2特徴決定手段は、前記有声/無声
判定手段に結合され、1フレーム長からなる一連の隣接
するタイム・スロットにおいて、代表的信号レベルを計
算する手段、および前記代表的信号レベルを計算する手
段に結合され、前記入力音声信号に対応するベクトル量
子化デジタル信号を発生するベクトル量子化コードブッ
クを含む。
判定手段に結合され、1フレーム長からなる一連の隣接
するタイム・スロットにおいて、代表的信号レベルを計
算する手段、および前記代表的信号レベルを計算する手
段に結合され、前記入力音声信号に対応するベクトル量
子化デジタル信号を発生するベクトル量子化コードブッ
クを含む。
【0062】前記代表的信号レベルを計算する手段は、
一連の隣接タイム・スロットにおいて二乗平均信号レベ
ルを計算する手段から成る。
一連の隣接タイム・スロットにおいて二乗平均信号レベ
ルを計算する手段から成る。
【0063】前記入力音声の特徴を決定する第1手段
は、前記有声/無声判定手段に結合され、音声データ・
フレーム内のエポック励起位置を決定する手段、および
前記判定手段に結合され、特定の音声データのエポック
内から励起目標を選択し、目標励起関数を発生する補間
目標選択手段を含み、前記目標励起手段はエポック毎に
音声パラメータを含む。
は、前記有声/無声判定手段に結合され、音声データ・
フレーム内のエポック励起位置を決定する手段、および
前記判定手段に結合され、特定の音声データのエポック
内から励起目標を選択し、目標励起関数を発生する補間
目標選択手段を含み、前記目標励起手段はエポック毎に
音声パラメータを含む。
【0064】前記入力音声の特徴を決定する第1手段
は、前記目標選択手段と結合され、現在選択されている
補間励起目標を以前に選択された補間励起目標と相関付
ける手段、前記相関付け手段と結合され、相関付けられ
た補間励起目標のインデックスを調節する手段、および
前記調節手段に結合され、前記インデックスを調節され
た相関付けられた補間励起目標を変換し、変換されたデ
ータを発生する高速フーリエ変換手段を含む。
は、前記目標選択手段と結合され、現在選択されている
補間励起目標を以前に選択された補間励起目標と相関付
ける手段、前記相関付け手段と結合され、相関付けられ
た補間励起目標のインデックスを調節する手段、および
前記調節手段に結合され、前記インデックスを調節され
た相関付けられた補間励起目標を変換し、変換されたデ
ータを発生する高速フーリエ変換手段を含む。
【0065】前記入力音声の特徴を決定する第1手段
は、更に、前記エンコード手段に結合され、前記変換さ
れたデータの振幅および位相の特徴を決定し、前記変換
されたデータから散在するデータ集合を発生する手段を
含む。
は、更に、前記エンコード手段に結合され、前記変換さ
れたデータの振幅および位相の特徴を決定し、前記変換
されたデータから散在するデータ集合を発生する手段を
含む。
【0066】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が無声音声
から成る時時間領域技術を用いて前記入力音声信号の特
徴を決定して励起関数を発生するステップ、および前記
励起関数をエンコードして、前記入力音声信号を表わす
デジタル出力信号を発生するステップから成り、前記時
間領域技術を用いて入力音声信号の特徴を決定するステ
ップは、無声音声のフレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々について二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を発生するステップを含
む。
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が無声音声
から成る時時間領域技術を用いて前記入力音声信号の特
徴を決定して励起関数を発生するステップ、および前記
励起関数をエンコードして、前記入力音声信号を表わす
デジタル出力信号を発生するステップから成り、前記時
間領域技術を用いて入力音声信号の特徴を決定するステ
ップは、無声音声のフレームを一連の隣接領域に分割す
るステップ、前記隣接領域の各々について二乗平均(R
MS)振幅を判定するステップ、およびベクトル量子化
コードブックを用いて前記RMS振幅をエンコードし、
無声音声を表わすデジタル信号を発生するステップを含
む。
【0067】更に、音声信号のピッチ・エポック同期エ
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が有声音声
から成る時周波数領域技術を用いて前記入力音声信号の
特徴を決定し、励起関数を発生するステップ、および前
記励起関数をエンコードして、前記入力音声信号を表わ
すデジタル出力信号を発生するステップから成り、前記
周波数領域技術を用いて入力音声信号の特徴を決定する
ステップは、音声データ・フレーム内でエポック励起位
置を決定するステップ、エポック同期LPC分析を行な
うことによって、1群の同期線形予測符号化(LPC)
係数を決定するステップ、および特定の音声データのエ
ポック内から補間励起目標を選択し、目標励起関数を発
生するステップを含み、前記目標励起関数はエポック毎
の音声パラメータを含み、更に、前記エンコード・ステ
ップは、端数ピッチおよび同期LPC係数をエンコード
し、前記励起関数をエンコードして前記入力音声信号を
表わすデジタル出力信号を発生することを含む。
ンコードを行なう方法が開示され、この方法は、入力音
声信号を供給するステップ、前記入力音声信号を処理し
て、線形予測符号化係数および有声/無声を含む音質の
特徴を決定するステップ、前記入力音声信号が有声音声
から成る時周波数領域技術を用いて前記入力音声信号の
特徴を決定し、励起関数を発生するステップ、および前
記励起関数をエンコードして、前記入力音声信号を表わ
すデジタル出力信号を発生するステップから成り、前記
周波数領域技術を用いて入力音声信号の特徴を決定する
ステップは、音声データ・フレーム内でエポック励起位
置を決定するステップ、エポック同期LPC分析を行な
うことによって、1群の同期線形予測符号化(LPC)
係数を決定するステップ、および特定の音声データのエ
ポック内から補間励起目標を選択し、目標励起関数を発
生するステップを含み、前記目標励起関数はエポック毎
の音声パラメータを含み、更に、前記エンコード・ステ
ップは、端数ピッチおよび同期LPC係数をエンコード
し、前記励起関数をエンコードして前記入力音声信号を
表わすデジタル出力信号を発生することを含む。
【0068】このように、従来技術の方法および機構に
関連する具体的な問題を克服し、ある利点を得ることが
できる、ピッチ・エポック同期線形予測符号化ボコーダ
および方法について説明した。公知技術に対する改善は
意義深いものである。従来方法の高価、複雑、大電力消
費という欠点が回避される。同様に、達成可能なデータ
・レートを犠牲にすることなく、忠実度を向上させるこ
とができる。
関連する具体的な問題を克服し、ある利点を得ることが
できる、ピッチ・エポック同期線形予測符号化ボコーダ
および方法について説明した。公知技術に対する改善は
意義深いものである。従来方法の高価、複雑、大電力消
費という欠点が回避される。同様に、達成可能なデータ
・レートを犠牲にすることなく、忠実度を向上させるこ
とができる。
【0069】これまでの特定実施例の説明は、本発明の
全体的な特徴を完全に明らかにするので、現在の知識を
応用することにより、全体的な概念から逸脱することな
く、種々の用途のために容易に改造および/または適合
させることができよう。したがって、そのような適合お
よび改造は、開示された実施例の同等物の意味および範
囲内のものとして解釈されるべきであり、またそのよう
に意図するものである。
全体的な特徴を完全に明らかにするので、現在の知識を
応用することにより、全体的な概念から逸脱することな
く、種々の用途のために容易に改造および/または適合
させることができよう。したがって、そのような適合お
よび改造は、開示された実施例の同等物の意味および範
囲内のものとして解釈されるべきであり、またそのよう
に意図するものである。
【0070】ここで用いた文章および用語は、説明のた
めのものであり、限定のためではないことは理解されよ
う。したがって、本発明は、特許請求の範囲の真意およ
び広範な範囲に該当する全ての代替物、改造物、同等
物、および変更物を含むことを意図するものである。
めのものであり、限定のためではないことは理解されよ
う。したがって、本発明は、特許請求の範囲の真意およ
び広範な範囲に該当する全ての代替物、改造物、同等
物、および変更物を含むことを意図するものである。
【図1】本発明による送信機内の音声デジタイザをフロ
ー・チャート形式で表した簡略ブロック図。
ー・チャート形式で表した簡略ブロック図。
【図2】図1の送信機のような装置によって供給される
デジタル・データのために、受信機内に設けられた音声
合成器をフロー・チャート形式で表した簡略ブロック
図。
デジタル・データのために、受信機内に設けられた音声
合成器をフロー・チャート形式で表した簡略ブロック
図。
【図3】本発明による図1の音声デジタイザおよび図2
の音声合成器を用いた、音声通信装置のかなり簡略化し
たブロック図。
の音声合成器を用いた、音声通信装置のかなり簡略化し
たブロック図。
【符号の説明】 9 受信機 10 送信機 11 入力 12 高域通過フィルタ 14 線形予測符号化(LPC)装置 15 音声デジタイザ 17 自動相関器 19 ピッチ・ループ・フィルタ 41 ベクトル量子化コードブック 42 出力 45 合成器 53 振幅変調ノイズ発生器 57 振幅および位相補間器 62 格子合成フィルタ 77 音声通信装置 78 音声入力装置 79,83 通信プロセッサ 84 出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 チャド・スコット・バーグストロム アメリカ合衆国アリゾナ州チャンドラー、 サウス・オーク501
Claims (6)
- 【請求項1】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって:入力音声信号(11)を供給
するステップ;前記入力音声信号(11)を処理し、線
形予測符号化係数および有声/無声を含む音質の特徴を
決定するステップ(12,14,17,19,22);
前記入力音声信号(11)が有声音声から成る時、周波
数領域技術(24’)を用いて入力音声信号の特徴を決
定し、励起関数(39)を発生するステップ;前記入力
音声信号(11)が無声音声から成る時、時間領域技術
(24)を用いて前記入力音声信号の特徴を決定し、励
起関数(25)を発生するステップ;および前記励起関
数(25,39)をエンコードし(41)、前記入力音
声信号(11)を表わすデジタル出力信号(42)を発
生するステップ;から成ることを特徴とする方法。 - 【請求項2】エンコードされた音声信号を表わすデジタ
ル信号をデコードする方法であって:入力デジタル信号
(44)を供給するステップ、前記入力デジタル信号
(44)の有声/無声を判定するステップ(46)、前
記入力デジタル信号が有声音声を表わす時周波数領域技
術(48’)を用いて音声信号を合成するステップ、お
よび前記入力デジタル信号が無声音声を表わす時、時間
領域技術(48)を用いて音声信号を合成するステッ
プ、から成ることを特徴とする方法。 - 【請求項3】エンコードされた音声信号を表わすデジタ
ル信号のピッチ・エポック同期デコードを行なう装置で
あって:デジタル信号を受信する入力(44);前記入
力(44)に結合され、前記入力デジタル信号の有声/
無声を判定する手段(45);前記有声/無声を判定す
る手段(45)に結合され、前記入力デジタル信号が有
声音声を表わす時、周波数領域技術を用いて音声信号を
合成する第1手段(45);および前記有声/無声を判
定する手段(45)に結合され、前記入力デジタル信号
が無声音声を表わす時、時間領域技術を用いて音声信号
を合成する第2手段(45);から成ることを特徴とす
る装置。 - 【請求項4】音声信号のピッチ・エポック同期エンコー
ドを行なう装置であって:入力音声信号を受信する入力
(11);前記入力(11)に結合され、前記入力音声
信号の有声/無声を判定する手段(15);前記有声/
無声を判定する手段(15)に結合され、前記入力音声
信号が有声音声から成る時に動作し、周波数領域技術を
用いて前記入力音声信号の特徴を決定し、特徴が決定さ
れた音声を出力信号として発生する第1手段(15);
前記有声/無声を判定する手段(15)に結合され、前
記入力音声信号が無声音声から成る時に動作し、時間領
域技術を用いて前記入力音声信号の特徴を決定し、特徴
が決定された音声を出力信号として発生する第2手段
(15);および前記第1および第2特徴決定手段(1
5)に結合され、前記特徴が決定された音声をエンコー
ドし、前記入力音声信号を表わすデジタル出力信号を発
生する手段(15);から成ることを特徴とする装置。 - 【請求項5】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって:入力音声信号(11)を供給
するステップ;前記入力音声信号(11)を処理し、線
形予測符号化係数および有声/無声を含む音質の特徴を
決定するステップ(12,14,17,19,22);
前記入力音声信号(11)が無声音声から成る時、時間
領域技術(24)を用いて前記入力音声信号の特徴を決
定し、励起関数(25)を発生するステップ;および前
記励起関数をエンコードし(41)、前記入力音声信号
(11)を表わすデジタル出力信号(42)を発生する
ステップ;から成り、前記時間領域技術(24)を用い
て入力音声信号の特徴を決定するステップは、無声音声
のフレームを一連の隣接領域に分割するステップ(2
4);前記隣接領域の各々について二乗平均振幅(RM
S)を決定するステップ(24);およびベクトル量子
化コードブックを用いて前記RMS振幅をエンコード
し、無声音声を表わすデジタル信号を発生するステップ
(24);を含むことを特徴する方法。 - 【請求項6】音声信号のピッチ・エポック同期エンコー
ドを行なう方法であって:入力音声信号(11)を供給
するステップ;前記入力音声信号(11)を処理し、線
形予測符号化係数および有声/無声を含む音質の特徴を
決定するステップ(12,14,17,19,22);
前記入力音声信号(11)が有声音声から成る時、周波
数領域技術(24’)を用いて入力音声信号の特徴を決
定し、励起関数(39)を発生するステップ;および前
記励起関数をエンコードし(41)、前記入力音声信号
(11)を表わすデジタル出力信号(42)を発生する
ステップ;から成り、前記周波数領域技術(24’)を
用いて入力音声信号の特徴を決定するステップは:音声
データ・フレーム内でエポック励起位置を決定するステ
ップ(27);端数ピッチを判定するステップ(2
7’);エポック同期LPC分析を行なうことによっ
て、1群の同期線形予測符号化(LPC)係数を決定す
るステップ(29);および特定の音声データのエポッ
ク内から補間励起目標を選択して、目標励起関数を発生
するステップ(31)であって、前記目標励起関数はエ
ポック毎の音声パラメータを含み、前記エンコード・ス
テップは端数ピッチと同期LPC係数とをエンコードす
ることを含む、前記選択ステップ;を含むことを特徴と
する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US068325 | 1987-07-01 | ||
US08/068,325 US5504834A (en) | 1993-05-28 | 1993-05-28 | Pitch epoch synchronous linear predictive coding vocoder and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06337699A true JPH06337699A (ja) | 1994-12-06 |
Family
ID=22081837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6133864A Pending JPH06337699A (ja) | 1993-05-28 | 1994-05-25 | ピッチ・エポック同期線形予測符号化ボコーダおよび方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US5504834A (ja) |
EP (1) | EP0627725A3 (ja) |
JP (1) | JPH06337699A (ja) |
CA (1) | CA2123188A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526956A (ja) * | 2014-07-26 | 2017-09-14 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
JP3680374B2 (ja) * | 1995-09-28 | 2005-08-10 | ソニー株式会社 | 音声合成方法 |
JPH09127995A (ja) * | 1995-10-26 | 1997-05-16 | Sony Corp | 信号復号化方法及び信号復号化装置 |
US5809459A (en) * | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
US5794185A (en) * | 1996-06-14 | 1998-08-11 | Motorola, Inc. | Method and apparatus for speech coding using ensemble statistics |
CN1163870C (zh) * | 1996-08-02 | 2004-08-25 | 松下电器产业株式会社 | 声音编码装置和方法,声音译码装置,以及声音译码方法 |
US6041297A (en) * | 1997-03-10 | 2000-03-21 | At&T Corp | Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations |
PL193723B1 (pl) * | 1997-04-07 | 2007-03-30 | Koninkl Philips Electronics Nv | Sposób i urządzenie do kodowania sygnału mowy oraz sposób i urządzenie do dekodowania sygnału mowy |
US5893056A (en) * | 1997-04-17 | 1999-04-06 | Northern Telecom Limited | Methods and apparatus for generating noise signals from speech signals |
US6233550B1 (en) | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6381570B2 (en) | 1999-02-12 | 2002-04-30 | Telogy Networks, Inc. | Adaptive two-threshold method for discriminating noise from speech in a communication signal |
US6721282B2 (en) * | 2001-01-12 | 2004-04-13 | Telecompression Technologies, Inc. | Telecommunication data compression apparatus and method |
US6952669B2 (en) * | 2001-01-12 | 2005-10-04 | Telecompression Technologies, Inc. | Variable rate speech data compression |
US6584437B2 (en) * | 2001-06-11 | 2003-06-24 | Nokia Mobile Phones Ltd. | Method and apparatus for coding successive pitch periods in speech signal |
US20040252585A1 (en) * | 2001-10-10 | 2004-12-16 | Smith Dexter G. | Digital geophone system |
FR2868586A1 (fr) * | 2004-03-31 | 2005-10-07 | France Telecom | Procede et systeme ameliores de conversion d'un signal vocal |
DE602005010592D1 (de) * | 2005-11-15 | 2008-12-04 | Alcatel Lucent | Verfahren zur Übertragung von Kanalqualitätsinformationen in einem Multiträger-Funkkommunikationssystem und entsprechende Mobilstation und Basisstation |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4439839A (en) * | 1981-08-24 | 1984-03-27 | International Telephone And Telegraph Corporation | Dynamically programmable processing element |
US4710959A (en) * | 1982-04-29 | 1987-12-01 | Massachusetts Institute Of Technology | Voice encoder and synthesizer |
US4742550A (en) * | 1984-09-17 | 1988-05-03 | Motorola, Inc. | 4800 BPS interoperable relp system |
CA1245363A (en) * | 1985-03-20 | 1988-11-22 | Tetsu Taguchi | Pattern matching vocoder |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
US4815134A (en) * | 1987-09-08 | 1989-03-21 | Texas Instruments Incorporated | Very low rate speech encoder and decoder |
JP2763322B2 (ja) * | 1989-03-13 | 1998-06-11 | キヤノン株式会社 | 音声処理方法 |
US4963034A (en) * | 1989-06-01 | 1990-10-16 | Simon Fraser University | Low-delay vector backward predictive coding of speech |
US5206884A (en) * | 1990-10-25 | 1993-04-27 | Comsat | Transform domain quantization technique for adaptive predictive coding |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
US5293449A (en) * | 1990-11-23 | 1994-03-08 | Comsat Corporation | Analysis-by-synthesis 2,4 kbps linear predictive speech codec |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5265190A (en) * | 1991-05-31 | 1993-11-23 | Motorola, Inc. | CELP vocoder with efficient adaptive codebook search |
JPH06138896A (ja) * | 1991-05-31 | 1994-05-20 | Motorola Inc | 音声フレームを符号化するための装置および方法 |
US5371853A (en) * | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
-
1993
- 1993-05-28 US US08/068,325 patent/US5504834A/en not_active Expired - Fee Related
-
1994
- 1994-05-09 CA CA002123188A patent/CA2123188A1/en not_active Abandoned
- 1994-05-25 JP JP6133864A patent/JPH06337699A/ja active Pending
- 1994-05-30 EP EP94108295A patent/EP0627725A3/en not_active Withdrawn
-
1995
- 1995-07-17 US US08/502,991 patent/US5579437A/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017526956A (ja) * | 2014-07-26 | 2017-09-14 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善 |
US10586547B2 (en) | 2014-07-26 | 2020-03-10 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding |
US10885926B2 (en) | 2014-07-26 | 2021-01-05 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding for high bit rates |
Also Published As
Publication number | Publication date |
---|---|
CA2123188A1 (en) | 1994-11-29 |
US5504834A (en) | 1996-04-02 |
EP0627725A2 (en) | 1994-12-07 |
EP0627725A3 (en) | 1997-01-29 |
US5579437A (en) | 1996-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3871347B2 (ja) | スペクトル帯域複製を用いた原始コーディングの強化 | |
KR102125410B1 (ko) | 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법 | |
JPH06337699A (ja) | ピッチ・エポック同期線形予測符号化ボコーダおよび方法 | |
US5479559A (en) | Excitation synchronous time encoding vocoder and method | |
US5602959A (en) | Method and apparatus for characterization and reconstruction of speech excitation waveforms | |
US5903866A (en) | Waveform interpolation speech coding using splines | |
RU2417457C2 (ru) | Способ конкатенации кадров в системе связи | |
AU2002318813B2 (en) | Audio signal decoding device and audio signal encoding device | |
US8417515B2 (en) | Encoding device, decoding device, and method thereof | |
KR100882771B1 (ko) | 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치 | |
US20050096917A1 (en) | Methods for improving high frequency reconstruction | |
AU2003243441B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
US5924061A (en) | Efficient decomposition in noise and periodic signal waveforms in waveform interpolation | |
JPH09127995A (ja) | 信号復号化方法及び信号復号化装置 | |
US5727125A (en) | Method and apparatus for synthesis of speech excitation waveforms | |
JP4099879B2 (ja) | 帯域幅拡張方法及び装置 | |
JP3437421B2 (ja) | 楽音符号化装置及び楽音符号化方法並びに楽音符号化プログラムを記録した記録媒体 | |
JP2010515090A (ja) | 音声コード化の方法および装置 | |
CN116110424A (zh) | 一种语音带宽扩展方法及相关装置 | |
JPH11194799A (ja) | 楽音符号化装置および楽音復号化装置および楽音符号化復号化装置およびプログラム記憶媒体 |