JPS6035799A - 人間の音声エンコード装置及び方法 - Google Patents
人間の音声エンコード装置及び方法Info
- Publication number
- JPS6035799A JPS6035799A JP59071927A JP7192784A JPS6035799A JP S6035799 A JPS6035799 A JP S6035799A JP 59071927 A JP59071927 A JP 59071927A JP 7192784 A JP7192784 A JP 7192784A JP S6035799 A JPS6035799 A JP S6035799A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- audio signal
- residual signal
- frequency
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 22
- 230000005284 excitation Effects 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 2
- 101100379142 Mus musculus Anxa1 gene Proteins 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 45
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008929 regeneration Effects 0.000 description 4
- 238000011069 regeneration method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- NNJPGOLRFBJNIW-HNNXBMFYSA-N (-)-demecolcine Chemical compound C1=C(OC)C(=O)C=C2[C@@H](NC)CCC3=CC(OC)=C(OC)C(OC)=C3C2=C1 NNJPGOLRFBJNIW-HNNXBMFYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101150097527 PARN gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/667—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
発明の背景および要約
本発明は人間の音声のエンコードおよびデコードに関す
る。特に、本発明は音声メツセージシステムに関する。
る。特に、本発明は音声メツセージシステムに関する。
更に詳しくは、本発明は集積化された音声/デーダ通信
/記憶システムに関し、ここでは当然のこととして高帯
域幅(例えば4800または9600ボー)のディジタ
ルチャネルが使用できる。
/記憶システムに関し、ここでは当然のこととして高帯
域幅(例えば4800または9600ボー)のディジタ
ルチャネルが使用できる。
音声メツセージシステムでは、発信機と受信機は、空間
的にまたは時間的に、もしくは、双方に関t、、Ii!
tpれている。即ち、音声メツセージは送信局でコード
化され、エンコードされた音声に対応するビットが送信
機または送信機の周辺装置に記憶され、後刻、呼び出さ
れたり、合成音声に再生される1、または、遠隔受信局
に送信されて、直ちにまたは後刻人間の音声に再生され
る。即ち、本発明は送信局と受信局が、送信機または受
信機が時間的に、または空間的に、もしくは双方に関し
て離れているといないにか\わらず、データチャネルで
接続されたシステムに応用される。
的にまたは時間的に、もしくは、双方に関t、、Ii!
tpれている。即ち、音声メツセージは送信局でコード
化され、エンコードされた音声に対応するビットが送信
機または送信機の周辺装置に記憶され、後刻、呼び出さ
れたり、合成音声に再生される1、または、遠隔受信局
に送信されて、直ちにまたは後刻人間の音声に再生され
る。即ち、本発明は送信局と受信局が、送信機または受
信機が時間的に、または空間的に、もしくは双方に関し
て離れているといないにか\わらず、データチャネルで
接続されたシステムに応用される。
典型的な線型予測コーディング(LPC)ベースバンド
11声コーデイングシステムを第1図に示す。
11声コーデイングシステムを第1図に示す。
本発明はこのようなシステムに対して重要な修正や改良
を教示する。音声入力からLPGスペクトルパラメータ
(例えば、反射系数kiまたは反転フィルタ系数ak’
)が抽出された後、音声入力は残留唱差イハ号を生成す
るためにLPC分析フィルタでフィルタされる。つまシ
、通常は、単純化されたLPCモデルは各入力サンプル
を励起関送を用いて、直前の人\カザンプルの線型の組
合せにする。
を教示する。音声入力からLPGスペクトルパラメータ
(例えば、反射系数kiまたは反転フィルタ系数ak’
)が抽出された後、音声入力は残留唱差イハ号を生成す
るためにLPC分析フィルタでフィルタされる。つまシ
、通常は、単純化されたLPCモデルは各入力サンプル
を励起関送を用いて、直前の人\カザンプルの線型の組
合せにする。
こ\でunは励起関数である。
数列unの平均値はおよそOであるが、時系列unは重
要な情報を含んでいる。即ち、LPCモデルは完全なモ
デルでなく、重要で有用な情報がLPCパラメータで完
全にはモデル化されないので、残留信号un内に残って
いる。モデル次数はLPCモデルの完成にある限界を与
えるが、どの有用な音声応用においても、いくらかの情
報はLPCパラメータ内でなく残留信号un内に残る。
要な情報を含んでいる。即ち、LPCモデルは完全なモ
デルでなく、重要で有用な情報がLPCパラメータで完
全にはモデル化されないので、残留信号un内に残って
いる。モデル次数はLPCモデルの完成にある限界を与
えるが、どの有用な音声応用においても、いくらかの情
報はLPCパラメータ内でなく残留信号un内に残る。
LPCモデルは直感的には人間音声の実際の関数をモデ
ル化すると考えられる。つまり、人間音声は、音声系の
特性に対応して、パッシブな音響フィルタに印加された
励起関数〔喉頭で生成されたパルス列または無声音声中
に生成された白色雑音〕と考えられる。一般に、パッシ
ブ音響フィルタの特性(即ち、口や胸等の共振や制動特
性〕はLPCパラメータでモデル化されるが、励起関数
の特性は一般に残留時系列un内に現われる。
ル化すると考えられる。つまり、人間音声は、音声系の
特性に対応して、パッシブな音響フィルタに印加された
励起関数〔喉頭で生成されたパルス列または無声音声中
に生成された白色雑音〕と考えられる。一般に、パッシ
ブ音響フィルタの特性(即ち、口や胸等の共振や制動特
性〕はLPCパラメータでモデル化されるが、励起関数
の特性は一般に残留時系列un内に現われる。
音声の音素特性は典型的には極めて遅い速さで変化し、
1′5饗周波数領域特性も同様にゆるやかに変わる。従
って、フレーム率は通常、比較的長期間に渡っての音声
」二の音響変化を追跡するように選択される。例えば、
フレーム率は典型的には、10 D 112の近くのい
ずれかに選択され、音声信号の音響周波数領域特性は、
全てのフレーム幅で、本質的に一定であるとして取扱わ
れる。これに比べて、音声は、測定されるべき音響帯域
幅に対応するナイキスト率でサンプルされなければなら
ない。従って、典型的サンプリング率は8に1zで、各
フレーム内に80サンプルが得られよう。LPGモデル
の極めて有利なことは、入力時系列が各サンプル毎に変
化するのに対して、LPcパラメータは各フレーム毎に
変化することである。残留列L111も各サンプル毎に
変化するが、これには入力時系列s1□j40も少ない
情報が含まれていて、通常、や\低下されたデータレー
トで効果的にモデル化さIt得る。
1′5饗周波数領域特性も同様にゆるやかに変わる。従
って、フレーム率は通常、比較的長期間に渡っての音声
」二の音響変化を追跡するように選択される。例えば、
フレーム率は典型的には、10 D 112の近くのい
ずれかに選択され、音声信号の音響周波数領域特性は、
全てのフレーム幅で、本質的に一定であるとして取扱わ
れる。これに比べて、音声は、測定されるべき音響帯域
幅に対応するナイキスト率でサンプルされなければなら
ない。従って、典型的サンプリング率は8に1zで、各
フレーム内に80サンプルが得られよう。LPGモデル
の極めて有利なことは、入力時系列が各サンプル毎に変
化するのに対して、LPcパラメータは各フレーム毎に
変化することである。残留列L111も各サンプル毎に
変化するが、これには入力時系列s1□j40も少ない
情報が含まれていて、通常、や\低下されたデータレー
トで効果的にモデル化さIt得る。
残留時系列unは大まかには以下の情報を用いて記述で
きる: RMS工掃ルギ、現在のフレームカニ有声か無
声かを示すための音声ビット、および、有声音声期間中
のパルス列の間隔を定義するためのピッチ期間。無声音
声期間中には、励起関数は極めて広い周波数特性を示し
、白色雑音として旨くモデル化される。
きる: RMS工掃ルギ、現在のフレームカニ有声か無
声かを示すための音声ビット、および、有声音声期間中
のパルス列の間隔を定義するためのピッチ期間。無声音
声期間中には、励起関数は極めて広い周波数特性を示し
、白色雑音として旨くモデル化される。
サンプルレート入力信号Snの全ての特徴はフレーム率
パラメータに変えられるので、残留時系列unの近似は
大変コンパクトになる。しかし、これによって良好なデ
ータ圧縮が可能となる。このことは、全ての音声エンコ
ーディングシステムにとって大いに望ましい。
パラメータに変えられるので、残留時系列unの近似は
大変コンパクトになる。しかし、これによって良好なデ
ータ圧縮が可能となる。このことは、全ての音声エンコ
ーディングシステムにとって大いに望ましい。
しかし、この単純な音声エンコードシステムは音声メツ
セージシステムには適当でない。音声メツセージシステ
ムでは、多くの応用は音声品質に極めて敏感である。例
えば、多年に渡って文献で多く指摘されたように、オフ
ィス環境に音声メールシステムを導入することは、ホワ
イトカラーの生産性を多いに改善するであろう。しかし
、音声メツセージの使用者側の受入れとしては、その品
質に大変敏感である。、これは、どのビジネスマンも自
分のメツセージを受ける人にとって自分の声が奇妙に響
くようなシステムを通常使用するとは思われないからで
ある。従来技術のシステムはこの品質要求を満足する点
で多くの困難があった。
セージシステムには適当でない。音声メツセージシステ
ムでは、多くの応用は音声品質に極めて敏感である。例
えば、多年に渡って文献で多く指摘されたように、オフ
ィス環境に音声メールシステムを導入することは、ホワ
イトカラーの生産性を多いに改善するであろう。しかし
、音声メツセージの使用者側の受入れとしては、その品
質に大変敏感である。、これは、どのビジネスマンも自
分のメツセージを受ける人にとって自分の声が奇妙に響
くようなシステムを通常使用するとは思われないからで
ある。従来技術のシステムはこの品質要求を満足する点
で多くの困難があった。
他のデイレンマとしては、以下の2要素を満足する必要
からくる経済性である:プロセッサ負荷とデータ効率。
からくる経済性である:プロセッサ負荷とデータ効率。
音声エンコーディングが通常のオフィス内のマイクロコ
ンピュータベースシステムで行われれば、エンコードと
デコードのためのプロセッサロードは十分に低くなる。
ンピュータベースシステムで行われれば、エンコードと
デコードのためのプロセッサロードは十分に低くなる。
同様に、音声メツセージが簡単に記憶され、送信される
ならば、そのデータ効率(キロバイトの音声に要する時
間(秒数))は高くなるにちがいない。
ならば、そのデータ効率(キロバイトの音声に要する時
間(秒数))は高くなるにちがいない。
従って本発明の目的は再生された音声の品質75;高い
音声メツセージシステムを提供することである。
音声メツセージシステムを提供することである。
更に、本発明の他の目的はプロセッサ負荷がイ氏い1f
声メツセージシステムを提供することでおる。
声メツセージシステムを提供することでおる。
本発明の別の目、的は、音声品質が高くプロセッサ負荷
がIJ(い音声メツセージシステムを提供スルことであ
る。 ” 更に本発明の他の目的はデータ効率の高い音声メツセー
ジシステムを提供することである。
がIJ(い音声メツセージシステムを提供スルことであ
る。 ” 更に本発明の他の目的はデータ効率の高い音声メツセー
ジシステムを提供することである。
本発明の別の目的は、データ効率が高く、生成される音
声の品質が大変よい音声メツセージシステムを提供する
ことである。
声の品質が大変よい音声メツセージシステムを提供する
ことである。
本発明の他の目的は、プロセッサロードが低く、データ
効率が高く、再生された音声の品質が極めてよい音声メ
ツセージシステムを提供することである。
効率が高く、再生された音声の品質が極めてよい音声メ
ツセージシステムを提供することである。
高品質の達成には、単にピッチと、エネルギと、音声(
ボイシング)よりも多くの情報を残留時系列unから得
る必要がある。残留時系列unのフーリエ変換は大変適
切である。しかし、これは必要以上に多くの情報を提供
する。従来技術では、良品質音声は、残留信号unの全
帯域幅の一部のみをエンコードし、この部分帯域’18
号(ヘ−スハ7ドとして知られている)を受信機で全
帯域幅の励起信号を与えるため、伸長することで再生で
@−ることか判明している。ベースバンドコード法では
残留信号unは、そのFFT (ファストフーリエ変換
)をとることによシ周波数領域に変換される。
ボイシング)よりも多くの情報を残留時系列unから得
る必要がある。残留時系列unのフーリエ変換は大変適
切である。しかし、これは必要以上に多くの情報を提供
する。従来技術では、良品質音声は、残留信号unの全
帯域幅の一部のみをエンコードし、この部分帯域’18
号(ヘ−スハ7ドとして知られている)を受信機で全
帯域幅の励起信号を与えるため、伸長することで再生で
@−ることか判明している。ベースバンドコード法では
残留信号unは、そのFFT (ファストフーリエ変換
)をとることによシ周波数領域に変換される。
ベースバンドと呼ばれる、FFTの低周波数のいくつか
の゛リンゾルが選択される。このベースバンド情報は、
エンコードされピッチ、利得、ボイシング、およびり、
PCパラメータと共に受信機に送出される。受(i 4
1%には残留周波数スペクトルの小部分のみが送信され
るので、受信機は先ず、適当な近似によって全帯域残留
信号を作成しなければならない。この近似残留信号un
は次にLPC合成フィルタ用の励起関数として使用でき
る。受信機での励起信号内の存在しない高い周波数の生
成処理は、Im常、高周波再生成と称されている。
の゛リンゾルが選択される。このベースバンド情報は、
エンコードされピッチ、利得、ボイシング、およびり、
PCパラメータと共に受信機に送出される。受(i 4
1%には残留周波数スペクトルの小部分のみが送信され
るので、受信機は先ず、適当な近似によって全帯域残留
信号を作成しなければならない。この近似残留信号un
は次にLPC合成フィルタ用の励起関数として使用でき
る。受信機での励起信号内の存在しない高い周波数の生
成処理は、Im常、高周波再生成と称されている。
高周波再生成にはいくつかの技術がある。最も簡単なも
のとしてはベースバンドを高周波バンドにコピーするこ
とである。、即ち、例えば、100011zベースバン
ドを使用すると、ベースバンド内の各単一周波数fkは
受信機で励起信号を再生成するため、周波#fl(+
1000 、fk+200等で同一信号強度を提、供す
るようにコピーされる。本発明は、ベースバンド音声コ
ーデングでの高周波再生成のこのようなコピ一方法での
改良を提供するものである。
のとしてはベースバンドを高周波バンドにコピーするこ
とである。、即ち、例えば、100011zベースバン
ドを使用すると、ベースバンド内の各単一周波数fkは
受信機で励起信号を再生成するため、周波#fl(+
1000 、fk+200等で同一信号強度を提、供す
るようにコピーされる。本発明は、ベースバンド音声コ
ーデングでの高周波再生成のこのようなコピ一方法での
改良を提供するものである。
以下の文献を参考として挙げておく。
V I S hWanatha n e j a l
、′IDe S 1 gn Of a RObu S
t13aseband LPCC0de for Sp
eF3ChTransm1ss1onOver a 9
.6 Kb / sec No1sy Cbannel
、 ” IFEE’I’ransactions o
n Communications 、 vat 、
30+T)age 66ろ(1982)およびKang
et al 。
、′IDe S 1 gn Of a RObu S
t13aseband LPCC0de for Sp
eF3ChTransm1ss1onOver a 9
.6 Kb / sec No1sy Cbannel
、 ” IFEE’I’ransactions o
n Communications 、 vat 、
30+T)age 66ろ(1982)およびKang
et al 。
’ Multirate Processor 、 ”
Naval Re5earcbLaboratnry
Report 、 Septembhr 1978
。
Naval Re5earcbLaboratnry
Report 、 Septembhr 1978
。
従来技術の高周波再生成処理は、合成音声内に望ましく
ない特性をもたらす。低周波数での利用可能な高調波が
コピーされ元来、励起において存在したよシ高い高調波
に代替した場合に、変換された高調波は基本ピッチ周波
数の整数倍に置かれるとは限らない。更に、コピーされ
たバンド間にはフェーズオフセットエラー(pHase
offseterror )があるのが普通である。
ない特性をもたらす。低周波数での利用可能な高調波が
コピーされ元来、励起において存在したよシ高い高調波
に代替した場合に、変換された高調波は基本ピッチ周波
数の整数倍に置かれるとは限らない。更に、コピーされ
たバンド間にはフェーズオフセットエラー(pHase
offseterror )があるのが普通である。
これによって、再生成された高周波残留部とベースバン
ド残留部内の強い周波数間には不適当な倍音上の関係が
生ずる0通常・ピッチ不一致(pj、tch inco
ngruence)またはハーモニックオフセットと呼
ばれるこの効果は、処理中の音声メツセージに重ねられ
た、望ましくないパックグラウンrピッ升として感知さ
れる。この効果は高いピンチの話者には最も顕著である
。しかし、オフィス用品質の音声メッセージシステムで
は、この効果は受入れられない。
ド残留部内の強い周波数間には不適当な倍音上の関係が
生ずる0通常・ピッチ不一致(pj、tch inco
ngruence)またはハーモニックオフセットと呼
ばれるこの効果は、処理中の音声メツセージに重ねられ
た、望ましくないパックグラウンrピッ升として感知さ
れる。この効果は高いピンチの話者には最も顕著である
。しかし、オフィス用品質の音声メッセージシステムで
は、この効果は受入れられない。
従って、本発明の目的はピッチ不一致のないベースバン
ド音声エンコードおよびデコードを実行できる装置を提
供することである。
ド音声エンコードおよびデコードを実行できる装置を提
供することである。
本発明の他の目的は、ピッチ不一致なしに高品質音声を
再生でき、残留信号のエンコードに最小の帯域幅のみを
必要とする音声コーディングシステムを接供することで
ある。
再生でき、残留信号のエンコードに最小の帯域幅のみを
必要とする音声コーディングシステムを接供することで
ある。
更に本発明の目的は、ピッチ不一致のない経済的な音声
コーディングシステムを提供することである。
コーディングシステムを提供することである。
本発明はげ一変帯域幅のベースバンドコーディングシス
テムを教示、する。入力音声の各フレームで、1、PC
パラメータの他に、入力音声のピッチの近似が得られる
。このピッチ情報を用いて、各7v−ムに対するベース
バンドの実際の幅が、基本ピッチ周波数の整数倍を含む
幅(規格ベースバンド幅に出来るだけ近く)なるように
決定される。
テムを教示、する。入力音声の各フレームで、1、PC
パラメータの他に、入力音声のピッチの近似が得られる
。このピッチ情報を用いて、各7v−ムに対するベース
バンドの実際の幅が、基本ピッチ周波数の整数倍を含む
幅(規格ベースバンド幅に出来るだけ近く)なるように
決定される。
更に、ベースバンドの下端(最初に送出されるFF’I
”ザンゾル)は、基本ピッチに最も近いFFTサンプル
として選択される。これによって、サブハーモニックピ
ッチ、スプリアスピンチ、および低周波広帯域雑音は、
コピー処理に不都合な影響を4えることができなくなる
。
”ザンゾル)は、基本ピッチに最も近いFFTサンプル
として選択される。これによって、サブハーモニックピ
ッチ、スプリアスピンチ、および低周波広帯域雑音は、
コピー処理に不都合な影響を4えることができなくなる
。
本発明は音声信号のピッチを追跡す”ることを必要とす
る。これは、下記の説明の如く、種々の方法で行うこと
ができる。
る。これは、下記の説明の如く、種々の方法で行うこと
ができる。
本発明によれば、以下の装置が提供される。すなわち、
入力音声信号をエンコードするための入力音声信号エン
コード装置は、 前記入力音声信号からLPCPCパラメータ応する残留
信号を抽出する線型予測コーディング(LPC)分析フ
ィルタと、 前記音声イH号からピッチ周波数を抽出する前記ピッチ
エステイメータと、 前記ピッチ周波数の整数倍になっているベースバンドを
超えるような前記残留信号内の周波数を除くため前記残
留信号をフィルタするための装置と、 前記1m、PCパラメータと、前記フィルタされた残留
信号とに対応する情報をエンコードするエンコーダとを
備えたことを特徴とする前記入カ音声信づエンコード装
置。
コード装置は、 前記入力音声信号からLPCPCパラメータ応する残留
信号を抽出する線型予測コーディング(LPC)分析フ
ィルタと、 前記音声イH号からピッチ周波数を抽出する前記ピッチ
エステイメータと、 前記ピッチ周波数の整数倍になっているベースバンドを
超えるような前記残留信号内の周波数を除くため前記残
留信号をフィルタするための装置と、 前記1m、PCパラメータと、前記フィルタされた残留
信号とに対応する情報をエンコードするエンコーダとを
備えたことを特徴とする前記入カ音声信づエンコード装
置。
発明の実施t((1様
不発明全、その実施例を参照して説明する。しかじなが
()肖業者には当然なように、本発明は多様な修正や変
形においても実施できる。本発明はベースバンド蒔声コ
ーディングで、可変幅のベースバンドの使用を教示する
最初のものと考えられ、−’f、゛れ故、以下に記述す
る特定項目に限定される方法のみならず、全てのベース
バンド音声コーディングに応用「り能である。
()肖業者には当然なように、本発明は多様な修正や変
形においても実施できる。本発明はベースバンド蒔声コ
ーディングで、可変幅のベースバンドの使用を教示する
最初のものと考えられ、−’f、゛れ故、以下に記述す
る特定項目に限定される方法のみならず、全てのベース
バンド音声コーディングに応用「り能である。
本発す」による音声エンコードシステムの一般的構成を
第4図に示す。即ち、音声入力(マイク10、プリアン
プ12、およびコンバータ14から)は−組のLPGパ
ラメータ18を提供するためLPG分析フィルタ16で
処理される。このLPCパラメータ18は当業者には周
知のように、反射係数によまた値他の等価な一組のパラ
メータでよい。
第4図に示す。即ち、音声入力(マイク10、プリアン
プ12、およびコンバータ14から)は−組のLPGパ
ラメータ18を提供するためLPG分析フィルタ16で
処理される。このLPCパラメータ18は当業者には周
知のように、反射係数によまた値他の等価な一組のパラ
メータでよい。
LPCパラメー!18は、エンコーダ20で直ちにエン
コードされ、エンコードされたパラメータ22は、チャ
ネル24を通して記憶されるか送信されるエンコード済
音声信号の一部となる。望ましい実施例では、LPCパ
ラメータは、エンコーダ後直ちに送信機でデコードされ
、これらのデコードされたパラメータはLPCフィルタ
を実現するために使用される。続いて、該入力は、残留
信号26を得るため再構成されたLPGフィルタで処理
される。
コードされ、エンコードされたパラメータ22は、チャ
ネル24を通して記憶されるか送信されるエンコード済
音声信号の一部となる。望ましい実施例では、LPCパ
ラメータは、エンコーダ後直ちに送信機でデコードされ
、これらのデコードされたパラメータはLPCフィルタ
を実現するために使用される。続いて、該入力は、残留
信号26を得るため再構成されたLPGフィルタで処理
される。
即ち、望ましい実施例では、LPc残留信号26は、エ
ンコー−およびデコードされたT、PCパラ、メータを
基にLPGフィルタを用いて得られる。このことは厳密
には必要というのでなく(つまり、残留信号26は当初
得られたパラメータ値からも単+V’llに得られるが
)、望ましいのである。これは、受信機が実際に受信す
るエンコード後のパラメータ22内に含まれるコーディ
ング雑音が残留信号ノロ内でh1i償され得るからであ
る。
ンコー−およびデコードされたT、PCパラ、メータを
基にLPGフィルタを用いて得られる。このことは厳密
には必要というのでなく(つまり、残留信号26は当初
得られたパラメータ値からも単+V’llに得られるが
)、望ましいのである。これは、受信機が実際に受信す
るエンコード後のパラメータ22内に含まれるコーディ
ング雑音が残留信号ノロ内でh1i償され得るからであ
る。
次に、残留信号26は、ディスクリートなフーリエ変換
28の入力としで用いられる。この変換28は、フルパ
ント周波数サンプル30を得るため当然なことに、FF
Tが望ましい。
28の入力としで用いられる。この変換28は、フルパ
ント周波数サンプル30を得るため当然なことに、FF
Tが望ましい。
本発明の望ましい実施例では、入力音声は、′16ビツ
トの精度で、8kH2でサンプルされる。
トの精度で、8kH2でサンプルされる。
1、、’L)Cモデルは、フレーム周期16 msとウ
ィンドー長’y Omsの、次数10に選択される。勿
論、本実施例のこれらの特定な項目は大きく変化させる
ことが百丁能である。例えば、当業者に公知のように、
よシ低いまたはより高い次数のLPCモデル化が可能で
あるし、フレーム周期、ウィンドー長、およびザンープ
ルレートは全て、極めて広い範囲に変化できる。
ィンドー長’y Omsの、次数10に選択される。勿
論、本実施例のこれらの特定な項目は大きく変化させる
ことが百丁能である。例えば、当業者に公知のように、
よシ低いまたはより高い次数のLPCモデル化が可能で
あるし、フレーム周期、ウィンドー長、およびザンープ
ルレートは全て、極めて広い範囲に変化できる。
これらのサンプルおよびモデル技術を用いて、音声の各
フレームは120サンプルを含む。従って128点を有
するFFTを各フレーム周期毎に計算するのが望ましい
。このことは隣接フレーム間に8点の重複があることを
意味するので、第5図に示すように、望ましくは、台形
のウィンに−が、隣接フレーム間にスムーズなウィンド
ーの重なりを与えるために使用される。従って、このス
テライの結果、OkHzから8 kllzまでの128
個の周波数領域サンフ0ル点の昏々に、強度と位相を得
る。
フレームは120サンプルを含む。従って128点を有
するFFTを各フレーム周期毎に計算するのが望ましい
。このことは隣接フレーム間に8点の重複があることを
意味するので、第5図に示すように、望ましくは、台形
のウィンに−が、隣接フレーム間にスムーズなウィンド
ーの重なりを与えるために使用される。従って、このス
テライの結果、OkHzから8 kllzまでの128
個の周波数領域サンフ0ル点の昏々に、強度と位相を得
る。
続いて、エステイメータ32が、ピッチ(およびポイシ
ング)データ33(従来、無声フレームは零ピッチを有
するものとして示される)を検出するために使用される
。ピッチ周波数よシ低い周波数サンプルは捨てられる(
ステップ36)。
ング)データ33(従来、無声フレームは零ピッチを有
するものとして示される)を検出するために使用される
。ピッチ周波数よシ低い周波数サンプルは捨てられる(
ステップ36)。
次に、ベースバンド周波数を超える周波数に対応するF
Ij叩出力出力てのサンプルは捨てられる(ステップ3
8)。ベースバンド周波数は入力の2ソチに従って決定
される。
Ij叩出力出力てのサンプルは捨てられる(ステップ3
8)。ベースバンド周波数は入力の2ソチに従って決定
される。
残留信号は、実際、ベースバンドを超える残留信号内の
周波数を除くためにフィルタされる。望ましい実施例で
は、これは周波数領域で行われるが、絶対に必要という
のではない。受信機内で実行されねばならないコピー処
理は望ましくは周波数領域で行われるので、残留信号を
周波数領域でフィルタするのが望ましい。望ましい実施
例では、送信機内および受信機内において、各フレーム
毎に1回のF’F’T動作を必要とし、これによって、
処理負荷を等しくし、全′処理負荷を減じている。
周波数を除くためにフィルタされる。望ましい実施例で
は、これは周波数領域で行われるが、絶対に必要という
のではない。受信機内で実行されねばならないコピー処
理は望ましくは周波数領域で行われるので、残留信号を
周波数領域でフィルタするのが望ましい。望ましい実施
例では、送信機内および受信機内において、各フレーム
毎に1回のF’F’T動作を必要とし、これによって、
処理負荷を等しくし、全′処理負荷を減じている。
第4図に示すように、ポイシング(voicing )
およびピッチ決定(ステップ32)のため、および、ピ
ッチパラメータp(無声音声を示すため任意に0にセッ
トできる)を作成するためにも入力音−声が使用される
。望ましい実施例では、ピッチ抽出は、Gold −R
abinerピッチ追跡で行われるが、当業者に周知の
いかなるピッチ抽出技術を代替として用いてもよい。G
o]、d −Rabjnerピッチ追跡は、ここで参考
文献として挙げるA、cou、s trlcalSoc
、 ofAmerica 、 vol 、46 、 p
p442 448(1969)にお、けるGoldおよ
びRa b j、n e rによる” Parn、1.
LnJ、 Processing Technj、qu
es for’J:’ransmitting Pit
ch Periods of 5peech in t
he’I’ime I)omain ”に記載されたよ
うに実行される。
およびピッチ決定(ステップ32)のため、および、ピ
ッチパラメータp(無声音声を示すため任意に0にセッ
トできる)を作成するためにも入力音−声が使用される
。望ましい実施例では、ピッチ抽出は、Gold −R
abinerピッチ追跡で行われるが、当業者に周知の
いかなるピッチ抽出技術を代替として用いてもよい。G
o]、d −Rabjnerピッチ追跡は、ここで参考
文献として挙げるA、cou、s trlcalSoc
、 ofAmerica 、 vol 、46 、 p
p442 448(1969)にお、けるGoldおよ
びRa b j、n e rによる” Parn、1.
LnJ、 Processing Technj、qu
es for’J:’ransmitting Pit
ch Periods of 5peech in t
he’I’ime I)omain ”に記載されたよ
うに実行される。
別の参考文献としてはRabinerおよび()old
による” Theory and Applicati
on of Digitalsignal Proce
ssing(1975)、があるので、特にその12.
11章を参照願い度い。
による” Theory and Applicati
on of Digitalsignal Proce
ssing(1975)、があるので、特にその12.
11章を参照願い度い。
また、ピッチ追跡およびポイシング決定は、1986年
4月16日に出願された米国特許出願第484.718
号に記載されたようにも実行できる。
4月16日に出願された米国特許出願第484.718
号に記載されたようにも実行できる。
入力音声が無声であると、ベースバンド幅は、望ましい
実施例では10001Tzとした(広範囲で修正用)規
格ベースパンP値に、セットされるたけである(ステッ
プ40)。
実施例では10001Tzとした(広範囲で修正用)規
格ベースパンP値に、セットされるたけである(ステッ
プ40)。
零でないピッチが検出されれば、ピッチpに関して一致
するようにベースバンドW(参照番号42)が決定され
る。望ましい実施例では、ベースバンド幅は、規格ベー
スバンド幅に最も近いピッチpの整数倍に等しいように
選択される。即ち、例えば、望ましい実施例では、ベー
スバンド幅は100 [J llzであって、こ\で、
入力音声のフレームのピンチが220 Elzであれば
、規格ペース2712周波数に関するこの周波数の整数
倍で最も近い(直は1 ’I [J IJ llzとな
り、従って、このフレームに対してに、1. 、ベース
バンド幅として110011zが選択される1、1)−
まり、ベースバンド幅はW == np 。
するようにベースバンドW(参照番号42)が決定され
る。望ましい実施例では、ベースバンド幅は、規格ベー
スバンド幅に最も近いピッチpの整数倍に等しいように
選択される。即ち、例えば、望ましい実施例では、ベー
スバンド幅は100 [J llzであって、こ\で、
入力音声のフレームのピンチが220 Elzであれば
、規格ペース2712周波数に関するこの周波数の整数
倍で最も近い(直は1 ’I [J IJ llzとな
り、従って、このフレームに対してに、1. 、ベース
バンド幅として110011zが選択される1、1)−
まり、ベースバンド幅はW == np 。
即ちピッチ])の整数値に選ばれるので、ベースバンド
が受(Fr Iffでコピーされると、ベースピッチと
ベースピッチの高調波がベースピンチの高次高調力砧に
重ねてコピーされkp+w−(k+n)pとなる。この
例で、局所フレームのピンチが220117でなく22
511zであれば、規格ベースバンド周波数の整数倍に
最も近い周波数は900 Hzであシ、幅Wは9 U
U llzにセットされる。
が受(Fr Iffでコピーされると、ベースピッチと
ベースピッチの高調波がベースピンチの高次高調力砧に
重ねてコピーされkp+w−(k+n)pとなる。この
例で、局所フレームのピンチが220117でなく22
511zであれば、規格ベースバンド周波数の整数倍に
最も近い周波数は900 Hzであシ、幅Wは9 U
U llzにセットされる。
このステップも広範囲で修正、変化させることができる
ことに留意され度い。例えば、ベースバンド幅は入力音
声のピッチと一致すべきだが、上述の如く、所与の(規
格)ベースバンド幅に最も近い一致したピッ、チである
ように、選択される必要はない。例えば、可変ベースバ
ンド幅を、簡単に、規格幅の次の大きい、または、最大
規格幅の次に小さい一致した幅として定義することもで
きる。
ことに留意され度い。例えば、ベースバンド幅は入力音
声のピッチと一致すべきだが、上述の如く、所与の(規
格)ベースバンド幅に最も近い一致したピッ、チである
ように、選択される必要はない。例えば、可変ベースバ
ンド幅を、簡単に、規格幅の次の大きい、または、最大
規格幅の次に小さい一致した幅として定義することもで
きる。
更にステップ36は、零でないピッチ周波数検出時に使
用され、p未満の周波数を有する全ての周波数サンプル
を除く。このステップは本発明に、は必要でないが、低
周波雑音(1/f雑音等)およびスプリアスピッチやサ
ブハーモニックピッチを防ぐのに役立つので望ましい。
用され、p未満の周波数を有する全ての周波数サンプル
を除く。このステップは本発明に、は必要でないが、低
周波雑音(1/f雑音等)およびスプリアスピッチやサ
ブハーモニックピッチを防ぐのに役立つので望ましい。
この場合、ベースバンドの高周波数はWに等しくないこ
とが望ましいが、W+pであることがよい(ステップ3
8)。
とが望ましいが、W+pであることがよい(ステップ3
8)。
しかし、コ一する周波数のノ・−モニツクの関係がピッ
チに関して保存されている限シにおいて重要ではない。
チに関して保存されている限シにおいて重要ではない。
ベースバンド幅Wが定められると、ベースバンド内にあ
る周波数サンプル44のみが送出される。
る周波数サンプル44のみが送出される。
即ち、送出される第一周波数サンプルはピッチpに最も
近い周波数であることが望ましく、最終周波数サンプル
はpとベースバンド幅Wを加えた値に最も近いものであ
ることが望ましく、更に、これら02個の周波数サンプ
ル間の範囲外の周波数サンプルは送出されない。
近い周波数であることが望ましく、最終周波数サンプル
はpとベースバンド幅Wを加えた値に最も近いものであ
ることが望ましく、更に、これら02個の周波数サンプ
ル間の範囲外の周波数サンプルは送出されない。
この範囲、pとWの間の全ての周波数を送出することは
厳密には必要ではない。即ち、周波数サンプルの強度が
ある最小値よりも高い該範囲内の周波数の部分集合のみ
を送信するため、史にバンド幅を圧縮することが望まし
い。この周波数の部分集合(ノイズフロアを任意に加え
てもよい)は、逆F’FT 46の入力として使用され
る。これは品質をや\低下させるが、コーディング効率
を太いに上げる。
厳密には必要ではない。即ち、周波数サンプルの強度が
ある最小値よりも高い該範囲内の周波数の部分集合のみ
を送信するため、史にバンド幅を圧縮することが望まし
い。この周波数の部分集合(ノイズフロアを任意に加え
てもよい)は、逆F’FT 46の入力として使用され
る。これは品質をや\低下させるが、コーディング効率
を太いに上げる。
送出されるべき周波数サンプルをエンコードするには、
ベースバンド周波数サンプル44は望ましくは極座標に
変換される。更に、ベースバンドサンプルの強度は、ベ
ースバンド周波数サンプルの強度をエンコードするのに
必要な動的範囲に圧縮するため、全ベースバンド(ステ
ップ52で検出)のRMSエネルギ値50を用いて規格
化されるのが望ましい(ステン7ゾ48)。従ってエン
コードされたパラメータの全集合は、LPCパラメータ
22、zl?イシングおよび2ツチp54、ベースバン
ドの淋侶エネル¥56、およびベースバンド範囲内の各
周波数サンプルの規格化された強度と位相を含んでいる
。
ベースバンド周波数サンプル44は望ましくは極座標に
変換される。更に、ベースバンドサンプルの強度は、ベ
ースバンド周波数サンプルの強度をエンコードするのに
必要な動的範囲に圧縮するため、全ベースバンド(ステ
ップ52で検出)のRMSエネルギ値50を用いて規格
化されるのが望ましい(ステン7ゾ48)。従ってエン
コードされたパラメータの全集合は、LPCパラメータ
22、zl?イシングおよび2ツチp54、ベースバン
ドの淋侶エネル¥56、およびベースバンド範囲内の各
周波数サンプルの規格化された強度と位相を含んでいる
。
当然ながら、等化な情報がエンコードされている限り、
これらのパラメータ通シにエンコードする必要はない。
これらのパラメータ通シにエンコードする必要はない。
即ち、例えば、ベースバンド内の周波数サンプルを、ピ
ッチル1従ってベースバンド幅Wが、ベースバンド内の
周波数の個数で示されるようにエンコードすることもオ
プションとして可能である。
ッチル1従ってベースバンド幅Wが、ベースバンド内の
周波数の個数で示されるようにエンコードすることもオ
プションとして可能である。
このシステムのデコードステージは、デコードされたベ
ースバンド601をよシ高いバンド1でコピーすること
によって、フルパント残留信号の近似を再構成する。即
ち、受信機が受信したエンコードされたパラメータの集
合から、上記のように(ステップ064で)ピッチp3
31がベースバンド幅ノψ421を一意的に定める。
ースバンド601をよシ高いバンド1でコピーすること
によって、フルパント残留信号の近似を再構成する。即
ち、受信機が受信したエンコードされたパラメータの集
合から、上記のように(ステップ064で)ピッチp3
31がベースバンド幅ノψ421を一意的に定める。
次に送出されたベースバンド内の周波数ザンプルがデコ
ードされ、ベースバンドの間隔でコピーされる(ステッ
プ66)。即ち、ベースバンド内の各周波数fkは、所
望のフルパント幅(通常4kllz )まで、追加の周
波数W +fk、 2 W + fk等」二にマッシさ
れる。コピーされた周波数の強度は尼の周波数の強度に
等しくとることもできるし、または、高い周波数に対し
て強度を線型にまたは指数的に上げることも(Jrol
led off )できる。
ードされ、ベースバンドの間隔でコピーされる(ステッ
プ66)。即ち、ベースバンド内の各周波数fkは、所
望のフルパント幅(通常4kllz )まで、追加の周
波数W +fk、 2 W + fk等」二にマッシさ
れる。コピーされた周波数の強度は尼の周波数の強度に
等しくとることもできるし、または、高い周波数に対し
て強度を線型にまたは指数的に上げることも(Jrol
led off )できる。
つ!、シ、次式で示される時間領域内で示したベースバ
ンド周波成分 Aknxp (i (fl(t+ψk))’ (2)を
よ、以下のす01度の高調波、にコピーされ得る。
ンド周波成分 Aknxp (i (fl(t+ψk))’ (2)を
よ、以下のす01度の高調波、にコピーされ得る。
Ak (”Xl’l (i ((fl(+ nW )
t+ψk))またはuL nxl+ (i、 ((fk
+ nW ) t+ψk))(ろ)11 これらの全ての実施例は、本発明の範囲内のものである
。
t+ψk))またはuL nxl+ (i、 ((fk
+ nW ) t+ψk))(ろ)11 これらの全ての実施例は、本発明の範囲内のものである
。
本発明のシステムの合成部分に実行できる他の変更は、
コピーされた周波数に対する位相変更である。即ち、コ
ピアされた周波数の位相を、例えば、線型相シフト定数
Cに従って変更することも望ましいであろう。こうする
と、ベースバンド周波数は次式のように位相シフトされ
たハーモニック周波数にコピーされる。
コピーされた周波数に対する位相変更である。即ち、コ
ピアされた周波数の位相を、例えば、線型相シフト定数
Cに従って変更することも望ましいであろう。こうする
と、ベースバンド周波数は次式のように位相シフトされ
たハーモニック周波数にコピーされる。
Akexp (i ((fk+nW)t→−ψに+ n
cW ) ) (4)これらの変更は、望ましい実施例
の範囲ではないが、オプションであり、本発明の範囲で
はある。
cW ) ) (4)これらの変更は、望ましい実施例
の範囲ではないが、オプションであり、本発明の範囲で
はある。
最も効果的なエンコーディングのために、送信される異
ったパラメータに対して、種々のコーディング技術を使
用できることに留意願い度い。望ましい実施例では以下
のエンコーディングを使用している。
ったパラメータに対して、種々のコーディング技術を使
用できることに留意願い度い。望ましい実施例では以下
のエンコーディングを使用している。
表 1
パラメータ ビット/フレーム コーディング技術反射
係数 42 最小偏差法 ピンチ 6 ログ ベースバンドRMS7 線型/ログ F’FTマグニチュード 2/マグニチユード 最大エ
ントロピーFF’J’フェーズ ろ−4/フエーズ 一
様本発明は、要するに可変レートコーディングなるもの
を提供することに留意願い度い。即ちベースバンドが可
変なので、各フレーム内に送信される周波数ザンゾルの
個数も可変となシ(望ましい実施例)、これによって変
化されたコーディングレートが得られる。しかし、レー
トの変化は、発声の経過の31′均をすることになシ、
平均コーディングレートは、使用されるベースバンドが
単に各フレーム内の規格ベースバンドである場合に得ら
れるようなコーディングレートに極めて近づく。
係数 42 最小偏差法 ピンチ 6 ログ ベースバンドRMS7 線型/ログ F’FTマグニチュード 2/マグニチユード 最大エ
ントロピーFF’J’フェーズ ろ−4/フエーズ 一
様本発明は、要するに可変レートコーディングなるもの
を提供することに留意願い度い。即ちベースバンドが可
変なので、各フレーム内に送信される周波数ザンゾルの
個数も可変となシ(望ましい実施例)、これによって変
化されたコーディングレートが得られる。しかし、レー
トの変化は、発声の経過の31′均をすることになシ、
平均コーディングレートは、使用されるベースバンドが
単に各フレーム内の規格ベースバンドである場合に得ら
れるようなコーディングレートに極めて近づく。
送信されたベースバンドが、受信機で、完全な残留信号
の周波数スペクトルを提供するためにコピ゛−されると
、逆FFT 46が残留エネルギ信号をrI■生成する
ために実行される。望ましくは、瞬接フレームの再生成
された残留信号間で、平均処理がオーバララップし、受
信機内のLPC合成フィルタにスムーズな励起関数を与
える。
の周波数スペクトルを提供するためにコピ゛−されると
、逆FFT 46が残留エネルギ信号をrI■生成する
ために実行される。望ましくは、瞬接フレームの再生成
された残留信号間で、平均処理がオーバララップし、受
信機内のLPC合成フィルタにスムーズな励起関数を与
える。
これによって、再生成された残留エネルギ信号が得られ
、単純な変換68によって、デコードされた反射係数1
8′が反転フィルタ係数69に変えられる。これらは、
第6図に示すように受信機内で音声48号を再生成する
ために使用される。
、単純な変換68によって、デコードされた反射係数1
8′が反転フィルタ係数69に変えられる。これらは、
第6図に示すように受信機内で音声48号を再生成する
ために使用される。
即ち、ベースバンドエネルギスカラ50′はベースバン
ド周波数サンプルの強度を再規格化するのに使用される
(ステップ80)。更に、ピッチボイシング33′はベ
ースバンド幅w42を計算するために使用される。再規
格化されたベースバンド周波数サンプル44′はコピー
される(ステップ66)。即ち、各周波数fkの強度と
位相が周波数fk十W、fk+2W等の強度と位相を定
める。
ド周波数サンプルの強度を再規格化するのに使用される
(ステップ80)。更に、ピッチボイシング33′はベ
ースバンド幅w42を計算するために使用される。再規
格化されたベースバンド周波数サンプル44′はコピー
される(ステップ66)。即ち、各周波数fkの強度と
位相が周波数fk十W、fk+2W等の強度と位相を定
める。
これによって、励起関数の全周波数領域表示30′が得
られ、更にFF″工゛ステップが、この周波数領域情報
を時系列uk 26’に変換するために使用される。こ
の推定励起関数ukは、LPC反転フィルタ10の入力
として用いられる。LPCフィルタ70は、元の音声人
力15の適当な推定である推定時系列Sk 72を提供
するため、LPCパラメータ69に従って、推定励起関
数26をフィルタする。
られ、更にFF″工゛ステップが、この周波数領域情報
を時系列uk 26’に変換するために使用される。こ
の推定励起関数ukは、LPC反転フィルタ10の入力
として用いられる。LPCフィルタ70は、元の音声人
力15の適当な推定である推定時系列Sk 72を提供
するため、LPCパラメータ69に従って、推定励起関
数26をフィルタする。
オプションとして、エネルギ規格化を行うこともできる
。この場合、フレームエネルギに対応して推定時系列s
kを調整するために、精密アンプ段が使用される。
。この場合、フレームエネルギに対応して推定時系列s
kを調整するために、精密アンプ段が使用される。
望ましい実施例では、フレームエネルギはエンコーげさ
れたパラメータの1個ではない。しかし残留信号のエネ
ルギはフレームエネルギ(7)推定値を(不完全である
が)提供し、残留エネルギは、コピ′−ステップで乗算
されたベースパンげエネルギによって与えられる周波数
領域情報から検出される。
れたパラメータの1個ではない。しかし残留信号のエネ
ルギはフレームエネルギ(7)推定値を(不完全である
が)提供し、残留エネルギは、コピ′−ステップで乗算
されたベースパンげエネルギによって与えられる周波数
領域情報から検出される。
本発明の可変ベースバンドコーディング法では基本帯域
幅のフレーム間の変化は必らずしもスム・−ズでないこ
とは注意に値する。実際、フレーム間のベースバンド幅
には、大きなギャプが見られるのが典型的である。
幅のフレーム間の変化は必らずしもスム・−ズでないこ
とは注意に値する。実際、フレーム間のベースバンド幅
には、大きなギャプが見られるのが典型的である。
ベースバンド幅の計算は多くの誤りを生ずる可能性を含
んでいる。そのような誤りの原因としては、ディスクリ
ートなフーリエ変換操作での限定された分)vtがある
。他の原因としては、ピッチの191X子化がある。ピ
ッチの縫子化は、ピンチ周期がリーンゾル周期の整数倍
であるという本質的な制約がある。
んでいる。そのような誤りの原因としては、ディスクリ
ートなフーリエ変換操作での限定された分)vtがある
。他の原因としては、ピッチの191X子化がある。ピ
ッチの縫子化は、ピンチ周期がリーンゾル周期の整数倍
であるという本質的な制約がある。
本発明は11.’780において実施されている。
しかし、上記のように、本発明の将来への応用として考
えられる最良のモードは、ミニコンピユータシステムよ
りもマイクロコンピュータシステムであり、望ましくは
、多くのマイクロコンピュータシステムが、音声メツセ
ージおよび音声メール処理のためにローカルネットワー
ク(または電話回線)を介して相互接続された環境であ
る。
えられる最良のモードは、ミニコンピユータシステムよ
りもマイクロコンピュータシステムであり、望ましくは
、多くのマイクロコンピュータシステムが、音声メツセ
ージおよび音声メール処理のためにローカルネットワー
ク(または電話回線)を介して相互接続された環境であ
る。
即ち、こ\で実施される本発明は、高精度データ変換(
D/A 、 A/D )、高ギガバイi・ノーードディ
スクドライブ、および9600ポーモデムを使用する。
D/A 、 A/D )、高ギガバイi・ノーードディ
スクドライブ、および9600ポーモデムを使用する。
これと対比して、本発明を用いるマイクロコンピュータ
ベースシステムは、望まシくハずっと経済的に構成され
る。例えば、8080ペースシステム(例え、ば’PI
Professional Computer)は、
よp低い精度の(例えば、12ビツトの)データ変換チ
ップ、フロッピディスクまたは小型Wincbeste
rディスクドラ・iプ、および望ましくはモデム(−i
:たはcoder )と共に使用できる。上記のコーデ
ィングパラメータを用いれば、9600ポーチ−)・ネ
ルは、はソリアルタイムの音声伝送レートを力えるが、
当然ながら、この伝送レートは、バッファリングと記憶
処理がいずれにしでも必要であるので、音声メール応用
には不適当である。
ベースシステムは、望まシくハずっと経済的に構成され
る。例えば、8080ペースシステム(例え、ば’PI
Professional Computer)は、
よp低い精度の(例えば、12ビツトの)データ変換チ
ップ、フロッピディスクまたは小型Wincbeste
rディスクドラ・iプ、および望ましくはモデム(−i
:たはcoder )と共に使用できる。上記のコーデ
ィングパラメータを用いれば、9600ポーチ−)・ネ
ルは、はソリアルタイムの音声伝送レートを力えるが、
当然ながら、この伝送レートは、バッファリングと記憶
処理がいずれにしでも必要であるので、音声メール応用
には不適当である。
当業者に自明なように、本発明は広範囲に修正と変更と
がi’J能であり、従って、特許請求の範囲に記載事項
以外には制限されるものではない。
がi’J能であり、従って、特許請求の範囲に記載事項
以外には制限されるものではない。
第1図は、本発明が実施されるLPCベースバンド音声
コーディングシステムの一般的ブロック図であり、第2
図は、本発明による、入力音声のピッチで変化されたベ
ースバンド幅の特定例を示す図であり、第6a図から第
5C図は本発明の装置の効果を示すスペクトル図であっ
て、第6a図はjLの残留信号のスペクトル図、第3b
図は、従来技術による固定バンド幅のベースバンドで再
生成された残留信号のスペクトル図、および、第6C図
は、本発明による可変幅ベースバンドを用いて再生成さ
れた残留−信号のスペクトル図であり、第4図は本発明
による音声エンコードシステムの−般的構成を示す図で
あp1第5図はFFTへの入力を提供するためフレーム
オーバーラビングに使用されるのが望ましいウィンドウ
を示す図であり、第6図は本発明による音声デコード局
の一般的構成を示す図である。 符号の説明 10・・マイク、12・・・プリ′アンゾ、14・・・
A/Dコンバータ、16・・・LPC分析フィルタ、2
0・・・エンコーダ、24・・・チャネル、28・・・
FFT、32・・・ピッチおよび音声エステイメータ、
46・・・FF’r逆変換、70・・・LPC反転フィ
ルタ、74・・・D/Aコンバータ、76・・・オーデ
ィオアンプ、18・・音響変換器。 代理人 浅 利 皓 図1のf拓Z(内容1こ変更なし) Flグ、/ し二°・ノ+同ン岩ε数(HzI Ft’g、2 手続補正書(方式) 昭和【7釘 よ月//[コ 特許庁長官殿 1、事件の表示 111′拝[は7年111r′l願第2/ヌシご2 号
2、発明の名称 六方(L戸Aトtエンつ一ド事R1 3、補正をする者 −Il′lとの関1. 乃、:’1fl:11・11人
住 所 4、代理人 氏 名 (6669) ン曳 利 匡5.’l 、:
、” :l・ノ 5、補正命令Q井1イj +1+(和、g’i’ 年7 rh 3/ )]6、補
正により増加する発明の数 7、袖ilの対象
コーディングシステムの一般的ブロック図であり、第2
図は、本発明による、入力音声のピッチで変化されたベ
ースバンド幅の特定例を示す図であり、第6a図から第
5C図は本発明の装置の効果を示すスペクトル図であっ
て、第6a図はjLの残留信号のスペクトル図、第3b
図は、従来技術による固定バンド幅のベースバンドで再
生成された残留信号のスペクトル図、および、第6C図
は、本発明による可変幅ベースバンドを用いて再生成さ
れた残留−信号のスペクトル図であり、第4図は本発明
による音声エンコードシステムの−般的構成を示す図で
あp1第5図はFFTへの入力を提供するためフレーム
オーバーラビングに使用されるのが望ましいウィンドウ
を示す図であり、第6図は本発明による音声デコード局
の一般的構成を示す図である。 符号の説明 10・・マイク、12・・・プリ′アンゾ、14・・・
A/Dコンバータ、16・・・LPC分析フィルタ、2
0・・・エンコーダ、24・・・チャネル、28・・・
FFT、32・・・ピッチおよび音声エステイメータ、
46・・・FF’r逆変換、70・・・LPC反転フィ
ルタ、74・・・D/Aコンバータ、76・・・オーデ
ィオアンプ、18・・音響変換器。 代理人 浅 利 皓 図1のf拓Z(内容1こ変更なし) Flグ、/ し二°・ノ+同ン岩ε数(HzI Ft’g、2 手続補正書(方式) 昭和【7釘 よ月//[コ 特許庁長官殿 1、事件の表示 111′拝[は7年111r′l願第2/ヌシご2 号
2、発明の名称 六方(L戸Aトtエンつ一ド事R1 3、補正をする者 −Il′lとの関1. 乃、:’1fl:11・11人
住 所 4、代理人 氏 名 (6669) ン曳 利 匡5.’l 、:
、” :l・ノ 5、補正命令Q井1イj +1+(和、g’i’ 年7 rh 3/ )]6、補
正により増加する発明の数 7、袖ilの対象
Claims (1)
- 【特許請求の範囲】 (1)入力音声信号エンコード装置において、アナログ
音声信号を受信するための大刀装置と、前記分析フィル
タは前記大刀音声信号からLPCパラメータと対応する
残留信号を抽出する線形予測コーディング(LPG )
分析フィルタと、前記音声信号からピッチ周波数を抽出
するピッチエステイメータと、 前記残留信号内のベースバンドを超える周波数を除くた
め前記残留信号をフィルタするための装置であって、前
記ベースバンド周波数が前記ピッチ周波数の整数倍に選
択される前記フィルタ装置と、 前記LPCパラメータと、前記フィルタされた残留信号
とに対応する情報をエンコードするエンコーダとを備え
た前記入力音声信号エンコード装置。 (2、特許請求の範囲第1項において、前記残留信号は
、前記エンコードステップによってエンコードされた前
記LPCパラメータに従って抽出されるようになってい
る、前記人力音声信号エンコーダ装置。 (3)特許請求の範囲第1項において、前記フィルタ装
置は史に、前記ピッチ周波数未満の周波数を41する前
記残留信号の部分を除くようになっている、前記人力音
声信号エンコーr装置。 (4)特許請求の範囲第1項において、更に、受信機を
備えており、この受信機は、 データチキネルに接続され、前記LPCパラメータと前
記フィルタされた残留信号に対応する情報をデコードお
よび出力する前記デコーダと、全帯域幅励起信号を生成
するため前記フィルタされた残留信号をコピーするため
の装置と、再構成された音声信号を提供するため前記L
PCパラメータに従って前記全帯域幅励起信号をフィル
タする+−,pCO−成フィルタとを含む、前記入力音
ノ11信号エンコーr装置。 (5)特rt’l’ r−tI11氷の範囲第4項にお
いて、前記フィルタされた残留信号は周波数領域情報の
形でエンコードされ、前記コピー装置は前記フィルタさ
れた残留情報をシフトし続いて逆フーリエ変換を行うよ
うになっている、前記入力音声信号エンコード装置。 (6)特許請求の範囲第1項において、前記フィルタさ
れた残留信号は周波数領域情報の形でエンコードされる
ようになっている、前記入力音声信号エンコード装置。 (力 特許請求の範囲第1項において、前記LPCパラ
メータは反射係数である、前記入力音声信号エンコード
装置。 (8)特許請求の範囲第4項において、前記LPCパラ
メータは反射係数である、前記入力音声信号エンコード
装置。 (9) ’i?許請求の範囲第1項において、前記エン
コーダは更に、前記ピッチ周波数に対応して情報をエン
コードするようになっている、前記入力音声信号エンコ
ード装置。 00)特許請求の範囲第1項において、前記ピッチエス
テイメータは、史に、前記音声信号から音声決定を抽出
し、史に前記エンコーダは前記音声決定に対応1〜゛〔
IH報をエンコードするようになっている、前記人力音
声信号エンコード装置。 (11)特Fl’ 請求の範囲第1項において、前記L
PC分セ1フィルタは更に前記人力音声信号のRMSエ
ネルギを測定し、前記エンコーダは更に、81f記音声
信弓の前記■往ISエネルギに対応して情報をエンコー
ドするよう釦なっている、前記人力音声信号エン;l−
げ装置。 (11リ 特許請求の範囲第4項において、前記LPC
分1)1フイルタは史に前記入力音声信号のl(MSエ
ネル・rを測定し、前記エンコーダは更に、前記音声信
号の前記1”JAE3エネルギに対応して情報をエンコ
ードするようになっている、前記入力音声信号エンニl
−ド 装 置 。 (13)特許請求の範囲第12項においで、前記デコー
ダは、史に、前記人力音声信号の前記iws信号に対応
して情報をデコードし出力し、史に前記入力音声信号エ
ンコード1.り置には前記LPC,@成フィルタに接続
され、前記入力信号の前記RMS信号に対応する前記情
報に従って前記再構成された音声信号を増幅する前記増
幅器が備えられている、前記入力音声信号エンコード装
置。 a4 人力音声信号エンコード方法において、前記入力
音声信号からLPCパラメータと対応する残留信号を抽
出し、前記LPCパラメータは予め定められたフレーム
率でフレーム毎に1度抽出されるステップと、 前記入力音声信号のピッチを推定するステップと、 前記残留信号内のベースバンド周波数を超える周波数を
除くため前記残留信号をフィルタし、前記ベースバンド
周波数は前記ピッチの周波数の整数倍であるステップと
、 前記LPCパラメータと前記フィルタされた残留信号と
に対応する情報をエンコードするステップとを含む前記
方法。 u9 特許請求の範囲第14項において、前記フィルタ
ステップは前記残留信号をフーリエ変換することと、前
記ベースバンド周波数を超える周波数を前記フーリエ変
換された残留信号から除くことを含む前記フィルタステ
ップである、前記方法。 (16) 音声をディジタルで送信する方法において、
入力tη声傷信号受信するステップと、前記人力jf声
倍信号らLPCパラメータと対応する残留信号とを抽出
し、前記LPGパラメータは各フレーム期間に1度抽出
され、前記フレーム期間は予め定められた時間であるス
テップと、各前記フレーム期間中に前記入力音声信号の
ピッチを推定するステップと、 前記残留信号中のベースバンド周波数を超える周波数を
除くため前記残留信号をフィルタし、前記ベースバンド
周波数は前記ピッチ周波数の整数倍であるステップと、 前記り、PCパラメータと前記フィルタされた残留信号
とに対応する情報をエンコードするステップと、 前記LPCパラ人−夕と前記フィルタされた残留信号と
に対応する情報をデータチャネルに転送するステップと
、 前記データチャネルからの前記LPGパラメータと前記
フィルタされた残留信号とに対応する情報をデコードす
るステップと、 全帯域幅励起信号を生成するため前記フィルタされた残
留信号をコピーするステップと、再構成された音声信号
を提供するため前記LPCパラメータに対応して前記励
起信号をフィルタするステップとを含む前記方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/484,720 US4667340A (en) | 1983-04-13 | 1983-04-13 | Voice messaging system with pitch-congruent baseband coding |
US484720 | 1990-02-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6035799A true JPS6035799A (ja) | 1985-02-23 |
JPH0516599B2 JPH0516599B2 (ja) | 1993-03-04 |
Family
ID=23925323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59071927A Granted JPS6035799A (ja) | 1983-04-13 | 1984-04-12 | 人間の音声エンコード装置及び方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4667340A (ja) |
EP (1) | EP0124728B1 (ja) |
JP (1) | JPS6035799A (ja) |
DE (1) | DE3476479D1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008018318A (ja) * | 2006-07-12 | 2008-01-31 | Shin Meiwa Ind Co Ltd | 汚泥濃縮装置およびそれを備えた汚泥濃縮車 |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0208712B1 (en) * | 1984-12-20 | 1993-04-07 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
EP0243562B1 (en) * | 1986-04-30 | 1992-01-29 | International Business Machines Corporation | Improved voice coding process and device for implementing said process |
US4776014A (en) * | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
US5003604A (en) * | 1988-03-14 | 1991-03-26 | Fujitsu Limited | Voice coding apparatus |
US5127054A (en) * | 1988-04-29 | 1992-06-30 | Motorola, Inc. | Speech quality improvement for voice coders and synthesizers |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5189701A (en) * | 1991-10-25 | 1993-02-23 | Micom Communications Corp. | Voice coder/decoder and methods of coding/decoding |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
JPH0612098A (ja) * | 1992-03-16 | 1994-01-21 | Sanyo Electric Co Ltd | 音声符号化装置 |
US5761633A (en) * | 1994-08-30 | 1998-06-02 | Samsung Electronics Co., Ltd. | Method of encoding and decoding speech signals |
US5664053A (en) * | 1995-04-03 | 1997-09-02 | Universite De Sherbrooke | Predictive split-matrix quantization of spectral parameters for efficient coding of speech |
DE69629485T2 (de) * | 1995-10-20 | 2004-06-09 | America Online, Inc. | Kompressionsystem für sich wiederholende töne |
DE19629946A1 (de) * | 1996-07-25 | 1998-01-29 | Joachim Dipl Ing Mersdorf | Ein LPC-basiertes Verfahren zur Analyse und Synthese von Sprachgrundfrequenzverläufen mittels Filterparametrisierung und Restsignalapproximation |
US5751901A (en) * | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
AUPR433901A0 (en) | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
US8605911B2 (en) | 2001-07-10 | 2013-12-10 | Dolby International Ab | Efficient and scalable parametric stereo coding for low bitrate audio coding applications |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
ATE288617T1 (de) | 2001-11-29 | 2005-02-15 | Coding Tech Ab | Wiederherstellung von hochfrequenzkomponenten |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
US7318027B2 (en) * | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
WO2006000951A1 (en) * | 2004-06-21 | 2006-01-05 | Koninklijke Philips Electronics N.V. | Method of audio encoding |
WO2008108719A1 (en) * | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for smoothing of stationary background noise |
RU2011129606A (ru) * | 2008-12-16 | 2013-01-27 | Конинклейке Филипс Электроникс Н.В. | Обработка речевого сигнала |
US20110257978A1 (en) * | 2009-10-23 | 2011-10-20 | Brainlike, Inc. | Time Series Filtering, Data Reduction and Voice Recognition in Communication Device |
CN102543086B (zh) * | 2011-12-16 | 2013-08-14 | 大连理工大学 | 一种基于音频水印的语音带宽扩展的装置和方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2672512A (en) * | 1949-02-02 | 1954-03-16 | Bell Telephone Labor Inc | System for analyzing and synthesizing speech |
US3624302A (en) * | 1969-10-29 | 1971-11-30 | Bell Telephone Labor Inc | Speech analysis and synthesis by the use of the linear prediction of a speech wave |
US4220819A (en) * | 1979-03-30 | 1980-09-02 | Bell Telephone Laboratories, Incorporated | Residual excited predictive speech coding system |
US4330689A (en) * | 1980-01-28 | 1982-05-18 | The United States Of America As Represented By The Secretary Of The Navy | Multirate digital voice communication processor |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
-
1983
- 1983-04-13 US US06/484,720 patent/US4667340A/en not_active Expired - Lifetime
-
1984
- 1984-03-15 EP EP84102850A patent/EP0124728B1/en not_active Expired
- 1984-03-15 DE DE8484102850T patent/DE3476479D1/de not_active Expired
- 1984-04-12 JP JP59071927A patent/JPS6035799A/ja active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008018318A (ja) * | 2006-07-12 | 2008-01-31 | Shin Meiwa Ind Co Ltd | 汚泥濃縮装置およびそれを備えた汚泥濃縮車 |
Also Published As
Publication number | Publication date |
---|---|
EP0124728A1 (en) | 1984-11-14 |
EP0124728B1 (en) | 1989-01-25 |
JPH0516599B2 (ja) | 1993-03-04 |
DE3476479D1 (en) | 1989-03-02 |
US4667340A (en) | 1987-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6035799A (ja) | 人間の音声エンコード装置及び方法 | |
CN101183527B (zh) | 用于对高频信号进行编码和解码的方法和设备 | |
CN1838239B (zh) | 一种用于增强信源解码器的设备及方法 | |
US9037454B2 (en) | Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT) | |
JP4302978B2 (ja) | 音声コーデックにおける擬似高帯域信号の推定システム | |
US6463406B1 (en) | Fractional pitch method | |
US20040138886A1 (en) | Method and system for parametric characterization of transient audio signals | |
JPH11177434A (ja) | 音声符号化復号方式 | |
JP3087814B2 (ja) | 音響信号変換符号化装置および復号化装置 | |
Krasner | Digital encoding of speech and audio signals based on the perceptual requirements of the auditory system | |
JPH07199997A (ja) | 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法 | |
Bhatia et al. | Matrix quantization and LPC vocoder based linear predictive for low-resource speech recognition system | |
JP4274614B2 (ja) | オーディオ信号復号方法 | |
JP2958726B2 (ja) | 反復性をもつサンプル化アナログ信号をコード化しデコードするための装置 | |
KR20060067016A (ko) | 음성 부호화 장치 및 방법 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Sunitha et al. | Speech compression for better audibility using wavelet transformation with adaptive kalman filtering | |
JPH0736484A (ja) | 音響信号符号化装置 | |
KR20080034819A (ko) | 부호화/복호화 장치 및 방법 | |
WO2002013181A1 (fr) | Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes | |
KR100196387B1 (ko) | 성분 분리를 통한 시간 영역상의 음성피치 변경방법 | |
Basu | Analysis of Different Aspects of Speech Signal Using Delta Modulation Technique | |
KR0171004B1 (ko) | Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법 | |
Nagaswamy | Comparison of CELP speech coder with a wavelet method | |
JPH0198000A (ja) | 音声信号を処理するための方法と装置 |