JPS6035799A - 人間の音声エンコード装置及び方法 - Google Patents

人間の音声エンコード装置及び方法

Info

Publication number
JPS6035799A
JPS6035799A JP59071927A JP7192784A JPS6035799A JP S6035799 A JPS6035799 A JP S6035799A JP 59071927 A JP59071927 A JP 59071927A JP 7192784 A JP7192784 A JP 7192784A JP S6035799 A JPS6035799 A JP S6035799A
Authority
JP
Japan
Prior art keywords
signal
audio signal
residual signal
frequency
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59071927A
Other languages
English (en)
Other versions
JPH0516599B2 (ja
Inventor
マサツド アージマンド
ジヨージ アール.ドツデイントン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPS6035799A publication Critical patent/JPS6035799A/ja
Publication of JPH0516599B2 publication Critical patent/JPH0516599B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の背景および要約 本発明は人間の音声のエンコードおよびデコードに関す
る。特に、本発明は音声メツセージシステムに関する。
更に詳しくは、本発明は集積化された音声/デーダ通信
/記憶システムに関し、ここでは当然のこととして高帯
域幅(例えば4800または9600ボー)のディジタ
ルチャネルが使用できる。
音声メツセージシステムでは、発信機と受信機は、空間
的にまたは時間的に、もしくは、双方に関t、、Ii!
tpれている。即ち、音声メツセージは送信局でコード
化され、エンコードされた音声に対応するビットが送信
機または送信機の周辺装置に記憶され、後刻、呼び出さ
れたり、合成音声に再生される1、または、遠隔受信局
に送信されて、直ちにまたは後刻人間の音声に再生され
る。即ち、本発明は送信局と受信局が、送信機または受
信機が時間的に、または空間的に、もしくは双方に関し
て離れているといないにか\わらず、データチャネルで
接続されたシステムに応用される。
典型的な線型予測コーディング(LPC)ベースバンド
11声コーデイングシステムを第1図に示す。
本発明はこのようなシステムに対して重要な修正や改良
を教示する。音声入力からLPGスペクトルパラメータ
(例えば、反射系数kiまたは反転フィルタ系数ak’
)が抽出された後、音声入力は残留唱差イハ号を生成す
るためにLPC分析フィルタでフィルタされる。つまシ
、通常は、単純化されたLPCモデルは各入力サンプル
を励起関送を用いて、直前の人\カザンプルの線型の組
合せにする。
こ\でunは励起関数である。
数列unの平均値はおよそOであるが、時系列unは重
要な情報を含んでいる。即ち、LPCモデルは完全なモ
デルでなく、重要で有用な情報がLPCパラメータで完
全にはモデル化されないので、残留信号un内に残って
いる。モデル次数はLPCモデルの完成にある限界を与
えるが、どの有用な音声応用においても、いくらかの情
報はLPCパラメータ内でなく残留信号un内に残る。
LPCモデルは直感的には人間音声の実際の関数をモデ
ル化すると考えられる。つまり、人間音声は、音声系の
特性に対応して、パッシブな音響フィルタに印加された
励起関数〔喉頭で生成されたパルス列または無声音声中
に生成された白色雑音〕と考えられる。一般に、パッシ
ブ音響フィルタの特性(即ち、口や胸等の共振や制動特
性〕はLPCパラメータでモデル化されるが、励起関数
の特性は一般に残留時系列un内に現われる。
音声の音素特性は典型的には極めて遅い速さで変化し、
1′5饗周波数領域特性も同様にゆるやかに変わる。従
って、フレーム率は通常、比較的長期間に渡っての音声
」二の音響変化を追跡するように選択される。例えば、
フレーム率は典型的には、10 D 112の近くのい
ずれかに選択され、音声信号の音響周波数領域特性は、
全てのフレーム幅で、本質的に一定であるとして取扱わ
れる。これに比べて、音声は、測定されるべき音響帯域
幅に対応するナイキスト率でサンプルされなければなら
ない。従って、典型的サンプリング率は8に1zで、各
フレーム内に80サンプルが得られよう。LPGモデル
の極めて有利なことは、入力時系列が各サンプル毎に変
化するのに対して、LPcパラメータは各フレーム毎に
変化することである。残留列L111も各サンプル毎に
変化するが、これには入力時系列s1□j40も少ない
情報が含まれていて、通常、や\低下されたデータレー
トで効果的にモデル化さIt得る。
残留時系列unは大まかには以下の情報を用いて記述で
きる: RMS工掃ルギ、現在のフレームカニ有声か無
声かを示すための音声ビット、および、有声音声期間中
のパルス列の間隔を定義するためのピッチ期間。無声音
声期間中には、励起関数は極めて広い周波数特性を示し
、白色雑音として旨くモデル化される。
サンプルレート入力信号Snの全ての特徴はフレーム率
パラメータに変えられるので、残留時系列unの近似は
大変コンパクトになる。しかし、これによって良好なデ
ータ圧縮が可能となる。このことは、全ての音声エンコ
ーディングシステムにとって大いに望ましい。
しかし、この単純な音声エンコードシステムは音声メツ
セージシステムには適当でない。音声メツセージシステ
ムでは、多くの応用は音声品質に極めて敏感である。例
えば、多年に渡って文献で多く指摘されたように、オフ
ィス環境に音声メールシステムを導入することは、ホワ
イトカラーの生産性を多いに改善するであろう。しかし
、音声メツセージの使用者側の受入れとしては、その品
質に大変敏感である。、これは、どのビジネスマンも自
分のメツセージを受ける人にとって自分の声が奇妙に響
くようなシステムを通常使用するとは思われないからで
ある。従来技術のシステムはこの品質要求を満足する点
で多くの困難があった。
他のデイレンマとしては、以下の2要素を満足する必要
からくる経済性である:プロセッサ負荷とデータ効率。
音声エンコーディングが通常のオフィス内のマイクロコ
ンピュータベースシステムで行われれば、エンコードと
デコードのためのプロセッサロードは十分に低くなる。
同様に、音声メツセージが簡単に記憶され、送信される
ならば、そのデータ効率(キロバイトの音声に要する時
間(秒数))は高くなるにちがいない。
従って本発明の目的は再生された音声の品質75;高い
音声メツセージシステムを提供することである。
更に、本発明の他の目的はプロセッサ負荷がイ氏い1f
声メツセージシステムを提供することでおる。
本発明の別の目、的は、音声品質が高くプロセッサ負荷
がIJ(い音声メツセージシステムを提供スルことであ
る。 ” 更に本発明の他の目的はデータ効率の高い音声メツセー
ジシステムを提供することである。
本発明の別の目的は、データ効率が高く、生成される音
声の品質が大変よい音声メツセージシステムを提供する
ことである。
本発明の他の目的は、プロセッサロードが低く、データ
効率が高く、再生された音声の品質が極めてよい音声メ
ツセージシステムを提供することである。
高品質の達成には、単にピッチと、エネルギと、音声(
ボイシング)よりも多くの情報を残留時系列unから得
る必要がある。残留時系列unのフーリエ変換は大変適
切である。しかし、これは必要以上に多くの情報を提供
する。従来技術では、良品質音声は、残留信号unの全
帯域幅の一部のみをエンコードし、この部分帯域’18
 号(ヘ−スハ7ドとして知られている)を受信機で全
帯域幅の励起信号を与えるため、伸長することで再生で
@−ることか判明している。ベースバンドコード法では
残留信号unは、そのFFT (ファストフーリエ変換
)をとることによシ周波数領域に変換される。
ベースバンドと呼ばれる、FFTの低周波数のいくつか
の゛リンゾルが選択される。このベースバンド情報は、
エンコードされピッチ、利得、ボイシング、およびり、
PCパラメータと共に受信機に送出される。受(i 4
1%には残留周波数スペクトルの小部分のみが送信され
るので、受信機は先ず、適当な近似によって全帯域残留
信号を作成しなければならない。この近似残留信号un
は次にLPC合成フィルタ用の励起関数として使用でき
る。受信機での励起信号内の存在しない高い周波数の生
成処理は、Im常、高周波再生成と称されている。
高周波再生成にはいくつかの技術がある。最も簡単なも
のとしてはベースバンドを高周波バンドにコピーするこ
とである。、即ち、例えば、100011zベースバン
ドを使用すると、ベースバンド内の各単一周波数fkは
受信機で励起信号を再生成するため、周波#fl(+ 
1000 、fk+200等で同一信号強度を提、供す
るようにコピーされる。本発明は、ベースバンド音声コ
ーデングでの高周波再生成のこのようなコピ一方法での
改良を提供するものである。
以下の文献を参考として挙げておく。
V I S hWanatha n e j a l 
、′IDe S 1 gn Of a RObu S 
t13aseband LPCC0de for Sp
eF3ChTransm1ss1onOver a 9
.6 Kb / sec No1sy Cbannel
 、 ” IFEE’I’ransactions o
n Communications 、 vat 、 
30+T)age 66ろ(1982)およびKang
 et al 。
’ Multirate Processor 、 ”
 Naval Re5earcbLaboratnry
 Report 、 Septembhr 1978 
従来技術の高周波再生成処理は、合成音声内に望ましく
ない特性をもたらす。低周波数での利用可能な高調波が
コピーされ元来、励起において存在したよシ高い高調波
に代替した場合に、変換された高調波は基本ピッチ周波
数の整数倍に置かれるとは限らない。更に、コピーされ
たバンド間にはフェーズオフセットエラー(pHase
 offseterror )があるのが普通である。
これによって、再生成された高周波残留部とベースバン
ド残留部内の強い周波数間には不適当な倍音上の関係が
生ずる0通常・ピッチ不一致(pj、tch inco
ngruence)またはハーモニックオフセットと呼
ばれるこの効果は、処理中の音声メツセージに重ねられ
た、望ましくないパックグラウンrピッ升として感知さ
れる。この効果は高いピンチの話者には最も顕著である
。しかし、オフィス用品質の音声メッセージシステムで
は、この効果は受入れられない。
従って、本発明の目的はピッチ不一致のないベースバン
ド音声エンコードおよびデコードを実行できる装置を提
供することである。
本発明の他の目的は、ピッチ不一致なしに高品質音声を
再生でき、残留信号のエンコードに最小の帯域幅のみを
必要とする音声コーディングシステムを接供することで
ある。
更に本発明の目的は、ピッチ不一致のない経済的な音声
コーディングシステムを提供することである。
本発明はげ一変帯域幅のベースバンドコーディングシス
テムを教示、する。入力音声の各フレームで、1、PC
パラメータの他に、入力音声のピッチの近似が得られる
。このピッチ情報を用いて、各7v−ムに対するベース
バンドの実際の幅が、基本ピッチ周波数の整数倍を含む
幅(規格ベースバンド幅に出来るだけ近く)なるように
決定される。
更に、ベースバンドの下端(最初に送出されるFF’I
”ザンゾル)は、基本ピッチに最も近いFFTサンプル
として選択される。これによって、サブハーモニックピ
ッチ、スプリアスピンチ、および低周波広帯域雑音は、
コピー処理に不都合な影響を4えることができなくなる
本発明は音声信号のピッチを追跡す”ることを必要とす
る。これは、下記の説明の如く、種々の方法で行うこと
ができる。
本発明によれば、以下の装置が提供される。すなわち、 入力音声信号をエンコードするための入力音声信号エン
コード装置は、 前記入力音声信号からLPCPCパラメータ応する残留
信号を抽出する線型予測コーディング(LPC)分析フ
ィルタと、 前記音声イH号からピッチ周波数を抽出する前記ピッチ
エステイメータと、 前記ピッチ周波数の整数倍になっているベースバンドを
超えるような前記残留信号内の周波数を除くため前記残
留信号をフィルタするための装置と、 前記1m、PCパラメータと、前記フィルタされた残留
信号とに対応する情報をエンコードするエンコーダとを
備えたことを特徴とする前記入カ音声信づエンコード装
置。
発明の実施t((1様 不発明全、その実施例を参照して説明する。しかじなが
()肖業者には当然なように、本発明は多様な修正や変
形においても実施できる。本発明はベースバンド蒔声コ
ーディングで、可変幅のベースバンドの使用を教示する
最初のものと考えられ、−’f、゛れ故、以下に記述す
る特定項目に限定される方法のみならず、全てのベース
バンド音声コーディングに応用「り能である。
本発す」による音声エンコードシステムの一般的構成を
第4図に示す。即ち、音声入力(マイク10、プリアン
プ12、およびコンバータ14から)は−組のLPGパ
ラメータ18を提供するためLPG分析フィルタ16で
処理される。このLPCパラメータ18は当業者には周
知のように、反射係数によまた値他の等価な一組のパラ
メータでよい。
LPCパラメー!18は、エンコーダ20で直ちにエン
コードされ、エンコードされたパラメータ22は、チャ
ネル24を通して記憶されるか送信されるエンコード済
音声信号の一部となる。望ましい実施例では、LPCパ
ラメータは、エンコーダ後直ちに送信機でデコードされ
、これらのデコードされたパラメータはLPCフィルタ
を実現するために使用される。続いて、該入力は、残留
信号26を得るため再構成されたLPGフィルタで処理
される。
即ち、望ましい実施例では、LPc残留信号26は、エ
ンコー−およびデコードされたT、PCパラ、メータを
基にLPGフィルタを用いて得られる。このことは厳密
には必要というのでなく(つまり、残留信号26は当初
得られたパラメータ値からも単+V’llに得られるが
)、望ましいのである。これは、受信機が実際に受信す
るエンコード後のパラメータ22内に含まれるコーディ
ング雑音が残留信号ノロ内でh1i償され得るからであ
る。
次に、残留信号26は、ディスクリートなフーリエ変換
28の入力としで用いられる。この変換28は、フルパ
ント周波数サンプル30を得るため当然なことに、FF
Tが望ましい。
本発明の望ましい実施例では、入力音声は、′16ビツ
トの精度で、8kH2でサンプルされる。
1、、’L)Cモデルは、フレーム周期16 msとウ
ィンドー長’y Omsの、次数10に選択される。勿
論、本実施例のこれらの特定な項目は大きく変化させる
ことが百丁能である。例えば、当業者に公知のように、
よシ低いまたはより高い次数のLPCモデル化が可能で
あるし、フレーム周期、ウィンドー長、およびザンープ
ルレートは全て、極めて広い範囲に変化できる。
これらのサンプルおよびモデル技術を用いて、音声の各
フレームは120サンプルを含む。従って128点を有
するFFTを各フレーム周期毎に計算するのが望ましい
。このことは隣接フレーム間に8点の重複があることを
意味するので、第5図に示すように、望ましくは、台形
のウィンに−が、隣接フレーム間にスムーズなウィンド
ーの重なりを与えるために使用される。従って、このス
テライの結果、OkHzから8 kllzまでの128
個の周波数領域サンフ0ル点の昏々に、強度と位相を得
る。
続いて、エステイメータ32が、ピッチ(およびポイシ
ング)データ33(従来、無声フレームは零ピッチを有
するものとして示される)を検出するために使用される
。ピッチ周波数よシ低い周波数サンプルは捨てられる(
ステップ36)。
次に、ベースバンド周波数を超える周波数に対応するF
Ij叩出力出力てのサンプルは捨てられる(ステップ3
8)。ベースバンド周波数は入力の2ソチに従って決定
される。
残留信号は、実際、ベースバンドを超える残留信号内の
周波数を除くためにフィルタされる。望ましい実施例で
は、これは周波数領域で行われるが、絶対に必要という
のではない。受信機内で実行されねばならないコピー処
理は望ましくは周波数領域で行われるので、残留信号を
周波数領域でフィルタするのが望ましい。望ましい実施
例では、送信機内および受信機内において、各フレーム
毎に1回のF’F’T動作を必要とし、これによって、
処理負荷を等しくし、全′処理負荷を減じている。
第4図に示すように、ポイシング(voicing )
およびピッチ決定(ステップ32)のため、および、ピ
ッチパラメータp(無声音声を示すため任意に0にセッ
トできる)を作成するためにも入力音−声が使用される
。望ましい実施例では、ピッチ抽出は、Gold −R
abinerピッチ追跡で行われるが、当業者に周知の
いかなるピッチ抽出技術を代替として用いてもよい。G
o]、d −Rabjnerピッチ追跡は、ここで参考
文献として挙げるA、cou、s trlcalSoc
、 ofAmerica 、 vol 、46 、 p
p442 448(1969)にお、けるGoldおよ
びRa b j、n e rによる” Parn、1.
LnJ、 Processing Technj、qu
es for’J:’ransmitting Pit
ch Periods of 5peech in t
he’I’ime I)omain ”に記載されたよ
うに実行される。
別の参考文献としてはRabinerおよび()old
による” Theory and Applicati
on of Digitalsignal Proce
ssing(1975)、があるので、特にその12.
11章を参照願い度い。
また、ピッチ追跡およびポイシング決定は、1986年
4月16日に出願された米国特許出願第484.718
号に記載されたようにも実行できる。
入力音声が無声であると、ベースバンド幅は、望ましい
実施例では10001Tzとした(広範囲で修正用)規
格ベースパンP値に、セットされるたけである(ステッ
プ40)。
零でないピッチが検出されれば、ピッチpに関して一致
するようにベースバンドW(参照番号42)が決定され
る。望ましい実施例では、ベースバンド幅は、規格ベー
スバンド幅に最も近いピッチpの整数倍に等しいように
選択される。即ち、例えば、望ましい実施例では、ベー
スバンド幅は100 [J llzであって、こ\で、
入力音声のフレームのピンチが220 Elzであれば
、規格ペース2712周波数に関するこの周波数の整数
倍で最も近い(直は1 ’I [J IJ llzとな
り、従って、このフレームに対してに、1. 、ベース
バンド幅として110011zが選択される1、1)−
まり、ベースバンド幅はW == np 。
即ちピッチ])の整数値に選ばれるので、ベースバンド
が受(Fr Iffでコピーされると、ベースピッチと
ベースピッチの高調波がベースピンチの高次高調力砧に
重ねてコピーされkp+w−(k+n)pとなる。この
例で、局所フレームのピンチが220117でなく22
511zであれば、規格ベースバンド周波数の整数倍に
最も近い周波数は900 Hzであシ、幅Wは9 U 
U llzにセットされる。
このステップも広範囲で修正、変化させることができる
ことに留意され度い。例えば、ベースバンド幅は入力音
声のピッチと一致すべきだが、上述の如く、所与の(規
格)ベースバンド幅に最も近い一致したピッ、チである
ように、選択される必要はない。例えば、可変ベースバ
ンド幅を、簡単に、規格幅の次の大きい、または、最大
規格幅の次に小さい一致した幅として定義することもで
きる。
更にステップ36は、零でないピッチ周波数検出時に使
用され、p未満の周波数を有する全ての周波数サンプル
を除く。このステップは本発明に、は必要でないが、低
周波雑音(1/f雑音等)およびスプリアスピッチやサ
ブハーモニックピッチを防ぐのに役立つので望ましい。
この場合、ベースバンドの高周波数はWに等しくないこ
とが望ましいが、W+pであることがよい(ステップ3
8)。
しかし、コ一する周波数のノ・−モニツクの関係がピッ
チに関して保存されている限シにおいて重要ではない。
ベースバンド幅Wが定められると、ベースバンド内にあ
る周波数サンプル44のみが送出される。
即ち、送出される第一周波数サンプルはピッチpに最も
近い周波数であることが望ましく、最終周波数サンプル
はpとベースバンド幅Wを加えた値に最も近いものであ
ることが望ましく、更に、これら02個の周波数サンプ
ル間の範囲外の周波数サンプルは送出されない。
この範囲、pとWの間の全ての周波数を送出することは
厳密には必要ではない。即ち、周波数サンプルの強度が
ある最小値よりも高い該範囲内の周波数の部分集合のみ
を送信するため、史にバンド幅を圧縮することが望まし
い。この周波数の部分集合(ノイズフロアを任意に加え
てもよい)は、逆F’FT 46の入力として使用され
る。これは品質をや\低下させるが、コーディング効率
を太いに上げる。
送出されるべき周波数サンプルをエンコードするには、
ベースバンド周波数サンプル44は望ましくは極座標に
変換される。更に、ベースバンドサンプルの強度は、ベ
ースバンド周波数サンプルの強度をエンコードするのに
必要な動的範囲に圧縮するため、全ベースバンド(ステ
ップ52で検出)のRMSエネルギ値50を用いて規格
化されるのが望ましい(ステン7ゾ48)。従ってエン
コードされたパラメータの全集合は、LPCパラメータ
22、zl?イシングおよび2ツチp54、ベースバン
ドの淋侶エネル¥56、およびベースバンド範囲内の各
周波数サンプルの規格化された強度と位相を含んでいる
当然ながら、等化な情報がエンコードされている限り、
これらのパラメータ通シにエンコードする必要はない。
即ち、例えば、ベースバンド内の周波数サンプルを、ピ
ッチル1従ってベースバンド幅Wが、ベースバンド内の
周波数の個数で示されるようにエンコードすることもオ
プションとして可能である。
このシステムのデコードステージは、デコードされたベ
ースバンド601をよシ高いバンド1でコピーすること
によって、フルパント残留信号の近似を再構成する。即
ち、受信機が受信したエンコードされたパラメータの集
合から、上記のように(ステップ064で)ピッチp3
31がベースバンド幅ノψ421を一意的に定める。
次に送出されたベースバンド内の周波数ザンプルがデコ
ードされ、ベースバンドの間隔でコピーされる(ステッ
プ66)。即ち、ベースバンド内の各周波数fkは、所
望のフルパント幅(通常4kllz )まで、追加の周
波数W +fk、 2 W + fk等」二にマッシさ
れる。コピーされた周波数の強度は尼の周波数の強度に
等しくとることもできるし、または、高い周波数に対し
て強度を線型にまたは指数的に上げることも(Jrol
led off )できる。
つ!、シ、次式で示される時間領域内で示したベースバ
ンド周波成分 Aknxp (i (fl(t+ψk))’ (2)を
よ、以下のす01度の高調波、にコピーされ得る。
Ak (”Xl’l (i ((fl(+ nW ) 
t+ψk))またはuL nxl+ (i、 ((fk
+ nW ) t+ψk))(ろ)11 これらの全ての実施例は、本発明の範囲内のものである
本発明のシステムの合成部分に実行できる他の変更は、
コピーされた周波数に対する位相変更である。即ち、コ
ピアされた周波数の位相を、例えば、線型相シフト定数
Cに従って変更することも望ましいであろう。こうする
と、ベースバンド周波数は次式のように位相シフトされ
たハーモニック周波数にコピーされる。
Akexp (i ((fk+nW)t→−ψに+ n
cW ) ) (4)これらの変更は、望ましい実施例
の範囲ではないが、オプションであり、本発明の範囲で
はある。
最も効果的なエンコーディングのために、送信される異
ったパラメータに対して、種々のコーディング技術を使
用できることに留意願い度い。望ましい実施例では以下
のエンコーディングを使用している。
表 1 パラメータ ビット/フレーム コーディング技術反射
係数 42 最小偏差法 ピンチ 6 ログ ベースバンドRMS7 線型/ログ F’FTマグニチュード 2/マグニチユード 最大エ
ントロピーFF’J’フェーズ ろ−4/フエーズ 一
様本発明は、要するに可変レートコーディングなるもの
を提供することに留意願い度い。即ちベースバンドが可
変なので、各フレーム内に送信される周波数ザンゾルの
個数も可変となシ(望ましい実施例)、これによって変
化されたコーディングレートが得られる。しかし、レー
トの変化は、発声の経過の31′均をすることになシ、
平均コーディングレートは、使用されるベースバンドが
単に各フレーム内の規格ベースバンドである場合に得ら
れるようなコーディングレートに極めて近づく。
送信されたベースバンドが、受信機で、完全な残留信号
の周波数スペクトルを提供するためにコピ゛−されると
、逆FFT 46が残留エネルギ信号をrI■生成する
ために実行される。望ましくは、瞬接フレームの再生成
された残留信号間で、平均処理がオーバララップし、受
信機内のLPC合成フィルタにスムーズな励起関数を与
える。
これによって、再生成された残留エネルギ信号が得られ
、単純な変換68によって、デコードされた反射係数1
8′が反転フィルタ係数69に変えられる。これらは、
第6図に示すように受信機内で音声48号を再生成する
ために使用される。
即ち、ベースバンドエネルギスカラ50′はベースバン
ド周波数サンプルの強度を再規格化するのに使用される
(ステップ80)。更に、ピッチボイシング33′はベ
ースバンド幅w42を計算するために使用される。再規
格化されたベースバンド周波数サンプル44′はコピー
される(ステップ66)。即ち、各周波数fkの強度と
位相が周波数fk十W、fk+2W等の強度と位相を定
める。
これによって、励起関数の全周波数領域表示30′が得
られ、更にFF″工゛ステップが、この周波数領域情報
を時系列uk 26’に変換するために使用される。こ
の推定励起関数ukは、LPC反転フィルタ10の入力
として用いられる。LPCフィルタ70は、元の音声人
力15の適当な推定である推定時系列Sk 72を提供
するため、LPCパラメータ69に従って、推定励起関
数26をフィルタする。
オプションとして、エネルギ規格化を行うこともできる
。この場合、フレームエネルギに対応して推定時系列s
kを調整するために、精密アンプ段が使用される。
望ましい実施例では、フレームエネルギはエンコーげさ
れたパラメータの1個ではない。しかし残留信号のエネ
ルギはフレームエネルギ(7)推定値を(不完全である
が)提供し、残留エネルギは、コピ′−ステップで乗算
されたベースパンげエネルギによって与えられる周波数
領域情報から検出される。
本発明の可変ベースバンドコーディング法では基本帯域
幅のフレーム間の変化は必らずしもスム・−ズでないこ
とは注意に値する。実際、フレーム間のベースバンド幅
には、大きなギャプが見られるのが典型的である。
ベースバンド幅の計算は多くの誤りを生ずる可能性を含
んでいる。そのような誤りの原因としては、ディスクリ
ートなフーリエ変換操作での限定された分)vtがある
。他の原因としては、ピッチの191X子化がある。ピ
ッチの縫子化は、ピンチ周期がリーンゾル周期の整数倍
であるという本質的な制約がある。
本発明は11.’780において実施されている。
しかし、上記のように、本発明の将来への応用として考
えられる最良のモードは、ミニコンピユータシステムよ
りもマイクロコンピュータシステムであり、望ましくは
、多くのマイクロコンピュータシステムが、音声メツセ
ージおよび音声メール処理のためにローカルネットワー
ク(または電話回線)を介して相互接続された環境であ
る。
即ち、こ\で実施される本発明は、高精度データ変換(
D/A 、 A/D )、高ギガバイi・ノーードディ
スクドライブ、および9600ポーモデムを使用する。
これと対比して、本発明を用いるマイクロコンピュータ
ベースシステムは、望まシくハずっと経済的に構成され
る。例えば、8080ペースシステム(例え、ば’PI
 Professional Computer)は、
よp低い精度の(例えば、12ビツトの)データ変換チ
ップ、フロッピディスクまたは小型Wincbeste
rディスクドラ・iプ、および望ましくはモデム(−i
:たはcoder )と共に使用できる。上記のコーデ
ィングパラメータを用いれば、9600ポーチ−)・ネ
ルは、はソリアルタイムの音声伝送レートを力えるが、
当然ながら、この伝送レートは、バッファリングと記憶
処理がいずれにしでも必要であるので、音声メール応用
には不適当である。
当業者に自明なように、本発明は広範囲に修正と変更と
がi’J能であり、従って、特許請求の範囲に記載事項
以外には制限されるものではない。
【図面の簡単な説明】
第1図は、本発明が実施されるLPCベースバンド音声
コーディングシステムの一般的ブロック図であり、第2
図は、本発明による、入力音声のピッチで変化されたベ
ースバンド幅の特定例を示す図であり、第6a図から第
5C図は本発明の装置の効果を示すスペクトル図であっ
て、第6a図はjLの残留信号のスペクトル図、第3b
図は、従来技術による固定バンド幅のベースバンドで再
生成された残留信号のスペクトル図、および、第6C図
は、本発明による可変幅ベースバンドを用いて再生成さ
れた残留−信号のスペクトル図であり、第4図は本発明
による音声エンコードシステムの−般的構成を示す図で
あp1第5図はFFTへの入力を提供するためフレーム
オーバーラビングに使用されるのが望ましいウィンドウ
を示す図であり、第6図は本発明による音声デコード局
の一般的構成を示す図である。 符号の説明 10・・マイク、12・・・プリ′アンゾ、14・・・
A/Dコンバータ、16・・・LPC分析フィルタ、2
0・・・エンコーダ、24・・・チャネル、28・・・
FFT、32・・・ピッチおよび音声エステイメータ、
46・・・FF’r逆変換、70・・・LPC反転フィ
ルタ、74・・・D/Aコンバータ、76・・・オーデ
ィオアンプ、18・・音響変換器。 代理人 浅 利 皓 図1のf拓Z(内容1こ変更なし) Flグ、/ し二°・ノ+同ン岩ε数(HzI Ft’g、2 手続補正書(方式) 昭和【7釘 よ月//[コ 特許庁長官殿 1、事件の表示 111′拝[は7年111r′l願第2/ヌシご2 号
2、発明の名称 六方(L戸Aトtエンつ一ド事R1 3、補正をする者 −Il′lとの関1. 乃、:’1fl:11・11人
住 所 4、代理人 氏 名 (6669) ン曳 利 匡5.’l 、: 
、” :l・ノ 5、補正命令Q井1イj +1+(和、g’i’ 年7 rh 3/ )]6、補
正により増加する発明の数 7、袖ilの対象

Claims (1)

  1. 【特許請求の範囲】 (1)入力音声信号エンコード装置において、アナログ
    音声信号を受信するための大刀装置と、前記分析フィル
    タは前記大刀音声信号からLPCパラメータと対応する
    残留信号を抽出する線形予測コーディング(LPG )
    分析フィルタと、前記音声信号からピッチ周波数を抽出
    するピッチエステイメータと、 前記残留信号内のベースバンドを超える周波数を除くた
    め前記残留信号をフィルタするための装置であって、前
    記ベースバンド周波数が前記ピッチ周波数の整数倍に選
    択される前記フィルタ装置と、 前記LPCパラメータと、前記フィルタされた残留信号
    とに対応する情報をエンコードするエンコーダとを備え
    た前記入力音声信号エンコード装置。 (2、特許請求の範囲第1項において、前記残留信号は
    、前記エンコードステップによってエンコードされた前
    記LPCパラメータに従って抽出されるようになってい
    る、前記人力音声信号エンコーダ装置。 (3)特許請求の範囲第1項において、前記フィルタ装
    置は史に、前記ピッチ周波数未満の周波数を41する前
    記残留信号の部分を除くようになっている、前記人力音
    声信号エンコーr装置。 (4)特許請求の範囲第1項において、更に、受信機を
    備えており、この受信機は、 データチキネルに接続され、前記LPCパラメータと前
    記フィルタされた残留信号に対応する情報をデコードお
    よび出力する前記デコーダと、全帯域幅励起信号を生成
    するため前記フィルタされた残留信号をコピーするため
    の装置と、再構成された音声信号を提供するため前記L
    PCパラメータに従って前記全帯域幅励起信号をフィル
    タする+−,pCO−成フィルタとを含む、前記入力音
    ノ11信号エンコーr装置。 (5)特rt’l’ r−tI11氷の範囲第4項にお
    いて、前記フィルタされた残留信号は周波数領域情報の
    形でエンコードされ、前記コピー装置は前記フィルタさ
    れた残留情報をシフトし続いて逆フーリエ変換を行うよ
    うになっている、前記入力音声信号エンコード装置。 (6)特許請求の範囲第1項において、前記フィルタさ
    れた残留信号は周波数領域情報の形でエンコードされる
    ようになっている、前記入力音声信号エンコード装置。 (力 特許請求の範囲第1項において、前記LPCパラ
    メータは反射係数である、前記入力音声信号エンコード
    装置。 (8)特許請求の範囲第4項において、前記LPCパラ
    メータは反射係数である、前記入力音声信号エンコード
    装置。 (9) ’i?許請求の範囲第1項において、前記エン
    コーダは更に、前記ピッチ周波数に対応して情報をエン
    コードするようになっている、前記入力音声信号エンコ
    ード装置。 00)特許請求の範囲第1項において、前記ピッチエス
    テイメータは、史に、前記音声信号から音声決定を抽出
    し、史に前記エンコーダは前記音声決定に対応1〜゛〔
    IH報をエンコードするようになっている、前記人力音
    声信号エンコード装置。 (11)特Fl’ 請求の範囲第1項において、前記L
    PC分セ1フィルタは更に前記人力音声信号のRMSエ
    ネルギを測定し、前記エンコーダは更に、81f記音声
    信弓の前記■往ISエネルギに対応して情報をエンコー
    ドするよう釦なっている、前記人力音声信号エン;l−
    げ装置。 (11リ 特許請求の範囲第4項において、前記LPC
    分1)1フイルタは史に前記入力音声信号のl(MSエ
    ネル・rを測定し、前記エンコーダは更に、前記音声信
    号の前記1”JAE3エネルギに対応して情報をエンコ
    ードするようになっている、前記入力音声信号エンニl
     −ド 装 置 。 (13)特許請求の範囲第12項においで、前記デコー
    ダは、史に、前記人力音声信号の前記iws信号に対応
    して情報をデコードし出力し、史に前記入力音声信号エ
    ンコード1.り置には前記LPC,@成フィルタに接続
    され、前記入力信号の前記RMS信号に対応する前記情
    報に従って前記再構成された音声信号を増幅する前記増
    幅器が備えられている、前記入力音声信号エンコード装
    置。 a4 人力音声信号エンコード方法において、前記入力
    音声信号からLPCパラメータと対応する残留信号を抽
    出し、前記LPCパラメータは予め定められたフレーム
    率でフレーム毎に1度抽出されるステップと、 前記入力音声信号のピッチを推定するステップと、 前記残留信号内のベースバンド周波数を超える周波数を
    除くため前記残留信号をフィルタし、前記ベースバンド
    周波数は前記ピッチの周波数の整数倍であるステップと
    、 前記LPCパラメータと前記フィルタされた残留信号と
    に対応する情報をエンコードするステップとを含む前記
    方法。 u9 特許請求の範囲第14項において、前記フィルタ
    ステップは前記残留信号をフーリエ変換することと、前
    記ベースバンド周波数を超える周波数を前記フーリエ変
    換された残留信号から除くことを含む前記フィルタステ
    ップである、前記方法。 (16) 音声をディジタルで送信する方法において、
    入力tη声傷信号受信するステップと、前記人力jf声
    倍信号らLPCパラメータと対応する残留信号とを抽出
    し、前記LPGパラメータは各フレーム期間に1度抽出
    され、前記フレーム期間は予め定められた時間であるス
    テップと、各前記フレーム期間中に前記入力音声信号の
    ピッチを推定するステップと、 前記残留信号中のベースバンド周波数を超える周波数を
    除くため前記残留信号をフィルタし、前記ベースバンド
    周波数は前記ピッチ周波数の整数倍であるステップと、 前記り、PCパラメータと前記フィルタされた残留信号
    とに対応する情報をエンコードするステップと、 前記LPCパラ人−夕と前記フィルタされた残留信号と
    に対応する情報をデータチャネルに転送するステップと
    、 前記データチャネルからの前記LPGパラメータと前記
    フィルタされた残留信号とに対応する情報をデコードす
    るステップと、 全帯域幅励起信号を生成するため前記フィルタされた残
    留信号をコピーするステップと、再構成された音声信号
    を提供するため前記LPCパラメータに対応して前記励
    起信号をフィルタするステップとを含む前記方法。
JP59071927A 1983-04-13 1984-04-12 人間の音声エンコード装置及び方法 Granted JPS6035799A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/484,720 US4667340A (en) 1983-04-13 1983-04-13 Voice messaging system with pitch-congruent baseband coding
US484720 1990-02-22

Publications (2)

Publication Number Publication Date
JPS6035799A true JPS6035799A (ja) 1985-02-23
JPH0516599B2 JPH0516599B2 (ja) 1993-03-04

Family

ID=23925323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59071927A Granted JPS6035799A (ja) 1983-04-13 1984-04-12 人間の音声エンコード装置及び方法

Country Status (4)

Country Link
US (1) US4667340A (ja)
EP (1) EP0124728B1 (ja)
JP (1) JPS6035799A (ja)
DE (1) DE3476479D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008018318A (ja) * 2006-07-12 2008-01-31 Shin Meiwa Ind Co Ltd 汚泥濃縮装置およびそれを備えた汚泥濃縮車

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0208712B1 (en) * 1984-12-20 1993-04-07 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
US4790016A (en) * 1985-11-14 1988-12-06 Gte Laboratories Incorporated Adaptive method and apparatus for coding speech
WO1986003873A1 (en) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
EP0243562B1 (en) * 1986-04-30 1992-01-29 International Business Machines Corporation Improved voice coding process and device for implementing said process
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US5003604A (en) * 1988-03-14 1991-03-26 Fujitsu Limited Voice coding apparatus
US5127054A (en) * 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JPH0612098A (ja) * 1992-03-16 1994-01-21 Sanyo Electric Co Ltd 音声符号化装置
US5761633A (en) * 1994-08-30 1998-06-02 Samsung Electronics Co., Ltd. Method of encoding and decoding speech signals
US5664053A (en) * 1995-04-03 1997-09-02 Universite De Sherbrooke Predictive split-matrix quantization of spectral parameters for efficient coding of speech
DE69629485T2 (de) * 1995-10-20 2004-06-09 America Online, Inc. Kompressionsystem für sich wiederholende töne
DE19629946A1 (de) * 1996-07-25 1998-01-29 Joachim Dipl Ing Mersdorf Ein LPC-basiertes Verfahren zur Analyse und Synthese von Sprachgrundfrequenzverläufen mittels Filterparametrisierung und Restsignalapproximation
US5751901A (en) * 1996-07-31 1998-05-12 Qualcomm Incorporated Method for searching an excitation codebook in a code excited linear prediction (CELP) coder
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
AUPR433901A0 (en) 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
US8605911B2 (en) 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
ATE288617T1 (de) 2001-11-29 2005-02-15 Coding Tech Ab Wiederherstellung von hochfrequenzkomponenten
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
WO2006000951A1 (en) * 2004-06-21 2006-01-05 Koninklijke Philips Electronics N.V. Method of audio encoding
WO2008108719A1 (en) * 2007-03-05 2008-09-12 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for smoothing of stationary background noise
RU2011129606A (ru) * 2008-12-16 2013-01-27 Конинклейке Филипс Электроникс Н.В. Обработка речевого сигнала
US20110257978A1 (en) * 2009-10-23 2011-10-20 Brainlike, Inc. Time Series Filtering, Data Reduction and Voice Recognition in Communication Device
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2672512A (en) * 1949-02-02 1954-03-16 Bell Telephone Labor Inc System for analyzing and synthesizing speech
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US4220819A (en) * 1979-03-30 1980-09-02 Bell Telephone Laboratories, Incorporated Residual excited predictive speech coding system
US4330689A (en) * 1980-01-28 1982-05-18 The United States Of America As Represented By The Secretary Of The Navy Multirate digital voice communication processor
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008018318A (ja) * 2006-07-12 2008-01-31 Shin Meiwa Ind Co Ltd 汚泥濃縮装置およびそれを備えた汚泥濃縮車

Also Published As

Publication number Publication date
EP0124728A1 (en) 1984-11-14
EP0124728B1 (en) 1989-01-25
JPH0516599B2 (ja) 1993-03-04
DE3476479D1 (en) 1989-03-02
US4667340A (en) 1987-05-19

Similar Documents

Publication Publication Date Title
JPS6035799A (ja) 人間の音声エンコード装置及び方法
CN101183527B (zh) 用于对高频信号进行编码和解码的方法和设备
CN1838239B (zh) 一种用于增强信源解码器的设备及方法
US9037454B2 (en) Efficient coding of overcomplete representations of audio using the modulated complex lapped transform (MCLT)
JP4302978B2 (ja) 音声コーデックにおける擬似高帯域信号の推定システム
US6463406B1 (en) Fractional pitch method
US20040138886A1 (en) Method and system for parametric characterization of transient audio signals
JPH11177434A (ja) 音声符号化復号方式
JP3087814B2 (ja) 音響信号変換符号化装置および復号化装置
Krasner Digital encoding of speech and audio signals based on the perceptual requirements of the auditory system
JPH07199997A (ja) 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法
Bhatia et al. Matrix quantization and LPC vocoder based linear predictive for low-resource speech recognition system
JP4274614B2 (ja) オーディオ信号復号方法
JP2958726B2 (ja) 反復性をもつサンプル化アナログ信号をコード化しデコードするための装置
KR20060067016A (ko) 음성 부호화 장치 및 방법
JP4618823B2 (ja) 信号符号化装置及び方法
Sunitha et al. Speech compression for better audibility using wavelet transformation with adaptive kalman filtering
JPH0736484A (ja) 音響信号符号化装置
KR20080034819A (ko) 부호화/복호화 장치 및 방법
WO2002013181A1 (fr) Procede de traitement de signaux numeriques, procede d'apprentissage, appareils associes, et support de stockage de programmes
KR100196387B1 (ko) 성분 분리를 통한 시간 영역상의 음성피치 변경방법
Basu Analysis of Different Aspects of Speech Signal Using Delta Modulation Technique
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법
Nagaswamy Comparison of CELP speech coder with a wavelet method
JPH0198000A (ja) 音声信号を処理するための方法と装置