JP2738534B2 - 異なる型の励起情報を有するディジタル音声符号器 - Google Patents

異なる型の励起情報を有するディジタル音声符号器

Info

Publication number
JP2738534B2
JP2738534B2 JP61504119A JP50411986A JP2738534B2 JP 2738534 B2 JP2738534 B2 JP 2738534B2 JP 61504119 A JP61504119 A JP 61504119A JP 50411986 A JP50411986 A JP 50411986A JP 2738534 B2 JP2738534 B2 JP 2738534B2
Authority
JP
Japan
Prior art keywords
pitch
speech
frame
signal
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61504119A
Other languages
English (en)
Other versions
JPS63500682A (ja
Inventor
ソーンレイ ハートウェル,ウォルター
ピコーン,ジョセフ
パノス プレザス,デミトリオス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPS63500682A publication Critical patent/JPS63500682A/ja
Application granted granted Critical
Publication of JP2738534B2 publication Critical patent/JP2738534B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は音声処理に係り、特に音声合成器の励起を目
的とするディジタル音声符号化装置に関する。 発明の背景 音声蓄積および音声応答装置を含むディジタル音声通
信システムは蓄積および/または伝送に要求されるビッ
ト速度を減少させるために信号圧縮を使用している。例
えば米国特許第3,624,302号中で述べられているような
周知のディジタル音声符号化システムは入力音声信号の
線形予測解析を行っている。音声信号は相続く時間期間
に分割され、音声の一時間期間を表わすパラメータの組
が発生される。パラメータの組は該時間期間中の音声の
スペクトル包絡線を表わす線形予測係数信号と、音声励
起に相応するピッチおよび音声信号を含んでいる。これ
らパラメータ信号は音声信号波形それ自身よりずっと低
速度で符号化され得る。入力音声信号の複製物が合成に
よってパラメータ信号符号から形成される。合成装置は
通常声道のモデルを含んでおり、この声道のモデルにお
いて励起パルスは全極予測フィルタのスペクトル包絡線
を表わす予測係数によって修正される。この型のピッチ
励起された線形予測符号化は極めて効率的であるが、発
生された音声の複製物はしばしば理解することが困難な
人造的品質を有している。 他の周知のディジタル音声符号化システムが米国特許
第4,472,832号中に述べられている。この分析および合
成システムにあっては、励起に対するLPCパラメータお
よび修正された残差信号が伝送される。励起信号はLPC
フィルタのインパルス応答と元の信号の∧相互相関のピ
ークから選択されたパルス列である。この型の励起はし
ばしば当業者にあっては∧マルチパルス励起と呼ばれ
る。このシステムは良好な音声の複製物を発生するが、
最小ビット速度が約9.6kbsに制限されている。更に、有
声領域において、音声の複製物は知覚し得る程度の粗さ
を有する傾向にある。またこの方法は多数の複雑な計算
を必要とする。 前述のことより、音声波の有声期間中および音声波の
無声期間中において精確な音声の複製物を発生し得るよ
うな分析・合成システムへの要求が存在する。更に、よ
り低ビット速度を有することが望ましい。 発明の要旨 前述の問題点は本発明の原理に従い音声の有声期間中
はピッチ励起を利用し、音声の無声期間中は雑音以外の
励起を利用することを許容する分析・合成システムなら
びに方法により解決された。 音声を符号化する本発明の方法は音声を相続く時間フ
レームに分割し、各フレームに対し声道を定義する音声
パラメータ信号の組を発生し、有声音声より成る前記音
声フレームの各々に対し有声信号を発生し、無声音声よ
り成る前記音声フレームの各々に対し無声信号を発生
し、有声信号によって有声であると指示された音声フレ
ームの各々に対するピッチ型励起情報と無声信号によっ
て無声であると指示された音声フレームの各々に対する
雑音以外の型の励起情報より成る符号化された励起信号
を発生し、フレームの各々に対する結果として得られた
符号化された励起信号および音声パラメータ信号を組合
わせて音声を表わす符号化された組合わされた信号を形
成するステップより成る。 有利なことに雑音以外の型の励起情報はフレームの各
々に対するパラメータ信号の組のインパルス応答と元の
音声の∧相互相関のピークから選択されたパルス列であ
る。また、パラメータ信号の組を発生するステップは声
道をモデル化する線形予測係数を生成することより成
る。 また、分割ステップはフレームの各々に対する音声パ
ターンの音声サンプルを形成し、各フレームに対する音
声パターンの残余サンプルを生成することより成る。ピ
ッチ型励起情報を発生するステップは各フレームの音声
サンプルの正および負のサンプルに対し夫々第1および
第2のピッチ値を推定し、正および負の残余サンプルに
夫々応動して第3および第4のピッチ値を推定し、以前
の内で最も最近の音声フレームに対する推定されたピッ
チ値および複数個の以前の音声フレームおよび現在の音
声フレームに対するピッチ値に応動して以前の内で最も
最近の音声フレームの最終ピッチ値を決定するステップ
を含む。 更にピッチ値を決定するステップは推定されたピッチ
値からピッチ値を計算し、計算されたピッチ値が以前の
フレームからの計算されたピッチ値と一致するように最
終ピッチ値を制約するステップを含んでいる。 有利なことに、本方法は元の音声の複製物を発生する
以下のステップを含んでいる。即ち励起がパルスかまた
はパルス型励起かを検出し、LPCパラメータに応動して
前記声道をモデル化し、後者が検出されたときピッチ型
励起を使用してモデルを駆動するべく励起を発生し、前
者が検出されたときパルス型励起を発生するステップを
含んでいる。 本発明の図示の分析および合成システムは、各々が予
め定められた数のサンプルを有する複数個の音声フレー
ムとして音声を量子化し、ディジタル化し、そして記憶
するユニットを含んでいる。他のユニットは各フレーム
のサンプルに応動して声道をモデル化する音声パラメー
タの組を計算する。検出ユニットは各フレームが有声で
あるか無声であるかを指示する信号を発生し、励起ユニ
ットは検出ユニットからの信号に応動してフレームが有
声であると指示されている場合にはピッチ型励起情報
を、またフレームが無声であると指示されている場合に
は雑音以外の型の励起情報を有する励起情報を発生す
る。最後に、チャネル符号器ユニットは励起情報と音声
パラメータの組を組合わせて合成サブシステムに伝送す
るのに使用される。 励起ユニットは相互相関を表わすパルス信号を発生す
るために線形予測パラメータであって良いパラメータ信
号の組のインパルス応答と各フレームの音声の相互相関
をとることによって雑音以外の型の励起情報を発生す
る。更に励起ユニットは相互相関パルスから雑音以外の
型の励起であるパルス列を選択する。 合成ユニットは励起情報と音声パラメータの組に応動
して合成フィルタを形成し、受信された情報が有声であ
る場合にはピッチ励起情報で、受信された情報が無声で
ある場合には雑音以外の型の励起情報でこのフィルタを
駆動することによって元の音声の複製物を発生する。 図面の簡単な説明 第1図は本発明に従うアナライザのブロック図; 第2図は本発明に従うシンセサイザのブロック図; 第3図は第1図のピッチ検出器148のブロック図; 第4図は音声フレームの候補パルスを示す図; 第5図はピッチ検出器のブロック図である。 詳細な説明 第1図は音声アナライザのブロック図であって、該ア
ナライザにあっては発声されたメッセージの如き音声パ
ターンはマイクロホン・トランスジューサ101によって
受信される。相応するアナログ音声信号は予測アナライ
ザ110のフィルタおよびサンプラ回路113中において帯域
制限され、パルス列に変換される。フィルタは4kHz以上
の音声信号の周波数成分を除去するよう作られており、
サンプリング速度は当業者にあっては周知の如く8kHzの
速度であって良い。サンプルのタイミングはクロック発
生器103からのサンプル・クロックCLによって制御され
ている。回路113からの各サンプルはA/D変換器115にお
いて振幅を表わすディジタル・コードに変換される。 音声サンプルの系列は予測パラメータ計算機に加えら
れる。この予測パラメータ計算機119は当業者にあって
は周知の如く音声信号を10〜20ミリ秒間隔に分割し、各
間隔のN>P音声サンプルの予測された短時間スペクト
ラムを表わす線形予測係数信号の組ak、k=1、2、
…、pを発生させる。A/D変換器115からの音声サンプル
は信号akの形成に要する時間を補償するため遅延回路11
7で遅延される。遅延されたサンプルは予測残差発生器1
18の入力に加えられる。当業者にあっては周知の予測残
差発生器は遅延された音声サンプルおよび予測パラメー
タakに応動してLPC予測誤差に相応する信号を形成す
る。予測アナライザ110中における予測パラメータおよ
び予測残差信号の形成は米国特許第3,740,476号で述べ
られている装置あるいは当業者にあって周知の任意の他
の装置によって実行される。 各々の相続くフレームに対する予測残差信号dkおよび
予測パラメータ信号akは後続のフレームの開始時点にお
いて回路110から励起信号形成回路120に加えられる。回
路120はマルチエレメント・フレーム励起コードECを発
生させるよう動作する。該マルチエレメント・フレーム
励起コードECはマルチパルス・コードあるいは修正残差
コードとも呼ばれ、各フレームに対し予め定められた数
のビット位置を有している。各々の励起コードはフレー
ムの励起機能を表わす1iIパルスの系列に相応し
ている。フレーム内の各パルスの振幅Diおよび位置Mi
励起信号形成回路で決定され、励起信号およびフレーム
の予測パラメータ信号からフレーム音声信号の複製を形
成することを許容するようになっている。DiおよびMi
号はコーダ131中で符号化され、信号路159を介してセレ
クタ161に転送される。回路120による励起コードEC、Di
およびMi信号の形成は米国特許第4,472,832号中で述べ
られている装置あるいは当業者にあって周知の任意の他
の装置に従って実行され得る。遅延回路133および128は
110、120および130の出力を時間的に整列させ、各出力
が同じ音声サンプルから取り出されたデータを同時刻に
マルチプレクサ152に加えるようにする。 ディジタル音声サンプルおよび残差サンプルに応動し
て、ピッチ検出回路130は音声フレームが有声か無声か
を決定する。音声フレームが無声であると決定される
と、ピッチ検出回路は信号路156を介して無声信号をデ
ータ・セレクタ161に送信する。これによりデータ・セ
レクタ161はコーダ131からの振幅および位置情報Diおよ
びMiを選択し、マルチプレクサに加える。マルチプレク
サは遅延回路128からの情報および信号路160を介して受
信された遅延回路131からのパラメータ情報に応動して
この情報を符号化し、ネットワーク153を介して第2図
のシンセサイザに伝送する。検出器回路130によりフレ
ームが有声状態であると決定されると、信号路156を介
して伝送された信号はセレクタ161をして検出回路130か
ら信号路154を介して伝送された該フレームに対するピ
ッチ情報を選択させ、マルチプレクサ152に加える。マ
ルチプレクサ152はピッチ情報およびパラメータ情報に
応動して該情報を符号化し、ネットワーク53を介して第
2図のシンセサイザに伝送する。 シンセサイザは第2図に示されている。デマルチプレ
クサ201はネットワーク153から信号路155を介して受信
された情報に応動して励起がマルチ・パルスかピッチか
を決定する。励起がピッチであるときは、ピッチ情報は
信号路209を介してピッチ発生器203に転送される。更
に、マルチプレクサはセレクタ204をしてピッチ発生器2
03の出力を選択させ、それによってこの出力は合成フィ
ルタ205の入力となり得る。またデマルチプレクサ201は
合成フィルタ205に線形予測符号化パラメータを入力
し、フィルタを適正な状態にセットする。合成フィルタ
205はセレクタ204およびLPC係数から受信された励起に
応動してディジタル形態の元の音声の複製を再形成す
る。D/A変換器206はこれらディジタル・サンプルに応動
して導線207上に相応するアナログ信号を発生する。 デマルチプレクサ201がネットワーク151から励起がパ
ルス励起であることを示す情報を受信すると、該デマル
チプレクサは振幅および位置情報を信号路208を介して
デコーダ202に転送し、信号路211を介してセレクタ204
をしてデコーダ202の出力を選択させ、合成フィルタ205
に加える。更に、デマルチプレクサ201はLPC係数を合成
フィルタ205に送信する。ここで合成フィルタ205および
D/A変換器206は前述と同様に機能する。 ここで第1図のピッチ検出回路130を更に詳細に考察
する。クリッパ143〜146はxおよびdなるディジタル化
された信号を正に向う波形および負に向う波形に変換す
る。これらの信号を形成する目的は混成波形は周期性を
明白には示さないことがあるがクリップされた信号は周
期性を明白に示すことがあるからである。従って周期性
の検出がより容易となる。クリッパ143および145はxお
よびd信号を夫々正に向う信号に変換し、クリッパ144
および146はxおよびd信号を負に向う信号に変換す
る。 ピッチ検出器147〜150は各々それ自身の個々の入力信
号に応動して入力信号の周期を決定する。ピッチ検出器
の出力は信号を受け取った2フレーム後である。各々の
フレームはこの例では160のサンプル点より成ることを
注意されたい。ピッチ選出器151は4つのピッチ検出器
の出力に応動して最終ピッチの決定を行う。ピッチ選出
器151の出力は信号路154を介して送信される。 第3図はピッチ検出器148のブロック図である。他の
ピッチ検出器も類似の設計である。最大値位置決定器30
1は各フレームのディジタル化された信号に応動して周
期性チェックが実行されるパルスを見出す。最大値位置
決定器301の出力は2組の数である。即ち候補サンプル
である最大振幅を表わす数Miと、これら振幅のフレーム
内の位置を表わす数Diである。位置検出器302はこれら
2組の数に応動して周期的である候補パルスの部分集合
を決定する。この部分集合は距離検出器302の決定した
このフレームの周期を表わしている。距離検出器302の
出力はピッチ追尾装置303に転送される。ピッチ追尾装
置303の目的はディジタル化された信号の相続くフレー
ムの間におけるピッチ検出器のピッチの決定を束縛する
ことにある。この機能を実行するため、ピッチ追尾装置
303は以前の2フレームに対して決定されたピッチを使
用している。 次に最大値位置決定装置301によって実行される動作
について更に詳細に考察する。最大値位置決定装置301
はまず最初にフレームからサンプル内において該フレー
ム中の大局的最大振幅M0およびその位置D0を同定する。
周期性検査のために選択された他の点は以下のすべての
条件を満さねばならない。まず第1にパルスは局部最大
でなければならない。即ち次に取り出されるパルスは既
に取り出されたかまたは除外されたすべてのパルスを除
いたフレーム中の最大振幅でなければならない。この条
件が適用されるのはピッチ・パルスは通常フレーム中の
他のサンプルより大きな振幅を有しているものと仮定し
ていることによる。第2に選択されたパルスの振幅は大
局的最大値のあるパーセンテージより大であるか等しく
なければならない。即ちMi>gM0でなければならない。
ここでgは閾値振幅パーセンテージであり、例えば25%
であってよい。第3にパルスは既に位置が決定されたす
べてのパルスから少くとも18サンプルは離れていなけれ
ばならない。この条件は人間の音声の最高ピッチは約44
4Hzであり、これは8kHzのサンプリング速度で18サンプ
ルとなるという仮定に基づいている。 距離検出器302は再帰的に動作し、フレームの大局的
最大値M0から最も近い隣接候補パルスへの距離を考察す
ることから開始する。この距離は候補距離dcと呼ばれ次
式で与えられる。 dc=|D0−Di| ここでDiは最も近い隣接候補パルスのフレーム内位置
である。フレーム中のパルスのこのような部分集合がこ
の距離からある幅Bを加減した値だけ離れていないと、
この候補距離は棄却され、新らしい候補距離を使用して
次の最も近い隣接候補パルスに対して再び過程が開始さ
れる。ここでBは4〜7なる値を有している。この新ら
しい候補距離は次の隣接パルスと大局的最大値パルスの
間の距離である。 一度ピッチ検出器302が距離dc±Bだけ離れた候補パ
ルスの部分集合を決定すると、内挿振幅テストが実行さ
れる。内挿振幅テストはM0と次の隣接候補パルスの各々
の間の線形内挿を実行し、M0に最も隣接した候補パルス
の振幅はこれら内挿値の少くともqパーセントであるこ
とを要求する内挿振幅閾値q%は75%である。第4図に
示す候補パルスの例を考える。dcが有効な候補距離であ
るためには次の関係が成立しなければならない。 および ここで dc=|D0−D1|>18 である。また先に指摘した如く Mi>gM0 i=1、2、3、4、5 ピッチ追尾装置は距離検出器302の出力に応動してピ
ッチの周波数と関連するピッチ距離の推定値を評価す
る。(何故ならばピッチ距離はピッチの周期を表わすか
らである。)ピッチ追尾装置303の機能は、4つのテス
ト(即ち音声セグメント開始テスト、最大息継ぎおよび
ピッチ倍化テスト、制限テストおよび急激変化テスト)
を実行することによって必要ならばピッチ検出器から受
信された任意の初期ピッチ距離の推定値を修正すること
によりピッチ距離の推定値をフレームからフレームにわ
たって矛盾のないように制約することである。前記テス
トの内の第1のものである音声セグント開始テストは有
声領域の開始時におけるピッチ距離の無矛盾性を保証す
るために実行される。このテストは有声領域の開始との
み関連しているので、該テストは現在のフレームは非零
のピッチ周期を有していると仮定している。即ち先行の
フレームおよび現在のフレームが有声領域中の第1およ
び第2の音声フレームであるという仮定である。ピッチ
距離推定値がT(i)(ここでiは距離検出器302から
の現在のピッチ距離推定値を表わす)で表わされるもの
とすると、ピッチ検出器303は各検出器を通ると2フレ
ーム分の遅れが生じるのでT(i−2)を出力する。
テストはT(i−3)およびT(i−2)が0またはT
(i−3)およびT(i−4)が0でT(i−2)が0
でないとき(これはフレームi−2およびi−1が有声
領域中の第1および第2の有声フレームであることを意
味する)のみ実行される。音声セグメント開始テストは
2つの無矛盾性テストを実行する。1つは第1の有声フ
レームT(i−2)に対するものであり、他方は第2の
有声フレームT(i−1)に対するものである。これら
2つのテストは相続フレームの期間中に実行される。音
声セグメント・テストの目的は有声領域が実際には開始
されていないときに有声領域の開始を定義する確率を減
少させることにある。これは有声領域に対するただ1つ
の他の無矛盾性テストは最大の息継ぎおよびピッチ倍化
テストで実行され、そこではただ1つの無矛盾性条件が
要求されるので重要である。第1の無矛盾性テストはフ
レームT(i−2)中の最右端の候補サンプルとフレー
ムT(i−1)中の最左端候補のサンプルの距離とピッ
チ距離T(i−2)がピッチ閾値B+2以内にあること
を保証するために実行される。 第1の無矛盾性テストに合格すると、第2の無矛盾性
テストが次のフレーム期間中に実行され、第1の無矛盾
性テストが示したのと同じ結果を1つだけ右にシフトさ
れたフレーム系列も与えることを確認するべく実行され
る。第2の無矛盾性テストに合格しないと、(T(i−
2)が0にセットされなかったとすると)フレームi−
1は第2の有声フレームとはなり得ないことを示すべく
T(i−1)は0にセットされる。しかし、両方の無矛
盾性テストに合格すると、フレームi−2およびi−1
は有声領域の開始を定義する。T(i−1)が0にセッ
トされ、T(i−2)は0でないと決定され、T(i−
3)は0であると(これはフレームi−2が無声フレー
ムの間の有声フレームであることを示す)、急激変化テ
ストはこの状況を考慮に入れる。この特殊テストについ
ては後述する。 最大息継ぎおよびピッチ倍化テストは有声領域中の2
つの隣接する有声フレームにわたるピッチの無矛盾性を
保証する。従ってこのテストはT(i−3)、T(i−
2)およびT(i−1)が0でないときにのみ実行され
る。最大息継ぎおよびピッチ倍化テストはまた距離検出
器302によって形成されたピッチ倍化誤差をチェック
し、補正する。チェックのピッチ倍化部分はT(i−
2)およびT(i−1)が無矛盾であるか、またはT
(i−2)がT(i−1)の2倍と無矛盾(これはピッ
チ倍化誤差を意味する)であるかをチェックする。この
テストは最初に、Aが値10を有するものとして |T(i−2)−T(i−1)|A によって実行されるテストの最大息継ぎ部分に合格する
かどうかをチェックする。前述の式が満されると、T
(i−1)はピッチ距離の良好な推定値であり、修正の
必要はない。しかし、テストの最大息継ぎ部分に失敗す
ると、テストのピッチ倍化部分に合格するかどうかを決
定するためにテストを実行しなければならない。テスト
の最初の部分はT(i−3)が0でないとして なる式によって定義されるピッチ閾値内にT(i−2)
およびT(i−1)の2倍が入っているかどうかをチェ
ックすることである。この条件に合うと、T(i−1)
はT(i−2)にセットされる。前述の条件に合わない
と、T(i−1)は0にセットされる。テストのこの部
分の第2の部分はT(i−3)が0に等しいと実行され
る。次の2つの式 |T(i−2)−2T(i−1)|B |T(i−1)−T(i)|>A が満されると、 T(i−1)=T(i−2) である。前述の条件が満されないと、T(i−1)は0
にセットされる。 T(i−1)に対して実行される制限テストは計算さ
れたピッチが50Hz〜400Hzの人間の音声の範囲内にある
ことを保証する。計算されたピッチがこの範囲内に入ら
ないと、T(i−1)は0にセットされ、フレームi−
1は計算されたピッチを有する音声フレームではあり得
ないことを示す。 急激変化テストは3つの先に述べたテストが実行され
た後で実行され、他のテストがあるフレームに対し無事
領域の中央で有声領域に、または有声領域の中央で無声
領域に入ったと判定したことを見出すのに使用される。
人間は通常このような音声フレーム系列を発生し得ない
ので、急激変化テストは有声−無声−有声または無声−
有声−無声といった系列を除去することにより有声また
は無声セグメントが少くとも2フレームは続くことを保
証する。急激変化テストは2つの前述した系列を検出す
る2つの別個の手順より成っている。ピッチ追尾装置30
3が前述の4つのテストを実行すると、該装置はT
(i−2)を第1図のピッチ選出器151に出力する。
ピッチ追尾装置303は距離検出器302からの次に受信され
るピッチ距離に対して計算を行うべく他のピッチ距離を
保持している。 第5図は第1図のピッチ選出回路を更に詳細に示して
いる。ピッチ値推定器501はピッチ検出器147〜150の出
力に応動して2フレーム前のピッチの初期推定値P(i
−2)を形成し、ピッチ値追尾装置502はピッチ値推定
値501の出力に応動して3つ前のフレームの最終ピッチ
値P(i−3)がフレームからフレームにわたって矛盾
しないように制約を加える。 さてここでピッチ値推定値501によって実行される機
能を更に詳細に考える。一般に、ピッチ値推定器501に
よって受信された4つのピッチ距離推定値がすべて0で
なく、有声フレームであることを示すと、最小および最
大の推定値は棄却され、P(i−2)は残りの2つの推
定値の算術平均にセットされる。同様に、ピッチ距離推
定値の内の3つが0でないと、最大と最小の推定値は棄
却され、ピッチ値推定値501はP(i−2)を残りの0
でない推定値にセットする。推定値の内2つのみが0で
ないと、ピッチ値推定器501は2つの値がピッチ閾値A
内にあるときのみ2つのピッチ距離推定値の算術平均に
等しくP(i−2)をセットする。2つの値がピッチ閾
値A内にないとピッチ値推定器501はP(i−2)を0
にセットする。この決定は、幾つかの個々の検出器はあ
る周期性を誤って検出したが、フレームi−2は無声で
あることを示している。4つのピッチ距離推定値の内の
ただ1つだけが0でないと、ピッチ値推定器501はP
(i−2)は0でない値にセットされる。この場合、以
前のピッチ推定値との無矛盾性を保つためこのピッチ距
離推定値の妥当性がピッチ値追尾装置502によりチェッ
クされる。ピッチ距離推定値すべてが0に等しいと、ピ
ッチ値推定器501はP(i−2)を0にセットする。 ピッチ値追尾装置502は次に更に詳細に考察する。ピ
ッチ値追尾装置502はピッチ値推定器501の出力に応動し
て3つ前のフレームのピッチ推定値P(i−3)を発
生するがこの推定値はP(i−2)およびP(i−4)
に基づいている。ピッチ値P(i−3)はフレームか
らフレームにわたって矛盾がないように選択される。 最初にチェックされるのは有声−無声−有声、無声−
有声−無声または有声−有声−無声の形を有するフレー
ムの系列である。P(i−4)およびP(i−2)が0
でなく、P(i−3)が0であるような第1の系列が生
起すると、最終のピッチ値P(i−3)はピッチ値追
尾装置502によりP(i−4)およびP(i−2)の算
術平均に等しくセットされる。第2の系列が生起すると
最終のピッチ値P(i−3)は0にセットされる。第
3の系列に関しては、ピッチ値追尾装置はP(i−4)
およびP(i−3)が0でなく、P(i−2)が0であ
ることに応動して、P(i−3)およびP(i−4)が
ピッチ閾値A内にある限り、P(i−3)およびP(i
−4)の算術平均にP(i−3)をセットする。ピッ
チ値追尾装置502は |P(i−4)−P(i−3)|A に応動して次の操作を実行する。 P(i−3)ならびにP(i−4)が前記条件を満さ
ない(即ちP(i−3)およびP(i−4)がピッチ閾
値A内にない)とピッチ値追尾装置502が決定すると、
ピッチ値追尾装置502はP(i−3)をP(i−4)
の値にセットする。 前述の動作に加えて、ピッチ値追尾装置502はまたあ
る型の有声−有声−有声フレーム系列に対しピッチ値推
定値を平滑化する動作を実行する。これらの平滑化動作
が実行される3つの型のフレーム系列が生じる。第1の
系列は次式が成立するときである。 |P(i−4)−P(i−2)|A |P(i−4)−P(i−3)|>A この条件が成立するとき、ピッチ値追尾装置502は とセットすることにより平滑化操作を実行する。 第2の条件の組は |P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|A なるときに生起する。この第2の条件の組が成立する
と、ピッチ値追尾装置502は とセットする。第3で最後の条件の組は |P(i−4)−P(i−2)|>A および |P(i−4)−P(i−3)|>A により規定される。この最後の条件の組が生じると、ピ
ッチ値追尾装置502は P(i−3)=P(i−4) とセットする。 ピッチ検出回路130の動作に関する更なる詳細は本出
願と同日に出願された、本出願と同じ出願人によるジェ
ー・パイコーン(J.Picone)等ケース1−4の米国特許
願「並列処理ピッチ検出器」で述べられている。ジェー
・パイコーン等のケース1−4の同時出願中の米国特許
願は引用により本出願中に併合される。 前述の実施例は本発明の原理を単に例示するものであ
って、当業者にあっては本発明の精神および範囲を逸脱
することなく他の装置を考案し得ることを理解された
い。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ピコーン,ジョセフ アメリカ合衆国 60130 イリノイズ, フォレスト パーク,サウス ハナー 1044 (72)発明者 プレザス,デミトリオス パノス アメリカ合衆国 60068 イリノイズ, パーク リッジ,ノース グリーンウッ ド 1136 (56)参考文献 特開 昭60−87400(JP,A) 特開 昭57−6898(JP,A) 特開 昭58−12000(JP,A) 特開 昭56−147200(JP,A)

Claims (1)

  1. (57)【特許請求の範囲】 1.音声を処理する方法であって、 音声を相続く時間フレームに分割するステップと、 各音声フレームに対して声道を規定する音声パラメータ
    信号の組を発生するステップ(110)と、 各音声フレームに対してその音声フレームが有声である
    か無声であるかを決定するステップ(130)と、 有声と決定された該音声フレームの各々に対して有声信
    号を発生するステップ(151)と、 無声と決定された該音声フレームの各々に対して無声信
    号を発生するステップ(151)と、 該有声信号によって有声であると指定された該音声フレ
    ームの各々に対するピッチ型の励起情報及び該無声信号
    によって無声であると指定された該音声フレームの各々
    に対するマルチパルスコード型の励起情報から成る符号
    化された励起信号を生成するステップ(120、151、16
    1)とを含み、 該マルチパルスコード型の励起情報を生成する該ステッ
    プは、該音声パラメータ信号の組のインパルス応答と該
    各フレームについての音声との相互相関のパルスから選
    択されたパルス系列を発生するステップを含むものであ
    り、 該方法は、さらに 該フレームの各々に対し該生成され符号化された励起信
    号と該音声パラメータ信号の組を組合わせて該フレーム
    の各々に対する音声を表わす符号化され組合わされた信
    号を形成するステップを含むことを特徴とする音声を処
    理する方法。 2.請求の範囲第1項に記載の方法において、 該音声パラメータ信号の組を発生する該ステップが、該
    各フレームの音声に応動して各フレームに対して線形予
    測パラメータの組を計算するステップを含むことを特徴
    とする音声を処理する方法。 3.請求の範囲第1項に記載の方法において、 前記分割を行うステップが、該フレームの各々に対して
    の該音声パターンの音声サンプルであって正値および負
    値を有する音声サンプルを形成し、該フレームの各々に
    対して該音声パターンの残差サンプルであって正値およ
    び負値を有する残差サンプルを発生するステップを含
    み、該ピッチ型励起情報を生成するステップは、 各フレームの該音声サンプルの内の正値のサンプルに応
    動して該フレームの各々について第1のピッチ値を推定
    し、 各フレームの該音声サンプルの内の負値のサンプルに応
    動して該フレームの各々について第2のピッチ値を推定
    し、 該残差サンプルの内の正値のサンプルに応動して該フレ
    ームの各々について第3のピッチ値を推定し、 各フレームの該残差サンプルの内の負値のサンプルに応
    動して該フレームの各々について第4のピッチ値を推定
    し、そして 以前の音声フレームのうちの最後のフレームについての
    該推定された第1、第2、第3および第4のピッチ、お
    よび以前の複数の音声フレームおよび現在のフレームに
    ついてのピッチ値に応動して最後の音声フレームの最終
    ピッチ値を決定する各ステップを含むことを特徴とする
    音声を処理する方法。 4.請求の範囲第3項に記載の方法において、 該最終ピッチ値を決定するステップが、 該推定された第1、第2、第3および第4のピッチ値か
    らピッチ値を計算し、 計算されたピッチ値が以前のフレームからの計算された
    ピッチ値と一致するように該最終ピッチ値を制約する各
    ステップを含むことを特徴とする音声を処理する方法。 5.請求の範囲第1項の音声を処理する方法において、
    更に、 ピッチ型励起情報を有する組合わされた符号化された信
    号を受信したときに受信された有声信号を発生し、 マルチパルスコード型の励起情報を有する該組合わされ
    符号化された信号を受信したときに受信された無声信号
    を発生し、 各フレームに対する音声パラメータ信号の該組に応動し
    て該声道をモデル化し、 該受信された有声信号が発生された際該ピッチ励起情報
    を使用して音声の各フレームを合成し、 該受信された無声信号が発生された際該マルチパルスコ
    ード型の励起情報を使用して音声の各フレームを合成す
    る各ステップを含むことを特徴とする音声を処理する方
    法。
JP61504119A 1985-08-28 1986-07-22 異なる型の励起情報を有するディジタル音声符号器 Expired - Lifetime JP2738534B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/770,632 US4912764A (en) 1985-08-28 1985-08-28 Digital speech coder with different excitation types
US770632 1985-08-28

Publications (2)

Publication Number Publication Date
JPS63500682A JPS63500682A (ja) 1988-03-10
JP2738534B2 true JP2738534B2 (ja) 1998-04-08

Family

ID=25089221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61504119A Expired - Lifetime JP2738534B2 (ja) 1985-08-28 1986-07-22 異なる型の励起情報を有するディジタル音声符号器

Country Status (7)

Country Link
US (1) US4912764A (ja)
EP (1) EP0236349B1 (ja)
JP (1) JP2738534B2 (ja)
KR (1) KR970001166B1 (ja)
CA (1) CA1270331A (ja)
DE (1) DE3674782D1 (ja)
WO (1) WO1987001499A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
US5659659A (en) * 1993-07-26 1997-08-19 Alaris, Inc. Speech compressor using trellis encoding and linear prediction
US5764779A (en) * 1993-08-25 1998-06-09 Canon Kabushiki Kaisha Method and apparatus for determining the direction of a sound source
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
CA2137756C (en) * 1993-12-10 2000-02-01 Kazunori Ozawa Voice coder and a method for searching codebooks
JP3024468B2 (ja) * 1993-12-10 2000-03-21 日本電気株式会社 音声復号装置
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
DE69614799T2 (de) * 1995-05-10 2002-06-13 Koninkl Philips Electronics Nv Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5794185A (en) * 1996-06-14 1998-08-11 Motorola, Inc. Method and apparatus for speech coding using ensemble statistics
US5797120A (en) * 1996-09-04 1998-08-18 Advanced Micro Devices, Inc. System and method for generating re-configurable band limited noise using modulation
US6154499A (en) * 1996-10-21 2000-11-28 Comsat Corporation Communication systems using nested coder and compatible channel coding
US5832443A (en) * 1997-02-25 1998-11-03 Alaris, Inc. Method and apparatus for adaptive audio compression and decompression
US6876965B2 (en) * 2001-02-28 2005-04-05 Telefonaktiebolaget Lm Ericsson (Publ) Reduced complexity voice activity detector
EP1465393A1 (en) 2003-04-01 2004-10-06 Silent Communication Ltd. Apparatus and method for silent communication using pre-recorded audible messages
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
WO2008007616A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible
US8229409B2 (en) 2007-02-22 2012-07-24 Silent Communication Ltd. System and method for telephone communication
US8494490B2 (en) * 2009-05-11 2013-07-23 Silent Communicatin Ltd. Method, circuit, system and application for providing messaging services
JP5747562B2 (ja) * 2010-10-28 2015-07-15 ヤマハ株式会社 音響処理装置
CN116343804A (zh) * 2016-12-16 2023-06-27 瑞典爱立信有限公司 用于处理包络表示系数的方法、编码器和解码器
US10494779B2 (en) * 2018-03-12 2019-12-03 University Of Maine System Board Of Trustees Hybrid composite concrete bridge and method of assembling

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2206889A5 (ja) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS602678B2 (ja) * 1980-04-18 1985-01-23 松下電器産業株式会社 音成合成方式
JPS576898A (en) * 1980-06-13 1982-01-13 Nippon Electric Co Voice synthesizer
JPS6040633B2 (ja) * 1981-07-15 1985-09-11 松下電工株式会社 無声破裂音源付きの音声合成装置
EP0076234B1 (de) * 1981-09-24 1985-09-04 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JPS6087400A (ja) * 1983-10-19 1985-05-17 日本電気株式会社 マルチパルス型音声符号復号化装置
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4709390A (en) * 1984-05-04 1987-11-24 American Telephone And Telegraph Company, At&T Bell Laboratories Speech message code modifying arrangement

Also Published As

Publication number Publication date
EP0236349A1 (en) 1987-09-16
CA1270331A (en) 1990-06-12
JPS63500682A (ja) 1988-03-10
KR970001166B1 (ko) 1997-01-29
DE3674782D1 (de) 1990-11-08
WO1987001499A1 (en) 1987-03-12
EP0236349B1 (en) 1990-10-03
KR880700387A (ko) 1988-03-15
US4912764A (en) 1990-03-27

Similar Documents

Publication Publication Date Title
JP2738534B2 (ja) 異なる型の励起情報を有するディジタル音声符号器
EP0235181B1 (en) A parallel processing pitch detector
JP5373217B2 (ja) 可変レートスピーチ符号化
JP3277398B2 (ja) 有声音判別方法
EP0275416A1 (en) Method for enhancing the quality of coded speech
JP2002516420A (ja) 音声コーダ
JP2707564B2 (ja) 音声符号化方式
JP2738533B2 (ja) マルチレベル・フィルタ励起を用いる音声合成
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
SE470577B (sv) Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
JPH0782360B2 (ja) 音声分析合成方法
EP0713208B1 (en) Pitch lag estimation system
KR0175250B1 (ko) 보코더의 톤 검출회로 및 방법
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
Kadam et al. Performance Analysis of Optimization Tool for Speech Recognition Using LPC & DSK TMS3206711/13 Using Simulink & Matlab
Kadam et al. Optimization of Speech Recognition using LPC Technic
EP1143414A1 (en) Estimating the pitch of a speech signal using previous estimates
JPH077275B2 (ja) 音声信号符号化方式とその装置
EP1143413A1 (en) Estimating the pitch of a speech signal using an average distance between peaks
JPH07104793A (ja) 音声信号の符号化装置及び復号化装置
KR19980035870A (ko) 음성 합성장치 및 그 방법
Frerking Speech Processing
Kumar et al. Sound Compression Using Linear Predictive Coding
JP2001100797A (ja) 音声符号化復号装置