JPH0713600A

JPH0713600A - 駆動同期時間符号化ボコーダおよび方法

Info

Publication number: JPH0713600A
Application number: JP6136501A
Authority: JP
Inventors: Bruce A Fette; ブルース・エイ・フェット; Chad S Bergstrom; チャド・エス・バーグストロム; Sean S You; シーン・エス・ユー
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1993-05-28
Filing date: 1994-05-26
Publication date: 1995-01-17
Also published as: CA2123187A1; EP0626675A1; US5623575A; US5479559A

Abstract

(57)【要約】【目的】コスト、複雑さおよび高い電力消費を避け、
かつデータレートを犠牲にせずに高い忠実度を実現可能
な駆動同期時間符号化ボコーダを実現する。【構成】音声信号の駆動同期時間符号化のための方法
である。該方法は入力音声信号を提供する段階、入力音
声信号を処理してリニア予測符号化（ＬＰＣ）係数、エ
ポック長および発声を含む特質を特徴づける段階、およ
び入力音声信号が有声音声からなる場合に入力音声信号
を単一エポックの時間領域のベースで特徴づけてパラメ
ータ化された有声音駆動関数を提供する段階を含む。前
記方法はさらに入力音声信号が無声音声からなる場合に
フレームの少なくとも一部に対し入力音声信号を特徴づ
けてパラメータ化された無声音駆動関数を提供する段
階、および前記無声音駆動関数および前記有声音駆動関
数を含む複合駆動関数を符号化して入力音声信号を表す
デジタル出力信号を提供する段階を含む。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は一般的にはデジタル的
に符号化された人間の声（ｈｕｍａｎｓｐｅｅｃｈ）
の分野に関し、特にコーディングおよびデコーディング
技術に関し、さらにより特定的には音声をデジタル的に
符号化するための高忠実度技術、低減された帯域幅要求
によってデジタル的に符号化された高忠実度音声信号を
送信しかつデジタル符号から高忠実度音声信号を合成す
るための高忠実度技術に関する。

【０００２】この出願は、１９９２年７月１４日に出願
され、「低ビットレートボコーダ手段および方法（Ｌｏ
ｗＢｉｔＲａｔｅＶｏｃｏｄｅｒＭｅａｎｓ
ａｎｄＭｅｔｈｏｄ）」と題する、同時係属の日本特
許出願、および本願と同じ日に出願された、「ピッチエ
ポック同期リニア予測符号化ボコーダおよび方法（Ｐｉ
ｔｃｈＥｐｏｃｈＳｙｎｃｈｒｏｎｏｕｓＬｉｎ
ｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇＶｏｃ
ｏｄｅｒＡｎｄＭｅｔｈｏｄ）」と題する特許出願
に関連しており、これらの特許出願はともに本件出願と
同じ譲受人に譲渡されている。

【０００３】

【従来の技術】明瞭な音声信号を提供するために音声信
号をデジタル的に符号化しおよび／またはデジタル信号
をデコードすることは保安された通信能力、デジタルリ
ンクを介する通信またはコンピュータ命令から得られる
音声出力信号を提供する数多くの電子製品にとって重要
である。

【０００４】多くのデジタル音声システムは合成された
音声において貧弱な知覚品質をもたらす。入力音声に基
づく要素の不十分な特徴づけ、帯域幅の制限、および符
号化されたデジタル表現からの合成された音声信号の引
き続く再構築または再生は全て合成された音声品質の知
覚的な劣化に寄与する。さらに、いくらかの情報伝達容
量が失われ、微妙であるが重要なメッセージを伝達する
通話者によって加えられたニュアンス、イントネーショ
ンおよび強調がデジタル形式で送信される音声信号の符
号化およびその後のデコードにおける汚染によって種々
の程度で失われる。

【０００５】特に、自己回帰リニア予測符号化（ａｕｔ
ｏ−ｒｅｇｒｅｓｓｉｖｅｌｉｎｅａｒｐｒｅｄｉ
ｃｔｉｖｅｃｏｄｉｎｇ：ＬＰＣ）技術は全てポール
を有しゼロを持たない（ａｌｌｐｏｌｅｓａｎｄ
ｎｏｚｅｒｏｅｓ）システムの伝達関数を構成する。
これらの従来技術の符号化技術および特にリニア予測符
号化分析を使用するものは（本質的に人間の声の装置を
記述する伝達関数における「ゼロ」を提供する）鼻孔
（ｎａｓａｌｃａｖｉｔｉｅｓ）からの全ての共鳴の
寄与を無視する傾向がありかつその結果不自然に「安っ
ぽい（ｔｉｎｎｙ）」または「鼻にかかる（ｎａｓａ
ｌ）」品質を有する音声を再生することになる。

【０００６】音声をデジタル的に符号化しかつデコード
するための標準的な技術は一般的にかなりの計算機的な
複雑さを有する信号処理分析技術を使用する。さらに、
そこから得られるデジタル信号は高い品質のリアルタイ
ムの通信を実現する場合にはかなり多くの帯域幅を必要
とする。

【０００７】

【発明が解決しようとする課題】必要なことは音声信号
をそのデジタル表現に役立つように迅速にかつ正確に特
特徴づける（ｃｈａｒａｃｔｅｒｉｚｅ）ための装置お
よび方法、ならびにデジタル帯域幅を節約しながら高い
忠実度を提供しかつ計算機的な複雑さおよび電力要求の
双方を低減するデジタル表現から音声信号を提供するた
めの合成方法および装置である。

【０００８】

【課題を解決するための手段および作用】簡単にいえ
ば、本発明によれば、デジタル音声表現および再生のた
めの新規な改善された装置およびそのための方法が提供
される。

【０００９】第１の好ましい実施例においては、本発明
は音声信号の駆動同期時間符号化（ｅｘｃｉｔａｔｉｏ
ｎｓｙｎｃｈｒｏｎｏｕｓｔｉｍｅｅｎｃｏｄｉ
ｎｇ）のための方法からなる。この方法は入力音声信号
を提供する段階、入力音声信号を処理してリニア予測符
号化係数、エポック長（ｅｐｏｃｈｌｅｎｇｔｈ）お
よび発声（ｖｏｉｃｉｎｇ）を含む品質を特徴づける段
階、そして入力音声が有声音を含む場合は、該入力音声
を単一エポックのベースで特徴づけて単一エポック音声
パラメータを提供しかつ該単一エポック音声パラメータ
をベクトル量子化コードブック（ｖｅｃｔｏｒｑｕａ
ｎｔｉｚｅｒｃｏｄｅｂｏｏｋ）を使用して符号可し
有声音を表すデジタル信号を提供する段階を含む。

【００１０】第２の好ましい実施例においては、本発明
はデジタル信号を駆動同期時間デコードして音声信号を
提供する方法からなる。該方法は音声を表す入力デジタ
ル信号を提供する段階、および前記入力デジタル信号が
有声音声（ｖｏｉｃｅｄｓｐｅｅｃｈ）を表すことを
判定する段階を含む。該方法はリニア予測符号化パラメ
ータを補間する段階、有声駆動関数を再構築する段階、
および前記再構築された有声駆動関数をラチス合成フィ
ルタに提供することにより前記再構築された有声駆動関
数から音声を合成する段階を行なう。

【００１１】前記入力デジタルデータが無声音を表す
時、前記方法は、必須のことではないが、望ましくは一
連の連続する二乗平均（ＲＭＳ）振幅をデコードする段
階、および前記一連の連続するＲＭＳ振幅から得られた
駆動エンベロープ（ｅｘｃｉｔａｔｉｏｎｅｎｖｅｌ
ｏｐｅ）によってノイズ発生器を変調し前記再構築され
た無声音駆動関数から合成された無声音を提供する段階
を含む。

【００１２】他の好ましい実施例においては、本発明は
音声信号の駆動同期時間符号化のための装置を含む。該
装置は入力および出力を有するフレーム同期リニア予測
符号化（ＬＰＣ）装置を具備する。前記入力は入力音声
信号を受入れかつ前記出力は前記入力信号の第１の部分
を記述する第１のグループのＬＰＣ係数および前記入力
音声信号の第２の部分を記述する駆動関数を提供する。
前記装置はまた前記駆動波形のエポック長を計算するた
めの自己相関器およびピッチフィルタを含む。前記ピッ
チフィルタは前記自己相関器に結合された入力および前
記駆動波形のピッチ特性を記述する３つの係数を含む出
力信号を有する。前記装置はまた前記ピッチフィルタの
出力、前記相関器の出力、およびフレーム同期ＬＰＣ装
置の出力に結合されたフレーム発声（ｆｒａｍｅｖｏ
ｉｃｉｎｇ）決定装置を含む。フレーム発声決定装置は
あるフレームが有声音であるかあるいは無声音であるか
を決定する。前記装置はまたあるフレーム長を構成する
一連の連続したタイムスロットにおける代表的な信号レ
ベルを計算するための装置を含む。代表的な信号レベル
を計算するための装置は前記フレーム発声決定装置に結
合されかつ前記フレーム発声決定装置がそのフレームが
無声音であることを指示した場合に動作する。前記装置
はまた代表的な信号レベルを計算するための前記装置に
結合されたベクトル量子化コードブックを含む。該ベク
トル量子化コードブックは入力音声信号に対応するベク
トル量子化デジタル信号を提供する。

【００１３】前記装置は、必須のことではないが、望ま
しくは音声データのフレーム内のエポック駆動位置を決
定するための装置を含む。該決定装置は前記フレーム発
声決定装置に結合されかつ前記フレーム発声決定装置が
あるフレームが有声音（ｖｏｉｃｅｄ）であることを決
定した場合に動作する。第２のリニア予測符号化装置は
入力音声信号を受入れるための第１の入力とエポック駆
動位置を決定するための前記装置に結合された第２の入
力を有する。前記第２のＬＰＣ装置は入力音声信号を特
徴づけて、（１）前記入力音声信号の第１の部分を記述
する第２のグループのＬＰＣ係数を提供し、かつ（２）
前記入力音声信号の第２の部分を記述する第２の駆動関
数を提供する。前記第２のグループのＬＰＣ係数および
前記第２の駆動関数は単一エポックの音声パラメータを
構成する。前記装置はさらに目標駆動関数（ｔａｒｇｅ
ｔｅｘｃｉｔａｔｉｏｎｆｕｎｃｔｉｏｎ）を提供
するために最小エンベロープエラーに基づき前記第２の
駆動関数の一部の中から補間駆動目標を選択するための
装置を含む。前記補間駆動目標選択装置の入力は前記第
２のＬＰＣ装置に結合されている。前記選択するための
装置は前記符号化装置に結合された出力を有する。

【００１４】前記装置は、必須のものではないが、望ま
しくはさらに第１〜第５の発声フラグ（ｖｏｉｃｉｎｇ
ｆｌａｇｓ）をセットするための第１〜第５の決定装
置を含む。前記第１の決定装置は前記第１のグループの
ＬＰＣ係数からのリニア予測ゲイン係数が第１のしきい
値を越えているかあるいは第１のしきい値に等しい場合
に第１の発声フラグを「有声」にセットし、かつそれ以
外では前記第１の発声フラグを「無声」にセットする。
前記第２の決定装置は前記多数の係数の内の第２のもの
が第２のしきい値を越えているかあるいは等しい場合、
あるいは前記ピッチフィルタのピッチゲインが第３のし
きい値を越えているかまたは第３のしきい値に等しい場
合に第２の発声フラグを「有声」にセットし、かつそれ
以外では前記第２の発声フラグを「無声」にセットす
る。第３の決定装置は前記多数の係数の内の第２のもの
が前記第２のしきい値を越えているかあるいは第２のし
きい値に等しくかつリニア予測符号化ゲインが第４のし
きい値を越えているかあるいは第４のしきい値に等しい
場合に第３の発声フラグを「有声」にセットし、かつそ
れ以外では第３の発声フラグを「無声」にセットする。
前記第４の決定装置は前記リニア予測符号化ゲインが第
４のしきい値を越えているかあるいは第４のしきい値に
等しくかつピッチゲインが前記第３のしきい値を越えて
いるかあるいは等しい場合に第４の発声フラグを「有
声」にセットし、かつそれ以外では第４の発声フラグを
「無声」にセットする。前記第５の決定装置は前記第
１、第２、第３および第４の発声フラグのいずれかが
「有声」にセットされている時、前記リニア予測符号化
ゲインが第５のしきい値より小さくない時そして前記多
数の係数の内第２のものが第６のしきい値より小さくな
い場合に第５の発声フラグを「有声」にセットし、かつ
それ以外では第５の発声フラグを「無声」にセットす
る。前記フレームは前記第１、第２、第３および第４の
発声フラグの内のいずれかが「有声」にセットされてお
りかつ前記第５の発声フラグが有声にセットされている
場合に有声音であると判定される。前記フレームは前記
第１、第２、第３および第４の発声フラグの全てが「無
声」にセットされている場合に無声音であると判定され
る。前記フレームは第５の発声フラグが「無声」にセッ
トされていると判定された場合に無声音であると判定さ
れる。

【００１５】さらに別の実施例では、前記装置は必須の
ことではないが望ましくは補間駆動目標を選択するため
の前記装置に結合された駆動重み「ｅｘｃｉｔａｔｉｏ
ｎｗｅｉｇｈｔｉｎｇ）を選択するための装置を含む。
前記駆動重みを選択するための装置は男性の声に代表さ
れる第１のタイプの駆動のためのレーリー（Ｒａｙｌｅ
ｉｇｈ）形重み関数からなる第１のクラスの重み関数か
らの重み関数を提供し、かつ前記第１のタイプの駆動よ
りも高いピッチを有する第２のタイプの駆動のためのガ
ウス（Ｇａｕｓｓｉａｎ）形重み関数からなる第２のク
ラスの重み関数からの重み関数を提供する。前記第２の
タイプの駆動は女性の声に典型的なものである。目標駆
動関数を重み付け関数によって重み付けするための装置
は符号化装置に出力信号を提供する。前記重み付け装置
は駆動重みを選択するための前記装置に結合されてい
る。

【００１６】さらに別の好ましい実施例においては、本
発明は音声信号を提供するためにデジタル信号の駆動同
期時間デコードのための装置を含む。該装置は符号化さ
れた音声を表すデジタル信号を受けるための入力および
該入力に結合されたベクトル量子化コードブックを含
む。該ベクトル量子化コードブックは前記デジタル信号
から量子化された信号を提供する。フレーム発声決定装
置が前記ベクトル量子化コードブックに結合されてい
る。前記フレーム発声決定装置は前記量子化された信号
が有声音を表すことおよび前記量子化された信号が無声
音を表すことを判定する。無声音の駆動を表す隣接する
レベルの間を補間するための装置が前記フレーム発声決
定装置に結合される。ランダムノイズ発生器が前記補間
装置に結合される。該ランダムノイズ発生器は前記補間
装置からの信号に応じて振幅変調されたノイズ信号を提
供する。ラチス合成フィルタは前記ランダムノイズ発生
器に結合されかつ振幅変調されたノイズ信号から無声音
を合成する。

【００１７】前記装置は、必須のものではないが、望ま
しくは前記フレーム発声決定装置に結合されたリニア予
測符号化（ＬＰＣ）パラメータ補間装置を含む。該ＬＰ
Ｃパラメータ補間装置は前記量子化された信号が有声音
を表す場合に前記量子化された信号において提供される
引き続くＬＰＣパラメータの間を補間して補間されたＬ
ＰＣパラメータを提供し、かつラチス合成フィルタ装置
が前記ＬＰＣパラメータ補間装置に結合されて前記量子
化された信号および補間されたＬＰＣパラメータから有
声音を合成する。

【００１８】前記装置は、必須のものではないが、望ま
しくはさらに目標駆動関数の間に挿入された連続する駆
動関数を補間するための装置を含む。この連続する駆動
関数を補間するための装置は前記ＬＰＣパラメータ補間
装置に結合された入力および前記ラチス合成フィルタ装
置に結合された出力を有する。目標駆動関数の間を補間
するための前記装置は第１のフレームにおける第１の目
標エポックと第１のフレームに隣接する第２のフレーム
における第２の目標エポックの間におけるエポックの目
標駆動関数の間を補間する。前記ラチス合成フィルタ装
置は前記補間されたＬＰＣパラメータおよび前記補間さ
れた連続する駆動関数から有声音を合成する。

【００１９】本発明の他の好ましい実施例は通信装置で
あって、該通信装置は入力音声信号を受けるための入
力、前記入力に結合され前記入力音声信号をデジタル的
に符号化するための音声デジタイザおよび前記デジタル
的に符号化された入力音声信号を送信するための出力を
有する。前記出力は音声デジタイザに結合されている。
デジタル入力はデジタル的に符号化された音声信号を受
入れかつ音声シンセサイザに結合されており、該音声シ
ンセサイザは前記デジタル的に符号化された音声信号か
ら音声信号を合成する。前記音声シンセサイザはベクト
ル量子化コードブックに結合されたフレーム発声決定装
置を含む。該フレーム発声決定装置は前記ベクトル量子
化コードブックからの中間信号が有声音を表すことおよ
び該中間信号が無声音を表すことを判定する。無声音を
表す連続する信号レベルの間を補間するための装置が前
記フレーム発声決定装置に結合されている。ランダムノ
イズ発生器が前記補間装置に結合されている。該ランダ
ムノイズ発生器は前記補間装置によって決定されるレベ
ルまで変調されたノイズ信号を提供する。出力がランダ
ムノイズ発生器に結合され、該ランダムノイズ発生器は
前記変調されたノイズ信号から無声音を合成する。

【００２０】前記通信装置は必須のものではないが望ま
しくはガウス乱数発生器を含む。

【００２１】本発明の第３の好ましい実施例は音声信号
の駆動同期時間符号化のための方法を含む。該方法は入
力音声信号を提供する段階、リニア予測係数、エポック
長および発声（ｖｏｉｃｉｎｇ）を含む品質特性を特徴
づけるために入力信号を処理する段階を含む。入力信号
が有声音からなる場合、該入力音声信号は単一エポック
時間領域のベースで特徴づけられてパラメータ化された
有声駆動関数を提供する。

【００２２】

【実施例】本発明は特に添付の特許請求の範囲において
指摘されている。しかしながら、本発明のより完全な理
解は添付の図面とともに以下の詳細な説明および特許請
求の範囲を参照することにより得られ、添付の図面にお
いては同様の項目は同様の参照数字で示されている。

【００２３】図１は、本発明に係わる送信機１０におけ
る音声デジタイザ１５の構成を示すフローチャート形式
の単純化したブロック図である。音声入力１１はサンプ
ルされた入力音声をハイパスフィルタ１２に提供する。
ここで用いられている用語「駆動（ｅｘｃｉｔａｔｉｏ
ｎ）」、「駆動関数（ｅｘｃｉｔａｔｉｏｎｆｕｎｃ
ｔｉｏｎ）」、「ドライブ関数（ｄｒｉｖｉｎｇｆｕ
ｎｃｔｉｏｎ）」および「駆動波形（ｅｘｃｉｔａｔｉ
ｏｎｗａｖｅｆｏｒｍ）」は同じ意味を有し、かつリ
ニア予測符号化装置によってそこから出力信号の１つと
して提供される波形を言及している。ここで用いられて
いる用語「目標（ｔａｒｇｅｔ）」、「駆動目標（ｅｘ
ｃｉｔａｔｉｏｎｔａｒｇｅｔ）」、および「目標エ
ポック（ｔａｒｇｅｔｅｐｏｃｈ）」、は同じ意味を
有し、かつ第１に符号化装置における特徴づけのために
かつ第２にデコード装置における後の補間のために選択
されるエポックを言及している。

【００２４】有声音声の主たる成分（例えば、“ｓｍｏ
ｏｔｈ”における“ｏｏ”）は便宜的にはゆっくりと変
化するエンベロープおよび周期を有する準周期的（ｑｕ
ａｓｉ−ｐｅｒｉｏｄｉｃ）かつ、インパルス様の（ｉ
ｍｐｕｌｓｅ−ｌｉｋｅ）ドライブ関数または駆動関数
として表される。この周期（ｐｅｒｉｏｄ）は前記ドラ
イブ関数内の個々のインパルスからなる「ピッチ周期」
または「エポック」と称される。逆に、無声音声（例え
ば、“ｈｉｓｓ”における“ｓｓ”）に関連するドライ
ブ関数は性質が非常にランダムでありかつシェーピング
された（ｓｈａｐｅｄ）ノイズ、すなわち、時変（ｔｉ
ｍｅ−ｖａｒｙｉｎｇ）エンベロープを有するノイズと
類似し、この場合該エンベロープの形状が主たる情報伝
達成分である。

【００２５】複合有声／無声ドライブ波形はその出力が
得られた音声波形を提供するシステム伝達関数への入力
と考えることができる。前記複合駆動波形は人間の声に
対しては「駆動関数（ｅｘｃｉｔａｔｉｏｎｆｕｎｃ
ｔｉｏｎ）」と称することができる。駆動関数の完全
で、効率的な特徴づけによって個々の通話者の独特の属
性について良好な近似を得ることができ、該属性は現在
まで低減された帯域幅の音声符号化方式では十分に表現
されずあるいはまったく無視されている。（例えば、Ｌ
ＰＣ１０ｅ）。

【００２６】本発明に係わる構成では、音声信号は入力
１１を介してハイパスフィルタ１２へと供給される。ハ
イパスフィルタ１２はリンク１３を介してフレーム同期
リニア予測符号化（ＬＰＣ）装置１４に結合されてい
る。ＬＰＣ装置１４はリンク１６を介して駆動関数を自
己相関器１７に提供する。自己相関器１７はτ、すなわ
ち前記準周期的駆動波形のサンプルにおける整数ピッチ
周期、を推定または計算する。前記駆動関数およびτの
計算値はリンク１８を介してピッチフィルタ１９に入力
され、該ピッチフィルタ１９は入力音声信号に関連する
駆動関数構造を推定または計算する。ピッチフィルタ１
９は技術的に良く知られている（例えば、Ｒ．Ｐ．Ｒａ
ｍａｃｈａｎｄｒａｎおよびＰ．Ｋａｂａｌによる、Ｉ
ＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓ
ｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ
ｃｅｓｓｉｎｇ，ｖｏｌ．３７，ｎｏ．４、１９８９年
４月、における「音声符号化におけるピッチ予測フィル
タ（ＰｉｔｃｈＰｒｅｄｉｃｔｉｏｎＦｉｌｔｅｒ
ｓＩｎＳｐｅｅｃｈＣｏｄｉｎｇ）」を参照）。
（フレーム同期ＬＰＣ装置１４からの）ＬＰＣ予測ゲイ
ン、（自己相関器１７からの）τ、（ピッチフィルタ１
９からの）ピッチフィルタ予測ゲイン、および（ピッチ
フィルタ１９からの）フィルタ係数値の計算値は判断ブ
ロック２２において入力音声データが有声入力音声デー
タを表すかあるいは無声入力音声データを表しているか
を判定するために使用される。

【００２７】無声駆動データはリンク２３を介してブロ
ック２４に結合され、そこで連続するＲＭＳレベルが計
算される。これらのＲＭＳレベルを表す信号は次にリン
ク２５を介して技術的に良く知られた総括的構成および
機能を有するベクトル量子化コードブック４１に結合さ
れる。

【００２８】典型的には、２４０サンプルからなる無声
駆動の３０ミリセカンドのフレームが２０の連続するタ
イムスロットに分割される。この例は単一フレームの分
析に関して与えられているが、当業者はより大きなある
いはより小さなブロックの情報を適切な結果とともにこ
のような方式で特徴づけることが可能なことを理解する
であろう。各タイムスロットの間に生じる駆動信号は分
析されかつ、便宜的にはＲＭＳ（二乗平均）レベルとし
て実現される、代表的なレベルによって特徴づけられ
る。無声フレーム構成の送信のためのこの有効な技術は
再生された無声音声信号の品質に大きな妥協を行なうこ
となくより込み入った周波数領域の高速フーリエ変換
（ＦＦＴ）方法では不可能なレベルの計算機的な簡易化
を提供する。

【００２９】有声駆動データはブロック２４′において
時間領域で処理され、該ブロックにおいて音声特性が
「エポックごとの（ｐｅｒｅｐｏｃｈ）」ベースで分
析される。これらのデータはリンク２６を介してブロッ
ク２７に結合され、そこでエポックの位置が決定され
る。いったん該エポックの位置が駆動波形内で決定され
ると、前記整数値τの洗練された推定値または計算値が
決定できる。１つの音声のフレーム内のＮ個のエポック
位置に対し、Ｎ−１の個々のエポック周期が平均化され
て、「フラクショナルピッチ（ｆｒａｃｔｉｏｎａｌ
ｐｉｔｃｈ）」としても知られている、端数部分（ｆｒ
ａｃｔｉｏｎａｌｐｏｒｔｉｏｎ）を含む改善された
τの推定値を提供する。受信機においては、前記エポッ
ク位置は前の目標位置およびτから適切なτの値だけ前
の目標位置から前に「ステップする」ことにより得られ
る。τの前記端数部分は長い周期の有声音声の間にかな
りのエラーが生じるのを防止する。受信機においてエポ
ック位置を決定するために整数のτの値のみを使用する
場合、得られた位置はかなりの「ウォーキングエラー
（ｗａｌｋｉｎｇｅｒｒｏｒ）」（累積エラー）を受
け得る。端数のτの値を使用することは整数のτの値の
みを使用するシステムにおいて固有の位置付けエラーを
効果的に除去する。

【００３０】エポック位置の決定に続き、データはリン
ク２８を介してブロック２７′に結合され、そこで端数
ピッチが決定される。データは次にリンク２８′を介し
てブロック２９に結合され、そこで、共にリンク２８′
を介して与えられる、エポック位置データ（ブロック２
７から）が与えられれば入力音声に関して駆動同期ＬＰ
Ｃ分析が行なわれる。このプロセスは改善されたＬＰＣ
係数および駆動関数を提供し、これらはリンク３０を介
してブロック３１に結合され、そこで単一の駆動エポッ
クが各フレームにおいて補間目標として選択される。最
適の目標駆動関数に対応する、（ＬＰＣ装置２９から
の）前記駆動同期ＬＰＣ係数が係数補間目標として選択
される。（後に図４に関して説明する）受信機におい
て、省略した情報を再生するために補間によって統計的
に重み付けされた駆動関数および関連するＬＰＣ係数の
双方が利用される。送信機においては１組のＬＰＣ係数
および１つの駆動エポックのみが符号化されるから、残
りの駆動波形およびエポック同期係数は受信機において
前記選択された「目標」から得られなければならない。
送信された目標の間のリニア補間が首尾よく使用されて
失われた情報を再生し、もちろん他の非線形の方式も有
用である。したがって、送信機においてはフレームごと
に単一の駆動エポックのみが時間符号化され、介在する
エポックは受信機において補間によって満たされる。

【００３１】駆動目標は閉ループ様式で選択することが
でき、それによって隣接フレームにおける候補の目標駆
動エポック（ｃａｎｄｉｄａｔｅｔａｒｇｅｔｅｘ
ｃｉｔａｔｉｏｎｅｐｏｃｈｓ）によって形成される
エンベロープがもとの駆動のエンベロープと比較され
る。最低のまたは最も小さい補間エンべロープエラーと
なった前記候補目標駆動エポックがそのフレームに対す
る補間目標として選択される。目標選択のためのこの閉
ループ技術はエンべロープ「ヌル（ｎｕｌｌｓ）」にわ
たる補間においてまたは得られるエンベロープにギャッ
プを生じさせる（不適切な）補間において遭遇するもの
のような、エンベロープエラーを低減する。そのような
エラーは前記影響を受けた駆動目標に対して適切なエン
ベロープを無視してランダムな様式で駆動目標選択が行
なわれればしばしば生じ得る。

【００３２】選択されたエポックはリンク３２を介して
ブロック３３に結合され、そこで隣接フレームにおける
選択されたエポックは最適のエポックスタート指数（ｅ
ｐｏｃｈｓｔａｒｔｉｎｇｉｎｄｅｘ）を決定しか
つ補間プロセスの実効性を増強するために相互相関され
る。２つの目標を相関することにより、補間の前に最大
相関指数シフトが位置づけ用オフセットとして導入でき
る。このオフセットは２つの目標の「フェーズ（ｐｈａ
ｓｅ）」を一致させることにより標準的な補間機構に関
して改善を行なう。補間の前にこの相関手順を行なわな
いことはしばしば受信機においてかなりの再生駆動エン
ベロープエラーを生じることにつながる。

【００３３】例えば、そのような場合に再生されたエン
ベロープの不自然な「ヌリング（ｎｕｌｌｉｎｇ）」が
生じることがあり、再生された音声信号におけるかなり
の知覚的な不自然さにつながる。補間の前に最大相関オ
フセットを導入することにより、補間プロセスによって
再生されたエンベロープは元の駆動波形（入力音声から
得られる）により近密に類似する。本明細書ではこの相
関手順は送信機において実施されるものとして示されて
いるが、この技術はあるいは同様の有利な結果と共に受
信機において実施することもできる。

【００３４】リンク３４を介して結合された、前記相関
された目標（ブロック３３）は処理されている音声サン
プルにとって適切な「統計的な」駆動重みが選択される
（ブロック３６）プロセスにおいて重みづけされる。

【００３５】典型的には、男性の声に関連する駆動にと
ってはレーリー（Ｒａｙｌｅｉｇｈ）形状の時間領域駆
動関数の重みづけ関数が適切である。そのような関数は
しばしば次の形式で表わされる。

【００３６】

【式１】ｙα２（（ｘ−ａ）／ｂ）ｅ^{−（ｘ−ａ）２}／ｂ，ｘ≧ａｙ＝０，ｘ＜ａ

【００３７】この場合、ａはｘのインターセプトであ
り、かつｘ＝ａ＋（ｂ／２）^０．５は重みづけピーク位
置を規定する。また、αは比例を表わすものとする。あ
るいは、この形式の重みづけは通常左にシフトしたピー
クを有する累乗した（ｒａｉｓｅｄ）コサイン関数とし
てまたはカイ二乗分布（ｃｈｉ−ｓｑｕａｒｅｄｄｉ
ｓｔｒｉｂｕｔｉｏｎ）の形式として表現される。図２
は男性の声に関連した重みづけ駆動に適した代表的なレ
ーリー形駆動重みづけ関数のトレース２７３を含むグラ
フである。

【００３８】これによって高品質の再生音声信号を提供
するために選択された目標エポックごとにおよそ２０サ
ンプルが可能となり（８０サンプルの典型的なエポック
長に対応する）、もちろん必要に応じてより多くのある
いはより少ない数のサンプルを使用できる。

【００３９】より高いピッチの女性の声に関連する駆動
を表わすためにはより少ない数のサンプル（例えば、３
５の典型的なエポック長に対応する、およそ１０サンプ
ル）がしばしば適切なものである。女性の声に対する適
切な駆動重み関数はガウス形状により類似する。そのよ
うな関数はしばしば次の形式で表わされる。

【００４０】

【式２】ｙαｅ^{−（ｘ−β）２}／２σ^２

【００４１】この場合、技術的に良く知られているよう
にβは平均値（ｍｅａｎ）を表わしかつσは標準偏差を
表わす。あるいは、この形式の重みづけは通常累乗した
コサイン関数として表わされる。図３は女性の声に関連
した重みづけ駆動に適した代表的なガウス形駆動重み関
数のトレース３７３を含むグラフである。

【００４２】１つの駆動エポックのみがデータのフレー
ムごとに時間符号化され、かつ駆動エポックの顕著な特
徴を適切に表現するためには少しの数の特徴づけサンプ
ルのみが必要とされる。目標駆動関数のインパルスに関
して適切な重みづけ関数を適用することにより、前記駆
動の通話者に依存する特徴がおおいに維持され、かつし
たがって再生された音声は元の入力音声の性格（ｔｅｎ
ｏｒ）、特徴およびデータ伝達ニュアンスをより正確に
表わすことになる。適切な重みづけ関数を選択すること
により個々の駆動エポックの主たるエンベロープまたは
形状特徴を維持しながら送信のために必要なデータを低
減することができる。

【００４３】二三の特徴づけサンプルに圧縮された、１
つの駆動エポックのみが各フレームにおいて使用される
から、得られたデジタル的に符号化された音声を送信す
るのに必要なデータレート（帯域幅）が低減される。送
信帯域幅の要求が低減されても受信機において高品質の
音声が生成される。無声音の特徴づけプロセス（ブロッ
ク２４）と同様に、有声音の時間領域重みづけ／デコー
ド手順は周波数領域の技術に対してかなりの計算機的な
節約を可能にし、一方で本発明において成されているの
と同様に注意深く駆動特性をモデル化しないより単純な
または複雑でない技術に対してかなりの忠実度の有利性
を与える。

【００４４】適切な駆動関数の重みづけ関数の選択（ブ
ロック３６）に続き、前記重みづけ関数およびデータは
リンク３７を介してブロック３８に結合され、そこで駆
動目標が時間符号化され、すなわち、前記重みが目標に
適用される。得られたデータはリンク３９を介してベク
トル量子化コードブック４１にわたされる。

【００４５】無声（リンク２５）および有声（リンク３
９）音声を表わすデータはベクトル量子化コードブック
４１を使用して符号化され、かつ符号化されたデジタル
出力信号はリンク４２を介して送信媒体、暗号化装置そ
の他に結合される。

【００４６】図４は、図１の送信機１０のような装置に
よって与えられるデジタルデータのための受信機３２に
おける音声シンセサイザ４５をフローチャート形式で示
す単純化したブロック図である。受信機３２は、暗号化
された受信データの解読、受信されたＲＦまたは光学的
データの復調、公衆交換電話システムへのインタフェー
スおよび／またはその他を提供する外部装置（図示せ
ず）からベクトル量子化コードブック４３へと音声信号
を表わすデジタルデータを結合するデジタル入力４４を
有する。ベクトル量子化コードブック４３からのデコー
ドされたデータはリンク４４′を介して判断ブロック４
６に結合され、該ブロック４６はベクトル量子化データ
が有声フレームを表わすかあるいは無声フレームを表わ
すかを判定する。

【００４７】リンク４４′からのベクトル量子化データ
が無声音フレームを表わしている場合は、これらのデー
タはリンク４７を介してブロック５１に結合される。ブ
ロック５１は隣接するＲＭＳレベルの間をリニアに補間
して無声音駆動エンベロープを再生しかつその結果はガ
ウス乱数発生器５３を振幅変調するためにリンク５２を
介して送られ無声音の駆動信号を再生する。この無声音
の駆動関数はリンク５４を介してラチス合成フィルタ
（ｌａｔｔｉｃｅｓｙｎｔｈｅｓｉｓｆｉｌｔｅ
ｒ）６２に結合される。６２のようなラチス合成フィル
タは技術的に良く知られておりかつ、例えば、“Ｄｉｇ
ｉｔａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｐｅｅｃｈ
Ｓｉｇｎｌｓ”Ｌ．Ｒ．ＲａｂｉｎｅｒおよびＲ．
Ｗ．Ｓｃｈａｆｅｒ（ＰｒｅｎｔｉｃｅＨａｌｌ、ア
メリカ合衆国ニュージャージー州、イングルウッド・ク
リフス、１９７８年）に記載されている。

【００４８】ベクトル量子化データ（リンク４４′）が
有声音の入力音声を表わしている場合、これらのデータ
はリンク５６を介してＬＰＣパラメータ補間器５７に結
合され、該補間器５７は（送信帯域幅の要求を低減する
ために送信されなかった）失われたＬＰＣ反射係数（Ｌ
ＰＣｒｅｆｌｅｃｔｉｏｎｃｏｅｆｆｉｃｉｅｔ
ｓ）を補間する。リニア補間は（ブロック５９）前のフ
レームにおける統計的に重みづけされた目標駆動エポッ
クから現在のフレームにおける統計的に重みづけされた
目標駆動エポックへと行なわれ、それによって符号化プ
ロセスの間に（すなわち、図１の送信機１０の音声デジ
タイザ１５において）捨てられた駆動波形を再生する。
フレーム内の駆動エンベロープおよびピッチの比較的ゆ
っくりした変動のため、これらの補間された鎖状につな
がれた駆動エポックは元の駆動の特徴に類似する。

【００４９】再構築された駆動波形およびＬＰＣパラメ
ータ補間器５７からのＬＰＣ係数および駆動目標５９の
間の補間はリンク６１を介してラチス合成フィルタ６２
に結合される。

【００５０】有声音および無声音のフレームの双方に対
しラチス合成フィルタ６２は外部装置（例えば、スピー
カ、イアホーン、その他、図４には示されていない）に
結合された高品質の出力音声を合成し、該出力音声は同
時に低減された帯域幅（例えば、毎秒２４００ビットま
たはボー）を必要とする一方で入力音声信号に近密に類
似しかつ元の入力音声信号の独特の通話者に依存する属
性を維持する。

【００５１】図５は、図１の送信機１０において発声
（ｖｏｉｃｉｎｇ）を判定するための判断ツリー装置６
２をフローチャート形式で示すより詳細なブロック図で
ある。判断ツリー装置６２はリンク２１を介して入力デ
ータを受信し、該入力データは判断ブロック６３に結合
されかつ代表的な一連のしきい値と共に以下の表１に要
約されている。本発明に関連する技術の分野に習熟した
ものには表１に与えられた値は代表的なものでありかつ
他の組合わせの値もまた受け入れ可能な性能を提供する
ことを理解するであろう。

【００５２】ＬＰＣＧ≧ＴＨ１、（すなわち、ＬＰＣゲ
イン係数が第１の有声音のしきい値を超えている）場
合、データはリンク６６を介して判断ブロック６７に結
合され、そうでない場合はデータはリンク６４を介して
判断ブロック６９に結合される。ＬＰＣＧはどれだけ良
好に（あるいは劣悪に）予測された音声が元の音声を近
似しているかを示し、かつ元の音声波形のＲＭＳ振幅に
対する前記駆動のＲＭＳ振幅の比率の逆数によって形成
できる。

【００５３】

【表１】シンボル量ソース／値 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− ＬＰＣＧＬＰＣフレーム同期予測ゲインＬＰＣ１４ＰＬＧフィルタピッチフィルタ１９予測ゲイン（ピッチゲイン）ＡＬＰＨＡ２第２のフィルタ係数ピッチフィルタ１９ＴＨ１ＬＰＣＧ絶対有声音しきい値４．１ＴＨ２ＡＬＰＨＡ２有声音しきい値０．２ＴＨ３ＰＬＧ有声音しきい値１．０６ＴＨ４ＬＰＣＧ有声音しきい値２．４５ＴＨ５ＬＰＣＧ無声音しきい値１．１７５ＴＨ６ＡＬＰＨＡ２無声音しきい値０．０１（発声判定およびそのソースまたはそのための値におい
て使用されるパラメータのためのシンボルおよび定義）

【００５４】判断ブロック６９はＡＬＰＨＡ２≧ＴＨ２
であるか否か（すなわち、第２のフィルタ係数が第２の
有声音のしきい値より大きいか否か）を調べかつまたＰ
ＬＧ≧ＴＨ３であるか否か（すなわち、フィルタ予測ゲ
インが第３の有声音のしきい値を超えているか否か）を
調べる。ＡＬＰＨＡ２は有声音に関連するものとして経
験的または実験的に決定される。ピッチゲインＰＬＧは
ピッチフィルタ１９からの係数がどれだけ良好に駆動関
数を予測するかについての尺度でありかつＬＰＣＧと同
様にして計算される。

【００５５】判断ブロック６９において調べられた双方
の条件が真であれば、データはリンク６６を介して判断
ブロック６７に結合され、そうでなければデータはリン
ク７１を介して判断ブロック７２に結合される。判断ブ
ロック７２はＡＬＰＨＡ２≧ＴＨ２であるか否かかつま
たＬＰＣＧ≧ＴＨ４（すなわち、ＬＰＣゲイン係数が第
４の有声音のしきい値を超えているか否か）を調べる。
双方の条件が真である場合は、データはリンク６６を介
して判断ブロック６７に結合され、そうでない場合はデ
ータはリンク７３を介して判断ブロック７４に結合され
る。判断ブロック７４はＰＬＧ≧ＴＨ３であるか否かか
つまたＬＰＣＧ≧ＴＨ４であるか否かを調べる。両方の
条件が真である場合は、データはリンク６６を介して判
断ブロック６７に結合され、そうでない場合は入力音声
信号は「無声音」であるものと分類され、かつデータは
リンク７６を介して出力２３（図１を参照）に結合され
る。

【００５６】判断ブロック６７はＬＰＣＧ≧ＴＨ５であ
るか否か（すなわち、ＬＰＣゲイン係数が第１の無声音
のしきい値を超えているか否か）かつまたＡＬＰＨＡ２
≧ＴＨ６であるか否か（すなわち、第２のフィルタ係数
が第６の無声音のしきい値を超えているか否か）を調べ
る。双方の条件が真である場合は、入力音声信号は「有
声音（ｖｏｉｃｅｄ）」であると分類され、かつデータ
はリンク６８を介して出力２６（図１を参照）に結合さ
れ、そうでない場合は入力音声信号は「無声音（ｕｎｖ
ｏｉｃｅｄ）」であると分類されかつデータはリンク７
６を介して出力２３に結合される。

【００５７】〔実例〕図６は、本発明に係わる音声デジ
タイザ１５（図１）および音声シンセサイザ４５（図
４）を使用した音声通信装置７７の非常に単純化したブ
ロック図である。音声デジタイザ１５および音声シンセ
サイザ４５はアメリカ合衆国、アリゾナ州、フェニック
スのモトローラ・インコーポレイテッドから入手可能な
ＤＳＰ５６００１型、ＤＳＰ５６００２型またはＤＳＰ
９６００２型のようなデジタル信号プロセッサにおける
アセンブリ言語プログラムとして実施できる。デジタル
信号処理集積回路に付随する、メモリ回路その他もまた
技術的に良く知られているように必要とされる。

【００５８】音声通信装置７７は音声入力１１に結合さ
れた音声入力装置７８を含む。音声入力装置７８は、例
えば、マイクロホンはハンドセットマイクロホンでよ
く、あるいは電話または無線装置またはメモリ装置（図
示せず）または音声データの任意の他の発生源とするこ
とができる。音声入力１１からの入力音声は図１および
図３並びに関連するテキストにおいて説明されたように
音声デジタイザ１５によってデジタル化される。デジタ
ル化された音声は出力４２を介して音声デジタイザ１５
から出力される。

【００５９】音声通信装置７７は出力４２に結合された
通信用プロセッサ７９を含むことができ、リンク８１を
介して出力信号を提供するために、技術的に良く知られ
ているように、ダイヤリング、スピーカホンの多重化、
変調、電話または無線ネットワークへの信号の結合、フ
ァクシミリ送信、デジタル信号（例えば、出力４２から
のデジタル化された音声）の暗号化、データ圧縮、課金
機能および／またはその他のような、付加的な機能を達
成することができる。

【００６０】同様に、通信用プロセッサ８３はリンク８
２を介して到来信号を受信しかつ、技術的に良く知られ
ているように、適切な結合、スピーカホーンの多重化、
復調、暗号解読、ファクシミリ受信、データ伸長、課金
機能および／またはその他を提供することができる。

【００６１】音声を表わすデジタル信号は通信用プロセ
ッサ８３からリンク４４を介して音声シンセサイザ４５
に結合される。音声シンセサイザ４５はリンク６１を介
して音声信号に対応する電気信号を出力装置８４に提供
する。出力装置８４はスピーカ、ハンドセット受信エレ
メントまたはそのような信号を処理可能な任意の他の装
置とすることができる。

【００６２】通信用プロセッサ７９，８３は物理的に別
個のプロセッサである必要はなく、むしろ通信用プロセ
ッサ７９，８３によって満たされる機能は、例えば、音
声デジタイザ１５および／または音声シンセサイザ４５
を提供する同じ装置によって実効できることが理解され
るであろう。

【００６３】本発明の実施例においては、リンク８１，
８２は共通の双方向データリンクとすることが可能なこ
とが理解できる。本発明の実施例においては、通信用プ
ロセッサ７９，８３は共通のプロセッサとすることがで
きおよび／または音声または音声と他の信号、例えば、
テレビジョン、カムコーダ（ｃａｍｃｏｒｄｅｒ）、そ
の他を表わすデジタルデータを記憶しあるいはその後に
処理するための装置へのリンクを含むものとすることが
できる。

【００６４】音声通信装置７７はしたがって音声信号を
デジタル的に符号化し、送信しかつデコードするための
新規な装置および方法を提供し、高忠実度の音声信号の
再生並びに与えられた忠実度レベルに対し低減された帯
域幅要求を可能にする。この発明において使用された独
自の駆動特徴づけおよび再生技術により大幅な帯域幅の
節約が可能になりかつ従来はずっと高いデータレートを
有するデジタルシステムにおいてのみ達成可能であった
デジタル音声品質を可能にする。

【００６５】例えば、補間されたエンベロープエラーが
低減されあるいは最小化されるという意味でエポックを
選択しかつ好ましくは最適のエポックを選択し、その選
択されたエポックを適切な関数によって重みづけして必
要な情報の量を低減しかつ目標の相関が符号化プロセス
において実質的な利益および有利性を提供し、一方受信
機においてフレームからフレームへの補間によって前記
符号化された信号から入力音声信号の高忠実度の再構築
が可能になる。さらに、駆動（ｅｘｃｉｔａｔｉｏｎ）
の領域、組またはサンプルを一連の連続するウィンドウ
に分割しかつその連続するウィンドウの各々に対しＲＭ
Ｓ信号レベルを測定することにより音声を表わす無声音
の駆動を特徴づけることにより信号処理の複雑さを大幅
に低減できる。

【００６６】以上開示されたのは音声信号の駆動同期時
間符号化のための方法であって、該方法は入力音声信号
を提供する段階、該入力音声信号を処理してリニア予測
符号化係数、エポック長およびボイシングを含む特質を
特徴づける段階、そして、入力音声が有声音声からなる
場合には該入力音声を単一エポックをベースとして特徴
づけて単一エポックの音声パラメータを提供する段階、
そして前記単一エポックの音声パラメータを符号化して
有声音声を表わすデジタル信号を提供する段階を具備す
る。

【００６７】前記単一エポックのベースで入力音声を特
徴づける段階は、さらに、音声データのフレーム内のエ
ポック駆動位置を決定しかつ音声データのフレームから
駆動データのフレームを決定する段階、駆動同期リニア
予測符号化（ＬＰＣ）を行ない前記決定段階からのエポ
ック駆動位置に対応する同期ＬＰＣ係数を提供する段
階、そして最小エンベロープエラーに基づき駆動データ
のフレーム内から補間駆動目標を選択して目標駆動関数
を提供する段階を具備し、この場合目標駆動関数は前記
同期ＬＰＣ係数を含む単一エポックの音声パラメータを
含む。

【００６８】補間目標を選択する前記段階はさらに前記
選択段階において選択された補間駆動目標を駆動データ
の隣接フレームにおいて選択された補間駆動目標と相関
して最適の補間オフセットを提供する段階、そして前記
選択段階において選択された補間駆動目標を前記補間オ
フセットだけ回転させて補間駆動目標のための新しい値
を提供する段階を具備する。

【００６９】入力音声が無声音声からなる場合は、無声
音声を一連の連続する領域に分割する段階、前記連続す
る領域の各々に対し二乗平均（ＲＭＳ）振幅を決定する
段階、そして前記ＲＭＳ振幅を符号化して無声音声を表
わすデジタル信号を提供する段階が含まれる。

【００７０】補間目標を選択する前記段階はさらに、所
定の重みづけ関数のファミリから統計的な重みづけ関数
を選択する段階、そして前記補間された駆動目標を選択
された統計的重みづけ関数によって重みづけして前記補
間駆動目標のための新しい値を提供する段階を具備す
る。

【００７１】さらに、デジタル信号を駆動同期時間デコ
ードして音声信号を提供するための方法が開示され、該
方法は音声を表わす入力デジタル信号を提供する段階、
前記入力デジタル信号が有声音声を表わすことを判定す
る段階、そして、前記入力デジタル信号が有声音声を表
わしている場合には、リニア予測符号化パラメータを補
間する段階を行なう段階、有声音駆動関数を再構築する
段階、そして前記再構築された有声音駆動関数をラチス
合成フィルタに提供することによって前記再構築された
有声音駆動関数から音声を合成する段階を具備する。

【００７２】有声音駆動関数を再構築する段階はさらに
隣接フレームにおける目標駆動関数の間を補間する段階
を具備する。

【００７３】前記入力デジタル信号が有声音声を表わす
ことを判定する段階は、前記入力デジタルデータが無声
音声を表わす場合に、一連の連続する二乗平均（ＲＭ
Ｓ）振幅をデコードする段階、前記連続するＲＭＳ振幅
の間を補間して無声音エンベロープを再生する段階、ノ
イズ発生器を再生されたエンベロープで変調して再生さ
れた無声音駆動関数を提供する段階、そして前記再生さ
れた無声音駆動関数から無声音声を合成する段階を具備
する。

【００７４】ノイズ発生器を変調する段階はガウス乱数
発生器を含む。

【００７５】また、音声信号の駆動同期時間符号化のた
めの装置が開示されており、該装置は前記フレーム同期
リニア予測符号化（ＬＰＣ）装置を有し、該フレーム同
期ＬＰＣ装置は入力および出力を有し、該入力は入力音
声信号を受け入れるためのものであり、前記出力は入力
音声信号の第１の部分を記述する第１のグループのＬＰ
Ｃ係数および前記入力音声信号の第２の部分を記述する
駆動波形を提供するためのものである。前記装置はまた
前記フレーム同期ＬＰＣ装置に結合され前記駆動波形の
エポック長を計算するための自己相関器、入力が該自己
相関器に結合されかつ出力信号が前記駆動波形の特徴を
記述する多数の係数からなるピッチフィルタを具備す
る。前記装置はまた前記ピッチフィルタの出力、前記相
関器の出力および前記フレーム同期ＬＰＣ装置の出力に
結合され、あるフレームが有声音であるかあるいは無声
音であるかを決定するためのフレーム発声（ｖｏｉｃｉ
ｎｇ）決定手段、前記フレーム発声決定手段に結合され
た一連の連続するタイムスロットにおける代表的な駆動
レベルを計算しかつ前記フレーム発声決定手段が前記一
連の連続するタイムスロットが無声音であることを判定
した場合に動作するための手段、そして前記代表的な駆
動レベルを計算するための手段に結合され前記駆動波形
に対応する符号化デジタル信号を提供するための符号化
手段（ｅｎｃｏｄｉｎｇｍｅａｎｓ）を具備する。

【００７６】音声信号の駆動同期時間符号化のための装
置はさらに、音声データのフレーム内のエポック駆動位
置を決定するための手段を具備し、該決定するための手
段は前記フレーム発声決定手段に結合されかつ前記フレ
ーム発声決定手段があるフレームが有声音であると判定
した場合に動作する。前記装置はまた入力音声信号を受
け入れるための第１の入力を有しかつ前記エポック駆動
位置を決定するための手段に結合された第２の入力を有
する第２のリニア予測符号化手段を具備し、該第２のＬ
ＰＣ手段は前記入力音声信号を特徴づけて前記入力音声
信号の第１の部分を記述する第２のグループのＬＰＣ係
数および入力音声信号の第２の部分を記述する第２の駆
動関数を提供し、前記第２のグループのＬＰＣ係数およ
び前記第２の駆動関数は単一エポックの音声パラメータ
からなる。前記装置はさらに最小エンべロープエラーに
基づき第２の駆動関数の一部の中から補間駆動目標を選
択し目標駆動関数を提供するための手段を具備し、該補
間駆動目標選択手段の入力は前記第２のＬＰＣ手段に結
合され、前記選択のための手段は前記符号化手段に結合
された出力を有する。

【００７７】前記フレーム発声決定手段はさらに前記第
１のグループのＬＰＣ係数からのリニア予測ゲイン係数
が第１のしきい値を越えているかあるいは第１のしきい
値に等しい場合に第１の発声フラグを「有声音」にセッ
トしそれ以外では前記第１の発声フラグを「無声音」に
セットするための第１の決定手段を具備する。前記フレ
ーム発声決定手段はさらに前記多数の係数の内の第２の
ものが第２のしきい値を越えているかあるいは第２のし
きい値に等しい場合、あるいは前記ピッチフィルタのピ
ッチゲインが第３のしきい値を越えているかあるいは第
３のしきい値に等しい場合に第２の発声フラグを「有声
音」にセットし、かつそれ以外では該第２の発声フラグ
を「無声音」にセットするための第２の決定手段を具備
する。前記フレーム音声決定手段はさらに前記多数の係
数の内の前記第２のものが前記第２のしきい値を越えて
いるかあるいは前記第２のしきい値に等しくかつリニア
予測符号化ゲインが第４のしきい値を越えているかある
いは第４のしきい値に等しい場合に第３の発声フラグを
「有声音」にセットし、それ以外では前記第３の発声フ
ラグを「無声音」にセットするための第３の決定手段を
具備する。前記フレーム発声決定手段はさらにリニア予
測符号化ゲインが第４のしきい値を越えているかあるい
は第４のしきい値に等しくかつ前記ピッチゲインが前記
第３のしきい値を越えているかあるいは前記第３のしき
い値に等しい場合に第４の発声フラグを「有声音」にセ
ットし、それ以外では前記第４の発声フラグを「無声
音」にセットするための第４の決定手段を具備する。前
記フレーム発声決定手段はさらに前記第１、第２、第３
および第４の発声フラグが「有声音」にセットされてい
る時、前記リニア予測符号化ゲインが第５のしきい値よ
り小さくなくかつ前記多数の係数の内の第２のものが第
６のしきい値よりも小さくない場合に第５の発声フラグ
を「有声音」にセットしかつそれ以外では前記第４の発
声フラグを「無声音」にセットするための第５の決定手
段を具備する。そして、前記フレームは前記第１、第
２、第３および第４の発声フラグの内のいずれかが「有
声音」にセットされておりかつ前記第５の発声フラグが
有声音にセットされている場合に有声音であると決定さ
れ、前記フレームは前記第１、第２、第３および第４の
発声フラグの全てが「無声音」にセットされている場合
に無声音であると判定され、そして前記フレームは前記
第５の発声フラグが「無声音」にセットされているもの
と判定された場合に無声音であると判定される。

【００７８】音声信号の駆動同期時間符号化のための装
置はさらに補間駆動目標を選択するための前記手段に結
合された駆動重みを選択するための手段を具備し、該駆
動重みを選択するための手段は男性の声に典型的な第１
のタイプの駆動に対しレーリー形重み関数からなる第１
のクラスの重み関数から重み関数を提供し、かつ前記第
１のタイプの駆動よりも高いピッチを有する第２のタイ
プの駆動についてはガウス形重み関数からなる第２のク
ラスの重み関数から重み関数を提供し、前記第２のタイ
プの駆動は女性の声に典型的なものである。前記音声信
号の駆動同期時間符号化のための装置はさらに前記目標
駆動関数を前記重み関数によって重み付けして前記符号
化手段に出力信号を提供するための重み付けのための手
段を具備し、該重み付けのための手段は前記駆動重みを
選択するための手段に結合されている。

【００７９】音声信号の駆動同期時間符号化のための装
置はさらに第１の補間目標を隣接フレームにおける第２
の補間目標と相関するための手段を具備し、該相関手段
は前記補間駆動目標選択手段に結合された入力を有しか
つ前記符号化手段に結合された出力を有し、前記相関手
段は前記第１の補間目標と前記第２の補間目標との間の
相関位相を決定する。

【００８０】デジタル信号を駆動同期時間デコードして
音声信号を提供するための装置が開示され、該装置は符
号化された音声を表すデジタル信号を受けるための入
力、前記入力に結合され前記デジタル信号から量子化さ
れた信号を提供するための符号化手段、前記符号化手段
に結合され前記量子化された信号が有声音声を表すこと
および前記量子化された信号が無声音声を表すことを判
定するためのフレーム発声決定手段、前記フレーム発声
決定手段に結合された無声音駆動を表す隣接する信号レ
ベルの間を補間するための手段、前記補間手段に結合さ
れ前記補間手段によって決定されるレベルまで変調され
たノイズ信号を提供するためのランダムノイズ発生器、
そして前記ランダムノイズ発生器に結合され前記変調さ
れたノイズ信号から無声音声を合成するためのラチス合
成フィルタを具備する。

【００８１】前記ランダムノイズ発生器はガウス乱数発
生器である。

【００８２】デジタル信号を駆動同期時間デコードして
音声信号を提供するための装置は、さらに、前記フレー
ム発声決定手段に結合され、量子化された信号が有声音
声を表す場合に前記量子化された信号において提供され
る引き続くＬＰＣパラメータの間を補間して補間された
ＬＰＣパラメータを提供するリニア予測符号化（ＬＰ
Ｃ）パラメータ補間手段、および該ＬＰＣパラメータ補
間手段に結合されて前記量子化された信号および前記補
間されたＬＰＣパラメータから有声音声を合成するため
のラチス合成フィルタ手段を具備する。

【００８３】デジタル信号を駆動同期時間デコードして
音声信号を提供するための装置は、さらに、目標駆動関
数の間に挿入された引き続く駆動関数を補間するための
手段を具備し、該引き続く駆動関数を補間するための手
段は前記ＬＰＣパラメータ補間手段に結合された入力を
有しかつ前記ラチス合成フィルタ手段に結合された出力
を有し、前記目標駆動関数を補間するための手段は第１
のフレームにおける第１の目標エポックと該第１のフレ
ームに隣接する第２のフレームにおける第２の目標エポ
ックとの間のエポックにおける連続する駆動関数を補間
し、前記ラチス合成フィルタ手段は前記補間されたＬＰ
Ｃパラメータおよび前記補間された引き続く駆動関数か
ら有声音声を合成する。

【００８４】前記無声音駆動を表す連続する（ｃｏｎｔ
ｉｇｕｏｕｓ）信号レベルは無声音駆動を表す連続する
二乗平均レベルからなる。

【００８５】通信装置が開示され、該通信装置は入力音
声信号を受けるための入力、前記入力に結合されて前記
入力音声信号をデジタル的に符号化するための音声デジ
タイザ、前記デジタル的に符号化された入力音声信号を
送信するための出力であって前記音声デジタイザに結合
されているもの、デジタル的に符号化された音声信号を
受けるためのデジタル入力を有する。前記通信装置はま
た、前記デジタル入力に結合され前記デジタル的に符号
化された音声信号から音声信号を合成するための音声シ
ンセサイザ手段を具備し、該音声シンセサイザ手段はさ
らにベクトル量子化コードブックに結合され該ベクトル
量子化コードブックからの量子化された信号が有声音声
を表すことおよび前記量子化された信号が無声音声を表
すことを判定するためのフレーム発声決定手段と、該フ
レーム発声決定手段に結合されて無声音駆動を表す引き
続く信号レベルの間の補間を行なうための手段と、前記
補補間手段に結合され前記補間手段によって決定された
レベルまで変調されたノイズ信号を提供するためのラン
ダムノイズ発生器とを具備する。前記通信装置はさらに
前記ランダムノイズ発生器に結合されて前記変調された
ノイズ信号から無声音声を合成するための出力手段を含
む。

【００８６】前記ランダムノイズ発生器はガウス形乱数
発生器である。

【００８７】音声信号を駆動同期時間符号化するための
方法が開示され、該方法は入力信号を提供する段階、リ
ニア予測符号化係数、エポック長およびボイシングを含
む特質を特徴づけるために入力音声信号を処理する段
階、前記入力音声信号が有声音声からなる場合に前記入
力音声信号を単一エポックの時間領域をベースとして特
徴づけてパラメータ化された駆動関数を提供する段階、
前記入力音声信号が有声音声からなる場合にあるフレー
ムの駆動内のエポック駆動位置を決定する段階、前記パ
ラメータ化された駆動関数のフレーム内の各エポックに
対するエポック長を決定する段階、前記エポック長を平
均して端数（ｆｒａｃｔｉｏｎａｌ）ピッチを提供する
段階、そして前記パラメータ化された駆動関数および前
記端数ピッチを符号化して前記入力音声信号を表すデジ
タル出力信号を提供する段階を具備する。

【００８８】さらに、音声信号を駆動同期時間符号化す
るための方法が開示され、該方法は、入力音声信号を提
供する段階、該入力音声信号を処理してリニア予測符号
化（ＬＰＣ）係数、エポック長およびボイシングを含む
特質を特徴づける段階、前記入力音声信号が有声音声か
らなる場合に前記入力音声信号を単一エポックの時間領
域のベースで特徴づけてパラメータ化された有声音駆動
関数を提供する段階、前記入力音声信号が無声音からな
る場合にフレームの少なくとも一部に対して入力音声信
号を特徴づけてパラメータ化された無声音駆動関数を提
供する段階、そして前記パラメータ化された無声音駆動
関数および前記パラメータ化された有声音駆動関数を含
む複合駆動関数を符号化して前記入力音声信号を表すデ
ジタル出力信号を提供する段階を具備する。

【００８９】さらに、単一エポックのベースで特徴づけ
られた音声信号をデジタル的に符号化する方法が提供さ
れ、該方法は端数ピッチを決定しかつデジタル的に符号
化する段階を含む。

【００９０】以上述べた特定の実施例は本発明の一般的
な性質を完全に開示しているから、当業者が、現在の知
識を適用することにより、本発明の一般的な概念から離
れることなくそのような特定の実施例に対し容易に変更
および／または種々の用途に適応させることが可能であ
る。したがって、そのような適応および修正は開示され
た実施例と等価な意味および範囲内にあるものと解釈さ
れるべきでありかつ解釈されるものと考える。

【００９１】ここで使用されている表現または用語は説
明のためのものであり限定的なものでないことが理解さ
れるべきである。したがって、本発明は添付の特許請求
の範囲の精神および範囲内にある全てのそのような置き
換え、修正、等価物および変形を含むものと考える。

【００９２】

【発明の効果】したがって、本発明により、前述の従来
例の問題を克服しかつ従来技術の方法および機構に関し
ある有利性を達成する駆動同期時間符号化ボコーダおよ
び方法が開示されたことが明らかである。知られた技術
に対する改善はかなり大きいものである。従来の手法に
おける高価な費用、複雑さおよび高い電力消費が避けら
れる。同様に、達成可能なデータレートを犠牲にするこ
となく改善された忠実度が提供される。

【図面の簡単な説明】

【図１】本発明に係わる送信機における音声デジタイザ
をフローチャート形式で示す単純化したブロック図であ
る。

【図２】男性の声に関連する駆動を重み付けるのに適し
たレーリー形駆動重み付け関数を示すグラフである。

【図３】女性の声に関連した重み付け駆動に適したガウ
ス形駆動重み付け関数を示すグラフである。

【図４】図１の送信機のような装置によって提供される
デジタルデータのための受信機における音声シンセサイ
ザをフローチャート形式で示す単純化したブロック図で
ある。

【図５】図１の送信機において発声を決定するための判
断ツリー装置をフローチャート形式で示す詳細なブロッ
ク図である。

【図６】本発明に係わる図１の音声デジタイザおよび図
４の音声シンセサイザを使用した音声通信装置を示す非
常に単純化したブロック図である。

【符号の説明】

１０送信機１１音声入力１２ハイパスフィルタ１４リニア予測符号化（ＬＰＣ）装置１５音声デジタイザ１７自己相関器１９ピッチフィルタ４１ベクトル量子化コードブック２９ＬＰＣ装置４３ベクトル量子化コードブック４５音声シンセサイザ５３ガウスランダムノイズ発生器５７ＬＰＣパラメータ補間器６２ラチス合成フィルタ７８入力装置７９，８３通信用プロセッサ８４出力装置１５，４５音声デジタイザ

───────────────────────────────────────────────────── フロントページの続き (72)発明者シーン・エス・ユーアメリカ合衆国アリゾナ州85224、チャンドラー、ウエスト・チルトン・ストリート 402

Claims

【特許請求の範囲】

【請求項１】音声信号の駆動同期時間符号化方法であ
って、該方法は、入力音声信号（１１）を提供する段階、前記入力音声信号（１１）を処理して（１２，１４，１
７，１９，２２）リニア予測符号化係数、エポック長お
よび発声を含む特質を特徴づける段階、そして、入力音
声（１１）が有声音声からなる場合に、前記入力音声（１１）を単一エポックのベースで特徴づ
けて（２４′）単一エポックの音声パラメータを提供す
る段階、および前記単一エポックの音声パラメータを符
号化して（４１）有声音声を表すデジタル信号を提供す
る段階、を具備することを特徴とする音声信号の駆動同期時間符
号化方法。
【請求項２】音声信号を提供するためにデジタル信号
を駆動同期時間デコードする方法であって、該方法は、音声を表す入力デジタル信号（４４）を提供する段階、前記入力デジタル信号（４４）が有声音声を表すことを
判定する段階（４６）、そして、前記入力デジタル信号
（４４）が有声音声を表す場合、リニア予測符号化パラメータを補間する段階（５７）、有声駆動関数を再構築する段階（５９）、そして前記再
構築された有声駆動関数をラチス合成フィルタに提供す
ることにより前記再構築された有声駆動関数から音声を
合成する段階（６２）、を具備することを特徴とする音声信号を提供するために
デジタル信号を駆動同期時間デコードする方法。
【請求項３】音声信号の駆動同期時間符号化装置であ
って、入力（１１）および出力を有するフレーム同期リニア予
測符号化（ＬＰＣ）装置（１５）であって、前記入力
（１１）は入力音声信号を受け入れるためのものであ
り、前記出力は前記入力信号の第１の部分を記述する第
１のグループのＬＰＣ係数および前記入力音声信号の第
２の部分を記述する駆動波形を提供するもの、前記フレーム同期ＬＰＣ装置（１５）に結合され前記駆
動波形のエポック長を計算するための自己相関器（１
５）、前記自己相関器（１５）に結合された入力を有しかつ前
記駆動波形の特徴を記述する複数の係数を含む出力信号
を有するピッチフィルタ（１５）、前記ピッチフィルタ（１５）の出力、前記自己相関器
（１５）の出力および前記フレーム同期ＬＰＣ装置（１
５）の前記出力に結合されあるフレームが有声音である
かあるいは無声音であるかを判定するためのフレーム発
声決定手段（１５）、前記フレーム発声決定手段（１５）に結合され一連の引
き続くタイムスロットにおける代表的な駆動レベルを計
算しかつ前記フレーム発声決定手段（１５）が前記一連
の引き続くタイムスロットが無声音であることを判定し
た場合に動作する手段（１５）、そして前記代表的な駆動レベルを計算するための前記手段（１
５）に結合され前記駆動波形に対応する符号化されたデ
ジタル信号を提供するための符号化手段（１５）、を具備することを特徴とする音声信号の駆動同期時間符
号化装置。
【請求項４】音声信号を提供するためにデジタル信号
の駆動同期時間デコードを行なうための装置であって、
該装置は、符号化された音声を表すデジタル信号を受けるための入
力（４４）、前記入力（４４）に結合され前記デジタル信号から量子
化された信号を提供するための符号化手段（４５）、前記符号化手段（４５）に結合され、前記量子化された
信号が有声音声を表すことおよび前記量子化された信号
が無声音声を表すことを判定するためのフレーム発声決
定手段（４５）、前記フレーム発声決定手段（４５）に結合されて無声音
駆動を表す引き続く信号レベルの間を補間するための手
段（４５）、前記補間手段（４５）に結合され、前記補間手段（４
５）によって決定されるレベルまで変調されたノイズ信
号を提供するためのランダムノイズ発生器（４５）、そ
して前記ランダムノイズ発生器（４５）に結合され前記
変調されたノイズ信号から無声音声を合成するためのラ
チス合成フィルタ手段（４５）、を具備することを特徴とする音声信号を提供するために
デジタル信号を駆動同期時間デコードするための装置。
【請求項５】通信装置であって、入力音声信号を受けるための入力（７８）、前記入力（７８）に結合され前記入力音声信号をデジタ
ル的に符号化するための音声デジタイザ（１５）、前記デジタル的に符号化された入力音声信号を送信する
ための出力（７９）であって、該出力（７９）は前記音
声デジタイザ（１５）に結合されているもの、デジタル的に符号化された音声信号を受けるためのデジ
タル入力（８３）、前記デジタル入力（８３）に結合され前記デジタル的に
符号化された音声信号から音声信号を合成するための音
声合成手段（４５）であって、該音声合成手段（４５）
はさらに、前記ベクトル量子化コードブック（４５）に結合され前
記ベクトル量子化コードブック（４５）からの量子化さ
れた信号が有声音声を表すことおよび前記量子化された
信号が無声音声を表すことを判定するためのフレーム発
声決定手段（４５）、前記フレーム発声決定手段（４５）に結合されて無声音
駆動を表す引き続く信号レベルの間を補間するための手
段（４５）、そして前記補間手段（４５）に結合され、
前記補間手段（４５）によって決定されるレベルまで変
調されたノイズ信号を提供するためのランダムノイズ発
生器（４５）、を具備する前記音声合成手段（４５）、
そして前記ランダムノイズ発生器（４５）に結合され前
記変調されたノイズ信号から無声音声を合成するための
出力手段（８４）、を含むことを特徴とする通信装置。
【請求項６】音声信号を駆動同期時間符号化するため
の方法であって、該方法は、入力音声信号（１１）を提供する段階、前記入力音声信号（１１）を処理して（１２，１４，１
７，１９，２２）リニア予測符号化係数、エポック長お
よび発声を含む特質を特徴づける段階、前記入力音声信号（１１）が有声音声からなる場合に前
記入力音声信号（１１）を単一エポックの時間領域のベ
ースで特徴づけて（２４′）パラメータ化された駆動関
数（３９）を提供する段階、前記入力音声信号（１１）が有声音声からなる場合にあ
る駆動のフレーム内でエポック駆動位置を決定する段階
（２７）、前記パラメータ化された駆動関数のフレーム内の各々の
エポックに対しエポック長を決定する段階（２７）、前記エポック長を平均化して（２７′）端数ピッチを提
供する段階、そして前記パラメータ化された駆動関数お
よび前記端数ピッチを符号化して（４１）前記入力音声
信号（１１）を表すデジタル出力信号（４２）を提供す
る段階、を具備することを特徴とする音声信号を駆動同期時間符
号化するための方法。
【請求項７】音声信号を駆動同期時間符号化するため
の方法であって、該方法は、入力音声信号（１１）を提供する段階、前記入力音声信号（１１）を処理して（１２，１４，１
７，１９，２２）リニア予測符号化（ＬＰＣ）係数、エ
ポック長および発声を含む特質を特徴づける段階、前記入力音声信号（１１）が有声音声からなる場合に前
記入力音声信号（１１）を単一エポックの時間領域のベ
ースで特徴づけて（２４′）パラメータ化された有声音
駆動関数（３９）を提供する段階、前記入力音声信号（１１）が無声音声からなる場合に前
記入力音声信号（１１）を少なくともフレームの一部に
対して特徴づけて（２４）パラメータ化された無声音駆
動関数（２５）を提供する段階、そして前記パラメータ
化された無声音駆動関数（２５）および前記パラメータ
化された有声音駆動関数（３９）を含む複合駆動関数を
符号化して（４１）入力音声信号（１１）を表すデジタ
ル出力信号（４２）を提供する段階、を具備することを特徴とする音声信号を駆動同期時間符
号化するための方法。
【請求項８】端数ピッチを決定する段階（２７′）お
よびデジタル的に符号化する段階（４１）を含むことを
特徴とする単一エポックのベースで特徴づけられた音声
信号をデジタル的に符号化する方法。