JPH10207498A - マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器 - Google Patents

マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器

Info

Publication number
JPH10207498A
JPH10207498A JP10031913A JP3191398A JPH10207498A JP H10207498 A JPH10207498 A JP H10207498A JP 10031913 A JP10031913 A JP 10031913A JP 3191398 A JP3191398 A JP 3191398A JP H10207498 A JPH10207498 A JP H10207498A
Authority
JP
Japan
Prior art keywords
mode
gain
input
speech
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10031913A
Other languages
English (en)
Inventor
Erdal Paksoy
パクソイ エルダル
Alan V Mccree
ブイ.マックリー アラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH10207498A publication Critical patent/JPH10207498A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 音声入力における有声音声のように一定のト
ランジェント音を正しく特徴付けると共に、出力音声の
ゲインが入力のゲインによく対応させるように音声入力
を分類する方法及びその符号器を提供する。 【解決手段】 前記音声入力のビーク測定値がそのピー
クしきい値より大きいときは、前記音声入力を第1のモ
ードに分類し、そうでないときは、前記第1のモードよ
り大きな数の非ゼロ・エレメントによる励振ベクトルを
有する第2モードに分類する。更に、前記音声入力から
目標ベクトルを得てこれをゲイン正規化し、かつ前記ゲ
イン正規化した前記目標ベクトルと、合成し、かつろ波
した励振ベクトルとの間の誤差を最小化させるステップ
を備えて前記音声を符号化する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して音声入力を
符号化する方法及びその符号器に関し、特にマルチモー
ドの符号励振線形予測(code−excited l
inear prediction:CELP)により
音声入力を符号化する方法及びその符号器に関する。
【0002】
【従来の技術】符号励振線形予測(CELP)は低ビッ
ト速度から中ビット速度(4〜16kb/s)において
優れたパフォーマンスを示す周知クラスの音声符号化で
ある。通常、CELP符号器は、入力信号の固定長セグ
メント(フレームと呼ばれている)上で動作する。マル
チモードCELP符号器は、各入力フレームをいくつか
のクラス(モードと呼ばれている)のうちの一つに分類
しているものである。これらのモードは独特の符号化技
術により特徴付けられる。
【0003】
【発明が解決しようとする課題】典型的に、マルチモー
ドCELP符号器には有声音声及び無声音声用に別個の
モードが含まれる。CELP符号器は有声音声と無声音
声との間を区別するために種々の技術を採用するもので
あった。しかし、これらの技術は、通常、有声音声のよ
うに一定のトランジェント音を正しく特徴付けるのに失
敗している。CELP符号器において他に共通する問題
は、出力音声ゲインが入力ゲインに必ずしも整合するも
のでない、ということである。
【0004】
【課題を解決するための手段】従って、当該技術分野で
はマルチモード音声符号器を改善する要請が発生した。
本発明は従来のシステムに関連した欠点及び問題を実質
的に減少又は除去したマルチモード音声符号器及び方法
を提供することである。
【0005】本発明によれば、音声入力を受け取り、か
つ前記音声入力のピーク測定値を得ることにより、音声
を分類することができる。次いで、前記ピーク測定値が
そのピークしきい値より大きいか否かを判断することが
できる。前記ピーク測定値が前記ピークしきい値より大
きいときは、前記音声入力を、符号励振線形予測モード
を含むマルチモード音声符号器の第1モードに分類する
ことができる。
【0006】特に、本発明の一実施例によれば、音声を
分類する方法には、更に、オープン・ループ・ピッチ予
測ゲイン及び前記音声入力のゼロ・クロス率を得ること
が含まれてもよい。次に、前記オープン・ループ・ピッ
チ予測ゲインがそのオープン・ループ・ピッチ予測ゲイ
ンしきい値より大きいか否か、かつ前記ゼロ・クロス率
がそのゼロ・クロス率しきい値より小さいか否かを判断
することができる。いずれの場合も、前記音声入力を前
記符号励振線形予測モードを含む前記マルチモード音声
符号器の第1モードに分類することができる。前記音声
入力が前記第1モードに分類されない場合には、前記音
声入力を多数の非ゼロ・エレメントによる励振ベクトル
を有する第2モードに分類することができる。
【0007】本発明の他の実施例によれば、音声は、ゲ
インが整合された合成による解析(gain −mat
ched analysis−by−synthesi
s)を用いて符号化されてもよい。本発明のこの特徴に
よれば、音声入力からゲイン値を得てもよい。次いで、
音声入力及び正規化されたゲインから目標ベクトルを得
てもよい。正規化されたゲインの目標ベクトルと合成さ
れ−ろ波された励振ベクトルとの間の誤差を最小化する
ことにより、最適励振ベクトルを決定してもよい。
【0008】本発明の重要な技術的な効果には、改良さ
れたマルチモード符号励振線形予測(CELP)符号器
及びシステムを提供することが含まれる。特に、マルチ
モードCELP符号器は、短いバーストの高エネルギ・
パルスを有する有声音声に続き、有声音声として比較的
に静かな雑音状のインターバルを正しく分類し、かつ符
号化するように動作可能なピーク・モジュールを含む。
従って、/t/、/k/、及び/p/のような無声破裂
音は、少数の非ゼロ・エレメントによる何らかの励振ベ
クトルを有するモードに正しく分類され得る。
【0009】本発明の他の技術的な効果には、無声音声
に対して、ゲインが整合された−合成による解析を提供
することが含まれる。特に、前記CELP符号器は音声
入力ゲインに対して符号化された音声入力ゲインを整合
させてもよい。次いで、音声入力は前記ゲインにより正
規化されてもよい。次いで、前記CELP符号器により
合成による解析を実行して前記音声入力の励振パラメー
タを決定していもよい。前記ゲインの整合は、低ビット
速度で無声音声を符号化することに一般的に関連する好
ましくないゲイン変動(gain fluctuati
on)を減少又は除去する。
【0010】他の技術的な効果は、当該技術分野に習熟
する者にとって以下の図、説明及び特許請求の範囲から
明らかである。
【0011】本発明及びその効果のより完全な理解のた
めに、ここで、添付図面に関連して行う以下の説明を参
照する。図において、同一番号は同一部分を表す。
【0012】
【発明の実施の形態】本発明の好ましい実施例及びその
効果は、ここで図面のうちの図1〜図3を更に詳細に参
照することにより最もよく理解される。これらの図にお
いて同一番号は同一部分を指す。以下で更に詳細に説明
するように、図1〜図3は音声間をよりよく識別して分
類するように動作可能なピーク・モジュールを含むマル
チモード符号励振線形予測(CELP)符号器を示す。
本発明の他の特徴によれば、マルチモードCELP符号
器は、ゲイン整合化−合成による解析の符号化を採用し
て音声符号化に関連したゲイン変動を減少又は除去させ
る。
【0013】図1は本発明によるマルチモードCELP
符号器10のブロック図を示す。本発明によれば、CE
LP符号器は線形予測に基づいた合成による解析の音声
符号器であってもよく、この符号器は3進代数のベクト
ル和、かつランダムに母集団化され、トレーニングされ
た適応又は同様のコードブックから取り出すことが可能
とされる励振を用いる。
【0014】一実施例において、マルチモードCELP
符号器10は電話応答装置に用いられてもよい。マルチ
モードCELP符号器10は、他の通信、電話、又は合
成音声を供給する他の型式の装置に関連して用いられて
もよいことを理解すべきである。例えば、マルチモード
CELP符号器10は、電話メール・システム、ディジ
タル録音装置、セルラ電話等により採用され得る。
【0015】マルチモードCELP符号器10は、エン
コーダ12及びデコーダ14対、メモリ16、ランダム
・アクセス・メモリ(RAM)18及びプロセッサ20
を備えてもよい。プロセッサ20はエンコーダ12及び
デコーダ14の命令を実行することができる。エンコー
ダ12は通常のアナログ・ディジタル変換器22及び通
常の高域通過フィルタ24を介して音声入力を受け取る
ことができる。高域通過フィルタ24は、アナログ入力
26をディジタル形式に変換することができる。高域通
過フィルタ24は入力信号26から直流成分及び他のバ
イアス要因を除去することができる。
【0016】概要的に説明すると、エンコーダ12は、
入力信号の固定長セグメント(フレームと呼ばれてい
る)上で動作することができる。エンコーダ12は、符
号化してデコーダ14が後に使用する一組のパラメータ
を計算することにより、音声の各フレームを処理するこ
とができる。これらのパラメータは、在フレームを符号
化するために用いているモードをデコーダ14知らせる
モード・ビットと、時間が変化する全極フィルタ(al
l pole filter)であってLPC合成フィ
ルタと呼ばれているものを指定する直線予測係数(LP
C)と、時間領域の波形(励振信号と呼ばれている)を
指定する励振パラメータとを含むことができる。各フレ
ームのパラメータはRAM18に符号化メッセージとし
て記憶されてもよい。そうでないときは、符号化メッセ
ージ28を本発明の範囲内で記憶されてもよいことを理
解すべきである。
【0017】メッセージ28を再生するときは、デコー
ダ14はメッセージ28を受け取って入力信号に対する
近似(符号化音声と呼ばれている)を合成する。デコー
ダ14は励振信号を再構築してLPC合成フィルタ30
を通過させる。LPC合成フィルタ30の出力は符号化
音声となる。この符号化音声は通常のディジタル・アナ
ログ変換器32を介して導かれてもよく、ここでは符号
化音声がアナログ出力信号34に変換される。
【0018】エンコーダ12には直線予測符号化(LP
C)解析モジュール40及びモード・モジュール42が
含まれてもよい。LPC解析モジュール40は一つのフ
レームを解析して、適当な直線予測符号化LPC係数を
決定する。LPC係数は周知の解析技術を用いて計算さ
れて、同じようにして予測多段ベクトル量子化を用いて
量子化される。LPC係数はメモリ16に記憶されてい
るLPCコードブック44を用いて量子化され得る。
【0019】モード判断変調42には、入力音声を独特
の符号化技術により特徴付けられたいくつかのモジュー
ルのうちの一つに分類するためにピッチ予測ゲイン・モ
ジュール50、ゼロ交差モジュール52及びピーク・モ
ジュール54が含まれ得る。以下で更に詳細に説明する
ように、マルチモードCELP符号器10には、固定励
振により特徴付けられた第1のモードと、ランダム励振
により特徴付けられた第2のモードとが含まれ得る。第
1のモードはある程度の周期性を有する信号と共に、強
力な数個のパルス又は局部化されたエネルギ・バースト
を含む信号により適していると思われる。その結果、/
t/、/k/及び/p/のような無声破裂音を含む有声
音声は、第1のモードを用いて模型化され得る。第2モ
ードは、例えば/sh/、/f/、/th/のような摩
擦音における雑音状のもの、及び背景雑音のみからなる
入力信号の部分である。従って、無声音声は第2モード
を用いて模型化され得る。
【0020】モードを決定する目的は、各フレームに適
当とする励振形式を選択することである。第1のモード
において、この励振信号は異なる2つのコードブックか
ら得た2つの構成要素の線形組合わせであってもよく、
これらのコードブックは適応コードブック60及び固定
励振コードブック62であり得る。適応コードブック6
0は適応ゲイン・コードブック64に関連されて、LP
C残りの疑似ピッチ構成要素を符号化するために採用さ
れ得る。適応コードブック60は、時間シフトされ、か
つ補間された過去の励振値からなる。
【0021】固定励振コードブック62は、固定ゲイン
・コードブック66に関連されて、適応コードブック6
0の寄与分を引算した後に残った励振信号の部分を符号
化するために用いられてもよい。固定励振コードブック
62には、+1又は−1であり得る小さな固定数の非ゼ
ロ・サンプルのみを含むまばらなコードベクトルが含ま
れ得る。
【0022】第2モードにおいて、励振信号は、ランダ
ムなガウス数により占められ、ランダム励振コードブッ
ク70から取ったゲイン−スケールされたベクトルであ
り得る。ランダム励振コードブック70はランダム励振
ゲイン・コードブック72に関連されてもよい。本発明
によれば、第2モードはゲイン整合かつ合成による解析
符号化を用いて符号化され得る。この符号化方法は以下
で図3に連係して詳細に説明される。
【0023】LPCコードブック44、固定励振コード
ブック62、固定ゲイン・コードブック66、ランダム
励振コードブック68及びランダム励振コードブック7
0は、マルチモードCELP符号器10のメモリ16に
記憶され得る。適応コードブック60はRAM18に記
憶され得る。従って、適応コードブック60は連続的に
更新され得る。適応ゲイン・コードブック64はエンコ
ーダ12に記憶され得る。その他、マルチモードCEL
P符号器10のコードブック及びモジュールは、本発明
の範囲内で記憶され得ることを理解すべきである。
【0024】図2は本発明の一実施例により音声入力を
第1のモード又は第2モードに分類する方法のフローチ
ャートを示す。一実施例において、第1のモードは第2
モードより少ない非ゼロ・エレメントによる励振ベクト
ルを有し得る。通常、第1のモードが有声音声/過渡的
音声により関連され、また第2モードが無声音声に関連
され得る。この方法はステップ100から開始され、エ
ンコーダ12が入力の音声フレームを受け取る。ステッ
プ102に進み、エンコーダ12が分類パラメータを抽
出する。図2の実施例の場合に、分類パラメータには、
オープン・ループ・ピッチ・ゲイン、ゼロ交差率及びピ
ーク測定値が含まれてもよい。
【0025】次に、ステップ104において、オープン
・ループ・ピッチ予測ゲイン・モジュール50は音声フ
レームのオープン・ループ・ピッチ・ゲインを得ること
ができる。一実施例において、オープン・ループ・ピッ
チ予測ゲインは、正規化された自動的相関値を最大化す
ることにより、決定され得る。そうでなければ、本発明
の範囲内でオープン・ループ・ピッチ予測ゲインを得て
もよいことを理解すべきである。判断ステップ106に
進み、オープン・ループ・ピッチ予測ゲイン・モジュー
ル50は、オープン・ループ・ピッチ予測ゲインがオー
プン・ループ・ピッチ予測ゲインしきい値より大きいか
否かを判断することができる。一実施例において、オー
プン・ループ・ピッチ予測ゲインしきい値は0.3から
0.6までの範囲であり得る。特定の実施例において、
オープン・ループ・ピッチ予測ゲインしきい値は0.3
2であり得る。この実施例では、オープン・ループ・ピ
ッチ予測ゲインを下記の式から決定することができる。
【0026】
【数1】 ただし、p=任意選択のピッチ遅れ i=時間インデックス x=信号 N=サンプル数/フレーム
【0027】そうでない場合は、オープン・ループ・ピ
ッチ予測ゲインを本発明の範囲内で決定してもよいこと
を理解すべきである。
【0028】ピッチ予測ゲインがピッチ予測ゲインしき
い値より大きいときは、判断ステップ106のイエス分
岐によりステップ108に導かれる。ステップ108に
おいて、フレームを固定励振符号化用の有声音声として
分類することができる。オープン・ループ・ピッチ予測
ゲインがオープン・ループ・ピッチ予測ゲインしきい値
より小さいときは、判断ステップ106のノー分岐によ
るステップ110に導かれる。
【0029】ステップ110において、ゼロ交差モジュ
ール52は音声フレームのゼロ交差率を得ることができ
る。ゼロ交差率は、1フレーム内において信号の符号が
変化する回数をフレームにおけるサンプル数により割算
したものとすることができる。判断ステップ112に進
み、ゼロ交差モジュール52は音声フレームのゼロ交差
率がゼロ交差率しきい値より小さいか否かを判断するこ
とができる。一実施例において、ゼロ交差率しきい値は
0.25から0.4までのものあってもい。特に、ゼロ
・クロス率しきい値は0.33であってもよい。ゼロ交
差率がゼロ交差率しきい値より小さいときは、判断ステ
ップ112のイエス分岐によりステップ108に導くこ
とができる。前述のように、ステップ18において音声
フレームを有声音声として分類することができる。ゼロ
交差率がゼロ交差率しきい値より小さいときは、判断ス
テップ112のノー分岐によるステップ114に導かれ
る。ステップ114において、ピーク・モジュール54
は音声フレームのピーク測定値を得ることができる。一
実施例において、ピーク測定値を下記のように計算する
ことができる。
【0030】
【数2】 ただし、p=ピーク測定値 r[n]=LPC剰り N=フレーム内のサンプル数
【0031】ステップ114は判断ステップ116に続
く。判断ステップ116において、ピーク・モジュール
54は、ピーク測定値がピークしきい値より大きいか否
かを判断することができる。一実施例において、ピーク
しきい値は1.3から1.4に及ぶものが可能である。
特定の実施例において、ピークしきい値は1.3であっ
てもよい。ピーク測定値がそのしきい値より大きいとき
は、判断ステップ116のイエス分岐によりステップ1
08に導くことができる。前述のように、ステップ11
8において音声フレームを有声音声として分類すること
ができる。ピーク測定値がそのしきい値より大きくない
ときは、判断ステップ116のノー分岐によりステップ
118に導かれる。
【0032】ステップ118では、音声フレームを無声
音声として分類することができる。ステップ108及び
ステップ118により判断ステップ120に導かれる。
判断ステップ120において、エンコーダ12は他の入
力音声フレームが存在するか否かを判断することができ
る。他のフレームが存在するときは、判断ステップ12
0のイエス分岐によりステップ100に戻り、そこで分
類のために次のフレームを受け取る。他の音声フレーム
が存在しないときは、判断ステップ120のノー分岐に
よりこの方法の終了に導かれる。
【0033】従って、しきい値より大きくないオープン
・ループ・ピッチ予測ゲインを有し、ゼロ交差率がしき
い値より小さくない、かつピーク測定値がピークしきい
値より大きくないフレームのみが、無声音声として分類
されることになる。ピークの式から、音声フレームは、
そのマグニチュードが残りより遥かに大きい少数のサン
プルを含むときに、大きなピーク測定値を有する。しか
し、フレームのピーク測定値は、もし全てのサンプルが
絶対値に関して匹敵し得るならば、小さくなる。従っ
て、鋭いパルスを有する周期信号は、別の静かなフレー
ムにおける短いエネルギ・バーストを含む信号のよう
に、大きなピーク値を有することになる。他方、無声の
摩擦音のような雑音状信号は、小さなピーク値を有す
る。従って、有声による発声の開始又は終了が有声音声
及び改善された音声品質として正しく符号化されること
になる。
【0034】図3は本発明の一実施例によりモード2音
声を符号化するためのゲイン整合かつ合成による解析を
示す。この方法はステップ150から開始され、エンコ
ーダ12が入力音声フレームを受け取る。ステップ15
2に進み、エンコーダ12が入力音声フレームのLPC
パラメータを抽出することができる。ステップ154に
おいて、入力音声フレームのLPC残りを決定すること
ができる。LPC残りとは入力音声とLPCパラメータ
により予測された音声との間の差である。
【0035】ステップ156に進むと、LPC残りのゲ
インを決定することができる。一実施例において、下記
の式によりゲインを決定することができる。
【0036】
【数3】
【0037】次に、ステップ158において、ゲインに
ついてスケール設定することができる。一実施例におい
て、ゲインは、これがCELPミューティング係数(m
uting factor)として知られている一定の
スケール係数と掛算されることにより、スケール設定さ
れ得る。この定数は、経験的に予測され、また符号化音
声のゲインと第1のモードにより符号化された全ての音
声フレームに関するオリジナル音声との平均比であって
もよい。スケール設定は、符号器の両モードにおける符
号化音声のエネルギ・レベルを整合させる。励振コード
ブックにおける全てのコードベクトルは、基準単位を有
すると仮定することができる。次いで、ステップ160
においてゲインを保証することができる。
【0038】ステップ161に進み、スケール・ファク
タを極−ゼロの聴感重み付けフィルタ(percept
ual weighting filter)W(z)
によりろ波することにより、かつステップ162におい
てその結果から聴感重み付け合成フィルタのゼロ入力応
答を引き算することにより、目標ベクトルを得ることが
できる。聴感重み付け合成フィルタはA(z)W(z)
により与えられ得る。
【0039】
【数4】 及び
【0040】
【数5】
【0041】ステップ163に進み、目標ベクトルをゲ
イン正規化することができる。一実施例では、入力音声
をゲインにより割算することによって、目標ベクトルを
ゲイン正規化することができる。従って、その合成音声
は、通常、大抵の無声信号にとって励振ベクトルの形状
よりも重要な正しいゲイン値を有する。これは、ゲイン
を予め計算し、かつ励振目標ベクトルを再スケールを設
定する行われる。従って、本発明は、合成による解析符
号化をまだ実行している間に、符号化音声ゲインに対し
て入力音声ゲインを整合させる。
【0042】ステップ164に進み、ゲイン正規化され
た音声フレームの励振値を決定することができる。次式
を最小化することにより、最適励振ベクトルを得ること
ができる。
【0043】
【数6】 ただし、 D′=オリジナルと合成音声との間で重み付けし二乗し
た誤差 s′=ゲイン正規化目標ベクトル H=聴感重み付け合成フィルタW(z)A(z)のイン
パルス応答マトリックス e=最適励振ベクトル
【0044】インパルス応答マトリックスは次式により
与えられる。
【0045】
【数7】
【0046】従って、合成による解析を用いて以下の式
を最小化することにより、最適励振を見出すことができ
る。
【0047】
【数8】 ただし、C‘=コスト関数 H=聴感重み付け合成フィルタW(z)A(z)のイン
パルス応答マトリックス =最適励振ベクトルs′ =ゲイン正規化された目標ベクトル
【0048】次に、ステップ166において、エンコー
ダ12は符号化メッセージ28の一部として音声フレー
ムの励振パラメータを記憶することができる。前述のよ
うに、更に、符号化メッセージにはモード・ビット及び
LPC係数が含まれてもよい。ステップ166により処
理の終りに導かれる。
【0049】以上により、本発明は、合成音声が正しい
ゲイン値を有することを保証している。同時に、入力信
号の特徴を保持するために合成による解析が実行され
る。その結果、好ましくないゲイン変動が実質的に減少
又は除去される。
【0050】いくつかの実施例により本発明を説明した
が、当該技術分野に習熟する者にはす種々の変更及び修
正が示唆される。本発明は特許請求の範囲内に含まれる
このように変更及び修正を包含ことを意図している。
【0051】以上の項に関して更に以下の項を開示す
る。
【0052】(1)音声入力を受け取るステップと、前
記音声入力のピーク測定値を得るステップと、前記ピー
ク測定値がそのピークしきい値より大きいか否かを判断
するステップと、前記ピーク測定値がそのピークしきい
値より大きいときは、前記音声入力を、符号励振線形予
測モードを含むマルチモード音声符号化器の第1のモー
ドに分類するステップとを含む音声を分類する方法。
【0053】(2)更に、前記音声入力のオープン・ル
ープ・ピッチ予測ゲインを得るステップと、前記オープ
ン・ループ・ピッチ予測ゲインがそのオープン・ループ
・ピッチ予測ゲインしきい値より大きいか否かを判断す
るステップと、前記オープン・ループ・ピッチ予測ゲイ
ンが前記オープン・ループ・ピッチ予測ゲインしきい値
より大きいときは、前記音声入力を、前記符号励振線形
予測モードを含むマルチモード音声次数の前記第1のモ
ードに分類するステップとを含む第1項記載の方法。
【0054】(3)更に、前記音声入力のゼロ交差率を
得るステップと、前記ゼロ交差率がそのゼロ交差率しき
い値より小さいか否かを判断するステップと、前記ゼロ
交差率がそのゼロ交差率しきい値より小さいときは、前
記音声入力を固定励振符号化用の第1のモード形式とし
て分類するステップとを含む第1項記載の方法。
【0055】(4)更に、前記音声のオープン・ループ
・ピッチ予測ゲインを得るステップと、前記オープン・
ループ・ピッチ予測ゲインがそのオープン・ループ・ピ
ッチ予測ゲインしきい値より大きいか否かを判断するス
テップと、前記オープン・ループ・ピッチ予測ゲインが
そのオープン・ループ・ピッチ予測ゲインしきい値より
大きいときは、前記音声入力を、前記符号励振線形予測
モードを含むマルチモード音声符号器の前記第1のモー
ドに分類するステップと、前記音声入力のゼロ交差率を
得るステップと、前記ゼロ交差率がそのゼロ交差率しき
い値より小さいか否かを判断するステップと、前記ゼロ
交差率がそのゼロ交差率しきい値より小さいときは、前
記音声入力を前記符号励振線形予測モード含む前記マル
チモード音声符号化器の前記第1のモードに分類するス
テップとを含む第1項記載の方法。
【0056】(5)更に、前記音声入力が前記第1のモ
ードに分類されないときは、前記音声入力を、前記第1
のモードより大きな数の非ゼロ・エレメントによる励振
ベクトルを有する第2モードに分類するステップを含む
第1記載の方法。
【0057】(6)更に、前記音声入力が前記第1のモ
ードに分類されないときは、前記音声入力を、前記第1
のモードより大きな数の非ゼロ・エレメントによる励振
ベクトルを有する第2モードに分類するステップを含む
第2記載の方法。
【0058】(7)更に、前記音声入力が前記第1のモ
ードに分類されないときは、前記音声入力を、前記第1
のモードより大きな数の非ゼロ・エレメントによる励振
ベクトルを有する第2モードに分類するステップを含む
第3記載の方法。
【0059】(8)更に、前記音声入力が前記第1のモ
ードに分類されないときは、前記音声入力を、前記第1
のモードより大きな数の非ゼロ・エレメントによる励振
ベクトルを有する第2モードに分類するステップを含む
第4記載の方法。
【0060】(9)前記第1のモードはパルス励振を含
み、かつ前記第2モードはランダム励振を含む第5項記
載の方法。
【0061】(10)前記第1のモードはパルス励振を
含み、かつ前記第2モードはランダム励振を含む第6項
記載の方法。
【0062】(11)前記第1のモードはパルス励振を
含み、かつ前記第2モードはランダム励振を含む第7項
記載の方法。
【0063】(12)入力音声からゲイン値を受け取る
ステップと、前記入力音声から目標ベクトルを得るステ
ップと、前記目標ベクトルをゲイン正規化するステップ
と、前記ゲイン正規化した前記目標ベクトルと合成され
ろ波された励振ベクトルとの間の誤差を最小化するステ
ップとを含む、音声を符号化する方法。
【0064】(13)更に、前記ゲインをミューティン
グ係数によりスケール設定するステップを含む第12項
記載の方法。
【0065】(14)更に、前記スケール設定したゲイ
ンを量子化するステップを含む第13項記載の方法。
【0066】(15)前記入力音声は、この入力音声を
前記ゲインにより割算することにより正規化されたゲイ
ンである第12項記載の方法。
【0067】(16)入力音声からゲイン値を得るステ
ップと、前記入力音声をゲイン正規化するステップと、
前記ゲイン正規化された入力音声から目標ベクトルを得
るステップと、前記ゲイン正規化した入力音声の前記目
標ベクトルと合成されろ波された励振ベクトルとの間の
誤差を最小化することにより最適励振ベクトルを決定す
るステップとを含む、音声を符号化する方法。
【0068】(17)音声入力を受け取るように動作可
能なエンコーダと、前記エンコーダと通信するピーク検
出モジュールとを含み、前記ピーク検出モジュールは、
前記音声入力のピーク測定値を得ると共に、前記ピーク
測定値がピークしきい値より大きいか否かを判断するよ
うに動作可能であり、前記エンコーダは、前記ピーク測
定値がピークしきい値より大きい場合に前記音声入力を
第1のモードに分類するように動作可能であり、かつ前
記エンコーダは、パルス励振システムにより第1のモー
ドの入力音声を符号化するように動作可能である符号励
振線形予測(CELP)符号器。
【0069】(18)更に、前記エンコーダは、前記ピ
ーク測定値が前記第1のモードに分類されない場合に、
前記音声入力を第2モードに分類するように動作可能で
あり、かつ前記エンコーダは、ランダム励振システムに
より第2のモードの音声入力を符号化するように動作可
能である第17項記載のCELP符号器。
【0070】(19)更に、前記エンコーダと通信する
ピッチ予測ゲイン・モジュールを含み、前記ピッチ予測
ゲイン・モジュールは、前記音声入力のオープン・ルー
プ・ピッチ予測ゲインを得ると共に、前記オープン・ル
ープ・ピッチ予測ゲインがそのオープン・ループ・ピッ
チ予測ゲインしきい値より大きいか否かを判断するよう
に動作可能であり、前記エンコーダは、前記オープン・
ループ・ピッチ予測ゲインがそのオープン・ループ・ピ
ッチ予測ゲインしきい値より大きい場合に、前記第1の
モード形式として前記音声入力を分類するように動作可
能である第17項記載のCELP符号器。
【0071】(20)更に、前記エンコーダと通信する
ゼロ交差モジュールを含み、前記ゼロ交差モジュール
は、前記音声入力のゼロ交差率を得ると共に、前記ゼロ
交差率がそのゼロ交差率しきい値より小さいか否かを判
断するように動作可能であり、前記エンコーダは、前記
ゼロ交差率がそのゼロ交差率しきい値より小さい場合
に、前記第1のモード形式として前記音声入力を分類す
るように動作可能である第17項記載のCELP符号
器。
【0072】(21)音声入力を受け取るように動作可
能なエンコーダ(12)を備えた改良マルチモード符号
励振線形予測(CELP)符号器(10)及びその方
法。ピーク検出モジュール(54)は前記エンコーダ
(12)と通信可能である。前記ピーク検出モジュール
(54)は前記音声入力のピーク測定値を得ると共に、
前記ピーク測定値がそのピークしきい値より大きいか否
かを判断することができる。前記エンコーダ(12)
は、前記ピーク測定値がそのピークしきい値より大きい
場合に、前記音声入力を第1のモードに分類することが
できる。
【図面の簡単な説明】
【図1】本発明の一実施例による符号励振線形予測(C
ELP)符号器を示すブロック図。
【図2】本発明の一実施例による図1のCELP符号器
が有声音声及び無声音声を特徴付ける方法を示すフロー
チャート。
【図3】本発明の一実施例による無声音声を符号化する
方法を示すフローチャート。
【符号の説明】
10 マルチモードCELP符号器 12 エンコーダ 14 デコーダ 16 メモリ 18 RAM 30 LPC合成フィルタ 40 LPC解析モジュール 50 オープン・ループ・ピッチ予測ゲイ
ン・モジュール 52 ゼロ交差モジュール 54 ピーク検出モジュール 60 適応コードブック

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声入力を受け取るステップと、 前記音声入力のピーク測定値を得るステップと、 前記ピーク測定値がそのピークしきい値より大きいか否
    かを判断するステップと、 前記ピーク測定値がそのピークしきい値より大きいとき
    は、前記音声入力を、符号励振線形予測モードを含むマ
    ルチモード音声符号化器の第1のモードに分類するステ
    ップと、を含む音声を分類する方法。
  2. 【請求項2】音声入力を受け取るように動作可能なエン
    コーダと、 前記エンコーダと通信するピーク・モジュールと、を含
    み、 前記ピーク・モジュールは、前記音声入力のピーク測定
    値を得ると共に、前記ピーク測定値がピークしきい値よ
    り大きいか否かを判断するように動作可能であり、 前記エンコーダは、前記ピーク測定値がピークしきい値
    より大きい場合に前記音声入力を第1のモードに分類す
    るように動作可能であり、かつ前記エンコーダは、パル
    ス励振システムにより第1のモードの入力音声を符号化
    するように動作可能である、符号励振線形予測(CEL
    P)符号器。
JP10031913A 1997-01-02 1998-01-05 マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器 Pending JPH10207498A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US3447697P 1997-01-02 1997-01-02
US034476 1997-01-02

Publications (1)

Publication Number Publication Date
JPH10207498A true JPH10207498A (ja) 1998-08-07

Family

ID=21876667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10031913A Pending JPH10207498A (ja) 1997-01-02 1998-01-05 マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器

Country Status (4)

Country Link
US (1) US6148282A (ja)
EP (1) EP0852376A3 (ja)
JP (1) JPH10207498A (ja)
KR (1) KR19980070294A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) * 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US5621852A (en) * 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
DE69708693C5 (de) * 1996-11-07 2021-10-28 Godo Kaisha Ip Bridge 1 Verfahren und Vorrichtung für CELP Sprachcodierung oder -decodierung
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
EP1093230A4 (en) * 1998-06-30 2005-07-13 Nec Corp speech
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
JP4438127B2 (ja) * 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6304842B1 (en) * 1999-06-30 2001-10-16 Glenayre Electronics, Inc. Location and coding of unvoiced plosives in linear predictive coding of speech
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
EP1383112A3 (fr) * 2002-07-17 2008-08-20 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée
US7146309B1 (en) 2003-09-02 2006-12-05 Mindspeed Technologies, Inc. Deriving seed values to generate excitation values in a speech coder
EP1984911A4 (en) * 2006-01-18 2012-03-14 Lg Electronics Inc DEVICE AND METHOD FOR SIGNAL CODING AND DECODING
CN1815552B (zh) * 2006-02-28 2010-05-12 安徽中科大讯飞信息科技有限公司 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset

Also Published As

Publication number Publication date
EP0852376A3 (en) 1999-02-03
US6148282A (en) 2000-11-14
KR19980070294A (ko) 1998-10-26
EP0852376A2 (en) 1998-07-08

Similar Documents

Publication Publication Date Title
KR100908219B1 (ko) 로버스트한 음성 분류를 위한 방법 및 장치
EP2099028B1 (en) Smoothing discontinuities between speech frames
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
JPH10207498A (ja) マルチモード符号励振線形予測により音声入力を符号化する方法及びその符号器
WO2002065457A2 (en) Speech coding system with a music classifier
KR19990006262A (ko) 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
JP4912816B2 (ja) 音声コーダの方法とシステム
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
Paksoy et al. A variable rate multimodal speech coder with gain-matched analysis-by-synthesis
EP1597721B1 (en) 600 bps mixed excitation linear prediction transcoding
US6205423B1 (en) Method for coding speech containing noise-like speech periods and/or having background noise
EP1727130A2 (en) Speech signal decoding method and apparatus
JP3531780B2 (ja) 音声符号化方法および復号化方法
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Paulus Variable bitrate wideband speech coding using perceptually motivated thresholds
JPH09508479A (ja) バースト励起線形予測
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
Drygajilo Speech Coding Techniques and Standards
JP2992998B2 (ja) 音声符号化復号化装置
KR950001437B1 (ko) 음성부호화방법
Ritz et al. Wideband Speech Coding at 4 kbps using Waveform Interpolation
JPH10232697A (ja) 音声符号化方法および復号化方法
GB2352949A (en) Speech coder for communications unit
Ekudden et al. ITU-t g. 729 extension at 6.4 kbps.