JPH08335100A - ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム - Google Patents

ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム

Info

Publication number
JPH08335100A
JPH08335100A JP8050452A JP5045296A JPH08335100A JP H08335100 A JPH08335100 A JP H08335100A JP 8050452 A JP8050452 A JP 8050452A JP 5045296 A JP5045296 A JP 5045296A JP H08335100 A JPH08335100 A JP H08335100A
Authority
JP
Japan
Prior art keywords
parameters
parameter
frames
smoothing
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8050452A
Other languages
English (en)
Inventor
Saf Asghar
サフ・アシャー
Mark Ireton
マーク・アイルトン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Micro Devices Inc
Original Assignee
Advanced Micro Devices Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Micro Devices Inc filed Critical Advanced Micro Devices Inc
Publication of JPH08335100A publication Critical patent/JPH08335100A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Abstract

(57)【要約】 【課題】 メモリのサイズに対する要件を低減しなおか
つ音声信号の品質を高める低ビットレートの符号器を用
いたディジタル音声データ記憶および検索システムを提
供する。 【解決手段】 このシステムは、好ましくはディジタル
信号プロセッサ(DSP)(104)を含みかつ好まし
くはローカルメモリ(106)を含む音声符復号器(1
02)を含む。音声データの符号化の間、音声符復号器
は音声入力波形を受取り音声データのパラメータ表現を
生成する。記憶メモリ(112)は音声符復号器に結合
され、パラメータのデータをストアする。音声データの
復号化の間、音声符復号器は記憶メモリからパラメータ
のデータを受取り、音声波形を再生する。音声データが
すべて符号化されかつパラメータデータが記憶メモリに
ストアされた後に、パラメータデータに対してフレーム
間平滑化法が行なわれる。

Description

【発明の詳細な説明】
【0001】
【発明の分野】本発明は一般に音声記憶および検索シス
テムに関し、より特定的には、より多くのフレーム内の
パラメータへのアクセスを可能にして、低いメモリ要求
で高い音声品質を与える、符号化プロセスの完了後にパ
ラメータ平滑化動作を行なうためのシステムおよび方法
に関する。
【0002】
【関連技術の説明】音声または通話信号のディジタル記
憶および通信が現代社会においてますます普及してきて
いる。音声信号のディジタル記憶は、音声信号のディジ
タル表現を発生することと、それらのディジタル表現を
メモリ内に記憶することとを含む。図1に示されるよう
に、音声信号のディジタル表現は一般に波形表現または
パラメータ表現であり得る。音声信号の波形表現は、サ
ンプリングおよび量子化プロセスによってアナログ音声
信号の「波の形状」を保存することを含む。音声信号の
パラメータ表現は、音声信号を音声生成モデルの出力に
影響を与える複数のパラメータとして表現することを伴
う。音声信号のパラメータ表現は、まず音声信号サンプ
リングおよび量子化を用いてディジタル波形表現を発生
し、次にディジタル波形をさらに処理して音声生成モデ
ルのパラメータを得ることによって達成される。このモ
デルのパラメータは一般に、音声音源に関連する刺激パ
ラメータまたは個々の音声音に関連する声道応答パラメ
ータとして分類される。
【0003】図2は、要求されるデータ転送速度に従う
音声信号の波形およびパラメータ表現の比較を示す。図
示されるように、音声信号のパラメータ表現は、波形表
現よりも低いデータ速度、または1秒当りのビット数を
要求する。波形表現は、使用する量子化および変調のタ
イプに依存して、典型的な音声を表わすおよび/または
転送するのに1秒当り1万5千ないし20万ビットを必
要とする。パラメータ表現は、一般に1秒当り500な
いし1万5千ビットと、1秒当りにはるかに少ないビッ
ト数しか必要としない。一般に、パラメータ表現は、音
声生成モデルの形態で音声信号の特徴のアプリオリな知
識を用いる音声信号圧縮の形態である。パラメータ表現
は、音声生成モデルの出力に影響を与える複数のパラメ
ータの形態で音声信号を表現し、音声生成モデルは人間
の音声生成の解剖学的構造に基づいたモデルである。
【0004】音声音はその刺激モードに従って3つの異
なるクラスに一般に分類され得る。有声音とは、人間の
声帯の振動または発振によって生成される音であり、声
道を刺激する空気の準周期的なパルスを生成する。無声
音は、声道のある点、典型的には口の声道の端部近くで
狭めを形成し、その狭めを介して空気を十分な速度で押
出して乱流を生成することによって発生される。これ
は、声道を刺激する広いスペクトル雑音源を形成する。
破裂音は、声道内の閉じた部分の後ろ、典型的には口に
圧力を形成し、空気を急に放出することにより形成され
る。
【0005】音声生成モデルは一般に、声門系内の振動
または音の発生と、声道を介しての振動または音の伝搬
と、口およびより度合いは小さいが鼻を介しての音の放
射との3つの段階に分けられる。図3は音声生成の簡略
化されたモデルを示し、これは音の刺激または発生のた
めの刺激発生器と、声道を介しての音の伝搬および口で
の音の放射をモデルする経時変化線形システムとを含
む。したがって、このモデルは音の生成の刺激の特徴を
声道および放射の特徴と区別している。刺激発生器は、
声門パルスの列またはランダムに変化する雑音からなる
信号を形成する。声門パルスの列は有声音をモデルし、
ランダムに変化する雑音は無声音をモデルする。線形経
時変化システムは、声道内の音に対する種々の影響をモ
デルする。この音声生成モデルは、刺激発生器および経
時変化線形システムの動作に影響を与える複数のパラメ
ータを受取り、受取ったパラメータに対応する出力音声
波形を計算する。
【0006】ここで図4を参照して、より詳細な音声生
成モデルが示される。図示されるように、このモデル
は、有声音に対応するインパルス列を発生するためのイ
ンパルス列発生器と、無声音に対応するランダム雑音を
発生するためのランダム雑音発生器とを含む。音声生成
モデルにおけるパラメータの1つはピッチ周期であり、
これはインパルス列発生器に供給されてインパルス列で
信号の適切なピッチまたは周波数を発生する。インパル
ス列は声門系をモデルする声門パルスモデルブロックに
与えられる。声門パルスモデルブロックからの出力は振
幅パラメータで乗算され、有声/無声スイッチを介して
声道モデルブロックに与えられる。ランダム雑音発生器
から出力されたランダム雑音は振幅パラメータで乗算さ
れ、有声/無声スイッチを介して声道モデルブロックに
与えられる。有声/無声スイッチは、有声および無声音
に関する刺激の変化するモードをモデルするために、音
声生成モデルに有声および無声刺激発生器、すなわちイ
ンパルス列発生器およびランダム雑音発生器の間で切換
えるように指示するパラメータによって制御される。
【0007】声道モデルブロックは一般に、源での音声
信号のボリューム速度を唇での音声信号のボリューム速
度に関連づける。声道モデルブロックは、音声信号が声
道内でいかに影響されるかを表わす種々の声道パラメー
タを受取る。これらのパラメータは、伝達関数V(z)
の極またはゼロに対応する音声のフォルマントと称する
種々の共鳴および非共鳴周波数を含む。声道モデルブロ
ックの出力は、音声信号に対する唇での圧力の影響をモ
デルする放射モデルに与えられる。したがって、図4
は、音声生成の一般的な離散的時間モデルを示す。ピッ
チ、有声/無声、振幅または利得を含む種々のパラメー
タおよび声道パラメータは、適切な音声波形を生成また
は再形成する音声生成モデルの動作に影響を与える。
【0008】ここで図5を参照して、場合によっては声
門パルス、放射および声道モデルブロックを単一の伝達
関数に組合せることが望ましい。この単一の伝達関数は
図5において経時変化するディジタルフィルタブロック
によって表わされる。図示されるように、インパルス列
発生器およびランダム雑音発生器の各々は、有声/無声
スイッチに出力を与える。スイッチからの出力は利得乗
算器に与えられ、これは経時変化するディジタルフィル
タに出力を与える。経時変化するディジタルフィルタ
は、図4に示される声門パルスモデルブロック、声道モ
デルブロック、および放射モデルブロックの動作を行な
う。
【0009】音声信号表現の選択は、典型的にはそれが
関連する音声応用に依存する。種々のタイプのディジタ
ル音声の応用は、音声データのディジタル記憶および検
索、音声信号のディジタル伝送、音声合成、話者照合お
よび同定、音声認識、および音声品質の向上等を含む。
ほとんどの音声通信および認識の応用は、音声信号のリ
アルタイムでの符号化および伝送を必要とする。しかし
ながら、ディジタル音声の応用、すなわち音声データの
ディジタル記憶および検索を伴うものの中にはリアルタ
イムの伝送を必要としないものがある。たとえば、留守
番電話、音声メール、およびディジタルレコーダの応用
におけるディジタル音声信号の記憶および検索は、音声
信号のリアルタイムでの伝送を必要としない。
【0010】音声信号のパラメータ表現を用いる音声符
号化および復号化方法に対してはバックグラウンドが適
切であろう。音声記憶システムはまず入力音声波形を受
取り、その波形をディジタル形式に変換する。これは、
信号波形のディジタル形式へのサンプリングおよび量子
化を伴う。このシステム内の音声符号化装置がディジタ
ル音声データをそれぞれのフレームに区分し、音声デー
タをフレーム単位で分析する。音声符号化装置は、ディ
ジタル音声データの特定のフレームの各々を表わす複数
のパラメータを発生する。
【0011】パラメータが複数のフレームについて計算
された後、各フレーム内のパラメータに対して平滑化方
法がとられ、不連続性を平滑化してパラメータ推定プロ
セスにおいてエラーを排除する。一般に、音声信号波形
の多くのパラメータ、たとえばピッチは、時間的に比較
的ゆっくりと変化する。したがって、あるフレームから
次のフレームに実質的に変化するパラメータは、パラメ
ータ推定方法においてエラーを形成し得る。平滑化方法
は、それぞれの近傍のフレームにおける類似パラメータ
を調べて不連続性を検出することで作用する。すなわ
ち、平滑化アルゴリズムは、調べられているそれぞれの
パラメータの値を1つ以上の前のフレームおよび1つ以
上の後のフレームにおける類似パラメータと比較して、
それぞれのパラメータの値が近傍のフレームの同じまた
は類似したパラメータの値と実質的に異なるかどうかを
判断する。あるパラメータが前後のフレームの近傍の類
似パラメータと著しく異なる場合には、平滑化方法によ
って不連続性を平滑化する、すなわちそのパラメータ値
を近い値に置換える。したがって、平滑化は、連続する
フレーム間のパラメータ間の変化を平滑化して、パラメ
ータ推定プロセスにおけるエラーを低減するように適用
される。平滑化はより正確にパラメータを推定するため
にコンテキストにおける関連のパラメータを調べること
を含み得る。たとえば、音声波形が有声の場合のみに有
効ピッチパラメータが得られることを確実にするために
ボイシングおよびピッチパラメータが分析され、その逆
もまた同様である。
【0012】先行技術のシステムでは、パラメータの組
が発生された後、それらのパラメータを記憶メモリに記
憶する前の符号化プロセスの間にパラメータの組に対し
て平滑化がリアルタイムで行なわれる。しかしながら、
ほとんどの応用では、音声信号をディジタルパラメータ
表現に符号化することはリアルタイムで最小の遅延をも
って行なわれなくてはならない。実際に、ほとんどの音
声通信の基準では、音声伝送において課せられ得る遅延
量を厳しく制限している。このリアルタイムでの音声デ
ータの符号化の要件は、平滑化プロセスにおいて用いら
れ得るフレームの数を制限している。さらに、符号化装
置によって用いられるメモリでの複数の前後のフレーム
の維持によって、符号化装置のメモリサイズが増大し、
したがってシステムのコストを増大させてしまう。
【0013】上述のように、ディジタル音声記憶および
検索システム等のディジタル音声の応用には、音声デー
タのリアルタイムでの伝送を必要としないものがある。
ディジタル音声記憶および検索の応用は、一般にできる
だけ音声データを圧縮するために必要な音声コード化お
よび復号化のために低いビットレートを要求している。
しかしながら、この低いビットレートで品質の高い音声
の再生を与えることが望ましい。さらに、一般にシステ
ムコスト削減のためにディジタル符号化、記憶および復
号化のためのメモリの要件を小さくすることが望まし
い。
【0014】したがって、メモリの要件を小さくする一
方で低いビットレートの音声符号化装置において音声信
号の高い品質を与える、ディジタル音声記憶および検索
のための改良されたシステムおよび方法が望まれる。
【0015】
【発明の概要】本発明は、メモリサイズの要件を低減し
ながらより高い音声信号品質を提供する、好ましくは低
ビットレート符号化装置を用いるディジタル音声データ
記憶および検索システムを含む。このシステムは、好ま
しくはディジタル信号プロセッサ(DSP)を含み、か
つ好ましくはローカルメモリを含む音声符復号器を含
む。音声データの符号化中に、音声符復号器は音声入力
波形を受取り、音声データのパラメータ表現を発生す
る。記憶メモリが音声符復号器に結合され、パラメトリ
ックデータを記憶する。音声データの復号中に、音声符
復号器は記憶メモリからパラメトリックデータを受取
り、音声波形を再生する。好ましくはCPUが音声符復
号器に結合されて、音声符復号器の動作を制御する。
【0016】コード化プロセス中に、音声入力波形が受
取られ、ディジタルデータに変換される、すなわち音声
入力波形がサンプリングされ、量子化されてディジタル
音声データを生成する。ディジタル音声データは次に複
数のそれぞれのフレームに区分され、それぞれのフレー
ムに対してコード化が行なわれてデータのパラメータ表
現を発生する、すなわち音声データのそれぞれのフレー
ムを表わす複数のパラメータを発生する。一実施例にお
いて、平滑化は符号化プロセス中には行なわれず、平滑
化されていない、すなわち「未処理の」パラメータデー
タがそれぞれのフレームに関して記憶される。別の実施
例では、あるパラメータについては複数のパラメータ値
が各フレームについて推定され、フレーム内平滑化が行
なわれてフレームの単一のパラメータを発生する。符号
化中に行なわれるフレーム内平滑化プロセスは、比較の
ための前のまたは後のフレームにおけるパラメトリック
データを必要とせず、したがって付加的なメモリをほと
んどまたは全く必要としない。
【0017】本発明に従えば、すべての音声データの符
号化が完了し、パラメトリックデータが記憶メモリに記
憶された後、パラメトリックデータに対してフレーム間
平滑化方法が実行される。フレーム間平滑化は、符号化
プロセスが完了した後バックグラウンドで行なわれる
か、またはパラメトリックデータを信号波形に戻すよう
に変換する直前の復号化プロセス中にリアルタイムで行
なわれる。すべての音声入力データは既にパラメトリッ
クデータに変換されてメモリに記憶されているため、事
実上無制限の数の前後のフレームからのパラメトリック
データが、平滑化アルゴリズムのために利用可能であ
る。このように、平滑化方法は、好ましくは、各フレー
ム内の平滑化パラメータにおける複数の前後のフレーム
のパラメータ値を用いる。したがって、本発明は、先行
技術のシステムと比較してより正確な平滑化を提供し、
音声信号のより高い品質を与える。
【0018】関連技術のセクションで説明したように、
先行技術のシステムは符号化プロセス中にリアルタイム
で平滑化を行ない、リアルタイム音声符号化の必要があ
るために単一の前後のフレームにおける類似パラメータ
値を調べることに制限される。しかしながら、本発明に
おいては、平滑化方法は、符号化プロセスが終了し、パ
ラメトリックデータが記憶された後に行なわれる。すべ
てのパラメトリックデータがすぐに利用可能であるた
め、この平滑化方法ははるかに多くの前後のフレームか
らのパラメトリックデータを調べる。したがって、この
システムは音声信号データで起こる不連続性の訂正およ
び/または遷移の検出をより簡単に行なうことができ
る。これによって、先行技術の方法と比較してより高い
音声信号の品質を与える。さらに、フレーム内平滑化が
符号化中には行なわれないため、符号化プロセスの間の
連続またはルックアヘッドフレームのためのさらなるメ
モリを必要としない。したがって、本発明は先行技術の
設計と比較してメモリ要件が少ない。
【0019】好ましい実施例において、平滑化プロセス
中に本発明のシステムはパラメトリックデータをDSP
ローカルメモリ内のそれぞれのバッファ、好ましくは環
状バッファに記憶し、各環状バッファは複数の連続フレ
ームについて類似パラメータを記憶する。すなわち、複
数の連続フレームからの第1のパラメータタイプのパラ
メータ値が第1の環状バッファに記憶され、複数の連続
フレームの第2のパラメータタイプのパラメータ値が第
2の環状バッファに記憶され、以下同様である。したが
って、平滑化の際に、DSPローカルメモリは複数の環
状バッファを含み、各環状バッファが複数の連続フレー
ムに関する同じタイプのパラメータを含む。新しいパラ
メータ値が連続的に各環状バッファに読出されて、調べ
られているパラメータを含むフレームに関してそれぞれ
の前後のフレームに関するパラメータデータが維持され
る。
【0020】一実施例においては、17の連続するフレ
ームからのパラメータ値が各環状バッファに記憶され
る。これらの17のフレームは、調べられているパラメ
ータを含むフレームに関して8つの前および8つの後ろ
のフレームに対応する。別の実施例では、環状バッファ
のサイズはそれぞれのパラメータによって異なり、した
がってパラメータの異なるタイプについて異なる数の類
似パラメータが平滑化プロセスの間に調べられる。さら
に、一実施例において、平滑化プロセスにおいて決定を
下すのにさらなる前後のフレームからのより多くのパラ
メータが必要であるとDSPが判断すると、DSPはこ
れらのさらなるパラメータを記憶メモリから読出し、そ
のそれぞれのパラメータのより詳しい平滑化を行なう。
さらに別の実施例では、最も重要なパラメータであると
考えられる、および/または最も不適切に推定されそう
なそれぞれのパラメータのみがディジタルプロセッサに
対して局所的なメモリに記憶され、ローカルメモリの要
件を低減し、平滑化プロセスを簡略化する。ローカルメ
モリに記憶されていないパラメータは、必要に応じてラ
ンダムアクセス記憶メモリから読出される。
【0021】したがって、本発明に従うディジタル音声
記憶および検索システムは、音声信号のより高い品質を
与える。特定の実施例を図示し、説明する。
【0022】
【好ましい実施例の詳細な説明】音声記憶および検索システム 次に図6を参照して、本発明の一実施例に従う音声記憶
および検索システムのブロック図が示されている。図6
に示される音声記憶および検索システムは、ディジタル
留守番電話機、ディジタル音声メール、ディジタル音声
レコーダ、ならびにディジタル音声データの記憶および
検索を必要とする他の応用を含む種々の応用に用いるこ
とができる。好ましい実施例では、音声記憶および検索
システムはディジタル留守番電話機に用いられる。な
お、本発明は、特に映像記憶および検索システムを含
む、パラメータのデータの記憶および検索を伴なう他の
システムにも用いられ得る。
【0023】図6に示されるように、音声記憶および検
索システムは好ましくは専用音声符復号器102を含
む。この音声符復号器102は、ディジタル信号プロセ
ッサ(DSP)104およびローカルDSPメモリ10
6を含む。ローカルメモリ106は、パラメータデータ
平滑化だけではなく、音声のコード化および復号化機
能、すなわち、音声の圧縮および伸長を行なう際にDS
P104によって用いられる分析メモリとしての役割を
果たす。ローカルメモリ106は、DSP104と同じ
速度で動作し、したがって、そのアクセス時間は比較的
速い。ローカルメモリ106は速いアクセス時間を有す
る必要があるため、メモリ106は比較的コストが高
い。本発明の1つの利点は、本発明によりローカルメモ
リに対する要件が低減しなおかつ音声の品質がより高く
なることである。好ましい実施例では、2Kバイトのロ
ーカルメモリ106が用いられる。
【0024】音声符復号器102はパラメータ記憶メモ
リ112に結合される。記憶メモリ112は、受取られ
た音声入力信号に対応するコード化された音声パラメー
タをストアするために用いられる。一実施例では、記憶
メモリ112は好ましくは低コスト(低速)のダイナミ
ックランダムアクセスメモリ(DRAM)である。しか
しながら、記憶メモリ112は、磁気ディスク、フラッ
シュメモリ、または他の適切な記憶媒体等の他の記憶媒
体を含み得る。CPU120は音声符復号器102に結
合され、音声符復号器102内のDSP104とDSP
ローカルメモリ106との動作を含む、音声符復号器1
02の動作を制御する。CPU120はまた、音声符復
号器102および記憶メモリ112に対する記憶管理機
能も果たす。
【0025】代替実施例 次に図7を参照して、音声記憶および検索システムの代
替実施例が示されている。図7のエレメントで図6のエ
レメントに対応するものには便宜上同じ参照符号が付さ
れている。図に示すように、音声符復号器102はシリ
アルリンク130を介してCPU120に結合する。C
PU120は図に示されるようにパラメータ記憶メモリ
112に結合する。シリアルリンク130は、データが
記憶メモリ112内にストアされる順番に記憶メモリ1
12からデータを与えることしかできないダムシリアル
バスを含み得る。代替的には、DSP104が記憶メモ
リ112内のパラメータに対する要求を制御しかつパラ
メータがどのようにストアされているかにかかわらず記
憶メモリ112内の所望のパラメータをランダムにアク
セスする場合、このシリアルリンク130はデマンドシ
リアルリンクであってもよい。また、図7の実施例を図
6の実施例にもっと類似させることも可能であり、それ
によって、音声符復号器102はシリアルリンク130
を介して直接記憶メモリ112に結合する。さらに、8
ビットまたは16ビットバス等のより大きいバンド幅の
バスを音声符復号器102とCPU120との間に結合
してもよい。
【0026】音声データの符号化 次に図8を参照して、図6のシステムによる、音声また
は通話信号をパラメータのデータに符号化する動作のフ
ローチャートが示されている。ステップ202で、音声
符復号器102は、音声に対応するアナログ波形である
音声入力波形を受取る。これらの波形は典型的には図9
に示される波形に類似している。
【0027】ステップ204で、DSP104は入力波
形をサンプリングしかつ量子化してディジタル音声デー
タを生成する。DSP104は所望のサンプリング速度
に従って入力波形をサンプリングする。一実施例では、
音声信号波形は、8kHzまたは8000サンプル/秒
の速度でサンプリングされる。代替実施例では、このサ
ンプリング速度はナイキストサンプリング速度の2倍で
ある。必要に応じて他のサンプリング速度を用いてもよ
い。サンプリングの後、音声信号波形は所望の量子化法
を用いてディジタル値に量子化される。ステップ206
で、DSP104は、DSP104による分析のため
に、ディジタル音声データまたはディジタル波形値をロ
ーカルメモリ106にストアする。
【0028】ステップ202〜206でさらなる音声入
力データが受取られ、サンプリングされ、量子化され、
ストアされている間に、以下のステップが行なわれる。
ステップ208で、DSP104はディジタル音声デー
タのフレームのグルーピングに対して符号化を行ない、
調べられているそれぞれのフレームの音声内容を示す1
組のパラメータを引出す。好ましい実施例では、4フレ
ームのグルーピングに対して線形予測符号化が行なわれ
る。しかしながら、必要に応じて他の種類の符号化法を
用いてもよい。さらに、必要に応じて4フレームを上回
る数のフレームまたは4フレーム未満のフレームを一度
に符号化してもよい。音声信号のディジタル処理および
コード化に関するより詳細な情報については、ラビナー
(Rabiner )およびシェーファー(Schafer )による
「音声信号のディジタル処理(Digital Processing of
Speech Signals)」、プレンティスホール(Prentice H
all)、1978を参照されたい。この文献はその全体を引
用によりここに援用する。
【0029】DSP104は、好ましくは20ミリ秒
(ms)フレーム単位で音声信号波形を調べ、分析しそ
れぞれのパラメータにコード化する。8kHzのサンプ
リング速度では、各々の20msフレームはデータの1
60のサンプルを含む。図9に示されるように、各フレ
ームがその両側で5サンプルずつ隣のフレームと重なっ
ている場合、DSP104は好ましくは一度に4つの2
0msフレームを調べる。ローカルメモリ106は好ま
しくはディジタル音声データの6つまでの完全なフレー
ムをストアするのに十分な大きさである。これにより、
DSP104は、さらなる2つのフレームが受取られサ
ンプリングされ量子化されローカルメモリ106にスト
アされている間に、この4つのフレームのグルーピング
を調べ、この4つのフレームのグルーピングに関するパ
ラメータを生成することができるようになる。パラメー
タが既に生成されかつ記憶メモリ112にストアされて
いる音声データに新たに受取られたディジタル音声デー
タが上書きされる場合、ローカルメモリ106は好まし
くは1つ以上のバッファ、好ましくは環状バッファとし
て構成される。なお、ローカルメモリ106は、特にレ
ジスタ、線形バッファまたは環状バッファを含む種々の
種類のメモリのいかなるものであってもよい。
【0030】ステップ208で、DSP104は、4フ
レームのグルーピングの各20msフレームに関して1
組の異なる種類のパラメータを生成する。DSP104
はまた4フレーム全体にわたる1つ以上のパラメータを
生成する。さらに、あるパラメータに関しては、DSP
104はそれぞれのフレームを2つ以上のサブフレーム
に分割し、各フレームに対して同じ種類の対応する2つ
以上のパラメータを生成する。好ましい実施例では、D
SP104は4フレーム当り10個の線形予測符号化
(lpc)パラメータを生成する。DSP104はま
た、各フレームに関して、ピッチパラメータ、有声/無
声パラメータ、利得パラメータ、大きさパラメータ、お
よびマルチバンド刺激パラメータを含む、音声信号の特
性を表わすさらなるパラメータを生成する。DSP10
4はさらに、フレーム、好ましくは3フレームのグルー
ピングにわたって1つの値に量子化される、各フレーム
に関して計算される1組のスペクトル内容パラメータを
生成する。
【0031】一旦ステップ208でこれらのパラメータ
が生成されると、ステップ210で、DSP104はオ
プションとして、選択されたパラメータにフレーム内の
平滑化を行なう。フレーム内の平滑化が行なわれる実施
例では、ステップ208において各フレームに対して同
じ種類の複数個のパラメータが生成される。これらの同
じ種類の複数個のパラメータをその種類の1つのパラメ
ータに低減するために、ステップ210でフレーム内平
滑化が行なわれる。たとえば、ステップ208で各フレ
ームに関してフレームの異なるポイントで複数個の異な
るピッチパラメータ値が計算され、これらの20個のピ
ッチパラメータ値をフレーム全体を表わす1つのピッチ
値に低減するためにステップ210でフレーム内平滑化
が行なわれる。フレーム内平滑化は好ましくは平均値ま
たは中央値を選択することを伴う。代替的には、フレー
ム内平滑化はフレームの複数個のパラメータ値に基づい
て波形を作り出し、その後この作り出された波形を用い
てこの波形に基づくパラメータ値のリストにインデック
スをつけることを伴う。フレーム内平滑化は一般にフレ
ーム内でより変わりやすいパラメータに対して行なわれ
る。しかしながら、上述のように、ステップ210で行
なわれるフレーム内平滑化は、必要に応じて行なうこと
も行なわないこともできるオプション的なステップであ
る。
【0032】一旦、ステップ208でパラメータを生成
するためにフレームのそれぞれのグルーピングに対して
コード化が行なわれ、ステップ210で選択されたパラ
メータに対して何らかの所望のフレーム内平滑化が行な
われると、ステップ212でDSP104はこのパラメ
ータのパケットを記憶メモリ112にストアする。一旦
フレームのそれぞれのグルーピングに対応するパラメー
タのデータが生成されかつ記憶メモリ112にストアさ
れると、ステップ206で、新たに受取られたデータが
結果的に環状バッファにおいてこのデータに上書きさ
れ、したがって、このフレームのグルーピングに関する
ディジタル音声データはローカルメモリ106から取除
かれ、したがって「捨てられる」。
【0033】ステップ214でさらなる音声波形データ
が音声符復号器102によって受取られていれば、動作
はステップ202に戻り、ステップ202〜214が繰
返される。このように、一旦フレームのグルーピングに
関して1組のパラメータが生成され記憶メモリ112に
ストアされると、DSP104はローカルメモリ106
にストアされたフレームの新しいグルーピングを調べ、
このグルーピングに関する複数個のパラメータを生成す
る、等を行なう。ステップ214でそれ以上音声データ
が受取られていないと判断されると、それ以上のディジ
タル音声データはローカルメモリ106にストアされ
ず、動作は終了する。
【0034】音声コード化は、音声信号が音声符復号器
102によって受取られるときにリアルタイムで行なわ
れる。好ましい実施例では、本発明に従うシステムは、
音声データを、1サンプル当り約3分の1ビットである
約2900ビット/秒(bps)の音声に圧縮する。必
要に応じてこの音声データにはより多くのまたはより少
ない圧縮を施してもよい。
【0035】なお、先行技術のシステムは、パラメータ
データを記憶メモリ112にストアする前にDSP10
4によって生成されたパラメータデータにリアルタイム
でさらなるフレーム間平滑化プロセスを行なう。発明の
背景の項目で議論したように、符号化プロセスにおいて
フレーム間平滑化を行なう場合、システムは調べられて
いる各パラメータに関して前後各1フレームの同一また
は類似パラメータを調べることしかできない。しかしな
がら、より正確な平滑化を行なうためには、一般的には
前後各複数個のフレームの類似パラメータを調べること
が望ましいであろう。これは、音声コード化プロセスに
相当な遅延を加えることになるであろうため、リアルタ
イムの符号化の間は一般に不可能である。これは、ほと
んどの音声データ伝送規格には受入れられない。さら
に、符号化プロセスの間にフレーム間平滑化を行なうシ
ステムでは、音声符復号器102は、音声パラメータデ
ータのさらなるフレームをストアするためのより大きい
ローカルメモリ106を有する必要がある。コストに敏
感なシステムでは、このさらなるメモリは望ましくな
い。
【0036】音声データのリアルタイム伝送を必要とし
ない応用では、音声コード化プロセスの間にリアルタイ
ムでフレーム間平滑化プロセスを行なうことは望ましく
なくかつ必要でないと考えられてきた。むしろ、本発明
のシステムおよび方法は、音声パラメータデータがコー
ド化されかつ記憶メモリ112にストアされた後バック
グラウンドでフレーム間平滑化動作を行なうか、また
は、音声復号化プロセスの間にリアルタイムでフレーム
間平滑化動作を行なう。コード化プロセスが終了した
後、すなわち、すべての音声波形が受取られ、パラメー
タのデータに変換され、記憶メモリ112にストアされ
た後、パラメータのデータはすべて平滑化プロセスの間
に用いるために記憶メモリ112において容易に利用可
能である。したがって、無限の数の前後のフレームから
のパラメータのデータが、平滑化法によって用いるため
に利用可能である。したがって、前後のフレームの利用
可能な類似パラメータの数がより多いため、各パラメー
タに対してより正確な平滑化を行なうことができる。さ
らに、符号化プロセスの間ルックアヘッドフレームまた
は後のフレームに関するパラメータのデータをもうロー
カルメモリ106にストアする必要がないため、本発明
に従ったシステムが必要とするローカルメモリはより小
さい。
【0037】バックグラウンドで行なわれる平滑化 図10は、本発明の一実施例に従った、音声データの符
号化が終了しかつパラメータのデータすべてが記憶メモ
リ112にストアされた後バックグラウンドで行なわれ
る平滑化動作のフローチャートを示している。上述のよ
うに、リアルタイムの音声データ伝送を必要としない応
用では、音声データがパラメータのデータにコード化さ
れた後でかつパラメータのデータを検索する前、すなわ
ちバックグラウンドで平滑化動作を行なうことができ
る。バックグラウンドで平滑化動作を行なうことができ
る応用の例には、ディジタル音声留守番電話機、ディジ
タルテープレコーダ、ならびに他の音声記憶および検索
システムが含まれる。たとえば、ディジタル留守番電話
機の応用では、呼出人が留守番電話機にメッセージを残
し音声データがコード化され記憶メモリ112にストア
された後DSP104はパラメータのデータに対して平
滑化動作を行ない、その後、メッセージが聞かれる前の
いずれかの時間に、平滑化されたパラメータのデータを
記憶メモリ112に再書込する。
【0038】図10に示されるように、ステップ222
で音声符復号器102は複数個の連続するフレームから
のパラメータを受取り、それぞれの環状バッファの複数
個のフレームの各々からの類似パラメータをローカルメ
モリ106にストアする。すなわち、フレームの各々か
らの同一または類似パラメータがそれぞれの環状バッフ
ァにストアされる。したがって、連続するフレームの各
々に関するピッチパラメータはすべてある環状バッファ
にストアされ、連続するフレームの各々に関する有声/
無声パラメータは第2の環状バッファにストアされる、
等である。好ましい実施例では、パラメータをその前後
それぞれ8フレームからの近隣のパラメータのコンテキ
ストで調べることができるようにするために、各環状バ
ッファには好ましくは17フレームからの類似パラメー
タがストアされる。これにより、はるかに正確な平滑化
が可能となり、低ビットレート符号器を用いてなおかつ
音声信号の品質を向上させることができる。
【0039】代替実施例では、各種類のパラメータに関
する各環状バッファに異なる数の類似パラメータがスト
アされる。すなわち、環状バッファのサイズはパラメー
タの種類に依存して変化し、したがってあるパラメータ
は他のパラメータに比べて平滑化プロセスにおいてその
前後のフレームからのより多くの数の類似パラメータを
用いる。本実施例では、それぞれの環状バッファにスト
アされる類似パラメータの数、すなわち、それぞれのパ
ラメータに関する環状バッファのサイズは、特定のパラ
メータを正確に平滑化するために平滑化プロセスに必要
とされる前後のフレームにおけるパラメータの数に依存
する。したがって、有声/無声パラメータのように、あ
るパラメータが正確な平滑化のために前後のフレームの
より多くの数のパラメータの分析を必要とする場合、こ
のパラメータにより大きい環状バッファが用いられる。
【0040】ステップ224で、DSP104は受取っ
たパラメータを平滑化のためにより適切な形態に変換す
る。たとえば、あるパラメータが、フレームの各パラメ
ータがそれぞれのパラメータの値およびその前のフレー
ムのパラメータの値に基づいて異なる値としてストアさ
れる異なるフォーマットでストアされる場合、このステ
ップでパラメータの各々は、各値がパラメータの真の値
を表わす、通常のまたはよりわかりやすいフォーマット
に変換される。一実施例では、DSP104はさらに、
平滑化の前に所望の変換を用いてパラメータのデータを
新しいフォーマットに変換する。これは、DSP104
がこの新しいフォーマットの音声データをより正確に平
滑化する場合に行なわれる。
【0041】ステップ226で、DSP104は前後そ
れぞれ8フレームのパラメータを用いて各パラメータに
対して平滑化を行なう。この平滑化プロセスではまず不
連続性があるかどうかを判断するために、それぞれのパ
ラメータ値と前後それぞれ8フレームからの類似パラメ
ータ値とを比較する。それぞれのパラメータを前後それ
ぞれ8フレームのパラメータを参照して調べた結果不連
続性がありかつこの不連続性が恐らくエラーとなること
がわかった場合、平滑化プロセスではこのパラメータ値
が近隣の値により近くなるようにこのパラメータ値を調
整する。一実施例では、DSP104は単にこの不連続
な値を近隣の値と置換えるだけである。
【0042】上述のように、平滑化プロセスが符号化動
作の終了後に行なわれるため、はるかに多くの数の前後
のフレームからのパラメータが、現在平滑化されている
パラメータの各々に利用可能である。したがって、パラ
メータのうちの1つに不連続性が検出されると、本発明
の平滑化法では、パラメータを音声信号波形に復号化す
る前にパラメータをより良く平滑化するためにより多く
の数の前後のフレームからのパラメータを調べる。平滑
化プロセスの間により多くの数の前後のフレームのパラ
メータを調べることができることにより、それぞれのパ
ラメータをより詳しくかつより正確に平滑化することが
でき、したがって音声信号の品質が向上する。
【0043】本発明の一実施例では、DSP104が平
滑化プロセスにおいて結論に達するのにさらなる前後の
フレームからのもっと多くのパラメータが必要であると
判断すれば、DSP104は、それぞれのパラメータを
より詳しく平滑化するためにこれらのさらなるパラメー
タをローカルメモリ106に読込む。
【0044】ステップ228で、DSP104は平滑化
されたパラメータをそれらの最初の形態、すなわち、ス
テップ224の前にこれらのパラメータが有していた形
態に変換する。ステップ230で、DSP104は平滑
化されたパラメータのデータを記憶メモリ112にスト
アし戻す。ステップ232で、DSP104はまだ平滑
化されていないパラメータデータがまだ記憶メモリ11
2に残っているかどうかを判断する。もし残っていれ
ば、DSP104はその次の組のパラメータデータに関
してステップ222〜230を繰返す。記憶メモリ11
2のすべてのパラメータデータに平滑化プロセスが施さ
れると、動作は終了する。
【0045】復号化の間に行なわれる平滑化 次に図11を参照して、本発明の一実施例に従った、フ
レーム間平滑化を含む音声復号化プロセスのフローチャ
ートが示されている。ステップ242で、ローカルメモ
リ106は複数個のフレームに関するパラメータを受取
り、この複数個のフレームの各々からの類似パラメータ
をそれぞれの環状バッファにストアする。すなわち、上
述のように、フレームの各々に関するピッチパラメータ
はすべてある環状バッファにストアされ、フレームの各
々に関する有声/無声パラメータは第2の環状バッファ
にストアされる、等である。上述のように、各パラメー
タの平滑化プロセスにおいて前後それぞれ8フレームか
らのパラメータを用いることができるようにするため
に、好ましくは17フレームからのパラメータが各環状
バッファにストアされる。これにより、本発明に従え
ば、はるかに正確な平滑化が可能となり、音声信号の品
質を向上することができる。
【0046】ステップ244で、DSP104はデータ
を非量子化(デクオンタイズ)してlpcパラメータを
得る。このステップに関するより詳細な情報に関して
は、ゲルショー(Gersho)およびグレイ(Gray)による
「ベクトル量子化および信号圧縮(Vector Quantizatio
n and Signal Compression)」、クルーワー・アカデミ
ック出版社(Kluwer Academic Publishers)を参照され
たい。この文献全体を引用によりここに援用する。ステ
ップ246で、DSP104は、前後それぞれ8フレー
ムのパラメータを用いて、各環状バッファのそれぞれの
パラメータに対して平滑化を行なう。上述のように、平
滑化プロセスは、それぞれのパラメータ値を近隣のフレ
ームからの類似パラメータ値と比較するステップを含
む。不連続性がありその不連続性が恐らくエラーとなる
場合には、DSP104は不連続なパラメータを新しい
値、好ましくは近隣のパラメータの値に置換える。な
お、平滑化しかつその平滑化されたパラメータを平滑化
の後にその最初の形態に変換するために、パラメータを
より所望の形態に変換するステップを行なってもよい。
これらのステップは、図10のステップ224および2
28と同様であろう。
【0047】上述のように、符号化動作の終了後に平滑
化プロセスが行なわれるため、現在平滑化されているパ
ラメータの各々のために、はるかに多くの数の前後のフ
レームからのパラメータが利用可能である。したがっ
て、本発明の平滑化法では、パラメータを音声信号波形
に復号化する前にパラメータをより良く平滑化するため
に、より多くの数の前後のフレームからのパラメータを
調べる。平滑化プロセスの間により多くの数の前後のフ
レームのパラメータを調べることができるため、それぞ
れのパラメータをより詳しくかつより正確に平滑化する
ことができ、したがって音声信号の品質を向上すること
ができる。
【0048】本発明の一実施例では、上述のように、D
SP104が平滑化動作において結論に達するのにより
多くの数の前後のフレームからのパラメータが必要であ
ると判断した場合には、それぞれのパラメータをより詳
しく平滑化するためにDSP104はさらなるパラメー
タをローカルメモリ106に読込む。しかしながら、さ
らなるパラメータを検索すると音声波形を生成する際に
不所望な遅延が生じ得るため、この方法は復号化プロセ
スの間リアルタイムで平滑化が行なわれているときには
制限される。
【0049】ステップ248で、DSP104は平滑化
されたパラメータを用いて音声信号波形を生成する。音
声信号波形は、図4または図5に示されるような音声生
成モデルを用いて生成される。このステップに関するよ
り詳細な情報に関しては、上で参照したラビナーおよび
シェーファーによる「音声信号のディジタル処理」を参
照されたい。この文献を引用によりここに援用する。ス
テップ250で、DSP104は記憶メモリ112にま
だ復号化するべきパラメータデータが残っているかどう
かを判断する。もし残っていれば、ステップ252で、
DSP104は各環状バッファに関して新しいパラメー
タ値を読込み、ステップ244に戻る。これらの新しい
パラメータ値はそれぞれの環状バッファの最も古い前の
値と置換わり、これにより、その次のパラメータを、前
後各8フレームの近隣のパラメータのコンテキストで調
べることができる。ステップ250で記憶メモリ112
において復号化されるべきパラメータデータがそれ以上
なければ、動作は終了する。
【0050】本発明の一実施例では、ローカルメモリに
対する要件を低減しなおかつDSP104がパラメータ
により容易にアクセスできるようにするために、図10
または図11で行なわれる平滑化プロセスの間、ローカ
ルメモリ106の環状バッファにはある重要なパラメー
タしか維持されない。この実施例は、1つ以上のパラメ
ータの種類がより大きい相対的重要性を有すると考えら
れるおよび/または他のパラメータよりも深刻な不連続
性したがってパラメータの間違った推定を生じる可能性
がある場合に用いられる。相対的重要性がより大きいと
考えられるまたはエラーが生じる可能性がより高いパラ
メータに関しては、平滑化プロセスの間近隣のフレーム
のより多くの類似パラメータが用いられる。したがっ
て、これらのパラメータは、アクセスを容易にするため
にローカルメモリ106の環状バッファに維持される。
不連続性を有する可能性がより低いおよび/またはより
重要でないパラメータに関しては平滑化に必要なパラメ
ータの数がより少なく、これらのパラメータは必要に応
じてランダムアクセス記憶メモリ112からアクセスさ
れる。好ましい実施例では、復号化プロセスの間により
効率的に平滑化を行なうことができるようにするため
に、平滑化プロセスの間ピッチおよびボイシングパラメ
ータはローカルメモリ106に維持される。
【0051】平滑化プロセスの例 ピッチパラメータ値に対して音声コード化が行なわれて
いるとき、ピッチの推定では、ピッチの真の値の2倍、
2分の1または他の倍数に誤って検出されることがあ
る。しかしながら、通常の音声では人間の声帯のピッチ
が20msフレームにおいてそのように大幅に変わるこ
とは稀である。本発明に従えば実質的に無限の数の前後
のフレームが平滑化分析に利用可能であるため、ピッチ
パラメータをより良く平滑化するために、DSP104
は複数個の前後のフレームからのピッチパラメータを調
べる。これにより、DSP104は、パラメータデータ
を音声波形に復号化する前にこのエラーを音声データか
らより正確に取除くことができるようになる。
【0052】音声コード化プロセスの間に生成される別
のパラメータは、現在の音声波形が有声信号であるか無
声信号であるかを示す有声/無声パラメータである。発
明の背景の項目で議論したように、有声音声信号は声帯
の振動を伴う。有声音の一例は、「アー」であり、この
場合所望の音を発するために声帯は振動する。無声信号
は声帯の振動は伴わず、所望の音を発するために声道の
狭目を通して空気を押し出すことを伴う。無声音の一例
は、「スー」である。この場合、声帯は振動せず、むし
ろこの音は口腔付近で声道の狭目を通して空気を押し出
すことによって生成される。
【0053】英語のほとんどの音は有声音または無声音
である。しかしながら、有声摩擦音と呼ばれるいくつか
の音は有声音および無声音の両方の質を示す、すなわ
ち、これらの音は声帯の振動および空気の流れを低減す
るための口腔付近での声道の狭目の両方を伴う。有声成
分および無声成分の両方を含む音声音の一例は「ヴー」
であり、この場合この音は一部分が声帯の振動により生
成されかつ一部分が狭められた声道を介して空気を吐き
出すことによって生成される。有声成分および無声成分
の両方を有する音には、音の音声成分を生成するために
インパルス列発生器が必要であり、かつ、音の無声部分
を生成するためにランダム雑音が必要である。
【0054】一般に、ボイシングパラメータ情報は1フ
レーム当り1つの2進値によって表わすことができ、音
声信号が有声であるか無声であるかを示すビットを1フ
レーム当り1を上回る数を伝送することが望ましい。し
たがって、有声音声信号に関しては、連続する20ms
フレームのパラメータは、有声、有声、有声、有声、有
声、等であろう。しかしながら、有声および無声の両方
の特性を含む音声信号が復号化されているとき、ボイシ
ングの推定により音声波形の50%が有声であると判断
され得る。好ましくは、音声推定器はその後、連続する
フレームのパラメータを、有声、無声、有声、無声、等
として現れるようにディザする。
【0055】ボイシングパラメータの平滑化の間、平滑
化プロセスによって、複数個の前後のフレームが調べら
れ、基本となる信号の統計を有声音と無声音との組合せ
であるとして検出する。たとえば、平滑化プロセスで
は、複数個の前後のフレームからのパラメータが調べら
れ、現在復号化されている音声音が75%の無声音およ
び25%の有声音を含まなければならないことを判断す
る。代替的には、平滑化プロセスでは、有声/無声パラ
メータの統計が調べられ、現在復号化されている音の5
0%が有声音で50%が無声音でなければならないこと
を検出する。したがって、一実施例では、復号化プロセ
スで、刺激発生器を制御することによって、したがって
すなわち検出された有声および無声音のパーセンテージ
に基づいてインンパルス列発生器とランダム雑音発生器
とを混合することによって、音声信号の品質をより高く
することができる。これにより、復号器は、有声成分お
よび無声成分をともに有する音をはるかに正確に生成す
る。
【0056】一実施例では、有声の音声と、無声の音声
と、有声および無声の両方の音声の成分を有する音声と
の間の遷移をより正確に検出するために、平滑化プロセ
スでは多くの前後のフレームからのパラメータを調べ
る。この音声のモデルをより正確に作るために、その後
この情報を用いて復号化の間に1つ以上のフレームを再
配置する。たとえば、平滑化プロセスによって有声およ
び無声パラメータの統計が連続するフレームにおいて有
声100%、有声/無声75%/25%、さらに有声/
無声50%に遷移していることが検出されると、このプ
ロセスでは有声および無声の成分を有する音声音を生成
する必要があることを検出するだけではなく、有声の音
声と有声/無声の音声との間の遷移期間をより正確に検
出する。よりよくかつよりリアルな音声波形を生成する
ために、この情報は復号化プロセスの間に用いられる。
【0057】本発明の方法では、平滑化プロセスは、符
号化プロセスが終了しかつパラメータのデータが記憶メ
モリ112にストアされた後に行なわれる。上述のよう
に平滑化がボイシングパラメータに対して行なわれる場
合、フレームをたとえば有声75%、有声25%等とし
て表現するためにはフレームに対して1ビットを上回る
ビットが必要であるため、平滑化は好ましくは復号化プ
ロセスの間に行なわれる。
【0058】したがって、本発明は本質的に、1フレー
ム当り1つの有声/無声ビットを有する1つのビットス
トリームがそれぞれのフレームが有声音であるか無声音
であるかの表示を与えることができるようにするだけで
はなく、連続するフレームのボイシングパラメータの統
計を分析して音声の品質を向上する。連続するフレーム
の有声および無声パラメータの統計を分析することによ
って、この方法では、音声音が有声成分および無声成分
を含んでいるかどうかならびにどれぐらいのパーセンテ
ージで含んでいるのかを正確に検出し、さらに、有声音
声信号と無声音声信号と有声/無声音声信号との間の遷
移をより正確に検出する。なお、復号器が十分な数のフ
レームを分析する場合には常に受入不可能な遅延が生じ
るため、これは標準のリアルタイムの環境では不可能で
ある。
【0059】メモリ記憶構成 本発明に従えば、DSP104がフレーム間平滑化を行
なうのに必要な順序で記憶メモリ112から確実にパラ
メータを受取るようにするために、異なるパラメータ記
憶およびアクセス法を用いてもよい。図12は、記憶メ
モリ112がダイナミックランダムアクセスメモリ(D
RAM)のようなランダムアクセス記憶メモリである場
合の一実施例に従う記憶メモリ112の構成を示してい
る。図12のメモリ記憶構成は、通常の順序づけと呼ば
れ、これによって各フレームに関するパラメータはそれ
ぞれのフレームに従って順次メモリに連続的にストアさ
れる。したがって、フレームnに関しては、パラメータ
1 (n)、P2 (n)、P3 (n)、…はメモリに連
続的にストアされる。フレームn+1に関するパラメー
タP1 (n+1)、P2 (n+1)およびP3 (n+
1)はフレームnに関するパラメータの後に連続的にス
トアされる、等である。記憶メモリ112がランダムア
クセスメモリであり、DSP104がバスまたはデマン
ドシリアルリンクを介して記憶メモリ112に結合され
る場合、DSP104は記憶メモリ112内のいかなる
所望のパラメータにもアクセスする。したがって、図1
2に示されるように、フレーム間平滑化が行なわれると
き、DSP104は上述のようにそれぞれの環状バッフ
ァの各々に関して複数個の連続するフレームからの類似
パラメータにアクセスする。
【0060】図12では、ある数の前後のフレームのパ
ラメータを用いて、各パラメータに対して平滑化プロセ
スが行なわれると仮定している。なお、平滑化プロセス
では必要に応じて用いる前のフレームのパラメータの数
と後のフレームのパラメータの数とが異なっていてもよ
い。以下に示す例では、用いる前のフレームの数と後の
フレームの数とは同じである。この例では、パラメータ
1 に対してはある数x1 個の前のフレームとx1 個の
後のフレームとのパラメータを用いて平滑化動作が行な
われ、パラメータP2 に対してはx2 個の前のフレーム
およびx2 個の後のフレームからのパラメータを用いて
平滑化プロセスが行なわれ、パラメータP3 に対しては
3 個の前のフレームおよびx3 個の後のフレームから
のパラメータを用いて平滑化プロセスが行なわれる。し
たがって、パラメータP1 のための環状バッファは2x
1 +1個のパラメータP1 をストアするように設計さ
れ、パラメータP2 のための環状バッファは2x2 +1
個のパラメータP2 をストアするように設計され、パラ
メータP3 のための環状バッファは2x3 +1個のパラ
メータP3 をストアするように設計される。なお、環状
バッファに初めにパラメータがロードされる、平滑化プ
ロセスの最初の段階では、限られた数の前のフレームし
か利用可能でない、すなわち、ゼロより前の時のフレー
ムは利用不可能である。したがって、これらの「実在し
ない」フレームからのパラメータは公称上の値に設定さ
れる。これは図12に示されており、これによって、現
在のアクセスポイントよりも前のフレームでは、パラメ
ータP1 (n−1)は利用不可能であり、パラメータP
2 (n)およびP3 (n+1)は利用可能である。しか
しながら、ある最初の数のパラメータが調べられた後
は、それぞれの環状バッファは前のフレームおよび後の
フレームからのパラメータを含む。
【0061】環状バッファにロードが行なわれた後、こ
れらのパラメータの各々のための環状バッファが新しい
値を必要とすれば、記憶メモリ112からパラメータが
アクセスされる。x3 がx2 よりも大きくかつx2 がx
1 よりも大きい場合の例では、図12に示されるよう
に、パラメータP1 に対応する環状バッファに関しては
パラメータP1 (n)がアクセスされ、パラメータP2
に対応する環状バッファに関してはパラメータP2 (n
+1)がアクセスされ、パラメータP3 に対応する環状
バッファに関してはパラメータP3 (n+2)がアクセ
スされる。したがって、図12に示されるメモリ記憶機
構では、音声データが受取られた順序に対応してパラメ
ータのフレームが順次ストアされ、平滑化プロセスの間
に環状バッファを満たすためにDSP104は所望のパ
ラメータをランダムにアクセスすると仮定する。
【0062】次に図13を参照して、要求順序づけと呼
ばれる異なるメモリ記憶構成が示されている。図13の
メモリ構成では、記憶メモリ112内のパラメータが図
12の場合のようにランダムにアクセスできない音声記
憶および検索システムであると仮定する。この実施例で
は、符号化プロセスの間、DSP104によって生成さ
れたパラメータは図12の場合のように連続的にはスト
アされず、フレーム間平滑化プロセスを行なうためにこ
れらのパラメータをどのようにアクセスする必要がある
かに基づいてストアされる。したがって、図12に示さ
れるようにパラメータをフレーム単位で順序づけし連続
していない場所からパラメータP1 (n)、P2 (n+
1)およびP3 (n+2)をアクセスする代わりに、パ
ラメータは「要求に応じて」順序づけされ、それによっ
てパラメータP1 (n)、P2 (n+1)およびP
3 (n+2)は連続的にメモリ112にストアされる。
なお、本実施例では、ローカルメモリ106が符号化プ
ロセスの間にパラメータ値を列に並べる必要があり、そ
の結果図13に示されるようにパラメータは必要な順番
で記憶メモリ112に転送され、これらのパラメータが
ストアされる。
【0063】記憶メモリ112がランダムアクセスメモ
リでありかつDSP104が記憶メモリ112からのい
かなるパラメータにもランダムにアクセスする実施例で
は、好ましくは、図12に示されるような通常の順序づ
けの記憶法が用いられる。図7に示されるようなデマン
ドシリアルリンクが用いられる実施例でも、好ましく
は、図12の通常の順序づけの記憶法が用いられる。し
かしながら、必要に応じてこの実施例に図13の記憶法
を用いてもよい。ダムシリアルリンク130がDSP1
04と記憶メモリ112との間に用いられる場合、好ま
しくは図13の記憶法が用いられる。
【0064】再び図7を参照して、シリアルリンク13
0がダムシリアルリンクである場合、図8の符号化プロ
セスの間、DSP104は、その後の平滑化プロセスの
間にパラメータがDSP104によってアクセスされる
必要のある順序に基づいて、これらのパラメータを記憶
メモリ112にストアする。上述のように、このために
は、DSP104がこれらのパラメータを必要な順序で
記憶メモリ112に転送することができるようにするた
めに、ローカルメモリ106が符号化プロセスの間にパ
ラメータ値を列にする必要がある。代替的には、パラメ
ータのデータは図12に示されるように通常の順序づけ
の態様でストアされてもよい。本実施例では、DSP1
04がフレーム間平滑化プロセスの間にパラメータデー
タを読取るとき、このパラメータデータはローカルメモ
リ106において列にされ、その後、パラメータは平滑
化のために所望の順序でDSP104に与えられる。し
たがって、ダムシリアルリンク130が用いられる実施
例では、音声符復号器102には、用いられる記憶法に
かかわらず潜在的に多くのパラメータ値を列にするのに
十分な大きさのローカルメモリ106が必要である。
【0065】結論 このように、非常に低いビットレートの符号器を用いて
より高い品質の音声信号をストアしかつ生成するための
システムおよび方法を図示しかつ説明した。本発明のシ
ステムおよび方法では、パラメータの符号化が終了した
後に平滑化プロセスが行なわれ、この平滑化プロセスの
ためにより多くの前後のフレームのパラメータへのアク
セスが可能である。上述のように、本発明は、特に映像
記憶および検索システムを含む、パラメータのデータの
記憶および検索を伴う他のシステムに適用されてもよ
い。本発明はまた、パラメータのデータをストアするの
に十分なシステムのバンド幅および処理電力を有しかつ
リアルタイム伝送の間に複数個の前後のフレームを用い
て平滑化を行なうリアルタイムデータ通信システムに適
用してもよい。
【0066】以上、本発明の方法および装置の好ましい
実施例に関して説明したが、これは本発明をここに示し
た特定の形に限定するためのものではなく、前掲の特許
請求の範囲によって規定されるような本発明の精神およ
び範囲内に無理なく含むことができるような代替例、変
形例および均等物を含むものである。
【図面の簡単な説明】
【図1】音声信号を表現するために用いられる波形表現
法およびパラメータ表現法を示す図である。
【図2】図1に示される音声表現のためのビットレート
の範囲を示す図である。
【図3】基本的な音声生成モデルを示す図である。
【図4】一般化された音声生成モデルを示す図である。
【図5】1つの経時変化ディジタルフィルタを含む音声
生成モデルを示す図である。
【図6】本発明の一実施例に従う音声記憶システムのブ
ロック図である。
【図7】本発明の第2の実施例に従う音声記憶システム
のブロック図である。
【図8】本発明の一実施例に従う音声信号符号化動作を
フローチャートの形で示した図である。
【図9】部分的に重なり合う20ミリ秒サンプルに分割
された音声信号波形を示す図である。
【図10】本発明の一実施例に従う、ディジタル音声デ
ータの符号化の終了後にバックグラウンドにおいて行な
われるフレーム間平滑化プロセスをフローチャートの形
で示した図である。
【図11】本発明の一実施例に従う、復号化プロセスに
フレーム間平滑化プロセスが含まれる場合の、符号化さ
れたパラメータを復号化して音声波形信号を生成する動
作をフローチャートの形で示した図である。
【図12】マルチアクセス/通常順序づけ法に従うパラ
メータのメモリへの記憶を示す図である。
【図13】単一アクセス/要求順序づけ法に従うパラメ
ータのメモリへの記憶を示す図である。
【符号の説明】
102 音声符復号器 104 ディジタル信号プロセッサ 106 ローカルメモリ 112 パラメータ記憶メモリ 120 中央処理装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 サフ・アシャー アメリカ合衆国、78750 テキサス州、オ ースティン、クィル・リーフ・コーブ、 7010 (72)発明者 マーク・アイルトン アメリカ合衆国、78739 テキサス州、オ ースティン、ロックスベリー・レーン、 6005

Claims (48)

    【特許請求の範囲】
  1. 【請求項1】 ディジタル音声データの記憶および検索
    方法であって、 入力音声波形を受けるステップと、 前記入力音声波形をディジタル音声データに変換するス
    テップと、 前記ディジタル音声データの複数のフレームの各々につ
    いて前記ディジタル音声データを複数のパラメータに符
    号化するステップと、 前記複数のパラメータを記憶メモリに記憶するステップ
    と、 前記ディジタル音声データを符号化するステップおよび
    前記複数のパラメータを記憶するステップの後に、前記
    記憶メモリから前記複数のパラメータを読出すステップ
    と、 前記複数のパラメータを前記記憶メモリから読出す前記
    ステップの後に、前記複数のパラメータから不連続性を
    除去するように前記複数のパラメータを平滑化するステ
    ップとを含む、方法。
  2. 【請求項2】 前記平滑化するステップは、平滑化され
    た複数のパラメータを生成し、前記方法はさらに前記平
    滑化するステップの後に、前記平滑化された複数のパラ
    メータに基づいて音声信号波形を発生するステップを含
    む、請求項1に記載の方法。
  3. 【請求項3】 前記平滑化するステップは、平滑化され
    た複数のパラメータを生成し、前記方法はさらに前記平
    滑化するステップの後に、前記記憶メモリに前記平滑化
    された複数のパラメータを記憶するステップを含む、請
    求項1に記載の方法。
  4. 【請求項4】 前記平滑化された複数のパラメータを記
    憶する前記ステップの後に、前記記憶メモリから前記平
    滑化された複数のパラメータを読出すステップと、 前記平滑化された複数のパラメータを前記記憶メモリか
    ら読出す前記ステップの後に、前記平滑化された複数の
    パラメータに基づいて音声信号波形を発生するステップ
    とをさらに含む、請求項3に記載の方法。
  5. 【請求項5】 前記複数のパラメータの1つ以上につい
    て、前記平滑化するステップは、 第1のフレーム内の第1のパラメータを複数の前のフレ
    ームおよび複数の後のフレームからの類似パラメータと
    比較して、前記第1のパラメータが、前記複数の前のフ
    レームおよび前記複数の後のフレームからの前記類似パ
    ラメータと実質的に異なるかどうかを判断するステップ
    と、 前記比較するステップによって前記第1のパラメータが
    前記複数の前のフレームおよび前記複数の後のフレーム
    からの前記類似パラメータと実質的に異なることが示さ
    れると、前記第1のパラメータを新しい値に置換えるス
    テップとを含む、請求項1に記載の方法。
  6. 【請求項6】 前記比較するステップが、前記第1のフ
    レーム内の前記第1のパラメータを複数の前の連続する
    フレームおよび複数の後の連続するフレームからの類似
    パラメータと比較するステップを含む、請求項5に記載
    の方法。
  7. 【請求項7】 前記比較するステップが、前記第1のフ
    レーム内の前記第1のパラメータを8つの前の連続する
    フレームおよび8つの後の連続するフレームからの類似
    パラメータと比較するステップを含む、請求項6に記載
    の方法。
  8. 【請求項8】 前記平滑化するステップは、 前記比較するステップによって前記第1のパラメータが
    前記複数の前のフレームおよび前記複数の後のフレーム
    内の前記類似パラメータと実質的に異なることが示され
    ると、前記比較するステップの後に前記記憶メモリから
    さらなる類似パラメータを読出すステップと、 前記第1のパラメータが実質的に異なるかどうかを判断
    するために、前記さらなるパラメータを読出す前記ステ
    ップにおいて読出された前記さらなる類似パラメータと
    前記第1のパラメータを比較するステップとをさらに含
    む、請求項5に記載の方法。
  9. 【請求項9】 前記符号化するステップが、前記複数の
    フレームの各々について異なるタイプの複数のパラメー
    タを発生し、さらに前記複数のパラメータを前記記憶メ
    モリから読出す前記ステップが、前記複数のパラメータ
    のそれぞれ1つを複数のバッファに記憶するステップを
    含み、複数の前記複数のフレームからの同じタイプのパ
    ラメータが前記複数のバッファの各々に記憶される、請
    求項1に記載の方法。
  10. 【請求項10】 前記バッファの各々について、前記平
    滑化するステップは、 第1のバッファ内の第1のパラメータを前記第1のバッ
    ファ内の他のパラメータと比較して、前記第1のパラメ
    ータが前記第1のバッファ内の前記他のパラメータと実
    質的に異なるかどうかを判断するステップと、 前記比較するステップによって前記第1のパラメータが
    前記第1のバッファ内の前記他のパラメータと実質的に
    異なることが示されると、前記第1のパラメータを新し
    い値に置換えるステップとを含む、請求項9に記載の方
    法。
  11. 【請求項11】 前記複数のバッファはパラメータの異
    なるタイプについて異なるサイズを有する、請求項9に
    記載の方法。
  12. 【請求項12】 前記複数のパラメータを前記複数のバ
    ッファに記憶する前記ステップは、第1のタイプの第1
    の数のパラメータを第1のバッファに記憶するステップ
    と、第2のタイプの第2の数のパラメータを第2のバッ
    ファに記憶するステップとを含み、前記第1の数は前記
    第2の数とは異なる、請求項11に記載の方法。
  13. 【請求項13】 前記複数のバッファは複数の環状バッ
    ファを含む、請求項9に記載の方法。
  14. 【請求項14】 前記符号化するステップは、前記複数
    のフレームの各々について異なるタイプの複数のパラメ
    ータを発生し、 前記複数のパラメータを前記記憶メモリから読出す前記
    ステップは、1つ以上のバッファに前記複数のパラメー
    タのそれぞれ1つを記憶するステップを含み、第1のタ
    イプのパラメータは第1のバッファに記憶され、第2の
    タイプのパラメータは前記記憶メモリ内に留まり、バッ
    ファに記憶されず、 前記平滑化するステップは、 前記第1のバッファ内の前記第1のタイプの第1のパラ
    メータを前記第1のバッファ内の前記第1のタイプの他
    のパラメータと比較して、前記第1のパラメータが前記
    第1のバッファ内の前記他のパラメータと実質的に異な
    るかどうかを判断するステップと、 前記比較するステップによって前記第1のパラメータが
    前記第1のバッファ内の前記他のパラメータと実質的に
    異なることが示されると、前記第1のパラメータを新し
    い値と置換えるステップと、 複数の前記複数のフレームから前記記憶メモリからの前
    記第2のタイプのパラメータを読出すステップと、 前記第2のタイプの前記パラメータのうちの第1のパラ
    メータを前記第2のタイプの他のパラメータと比較する
    ステップと、 前記比較するステップによって前記第2のタイプの前記
    パラメータのうちの前記第1のパラメータが前記第2の
    タイプの他のパラメータと実質的に異なることが示され
    ると、前記第2のタイプの前記パラメータのうちの前記
    第1のパラメータを新しい値に置換えるステップとを含
    む、請求項1に記載の方法。
  15. 【請求項15】 前記符号化するステップは、前記複数
    のフレームの1つ以上におけるパラメータの第1のタイ
    プについて複数の類似パラメータを発生するステップを
    含み、前記方法はさらに前記複数のフレームの前記1つ
    以上の各々について前記第1のタイプの前記複数の類似
    パラメータに対してフレーム内平滑化を行なうステップ
    をさらに含み、前記フレーム内平滑化を行なうステップ
    は、前記複数の前記フレームの1つ以上の各々について
    前記第1のタイプの前記複数のパラメータ値に基づいて
    前記第1のタイプの単一のパラメータ値を発生する、請
    求項1に記載の方法。
  16. 【請求項16】 前記複数のパラメータを第1の形態か
    ら平滑化に適した第2の形態に変換するステップをさら
    に含み、前記変換するステップは、前記記憶メモリから
    前記複数のパラメータを読出す前記ステップの後であ
    り、かつ前記複数のパラメータを平滑化する前記ステッ
    プの前に行なわれ、さらに前記複数のパラメータを平滑
    化する前記ステップの後に、前記平滑化された複数のパ
    ラメータを前記第1の形態に戻すよう変換するステップ
    と、 前記平滑化された複数のパラメータを前記第1の形態に
    変換するステップの後、前記複数のパラメータを前記記
    憶メモリに記憶するステップとをさらに含む、請求項1
    に記載の方法。
  17. 【請求項17】 前記符号化するステップの前に、前記
    ディジタル音声データをメモリに記憶するステップをさ
    らに含み、前記ディジタル音声データは、ディジタル音
    声データの複数のフレームに区分され得る、請求項1に
    記載の方法。
  18. 【請求項18】 音声のより高い品質を与えるディジタ
    ル音声記憶および検索システムであって、 入力音声波形を受取り、前記入力音声波形を表わす複数
    のパラメータを発生するプロセッサを備え、前記入力音
    声波形は複数のフレームに区分され得て、前記プロセッ
    サは前記入力音声波形の前記複数のフレームについて前
    記複数のパラメータを発生し、さらに前記プロセッサに
    結合されて前記複数のパラメータを記憶するメモリ記憶
    装置と、 前記プロセッサに結合されて前記複数のパラメータのう
    ちの第1の複数のパラメータを記憶するローカルメモリ
    とを備え、前記第1の複数のパラメータは、平滑化され
    ている第1のフレーム内の第1のパラメータと、前記第
    1のフレームに関して前後にある複数のフレームからの
    類似パラメータとを含み、 前記プロセッサは前記メモリ記憶装置から前記第1の複
    数のパラメータを読出し、前記第1の複数のパラメータ
    を前記ローカルメモリに記憶し、 前記第1の複数のパラメータを前記メモリ記憶装置から
    読出し、前記第1の複数のパラメータを前記ローカルメ
    モリに記憶した後、前記プロセッサは前記ローカルメモ
    リ内の前記第1のパラメータに対して平滑化動作を行な
    う、システム。
  19. 【請求項19】 前記ローカルメモリ内の前記第1の複
    数のパラメータに対して平滑化動作を行なった後、前記
    プロセッサは前記第1の複数のパラメータに基づいて音
    声信号波形を発生する、請求項18に記載のシステム。
  20. 【請求項20】 前記ローカルメモリ内の前記第1の複
    数のパラメータに対して前記平滑化動作を行なった後、
    前記プロセッサは前記記憶メモリに前記平滑化された第
    1の複数のパラメータを記憶する、請求項18に記載の
    システム。
  21. 【請求項21】 前記ローカルメモリ内の前記第1の複
    数のパラメータに対して平滑化動作を行ない、前記プロ
    セッサが前記平滑化された第1の複数のパラメータを前
    記記憶メモリ内に記憶した後、前記プロセッサは前記第
    1の複数のパラメータに基づいて音声信号波形を発生す
    る、請求項20に記載のシステム。
  22. 【請求項22】 前記プロセッサは、前記複数の前後の
    フレームからの前記類似パラメータを用いて前記ローカ
    ルメモリ内の前記第1のパラメータに対して平滑化動作
    を行なう、請求項18に記載のシステム。
  23. 【請求項23】 前記プロセッサは、 前記第1のパラメータが前記複数の前後のフレームから
    の前記類似パラメータと実質的に異なるかどうかを判断
    するために、前記複数の前後のフレームからの前記類似
    パラメータと前記第1のフレーム内の前記第1のパラメ
    ータを比較するための手段と、 前記第1のパラメータが前記複数の前後のフレームから
    の前記類似パラメータと実質的に異なることを前記比較
    手段が判断すると、前記第1のパラメータを新しい値に
    置換えるための手段とを含む、請求項22に記載のシス
    テム。
  24. 【請求項24】 前記第1のパラメータが前記複数の前
    後のフレーム内の前記類似パラメータと実質的に異なる
    ことを前記比較手段が判断すると、前記比較手段の動作
    後に前記プロセッサは前記メモリ記憶装置からさらなる
    類似パラメータを読出し、 前記比較手段は、前記第1のパラメータを前記さらなる
    類似パラメータと比較して前記第1のパラメータが実質
    的に異なるかどうかを判断する、請求項23に記載のシ
    ステム。
  25. 【請求項25】 前記音声入力波形の前記複数のフレー
    ムの各々について異なるタイプの複数のパラメータを前
    記プロセッサが発生し、 前記ローカルメモリは前記異なるタイプのパラメータに
    対応する複数のバッファを含み、 前記プロセッサは前記メモリ記憶装置から前記パラメー
    タを読出し、前記バッファ内の同じタイプの前記パラメ
    ータを前記ローカルメモリに記憶する、請求項18に記
    載のシステム。
  26. 【請求項26】 前記複数のバッファはパラメータの異
    なるタイプについて異なるサイズを有する、請求項25
    に記載のシステム。
  27. 【請求項27】 ディジタルパラメトリックデータの記
    憶および検索方法であって、 入力ディジタルデータを受取るステップと、 前記ディジタルデータの複数のフレームの各々について
    前記ディジタルデータを複数のパラメータに符号化する
    ステップと、 前記複数のパラメータを記憶メモリ内に記憶するステッ
    プと、 前記ディジタルデータを符号化するステップおよび前記
    複数のパラメータを記憶するステップの後に、前記複数
    のパラメータを前記記憶メモリから読出すステップと、 前記複数のパラメータを前記記憶メモリから読出すステ
    ップの後、前記複数のパラメータから不連続性を除去す
    るために前記複数のパラメータを平滑化するステップと
    を含む、方法。
  28. 【請求項28】 前記平滑化するステップは平滑化され
    た複数のパラメータを生成し、前記方法はさらに前記平
    滑化ステップの後に、前記平滑化された複数のパラメー
    タを前記記憶メモリに記憶するステップを含む、請求項
    27に記載の方法。
  29. 【請求項29】 前記複数のパラメータの1つ以上につ
    いて、前記平滑化するステップは第1のフレーム内の第
    1のパラメータを複数の前のフレームおよび複数の後の
    フレームからの類似パラメータと比較して、前記第1の
    パラメータが前記複数の前のフレームおよび前記複数の
    後のフレームからの前記類似パラメータと実質的に異な
    るかどうかを判断するステップと、 前記第1のパラメータが前記複数の前のフレームおよび
    前記複数の後のフレームからの前記類似パラメータと実
    質的に異なることが前記比較するステップによって示さ
    れると、前記第1のパラメータを新しい値に置換えるス
    テップとを含む、請求項27に記載の方法。
  30. 【請求項30】 前記平滑化するステップはさらに、 前記第1のパラメータが前記複数の前のフレームおよび
    前記複数の後のフレーム内の前記類似パラメータと実質
    的に異なることを前記比較するステップが示すと、前記
    比較するステップの後に前記記憶メモリからさらなる類
    似パラメータを読出すステップと、 前記さらなるパラメータを読出すステップにおいて読出
    された前記さらなる類似パラメータと前記第1のパラメ
    ータを比較して、前記第1のパラメータが実質的に異な
    るかどうかを判断するステップとを含む、請求項29に
    記載の方法。
  31. 【請求項31】 前記符号化するステップが前記複数の
    フレームの各々について異なるタイプの複数のパラメー
    タを発生し、 前記複数のパラメータを前記記憶メモリから読出す前記
    ステップは、複数のバッファに前記複数のパラメータの
    それぞれ1つを記憶するステップを含み、複数の前記複
    数のフレームからの同じタイプのパラメータが前記複数
    のバッファの各々に記憶される、請求項27に記載の方
    法。
  32. 【請求項32】 前記複数のバッファはパラメータの異
    なるタイプについて異なるサイズを有する、請求項31
    に記載の方法。
  33. 【請求項33】 前記複数のバッファに前記複数のパラ
    メータを記憶する前記ステップは、第1のタイプの第1
    の数のパラメータを第1のバッファに記憶するステップ
    と、第2のタイプの第2の数のパラメータを第2のバッ
    ファに記憶するステップとを含み、前記第1の数は前記
    第2の数とは異なる、請求項32に記載の方法。
  34. 【請求項34】 前記複数のバッファは複数の環状バッ
    ファを含む、請求項31に記載の方法。
  35. 【請求項35】 前記符号化するステップは前記複数の
    フレームの各々について異なるタイプの複数のパラメー
    タを発生し、 前記記憶メモリから前記複数のパラメータを読出す前記
    ステップは、1つ以上のバッファに前記複数のパラメー
    タのそれぞれ1つを記憶するステップを含み、第1のタ
    イプのパラメータは第1のバッファに記憶され、第2の
    タイプのパラメータは前記記憶メモリ内に留まってバッ
    ファ内には記憶されず、 前記平滑化するステップは、 前記第1のバッファ内の前記第1のタイプの第1のパラ
    メータを前記第1のバッファ内の前記第1のタイプの他
    のパラメータと比較して、前記第1のパラメータが前記
    第1のバッファ内の前記他のパラメータと実質的に異な
    るかどうかを判断するステップと、 前記第1のパラメータが前記第1のバッファ内の前記他
    のパラメータと実質的に異なることを前記比較するステ
    ップが示すと、前記第1のパラメータを新しい値に置換
    えるステップと、 複数の前記複数のフレームから前記記憶メモリからの前
    記第2のタイプのパラメータを読出すステップと、 前記第2のタイプの前記パラメータのうちの第1のパラ
    メータを前記第2のタイプの他のパラメータと比較する
    ステップと、 前記第2のタイプの前記パラメータのうちの前記第1の
    パラメータが前記第2のタイプの他のパラメータと実質
    的に異なることを前記比較するステップが示すと、前記
    第2のタイプの前記パラメータのうちの前記第1のパラ
    メータを新しい値に置換えるステップとを含む、請求項
    27に記載の方法。
  36. 【請求項36】 前記符号化するステップは、前記複数
    のフレームのうちの1つ以上におけるパラメータの第1
    のタイプについて複数の類似パラメータを発生するステ
    ップを含み、前記方法はさらに前記複数のフレームのう
    ちの前記1つ以上の各々について前記第1のタイプの前
    記複数の類似パラメータに対してフレーム間平滑化を行
    なうステップを含み、前記フレーム間平滑化を行なうス
    テップは、前記複数の前記フレームのうちの1つ以上の
    各々について前記第1のタイプの前記複数のパラメータ
    値に基づいて前記第1のタイプの単一のパラメータ値を
    発生する、請求項27に記載の方法。
  37. 【請求項37】 前記複数のパラメータを第1の形態か
    ら平滑化により適した第2の形態に変換するステップを
    さらに含み、前記変換するステップは、前記記憶メモリ
    から前記複数のパラメータを読出す前記ステップの後で
    あり、かつ前記複数のパラメータを平滑化する前記ステ
    ップの前に行なわれ、さらに前記複数のパラメータを平
    滑化する前記ステップの後、前記平滑化された複数のパ
    ラメータを前記第1の形態に戻すように変換するステッ
    プと、 前記平滑化された複数のパラメータを前記第1の形態に
    変換する前記ステップの後、前記記憶メモリに前記複数
    のパラメータを記憶するステップとをさらに含む、請求
    項27に記載の方法。
  38. 【請求項38】 前記入力ディジタルデータが音声デー
    タを含む、請求項27に記載の方法。
  39. 【請求項39】 前記入力ディジタルデータが映像デー
    タを含む、請求項27に記載の方法。
  40. 【請求項40】 信号のより高い品質を与えるディジタ
    ルデータ記憶および検索システムであって、 入力ディジタルデータを受取り、前記入力ディジタルデ
    ータを表わす複数のパラメータを発生するプロセッサを
    備え、前記入力ディジタルデータは複数のフレームに区
    分され得て、前記プロセッサは前記入力ディジタルデー
    タの前記複数のフレームに対して前記複数のパラメータ
    を発生し、さらに前記プロセッサに結合されて前記複数
    のパラメータを記憶するためのメモリ記憶装置と、 前記プロセッサに結合されて前記複数のパラメータのう
    ちの第1の複数のパラメータを記憶するためのローカル
    メモリとを備え、前記第1の複数のパラメータは、平滑
    化されている第1のフレーム内の第1のパラメータと、
    前記第1のフレームに関して前後の複数のフレームから
    の類似パラメータとを含み、 前記プロセッサは前記メモリ記憶装置から前記第1の複
    数のパラメータを読出し、前記第1の複数のパラメータ
    を前記ローカルメモリに記憶し、 前記第1の複数のパラメータを前記メモリ記憶装置から
    読出し、前記第1の複数のパラメータを前記ローカルメ
    モリに記憶した後、前記プロセッサは前記ローカルメモ
    リ内の前記第1のパラメータに対して平滑化動作を行な
    う、システム。
  41. 【請求項41】 前記ローカルメモリ内の前記第1の複
    数のパラメータに対して前記平滑化動作を行なった後、
    前記プロセッサは前記平滑化された第1の複数のパラメ
    ータを前記記憶メモリに記憶する、請求項40に記載の
    システム。
  42. 【請求項42】 前記プロセッサは、前記複数の前後の
    フレームからの前記類似パラメータを用いて前記ローカ
    ルメモリ内の前記第1のパラメータに対して平滑化動作
    を行なう、請求項40に記載のシステム。
  43. 【請求項43】 前記プロセッサが、 前記第1のフレーム内の前記第1のパラメータを前記複
    数の前後のフレームからの前記類似パラメータと比較し
    て、前記第1のパラメータが前記複数の前後のフレーム
    からの前記類似パラメータと実質的に異なるかどうかを
    判断するための手段と、 前記第1のパラメータが前記複数の前後のフレームから
    の前記類似パラメータと実質的に異なることを前記比較
    手段が判断すると、前記第1のパラメータを新しい値に
    置換えるための手段とを含む、請求項42に記載のシス
    テム。
  44. 【請求項44】 前記第1のパラメータが前記複数の前
    後のフレーム内の前記類似パラメータと実質的に異なる
    ことを前記比較手段が判断すると、前記比較手段の動作
    後に前記プロセッサは前記メモリ記憶装置からさらなる
    類似パラメータを読出し、 前記比較手段は前記第1のパラメータを前記さらなる類
    似パラメータと比較して、前記第1のパラメータが実質
    的に異なるかどうかを判断する、請求項43に記載のシ
    ステム。
  45. 【請求項45】 前記プロセッサは、前記入力ディジタ
    ルデータの前記複数のフレームの各々について異なるタ
    イプの複数のパラメータを発生し、 前記ローカルメモリは、前記異なるタイプのパラメータ
    に対応する複数のバッファを含み、 前記プロセッサは前記メモリ記憶装置から前記パラメー
    タを読出し、前記ローカルメモリに前記バッファ内の同
    じタイプの前記パラメータを記憶する、請求項40に記
    載のシステム。
  46. 【請求項46】 前記複数のバッファはパラメータの異
    なるタイプについて異なるサイズを有する、請求項45
    に記載のシステム。
  47. 【請求項47】 前記入力ディジタルデータは音声デー
    タを含む、請求項40に記載のシステム。
  48. 【請求項48】 前記入力ディジタルデータは映像デー
    タを含む、請求項40に記載のシステム。
JP8050452A 1995-03-07 1996-03-07 ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム Withdrawn JPH08335100A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/399497 1995-03-07
US08/399,497 US5991725A (en) 1995-03-07 1995-03-07 System and method for enhanced speech quality in voice storage and retrieval systems

Publications (1)

Publication Number Publication Date
JPH08335100A true JPH08335100A (ja) 1996-12-17

Family

ID=23579742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8050452A Withdrawn JPH08335100A (ja) 1995-03-07 1996-03-07 ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム

Country Status (5)

Country Link
US (1) US5991725A (ja)
EP (1) EP0731348B1 (ja)
JP (1) JPH08335100A (ja)
AT (1) ATE202872T1 (ja)
DE (1) DE69613611T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2242610C (en) * 1996-11-11 2003-01-28 Matsushita Electric Industrial Co., Ltd. Sound reproducing speed converter
US6275798B1 (en) * 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
GB2343777B (en) * 1998-11-13 2003-07-02 Motorola Ltd Mitigating errors in a distributed speech recognition process
JP3365360B2 (ja) 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
JP3417362B2 (ja) * 1999-09-10 2003-06-16 日本電気株式会社 音声信号復号方法及び音声信号符号化復号方法
JP3478209B2 (ja) * 1999-11-01 2003-12-15 日本電気株式会社 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
AU2001219367A1 (en) * 2000-11-28 2002-06-11 Oz.Com Method and apparatus for progressive transmission of time based signals
US7136630B2 (en) * 2000-12-22 2006-11-14 Broadcom Corporation Methods of recording voice signals in a mobile set
US6469931B1 (en) 2001-01-04 2002-10-22 M-Systems Flash Disk Pioneers Ltd. Method for increasing information content in a computer memory
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
US20050091041A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for speech coding
JP4096915B2 (ja) * 2004-06-01 2008-06-04 株式会社日立製作所 デジタル情報再生装置及び方法
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8576837B1 (en) * 2009-01-20 2013-11-05 Marvell International Ltd. Voice packet redundancy based on voice activity
US9978379B2 (en) * 2011-01-05 2018-05-22 Nokia Technologies Oy Multi-channel encoding and/or decoding using non-negative tensor factorization
CN110890101B (zh) * 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
US9633671B2 (en) 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
US11287310B2 (en) 2019-04-23 2022-03-29 Computational Systems, Inc. Waveform gap filling

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4121058A (en) * 1976-12-13 1978-10-17 E-Systems, Inc. Voice processor
JPS59157811A (ja) * 1983-02-25 1984-09-07 Nec Corp デ−タ補間回路
US4641238A (en) * 1984-12-10 1987-02-03 Itt Corporation Multiprocessor system employing dynamically programmable processing elements controlled by a master processor
JPH01177227A (ja) * 1988-01-05 1989-07-13 Toshiba Corp 音声コーデック
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US5194950A (en) * 1988-02-29 1993-03-16 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US5031218A (en) * 1988-03-30 1991-07-09 International Business Machines Corporation Redundant message processing and storage
US5357594A (en) * 1989-01-27 1994-10-18 Dolby Laboratories Licensing Corporation Encoding and decoding using specially designed pairs of analysis and synthesis windows
US5148487A (en) * 1990-02-26 1992-09-15 Matsushita Electric Industrial Co., Ltd. Audio subband encoded signal decoder
JP3102015B2 (ja) * 1990-05-28 2000-10-23 日本電気株式会社 音声復号化方法
ES2240252T3 (es) * 1991-06-11 2005-10-16 Qualcomm Incorporated Vocodificador de velocidad variable.
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5386493A (en) * 1992-09-25 1995-01-31 Apple Computer, Inc. Apparatus and method for playing back audio at faster or slower rates without pitch distortion
CA2105269C (en) * 1992-10-09 1998-08-25 Yair Shoham Time-frequency interpolation with application to low rate speech coding
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
US5487087A (en) * 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
US5673361A (en) * 1995-11-13 1997-09-30 Advanced Micro Devices, Inc. System and method for performing predictive scaling in computing LPC speech coding coefficients

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077546A (ja) * 2013-09-09 2018-05-17 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声処理のための無声/有声判定
US10347275B2 (en) 2013-09-09 2019-07-09 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
US11328739B2 (en) 2013-09-09 2022-05-10 Huawei Technologies Co., Ltd. Unvoiced voiced decision for speech processing cross reference to related applications

Also Published As

Publication number Publication date
DE69613611T2 (de) 2002-05-08
EP0731348A2 (en) 1996-09-11
ATE202872T1 (de) 2001-07-15
EP0731348A3 (en) 1998-04-01
US5991725A (en) 1999-11-23
DE69613611D1 (de) 2001-08-09
EP0731348B1 (en) 2001-07-04

Similar Documents

Publication Publication Date Title
JPH08335100A (ja) ディジタル音声データの記憶および検索方法、ならびにディジタル音声記憶および検索システム
JP5208901B2 (ja) 音声信号および音楽信号を符号化する方法
US8670990B2 (en) Dynamic time scale modification for reduced bit rate audio coding
JPH10307599A (ja) スプラインを使用する波形補間音声コーディング
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2010170142A (ja) ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置
KR20050061615A (ko) 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법
JPH0524520B2 (ja)
JPH096397A (ja) 音声信号の再生方法、再生装置及び伝送方法
JPH06222798A (ja) 音声信号を効率的に符号化するための方法及びこの方法を用いる符号器
JPH09204199A (ja) 非活性音声の効率的符号化のための方法および装置
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
JP3722366B2 (ja) パケット構成方法及び装置、パケット構成プログラム、並びにパケット分解方法及び装置、パケット分解プログラム
JPH09127995A (ja) 信号復号化方法及び信号復号化装置
KR20170003596A (ko) 음성 정보를 갖는 개선된 프레임 손실 보정
JP3303580B2 (ja) 音声符号化装置
US5797120A (en) System and method for generating re-configurable band limited noise using modulation
JP4489371B2 (ja) 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置
JP3803306B2 (ja) 音響信号符号化方法、符号化器及びそのプログラム
JP4645867B2 (ja) ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2583883B2 (ja) 音声分析装置および音声合成装置
US20220277754A1 (en) Multi-lag format for audio coding
JPH0786952A (ja) 音声の予測符号化方法
JP2844672B2 (ja) 声帯声道型音声分析装置
JP3984021B2 (ja) 音声/音響信号の符号化方法及び電子装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031104