JP2002516420A - 音声コーダ - Google Patents

音声コーダ

Info

Publication number
JP2002516420A
JP2002516420A JP2000550096A JP2000550096A JP2002516420A JP 2002516420 A JP2002516420 A JP 2002516420A JP 2000550096 A JP2000550096 A JP 2000550096A JP 2000550096 A JP2000550096 A JP 2000550096A JP 2002516420 A JP2002516420 A JP 2002516420A
Authority
JP
Japan
Prior art keywords
pitch
frame
voiced
value
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000550096A
Other languages
English (en)
Inventor
ピエール ビレット,ステファーヌ
メーメット コンドズ,アーメット
Original Assignee
ユニバーシティ オブ サリー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニバーシティ オブ サリー filed Critical ユニバーシティ オブ サリー
Publication of JP2002516420A publication Critical patent/JP2002516420A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

(57)【要約】 音声コーダは、解析および合成手法を使用する符号器(図2から図6)を含む。この符号器は、周波数領域と時間領域との両方における解析を必要とするピッチ決定アルゴリズムと、有声音発声決定アルゴリズムと、スペクトル振幅を決定するためのアルゴリズムと、決定された値を量子化するための手段とを使用する。復号器もまた記述される。

Description

【発明の詳細な説明】
【0001】 本発明は、音声コーダに関する。 本発明は、特に、専用にではないが、電気通信システムで使用される。 本発明の一態様では、予め決められた数のディジタルサンプルから各々が成る
複数フレームに分割されている入力音声信号を符号化するための符号器を含む音
声コーダであって、該符号器が、サンプルを解析して各フレームに関する少なく
とも1つの線形予測係数セットを生成するための線形予測符号化(LPC)手段
と、各フレームに関する少なくとも1つのピッチ値を決定するためのピッチ決定
手段であって、周波数領域手法(周波数領域解析)を使用してサンプルを解析す
るための第1の推定手段と、時間領域手法(時間領域解析)を使用してサンプル
を解析するための第2の推定手段と、前記ピッチ値を得るために前記周波数領域
解析と前記時間領域解析との結果を使用するためのピッチ評価手段とを含むピッ
チ決定手段と、各フレーム内の有声信号と無声信号との尺度を決めるための有声
音発声手段と、各フレームに関する振幅情報を生成するための振幅決定手段と、
各フレームに関して量子化インデックスセットを生成するために、前記線形予測
係数セットと、前記ピッチ値と、前記有声信号および無声信号の尺度と、前記振
幅情報とを量子化するための量子化手段とを備え、前記第1の推定手段が、幾つ
かの候補ピッチ値の各々に関して第1のピッチ尺度を生成し、前記第2の推定手
段が、前記候補ピッチ値の各々に関してそれぞれの第2のピッチ尺度を生成し、
前記評価手段が、前記第1の尺度の少なくとも幾つかを、各々に対応する前記第
2の尺度と結合し、その結果得られる組み合わせを参照して前記候補ピッチ値の
1つを選択する音声コーダが提供される。
【0002】 本発明の別の態様では、入力音声信号を符号化するための符号器を含む音声コ
ーダが提供され、前記符号器が、ディジタルサンプルを生成するために前記入力
音声信号をサンプリングするための、および、予め決められた数のサンプルから
各々が成る複数フレームに前記サンプルを分割するための手段と、サンプルを解
析するための、および、各フレームに関して少なくとも1つの線形予測係数セッ
トを生成するための線形予測符号化(LPC)手段と、各フレームに関して少な
くとも1つのピッチ値を決定するためのピッチ決定手段と、各フレーム内の有声
信号と無声信号との尺度を決めるための有声音発声手段と、各フレームに関する
振幅情報を生成するための振幅決定手段と、各フレームに関して量子化インデッ
クスセットを生成するために、前記線形予測係数セットと、前記ピッチ値と、前
記有声信号および無声信号の尺度と、前記振幅情報とを量子化するための量子化
手段とを備え、前記ピッチ決定手段が、ピッチ値の推定値を求めるためのピッチ
推定手段と、前記推定値からピッチ値を得るためのピッチリファインメント(p
itch refinement)手段とを含み、前記ピッチリファインメント
手段が、前記ピッチ推定手段によって決定された前記ピッチ値の推定値を中心に
分布した端数値(fractional value)を含む候補ピッチ値セッ
トを規定し、前記フレームの周波数スペクトル内のピークを識別し、前記候補ピ
ッチ値の各々に関して、前記フレームの周波数スペクトルの様々な高調波周波数
(kω0 )における振幅と前記ピークの相関をとり、ここでω0 =2Π/Pであ
り、Pが前記候補ピッチ値であり、かつ、kが整数であるが、かつ、最大の相関
を与える候補ピッチ値を前記ピッチ値として選択する。
【0003】 本発明のさらに別の態様では、入力音声信号を符号化するための符号器を含む
音声コーダが提供され、前記符号器が、ディジタルサンプルを生成するために前
記入力音声信号をサンプリングするための、および、予め決められた数のサンプ
ルから各々が成る複数フレームに前記サンプルを分割するための手段と、サンプ
ルを解析するための、および、各フレームに関して少なくとも1つの線形予測係
数セットを生成するための線形予測符号化(LPC)手段と、各フレームに関し
て少なくとも1つのピッチ値を決定するためのピッチ決定手段と、個々の高調波
周波数帯域の有声/無声状態を評価することなしに有声部分と無声部分とに前記
フレームからの周波数スペクトルを分離するために有声音発声カットオフ周波数
を各フレーム毎に決定するための有声音発声手段と、各フレームに関する振幅情
報を生成するための振幅決定手段と、各フレームに関して量子化インデックスセ
ットを生成するために、前記係数セットと、前記ピッチ値と、前記有声音発声カ
ットオフ周波数と、前記振幅情報とを量子化するための量子化手段とを備える。
【0004】 本発明のさらに別の態様では、入力音声信号を符号化するための符号器を含む
音声コーダが提供され、前記符号器が、ディジタルサンプルを生成するために前
記入力音声信号をサンプリングするための、および、予め決められた数のサンプ
ルから各々が成る複数フレームに前記サンプルを分割するための手段と、サンプ
ルを解析するための、および、各フレームに関して少なくとも1つの線形予測係
数セットを生成するための線形予測符号化(LPC)手段と、各フレームに関し
て少なくとも1つのピッチ値を決定するためのピッチ決定手段と、各フレーム内
の有声信号と無声信号との尺度を規定するための有声音発声手段と、各フレーム
に関する振幅情報を生成するための振幅決定手段と、各フレームに関して量子化
インデックスセットを生成するために、前記予測係数セットと、前記ピッチ値と
、前記有声信号および無声信号の尺度と、前記振幅情報とを量子化するための量
子化手段とを備え、前記振幅決定手段が、前記ピッチ決定手段によって決定され
たピッチ値に高調波として関係付けられている周波数を中心とした周波数帯域に
関するスペクトル振幅セットを各フレーム毎に生成し、前記量子化手段が、振幅
量子化インデックスの第1の部分を生成するために、正規化されたスペクトル振
幅を量子化する。
【0005】 本発明のさらに別の態様では、入力音声信号を符号化するための符号器を含む
音声コーダが提供され、前記符号器が、ディジタルサンプルを生成するために前
記入力音声信号をサンプリングするための、および、予め決められた数のサンプ
ルから各々が成る複数フレームの形に前記サンプルを分割するための手段と、各
フレームの前端部分と後端部分の各々に関するそれぞれの線スペクトル周波数(
LSF)セットを生成するようにサンプルを解析するための線形予測符号化(L
PC)手段と、各フレームに関して少なくとも1つのピッチ値を決定するための
ピッチ決定手段と、各フレーム内の有声信号と無声信号との尺度を規定するため
の有声音発声手段と、各フレームに関する振幅情報を生成するための振幅決定手
段と、量子化インデックスセットを生成するために、前記LSF係数セットと、
前記ピッチ値と、前記有声信号および無声信号の尺度と、前記振幅情報とを量子
化するための量子化手段とを備え、前記量子化手段が、 次式
【0006】
【数3】
【0007】 によって現在のフレームの前端部分に関する量子化LSF係数セット(LSF
′2)を規定し、ここで式中のLSF′3とLSF′1とが各々に現在のフレー
ムの後端部分と現在のフレームの直前のフレームの後端部分とに関する量子化L
SF係数セットでありかつαが第1のベクトル量子化コードブック中のベクトル
であるが、また第2のベクトル量子化コードブックの個々のLSF量子化ベクト
ルQ2、Q3と個々の予測値P2、P3との組み合わせとして、現在のフレーム
の各々の前端部分と後端部分との各々に関する前記量子化LSF係数セットLS
F′2、LSF′3の各々を規定し、ここで式中のP2=λQ1でP3=λQ2
であり、λが定数であり、かつ、Q1が前記直前のフレームの後端部分に関する
前記LSF量子化ベクトルであり、さらに現在のフレームに関する線形予測符号
化手段によって生成されるLSF係数(LSF2、LSF3)と対応量子化LS
F係数(LSF′2、LSF′3)との間の歪みの尺度を最小化するために、第
1と第2のベクトル量子化コードブックから前記ベクトルQ3と前記ベクトルα
をそれぞれ選択する。
【0008】 本発明のさらに別の態様では、LPC係数、ピッチ値、有声信号および無声信
号の尺度及び振幅情報を表す量子化インデックスセットを復号化するための音声
コーダが提供され、前記音声コーダが、ピッチ値、有声信号および無声信号の尺
度及び振幅情報を表す前記インデックスから駆動信号を得るためのプロセッサ手
段と、前記LSF係数に応答して前記駆動信号をフィルタリングするためのLP
C合成フィルタと、前記LPC合成フィルタの出力におけるピッチサイクルエネ
ルギーを前記駆動信号中の対応ピッチサイクルエネルギーと比較するための手段
と、その比較したピッチサイクルエネルギーの間の差異を小さくするために前記
駆動信号を変更するために手段と、その変更された駆動信号をフィルタリングす
るための更なるLPC合成フィルタとを含む。
【0009】 以下では、本発明による実施例を、次の添付図面を参照しながら単なる本発明
の例示の形で説明する。 添付図面を参照しながら以下で説明する符号器と復号器とが、指定された適切
な信号プロセッサ内で実行されるソフトウェア命令としてアルゴリズムの形で具
体化されることが理解されるだろう。各図面に示されているブロックは、音声コ
ーダ内の個々のハードウェア構成要素を表すというよりはむしろ、プロセッサに
よって実行される各処理ステップの機能の説明を容易にするためのものである。
あるいは、当然のことながら、符号器と復号器とがハードウェア構成要素を使用
して実現されることも可能である。
【0010】 図1は、符号器1と復号器2とを備える音声コーダの一般図である。使用時に
は、アナログ入力音声信号Si (t)が符号器1で受け取られ、符号器1では、
代表的には8kHzのサンプリング周波数でその信号がサンプリングされる。そ
の次に、サンプリングされた音声信号が複数フレームに分割され、各フレームが
、入力音声信号の波形を表すが比較的少数のビットしか含まない量子化インデッ
クスセットを生成するように符号化される。連続フレームに関する量子化インデ
ックスが通信チャネル3を経由して復号器2に伝送され、元の入力音声信号に対
応するアナログ出力音声信号S0 (t)を合成するように、復号器2が、受信し
た量子化インデックスを処理する。音声コーダを使用する電気通信リンクの場合
には、音声チャンネルは音声信号入力端に符号器を必要とし、かつ、音声信号出
力端に復号器を必要とする。従って、電気通信リンクの一方の端に接続されてい
る音声コーダは、双方向リンクの場合には別々のチャネルにあるいは単方向リン
クの場合には同一チャネルに接続されてもよい符号器と復号器の両方を必要とす
る。
【0011】 図2は、以下では「スプリットバンド(split−band)LPC(SB
−LPC)」音声コーダと呼ばれている本発明による音声コーダの1つの実施例
における符号器を示す。この音声コーダは「解析および合成」方式を使用する。 前記音声コーダは2.4kb/sのビットレートで動作するように設計されて
いる。しかし、使用される量子化のレベルと量子化インデックスが更新される速
度とに応じて、これよりも低いか高いビットレート(例えば、1.2kb/sか
ら6.8kb/sの範囲内のビットレート)が使用可能である。
【0012】 最初に、人間の音声帯域の外側の周波数を除去するために、アナログ入力音声
信号がローパスフィルタでフィルタリングされる。その次に、ローパスフィルタ
でフィルタリングされた信号が、8kHzのサンプリング周波数でサンプリング
される。それから、その結果得られたディジタル信号di (t)が、この特定の
具体例では次式の伝達関数H(z)を有するハイパスフィルタ10に信号を通す
ことによって予め条件付けされる。
【0013】
【数4】
【0014】 このハイパスフィルタ10の効果は、存在するかも知れないDCレベルを全て
除去することである。 それから、この予め条件付けされたディジタル信号が、信号を複数フレームに
分割する役割を果たすハミング窓11に通される。この例では、各フレームがサ
ンプル160個のサンプルの長さであり、これは、20msのフレーム更新時間
間隔に相当する。ハミング窓11の係数WHamm(i)が次のように規定される。
【0015】
【数5】
【0016】 その次に、各フレームの周波数スペクトルが、線形時間変動(linear
time−varying)フィルタの出力に基づいて、さらに具体的に述べる
と、公知の「レヴィンソン−ダービン」(Levinson−Durbin)の
アルゴリズムを使用して得られるLPC係数のプリセット数Lを有する全極線形
予測LPCフィルタ12の出力に基づいて、モデル化される。LPCフィルタ1
2が、現在のフレーム内の各入力サンプルとL個の先行サンプルとの間の線形関
係を確立しようとする。従って、i番目の入力サンプルがai として表されかつ
LPC係数がLPC(j)として表される場合に、LPC(j)の値が次式を最
小化するように選択され、
【0017】
【数6】
【0018】 ここで、この事例では、N=160かつL=10である。 その次に、LPC係数LPC(0)、LPC(1)、...、LPC(9)が
、フレームに関する対応する「線スペクトル周波数」(LSF)係数LSF(0
)、LSF(1)、...、LSF(9)を生成するために変換される。これは
、公知のルート探索方法を使用してLPC−LSF変換器13で行われる。
【0019】 その次に、LSF係数がベクトル量子化器14に送られ、このベクトル量子化
器14では、符号器の第1の出力O1 に送られるフレームに関するLSF量子化
インデックスを生成するために、LSF係数がベクトル量子化プロセスを受ける
。あるいは、スカラ量子化器を使用してLSF係数が量子化されることも可能で
ある。
【0020】 公知であるように、LSF係数は常に単調であり、このことが、LPC係数を
使用する場合に比べて量子化プロセスを容易にする。さらに、LSF係数は、復
号器で必要とされるプロセスであるフレーム間の補間を容易にする。 周波数において互いに比較的近接しており、したがって入力音声信号の周波数
スペクトルにおける有意なピークを代表する係数に、より大きな重みを与えるよ
うに、ベクトル量子化プロセスがLSF係数の相対周波数を考慮に入れる。
【0021】 本発明のこの特定の具体例では、LSF係数が合計24ビットを使用して量子
化される。係数LSF(0)、LSF(1)、LSF(2)が、8ビットを使用
して量子化される第1のグループG1 を形成し、係数LSF(3)、LSF(4
)、LSF(5)が、8ビットを使用して量子化される第2のグループG2 を形
成し、係数LSF(6)、LSF(7)、LSF(8)、LSF(9)が、8ビ
ットを使用して量子化される第3のグループG3 を形成する。
【0022】 LSF係数の各グループが別々に量子化される。例示のために、量子化プロセ
スを、グループG1 に関して詳細に説明する。しかし、実質的に同一のプロセス
がグループG2 とG3 に対しても使用される。 ベクトル量子化プロセスが、1から256の番号が付与された28 個の項目を
含むコードブックを使用して行われ、コードブック内のr番目の項目が、係数L
SF(0)、LSF(1)、LSF(2)にそれぞれ対応する3つの要素Vr
0)、Vr (1)、Vr (2)のベクトル r から成る。この量子化プロセスの
目的は、実際のLSF係数に最も適切に適合するベクトル r を選択することで
ある。
【0023】 前記コードブックの各項目に関して、ベクトル量子化器14が、次式のように
合計を行い、
【0024】
【数7】
【0025】 ここで、W(i)が重み係数であり、最小の合計を与える項目が、グループG1 内のLSF係数に関する8ビット量子化インデックスを規定する。 前記重み係数の効果は、LSF係数が比較的接近している、さらに有意なピー
クの前記合計の重要性を強調することである。 現在のフレームn内の160個のサンプルのRMSエネルギーE0 が、バック
グラウンド信号推定ブロック15で計算され、この値が、次の基準に従って、バ
ックグラウンドエネルギー推定値EBG n を更新するために使用される。
【0026】
【数8】
【0027】 ここで、EBG n-1 は、直前のフレーム、n−1に関するバックグラウンドエネル
ギー推定値である。 EBG n が1より小さい場合には、EBG n は1に設定される。 その次に、EBG n とE0 の値が、次の基準に従って、入力信号の音声およびバ
ックグラウンド成分のRMSエネルギーの期待値をそれぞれ表すNRGSとNR
GBの値を更新するために使用される。
【0028】
【数9】
【0029】 そしてNRGBn <0.05である場合にはNRGBn が0.05に設定され、
【0030】
【数10】
【0031】 そして、NRGSn <2.0である場合にはNRGSn が2.0に設定され、お
よび、NRGBn <NRGSn である場合に、NRGSn がNRGBn に設定さ
れる。 例示のために、図3は、現在のフレームF0 の時間間隔(20ms長)内に含
まれるアナログ入力音声信号Si (t)の波形を示している。この波形は、人間
の声の重要な特性である比較的大きい振幅ピッチパルスPu を示す。このフレー
ムに関するピッチまたはピッチ周期Pが、フレーム中の連続ピッチパルスの相互
間の時間間隔として規定され、これが、その時間間隔内に含まれるサンプルの個
数で表される。ピッチ周期Pは、ω0 =2Π/Pである基本ピッチ周波数ω0
逆に関係付けられている。
【0032】 8kHzでサンプリングされる音声に関しては、約50Hzから535Hzの
範囲内の基本ピッチ周波数に対応する15個から150個のサンプルのピッチ周
期を考慮に入れることが理にかなっている。当然のことながら、基本ピッチ周波
数ω0 は、幾つかの高調波周波数を伴っている。 すでに説明したように、ピッチ周期Pが音声信号の重要な特性であり、従って
、符号器の第2の出力O2 に送られる別の量子化インデックスの基礎を形成す
る。さらに、後で明らかになるように、ピッチ周期Pは、符号器によって生成さ
れる他の量子化インデックスの決定にとって最も重要である。従って、所要精度
でかつ可能なかぎり確実な方法でピッチ周期Pを評価するように、十分な注意が
払われなければならない。このために、ピッチ検出器16が、次で図4を参照し
て詳細に説明されるピッチ検出アルゴリズムを使用して周波数領域と時間領域と
の両方において各フレームに対して解析を行う。
【0033】 周波数領域での解析を容易にするために、512ポイント高速フーリエ変換(
FFT)アルゴリズムを使用してDFTブロック17で離散フーリエ変換が行わ
れる。現在のフレームの中央に置かれた221ポイントカイザー(Kaiser
)窓18を介してDFTブロック17にサンプルが供給され、その個数を512
個にするために、これらのサンプルにゼロが埋め込まれる。
【0034】 図4を参照すると、その結果としての周波数スペクトルの大きさM(i)が、
前記変換の実数成分SWR(i)と虚数成分SWI(i)とを使用してブロック
401で計算され、複雑さを減少させるために、これが、予め決められたカット
オフ周波数(Cut)までの各周波数iで行われ、この場合にiは、0から25
5まで続くFFTの出力サンプルによって表される。この実施例では、カットオ
フ周波数が、i=90において、最大期待値の基本ピッチ周波数よりもはるかに
高い1.5kHzに相当する。
【0035】 前記大きさM(i)が次の通りに計算される。
【0036】
【数11】
【0037】 またM(i)のRMS値であるMmax が、ブロック402において、次のように
計算される。
【0038】
【数12】
【0039】 ピッチ推定アルゴリズムの性能を向上させるために、振幅M(i)がブロック
404からブロック407で前処理される。 最初に、ブロック404において、周波数スペクトルの主要ピークをディエン
ファシスする(de−emphasise)ためにバイアス(bias)が加え
られる。いずれかの振幅M(i)がMmax を上回る場合には、(M(i)Mmax 1/2 によって与えられる新たな振幅によってM(i)が置き換えられる。その
次に、音声内容に関してより重要であるより低い周波数をエンファシスするため
に、さらに別のバイアスが加えられ、このために、各々の大きさが係数{1−(
i/Cut+5)}によって重み付けされる。
【0040】 ブロック405では、バックグラウンドノイズに対する性能を向上させるため
に、ノイズ除去アルゴリズムが、その重み付けられた振幅に適用される。このた
めに、各振幅M(i)が、バックグラウンドノイズの推定値Mmem (i)を得る
ように、非音声フレームの間追跡される。E0 <1.5EBG n である場合には、
次式によって与えられる新たな値M′mem (i)を生成するために、Mmem (i
)の値が更新される。
【0041】
【数13】
【0042】 比率NRGSn /NRGBn が閾値(代表的には5から20の範囲内)よりも
小さく、かつ、音声に加えて著しいバックグラウンドノイズをそのフレームが含
むことを示す現在のフレームに関してMmem の更新が行われていない場合には、
バックグラウンドノイズの効果を低減するために、値kM′mem (i)(kは定
数であり、代表的には0.9である)が、周波数スペクトルの各周波数iに関し
てM(i)から減算される。その差が負であるかゼロに近く、閾値よりも低く、
例えば0.0001である場合には、M(i)が前記閾値に設定される。
【0043】 その次に、ブロック406において、ピークを検出するために、結果として得
られた振幅M′(i)が解析される。これは、各々の振幅M′(i)(周波数範
囲の極値にある振幅は別として)をそのすぐ隣の振幅M′(i−1)、M′(i
+1)と比較することによって行われ、それが両方よりも大きい場合に、ピーク
であると宣言される。こうして検出された各々のピークに関して、その振幅がa
mppk(l)として記憶され、その周波数がfreqpk(l)として記憶され、
この場合にlがピークの番号である。
【0044】 それから、ブロック407において、周波数スペクトルの比較的平滑な包絡線
を生成するために、平滑化アルゴリズムが振幅M′(i)に適用される。この平
滑化アルゴリズムは2つの段階で行われる。第1の段階では、変数xがゼロで初
期化され、ゼロで開始しCut−1で終了するiの各々の値において振幅M′(
i)と比較される。xがM′(i)よりも小さい場合には、xがその値に設定さ
れる。そうでない場合には、M′(i)の値がxに設定され、xが、この例では
0.85である包絡線減衰係数を掛け算される。その次に、反対の方向に、すな
わち、Cut−1で開始しゼロで終了するiの各々の値において、同じ手順が再
び実行される。
【0045】 このプロセスの効果は、周波数スペクトルの平滑化された指数関数的に減衰す
る包絡線を表す、0≦i≦Cut−1で振幅a(i)のセットを生成することで
ある。特に、このプロセスは、より大きいピークに隣接して存在する比較的小さ
なピークを除去する上で効果的である。 ブロック406で行われるピーク検出プロセスが、小さなピークでさえもあら
ゆるピークを識別することが明らかである。前記アルゴリズムの後続の段階にお
ける処理量を低減するために、ピークの振幅amppkが同じ周波数における振幅
a(i)の係数c倍よりも小さい場合には、ブロック408によってピークが廃
棄される。この例では、cが0.5に設定されている。
【0046】 ブロック407で生成される振幅a(i)と、ブロック406と408で生成
される残りの振幅値amppkと周波数値freqpkとが、そのピッチ周期の第1
の推定値を評価するためにブロック409で使用される。 このために、関数Met1が、15から150の範囲内の各々の候補ピッチ周
期Pに関して評価される。複雑さを減少させるために、これが、値75までは0
.5のステップで、それ以降では1のステップで行われてよい。Met1は次式
を使用して評価される。
【0047】
【数14】
【0048】 ここでe(k,ω0 )=Max l(amppk(l)D(freqpk(l)−kω 0 )) ,ω0 =2Π/P,K(ω0 )が、カットオフ周波数より低い高調波の数で
あり、D(freqpk(l)−kω0 )= sinc(freqpk(l)−kω 0 )である。 実際には、この式は、ピッチ候補Pの高調波振幅a(kω0 )によって規定さ
れる櫛形フィルタの周波数応答と、最適ピーク振幅e(kω0 )との間の相互相
関関数と見なされることが可能である。関数D(freqpk(l)−kω0 )は
、周波数スペクトル中のl番目のピークと、ある特定の探索距離内のピッチ候補
Pのk番目の高調波周波数との間の周波数分離に関連した距離尺度である。e(
kω0 )が前記距離尺度とピーク振幅との両方に依存しているので、最適値e(
kω0 )が、高調波周波数kω0 とピークの周波数との間の最小分離に対応しな
い可能性がある。
【0049】 各ピッチ候補Pに関するMet1(ω0 )を評価し終わった後に、より小さな
ピッチ候補に有利になるようにその値に僅かにバイアスを加えるために、その得
られた値が重み係数b1=(1−0.1p/150)を掛け算される。 Met1(ω0 )の値が大きければ大きいほど、対応するピッチ候補が実際の
ピッチ値である可能性より高くなる。さらに、ピッチ候補が実際のピッチ値の2
倍である(すなわち、ピッチ倍増)である場合には、Met1(ω0 )の値は小
さいだろう。後述するように、このことは、処理の後続段階において、こうした
不要なピッチ候補の除去を生じさせる。
【0050】 最も有望なピッチ候補を識別するために、Met1(ω0 )のピーク値がブロ
ック410で検出される。これは、5つの連続したピッチ範囲、すなわち、15
から27.5、28から49.5、50から94.5、95から124.5、1
25から150のピッチ範囲の各範囲内の最大値と、被追跡ピッチtrP(後述
する)の範囲±5内の最大値とを検出するために、ブロック409で生成された
Met1(ω0 )の値を処理することによって行われる。これらの5つの連続す
るピッチ範囲が、各範囲内においてピッチを2倍または半分にすることを不可能
とするように、すなわち、ある1つの範囲内で検出されるピークが、同じ範囲内
の他のいずれかのピークのピッチの2倍または半分のピッチを有することが不可
能であるように、選択される。この手段によって、6つのピーク値Met1(1
)、Met1(2)、Met1(3)、Met1(4)、Met1(5)、Me
t1(6)が、それぞれのピッチ値P1 、P2 、P3 、P4 、P5 、P6 と共に
、さらに別の処理のために保持される。Met1(ω0 )を最大化するω0 の値
が、ピッチ値の妥当な推定を与えるけれども、エラーを生じやすい場合がある。
特に、実際のピッチ値の半分(すなわち、ピッチ半減)であるピッチ値を識別す
る場合もあるだろう。
【0051】 この問題を軽減するために、ピッチの第2の推定値が、第1の推定値から導き
出される前記の6つの候補ピッチ値P1 、P2 、P3 、P4 、P5 、P6 の各々
に関してブロック411で推定される。 第2の推定値は、単一のピッチ周期P全体にわたっての入力サンプルの絶対値
|d(i)|の様々な合計を形成することによって、時間領域解析手法を使用し
て評価される。このために、次の合計が、N−80とN+79との間の各々のk
の値に関して形成される。
【0052】
【数15】
【0053】 ここでNは、現在のフレームの中央におけるサンプル番号である。従って、各々
の候補ピッチ値P1 、P2 、P3 、P4 、P5 、P6 に関して、160個の合計
の各々のセットが生成され、このセットの各々の合計が前記フレーム内の異った
位置で開始する。 ピッチ候補が実際ピッチ値に近い場合には、対応するセットの合計の間のばら
つきは僅かしか無いか全く無いはずである。しかし、候補ピッチと実際ピッチと
が著しく異っている(例えば、候補ピッチ値が実際ピッチ値の半分である)場合
には、セットの合計の間に大きなばらつきがあるだろう。こうしたばらつきを検
出するために、各セットの合計がハイパスフィルタに通され、その結果得られる
ハイパスフィルタでフィルタリングされた値の2乗の合計が、第2の推定値Me
t2を評価するために使用される。音声が極めて周期的である場合には、小さな
オフセット値がピッチ多重誤りを低減させるために使用される。それぞれの第2
の推定値Met2(1)、Met2(2)、Met2(3)、Met2(4)、
Met2(5)、Met2(6)が、第1の推定値を使用して選択される候補ピ
ッチ値P1 、P2 、P3 、P4 、P5 、P6 の各々に関して評価される。明らか
に、Met2の値が小さければ小さいほど、対応する候補ピッチ値が実際ピッチ
値である可能性がより高くなる。ピッチ半減の場合には、Met2の値が大きく
、このことが、この不要なピッチ候補の除去を容易にする。
【0054】 随意に、ブロック412において、第1と第2の推定値Met1、Met2の
信頼性をさらに向上させるために、現在のフレームに関する入力サンプルが自己
相関させられてもよい。2つの最高値(V1 、V2 )を見出すために正規化自己
相関が調べられ、これらの値の連続的な発生の間における対応する遅れL1 、L 2 (サンプルの個数として表される)も求められる。V1とV2との間の比率が
プリセット閾値(代表的には約1.1)を上回る場合には、値L1 2 が適正な
ピッチ値に近いという信頼度が高い。そうである場合には、ピッチ値の最終推定
におけるこれらの値の選択の可能性を高めるために、L1 またはL2 に近くなる
候補ピッチ値に関するMet1とMet2の値に、それぞれ重み係数b2とb3
が掛け算される。
【0055】 ブロック413において、被追跡ピッチ値trPに従って、Met1およびM
et2の値がさらに重み付けされる。現在のフレームが音声を含む場合、すなわ
ち、E0 >1.5EBG n である場合には、trPの値が、直前のフレームに関し
て推定されたピッチ値を使用して更新され、音声エネルギーの値が高ければ高い
ほど、この更新の程度がより大きくなる。この比率は次のように、各候補ピッチ
値P1 、P2 、P3 、P4 、P5 、P6 に関して推定される。
【0056】
【数16】
【0057】 この例では、γが0.5未満である場合に、すなわち、候補ピッチ値が、より
早期のフレームのピッチ値から推定される被追跡ピッチ値に近い場合に、Met
1とMet2の各々の値に、さらに別の重み係数b4 、b5 が掛け算される。b 4 、b5 の値は、フレーム中のバックグラウンドノイズのレベルに依存している
。これが比較的高いことが決定される場合、例えば、NRGS/NRGB<10
である場合には、b4 が1.25に設定され、かつ、b5 が0.85に設定され
る。しかし、γ<0.3(すなわち、候補ピッチ値が被追跡値になお一層近い)
場合には、b4 が1.56に設定され、b5 が0.72に設定される。有意なバ
ックグラウンドノイズが存在しないと決定される場合、例えばNRGS/NRG
B>10である場合には、バイアスの度合いが減少させられ、γ<0.5の場合
には、b4 が1.1に設定され、かつ、b5 が0.9に設定され、さらに、γ<
0.3の場合には、b4 が1.21に設定され、かつ、b5 が0.8に設定され
る。
【0058】 その次に、Met2の重み付けされた値が、明らかに見込みのない候補ピッチ
値を全て廃棄するために使用される。このために、ブロック414において、最
小値を検出するために、Met2の重み付けされた値が解析され、他の任意の値
が、この最小値をプリセット係数(例えば、2.0)プラス定数(例えば、0.
1)よりも大きな値だけ上回る場合には、この値が、対応するMet1(ω0
とPの値と共に廃棄される。
【0059】 前述したように、ピッチ候補が適正な値に近い場合には、Met1が非常に大
きく、かつ、Met2が非常に小さいだろう。従って、Met1とMet2とか
ら得られる比率が、ピッチ候補の正確さまたは不正確さの非常に感度の高い尺度
を与えることになる。 従って、ブロック415では、比率R=Met′1/Met′20.25が、ここ
でMet′1とMet′2はMet1とMet2の重み付けされた値であるが、
残りのピッチ候補の各々に関して評価され、最大比率Rに対応する候補ピッチが
、現在のフレームに関する推定ピッチ値P0 として選択される。その次に、推定
ピッチ値P0 が実際ピッチ値の約数でないことを確認するために、検査が行われ
る。このために、比率Sm =P0 /Pn が残りの候補ピッチ値Pn の各々に関し
て計算され、この比率が1より大きい整数に近い(例えば、その整数の0.3以
内)場合に、ブロック416において、P0 がそのフレームに関する推定ピッチ
として確認される。
【0060】 図4を参照して詳細に説明するピッチアルゴリズムは極めてロバスト(rob
ust)であり、ピッチ倍増およびピッチ半減を除去するための周波数領域法お
よび時間領域法の両方の組み合わせを含む。 ピッチ値P0 が、候補値がその中に含まれる範囲に応じてサンプル0.5個分
またはサンプル1個分の範囲内の精度で推定されるが、この精度は、符号器の後
続段階で実行される必要がある処理にとって不十分である可能性があり、従って
、より高い精度が必要とされる。従って、ピッチリファインメントブロック19
において、精度の上げられたピッチ値が推定される。
【0061】 これを容易にするために、DFTブロック20において、この場合にも512
ポイント高速フーリエ変換アルゴリズムを使用して、第2の離散フーリエ変換が
行われる。前述したように、サンプルが221ポイントカイザー窓18を介して
DFTブロック17に供給された。この窓は、この時点で必要とされている処理
方法にとっては広すぎるので、より狭い窓が必要とされる。しかし、この窓は依
然として少なくとも3つのピッチ周期分の幅であるべきである。従って、入力サ
ンプルが、ピッチ検出器16内で検出されるピッチ値P0 の影響されやすい可変
長の窓21を介してDFTブロック20に供給される。この事例では、範囲P0 ≧70、70>P0 ≧55、および、55>P0 の各々に対応する、3つの異っ
た窓サイズ221、181、161がそれぞれ使用される。この場合も同様に、
これらの窓が、現在のフレームの中央に置かれたカイザー窓である。
【0062】 ピッチリファインメントブロック19が、推定ピッチ値P0 のいずれか片方の
側に分布した端数値を含む候補ピッチ値の新たなセットを生成する。この実施例
では、合計50個のこうした候補ピッチ値(P0 を含む)が使用される。その次
に、Met1の新たな値が、これらの候補ピッチ値の各々に関して計算され、M
et1の最大値を与える候補ピッチ値が、全ての後続の処理がそれに基づくこと
になる精度の上げられたピッチ値Pref として選択される。
【0063】 ピッチリファインメントブロック19では、図4を参照して前述したプロセス
と実質的に同じであるが幾つかの重要な変更を伴っているプロセスを使用して、
Met1の新たな値が計算される。最初に、振幅M(i)が、周波数スペクトル
の低周波数範囲に関してだけではなく、DFTブロック20によって生成された
周波数スペクトル全体に関して計算される(すなわち、Cut−1までのiの値
)。第2に、前記の式1で表される合計が、2つの部分、すなわち、1.5kH
z(i=90に対応する)までのkω0 の値に関しては第1の部分(低周波数部
分)において行われ、残りのkω0 の値に関しては第2の部分(高周波数部分)
において行われ、これらの合計の2つの部分がそれぞれ異った係数0.25およ
び1.0によって重み付けされる。
【0064】 前述のように、推定ピッチ値P0 は低周波数範囲の解析だけに基づいており、
従って、この推定値の不正確さは、この解析から除かれたより高い周波数の効果
に大きく依存している。この省略を修正するために、ブロック19で行われる解
析に高い周波数が含まれ、これらの周波数の効果が、合計の個々の部分に適用さ
れる重み係数の相対的大きさによって増強される。さらに、ブロック404で振
幅値M(i)にもともと適用され、かつ、より低い周波数を増強するという(こ
の時点では不要の)効果を持ったバイアスが、解析から除かれ、従って、値Mma s (もともとブロック402で評価される)も必要ではない。
【0065】 ブロック19で生成された、精度の上げられたピッチ値Pref が、ベクトル量
子化器22に送られ、このベクトル量子化器では、ピッチ量子化インデックス
を生成するために、そのピッチ値が量子化される。 この実施例では、ピッチ量子化インデックスが、7ビットで規定され(12
8個のレベルに相当する)、ベクトル量子化器22は、ピッチ値が大きければ大
きいほど人間の耳がピッチの不正確さに対して感度が低いという事実を考慮に入
れた指数関数的量子化器である。量子化されたピッチレベルLp (i)は、次の
ように規定される。
【0066】
【数17】
【0067】 8kHzのサンプリングレートでは、約80までの高調波周波数が、DFTブ
ロック20の4kHz帯域内に含まれてよいということが理解されるだろう。当
然のことながら、これらの高調波の全てを個々に符号化するためには、非常に多
数のビットが必要とされるだろうが、このことは、比較的低いビットレートが必
要とされる音声符号器では実際的ではない。より経済的な符号化モデルが必要と
される。
【0068】 図5を参照して次で説明するように、実際周波数スペクトルを2つの部分に分
割する、すなわち、音声の周期的成分である有声音発声カットオフ周波数Fc
り低い有声部分と、音声のランダム成分である無声成分とに実際周波数スペクト
ルを分割する、有声音発声カットオフ周波数Fc を設定するために、DFTブロ
ック20から得られる実際周波数スペクトルが、有声音発声ブロック23で解析
される。
【0069】 前記スペクトルの有声部分と無声部分とがこうして分離された後に、これらの
部分が、個々の高調波帯域の有声/無声状態に関する情報を生成し伝送する必要
なしに、復号器内で個別に処理されることが可能である。 各々の高調波帯域が、2Π/Pref によって与えられる基本周波数ω0 のk倍
を中心としている。
【0070】 最初に、各々の高調波帯域の形状が、選択された可変長窓21のフーリエ変換
によって与えられる帯域(有声であると仮定される)に関する理想高調波形状と
相関がとられる。これは、各高調波帯域に関する相関関数S1 を生成することに
よって行われる。k番目の高調波帯域に関しては次のようになる。
【0071】
【数18】
【0072】 ここでM(a)は、FFTの位置aにおけるスぺクトルの複素数値であり、 akとbkはその帯域に関する合計の限界値であり、 W(m)は、選択された窓から得られる、その帯域に関する理想的な高調波形状
の対応する振幅であり、mが、実際高調波帯域内の位置aに対応する、理想高調
波形状における位置を規定する整数であり、このmが次式によって与えられる。
【0073】
【数19】
【0074】 ここで、SFはFFTのサイズであり、Sbtは、アップサンプリング比(up
−sampling ratio)、すなわち、前記窓内のポイント数のFFT
中のポイントの数に対する比率である。 S1 に加えて、2つの正規化関数S2 、S3 が生成され、これらは次の通りで
ある。
【0075】
【数20】
【0076】 および
【0077】
【数21】
【0078】 その次に、次式によって与えられる正規化された相関関数V(k)を生成する
ために、これらの3つの関数S1(k)、S2(k)、S3(k)が組み合わさ
れる。
【0079】
【数22】
【0080】 ここで、kは高調波帯域の数である。V(k)を1+{3(k−10)/40}
の累乗に増大させることによって、V(k)がさらにバイアスされる。 実際の高調波形状と理想高調波形状との間に正確な相関がある場合には、V(
k)の値は1であるだろう。図5は、高調波帯域の合計数Kが25(すなわち、
k=1から25)である周波数スペクトルの場合の、代表的な正規化相関関数V
(k)の形状を示す。この図に示されているように、前記スペクトルの低周波数
端における高調波帯域が1に比較的近く、従って、有声である可能性が高い。
【0081】 Fc の値を設定するために、関数V(k)が、kの各々の値において、対応す
る閾値関数THRES(k)と比較される。代表的な閾値関数THRES(k)
の形状も図5に示されている。 THRES(k)を計算するために、次の各値が使用される。 E−lf、E−hf、tr−E−lf、tr−E−hf、ZC、L1 、L2 、P
KY1、PKY2、T1 、T2 。これらの値が次のように規定される。
【0082】
【数23】
【0083】
【数24】
【0084】 (E0 n <2EBG n )であり、かつ、フレームカウンタが20未満である場合に
は、
【0085】
【数25】
【0086】 そうでなければ、(E0 n <1.5EBG n )である場合には、
【0087】
【数26】
【0088】 また、
【0089】
【数27】
【0090】 および、
【0091】
【数28】
【0092】 ZCがゼロに設定され、−N/2とN/2との間の各々のiに関して、
【0093】
【数29】
【0094】 ここでipは、現在のフレームに関するスペクトルを得るために使用される窓の
中心に位置する入力サンプルにip[0]が対応するように、参照される入力音
声である。
【0095】
【数30】
【0096】 ここで、残差(i)は、LPC逆フィルタ28の出力で生成され、かつ、ip(
0)に残差(0)が一致するように参照されるLPC残差信号である。
【0097】
【数31】
【0098】 および、
【0099】
【数32】
【0100】 ここで、L1′、L2′がL1、L2の場合と同様にそれぞれ計算されるが、対
応する形で減少させられた個数の項の全体にわたって平均化された最大残差値の
両側で予め決められた個数の値を除く。PKY1とPKY2の両方とも、残差音
声の「ピーク性(peakiness)」の表示であるが、PKY2の方が、例
外的に大きいピークに対する感度が低い。
【0101】
【数33】
【0102】
【数34】
【0103】 (NRGS<30xNRGB)、すなわち、ノイズの多いバックグラウンド条
件が優勢である場合と、(E−lf>tr−E−lf)かつ(E−hf>tr−
E−hf)である場合には、低−高周波数エネルギー比率(LH−Ratio)
が次式によって与えられる。
【0104】
【数35】
【0105】 (E−lf<tr−E−lf)である場合には、
【0106】
【数36】
【0107】 および、E−hf<tr−E−hfである場合には、
【0108】
【数37】
【0109】 そして、LH−Ratioは0.02と1.0の間に保持される。 こうしたノイズの多いバックグラウンド条件下では、2つの異った状況が存在
する。すなわち、直前のフレーム内の閾値THRES(k)がそのフレームのカ
ットオフ周波数Fc よりも下方に位置する事例1と、直前のフレーム内の閾値T
HRES(k)がそのフレームのカットオフ周波数Fc よりも上方に位置する事
例2とが存在する。
【0110】 (LH−Ratio<0.2)の場合には、事例1に対して、
【0111】
【数38】
【0112】 またこれらの値は次に以下のように修正される。 THRES(k)=1.0-(1.0-THRES(k))(LH-Ratio×5)1/2 (LH−Ratio>0.2)の場合には、事例1に対して、
【0113】
【数39】
【0114】 また(LH−Ratio≧1.0)の場合には、以下のように修正される。 THRES(k)=1-(1-THRES(k))1/2 エネルギー比率を次のように規定する。
【0115】
【数40】
【0116】 ここで、E0は全周波数スペクトルのエネルギーであり、次式で与えられる。
【0117】
【数41】
【0118】 そして、Emaxは、最近のフレームで遭遇する最大エネルギーの推定値であり
(この場合に、ER<0.1ならば、ERが0.1に設定される)、 (ER<0.4)ならば、前記閾値はさらに次のように変更される。
【0119】
【数42】
【0120】 また、(ER>0.6)ならば、前記閾値がさらに次のように変更される。
【0121】
【数43】
【0122】 さらに、(THRES(k)>0.85)ならば、これらの変更された値が、
次のようにさらに別の変更を受ける。
【0123】
【数44】
【0124】 最後に、(3/4)K≦k≦Kならば、THRES(k)の値が次のようにさ
らに変更される。
【0125】
【数45】
【0126】 ノイズの少ないバックグラウンド条件では(すなわち、NRGS≧30.0N
RGB)、事例1に関して
【0127】
【数46】
【0128】 であり、および、事例2に関して、
【0129】
【数47】
【0130】 である。 その次に、これらの値が次の条件に従って連続的な変更を受ける。
【0131】
【数48】
【0132】 入力音声がローパスフィルタでフィルタリングされ、その次に、正規化相互相
関が、整数遅れ値Pref −3からPref +3に関して計算され、かつ、相互相関
の最大値CMが求められる。 ノイズの多いバックグラウンド条件と、ノイズの少ないバックグラウンド条件
とに関して前記で得られたTHRES(k)の値が、次の条件の階層において、
満たされるべき第1の条件に従ってさらに変更される。
【0133】
【数49】
【0134】 最後に、(E−OR>0.7)かつ(ER<0.11)であるならば、または
、(ZC>90)であるならば、
【0135】
【数50】
【0136】 である。 その次に、合計Sv が次のように形成される。
【0137】
【数51】
【0138】 ここで、V(k)>THRES(k)であればB(k)=5S3 であり、そうで
ない場合にはB(k)=S3 であり、tvoice (k)は値「1」または値「0」
のどちらかをとる。 実際には、Fc よりも下方のkの値全てにおいてtvoice (k)が「1」であ
りかつFc よりも上方のkの値全てにおいてtvoice (k)が「0」であるよう
に、値tvoice (k)がトライアル(trial)有声音発声カットオフ周波数
c を規定する。図5は、第1のトライアルカットオフ周波数F1 c を規定する
第1のセットの値t1 voice (k)と、第2のトライアルカットオフ周波数F2 c を規定する第2のセットの値t2 voice (k)を示す。この実施例では、異っ
たトライアルカットオフ周波数F1 c 、F2 c 、・・・F8 c を各々が規定する
8個の異った値セットt1 voice (k)、t2 voice (k)、・・・t8 voice (k)の各々に関して、合計Sv が形成される。最大の合計Sv を与える値セッ
トが、フレームに関する有声音発声カットオフ周波数を決定するだろう。
【0139】 前記合計における関数(2tvoice (k)−1)の効果が、tvoice (k)が
値「0」を有する時は何時でも、すなわち、前記カットオフ周波数よりも上方の
kの値において、差値(V(k)− THRES(k))の符号を逆にすること
であるということが理解されるだろう。図5に示されている例では、関数(2t voice (k)−1)の効果は、有声音発声カットオフ周波数Fc が、相関関数V
(k)の窪みDを下回っている値F1 c に設定されるべきか、それとも、この窪
みを上回るより高い値F2 c に設定されるべきかを決定することである。図5に
Nで示されているkの範囲内では、値V(k)が値THRES(k)よりも小さ
く、従って、合計Sv における差値(V(k)−THRES(k))は負である
。第1の値セットt1 voice (k)が使用されるならば、これらの値の効果は、
範囲N内の(V(k)−THRES(k))の符号を逆にし、その結果として、
総合計に対する正の寄与をもたらすことである。
【0140】 これとは対照的に、第2の値セットt2 voice (k)が使用されるならば、こ
れらの効果は、範囲N内の(V(k)−THRES(k))の符号を不変のまま
維持し、その結果として、総合計に対する負の寄与をもたらすことである。図5
にPで示されているkの範囲内では、これとは反対のことが当てはまるだろう。
すなわち、第1の値セットt1 voice (k)が、その範囲に関する合計に対して
負の寄与を結果的にもたらし、一方、第2の値セットt2 voice (k)が前記合
計に対する正の寄与を結果的にもたらすだろう。しかし、図5の網かけ領域の各
々の相対的な面積から明らかであるように、範囲N内の差値(V(k)−THR
ES(k))の効果は範囲P内の場合よりも著しく大きく、従って、この例では
、第1の値セットt1 voice (k)が最大の合計Sv を与えるだろうし、そのフ
レームに関する有声音発声カットオフ周波数(F1 c )を決定するために使用さ
れるだろう。
【0141】 前記8個の使用可能な値の中から値Fc を選択し終わると、その次に、対応す
るインデックス(1から8)が、有声音発声量子化器24を経由して符号器の第
3の出力O3 に送られる有声音発声量子化インデックスを与える。この量子化
インデックスが、前記8つの使用可能な周波数レベルに対応する3つのビット
によって規定される。
【0142】 現在のフレームに関するピッチ値Pref と有声音発声カットオフ周波数Fc
値を確立した後に、各高調波帯域のスペクトル振幅が振幅決定ブロック25で評
価される。このスペクトル振幅が、LPC逆フィルタ28の出力で生成される窓
関数を適用されたLPC残差信号に対してブロック27おいて(高速フーリエ変
換として実現される)離散フーリエ変換を行うことによって生成された周波数ス
ペクトルから得られる。元の入力音声信号と、LSF逆量子化器29でLSF量
子化インデックスを逆量子化し、またLSF−LPC変換器30でその逆量子化
されたLSF値を変換することによって生成された再生LPC係数セットとが、
フィルタ28に供給される。
【0143】 ある1つの高調波帯域(例えば、k番目の帯域)が前記周波数スペクトルの無
声部分内にある場合、すなわち、有声音発声カットオフ周波数Fc より上方にあ
る場合には、その帯域のスペクトル振幅amp(k)がその帯域内のRMSエネ
ルギーによって与えられ、これが次式によって表される。
【0144】
【数52】
【0145】 ここで、Mr (a)は、前記FFTの実数部と虚数部とから前述のように計算さ
れるLPC残差信号から得られる周波数スペクトル内の位置aにおける複素数値
であり、ak とbk はk番目の帯域に関する合計の限界値であり、βは前記窓関
数である正規化係数である。 一方、高調波帯域が周波数スペクトルの有声部分内にある場合には、すなわち
、有声音発声カットオフ周波数Fc より下方にある場合には、k番目の帯域に関
するスペクトル振幅amp(k)が、次式によって与えられる。
【0146】
【数53】
【0147】 ここで、W(m)は前記の式2と3を参照して規定された通りである。 こうして得られたスペクトル振幅が、平均1を有するように正規化される。 その次に、正規化されたスペクトル振幅が振幅量子化器26で量子化される。
これが、使用可能なビットの個数に応じて様々な異った量子化方式を使用して行
われてもよいということが理解されるだろう。この特定の実施例では、ベクトル
量子化プロセスが使用され、フレームに関するLPC周波数スペクトルP(ω)
が参照される。LPC周波数スペクトルP(ω)がLPCフィルタ12の周波数
応答を表し、次の形を有している。
【0148】
【数54】
【0149】 ここで、LPC(1)はLPC係数である。この実施例では、10個のLPC係
数が存在し、すなわち、L=10である。 LPC周波数スペクトルP(ω)が図6aに示されており、その対応するスペ
クトル振幅amp(k)が図6bに示されている。この例では、10個の高調波
帯域(k=1から10)だけが示されている。
【0150】 最大の振幅を含む4つの高調波帯域を見つけるために、LPC周波数スペクト
ルが調べられ、この例では、これらは、k=1、2、3及び5である高調波帯域
である。図6cに示されているように、対応するスペクトル振幅amp(1)、
amp(2)、amp(3)、amp(5)が、8つの要素ベクトルの最初の4
つの要素V(1)、V(2)、V(3)、V(4)を形成し、前記ベクトルの最
後の4つの要素(V(5)からV(8))が、適切な平均化によって6つの残り
のスペクトル振幅amp(4)とamp(6)からamp(10)までで形成さ
れる。このために、要素V(5)がamp(4)により形成され、要素V(6)
がamp(6)とamp(7)との平均により形成され、要素V(7)がamp
(8)により形成され、要素V(8)がamp(9)とamp(10)との平均
により形成される。
【0151】 このベクトル量子化プロセスが、コードブック内の項目を参照して実行され、
アセンブル(assemble)されたベクトル(LPCスペクトル形状によっ
て重み付けられた平均二乗誤差尺度を使用して)に最も良く一致する項目が、フ
レームに関する振幅量子化インデックスの第1の部分S1として選択される。 これに加えて、振幅量子化インデックスの第2の部分S2が、フレームの元
の音声入力のRSMエネルギーRm として計算される。
【0152】 振幅量子化インデックスの第1の部分S1は周波数スペクトルの「形状」を表
し、一方、振幅量子化インデックスの第2の部分S2は、音声信号の音量に関す
る換算係数を表す。この実施例では、前記インデックスの第1の部分S1が、6
ビットから成り(異ったスペクトル「形状」を各々が表す64個の項目を含むコ
ードブックに相当する)、前記インデックスの第2の部分S2が5ビットから成
る。符号器の第4の出力O4 に転送される11ビット振幅量子化インデックス
を形成するために、2つの部分S1S2が結合される。
【0153】 使用可能なビット数に応じて、スペクトル振幅を量子化するために様々な異っ
た方式が使用されることが可能である。例えば、量子化コードブックが、より多
い数の項目、または、より少ない数の項目を含むことが可能であり、各々の項目
が、より多い数またはより少ない数の振幅値から成るベクトルを含んでもよい。 後述するように、復号器が、復号器のLPC合成フィルタに供給される駆動信
号を生成するように残差信号を合成するために、インデックスおよび
動作する。
【0154】 要約して述べると、符号器は、入力音声信号の各フレームに関して量子化イン
デックスLPCS1およびS2のセットを生成する。 符号器ビットレートは、量子化インデックスを規定するために使用されるビッ
トの個数と、量子化インデックスの更新レートとに依存する。 前記の例では、各々の量子化インデックスに関する更新周期が20ms(フレ
ーム更新周期と同じ)であり、かつ、ビットレートが2.4kb/sである。こ
の例における各々の量子化インデックスに使用されるビット数が、次の表1に示
される。
【0155】
【表1】
【0156】 表1はまた、別の5つの例の各々における量子化インデックスの中のビット分
布を要約し、これらの例では、音声符号器はそれぞれ1.2kb/s、3.9k
b/s、4.0kb/s、5.2kb/sおよび6.8kb/sで動作する。 これらの例の幾つかでは、量子化インデックスの一部または全てが、10ms
間隔で、すなわち、フレーム当り2回、更新される。こうした場合に、フレーム
の第1の10ms更新周期中に得られるピッチ量子化インデックスが、第2の
10ms更新周期中に得られるピッチ量子化インデックスよりも多い数のビッ
トによって規定されてもよいということに注意のこと。これは、第1の更新周期
中に得られるピッチ値が、第2の更新周期中に得られるピッチ値のための基準と
して使用され、従って、後者のピッチ値がより少ないビットを使用して規定され
ることが可能だからである。
【0157】 1.2kb/sのビットレートの場合には、フレーム長は40msである。こ
の場合には、ピッチおよび有声量子化インデックスは、各フレームの半分
に関して決定され、各フレームの別の半分に関するインデックスが、隣接する半
フレームのそれぞれのパラメータから補間によって得られる。 現在の40msフレームの前半部分と後半部分とに関するLSF係数(LSF
2、LSF3)が、互いに基づいて、かつ、直前のフレームの後半部分に関する
LSF係数(LSF1)とこれに対応するLSF量子化ベクトルに基づいて、量
子化される。
【0158】 各々の半フレームに関する目標量子化LSF係数(LSF′1、LSF′2、
LSF′3)が、その半フレームに関する個別の予測値(P1、P2、P3)と
ベクトル量子化コードブックに含まれる個々のLSF量子化ベクトル(Q1、Q
2、Q3)との合計によって次のように与えられる。
【0159】
【数55】
【0160】 予測値P2、P3の各々が、次のように、直前の半フレームに関する個々のL
SF量子化ベクトルQ1、Q2から得られる。
【0161】
【数56】
【0162】 ここで、λは、代表的には0.5から0.7の範囲内の定数予測係数である。 ビットレートを低減させるためには、目標量子化LSF係数LSF′2を(現
在のフレームの前半部分に関する)、隣接する半フレームに関する目標量子化L
SF係数(LSF′1、LSF′3)によって規定することが有益である。従っ
て、
【0163】
【数57】
【0164】 ここで、αは、4ビットのインデックスで表された16項目コードブックの10
個の要素のベクトルである。 前記式の置換によって、次のように示されることが可能である。
【0165】
【数58】
【0166】 前記の式4と式5における変数はベクトルαとQ3だけであり、これらベクト
ルが、現在のフレームにおける実際LSF係数と量子化LSF係数との間の歪み
の尺度を表す次式によって与えられるエラー関数ε(知覚的に重み付けられても
よい)を、最小化するように変化させられる。
【0167】
【数59】
【0168】 個々のコードブックが、最小のエラー関数εを与えるベクトルαとQ3との組
合せを見つけるために探索され、コードブック内の選択された項目が、現在のフ
レームに関する28ビットLSF量子化インデックスの4ビット成分と24ビッ
ト成分をそれぞれ規定する。2.4kb/s符号器に関して前述したと同様の方
法で、ベクトル量子化コードブックに含まれるLSF量子化ベクトルが、第1の
3つのLSF係数と、第2の3つのLSF係数と、最後の4つのLSF係数とに
対応する、1から256の番号が付けられた28個の項目を各々に含む3つのグ
ループから成る。各グループの選択された項目が、8ビット量子化インデックス
を規定し、3つのグループに関して合計24ビットを与える。
【0169】 図3から図6に関して説明した音声コーダは、単一ビットレートで動作してよ
い。代りに、音声コーダが、2つ以上の異ったビットレートの中のどれか1つの
ビットレートで選択的に動作可能である適応マルチレート(AMR)コーダであ
ってもよい。この特定の具体例では、AMRコーダは、前記ビットレートの中の
どれか1つのビットレートで選択的に動作することが可能であリ、この場合にも
、同様に、各レートに関する量子化インデックス中のビット分布が表1に要約さ
れている。
【0170】 音声コーダの出力O1 、O2 、O3 およびO4 で生成される量子化インデック
スが、図7に示されているように、通信チャネルを通して復号器に送られる。復
号器では、量子化インデックスが再生され、逆量子化器ブロック30、31、3
2および33の入力I1 、I2 、I3 およびI4 にそれぞれ供給される。 逆量子化器ブロック30が、フレームに関する逆量子化されたLSF係数セッ
トを出力し、これらは、LPC合成フィルタ34に供給される対応するLPC係
数セットを再生するために使用される。
【0171】 逆量子化器ブロック31、32および33が、RMSエネルギーRm と共に、
逆量子化されたピッチ値(Pref )と、有声音発声カットオフ周波数(Fc )と
、スペクトル振幅(amp(k))とをそれぞれ出力し、これらの値は、LPC
合成フィルタ34のための駆動信号Ex を生成するために使用される。このため
に、値Pref 、Fc 、amp(k)およびRm が、駆動信号の有声部分(すなわ
ち、Fc より低い周波数を含む部分)を合成する第1の駆動発生器35と、駆動
信号の無声部分(すなわち、Fc より高い周波数を含む部分)を合成する第2の
駆動発生器36とに供給される。
【0172】 第1の駆動発生器35は、各高調波帯域の周波数において、すなわち、有声音
発声カットオフ周波数Fc までの基本ピッチ周波数ω0 =(2Π/Pref )の整
数倍において、それぞれの正弦波を生成する。このために、第1の駆動発生器3
5が、Ak cos(kθ)の形の正弦波セットを生成し、ここでkは整数である
【0173】 逆量子化されたピッチ値(Pref)を使用して、合成フレーム内の各ピッチ
サイクルの始点と終点とが求められ、各ピッチサイクルに関して、補間によって
新たなパラメータセットが得られる。 任意のサンプルiにおける位相θ(i)が次式によって与えられる。
【0174】
【数60】
【0175】 ここで、ωlastは、直前のフレームに関して決定された基本ピッチ周波数であり
、x=k/Fであり、この場合にFはフレーム中のサンプルの合計数であり、k
は現在のフレーム内で合成された現在のピッチサイクルの真中のサンプル位置で
ある。 前記の式の項ωlast(1−x)+ω0 ・xが、フレーム境界での円滑な位相変
移を確保するために、各ピッチサイクル毎に、漸進的な位相変移を生じさせる。
各正弦波の振幅Ak が、現在のフレームに関する積amp(k)・Rm に関係付
けられている。しかし、各ピッチサイクル毎に行われる現在のフレームの振幅と
直前のフレームの振幅との間の補間は、次のように適用されてもよい。
【0176】 (i)高調波周波数帯域が現在のフレーム内の周波数スペクトルの無声部分内
にあるが、直前のフレーム内の周波数スペクトルの有声部分内にある場合には、
音声信号が次第に減衰していると仮定される。この場合には、正弦波が、現在の
フレームに関して駆動発生器35によって依然として生成されるが、より以前の
フレームの振幅を使用して、現在のフレームの長さ全体にわたって適切な傾斜係
数(各ピッチサイクルの全体にわたって一定不変に保たれることが好ましい)に
よって縮小される。
【0177】 (ii)高調波周波数帯域が現在のフレーム内の周波数スペクトルの有声部分
内にあるが、直前のフレーム内の周波数スペクトルの無声部分内にある場合には
、音声信号の立上がりがあると仮定される。この場合には、現在のフレームの振
幅が使用されるが、現在のフレームの長さ全体にわたって適切な傾斜係数(同様
に各ピッチサイクルの全体にわたって一定不変に保たれることが好ましい)によ
って拡大される。
【0178】 (iii)高調波周波数帯域が現在のフレームと直前のフレームの両方の周波
数スペクトルの有声部分内にある場合には、通常の音声であると仮定される。こ
の場合には、現在のフレームの長さ全体にわたって現在の振幅値と以前の振幅値
との間で振幅が補間される。 代りに、有声部分の合成が逆DFT法によって実現されることが可能であり、
この場合に、DFTサイズは補間されたピッチ長さに等しい。各ピッチサイクル
において、DFTへの入力は、補間されたカットオフ周波数Fc のポイントまで
は、復号化され補間されたスペクトル振幅から成り、その後ではゼロである。
【0179】 駆動信号の無声部分を合成するために使用される第2の駆動発生器36は、白
色雑音シーケンスを生成する不規則雑音発生器を含む。「オーバラップおよび加
算」手法が、現在の補間されたピッチサイクルに対応する一連のPref サンプル
をこのシーケンスから抽出するために使用される。これは、256サンプルの全
幅を有しかつ160サンプルステップでフレーム毎に白色雑音シーケンスに沿っ
てスライドする台形窓を使用して行われる。窓関数処理されたサンプルが256
ポイント高速フーリエ変換を受け、その結果として得られた周波数スペクトルが
逆量子化されたスペクトル振幅によって整形される。Fc よりも高い周波数範囲
内では、周波数スペクトル中の各々の高調波帯域kが、帯域に関する逆量子化さ
れたおよび基準化されたスペクトル振幅Rm amp(k)によって整形され、F c よりも低い周波数範囲内(スペクトルの有声部分に相当する)では、各高調波
帯域の振幅がゼロに設定される。その次に、無声駆動信号を時間領域内で生成す
るために、逆フーリエ変換が整形された周波数スペクトルに適用される。その次
に、現在のピッチサイクルに対応するサンプルが、無声駆動信号を形成するため
に使用される。「オーバラップおよび加算」手法の使用が、復号化音声信号の滑
らかさを強化する。
【0180】 第1の駆動発生器35によって生成される有声駆動信号と、第2の駆動発生器
36によって生成される無声駆動信号とが、加算器37内で互いに加算され、そ
の結合駆動信号ExがLPC合成フィルタ34に出力される。LPC合成フィル
タ34が、復号化されたLSF係数から得られた補間されたLPC係数を受け取
って、さらに、前記結合駆動信号をフィルタリングして出力音声信号S0 (t)
を合成するために、その補間されたLPC係数を使用する。
【0181】 滑らかな出力音声信号S0 (t)を生成するために、LPC係数の変化は全て
漸進的であるべきであり、従って、補間が望ましい。直接的にLPC係数間で補
間を行うことは不可能であるが、LSF係数間で補間を行うことは可能である。 連続したフレームが音声で完全に埋められており、従って、フレーム内のRM
Sエネルギーが実質的に同一である場合には、フレームに関する2つのLSF係
数セットがあまり異ってはおらず、従って、線形補間がこれらのセットの間に適
用されることが可能である。しかし、フレームが音声と沈黙とを含む場合には、
問題が生じるだろう。すなわち、そのフレームが音声の立上がりと音声の減衰と
を含む。この状況では、現在のフレームに関するLSF係数と直前のフレームに
関するLSF係数は著しく異っており、従って線形補間が、真の音声パターンを
歪ませてノイズを生じさせる傾向があるだろう。
【0182】 音声の立上がりの場合には、現在のフレーム内のRMSエネルギーEc が、直
前のフレーム内のRMSエネルギーEp よりも大きく、一方、音声の減衰の場合
には、これとは逆の状態である。 この問題を軽減するために、エネルギー依存性補間が適用される。図8は、0
.125(音声の立上がり)から8.0(音声の減衰)までを範囲とする様々な
比率Ep /Ec の場合の、フレーム全体にわたる補間係数の変化を示している。
エネルギー依存性補間係数の効果は、バックグラウンドノイズに対してより適切
なフィルタにフレームの有声部分が通過させられないように、より重要なLSF
係数セットに向かってバイアスすることであるということが、図8から理解でき
る。
【0183】 補間手順が、LSF補間器38内でLSF係数に対して適用され、こうして得
られた補間された値がLSF−LPC変換器39に送られ、ここで対応するLP
C係数が生成される。 従来においては、音声品質を向上させるために、LPC周波数スペクトルの谷
間におけるノイズの効果を減少させるように合成出力音声信号に対して後処理を
行うことが一般的だったが、この場合には音声のLPCモデルは比較的に低劣で
ある。これは、適切なフィルタを使用して達成されることが可能である。しかし
、こうしたフィルタリングは、最終的な出力信号を消し、従って、音声品質を低
下させるかなりのスペクトル傾斜を生じさせる。
【0184】 この実施例では、異った方法が使用される。さらに具体的に述べると、過去に
おいて行われてきたようにLPC合成フィルタ34の出力を処理する代わりに、
この実施例で使用される方法は、復号器ブロック33の出力で生成されるスペク
トル振幅を重み付けすることに依存している。k番目のスペクトル振幅に適用さ
れる重み係数Q(kω0 )が、前述のLPCスペクトルP(ω)から得られる。
LPCスペクトルP(ω)は、ピーク補間されたスペクトルH(ω)を生成する
ためにピーク補間され、重み関数Q(ω)が、λ乗されたP(ω)とH(ω)の
比率によって次のように与えられる。
【0185】
【数61】
【0186】 ここで、λは0.00から1.0の範囲内であり、好ましくは0.35である。 関数P(ω)と関数H(ω)がQ(ω)P(ω)によって与えられる知覚的に
強調されたLPCスペクトルと共に、図9に示されている。 この図から明らかであるように、重み関数Q(ω)の効果は、ピーク相互間の
谷間領域内のLPCスペクトルの値を減少させることであリ、従って、これらの
領域内のノイズを減少させることである。知覚的重み付けブロック40において
、適切な重みQ(kω0 )が逆量子化されたスペクトル振幅amp(k)に適用
される場合には、この重みの効果は、過去に使用されていた後処理方法に伴って
生じるスペクトル傾斜とその関連の消音とを引き起こすことなしに、あたかも後
処理を行ったかのように出力音声信号の品質を向上させることである。
【0187】 LPC合成フィルタ34の出力のエネルギーが変動するので、この出力が制御
されることが好ましい。これは、図7に破線の輪郭で示されている任意選択の回
路を使用して、2つの段階に分けて行われる。第1の段階では、実際のピッチサ
イクルエネルギーがブロック41で計算され、このエネルギーが、比率値を生成
するために比率回路42で所望の補間されたピッチサイクルエネルギーと比較さ
れる。その次に、比較されたエネルギーの間の差を減少させるために、駆動信号
x の対応するピッチサイクルに乗算器43内で前記比率が掛け算され、それか
ら、このピッチサイクルが、平滑化された出力音声信号を合成する別のLPC合
成フィルタ44に送られる。
【図面の簡単な説明】
【図1】 図1は、音声コーダの一般的な説明図である。
【図2】 図2は、本発明による音声コーダの符号器を示すブロック図である。
【図3】 図3は、アナログ入力音声信号の波形を示す。
【図4】 図4は、図2の符号器で使用されるピッチ検出アルゴリズムを示すブロック図
である。
【図5】 図5は、有声音発声カットオフ周波数の決定を示す。
【図6】 図6(a)は、フレームのLPCスペクトルを示す。 図6(b)は、図6(a)のLPCスペクトルから得られるスペクトル振幅を
示す。 図6(c)は、図6(b)のスペクトル振幅から得られる量子化ベクトルを示
す。
【図7】 図7は、音声コーダの復号器を示す。
【図8】 図8は、LSF係数に関するエネルギー依存性補間係数を示す。
【図9】 図9は、逆量子化されたスペクトル振幅を重み付けするために使用される、知
覚的に強調されたLPCスペクトルを示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,US,UZ,VN,YU,Z A,ZW Fターム(参考) 5D045 CA01 CC02 5J064 AA01 BA01 BA13 BB03 BC01 BC11 BC14 BC16 BD02

Claims (45)

    【特許請求の範囲】
  1. 【請求項1】 予め決められた数のディジタルサンプルから各々が成る複数
    フレームに分割されている入力音声信号を符号化するための符号器を含む音声コ
    ーダであって、前記符号器が、 サンプルを解析して各フレームに関して少なくとも1つの線形予測係数セット
    を生成するための線形予測符号化(LPC)手段と、 各フレームに関して少なくとも1つのピッチ値を決定するためのピッチ決定手
    段であって、周波数領域手法(周波数領域解析)を使用してサンプルを解析する
    ための第1の推定手段と、時間領域手法(時間領域解析)を使用してサンプルを
    解析するための第2の推定手段と、前記ピッチ値を得るために前記周波数領域解
    析と前記時間領域解析とを使用するためのピッチ評価手段とを含むピッチ決定手
    段と、 各フレーム内の有声信号と無声信号との尺度を規定するための有声音発声手段
    と、 各フレームに関する振幅情報を生成するための振幅決定手段と、 各フレームに関して量子化インデックスセットを生成するために、前記線形予
    測係数セットと、前記ピッチ値と、前記有声信号および無声信号の尺度と、前記
    振幅情報を量子化するための量子化手段であって、 前記第1の推定手段が、幾つかの候補ピッチ値の各々に関して第1のピッチ尺
    度を生成し、前記第2の推定手段が、前記候補ピッチ値の各々に関してそれぞれ
    第2のピッチ尺度を生成し、前記評価手段が、前記第1の尺度の少なくとも幾つ
    かを各々に対応する前記第2の尺度と結合し、その結果得られる組み合わせを参
    照して前記候補ピッチ値の1つを選択する量子化手段 を含む音声コーダ。
  2. 【請求項2】 前記評価手段が、前記第1の尺度とその対応する第2の尺度
    とから比率を形成することによって前記組合せを形成し、かつ、こうして形成さ
    れた前記比率を参照して前記1つの候補ピッチ値を選択する請求項1に記載の音
    声コーダ。
  3. 【請求項3】 前記評価手段が、1つ以上の以前のフレームから得られた被
    追跡ピッチ値と前記候補ピッチ値の各々を比較し、前記尺度が結合される前に前
    記比較に応じてそれぞれの量で、対応する前記第1の尺度と前記第2の尺度とを
    重み付けする請求項1または2に記載の音声コーダ。
  4. 【請求項4】 前記重み付けの量が、現在のフレーム内のバックグラウンド
    ノイズのレベルにも依存する請求項3に記載の音声コーダ。
  5. 【請求項5】 前記第1の推定手段が、各フレームに関する第1の周波数ス
    ペクトルを生成し、前記第1の周波数スペクトル内のピークを識別し、平滑化さ
    れた周波数スペクトルを生成するために前記第1の周波数スペクトルに平滑化処
    理を施し、および、候補ピッチ値の各々に関して、ピッチ値のそれぞれの前記第
    1の尺度を生成するために、前記平滑化された周波数スペクトル中の様々な高調
    波周波数(kω0 )における振幅と、ここでω0=2Π/Pであり、Pが前記候
    補ピッチ値であり、かつ、kが整数であるが、前記第1の周波数スペクトル内で
    識別されたピークを相関させる請求項1から4のいずれか一項に記載の音声コー
    ダ。
  6. 【請求項6】 前記ピークの識別の前に、前記第1の周波数スペクトルを形
    成する振幅値が、前記スペクトルに関するRMS値と比較され、かつ、前記RM
    S値よりも大きい振幅を有するピークをディエンファシスするように前記比較に
    応じて重み付けられる請求項5に記載の音声コーダ。
  7. 【請求項7】 前記振幅値がさらに、低下する周波数の関数として増大する
    係数によって重み付けられる請求項6に記載の音声コーダ。
  8. 【請求項8】 前記第1の周波数スペクトルの振幅が、現在のフレーム内の
    バックグラウンドノイズを考慮に入れるために調節される請求項7に記載の音声
    コーダ。
  9. 【請求項9】 相関の前に、前記第1の周波数スペクトルにおいて識別され
    る各ピークの振幅が、前記平滑化された周波数スペクトルにおける対応する振幅
    と比較され、この比較に応じて廃棄されるか保持される請求項5から8のいずれ
    か一項に記載の音声コーダ。
  10. 【請求項10】 前記第1の推定手段が、プリセットされた数の周波数帯域
    の各々に関して単一の候補ピッチ値を選択し、かつ、前記第2の推定手段が、前
    記第1の推定手段によって選択された前記候補ピッチ値の各々に関して前記第2
    のピッチ尺度を生成する請求項1から9のいずれか一項に記載の音声コーダ。
  11. 【請求項11】 前記選択された候補ピッチ値が前記ピッチ値の推定値を与
    え、前記評価手段が、前記推定値からピッチ値を求めるためのピッチリファイン
    メント手段を含む請求項1から10のいずれか一項に記載の音声コーダ。
  12. 【請求項12】 前記ピッチリファインメント手段が、前記推定値の周囲に
    分布した端数値を含む別の候補ピッチ値のセットを規定し、フレームに関するさ
    らに別の周波数スペクトルを生成し、前記さらに別の周波数スペクトル中のピー
    クを識別し、さらに別の平滑化された周波数スペクトルを生成するために前記さ
    らに別の周波数スペクトルに平滑化処理を施し、および、さらに別の候補ピッチ
    値の各々に関して、前記平滑化された周波数スペクトル中の様々な高調波周波数
    (kω0 )における振幅と、ここでω0=2Π/Pであり、Pが前記さらに別の
    候補ピッチ値であり、かつ、kが整数であるが、前記さらに別の周波数スペクト
    ル内で識別されたピークを相関させ、最大の相関を与える前記さらに別の候補ピ
    ッチ値をフレームのピッチ値として選択する請求項11に記載の音声コーダ。
  13. 【請求項13】 前記ピッチ決定手段が、各フレームの前端部分に関する第
    1のピッチ値と各フレームの後端部分に関する第2のピッチ値を決定し、および
    、前記量子化手段が前記ピッチ値の両方を量子化する請求項1から12のいずれ
    か一項に記載の音声コーダ。
  14. 【請求項14】 前記有声音発声手段が、フレームからの周波数スペクトル
    を有声部分と無声部分とに分離するために、少なくとも1つの有声音発声カット
    オフ周波数を各フレーム毎に求め、前記振幅決定手段が、前記有声音発声手段と
    前記ピッチ決定手段とによってそれぞれ決定される前記有声音発声カットオフ周
    波数と前記ピッチ値とに応答して、各フレーム毎にスペクトル振幅を生成する請
    求項1から13のいずれか一項に記載の音声コーダ。
  15. 【請求項15】 前記有声音発声手段が、各フレーム毎に、 (i)前記決定手段によって決定された前記ピッチ値に高調波として関係付け
    られている各周波数帯域に関して有声音発声尺度を得る段階と、 (ii)正値または負値であってよい比較値を生成するために、各高調波周波
    数帯域に関する前記有声音発声尺度を閾値と比較する段階と、 (iii)対応する高調波周波数帯域がトライアルカットオフ周波数よりも高
    い場合に、前記比較値の符号を逆にする量だけ各々の比較値をバイアスする段階
    と、 (iv)フレーム内の幾つかの高調波周波数帯域にわたって前記バイアスされ
    た比較値を合計する段階と、 (v)複数の異ったトライアルカットオフ周波数に関して前記段階(i)から
    (iv)を繰り返す段階と、 (vi)最大の合計を与える前記トライアルカットオフ周波数を前記フレーム
    に関する有声音発声カットオフ周波数として選択する段階 を実行する請求項14に記載の音声コーダ。
  16. 【請求項16】 前記高調波周波数帯域の形状をその帯域に関する基準形状
    と相関させることによって、前記有声音発声尺度が形成される請求項15に記載
    の音声コーダ。
  17. 【請求項17】 前記入力音声信号に対して窓関数を適用するための、およ
    び、前記窓関数が適用された入力音声信号から、前記高調波周波数帯域を含む前
    記周波数スペクトルを得るための手段を含み、前記基準形状が前記窓関数から得
    られる請求項16に記載の音声コーダ。
  18. 【請求項18】 前記有声音発声手段が、各フレームの前端部分に関する第
    1の前記有声音発声カットオフ周波数と、各フレームの後端部分に関する第2の
    前記有声音発声カットオフ周波数を決定する請求項14から17のいずれか一項
    に記載の音声コーダ。
  19. 【請求項19】 前記振幅決定手段が、各フレーム毎に、前記ピッチ決定手
    段によって決定される前記ピッチ値に高調波として関係付けられている周波数を
    中心とする異った周波数帯域に関するスペクトル振幅セットを生成し、かつ、前
    記量子化手段が、振幅量子化インデックスの第1の部分を生成するために前記ス
    ペクトル振幅を量子化する請求項1から18のいずれか一項に記載の音声コーダ
  20. 【請求項20】 入力音声信号を符号化するための符号器を含む音声コーダ
    であって、前記符号器が、ディジタルサンプルを生成するために前記入力音声信
    号をサンプリングするための、および、予め決められた数のサンプルから各々が
    成る複数フレームに前記サンプルを分割するための手段と、 サンプルを解析するための、および、各フレームに関して少なくとも1つの線
    形予測係数セットを生成するための線形予測符号化(LPC)手段と、 各フレームに関して少なくとも1つのピッチ値を決定するためのピッチ決定手
    段と、 各フレーム内の有声信号と無声信号との尺度を決定するための有声音発声手段
    と、 各フレームに関する振幅情報を生成するための振幅決定手段と、 各フレームに関して量子化インデックスセットを生成するために、前記線形予
    測係数セット、前記ピッチ値、前記有声信号および無声信号の尺度および前記振
    幅情報を量子化するための量子化手段とを備え、 前記ピッチ決定手段が、前記ピッチ値の推定値を決定するためのピッチ推定手
    段と、前記推定値からピッチ値を得るためのピッチリファインメント手段とを含
    み、前記ピッチリファインメント手段が、前記ピッチ推定手段によって決定され
    た前記ピッチ値推定値の周囲に分布した端数値を含む候補ピッチ値セットを規定
    し、 前記フレームの周波数スペクトル内のピークを識別し、 前記候補ピッチ値の各々に関して、前記フレームの周波数スペクトルの様々な
    高調波周波数(kω0 )における振幅と、ここでω0=2Π/Pであり、Pが前
    記候補ピッチ値であり、かつ、kが整数であるが、前記ピークとを相関させ、最
    大の相関を与える前記候補ピッチ値を前記フレームに関する前記ピッチ値として
    選択する音声コーダ。
  21. 【請求項21】 前記ピッチ推定手段が、周波数領域手法(周波数領域解析
    )を使用してサンプルを解析するための第1の推定手段と、時間領域手法(時間
    領域解析)を使用してサンプルを解析するための第2の推定手段と、前記時間領
    域解析と前記周波数領域解析との結果から前記ピッチ値の前記推定値を得るため
    の手段とを含む請求項20に記載の音声コーダ。
  22. 【請求項22】 前記ピッチリファインメント手段が、前記ピークの振幅を
    、前記ピークがその中で識別された周波数スペクトルの指数関数的減衰包絡線の
    高調波周波数(kω0 )における振幅と相関させる請求項20また21に記載の
    音声コーダ。
  23. 【請求項23】 前記有声音発声手段が、前記フレームからの周波数スペク
    トルを有声部分と無声部分とに分離するための少なくとも1つの有声音発声カッ
    トオフ周波数を各フレーム毎に決定し、前記振幅決定手段が、前記有声音発声手
    段と前記ピッチ決定手段とによってそれぞれ決定される前記有声音発声カットオ
    フ周波数と前記ピッチ値とに応答してスペクトル振幅を生成する請求項20から
    22のいずれか一項に記載の音声コーダ。
  24. 【請求項24】 前記有声音発声手段が、各フレーム毎に、 (i)前記ピッチ決定手段によって決定された前記ピッチ値に高調波として関
    係付けられている各々の周波数帯域に関する有声音発声尺度を得る段階と、 (ii)正値または負値であってよい比較値を生成するために、各々の高調波
    周波数帯域に関する前記有声音発声尺度を閾値と比較する段階と、 (iii)対応する高調波周波数帯域がトライアルカットオフ周波数よりも高
    い場合に、前記比較値の符号を逆にする量だけ各々の比較値をバイアスする段階
    と、 (iv)フレーム内の幾つかの高調波周波数帯域にわたって前記バイアスされ
    た比較値を合計する段階と、 (v)複数の異ったトライアルカットオフ周波数に関して前記段階(i)から
    (iv)を繰り返す段階と、 (vi)最大の合計を与える前記トライアルカットオフ周波数を、前記フレー
    ムに関する有声音発声カットオフ周波数として選択する段階 とを実行する請求項23に記載の音声コーダ。
  25. 【請求項25】 前記有声音発声尺度が、前記高調波周波数帯域の形状を前
    記帯域に関する基準形状と相関させることによって形成される請求項24に記載
    の音声コーダ。
  26. 【請求項26】 前記入力音声信号に窓関数を適用し、前記窓関数が適用さ
    れた入力音声信号から前記高調波周波数帯域を含む周波数スペクトルを得るため
    の手段を含み、前記基準形状が前記窓関数から得られる請求項25に記載の音声
    コーダ。
  27. 【請求項27】 前記振幅決定手段が、各フレーム毎に、前記ピッチ決定手
    段によって決定されるピッチ値に高調波として関係付けられている周波数を中心
    とした異った周波数帯域に関するスペクトル振幅セットを生成し、前記量子化手
    段が、振幅量子化インデックスの第1の部分を生成するために前記スペクトル振
    幅を量子化する請求項20から26のいずれか一項に記載の音声コーダ。
  28. 【請求項28】 前記ピッチ決定手段が、各フレームの前端部分に関する第
    1の値と、各フレームの後端部分に関する第2のピッチ値とを決定し、前記量子
    化手段が前記ピッチ値の両方を量子化する請求項20から27のいずれか一項に
    記載の音声コーダ。
  29. 【請求項29】 前記有声音発声手段が、各フレームの前端部分に関する第
    1の前記有声音発声カットオフ周波数と、各フレームの後端部分に関する第2の
    前記有声カットオフ周波数とを生成する請求項23から26のいずれか一項に記
    載の音声コーダ。
  30. 【請求項30】 入力音声信号を符号化するための符号器を含む音声コーダ
    であって、前記符号器が、 ディジタルサンプルを生成するために前記入力音声信号をサンプリングするた
    めの、および、予め決められた数のサンプルから各々が成る複数フレームに前記
    サンプルを分割するための手段と、 サンプルを解析するための、および、各フレーム毎に少なくとも1つの線形予
    測係数セットを生成するための線形予測符号化(LPC)手段と、 各フレームに関して少なくとも1つのピッチ値を決定するためのピッチ決定手
    段と、 個々の高調波周波数帯域の有声/無声状態を評価することなしに、前記フレー
    ムからの周波数スペクトルを有声部分と無声部分とに分離するための有声音発声
    カットオフ周波数を各フレーム毎に決定するための有声音発声手段と、 各フレームに関する振幅情報を生成するための振幅決定手段と、 各フレームに関する量子化インデックスセットを生成するために、前記係数セ
    ット、前記ピッチ値、前記有声音発声カットオフ周波数および前記振幅情報を量
    子化するための量子化手段 とを備える音声コーダ。
  31. 【請求項31】 前記有声音発声手段が、各フレーム毎に、 (i)前記ピッチ決定手段によって決定された前記ピッチ値に高調波として関
    係付けられている各々の周波数帯域に関する有声音発声尺度を得る段階と、 (ii)正値または負値であってよい比較値を生成するために、各々の高調波
    周波数帯域に関する前記有声音発声尺度を閾値と比較する段階と、 (iii)対応する高調波周波数帯域がトライアルカットオフ周波数よりも高
    い場合に、前記比較値の符号を逆にする量だけ各々の比較値をバイアスする段階
    と、 (iv)フレーム内の幾つかの高調波周波数帯域にわたって前記バイアスされ
    た比較値を合計する段階と、 (v)複数の異ったトライアルカットオフ周波数に関して前記段階(i)から
    (iv)を繰り返す段階と、 (vi)最大の合計を与える前記トライアルカットオフ周波数をそのフレーム
    に関する有声音発声カットオフ周波数として選択する段階 とを実行する請求項30に記載の音声コーダ。
  32. 【請求項32】 前記有声音発声尺度が、前記高調波周波数帯域の形状を前
    記帯域に関する基準形状と相関させることによって形成される請求項31に記載
    の音声コーダ。
  33. 【請求項33】 前記入力音声信号に窓関数を適用し、前記窓関数が適用さ
    れた入力音声信号から前記高調波周波数帯域を含む周波数スペクトルを得るため
    の手段を含み、前記基準形状が前記窓関数から得られる請求項32に記載の音声
    コーダ。
  34. 【請求項34】 前記有声音発声手段が、各フレームの前端部分に関する第
    1の前記有声音発声カットオフ周波数と、各フレームの後端部分に関する第2の
    前記有声音発声カットオフ周波数とを規定し、前記量子化手段が、前記有声音発
    声カットオフ周波数の値の両方を量子化する請求項30から33のいずれか一項
    に記載の音声コーダ。
  35. 【請求項35】 前記閾値が、前記入力音声信号中のバックグラウンド成分
    のレベルに依存している請求項15、24および31のいずれか一項に記載の音
    声コーダ。
  36. 【請求項36】 前記有声音発声手段が、前記バックグラウンド成分のレベ
    ルに応じて前記閾値の推定値を評価し、前記規定の通りのE−lf/E−hf、
    T2/T1、ZC、またはERの1つ以上の値に従って前記推定値を変更し、さ
    らに、前記規定の通りのPKY1、PKY2、CM、およびE−ORの1つ以上
    の値に従って前記推定値を変更する請求項35に記載の音声コーダ。
  37. 【請求項37】 入力音声信号を符号化するための符号器を含む音声コーダ
    であって、前記符号器が、 ディジタルサンプルを生成するために前記入力音声信号をサンプリングするた
    めの、および、予め決められた数のサンプルから各々が成る複数フレームに前記
    サンプルを分割するための手段と、 サンプルを解析するための、および、各フレーム毎に少なくとも1つの線形予
    測係数セットを生成するための線形予測符号化(LPC)手段と、 各フレームに関して少なくとも1つのピッチ値を決定するためのピッチ決定手
    段と、 各フレーム内の有声信号と無声信号との尺度を規定するための有声音発声手段
    と、 各フレームに関する振幅情報を生成するための振幅決定手段と、 各フレームに関する量子化インデックスセットを生成するために、前記予測係
    数セット、前記ピッチ値、前記有声信号および前記無声信号の尺度および前記振
    幅情報とを量子化するための量子化手段とを備え、 前記振幅決定手段が、各フレーム毎に、前記ピッチ決定手段によって決定され
    る前記ピッチ値に高調波として関係付けられている周波数を中心とした複数の周
    波数帯域に関するスペクトル振幅セットを生成し、 前記量子化手段が、振幅量子化インデックスの第1の部分を生成するために前
    記正規化スペクトル振幅を量子化する音声コーダ。
  38. 【請求項38】 各フレームに関する前記スペクトル振幅が、前記フレーム
    に関するLPC残差信号から得られる請求項37に記載の音声コーダ。
  39. 【請求項39】 各フレームに関する前記スペクトル振幅が、前記フレーム
    に関する予測係数から得られるLPC周波数スペクトルを参照して量子化される
    請求項37に記載の音声コーダ。
  40. 【請求項40】 入力音声信号を符号化するための符号器を含む音声コーダ
    であって、前記符号器が、 ディジタルサンプルを生成するために前記入力音声信号をサンプリングするた
    めの、および予め決められた数のサンプルから各々が成る複数フレームに前記サ
    ンプルを分割するための手段と、 各フレームの前端部分と後端部分とに関してそれぞれの線スペクトル周波数(
    LSF)係数セットを生成するためにサンプルを解析するための線形予測符号化
    手段と、 各フレームに関して少なくとも1つのピッチ値を決定するためのピッチ決定手
    段と、 各フレーム内の有声信号と無声信号との尺度を規定するための有声音発声手段
    と、 各フレームに関する振幅情報を生成するための振幅決定手段と、 量子化インデックスセットを生成するために、前記LSF係数セット、前記ピ
    ッチ値、前記有声信号および無声信号の尺度と、前記振幅情報を量子化するため
    の量子化手段 とを備え、前記量子化手段が、 (i)現在のフレームの前端部分に関する量子化LSF係数セット(LSF′
    2)を次式により規定する。 【数1】 ここでLSF′3とLSF′1とが各々に現在のフレームの後端部分と現在のフ
    レームの直前のフレームの後端部分とに関する量子化LSF係数セットでありか
    つαが第1のベクトル量子化コードブック中のベクトルであり、 (ii)第2のベクトル量子化コードブックの個々のLSF量子化ベクトルQ
    2、Q3と個々の予測値P2、P3との組み合わせとして、現在のフレームの各
    々の前端部分と後端部分との各々に関する前記量子化LSF係数セットLSF′
    2、LSF′3を規定する。 ここでP2=λQ1でP3=λQ2であり、λが定数であり、かつ、Q1が前記
    直前のフレームの後端部分に関する前記LSF量子化ベクトルであり、および (iii)現在のフレームに関する線形予測符号化手段によって生成される前
    記LSF係数(LSF2、LSF3)と、その対応する量子化LSF係数(LS
    F′2、LSF′3)との間の歪みの尺度を最小化するために、前記第1と前記
    第2のベクトル量子化コードブックとから前記ベクトルQ3と前記ベクトルαと
    を選択する音声コーダ。
  41. 【請求項41】 前記第2のベクトル量子化コードブックが、セット中のL
    SF係数のそれぞれのグループがそれらを参照して量子化される前記ベクトルの
    少なくとも2つのグループを含む請求項40に記載の音声コーダ。
  42. 【請求項42】 前記歪みの尺度が、次式、 【数2】 によって与えられるエラー関数εであり、ここでW1 とW2 が知覚的重み付けで
    ある請求項40または41に記載の音声コーダ。
  43. 【請求項43】 前記符号器によって生成される前記量子化インデックスを
    復号化するための手段と、前記入力音声信号を表すディジタル信号シーケンスを
    生成するために前記復号化された量子化インデックスを処理するための手段とを
    備える復号器をさらに含む請求項1から42のいずれか一項に記載の音声コーダ
  44. 【請求項44】 前記符号器によって生成される前記量子化インデックスを
    復号化するための手段と、前記入力音声信号を表すディジタル信号シーケンスを
    生成するために前記復号化された量子化インデックスを処理するための処理手段
    とを備える復号器を含み、前記処理手段が、復号化された予測係数から得られる
    LPC周波数スペクトルとそれに対応するピーク補間LPC周波数スペクトルと
    の間の比率から得られる重み付け係数によって、前記振幅量子化インデックスの
    前記第1の部分から得られる復号化スペクトル振幅を重み付けするための手段を
    含む請求項37から39のいずれか一項に記載の音声コーダ。
  45. 【請求項45】 LSF係数、ピッチ値、有声信号と無声信号の尺度および
    振幅情報を表す量子化インデックスセットを復号化するための音声コーダであっ
    て、ピッチ値、有声信号と無声信号の尺度および振幅情報を表す前記インデック
    スから駆動信号を得るためのプロセッサ手段と、前記LSF係数に応答して前記
    駆動信号をフィルタリングするためのLPC合成フィルタと、前記LPC合成フ
    ィルタ出力におけるピッチサイクルエネルギーを前記駆動信号の対応ピッチサイ
    クルエネルギーと比較するための手段と、比較したピッチサイクルエネルギーの
    相互間の差異を小さくするように前記駆動信号を変更するための手段と、その変
    更された駆動信号をフィルタリングするためのさらに別のLPC合成フィルタと
    を含む音声コーダ。
JP2000550096A 1998-05-21 1999-05-18 音声コーダ Pending JP2002516420A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB9811019.0A GB9811019D0 (en) 1998-05-21 1998-05-21 Speech coders
GB9811019.0 1998-05-21
PCT/GB1999/001581 WO1999060561A2 (en) 1998-05-21 1999-05-18 Split band linear prediction vocoder

Publications (1)

Publication Number Publication Date
JP2002516420A true JP2002516420A (ja) 2002-06-04

Family

ID=10832524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000550096A Pending JP2002516420A (ja) 1998-05-21 1999-05-18 音声コーダ

Country Status (11)

Country Link
US (1) US6526376B1 (ja)
EP (1) EP0996949A2 (ja)
JP (1) JP2002516420A (ja)
KR (1) KR20010022092A (ja)
CN (1) CN1274456A (ja)
AU (1) AU761131B2 (ja)
BR (1) BR9906454A (ja)
CA (1) CA2294308A1 (ja)
GB (1) GB9811019D0 (ja)
IL (1) IL134122A0 (ja)
WO (1) WO1999060561A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133346A (ja) * 2010-11-30 2012-07-12 Jvc Kenwood Corp 音声処理装置および音声処理方法
WO2013176177A1 (ja) * 2012-05-23 2013-11-28 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
US10636438B2 (en) 2017-08-29 2020-04-28 Fujitsu Limited Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
FR2804813B1 (fr) * 2000-02-03 2002-09-06 Cit Alcatel Procede de codage facilitant la restitution sonore des signaux de parole numerises transmis a un terminal d'abonne lors d'une communication telephonique par transmission de paquets et equipement mettant en oeuvre ce procede
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
DE60029147T2 (de) * 2000-12-29 2007-05-31 Nokia Corp. Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US20030048129A1 (en) * 2001-09-07 2003-03-13 Arthur Sheiman Time varying filter with zero and/or pole migration
DE60307252T2 (de) * 2002-04-11 2007-07-19 Matsushita Electric Industrial Co., Ltd., Kadoma Einrichtungen, verfahren und programme zur kodierung und dekodierung
US6915256B2 (en) * 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US7233894B2 (en) * 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
GB2400003B (en) * 2003-03-22 2005-03-09 Motorola Inc Pitch estimation within a speech signal
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
US7117147B2 (en) * 2004-07-28 2006-10-03 Motorola, Inc. Method and system for improving voice quality of a vocoder
CN1779779B (zh) * 2004-11-24 2010-05-26 摩托罗拉公司 提供语音语料库的方法及其相关设备
EP1872364B1 (en) * 2005-03-30 2010-11-24 Nokia Corporation Source coding and/or decoding
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
CN1971707B (zh) * 2006-12-13 2010-09-29 北京中星微电子有限公司 一种进行基音周期估计和清浊判决的方法及装置
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
JP5355387B2 (ja) * 2007-03-30 2013-11-27 パナソニック株式会社 符号化装置および符号化方法
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8260220B2 (en) * 2009-09-28 2012-09-04 Broadcom Corporation Communication device with reduced noise speech coding
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
TR201815402T4 (tr) * 2010-10-25 2018-11-21 Voiceage Corp Düşük bit hızları ve düşük gecikmede genel audio sinyallerinin kodlanması.
US20140365212A1 (en) * 2010-11-20 2014-12-11 Alon Konchitsky Receiver Intelligibility Enhancement System
PL2676268T3 (pl) * 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
KR101424372B1 (ko) 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
RU2612589C2 (ru) 2013-01-29 2017-03-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Низкочастотное акцентирование для основанного на lpc кодирования в частотной области
US9208775B2 (en) * 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
US9959886B2 (en) * 2013-12-06 2018-05-01 Malaspina Labs (Barbados), Inc. Spectral comb voice activity detection
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
CN108281150B (zh) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US5081681B1 (en) 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5226108A (en) 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133346A (ja) * 2010-11-30 2012-07-12 Jvc Kenwood Corp 音声処理装置および音声処理方法
WO2013176177A1 (ja) * 2012-05-23 2013-11-28 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
JPWO2013176177A1 (ja) * 2012-05-23 2016-01-14 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、および記録媒体
US10636438B2 (en) 2017-08-29 2020-04-28 Fujitsu Limited Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium

Also Published As

Publication number Publication date
AU3945499A (en) 1999-12-06
EP0996949A2 (en) 2000-05-03
CA2294308A1 (en) 1999-11-25
WO1999060561A2 (en) 1999-11-25
BR9906454A (pt) 2000-09-19
IL134122A0 (en) 2001-04-30
WO1999060561A3 (en) 2000-03-09
AU761131B2 (en) 2003-05-29
GB9811019D0 (en) 1998-07-22
US6526376B1 (en) 2003-02-25
KR20010022092A (ko) 2001-03-15
CN1274456A (zh) 2000-11-22

Similar Documents

Publication Publication Date Title
JP2002516420A (ja) 音声コーダ
US5890108A (en) Low bit-rate speech coding system and method using voicing probability determination
US5574823A (en) Frequency selective harmonic coding
KR100388387B1 (ko) 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
US7257535B2 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
CA2140329C (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
US5787387A (en) Harmonic adaptive speech coding method and system
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6931373B1 (en) Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US7013269B1 (en) Voicing measure for a speech CODEC system
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US5752222A (en) Speech decoding method and apparatus
US6996523B1 (en) Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6098036A (en) Speech coding system and method including spectral formant enhancer
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US5749065A (en) Speech encoding method, speech decoding method and speech encoding/decoding method
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6094629A (en) Speech coding system and method including spectral quantizer
EP1313091B1 (en) Methods and computer system for analysis, synthesis and quantization of speech
JPH05346797A (ja) 有声音判別方法
US6047253A (en) Method and apparatus for encoding/decoding voiced speech based on pitch intensity of input speech signal
US5884251A (en) Voice coding and decoding method and device therefor
JP3218679B2 (ja) 高能率符号化方法