JP3523649B2 - 音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法 - Google Patents

音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法

Info

Publication number
JP3523649B2
JP3523649B2 JP53941398A JP53941398A JP3523649B2 JP 3523649 B2 JP3523649 B2 JP 3523649B2 JP 53941398 A JP53941398 A JP 53941398A JP 53941398 A JP53941398 A JP 53941398A JP 3523649 B2 JP3523649 B2 JP 3523649B2
Authority
JP
Japan
Prior art keywords
excitation
sound source
pulse
coding
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP53941398A
Other languages
English (en)
Inventor
裕久 田崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP3523649B2 publication Critical patent/JP3523649B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 技術分野 この発明は、音声信号をディジタル信号に圧縮符号化
する音声符号化装置、そのディジタル信号を音声信号に
伸長復号する音声復号装置及びそれらを組み合わせた音
声符号化復号装置及びこれらの方法に関するものであ
る。
背景技術 従来の多くの音声符号化復号装置では、入力音声をス
ペクトル包絡情報と音源に分けて、フレーム単位で音源
を符号化し、前記符号化された音源を復号して出力音声
を生成する構成が用いられている。
ここで、スペクトル包絡情報とは、音声信号に含まれ
る周波数スペクトル波形の振幅(パワー)に比例した情
報をいう。音源とは、音声を生成するエネルギー源をい
う。音声符号化や音声合成においては、周期的なパター
ンや周期的なパルス列で音源をモデル化し、近似して用
いる。
符号化復号の品質改善を目的として、特に、音源の符
号化復号方法について様々な改良が行われている。最も
代表的な音声符号化復号装置として、符号励振線形予測
符号化(celp(code−excited linear prediction codi
ng))を用いたものがある。
図13は、従来のcelp系音声符号化復号装置の全体構成
を示すものである。
図において、1は符号化部、2は復号部、3は多重化
部、4は分離部、5は入力音声、6は符号、7は出力音
声である。符号化部1は次の8〜12により構成されてい
る。8は線形予測分析部、9は線形予測係数符号化部、
10は適応音源符号化部、11は駆動音源符号化部、12はゲ
イン符号化部である。また、復号部2は次の13〜17によ
り構成されている。13は線形予測係数復号部、14は合成
フィルタ、15は適応音源復号部、16は駆動音源復号部、
17はゲイン復号部である。
この従来の音声符号化復号装置では、5〜50ms程度の
長さの音声を1フレームとして、そのフレームの音声を
スペクトル包絡情報と音源に分けて符号化する。以下、
この従来の音声符号化復号装置の動作について説明す
る。
まず、符号化部1において、線形予測分析部8は入力
音声5を分析し、音声のスペクトル包絡情報である線形
予測係数を抽出する。線形予測係数符号化部9はこの線
形予測係数を符号化し、その符号を多重化部3に出力す
ると共に、音源の符号化のために符号化した線形予測係
数18を出力する。
次に、音源の符号化について図20,図21,図22を用いて
説明する。
図20に示すように、適応音源符号化部10では、適応音
源符号帳110に、適応音源符号111に対応して過去の音源
を適応音源113として複数(S個)記憶している。この
記憶している各適応音源符号111に対応して過去の音
源、即ち、適応音源113を周期的に繰り返した時系列ベ
クトル114を生成する。次に、各時系列ベクトル114に適
切なゲインgを乗じ、時系列ベクトル114を前記符号化
された線形予測係数18を用いた合成フィルタ115に通す
ことで、仮の合成音116を得る。この仮の合成音116と入
力音声5との差分から誤差信号118を求め、仮の合成音1
16と入力音声5との距離を調べる。この処理を各適応音
源113を用いてS回繰り返す。そして、この距離を最小
とする適応音源符号111を選択すると共に、選択された
適応音源符号111に対応する時系列ベクトル114を適応音
源113として出力する。また、選択された適応音源符号1
11に対応する誤差信号118を出力する。
図21に示すように、駆動音源符号化部11では、駆動音
源符号帳130に、駆動音源符号131に対応して音源を駆動
音源133として複数(T個)記憶している。まず、各駆
動音源133に適切なゲインgを乗じて、前記符号化され
た線形予測係数18を用いた合成フィルタ135に通すこと
で、仮の合成音136を得る。この仮の合成音136と誤差信
号118との距離を調べる。この処理を各駆動音源133を用
いてT回繰り返す。そして、この距離を最小とする駆動
音源符号131を選択すると共に、選択された駆動音源符
号131に対応する駆動音源133を出力する。
図22に示すように、ゲイン符号化部12は、ゲイン符号
帳150に、ゲイン符号151に対応してゲインを複数組(U
組)記憶している。まず、各ゲイン符号151に対応する
ゲインベクトル(g1,g2)154を生成する。そして、各ゲ
インベクトル154の各要素g1,g2を、前記適応音源113
(時系列ベクトル114)と前記駆動音源133に乗算器166,
167により乗じて加算器968により加算し、前記符号化さ
れた線形予測係数18を用いた合成フィルタに通すこと
で、仮の合成音156を得る。この仮の合成音156と入力音
声5との距離を調べる。この処理を各ゲインを用いてU
回繰り返す。そして、この距離を最小とするゲイン符号
151を選択する。最後に、選択されたゲイン符号151に対
応するゲインベクトル154の各要素g1,g2を、前記適応音
源113と前記駆動音源133に乗じて加算することで音源16
3を生成する。適応音源符号化部10は、音源163を用いて
適応音源符号帳110の更新を行う。
なお、多重化部3は、前記符号化された線形予測係数
18、適応音源符号111、駆動音源符号131、ゲイン符号15
1を多重化し、得られた符号6を出力する。また、分離
部4は、前記符号6を符号化された線形予測係数18、適
応音源符号111、駆動音源符号131、ゲイン符号151に分
離する。
一方、復号部2では、線形予測係数復号部13は、符号
化された線形予測係数18から線形予測係数を復号し、合
成フィルタ14の係数として設定する。次に、適応音源復
号部15は、過去の音源を適応音源符号帳に記憶してあ
り、適応音源符号に対応して複数の過去の音源を周期的
に繰り返した時系列ベクトル128を出力し、また、駆動
音源復号部16は、複数の駆動音源を駆動音源符号帳に記
憶してあり、駆動音源符号に対応した時系列ベクトル14
8を出力する。ゲイン復号部17は、複数組のゲインをゲ
イン符号帳に記憶してあり、ゲイン符号に対応したゲイ
ンベクトル168を出力する。復号部2は、前記2つの時
系列ベクトル128,148に、前記ゲインベクトルの各要素g
1,g2を乗じて加算することで音源198を生成し、この音
源198を合成フィルタ14に通すことで出力音声7を生成
する。最後に、適応音源復号部15は、前記生成された音
源198を用いて、適応音源復号部15内の適応音源符号帳
の更新を行う。
ここで、「CS−ACELPの基本アルゴリズム」(片岡章
俊、林伸二、守谷健弘、栗林祥子、間野一則著、NTT、
R&D,Vol.45,pp325−330(1996年4月)、(以下、文
献1と呼ぶ))には、演算量とメモリ量の削減を主な目
的として、駆動音源の符号化にパルス音源を導入したce
lp系音声符号化復号装置が開示されている。
図14は、文献1に開示されている従来の音声符号化復
号装置で用いられている駆動音源符号化部11の構成を示
すものである。なお、全体構成は、図13と同様である。
図において、18は符号化された線形予測係数、19は前
述した駆動音源符号131である駆動音源符号、20は前述
した誤差信号118である符号化対象信号、21はインパル
ス応答算出部、22はパルス位置探索部、23はパルス位置
符号帳である。符号化対象信号20は、図21に示すよう
に、適応音源113(の時系列ベクトル114)に適切なゲイ
ンを乗じてから合成フィルタ115に通し、これを入力音
声5から減算した誤差信号118である。
図15は、文献1で用いられているパルス位置符号帳23
である。
また、図15は、パルス位置符号230の範囲とビット数
と具体例を示している。
文献1では、音源符号化フレーム長が40サンプルであ
り、駆動音源は、4つのパルスで構成されている。パル
ス番号1ないし3のパルス位置は、図15に示したよう
に、各々8つの位置に制約されており、パルス位置は0
〜7まで8ヶ所あるので、各々3bitで符号化できる。パ
ルス番号4のパルスは、16のパルス位置に制約されてお
り、パルス位置は0〜15まで16ヶ所あるので、4bitで符
号化できる。4つのパルス位置を示すパルス位置符号
は、3+3+3+4ビット=13ビットの符号語になる。
パルス位置に制約を与えることで、符号化特性の劣化を
抑えつつ、符号化bit数の削減、組み合わせ数の削減に
よる演算量削減を実現している。
以下、上記従来の音声符号化復号装置内の駆動音源符
号化部11の動作について、図23,図24,図25を用いて説明
する。
インパルス応答算出部21は、インパルス信号発生部21
8で図25に示すようなインパルス信号210を発生させ、符
号化された線形予測係数18をフィルタ係数とする合成フ
ィルタ211によりインパルス信号210に対するインパルス
応答214を算出し、このインパルス応答214に聴覚重み付
け部212が聴覚重み付け処理を行い、聴覚重み付けされ
たインパルス応答215を出力する。パルス位置探索部22
は、図15に示した各パルス位置符号230(例えば、図23
における[5,3,0,14])に対応して、パルス位置符号帳
23に格納されているパルス位置(例えば、25,16,2,3
4])を順次読み出し、読み出された所定個(4個)の
パルス位置([25,16,2,34])に振幅が一定で極性のみ
極性情報231(例えば、[0,0,1,1]:1は正極性、0は負
極性を示す)を適切に与えたパルスを立てることで、仮
のパルス音源172を生成する。この仮のパルス音源172と
前記インパルス応答215を畳み込み演算することで仮の
合成音174を生成し、この仮の合成音174と符号化対象信
号20の距離を計算する。この計算を全てのパルス位置の
全組み合わせで8×8×8×16=8192回行う。そして、
最も小さい距離を与えたパルス位置符号230(例えば、
[5,3,0,14])と各パルスに与えた極性情報231(例え
ば、[0,0,1,1])を合わせて駆動音源符号19(図13に
示した駆動音源符号131に相当)として出力すると共
に、そのパルス位置符号230に対応する仮のパルス音源1
72(図13に示した駆動音源133に相当)を符号化部1内
のゲイン符号化部12に出力する。
なお、文献1では、パルス位置探索部22における演算
量を削減するために、実際には仮のパルス音源172と仮
の合成音174は生成せずに、インパルス応答と符号化対
象信号20の相関関数とインパルス応答の相互相関関数を
予め計算しておき、それらの簡単な加算によって距離計
算を実行する。
以下、距離計算方法について説明する。
まず、距離の最小化は、次の(1)式のDを最大化す
ることと等価であり、このDの計算をパルス位置の全組
み合わせに対して実行することで最小距離探索が実行で
きる。
但し、 m(k):k番目のパルスのパルス位置 g(k):k番目のパルスのパルス振幅 d(x):パルス位置xにインパルスを立てたときの
インパルス応答と入力音声の相関 φ(x,y):パルス位置xにインパルスを立てたとき
のインパルス応答とパルス位置yにインパルスを立てた
ときのインパルス応答との相関 更に、文献1のパルス位置探索部22では、g(k)を
d(m(k))と同符号で絶対値が1として(2)式と
(3)式を単純化して計算を行う。単純化された(2)
式と(3)式は、次式となる。
但し、 d′(m(k))=|d(m(k))| (6) φ′(m(k),m(i))=sign[g(k)]sign [g(i)]φ(m(k),m(i)) (7) 従って、パルス位置の全組み合わせに対するDの計算
を始める前に、d′とφ′の計算を行っておけば、後は
(4)式と(5)式の単純加算という少ない演算量でD
で算出できる。
図16は、パルス位置探索部22内で生成される仮のパル
ス音源172を説明する説明図である。
図16の(a)に、一例を示す相関d(x)の正負によ
ってパルスの極性が決定される。パルスの振幅は、1で
固定である。つまり、パルス位置m(k)にパルスを立
てる時には、d(m(k))が正である場合には(+
1)の振幅を持つパルス、d(m(k))が負である場
合には(−1)の振幅を持つパルスとする。図16の
(b)が図16の(a)のd(x)に応じた仮のパルス音
源172である。
上記のように、パルス位置に制約を与え、高速探索を
可能としたパルス音源は、「代数的符号(Algebraic Co
de)を用いた音源」と呼ばれている。簡単のために、以
降は「代数的音源」と略して説明する。代数的音源を用
いた音源符号化特性の改善を図った音声符号化復号装置
として、「マルチパルススベクトル量子化音源と高速探
索に基づくMP−CELP音声符号化」(小澤一範、田海真
一、野村俊之著、電子情報通信学会論文誌A,Vol.J79−
A,No.10,pp.1655−1663(1996年10月)、(以下、文献
2と呼ぶ))に開示されているものがある。
図17は、この従来の音声符号化復号装置の全体構成を
示すものである。
図において、24はモード判別部、25は第1のパルス音
源符号化部、26は第1のゲイン符号化部、27は第2のパ
ルス音源符号化部、28は第2のゲイン符号化部、29は第
1のパルス音源復号部、30は第1のゲイン復号部、31は
第2のパルス音源復号部、32は第2のゲイン復号部であ
る。
図13と同一の部分については同一の符号を付し、説明
を省略する。
この音声符号化復号装置において、図13と比べて新た
な構成の動作は次の通りである。即ち、モード判別部24
は、平均ピッチ予測ゲイン、つまりピッチ周期性の高さ
に基づいて、使用する音源符号化のモードを判別し、判
別結果をモード情報として出力する。ピッチ周期性が高
い場合には、第1の音源符号化モード、つまり適応音源
符号化部10、第1のパルス音源符号化部25及び第1のゲ
イン符号化部26を使用して音源符号化を行い、ピッチ周
期性が低い場合には、第2の音源符号化モード、つまり
第2のパルス音源符号化部27、第2のゲイン符号化部28
を使用して音源符号化を行う。
第1のパルス音源符号化部25は、まず、各パルス音源
符号に対応した仮のパルス音源を生成し、この仮のパル
ス音源と適応音源符号化部10が出力した適応音源に適切
なゲインを乗じ、線形予測係数符号化部9が出力した線
形予測係数を用いた合成フィルタに通すことで、仮の合
成音を得る。この仮の合成音と入力音声5との距離を調
べ、距離が近い順にパルス音源符号候補を求めると共
に、各パルス音源符号候補に対応する仮のパルス音源を
出力する。第1のゲイン符号化部26は、まず、各ゲイン
符号に対応するゲインベクトルを生成する。そして、各
ゲインベクトルと各要素を、前記適応音源と前記仮のパ
ルス音源に乗じて加算し、線形予測係数符号化部9が出
力した線形予測係数を用いた合成フィルタに通すこと
で、仮の合成音を得る。この仮の合成音と入力音声5と
の距離を調べ、この距離を最小とする仮のパルス音源と
ゲイン符号を選択し、このゲイン符号と、仮のパルス音
源に対応するパルス音源符号とを出力する。
第2のパルス音源符号化部27は、まず、各パルス音源
符号に対応した仮のパルス音源を生成し、この仮のパル
ス音源に適切なゲインを乗じ、線形予測係数符号化部9
が出力した線形予測係数を用いた合成フィルタに通すこ
とで、仮の合成音を得る。この仮の合成音と入力音声5
との距離を調べ、この距離を最小とするパルス音源符号
を選択すると共に、距離が近い順にパルス音源符号候補
を求めると共に、各パルス音源符号候補に対応する仮の
パルス音源を出力する。
第2のゲイン符号化部28は、まず、各ゲイン符号に対
応する仮のゲイン値を生成する。そして、各ゲイン値を
前記仮のパルス音源に乗じ、線形予測係数符号化部9が
出力した線形予測係数を用いた合成フィルタに通すこと
で、仮の合成音を得る。この仮の合成音と入力音声5と
の距離を調べ、この距離を最小とする仮のパルス音源と
ゲイン符号を選択し、このゲイン符号と、仮のパルス音
源に対応するパルス音源符号とを出力する。
なお、多重化部3は、線形予測係数の符号、モード情
報、第1の音源符号化モードの場合には適応音源符号と
パルス音源符号とゲイン符号、第2の音源符号化モード
の場合にはパルス音源符号とゲイン符号を多重化し、得
られた符号6を出力する。また、分離部4は、前記符号
6を、線形予測係数の符号、モード情報、モード情報が
第1の音源符号化モードの場合には適応音源符号とパル
ス音源符号とゲイン符号、モード情報が第2の音源符号
モードの場合にはパルス音源符号とゲイン符号とに分離
する。
モード情報が第1の音源符号化モードの場合には、第
1のパルス音源復号部29がパルス音源符号に対応したパ
ルス音源を出力し、第1のゲイン復号部30がゲイン符号
に対応したゲインベクトルを出力し、復号部2内で適応
音源復号部15の出力と前記パルス音源に前記ゲインベク
トルの各要素を乗じて加算することで音源を生成し、こ
の音源を合成フィルタ14に通すことで出力音声7を生成
する。モード情報が第2の音源符号モードの場には、第
2のパルス音源復号部31がパルス音源符号に対応したパ
ルス音源を出力し、第2のゲイン復号部32がゲイン符号
に対応したゲイン値を出力し、復号部2内で前記パルス
音源に前記ゲイン値を乗じて音源を生成し、この音源を
合成フィルタ14に通すことで出力音声7を生成する。
図18は、上述の音声符号化復号装置における第1のパ
ルス音源符号化部25及び第2のパルス音源符号化部27の
構成を示すものである。
図において、33は符号化された線形予測係数、34はパ
ルス音源符号候補、35は符号化対象信号、36はインパル
ス応答算出部、37はパルス位置候補探索部、38はパルス
振幅候補探索部、39はパルス振幅符号帳である。なお、
符号化対象信号35は、第1のパルス音源符号化部25の場
合には、適応音源に適切なゲインを乗じて入力音声5か
ら減算した信号であり、第2のパルス音源符号化部27の
場合には、入力音声5そのものである。なお、パルス位
置符号帳23は、図14と図15にて説明したものと同様であ
る。
まず、インパルス応答算出部36は、符号化された線形
予測係数33をフィルタ係数とする合成フィルタのインパ
ルス応答を算出し、このインパルス応答に聴覚重み付け
処理を行う。更に、適応音源符号化部10で求めた適応音
源符号、つまりピッチ周期長が、音源符号化を行う基本
単位である(サブ)フレーム長より短い場合には、ピッ
チフィルタにより上記インパルス応答をフィルタリング
する。
パルス位置候補探索部37は、パルス位置符号帳23に格
納されているパルス位置を順次読み出し、読み出された
所定個のパルス位置に振幅が一定で極性のみを適切に与
えたパルスを立てることで仮のパルス音源を生成し、こ
の仮のパルス音源と前記インパルス応答を畳み込み演算
することで仮の合成音を生成し、この仮の合成音と符号
化対象信号35の距離を計算し、距離が近い順に数組のパ
ルス位置候補を求め、出力する。なお、この距離計算
は、文献1と同様に、実際には仮の音源と仮の合成音は
生成せずに、インパルス応答と符号化対象信号35の相関
関数とインパルス応答の相互相関関数を予め計算してお
き、それらの簡単な加算に基づいて距離計算を実行す
る。パルス振幅候補探索部38は、パルス振幅符号帳39内
のパルス振幅ベクトルを順に読み出し、前記パルス位置
候補の各々とこのパルス振幅ベクトルを用いて(1)式
のDの計算を行い、Dが大きい順に数組のパルス位置候
補とパルス振幅候補を選択し、パルス音源候補34として
出力する。
図19は、パルス位置候補探索部37内で生成される仮の
パルス音源と、パルス振幅候補探索部38でパルス振幅を
付与された仮のパルス音源を説明する説明図である。
図19の(a)及び図19の(b)は、各々図16の(a)
と図16の(b)と同一である。パルス振幅候補探索部38
にてパルス振幅ベクトルを用いて振幅付与した結果が、
図19の(c)のようになる。
代数的音源の符号化情報量を効率的に削減する従来の
音声符号化復号装置として、「CELP符号化における位相
適応型パルス音源探索の検討」(江原宏幸、吉田幸司、
八木敏男著、日本音響学会講演論文集、Vol.1,pp.273−
274(平成8年9月)、(以下、文献3と呼ぶ))に開
示されているものがある。文献3では、適応音源符号、
つまりピッチ周期長を用いて、代数的音源をピッチ周期
化して用いる。更に、適応音源の1ピッチ波形のピーク
位置情報に基づいて代数的音源の時間方向ずれ(位相)
を適応化する手法を導入した際に、代数的音源のパルス
位置選択に偏りがでる事を利用して、選択率が低い位置
を間引き、パルス位置に与える情報量を削減している。
複数のパルスで構成される音源をピッチ周期化するこ
とで、音源に必要な情報量を削減する従来の音声符号化
復号装置として、「4.8Kb/sマルチパルス音声符号化
法」小沢一範、荒関卓著、日本音響学会講演論文集、Vo
l.1,pp.203−204(昭和60年9月)、(以下、文献4と
呼ぶ))に開示されているものがある。文献4では、ま
ず、フレームをピッチ周期毎のサブフレームに分割し、
各サブフレームの音源を所定数のパルスで表現する。フ
レーム内の1つのサブフレームを選択し、このサブフレ
ームのパルス音源をピッチ周期で繰り返すようにフレー
ム内全体の音源を生成した時に、フレーム全体として最
も良好な合成音を生成するサブフレームを代表区間とし
て選択し、その区間のパルス情報を符号化する。なお、
フレーム当たりの音源符号化情報量を一定にするため、
1フレーム当たりのパルス数は4に固定されている。
パルス音源に位相特性や音源波特性を与えることで、
音源の表現性を改善した従来の音声符号化復号装置とし
て、「パルス駆動型分析合成符号化の音源に関する検
討」(細井茂、佐藤好男、牧野忠由著、電子情報通信学
会講演論文集、A−254(1992年3月)、(以下、文献
5と呼ぶ))と、「低ビットレートCELPにおける有声音
品質改善の検討」(山浦正、高橋真哉著、日本音響学会
講演論文集、Vol.1,pp.263−264(平成6年10月〜11
月)、(以下、文献6と呼ぶ))に開示されているもの
がある。
文献5では、パルス音源に固定の音源波特性(文献5
中では、パルス波形と記載)を与える。長期予測遅延
(ピッチ)周期で前記音源波を繰り返すことで(サブ)
フレーム長の音源を生成し、この音源による合成音と入
力音声の歪みを最小にする音源ゲインと音源波先頭位置
を探索し、結果を符号化する。文献6では、適応音源と
パルス音源に量子化された位相振幅特性を付与する。位
相振幅特性符号帳内に格納されている位相振幅特性付加
フィルタ係数を順に読み出して、適応音源のラグ(ピッ
チ)周期で繰り返すパルス音源と適応音源を加算して得
られるフレーム長の音源に対して位相振幅特性付加フィ
ルタリングと合成フィルタリングを行い、得られた合成
音と入力音声の距離を最小にする位相振幅特性フィルタ
係数と音源を与えた位相振幅特性符号、適応音源符号、
パルス音源符号を出力する。
パルス列音源を一部に備える雑音符号帳を用いること
で、有声音区間の符号化品質を改善する従来の音声符号
化復号装置として、「A Very High−Quality Celp Code
r at the Rate of 2400 bps」(Gao Yang,H.Leich,R.Bo
ite,EUROSPEECH '91,pp.829−832(以下、文献7と呼
ぶ)に開示されているものがある。文献7では、ピッチ
周期(適応音源のラグ長)で繰り返すパルス列と、ピッ
チ周期の半分の周期で繰り返すパルス列と、大半の部分
を0化(スパース化)した雑音とで1つの音源符号帳を
構成している。
上述のように、文献1〜文献7に開示された従来の音
声符号化復号装置には、以下に述べるような問題があ
る。即ち、まず、文献1の音声符号化復号装置では、振
幅が一定で極性のみを適切に与えたパルスを立てること
で仮の音源を生成してパルス位置の探索を行っているた
め、最終的にパルス毎に独立のゲイン(振幅)を付与す
る改良を行う場合には、この振幅一定の近似が探索結果
に与える影響は非常に大きく、最適なパルス位置を見出
せない問題がある。また、文献2では、この近似の影響
を抑制するために、パルス位置候補を複数残しておい
て、パルス振幅候補との組み合わせで最適なものを選択
する方法を採用しているが、これは単純に演算量の増加
を伴う問題がある。
また、文献2に開示されている音声符号化復号装置で
は、適応音源と代数的音源の加算で符号化する第1の音
源符号化モードと、代数的音源のみで符号化する第2の
音源符号化モードのどちらを使用するかをピッチ周期性
の高さに基づいて決定しているが、ピッチ周期性が低く
ても適応音源を使用した方が望ましい場合や、ピッチ周
期性が高くても代数的音源のみで符号化する方が望まし
い場合があり、最も良い符号化特性を与えるモード判別
ができていない問題がある。
ピッチ周期性が低くても適応音源を使用した方が望ま
しい例としては、ピッチ周期が短く、代数的音源の少な
いパルス数では良好に音源を表現できない場合がある。
この傾向は、音源符号化情報量が少なく、パルス数が少
ない時程強くなる。ピッチ周期性が高くても代数的音源
のみで符号化した方が望ましい例としては、ピッチ周期
が長く、代数的音源の少ないパルスでも比較的良好に音
源を表現できる場合がある。これらの例のように、ピッ
チ周期やパルス数によってモード判別の閾値は、適応的
に変化させる必要が生じる。しかしながら、文献2の音
声符号化復号装置では、このような適応的な処理を行っ
ていないため、最も良い符号化特性を与えるモード判別
ができていない問題がある。
文献3の音声符号化復号装置では、代数的音源をピッ
チ周期化して用いているが、ピッチ周期を適応音源符号
に依存しているために必ず適応音源と代数的音源の両方
を用いる必要があり、適応音源を用いた符号化特性が悪
い部分では、音声符号化特性が劣化する問題がある。一
例として、現フレームの音源のピッチ周期性が高いにも
係わらず、前フレームと現フレームの音源の類似度が低
い場合には、適応音源の効率は悪いが、代数的音源のピ
ッチ周期化な行った方が望ましい。
文献2の代数的音源のみで音源を符号化する第2の音
源符号化モードを用いて、上記部分の符号化を行っても
代数的音源のピッチ周期化を行っていないため、やはり
符号化特性が悪い課題がある。文献2の代数的音源をピ
ッチ周期化する方法として、ピッチ周期を別途符号化す
る方法が考えられるが、ピッチ周期を符号化する情報量
は大きく、パルス数の削減にる品質劣化が起こる課題が
ある。
また、文献3の音声符号化復号装置では、選択率が低
いパルス位置を間引くことでパルス位置に与える情報量
を削減しているが、ピッチ周期が短い場合には、全く使
用されないパルス位置があり、符号化情報に無駄があ
る。更に、文献4の音声符号化復号装置では、フレーム
を代表するピッチ周期長のサブフレームのパルス情報を
符号化し、このパルス音源をピッチ周期化して用いてい
るが、ピッチ周期が短く、パルス位置の符号化範囲が狭
い場合でも、広い符号化範囲に対応するパルス位置符号
化方式が固定的に用いられており、文献3と同様に、符
号化情報に無駄がある。
文献5の音声符号化復号装置では、固定の音源波をピ
ッチ周期で繰り返して(サブ)フレーム長の音源生成
し、この音源による合成音と入力音声の歪みを最小にす
る音源ゲインと音源波先頭位置を探索しているが、各音
源波先頭位置毎の距離計算にかかる演算量が多く(条件
にもよるが文献1の方法の100倍程度のオーダーの演算
量となる)、実時間処理を可能とするためには、文献5
のように、音源位置組み合わせを少なく(100個以下)
に止めておく必要がある。つまり、各ピッチ周期長の音
源の位置を独立に与えるような音源位置組み合わせ数が
多い(10000個以上)場合には、実時間処理は困難とな
る問題がある。
文献6の音声符号化復号装置では、適応音源とパルス
音源に量子化された位相振幅特性を付与しているが、文
献5と同様に、1つの音源位置当たりの距離計算演算量
が多く、パルス位置の組み合わせ数が増えていくと、そ
れに比例して探索演算量が増加し、実時間処理が困難に
なる問題がある。文献7に開示されている音声符号化復
号装置では、パルス列音源を一部に備える雑音符号帳を
用いることで、有声音区間の符号化品質を改善している
が、表現できるのはピッチ周期パルス列、ピッチ周期の
半分の周期のパルス列、スパース化した雑音のみであ
り、表現できる音源にかなりの制約があり、入力音声に
よっては符号化特性が劣化する課題がある。また、周期
化されたパルス列音源については、パルス先頭位置の違
いだけ、つまり音源サンプル数種類の符号が必要であ
り、小さなサイズの符号帳では、一部をパルス列音源と
できない問題がある。
この発明は、以上の問題を解決しようとするもので、
入力音声をスペクトル包絡情報と音源に分けてフレーム
単位で音源を符号化する際の符号化特性を格段的に向上
し得る音声符号化装置、音声復号装置及び音声符号化復
号装置を提供するものである。
発明の開示 この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化装置において、前記音源を複数の音
源位置と音源ゲインで符号化する音源符号化部(11と1
2)を有し、当該音源符号化部内に、音源位置候補毎に
与える仮ゲインを算出する仮ゲイン算出部(40)と、前
記仮ゲインを用いて複数の音源位置を決定する音源位置
探索部(41)と、前記決定された音源位置を用いて前記
音源ゲインを符号化するゲイン符号化部(12)とを備え
ることを特徴とする。
この発明に係る音声符号化復号装置は、入力音声をス
ペクトル包絡情報と音源に分けて、フレーム単位で音源
を符号化する復号化部(1)と、前記符号化された音源
を復号して出力音声を生成する復号部(2)とを備えた
音声符号化復号装置において、符号化部(1)に、前記
音源を複数の音源位置と音源ゲインで符号化する音源符
号化部(11と12)を有し、当該音源符号化部内に、音源
位置候補毎に与える仮ゲインを算出する仮ゲイン算出部
(40)と、前記仮ゲインを用いて複数の音源位置を決定
する音源位置探索部(41)と、前記決定された音源位置
を用いて前記音源ゲインを符号化するゲイン符号化部
(12)とを備え、復号部(2)に、前記複数の音源位置
と前記音源ゲインとを復号して音源を生成する音源復号
部(16と17)を備えることを特徴とする。
この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源で符
号化する音声符号化装置において、スペクトル包絡情報
に基づく合成フィルタのインパルス応答を求めるインパ
ルス応答算出部(21)と、前記インパルス応答に所定の
音源位相特性を付与する位相付与フィルタ(42)と、前
記音源位相特性を付与された前記インパルス応答を用い
て、前記音源を複数のパルス音源位置と音源ゲインに符
号化する音源符号化部(22と12)とを備えることを特徴
とする。
この発明に係る音声符号化復号装置は、入力音声をス
ペクトル包絡情報と音源に分けて、フレーム単位で音源
を符号化する符号化部(1)と、前記符号化された音源
を復号して出力音声を生成する復号部(2)とを備えた
音声符号化復号装置において、符号化部(1)に、スペ
クトル包絡情報に基づく合成フィルタのインパルス応答
を求めるインパルス応答算出部(21)と、前記インパル
ス応答に所定の音源位相特性を付与する位相付与フィル
タ(42)と、前記音源位相特性を付与された前記インパ
ルス応答を用いて、前記音源を複数のパルス音源位置と
音源ゲインに符号化する音源符号化部(22と12)とを備
え、復号部(2)に、前記複数のパルス音源位置と前記
音源ゲインを復号して音源を生成する音源復号部(16と
17)を備えることを特徴とする。
この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化装置において、音源を複数のパルス
音源位置と音源ゲインで符号化する音源符号化部(11と
12)を備え、前記音源符号化部は、複数の音源位置候補
テーブル(51,52)を備え、ピッチ周期が所定値以下の
場合には、前記音源符号化部内の音源位置候補テーブル
(51,52)を切り替えて使用することを特徴とする。
この発明に係る音声復号装置は、フレーム単位で符号
化された音源を復号して出力音声を生成する音声復号装
置において、複数のパルス音源位置と音源ゲインを復号
して音源を生成する音源復号部(16と17)を備え、前記
音源復号部は、複数の音源位置候補テーブル(55,56)
を備え、ピッチ周期が所定値以下の場合には、前記音源
復号部内の音源位置候補テーブル(55,56)を切り替え
て使用することを特徴とする。
この発明に係る音声符号化復号装置は、入力音声をス
ペクトル包絡情報の音源に分けて、フレーム単位で音源
を符号化する符号化部(1)と、前記符号化された音源
を復号して出力音声を生成する復号部(2)とを備えた
音声符号化復号装置において、符号化部(1)に、音源
を複数のパルス音源位置と音源ゲインで符号化する音源
符号化部(11と12)を備え、前記音源符号化部は、複数
の音源位置候補テーブル(51,52)を備え、ピッチ周期
が所定値以下の場合には、前記音源符号化部内の音源位
置候補テーブル(51,52)を切り替えて使用し、復号部
(2)に、複数のパルス音源位置と音源ゲインを復号し
て音源を生成する音源復号部(16と17)を備え、前記音
源復号部は、複数の音源位置候補テーブル(55,56)を
備え、ピッチ周期が所定値以下の場合には、前記音源復
号部内の音源位置候補テーブル(55,56)を切り替えて
使用することを特徴とする。
この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化装置において、ピッチ周期長の音源
を複数のパルス音源位置と音源ゲインで符号化する音源
符号化部(11と12)を備え、前記音源符号化部内で、ピ
ッチ周期を越えるパルス音源位置(300)を表す符号に
対して、ピッチ周期範囲内のパルス音源位置(310)を
表すように再設定を行うことを特徴とする。
この発明に係る音声復号装置は、フレーム単位で符号
化された音源を復号して出力音声を生成する音声復号装
置において、複数のパルス音源位置と音源ゲインを復号
してピッチ周期長の音源を生成する音源復号部(16と1
7)を備え、当該音源復号部内で、ピッチ周期を越える
パルス音源位置(300)を表す符号に対して、ピッチ周
期範囲内のパルス音源位置(310)を表すように再設定
を行うことを特徴とする。
この発明に係る音声符号化復号装置は、入力音声をス
ペクトル包絡情報と音源に分けて、フレーム単位で音源
を符号化する符号化部(1)と、前記符号化された音源
を復号して出力音声を生成する復号部(2)とを備えた
音声符号化復号装置において、符号化部(1)に、ピッ
チ周期長の音源を複数のパルス音源位置と音源ゲインで
符号化する音源符号化部(11と12)を備え、当該音源符
号化部内で、ピッチ周期を越えるパルス音源位置(30
0)を表す符号に対して、ピッチ周期範囲内のパルス音
源位置(310)を表すように再設定を行い、復号部2
に、複数のパルス音源位置と音源ゲインを復号してピッ
チ周期長の音源を生成する音源復号部(16と17)を備
え、当該音源復号部内で、ピッチ周期を越えるパルス音
源位置(300)を表す符号に対して、ピッチ周期範囲内
のパルス音源位置(310)を表すように再設定を行うこ
とを特徴とする。
この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化装置において、音源を複数のパルス
音源位置と音源ゲインで符号化する第1の音源符号化部
(10,11と12)と、当該第1の音源符号化部と異なる第
2の音源符号化部(57と58)と、前記第1の音源符号化
部が出力した符号化歪と前記第2の音源符号化部が出力
した符号化歪とを比較して、小さい符号化歪を与えた前
記第1又は第2の音源符号化部を選択する選択部(59)
を備えることを特徴とする。
この発明に係る音声符号化復号部は、入力音声をスペ
クトル包絡情報と音源に分けて、フレーム単位で音源を
符号化する符号化部(1)と、前記符号化された音源を
復号して出力音声を生成する復号部(2)とを備えた音
声符号化復号装置において、符号化部(1)に、音源を
複数のパルス音源位置と音源ゲインで符号化する第1の
音源符号化部(10,11と12)と、当該第1の音源符号化
部と異なる第2の音源符号化部(57と58)と、前記第1
の音源符号化部が出力した符号化歪と前記第2の音源符
号化部が出力した符号化歪とを比較して、小さい符号化
歪を与えた前記第1又は第2の音源符号化部を選択する
選択部(59)を備え、復号部(2)に、前記第1の音源
符号化部に対応する第1の音源復号部(15,16と17)
と、前記第2の音源符号化部に対応する第2の音源復号
部(60と61)と、前記選択部の選択結果に基づいて前記
第1の音源復号部又は第2の音源復号部の一方を使用す
る制御部(330)を備えることを特徴とする。
この発明に係る音声符号化装置は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化装置において、音源位置情報を表す
複数の符号語(340)と音源波形を表す複数の符号語(3
50)から成り、互いの音源符号帳内の符号語が表す音源
位置情報が全て異なる複数の音源符号帳(63,64)と、
当該複数の音源符号帳を用いて音源を符号化する音源符
号化部(11)とを備えることを特徴とする。
この発明に係る音声符号化装置は、前記音源符号帳
(63,64)内の音源位置情報を表す符号語(340)の数
を、ピッチ周期に応じて制御することを特徴とする。
この発明に係る音声復号装置は、フレーム単位で符号
化された音源を復号して出力音声を生成する音声復号装
置において、音源位置情報を表す複数の符号語(340)
と音源波形を表す複数の符号語(350)から成り、互い
の音源符号帳内の符号語が表す音源位置情報が全て異な
る複数の音源符号帳(63,64)と、前記複数の音源符号
帳を用いて音源を復号する音源復号部(16)とを備える
ことを特徴とする。
この発明に係る音声符号化復号装置は、入力音声をス
ペクトル包絡情報と音源に分けて、フレーム単位で音源
を符号化する符号化部(1)と、前記符号化された音源
を復号して出力音声を生成する復号部(2)とを備えた
音声符号化復号装置において、符号化部(1)に、音源
位置情報を表す複数の符号語(340)と音源波形を表す
複数の符号語(350)から成り、互いの音源符号帳内の
符号語が表す音源位置情報が全て異なる複数の音源符号
帳(63,64)と、前記複数の音源符号帳を用いて音源を
符号化する音源符号化部(11)とを備え、復号部(2)
に、符号化部と同じ複数の音源符号帳(63,64)と、前
記複数の音源符号帳を用いて音源を復号する音源復号部
(16)とを備えることを特徴とする。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、前記音源を複数の音
源位置と音源ゲインで符号化する音源符号化工程を有
し、当該音源符号化工程内に、音源位置候補毎に与える
仮ゲインを算出する仮ゲイン算出工程と、前記仮ゲイン
を用いて複数の音源位置を決定する音源位置探索工程
と、前記決定された音源位置を用いて前記音源ゲインを
符号化するゲイン符号化工程とを備えることを特徴とす
る。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、スペクトル包絡情報
に基づく合成フィルタのインパルス応答を求めるインパ
ルス応答算出工程と、前記インパルス応答に所定の音源
位相特性を付与する位相付与フィルタ工程と、前記音源
位相特性を付与された前記インパルス応答を用いて、前
記音源を複数のパルス音源位置と音源ゲインに符号化す
る音源符号化工程とを備えることを特徴とする。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、音源を複数のパルス
音源位置と音源ゲインで符号化する音源符号化工程を備
え、ピッチ周期が所定値以下の場合には、前記音源符号
化工程内の音源位置候補テーブルを切り替えて使用する
工程を備えたことを特徴とする。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、ピッチ周期長の音源
を複数のパルス音源位置と音源ゲインで符号化する音源
符号化工程を備え、前記音源符号化工程内で、ピッチ周
期を越えるパルス音源位置を表す符号に対して、ピッチ
周期範囲内のパルス音源位置を表すように再設定を行う
工程を備えたことを特徴とする。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、音源を複数のパルス
音源位置と音源ゲインで符号化する第1の音源符号化工
程と、当該第1の音源符号化工程と異なる第2の音源符
号化工程と、前記第1の音源符号化工程が出力した符号
化歪と前記第2の音源符号化工程が出力した符号化歪と
を比較して、小さい符号化歪を与えた前記第1又は第2
の音源符号化工程を選択する選択工程を備えることを特
徴とする。
この発明に係る音声符号化方法は、入力音声をスペク
トル包絡情報と音源に分けて、フレーム単位で音源を符
号化する音声符号化方法において、音源位置情報を表す
複数の符号語と音源波形を表す複数の符号語から成り、
互いの音源符号帳内の符号語が表す音源位置情報が全て
異なる複数の音源符号帳と、当該複数の音源符号帳を用
いて音源を符号化する音源符号化工程とを備えることを
特徴とする。
この発明に係る音声符号化装置は、前記仮ゲイン算出
部(40)は、フレーム内において音源位置候補に単一の
パルスを立てるものとして、各音源位置候補毎にゲイン
を求めることを特徴とする。
この発明に係る音声符号化装置は、前記ゲイン符号化
部(12)は、前記音源位置探索部(41)で求めた複数の
音源位置の各音源位置に対して、前記仮ゲインとは異な
る音源ゲインを求めて、この求めた音源ゲインを符号化
することを特徴とする。
図面の簡単な説明 図1は、この発明の実施の形態1の音声符号化復号装
置とその中の駆動音源符号化部の構成を示すブロック図
である。
図2は、図1の仮ゲイン算出部で算出される仮ゲイン
とパルス位置探索部で生成される仮のパルス音源の説明
に供する略線図である。
図3は、この発明の実施の形態2の音声符号化復号装
置内の駆動音源符号化部の構成を示すブロック図であ
る。
図4は、この発明の実施の形態2の音声符号化復号装
置内の駆動音源復号部の構成を示すブロック図である。
図5は、この発明の実施の形態3の音声符号化復号装
置内の駆動音源符号化部の構成を示すブロック図であ
る。
図6は、この発明の実施の形態3の音声符号化復号装
置内の駆動源復号部の構成を示すブロック図である。
図7は、図5及び図6の音声符号化復号装置で使用す
る第1のパルス位置符号帳ないし第Nのパルス位置符号
帳の一例を示す図である。
図8は、この発明の実施の形態4の音声符号化復号装
置で使用するパルス位置符号帳の一例を示す図である。
図9は、この発明の実施の形態5の音声符号化復号装
置の全体構成を示すブロック図である。
図10は、この発明の実施の形態6の音声符号化復号装
置内の騒動音源符号化部の構成を示すブロック図であ
る。
図11は、この発明の実施の形態6の音声符号化装置内
の駆動音源符号化部で使用する第1の駆動音源符号帳と
第2の駆動音源符号帳の構成の説明に供する略線図であ
る。
図12は、この発明の実施の形態7の音声符号化復号装
置内の駆動音源符号化部で使用する第1の駆動音源符号
帳と第2の駆動音源符号帳の構成の説明に供する略線図
である。
図13は、従来のcelp系音声符号化復号装置の全体構成
を示すブロック図である。
図14は、従来の音声符号化復号装置で用いられている
駆動音源符号化部の構成を示すブロック図である。
図15は、従来のパルス位置符号帳の構成を示す図であ
る。
図16は、従来のパルス位置探索部内で生成される仮の
パルス音源の説明に供する略線図である。
図17は、従来の音声符号化復号装置の全体構成を示す
ブロック図である。
図18は、従来の音声符号化復号装置における第1のパ
ルス音源符号化部及び第2のパルス音源符号化部の構成
を示すブロック図である。
図19は、従来の音声符号化復号装置におけるパルス位
置候補探索部内で生成される仮のパルス音源とパルス振
幅候補探索部でパルス振幅を付与された仮のパルス音源
の説明に供する略線図である。
図20は、従来の適応音源符号化部の動作を示す図であ
る。
図21は、従来の駆動音源符号化部の動作を示す図であ
る。
図22は、従来のゲイン符号化部の動作を示す図であ
る。
図23は、従来の駆動音源符号化部の動作を示す図であ
る。
図24は、従来のインパルス応答算出部の動作を示す図
である。
図25は、従来のインパルス信号とインパルス応答を示
す図である。
図26は、この発明の実施の形態1の駆動音源符号化部
の動作を示す図である。
図27は、この発明の実施の形態1の仮ゲインの求め方
を示す図である。
図28は、この発明の実施の形態1のゲイン符号化部の
一部の動作を示す図である。
図29は、この発明の実施の形態3のピッチ周期化処理
を示す図である。
発明を実施するための最良の形態 以下、図面を参照しながら、本発明の実施の形態を説
明する。
実施の形態1. 図13,図14との対応部分に同一符号を付けた図1は、
本発明による音声符号化復号装置の実施の形態1とし
て、音声符号化復号装置の全体構成と音声符号化復号装
置内の駆動音源符号化部11を示す。
図1において、新規な部分は、仮ゲイン算出部40、パ
ルス位置探索部41である。仮ゲイン算出部40は、インパ
ルス応答算出部21が出力したインパルス応答215と図20
に示し誤差信号118である符号化対象信号20との相関を
計算し、この相関に基づいて各パルス位置における仮ゲ
インを算出する。仮ゲイン216とは、パルス位置符号帳2
3から得られたあるパルス位置にパルスを立てる場合
に、そのパルスに与えるゲイン値のことである。
図26に示すように、パルス位置探索部41は、図15で説
明した各パルス位置符号230に対応して、パルス位置符
号帳23に格納されているパルス位置を順次読み出し、読
み出された所定個のパルス位置に仮ゲイン216を与えた
パルスを立てることで、仮のパルス音源172aを生成す
る。この仮のパルス音源172aとインパルス応答215を畳
み込み演算することで仮の合成音174を生成し、この仮
の合成音174と符号化対象信号20の距離を計算する。こ
の計算を全てのパルス位置の全組み合わせで8×8×8
×16=8192回行う。そして、最も小さい距離を与えたパ
ルス位置符号230を駆動音源符号19として多重化部3へ
出力すると共に、そのパルス位置符号230に対応する仮
のパルス音源172aを符号化部1内のゲイン符号化部12に
出力する。
図2に、仮ゲイン算出部40で算出される仮ゲイン216
と、パルス位置探索部41で生成される仮のパルス音源17
2aを示す。
図2の(a)に示す仮ゲイン216aは、パルス音源とし
て4個のパルスを立てるのではなく、1個のパルスを立
てるものと仮定して、4個のパルスの各パルス位置毎に
算出される。算出式の一例を(8)式に示す。
a(x)=d(x)/φ(x,x) (8) 但し、 d(x):パルス位置xにインパルスを立てたときの
インパルス応答と入力音声の相関 φ(x,y):パルス位置xインパルスを立てたときの
インパルス応答とパルス位置yにインパルスを立てたと
きのインパルス応答との相関 この(8)式は、パルス位置xに単一のパルスの立て
る時の最適ゲイン値を与えている。仮ゲイン算出部40
は、図27に示すように、0〜39の40サンプルに対する各
パルス位置の仮ゲインを計算して、パルス位置探索部41
に出力する。そして、パルス位置探索部41内で、パルス
位置{m(k),k=1,・・・,4}にパルスを立てること
で、仮のパルス音源172aを生成する場合には、図2の
(b)に示すように、図2の(a)に示した仮ゲイン21
6を用いて、各パルスにゲイン{a(m(k)),k=1,
・・・,4}を与える。
上記のように、仮ゲインa(x)を与える場合のパル
ス位置探索部41における距離計算方法について説明す
る。
距離の最小化を(1)式のDを最大化することと等価
とし、Dの計算をパルス位置の全組み合わせに対して実
行することで探索を実行することは、文献1と同様であ
る。しかし、この実施の形態1の場合には、(2)式と
(3)式において、g(k)を(8)式で定義されるa
(m(k))に置き換えて単純化して計算を行う。単純
化された(2)式と(3)式は、次式となる。
但し、 d′(m(k))=a(m(k))d(m(k)) (11) φ′(m(k)),m(i))=a(m(k))a(m(i))φ(m(k),m(i)) (12) m(k):k番目のパルスのパルス位置 従って、パルス位置の全組み合わせに対するDの計算
を始める前に、d′とφ′の計算を行っておけば、後は
(9)式と(10)式に示す単純加算という少ない演算量
でDが算出できる。
なお、上記のように、仮ゲイン216を用いてパルス位
置探索を行った場合には、段階のゲイン符号化部12で
は、パルス毎に独立ゲインを付与する構成が必要であ
る。
図28に、4個のパルスを立てる場合のゲイン符号化部
12のゲイン符号帳150の一例を示す。
ゲイン探索部160は、適応音源符号化部10から適応音
源113と駆動音源符号化部11から仮のパルス音源172とを
入力し、ゲイン符号帳150にある各パルスに対応した独
立のゲインg1とg21〜g24を乗じて加算し、仮の音源199
を作成する。その後は、図22に示す合成フィルタ155以
降の動作と同じ動作をし、距離が最小になるゲイン符号
151を求める。
以上のように、この実施の形態1の音声符号化復号装
置では、パルス位置を決定する前に、パルス位置毎に与
える仮ゲインを算出し、この仮ゲインを用いてパルスの
振幅が異なる仮のパルス音源172aを生成してパルス位置
を決定するようにしたので、ゲイン符号化部12は、最終
的にパルス毎に独立のゲインを付与する場合に、パルス
位置探索時での最終的なゲインに対する近似精度が上が
り、最適なパルス位置を見出しやすくなり、符号化特性
を改善できる効果がある。従来の技術において、パルス
位置を決定する場合は、パルスの振幅は一定であったた
め、正しいパルス位置を決定することが難しかった。ま
た、この実施の形態1によれば、パルス位置探索におけ
る演算量の増加も少なくて済む効果がある。
実施の形態2. 図14との対応部分に同一符号を付けた図3は、本発明
による音声符号化復号装置の実施の形態2として、図13
の音声符号化復号装置内の駆動音源符号化部11を示し、
また、図4は、図13の音声符号化復号装置内の駆動音源
復号部16を示す。
図において、42,48は位相付与フィルタ、43は駆動音
源符号、44は駆動音源、46はパルス位置復号部、47は符
号化部1内のパルス位置符号帳23と同じ構成のパルス位
置符号帳である。
符号化部1内の位相付与フィルタ42は、インパルス応
答算出部21が出力して特殊な位相関係が生じやすいイン
パルス応答215に対して位相特性を付与するフィルタリ
ングを行い、即ち、各周波数毎に移相を行い、現実の位
置関係に近づけたインパルス応答215aを出力する。復号
部2内のパルス位置復号部46は、駆動音源符号43に基づ
いてパルス位置符号帳47内のパルス位置データを読み出
し、駆動音源符号43で指定された極性の複数のパルスを
パルス位置データに基づいて立て、駆動音源として出力
する。位相付与フィルタ48は、駆動音源に対して、位相
特性を付与するフィルタリングを行い、得られた信号を
駆動音源44として出力する。
なお、音源位相特性としては、文献5と同様に、固定
のパルス波形を与えるようにしても良いし、特願平6−
264832号公報に開示されたものと同様に、量子化された
位相振幅特性を用いても良い。過去の音源の一部を切り
出したり平均化して用いても良い。また、実施の形態1
の仮ゲイン算出部40と組み合わせて用いることも可能で
ある。
以上のように、この実施の形態2の音声符号化復号装
置は、符号化部にて、音源位相特性を付与したインパル
ス応答を用いて、音源を複数のパルス音源位置の音源ゲ
インに符号化し、復号部にて、音源に音源位相特性を付
与するようにしたので、各音源位置組み合わせ毎の距離
計算にかかる演算量を増やさずに、音源に位相特性の付
与ができるようになり、パルス位置の組み合わせ数が増
えていっても実現可能な演算量の範囲で位相特性を付与
した音源符号化復号が可能となり、音源の表現性向上に
よる符号化品質改善が得られる効果がある。
実施の形態3. 図3及び図4との対応部分に同一符号を付けた図5
は、本発明による音声符号化復号装置の実施の形態3と
して、図13の音声符号化復号装置内の駆動音源符号化部
11を示し、また、図6は、駆動音源復号部16を示す。音
声符号化復号装置の全体の構成は、図13と同様である。
図において、49,53はピッチ周期、50はパルス位置探
索部、51,55は第1のパルス位置符号帳、52,56は第Nの
パルス位置符号帳、54はパルス位置復号部である。
騒動音源符号化部11内では、ピッチ周期49に基づい
て、第1のパルス位置符号帳51ないし第Nのパルス位置
符号帳52のN個のパルス位置符号帳の中の1つを選択す
る。ここで、ピッチ周期としては、適応音源の繰り返し
周期をそのまま用いても良いし、別途分析して算出した
ピッチ周期を用いても良い。但し、後者の場合には、ピ
ッチ周期を符号化して、復号部2内の駆動音源復号部16
にも与える必要がある。
パルス位置探索部50は、各パルス位置符号に対応し
て、選択されたパルス位置符号帳に格納されているパル
ス位置を順次読み出し、読み出された所定個のパルス位
置に振幅が一定で極性のみを適切に与えたパルスを立
て、ピッチ周期49の値に応じてピッチ周期化処理を行っ
て仮のパルス音源を生成する。この仮のパルス音源とイ
ンパルス応答を畳み込み演算することで仮の合成音を生
成し、この仮の合成音と符号化対象信号20の距離を計算
する。そして、最も小さい距離を与えたパルス位置符号
を駆動音源符号19として出力すると共に、そのパルス位
置符号に対応する仮のパルス音源を符号化部1内のゲイ
ン符号化部12に出力する。
駆動音源復号部16内では、ピッチ周期53に基づいて、
第1のパルス位置符号帳51ないし第Nのパルス位置符号
帳52のN個のパルス位置符号帳の中の1つを選択する。
パルス位置復号部46は、駆動音源符号43に基づいて選択
されたパルス位置符号帳内のパルス位置データを読み出
し、駆動音源符号43で指定された極性の複数のパルスを
パルス位置データに基づいて立て、ピッチ周期53に応じ
てピッチ周期化処理を行って駆動音源44として出力す
る。
図7は、音源符号化を行うフレーム長が80サンプルの
場合に用いる第1のパルス位置符号帳51ないし第Nのパ
ルス位置符号帳52である。
図7の(a)は、例えば、図29の(a)に示したよう
に、ピッチ周期pが48より大きい場合に用いる第1のパ
ルス位置符号帳である。この符号帳の場合、80サンプル
の駆動音源を4個のパルスで構成し、ピッチ周期化処理
は行わない。各パルス位置に与える情報量は、上から順
に4bit,4bit,4bit,5bitで、合計が17bitである。
図7の(b)は、例えば、図29の(b)に示したよう
に、ピッチ周期pが48以下で、32より大きい場合に用い
る第2のパルス位置符号帳である。この符号帳の場合、
最大48サンプルの駆動音源を3個のパルスで構成し、ピ
ッチ周期化処理を1回行うことで80サンプルの音源を生
成する。この符号帳の場合、80サンプルの駆動音源を6
個のパルスで構成できる。各パルス位置に与える情報量
は、上から順に、4bit,4bit,4bitで、合計が12bitであ
る。ピッチ周期を別途符号化する必要があれば、5bitで
符号化すれば、合計が17bitになる。
図7の(c)は、例えば、図29の(c)に示したよう
に、ピッチ周期pが32以下の場合に用いる第3のパルス
位置符号帳である。この符号帳の場合、最大32サンプル
の駆動音源を4つのパルスで構成し、ピッチ周期化処理
を3回行うことで80サンプルの音源を生成する。この符
号帳の場合、80サンプルの駆動音源を16個のパルスで構
成できる。各パルス位置に与える情報量は、上から順
に、3bit,3bit,3bit,3bitで、合計が12bitである。ピッ
チ周期を別途符号化する必要があれば、5bitで符号化す
れば、合計が17bitになる。
図7では、ピッチ周期を別途符号化することを想定し
て、パルス数を設定したが、適応音源の繰り返し周期を
ピッチ周期として用いる場合には、図7の(b)と図7
の(c)のパルス数を更に増やすことが可能である。こ
の場合、フレーム長と合計bit数にもよるが、従来型の
図7の(a)に比べれば、表現するパルス範囲がピッチ
周期長程度に制限できる分だけ、1パルス当たりに必要
なbit数が削減され、合計bit数を一定とすれば、パルス
数を増やすことが可能になる。ピッチ周期を別途符号化
する構成は、図17で説明した第2の音源符号化モードの
ように、代数的音源だけで音源を符号化する場合に有効
である。
以上のように、この実施の形態3の音声符号化復号装
置は、符号化部にて、ピッチ周期が所定値以下の場合に
は、音源位置候補をピッチ周期範囲内に制限することで
音源パルス数を増やすようにしたので、音源の表現性向
上による符号化品質改善が得られる効果がある。また、
パルス数をあまり減らさずにピッチ周期を別途符号化す
ることも可能であり、適応音源を用いた符号化特性が悪
い部分では、ピッチ周期化した代数的音源による符号化
ができ、符号化品質が改善する効果がある。
実施の形態4. 図8は、本発明による音声符号化復号装置の実施の形
態4で使用するパルス位置符号帳である。音声符号化復
号装置の全体構成は、図13と同様であり、駆動音源符号
化部11の構成は、図5と同様であり、駆動音源復号部16
の構成は、図6と同様である。また、初期パルス位置符
号帳は図7と同様である。
ピッチ周期pが32以下の場合には、駆動音源符号化部
11及び駆動音源復号部16内では、図7の(c)に示す第
3のパルス位置符号帳が選択されるものとしている。こ
の実施の形態では、ピッチ周期が32の場合には、図8の
(a)に示す通り、この第3のパルス位置符号帳をその
まま使用する。
しかし、ピッチ周期が32より小さい場合には、ピッチ
周期長以上のパルス位置は選択されることがなくなるの
で、この選択され得ないパルス位置の部分を、ピッチ周
期長末端のパルス位置に再設定して使用する。
図8の(b)には、ピッチ周期pが20の場合の選択さ
れ得ないパルス音源位置300をピッチ周期長未満のパル
ス音源位置310に再設定したパルス位置符号帳を示す。
図7の(c)の第3のパルス位置符号帳の20以上のパ
ルス音源位置300が、全て20未満の値のパルス音源位置3
10に再設定されている。再設定の方法としては、同一パ
ルス番号内では、同じパルス位置が出ないようにすれ
ば、様々な方法が可能である。ここでは、矢印で示すよ
うに、次のパルス番号に割り当てられているパルス音源
位置311に置き換える方法を用いている。
以上のように、この実施の形態4の音声符号化復号装
置は、ピッチ周期を越えるパルス音源位置を表す符号に
対して、ピッチ周期範囲内のパルス音源位置を表すよう
に再設定を行うようにしたので、全く使用されないパル
ス位置を指す符号が排除され、符号化情報に無駄がなく
なり、符号化品質が改善する効果がある。
実施の形態5. 図13との対応部分に同一符号を付けた図9は、本発明
による音声符号化復号装置の実施の形態5の全体構成を
示す。
図において、57はパルス音源符号化部、58はパルスゲ
イン符号化部、59は選択部、60はパルス音源復号部、61
はパルスゲイン復号部、330は制御部である。図13と比
べて新たな構成の動作は、次の通りである。即ち、パル
ス音源符号化部57は、まず、各パルス音源符号に対応し
た仮のパルス音源を生成し、この仮のパルス音源に適切
なゲインを乗じ、線形予測係数符号化部9が出力した線
形予測係数を用いた合成フィルタに通すことで、仮の合
成音を得る。この仮の合成音と入力音声5との距離を調
べ、この距離を最小とするパルス音源符号を選択すると
共に、距離が近い順にパルス音源符号候補を求めると共
に、各パルス音源符号候補に対応する仮のパルス音源を
出力する。
パルスゲイン符号化部58は、まず、各ゲイン符号に対
応する仮のパルスゲインベクトルを生成する。そして、
各パルスゲインベクトルの各要素を仮のパルス音源の各
パルスに乗じ、線形予測係数符号化部9が出力した線形
予測係数を用いた合成フィルタに通すことで、仮の合成
音を得る。この仮の合成音と入力音声5との距離を調
べ、この距離を最小とする仮のパルス音源とゲイン符号
を選択し、このゲイン符号と、仮のパルス音源に対応す
るパルス音源符号とを出力する。
選択部59は、ゲイン符号化部12内で得られた最小の距
離と、パルスゲイン符号化部58内で得られた最小の距離
を比較して、小さい距離を与えた方を選択することで、
適応音源符号化部10の駆動音源符号化部11とゲイン符号
化部12で構成される第1の音源符号化モードと、パルス
音源符号化部57とパルスゲイン符号化部58で構成される
第2の音源符号化モードのどちらを使用するかを切り替
える。
多重化部3は、線形予測係数の符号、選択情報、第1
の音源符号化モードの場合には、適応音源符号と駆動音
源符号とゲイン符号、第2の音源符号化モードの場合に
は、パルス音源符号とパルスゲイン符号を多重化し、得
られた符号6を出力する。分離部4は、符号6を線形予
測係数の符号、選択情報、選択情報が第1の音源符号化
モードの場合には、適応音源符号と駆動音源符号とゲイ
ン符号、選択情報が第2の音源符号化モードの場合に
は、パルス音源符号とパルスゲイン符号とに分離する。
選択情報が第1の音源符号化モードの場合には、適応
音源復号部15が、適応音源符号に対応して過去の音源を
周期的に繰り返した時系列ベクトルを出力し、また、駆
動音源復号部16が、駆動音源符号に対応して時系列ベク
トルを出力する。ゲイン復号部17は、ゲイン符号に対応
したゲインベクトルを出力する。復号部2は、2つの時
系列ベクトルにゲインベクトルの各要素を乗じて加算す
ることで音源を生成し、この音源を合成フィルタ14に通
すことで出力音声7を生成する。
選択情報が第2の音源符号化モードの場合には、パル
ス音源復号部60がパルス音源符号に対応したパルス音源
を出力し、パルスゲイン復号部61がゲイン符号に対応し
たパルスゲインベクトルを出力し、復号部2内でパルス
音源の各パルスに、パルスゲインベクトルの各要素を乗
じて音源を生成し、この音源を合成フィルタ14に通すこ
とが出力音声7を生成する。制御部330は、選択情報に
基づいて第1の音源符号化モードからの出力と第2の音
源符号モードからの出力を切り替える。
以上のように、この実施の形態5によれば、従来の図
17に示す場合は、いずれか一方のみを動作させるのに比
べて、この実施の形態では、音源を複数のパルス音源位
置と音源ゲインで符号化する第1の音源符号化モード
と、第1の音源符号化モードと異なる第2の音源符号化
モードの両方での音源符号化を行い、小さい符号化歪を
与えた音源符号化モードを選択するようにしたので、最
も良い符号化特性を与えるモード選択ができ、符号化品
質が改善する効果がある。なお、この実施の形態5中の
駆動音源符号化部11、パルス音源符号化部57について
は、実施の形態1ないし実施の形態4に示した構成も適
用できる。
実施の形態6. 図5との対応部分に同一符号を付けた図10は、本発明
による音声符号化復号装置の実施の形態6における音声
符号化復号装置内の駆動音源符号化部11を示す。音声符
号化復号装置の全体の構成は、図9又は図13と同様であ
る。
図において、62は駆動音源探索部、63は第1の駆動音
源符号帳、64は第2の駆動音源符号帳である。
まず、第1の駆動音源符号帳63と第2の駆動音源符号
帳64は、入力されたピッチ周期49に基づいて各符号語を
更新する。次に、駆動音源探索部62では、まず、各駆動
音源符号に対応して、第1の駆動音源符号帳63中の1つ
の時系列ベクトルと、第2の駆動音源符号帳64中の1つ
の時系列ベクトルを読み出し、この2つの時系列ベクト
ルを加算することで、仮の駆動音源を生成する。この仮
の駆動音源と適応音源符号化部10が出力した適応音源に
適切なゲインを乗じて加算し、符号化された線形予測係
数を用いた合成フィルタに通すことで、仮の合成音を得
る。この仮の合成音と入力音声5との距離を調べ、この
距離を最小とする駆動音源符号を選択すると共に、選択
された駆動音源符号に対応する仮の駆動音源を駆動音源
として出力する。
図11に、第1の駆動音源符号帳63と第2の駆動音源符
号帳64の構成を示し、図において、Lは音源符号化のフ
レーム長、pはピッチ周期49、Nは各駆動音源符号帳サ
イズである。0ないし(L/2−1)番までの符号語340
は、ピッチ周期pで繰り返すパルス列を表している。
(L/2)番からN番までの符号語350は、音源波形を表し
ている。図11の(a)に示した第1の駆動音源符号帳63
のパルス列と、図11の(b)に示した第2の駆動音源符
号帳64のパルス列は、先頭パルス位置が交互にずれてお
り、決して重複していない。図11では、(L/2)番以降
の符号語には学習された雑音信号が格納されているが、
この部分については、無学習の雑音や、ピッチ周期で繰
り返すパルス以外の信号など、様々なものを用いること
ができる。なお、復号部2内の駆動音源復号部16では、
第1の駆動音源符号帳63と第2の駆動音源符号帳64と同
じ構成の符号帳を備え、駆動音源符号に対応する各符号
語を読み出し、加算し、駆動音源として出力する。
以上のように、この実施の形態6の音声符号化復号装
置は、音源位置情報を表す複数の符号語と音源波形を表
す複数の符号語から成り、互いの音源符号帳内の符号語
が表す音源位置情報が全て異なる複数の音源符号帳を備
え、この複数の音源符号帳を用いて音源を符号化又は復
号するように構成したので、ピッチ周期パルス列、ピッ
チ周期の半分の周期のパルス列以外の周期性音源をも表
現でき、比較的入力音声によらずに符号化特性が改善す
る効果がある。また、各音源符号帳の音源位置情報につ
いての符号帳間での重複を省いたことで、音源位置情報
を表す符号語の数を削減でき、符号帳サイズNがフレー
ム長に比べて小さく、音源波形を表す符号語が少なすぎ
る場合には、符号化特性が改善する効果がある。言い換
えれば、より小さなサイズの符号帳でも、一部を音源位
置情報を表す符号語とすることができ、符号化特性が改
善する効果がある。
なお、この実施の形態6では、2つの時系列ベクトル
を加算して仮の駆動音源と生成しているが、独立の駆動
音源信号として、独立のゲインを与える構成も可能であ
る。この場合、ゲイン符号化情報量が増えるが、ゲイン
を一括してベクトル量子化することで、大きな情報量増
加なしに符号化特性を改善できる効果がある。
実施の形態7. 図12は、本発明による音声符号化復号装置の実施の形
態7の駆動音源符号化部11で使用する第1の駆動音源符
号帳63と第2の駆動音源符号帳64である。音声符号化復
号装置の全体の構成は、図9又は図13と同様であり、駆
動音源符号化部11の構成は、図10と同様である。
0ないし(p/2−1)番までの符号語は、ピッチ周期
pで繰り返すパルス列を表している。図11と異なるの
は、パルス列の先頭位置がピッチ周期長範囲内に制限さ
れている分、パルス列によって構成される符号語数が少
ないことである。但し、ピッチ周期pがフレーム長Lよ
り長い場合には、図11と同じ構成となる。図12の(a)
に示した第1の駆動音源符号帳63とパルス列と、図12の
(b)に示した第2の駆動音源符号帳64のパルス列は、
先頭パルス位置が相互になっており、決して重複してい
ない。図12では、(p/2)番以降の符号語には学習され
た雑音信号が格納されているが、この部分については、
無学習の雑音や、ピッチ周期で繰り返すのパルス以外の
信号など、様々なものを用いることができる。
以上のように、この実施の形態7の音声符号化復号装
置は、音源位置情報を表す複数の符号語と音源波形を表
す複数の符号語から成り、互いの音源符号帳内の符号語
が表す音源位置情報が全て異なる複数の音源符号帳を備
え、この音源符号帳内の音源位置情報を表す符号語の数
を、ピッチ周期に応じて制御しつつ、この音源符号帳を
用いて音源を符号化するように構成したので、実施の形
態6が持つ効果に加えて、一層音源位置情報を表す符号
語の数を削減でき、符号帳サイズNがフレーム長に比べ
て小さく、音源波形を表す符号語が少なすぎる場合に
は、符号化特性が改善する効果がある。言い換えれば、
より小さなサイズの符号帳でも、一部を音源位置情報を
表す符号語とすることができ、符号化特性が改善する効
果がある。
なお、文献4に開示されていう音声符号化復号装置の
ように、適応音源の1ピッチ波形のピーク位置情報に基
づいて、代数的音源の時間方向のずれ(位相)を適応化
する手法を導入してピッチ周期長の音源符号化を行う場
合には、符号帳内のピーク位置に合わせる特徴点を中心
に、ピッチ周期長又はピッチ周期に1以下の定数を乗じ
た長さの範囲にパルスを立てる符号語を一部に持つ駆動
音源符号帳を用意すれば良い。
産業上の利用可能性 以上のように、この発明によれば、音源位置候補毎に
与える仮ゲインを算出し、この仮ゲインを用いて複数の
音源位置を決定することにより、最終的にパルス毎に独
立のゲインを付与する場合には、音源位置探索時での最
終的はゲインに対する近似精度が上がり、最適な音源位
置を見出しやすくなり、符号化特性を改善し得る音声符
号化装置、音声符号化復号装置を実現できる。
また、この発明によれば、音源位相特性を付与したイ
ンパルス応答を用いて、音源を複数のパルス音源位置と
音源ゲインに符号化することにより、音源位置の組み合
わせ数が増えていっても、実現可能な演算量の範囲で、
位相特性を付与した音源符号化復号が可能となり、音源
の表現性向上による符号化品質改善が得られる音声符号
化装置、音声符号化復号装置を実現できる。
また、この発明によれば、ピッチ周期が所定値以下の
場合には、音源位置候補をピッチ周期範囲内に制限し、
音源パルス数を増やすようにしたことにより、音源の表
現性向上による符号化品質改善が得られる音声符号化装
置、音声復号装置、音声符号化復号装置を実現できる。
また、この発明によれば、ピッチ周期を越えるパルス
音源位置を表す符号に対して、ピッチ周期範囲内のパル
ス音源位置を表すように再設定を行うようにしたことに
より、全く使用されないパルス位置を指す符号が排除さ
れ、符号化情報に無駄がなくなり、符号化品質が改善し
得る音声符号化装置、音声復号装置、音声符号化復号装
置を実現できる。
また、この発明によれば、音源を複数のパルス音源位
置と音源ゲインで符号化する第1の音源符号化部と、第
1の音源符号化部と異なる第2の音源符号化部の両方で
の音源符号化を行い、小さい符号化歪を与えた第1又は
第2の音源符号化部を選択するようにしたことにより、
最も良い符号化特性を与えるモード選択ができ、符号化
品質が改善し得る音声符号化装置、音声符号化復号装置
を実現できる。
また、この発明によれば、音源位置情報を表す複数の
符号語と音源波形を表す複数の符号語から成り、互いに
の音源符号帳内の符号語が表す音源位置情報が全て異な
る複数の音源符号帳を備え、この複数の音源符号帳を用
いて音源を符号化または復号するようにしたことによ
り、ピッチ周期パルス列、ピッチ周期の半分の周期のパ
ルス列以外の周期性音源をも表現でき、比較的入力音声
によらずに符号化特性が改善し得る音声符号化装置、音
声復号装置、音声符号化復号装置を実現できる。
また、各音源符号帳の音源位置情報についての符号帳
間での重複を省いた事で、音源位置情報を表す符号語の
数を削減でき、符号帳サイズNがフレーム長に比べて小
さく、音源波形を表す符号語が少なすぎる場合には、符
号化特性が改善し得る音声符号化装置、音声復号装置、
音声符号化復号装置を実現できる。言い換えれば、より
小さなサイズの符号帳でも、一部を音源位置情報を表す
符号語とすることができ、符号化特性が改善し得る音声
符号化装置、音声復号装置、音声符号化復号装置を実現
できる。
更に、この発明によれば、音源符号帳内の音源位置情
報を表す符号語の数を、ピッチ周期に応じて制御しつ
つ、この音源符号帳を用いて音源を符号化するようにし
たことにより、上述に加えて、一層音源位置情報を表す
符号語の数を削減できる。
また、これらの発明は、音声の符号化復号方法として
も利用できる。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 19/12

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声をスペクトル包絡情報と音源に分
    けて、フレーム単位で音源を符号化する音声符号化装置
    において、スペクトル包絡情報に基づく合成フィルタの
    インパルス応答を求めるインパルス応答算出部(21)
    と、前記インパルス応答算出部(21)によって算出され
    た前記インパルス応答に所定の音源位相特性を付与する
    位相付与フィルタ(42)と、前記位相付与フィルタ(4
    2)によって音源位相特性を付与されることにより音源
    に関する位相情報を含んだ前記インパルス応答を反復的
    に用いて、前記音源を複数のパルス音源位置と音源ゲイ
    ンに符号化する音源符号化部(22と12)とを備えること
    を特徴とする音声符号化装置。
  2. 【請求項2】入力音声をスペクトル包絡情報と音源に分
    けて、フレーム単位で音源を符号化する符号化部(1)
    と、前記符号化された音源を復号し出力音声を生成する
    復号部(2)とを備えた音声符号化復号装置において、
    符号化部(1)に、スペクトル包絡情報に基づく合成フ
    ィルタのインパルス応答を求めるインパルス応答算出部
    (21)と、前記インパルス応答算出部(21)によって算
    出された前記インパルス応答に所定の音源位相特性を付
    与する位相付与フィルタ(42)と、前記位相付与フィル
    タ(42)によって音源位相特性を付与されることにより
    音源に関する位相情報を含んだ前記インパルス応答を反
    復的に用いて、前記音源を複数のパルス音源位置と音源
    ゲインに符号化する音源符号化部(22と12)とを備え、
    復号部(2)に、前記複数のパルス音源位置と前記音源
    ゲインを復号して音源を生成する音源復号部(16と17)
    を備えることを特徴とする音声符号化復号装置。
  3. 【請求項3】入力音声をスペクトル包絡情報と音源に分
    けて、フレーム単位で音源を符号化する音声符号化方法
    において、スペクトル包絡情報に基づく合成フィルタの
    インパルス応答を求めるインパルス応答算出工程と、前
    記インパルス応答算出工程によって算出された前記イン
    パルス応答に所定の音源位相特性を付与する位相付与フ
    ィルタ工程と、前記位相付与フィルタ工程によって音源
    位相特性を付与されることにより音源に関する位相情報
    を含んだ前記インパルス応答を反復的に用いて、前記音
    源を複数のパルス音源位置と音源ゲインに符号化する音
    源符号化工程とを備えることを特徴とする音声符号化方
    法。
JP53941398A 1997-03-12 1997-09-24 音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法 Expired - Lifetime JP3523649B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-57214 1997-03-12
JP5721497 1997-03-12
PCT/JP1997/003366 WO1998040877A1 (fr) 1997-03-12 1997-09-24 Codeur vocal, decodeur vocal, codeur/decodeur vocal, procede de codage vocal, procede de decodage vocal et procede de codage/decodage vocal

Publications (1)

Publication Number Publication Date
JP3523649B2 true JP3523649B2 (ja) 2004-04-26

Family

ID=13049285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53941398A Expired - Lifetime JP3523649B2 (ja) 1997-03-12 1997-09-24 音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法

Country Status (10)

Country Link
US (1) US6408268B1 (ja)
EP (1) EP1008982B1 (ja)
JP (1) JP3523649B2 (ja)
KR (1) KR100350340B1 (ja)
CN (1) CN1252679C (ja)
AU (1) AU733052B2 (ja)
CA (1) CA2283187A1 (ja)
DE (1) DE69734837T2 (ja)
NO (1) NO994405L (ja)
WO (1) WO1998040877A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3824810B2 (ja) * 1998-09-01 2006-09-20 富士通株式会社 音声符号化方法、音声符号化装置、及び音声復号装置
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
JP4304360B2 (ja) * 2002-05-22 2009-07-29 日本電気株式会社 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
US7996234B2 (en) * 2003-08-26 2011-08-09 Akikaze Technologies, Llc Method and apparatus for adaptive variable bit rate audio encoding
KR100589446B1 (ko) * 2004-06-29 2006-06-14 학교법인연세대학교 음원의 위치정보를 포함하는 오디오 부호화/복호화 방법및 장치
EP2099025A4 (en) * 2006-12-14 2010-12-22 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
WO2008082276A1 (en) * 2007-01-05 2008-07-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP4660496B2 (ja) * 2007-02-23 2011-03-30 三菱電機株式会社 音声符号化装置及び音声符号化方法
ES2404408T3 (es) * 2007-03-02 2013-05-27 Panasonic Corporation Dispositivo de codificación y método de codificación
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
JP4907677B2 (ja) * 2009-01-29 2012-04-04 三菱電機株式会社 音声符号化装置及び音声符号化方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
CN111123272B (zh) * 2018-10-31 2022-02-22 无锡祥生医疗科技股份有限公司 单极系统的戈莱码编码激励方法和解码方法
US11777763B2 (en) * 2020-03-20 2023-10-03 Nantworks, LLC Selecting a signal phase in a communication system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JPH0782360B2 (ja) 1989-10-02 1995-09-06 日本電信電話株式会社 音声分析合成方法
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JP3074703B2 (ja) 1990-06-27 2000-08-07 ソニー株式会社 マルチパルス符号化装置
JPH05273999A (ja) 1992-03-30 1993-10-22 Hitachi Ltd 音声符号化方法
US5457783A (en) * 1992-08-07 1995-10-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear prediction
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH08179796A (ja) 1994-12-21 1996-07-12 Sony Corp 音声符号化方法

Also Published As

Publication number Publication date
EP1008982A4 (en) 2003-01-08
KR20000076153A (ko) 2000-12-26
DE69734837T2 (de) 2006-08-24
DE69734837D1 (de) 2006-01-12
NO994405L (no) 1999-09-13
CN1249035A (zh) 2000-03-29
AU733052B2 (en) 2001-05-03
CN1252679C (zh) 2006-04-19
CA2283187A1 (en) 1998-09-17
WO1998040877A1 (fr) 1998-09-17
EP1008982B1 (en) 2005-12-07
EP1008982A1 (en) 2000-06-14
NO994405D0 (no) 1999-09-10
US6408268B1 (en) 2002-06-18
AU4319697A (en) 1998-09-29
KR100350340B1 (ko) 2002-08-28

Similar Documents

Publication Publication Date Title
JP3523649B2 (ja) 音声符号化装置、音声復号装置及び音声符号化復号装置、及び、音声符号化方法、音声復号方法及び音声符号化復号方法
US5396576A (en) Speech coding and decoding methods using adaptive and random code books
KR100925084B1 (ko) 음성 부호화기 및 음성 부호화 방법
WO1998006091A1 (fr) Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
JP2003337600A (ja) 音声符号化復号方式間の符号変換方法および装置とその記憶媒体
JP3063668B2 (ja) 音声符号化装置及び復号装置
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP2001075600A (ja) 音声符号化装置および音声復号化装置
JP2538450B2 (ja) 音声の励振信号符号化・復号化方法
JP3583945B2 (ja) 音声符号化方法
JP2613503B2 (ja) 音声の励振信号符号化・復号化方法
JP3579276B2 (ja) 音声符号化/復号化方法
JP2956068B2 (ja) 音声符号化復号化方式
WO2004044893A1 (ja) 確率的符号帳の音源の符号化方法
JP3144284B2 (ja) 音声符号化装置
JP3166697B2 (ja) 音声符号化・復号装置及びシステム
JP3954716B2 (ja) 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JPH1069297A (ja) 音声符号化装置
JP3410931B2 (ja) 音声符号化方法及び装置
JP2000029499A (ja) 音声符号化装置ならびに音声符号化復号化装置
JPH08185198A (ja) 符号励振線形予測音声符号化方法及びその復号化方法
JP4191502B2 (ja) 信号符号化方法、およびこれらの装置、並びに信号符号化プログラム
JPH056200A (ja) 音声符号化方式
JP2001242898A (ja) 音声符号化装置及び音声復号化装置
JPH08202396A (ja) 音声予測符号化方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140220

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term