JP2016045462A - 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム - Google Patents

周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム Download PDF

Info

Publication number
JP2016045462A
JP2016045462A JP2014171776A JP2014171776A JP2016045462A JP 2016045462 A JP2016045462 A JP 2016045462A JP 2014171776 A JP2014171776 A JP 2014171776A JP 2014171776 A JP2014171776 A JP 2014171776A JP 2016045462 A JP2016045462 A JP 2016045462A
Authority
JP
Japan
Prior art keywords
sequence
frequency domain
frequency
parameter
domain parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014171776A
Other languages
English (en)
Other versions
JP6259378B2 (ja
Inventor
健弘 守谷
Takehiro Moriya
健弘 守谷
優 鎌本
Masaru Kamamoto
優 鎌本
登 原田
Noboru Harada
登 原田
弘和 亀岡
Hirokazu Kameoka
弘和 亀岡
亮介 杉浦
Ryosuke Sugiura
亮介 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014171776A priority Critical patent/JP6259378B2/ja
Publication of JP2016045462A publication Critical patent/JP2016045462A/ja
Application granted granted Critical
Publication of JP6259378B2 publication Critical patent/JP6259378B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】少ない演算量の増加で信号処理の精度を改善する技術を提供する。
【解決手段】伸縮対応平滑化LSP線形変換部328は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]とω[i]に近接する1つまたは複数の周波数領域パラメータとの値の関係に基づく線形変換により変換後周波数領域パラメータ~ω[i]の値を求める。
【選択図】図11

Description

この発明は、音信号の符号化技術などの信号処理技術において、音信号に由来する周波数領域のサンプル列を、当該周波数領域のサンプル列におけるサンプル点の周波数領域での間隔を伸縮した系列を生成する技術に関する。
低ビット(例えば10kbit/s〜20kbit/s程度)の音信号の符号化方法として、DFT(離散フーリエ変換)やMDCT(変形離散コサイン変換)などの周波数領域での直交変換係数に対する適応符号化が知られている。例えば標準規格技術であるMPEG USAC(Unified Speech and Audio Coding)は、TCX(transform coded excitation:変換符号化励振)符号化モードを持ち、この中ではMDCT係数をフレームごとに正規化して量子化後に可変長符号化している(例えば、非特許文献1参照)。
従来のTCXに基づく符号化装置の構成例を図1に示す。以下、図1の各部について説明する。
<周波数領域変換部11>
周波数領域変換部11には、時間領域の音信号が入力される。音信号は、例えば音声信号又は音響信号である。
周波数領域変換部11は、所定の時間長のフレーム単位で、入力された時間領域の音信号を周波数領域のN点のMDCT係数列X(0),X(1),…,X(N-1)に変換する。Nは正の整数である。
変換されたMDCT係数列X(0),X(1),…,X(N-1)は、包絡正規化部14に出力される。
<線形予測分析部12>
線形予測分析部12には、時間領域の音信号が入力される。
線形予測分析部12は、フレーム単位で入力された音信号に対する線形予測分析を行うことにより、線形予測係数α12,…,αpを生成する。また、線形予測分析部12は、生成された線形予測係数α12,…,αpを符号化して線形予測係数符号を生成する。線形予測係数符号の例は、線形予測係数α12,…,αpに対応するLSP(Line Spectrum Pairs)パラメータ列の量子化値の列に対応する符号であるLSP符号である。pは2以上の整数である。
また、線形予測分析部12は、生成された線形予測係数符号に対応する線形予測係数である量子化線形予測係数^α1,^α2,…,^αpを生成する。
生成された量子化線形予測係数^α1,^α2,…,^αpは、パワースペクトル包絡系列生成部13に出力される。また、生成された線形予測係数符号は、復号装置に出力される。
<パワースペクトル包絡系列生成部13>
パワースペクトル包絡系列生成部13には、線形予測分析部12が生成した量子化線形予測係数^α1,^α2,…,^αpが入力される。
パワースペクトル包絡系列生成部13は、量子化線形予測係数^α1,^α2,…,^αpを用いて、以下の式(P1)により定義される平滑化パワースペクトル包絡系列^Wγ(0),^Wγ(1),…,^Wγ(N-1)を生成する。・を実数としてexp(・)はネイピア数を底とする指数関数、jは虚数単位、σ2は予測残差エネルギーである。γは、1以下の正の定数であり、以下の式(P1’)により定義されるパワースペクトル包絡系列^W(0),^W(1),…,^W(N-1)の振幅の凹凸を鈍らせる係数、言い換えればパワースペクトル包絡系列を平滑化する係数である。
Figure 2016045462
生成された平滑化パワースペクトル包絡系列^Wγ(0),^Wγ(1),…,^Wγ(N-1)は、包絡正規化部14に出力される。
<包絡正規化部14>
包絡正規化部14には、周波数領域変換部11が生成したMDCT係数列X(0),X(1),…,X(N-1)及びパワースペクトル包絡系列生成部13が出力した平滑化パワースペクトル包絡系列^Wγ(0),^Wγ(1),…,^Wγ(N-1)が入力される。
包絡正規化部14は、MDCT係数列の各係数X(i)を平滑化パワースペクトル包絡系列の各値^Wγ(i)の平方根で正規化することにより、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)を生成する。つまり、XN(0)= X(i)/sqrt(^Wγ(i)) [i=0,1,…,N-1]である。ここで、sqrt(・)は・の平方根を表す。
生成された正規化MDCT係数列XN(0),XN(1),…,XN(N-1)は、符号化部15に出力される。
ここでは、聴覚的に歪が小さくなるような量子化の実現のために、包絡正規化部14は、パワースペクトル包絡を鈍らせたパワースペクトル包絡の系列である平滑化パワースペクトル包絡系列^Wγ(0),^Wγ(1),…,^Wγ(N-1)を用いて、フレーム単位でMDCT係数列X(0),X(1),…,X(N-1)を正規化している。
この結果、生成される正規化MDCT係数列XN(0),XN(1),…,XN(N-1)は、入力されたMDCT係数列X(0),X(1),…,X(N-1)ほどの大きな振幅の傾きや振幅の凹凸を持たないが、入力された音信号のパワースペクトル包絡系列と類似の大小関係を有するもの、すなわち低い周波数に対応する係数側の領域にやや大きな振幅を持ちピッチ周期に起因する微細構造を持つものとなる。
<符号化部15>
符号化部15には、包絡正規化部14が生成した正規化MDCT係数列XN(0),XN(1),…,XN(N-1)が入力される。
符号化部15は、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号を生成する。
生成された正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号は、復号装置に出力される。
正規化MDCT係数列XN(0),XN(1),…,XN(N-1)の各係数を利得(グローバルゲイン)gで割り算し、その結果を量子化した整数値による系列である量子化正規化済係数系列XQ(0),XQ(1),…,XQ(N-1)を符号化して得られる符号を整数信号符号とする。非特許文献1の技術では、符号化部15は、この整数信号符号のビット数が、予め配分されたビット数である配分ビット数B以下、かつ、なるべく大きな値となるような利得gを決定する。そして、符号化部15は、この決定された利得gに対応する利得符号と、この利得符号に対応する利得gで正規化MDCT係数列XN(0),XN(1),…,XN(N-1)の各係数を割り算した結果を量子化した整数値による系列である量子化正規化済係数系列XQ(0),XQ(1),…,XQ(N-1)を符号化して得られる整数信号符号とを生成する。
この生成された利得符号及び整数信号符号が、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号として復号装置に出力される。
以上のように、従来のTCXに基づく符号化では、パワースペクトル包絡を鈍らせた平滑化パワースペクトル包絡系列を用いてMDCT係数列を正規化した後、正規化MDCT係数列を符号化している。この符号化方法は、上記のMPEG-4 USACなどで採用されている。
線形予測係数を用いて得られるパワースペクトル包絡は、おおよそ(信号のサンプル数)/(線形予測次数)の解像度で元のスペクトルを表現するものである。そして、この解像度は周波数領域において均一である。すなわち、MPEG USACなどの従来のTCXに基づく符号化におけるMDCT係数列の正規化に用いるパワースペクトル包絡系列は、周波数領域の周波数軸で均等な間隔で、言い換えれば周波数方向の均一な解像度で離散化(以下、「線形離散化」ともいう)した包絡の値であった。
通常の音声や音楽の信号は特定の周波数領域(例えば低周波数領域)にエネルギーが集中する場合が多く、エネルギーが集中している周波数領域ではパワースペクトル包絡の変化が大きい傾向がある。全周波数領域において均一な解像度で離散化した包絡の値を用いると、エネルギーが集中している周波数領域では周波数方向の解像度が不足して、得られるパワースペクトル包絡系列は元のパワースペクトル包絡の振幅の凹凸の変化を十分な精度で表現できないことがある。このようなパワースペクトル包絡系列を用いてMDCT係数列を正規化すると、解像度が不足した部分でのMDCT係数列とパワースペクトル包絡系列との差が大きくなり、正規化MDCT係数列の値のばらつきが大きくなってしまうため、符号化効率が低下する可能性があった。
ここで、予測次数を増やせば、線形離散化でも解像度は高くすることはできるが、パラメータの情報量が増加して、符号化効率が低下する可能性がある。また、特定のフレームだけに次数を増やすと、フレーム間の処理の連続性のため処理が煩雑となる可能性がある。
符号化処理に限らず、音信号の信号処理においては、音信号に由来する周波数領域のサンプル列として、周波数方向の不均一な解像度で音信号を離散化したサンプル列を用いることにより信号処理の精度が向上する場合がある。
この発明は、このような技術的背景に鑑みて、少ない演算量の増加で符号化効率を改善する技術を提供することを目的とする。また、符号化以外の信号処理において、少ない演算量の増加で信号処理の精度を改善する技術を提供することを目的とする。
上記の課題を解決するために、この発明の第一の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含む。パラメータ列変換ステップは、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]とω[i]に近接する1つまたは複数の周波数領域パラメータとの値の関係に基づく線形変換により変換後周波数領域パラメータ~ω[i]の値を求める。
この発明の第二の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含む。パラメータ列変換ステップは、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める。
この発明の第三の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含む。パラメータ列変換ステップは、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める。
この発明の第四の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含む。パラメータ列変換ステップは、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める。
この発明の第五の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含む。パラメータ列変換ステップは、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める。
この発明の第六の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、a[1],a[2],…,a[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列とし、ω[1],ω[2]…,ω[p]を、線形予測係数列a[1],a[2],…,a[p]に由来するLSPパラメータ列、線形予測係数列a[1],a[2],…,a[p]に由来するLSFパラメータ列、線形予測係数列a[1],a[2],…,a[p]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換ステップを含む。
Figure 2016045462
この発明の第七の態様の周波数領域パラメータ列生成方法は、pを1以上の整数とし、a[1],a[2],…,a[p+1]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する(p+1)次の線形予測係数列とし、ω[1],ω[2]…,ω[p+1]を、線形予測係数列a[1],a[2],…,a[p+1]に由来するISPパラメータ列、線形予測係数列a[1],a[2],…,a[p+1]に由来するISFパラメータ列、線形予測係数列a[1],a[2],…,a[p+1]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換ステップを含む。
Figure 2016045462
符号化効率を改善することができる。または、信号処理の精度を改善することができる。
従来の符号化装置の例を説明するためのブロック図。 第一実施形態及び第二実施形態の符号化装置の例を説明するためのブロック図。 第一実施形態及び第二実施形態の符号化方法の例を説明するためのフローチャート。 変換行列Uの例を説明するための図。 変換行列Uの例を説明するための図。 変換行列Uの例を説明するための図。 図6の変換行列Uにおける重心位置の性質を説明するための図。 変換行列Vの例を説明するための図。 第一実施形態及び第二実施形態の復号装置の例を説明するためのブロック図。 第一実施形態及び第二実施形態の復号方法の例を説明するためのフローチャート。 第三実施形態の符号化装置の例を説明するためのブロック図。 第三実施形態の符号化方法の例を説明するためのフローチャート。 LSPパラメータの性質を説明するための図。 LSPパラメータの性質を説明するための図。 LSPパラメータの性質を説明するための図。 第三実施形態の復号装置の例を説明するためのブロック図。 第三実施形態の復号方法の例を説明するためのフローチャート。 第四実施形態の周波数領域パラメータ列生成装置の例を説明するためのブロック図。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[技術的背景]
まず、従来技術で説明した符号化処理を例に技術的背景について説明する。
この発明の一例では、パワースペクトル包絡系列を利用する際に、周波数方向の非線形な解像度による離散化によって、離散係数列であるパワースペクトル包絡系列を生成する。このとき、パワースペクトル包絡の振幅のばらつきが大きい周波数領域では細かい解像度で離散化し、パワースペクトル包絡の振幅のばらつきが小さい周波数領域では粗い解像度で離散化する。これにより、正規化MDCT係数列の値のばらつきを小さくし、符号化効率を高めることができる。
例えば、エネルギーの集中している周波数領域の離散化間隔を他の周波数領域の離散化間隔よりも小さくするようにする。言い換えれば、エネルギーの集中している周波数領域の解像度を他の周波数領域の解像度よりも高くするようにする。
従来は、周波数方向の線形な解像度による離散化によりパワースペクトル包絡を表現していた。すなわち、F=0HzからF=100Hzを全周波数領域とし、N=10として、11個のサンプル点で離散化する場合、以下の表の11個の周波数のそれぞれをサンプル点として、これらの11個のサンプル点にそれぞれ対応するパワースペクトル包絡値の系列によりパワースペクトル包絡を表現していた。
Figure 2016045462
つまり、隣接するサンプル点間の周波数領域での間隔が均等(上述の例では10Hz間隔)であるようなサンプル点列を用いてパワースペクトル包絡を表現していた。
このように、パワースペクトル包絡系列を表現するためのサンプル点列を、隣接するサンプル点間の周波数領域での間隔が均等(上述の例では10Hz間隔)であるように離散化することを、「線形離散化」と呼ぶ。
これに対して、本発明の一例では、周波数方向の非線形な解像度による離散化によって、パワースペクトル包絡を表現する。例えば、以下の表の11個の周波数のそれぞれをサンプル点として、これらの11個のサンプル点に対応するパワースペクトル包絡値の系列によりパワースペクトル包絡を表現する。
Figure 2016045462
この例では、低周波数領域の方が隣接するサンプル点間の周波数領域での間隔が狭く、高周波数領域ほど隣接する離散化サンプル点間の周波数領域での間隔が広くなっている。例えば、最も低周波数領域のサンプル点の間隔、言い換えればインデックス0に対応するサンプル点とインデックス1に対応するサンプル点との周波数領域での間隔は1Hzであるが、最も高周波数領域のサンプル点の間隔、言い換えればインデックス9に対応するサンプル点とインデックス10に対応するサンプル点との周波数領域での間隔は30Hzとなっている。
このように、パワースペクトル包絡系列を表現するためのサンプル点列を、隣接するサンプル点間の周波数方向での間隔が均等でないように離散化することを、「非線形離散化」と呼ぶ。
以下では、このような周波数方向の解像度の違いを区別するため、周波数方向に等間隔なサンプル点の系列を「線形離散化サンプル点列」とも呼び、周波数方向に不均等な間隔のサンプル点の系列を「非線形離散化サンプル点列」とも呼ぶこととする。線形離散化サンプル点列の隣接するサンプル点の周波数の間隔は均等であるが、非線形離散化サンプル点列の隣接するサンプル点の周波数の間隔は不均等である。また、線形離散化サンプル点列に含まれる各サンプル点を「線形離散化サンプル点」とも呼び、非線形離散化サンプル点列に含まれる各サンプル点を「非線形離散化サンプル点」とも呼ぶ。
また、線形離散化サンプル点列の各サンプル点に対応する入力された音信号のパワーの系列を「パワースペクトル系列」とも呼び、非線形離散化サンプル点列の各サンプル点に対応する入力された音信号のパワーの系列を「伸縮疑似パワースペクトル系列」とも呼ぶこととする。
なお、上述の例では、非線形離散化サンプル点列は低周波数領域ほどサンプル点間の周波数の間隔が狭くなっているが、必ずしもこの性質である必要はなく、例えば中周波数領域の方が低周波数領域よりもサンプル点間の周波数の間隔が狭くてもよい。要するに、非線形離散化サンプル点列では、隣接するサンプル点間の周波数の間隔が不均等であればよい。
[第一実施形態]
(第一実施形態の符号化)
第一実施形態の符号化装置の構成例を図2に示す。第一実施形態の符号化装置は、図2に示すように、周波数領域変換部21と、伸縮疑似パワースペクトル系列生成部22と、線形予測分析部23と、伸縮パワースペクトル包絡系列生成部24と、逆伸縮変換部25と、包絡正規化部26と、符号化部27とを例えば備えている。この符号化装置により実現される第一実施形態の符号化方法の各処理の例を図3に示す。
以下、図2の各部について説明する。
<周波数領域変換部21>
周波数領域変換部21には、時間領域の音信号が入力される。音信号の例は、音声ディジタル信号又は音響ディジタル信号である。
周波数領域変換部21は、所定の時間長のフレーム単位で、入力された時間領域の音信号を周波数領域のN点のMDCT係数列X(0),X(1),…,X(N-1)に変換する(ステップE1)。Nは正の整数である。
変換されたMDCT係数列X(0),X(1),…,X(N-1)は、包絡正規化部26に出力される。
特に断りがない限り、以降の処理はフレーム単位で行われるものとする。
ここでのMDCT係数列X(0),X(1),…,X(N-1)に対応する各サンプル点は、線形離散化サンプル点である。すなわち、MDCT係数列X(0),X(1),…,X(N-1)に対応するサンプル点列の隣接するサンプル点の周波数の間隔は等間隔である。言い換えれば、i=0,1,…,N-2として、MDCT係数列におけるインデックスiに対応する周波数とMDCT係数列におけるインデックスi+1に対応する周波数との間隔は等間隔である。
<伸縮疑似パワースペクトル系列生成部22>
伸縮疑似パワースペクトル系列生成部22には、周波数領域変換部21が変換したMDCT係数列X(0),X(1),…,X(N-1)が入力される。
伸縮疑似パワースペクトル系列生成部22は、まず、MDCT係数列X(0),X(1),…,X(N-1)の各係数の二乗値(パワー)からなる系列であるパワースペクトル系列Y(0),Y(1),…,Y(N-1)を生成する。すなわち、Y(i)=X(i)2(i=0,1,…,N-1)である。
そして、伸縮疑似パワースペクトル系列生成部22は、パワースペクトル系列Y(0),Y(1),…,Y(N-1)を補間や線形変換することにより、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成する(ステップE2)。
生成された伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)は、線形予測分析部23に出力される。
ここで、パワースペクトル系列Y(0),Y(1),…,Y(N-1)に対応するサンプル点列は線形離散化サンプル点列であり、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)に対応するサンプル点列は非線形離散化サンプル点列である。
言い換えれば、パワースペクトル系列Y(0),Y(1),…,Y(N-1)における各インデックス0,1,…,N-1に対応する周波数の間隔は等間隔である。また、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)における各インデックス0,1,…,N-1に対応する周波数の間隔は不均等な間隔である。
補間により伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成する場合、伸縮疑似パワースペクトル系列生成部22は例えば以下の処理を行う。パワースペクトル系列Y(0),Y(1),…,Y(N-1)に対応するサンプル点列の隣接するサンプル点の間の周波数をfとする。そして、fにおけるパワースペクトル値がsinc関数(sinc(f)=sin(f)/f)に従うと仮定して補間した曲線を求める。そして、その曲線における非線形離散化サンプル点列の各サンプル点(周波数)に対応する値を伸縮疑似パワースペクトル値とすることで、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成する。なお、この場合、非線形離散化サンプル点列は予め与えられているものとする。
線形変換により伸縮疑似パワースペクトル系列~Y(0),…,~Y(N-1)を得る場合、伸縮疑似パワースペクトル系列生成部22は、パワースペクトル系列Y(0),Y(1),…,Y(N-1)からなるベクトルに予め定められた変換行列Uを左から乗じることで伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成する。
言い換えれば、伸縮疑似パワースペクトル系列生成部22は、以下の式により定義される伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成する。
Figure 2016045462
ここで、変換行列Uは、線形離散化サンプル点列から非線形離散化サンプル点列へのマッピングを近似する行列である。この変換は、周波数方向で等間隔のサンプル点列を周波数方向で不均等な間隔のサンプル点列に変換するものであり、いわば隣接するサンプル点間の周波数の間隔を伸縮させるものであることから、「伸縮変換」と呼ぶこととする。
伸縮変換後の非線形離散化サンプル点列のある非線形離散化サンプル点の周波数(以下、伸縮後周波数と呼ぶ。)は、伸縮変換前の線形離散化サンプル点列の線形離散化サンプル点のうち伸縮後周波数と近い周波数を持つ1以上の線形離散化サンプル点の周波数の重み付き和で近似できる。言い換えれば、伸縮後周波数は、当該伸縮後周波数と最も近い周波数の線形離散化サンプル点の近傍の1以上の線形離散化サンプル点の周波数の重み付き和で近似できる。
変換行列Uの各行は伸縮変換後の非線形離散化サンプル点列の各非線形離散化サンプル点に対応し、変換行列Uの各列は線形離散化サンプル点列の各線形離散化サンプル点に対応する。すなわち、変換行列Uの各行は、当該各行に対応する非線形離散化サンプル点の周波数を表現するための各線形離散化サンプル点の周波数についての重みの系列になっている。
本来は、伸縮後周波数を当該伸縮後周波数と最も近い周波数の線形離散化サンプル点の近傍の1以上の線形離散化サンプル点の周波数の重み付き和で近似するなら、その重みを負の値としてもよい。しかし、負の値を含むように変換行列Uを構成すると、精度よく伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成するためには後処理が必要となってしまう。そこで、この発明では、例えば変換行列Uの全ての要素を非負の値とする(つまり、Uを非負値行列とする)。これにより、後処理をすることなく精度の高い伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を生成することができる。
さらに、伸縮後周波数と離れた周波数の離散化サンプル点の周波数に乗じる重みは小さい値となることが想定されるため、小さい値の要素を0と見做しても、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)の精度への影響が少ない。そこで、変換行列Uの各行は、当該各行に対応する非線形離散化サンプル点の周波数と最も近い周波数の線形離散化サンプル点に対応する列の近傍要素のみ0でない値とし、残りの要素は0と例えば設定してもよい。ここで、変換行列Uにおいて0以外の値をもつ要素を「伸縮で対応する要素」と呼ぶ。変換行列Uは、例えば、伸縮で対応する要素の近傍のみ0でない値を持ち、それ以外の成分は0であるような帯状の行列(疎行列)であるといえる。
行列のすべての値を使って変換することは演算量が多くなる可能性があるが、このように変換行列Uを疎行列とすることで少ない演算量で伸縮疑似パワースペクトルを得ることができる。行列中の0でない要素の開始サンプル点を別途記憶して、そのサンプル点からのみの少数の演算とすればよい。
このように、変換行列Uを非負値行列、もしくは、疎行列とすることで、少ない演算量で精度よく伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を求めることができる。なお、変換行列Uを疎行列とする場合には負の値の要素を含んでもよい。
変換行列Uは、非線形離散化サンプル点列と線形離散化サンプル点列との相関関係から予め学習などにより求めておくことができる。変換行列Uの求め方については後述する。
非線形離散化サンプル点列の隣接するサンプル点の間隔の伸縮度合いは任意に設定できる。低周波数領域のサンプル点間の間隔を縮小し、高周波数領域のサンプル点間の間隔を拡大する例として下記の一般化対数を使うことができる。なお、「隣接するサンプル点の間隔」のこと「離散化幅」とも呼ぶ
線形離散化サンプル点列のインデックスiのサンプル点に対応する周波数ωiとの関係をあらわす関数の例としてSλi)を使うことができる。非線形離散化サンプル点列の同じインデックスiのサンプル点に対応する周波数Sλi)と周波数ωiとの間には、例えば以下の関係が成り立つ。
Figure 2016045462
Sλi)は、一般化対数関数と呼ばれる関数である。λは、非線形な伸縮度合い、すなわち非線形離散化サンプル点列のサンプル点の間隔の伸縮度合いを決める定数である。伸縮変換の度合いであるλは、入力信号の性質に合わせて設計することができる。λ=0のときは、Sλi)は対数関数となる。
変換行列Uとλとの関係の例を図4に示す。図4(a)、図4(b)及び図4(c)は、縦軸を変換行列Uの行に対応するインデックス、横軸を変換行列Uの列に対応するインデックスとして、変換行列Uの各要素の値を色で示したものである。白色は値が0の要素を表し、黒色は0より大きな値を持つ要素を表す。λ=1の場合の変換行列Uは、線形離散化サンプル点列のまま何も変換しない行列であり、対角成分のみ値が1の対角行列である。これらの図から、λが小さくなるほど、変換行列Uにおける非零成分がなす曲線の形状、言い換えれば0より大きな値を持つ要素を近似する曲線の形状が対角線よりも下方向に非線形に曲がっていることが分かる。
ここで、縦軸を線形離散化サンプル点列のサンプル点の周波数とし、縦軸の上から下に向かうほど周波数が増大するものとし、横軸を非線形離散化サンプル点列の周波数とし、横軸の左から右に向かうほど周波数が増大するものとして定義される2次元平面を考える。
変換行列Uにおける非零成分がなす曲線の形状は、この2次元平面上に、変換行列Uの各要素のインデックスに対応する線形離散化サンプル点の周波数及び非線形離散化サンプル点の周波数をマッピングしたときの点列を補間して得られる曲線に相当するとも言える。この曲線のことを以下「伸縮曲線」とも呼ぶ。伸縮曲線は、言い換えれば、「伸縮で対応する要素」をマッピングした点列を補間して得られる曲線である。ここで、要素のインデックスに対応する線形離散化サンプル点とは、その要素の列に対応する線形離散化サンプル点のことである。また、要素のインデックスに対応する非線形離散化サンプル点とは、その要素の行に対応する非線形離散化サンプル点のことである。
なお、上記の例では低周波数領域の解像度が高周波数領域の解像度よりも高くなるような変換の例を示した。言い換えれば、低周波数領域の非線形離散化サンプル点間の間隔が高周波数領域の非線形離散化サンプル点の間隔よりも狭くなるような変換の例を示した。しかし、これはあくまで一例に過ぎない。
解像度又は伸縮の度合いは変換行列の非零要素が存在するサンプル点の傾きに対応するので、例えば、非線形離散化サンプル点列として、低周波数領域と高周波数領域との中間の周波数領域の解像度が他の周波数領域の解像度よりも高くなるような領域と低くなる領域が中心近くにあるような非線形離散化サンプル点列を用いても良い。この場合、変換行列Uは、例えば図5のような伸縮曲線上の近傍成分のみ非零となるような変換行列となる。
いずれにしても、変換行列UをM×N行列として、変換行列Uにおける伸縮曲線は、行を横軸とし、列を縦軸と見做した二次元平面において、左上端の成分に対応する点[1,1]から右下端の成分に対応する点[M,N]に向けて単調減少する曲線となる。言い換えると、変換行列Uは以下のような性質を持つ。
変換行列Uの第i行の重心giを、
Figure 2016045462
と定義する。U[i,k]は変換行列Uの(i,k)要素を表す。行と列のインデックスは1から開始されるものとする。すると、変換行列Uの各行の重心の系列g1,g2,…,gMはg1<g2<…<gMという関係を満たす。なお、MとNはそれぞれ3以上の整数である。また、本実施形態においてはM=Nである。
また、音声信号及び音響信号では低周波数領域又は中周波数領域にエネルギーが集中することが多いので、低周波数領域又は中周波数領域の非線形離散化サンプル点間の周波数の間隔を、高周波数領域の非線形離散化サンプル点間の周波数の間隔よりも狭くした非線形離散化サンプル点列に対応する伸縮疑似パワースペクトルを用いてもよい。この場合、変換行列Uの各行において、当該各行の非零要素のうち対角要素から最も距離の離れている要素と対角要素との距離(この距離は、列のインデックスがどれだけ離れているかを表す。)を各行のインデックスの伸縮距離としたとき、全インデックスのうちの前半分のインデックスに対する伸縮距離の平均は、後ろ半分のインデックスに対する伸縮距離の平均よりも大きい傾向にある。また、非零成分は正の値をとる。あるいは、変換行列Uは、その上三角行列に含まれる非負成分の数が、その下三角行列に含まれる非負成分の数よりも少ないような疎行列となる。図6に変換行列Uの一例を示す。この例ではN=M=16である。図7には、図6の変換行列Uの重心giを、行番号を横軸とし、giの値を縦軸とする二次元平面にプロットしたものを示す。図7に示されているように、行番号が増加するにつれてgiの値は単調増加する。
伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)は、入力された音信号を周波数領域に変換した信号のパワースペクトルを非線形離散化したものに相当する。
このように、入力された音信号を周波数領域に変換した信号のエネルギーが集中している周波数領域での離散化間隔がそれ以外の周波数領域での離散化間隔よりも狭くなるような非線形な離散化間隔のサンプル点に基づいてパワースペクトルを表現する。
<線形予測分析部23>
線形予測分析部23には、伸縮疑似パワースペクトル系列生成部22が生成した伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)が入力される。
線形予測分析部23は、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を用いて、以下の式により定義される~X(0),~X(1),…,~X(N-1)を線形予測分析して伸縮線形予測係数β12,…,βpを生成し、生成された伸縮線形予測係数β12,…,βpを符号化して伸縮線形予測係数符号と伸縮線形予測係数符号に対応する量子化された伸縮線形予測係数である量子化伸縮線形予測係数^β1,^β2,…,^βpとを生成する(ステップE3)。
Figure 2016045462
生成された量子化伸縮線形予測係数^β1,^β2,…,^βpは、伸縮パワースペクトル包絡系列生成部24に出力される。
また、生成された伸縮線形予測係数符号は、復号装置に送信される。
伸縮線形予測係数符号を生成するために、線形予測分析部23は、まず伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)に対応するサンプル点の周波数の間隔が均等であると見做して逆FFTに相当する演算を行うことにより、~Y(0),~Y(1),…,~Y(N-1)に対応する時間領域の信号列である伸縮相関関数信号列~X(0),~X(1),…,~X(N-1)を求める。そして、線形予測分析部23は、求まった伸縮相関関数信号列~X(0),~X(1),…,~X(N-1)に対して線形予測分析を行って、伸縮線形予測係数β12,…,βpを生成する。そして、線形予測分析部23は、生成された伸縮線形予測係数β12,…,βpを符号化することにより、伸縮線形予測係数符号を生成する。この結果、伸縮線形予測係数符号に対応する量子化伸縮線形予測係数^β1,^β2,…,^βpも得られる。
伸縮線形予測係数は、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)のサンプル点の周波数方向での間隔が均等な間隔であると見做したときの時間領域の信号に対応する線形予測係数である。
線形予測分析部23による伸縮線形予測係数符号の生成は、例えば従来的な符号化技術によって行われる。従来的な符号化技術とは、例えば、線形予測係数そのものに対応する符号を予測係数符号とする符号化技術、線形予測係数をLSPパラメータに変換してLSPパラメータに対応する符号を予測係数符号とする符号化技術、線形予測係数をPARCOR係数に変換してPARCOR係数に対応する符号を予測係数符号とする符号化技術などである。これらの従来的な符号化技術において、線形予測係数を伸縮線形予測係数に置き換えて符号化することで、伸縮線形予測係数に対応する符号である伸縮線形予測係数符号が得られる。
<伸縮パワースペクトル包絡系列生成部24>
伸縮パワースペクトル包絡系列生成部24には、線形予測分析部23が生成した量子化伸縮線形予測係数^β1,^β2,…,^βpが入力される。
伸縮パワースペクトル包絡系列生成部24は、量子化伸縮線形予測係数^β1,^β2,…,^βpを周波数領域に変換することにより、量子化伸縮線形予測係数^β1,^β2,…,^βpに対応する周波数領域のパワースペクトル包絡系列である伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)を生成する(ステップE4)。
生成された伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)は、逆伸縮変換部25に出力される。
伸縮パワースペクトル包絡系列生成部24は、量子化伸縮線形予測係数^β1,^β2,…,^βpを用いて、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)として、例えば以下の式(2)により定義される伸縮非平滑化パワースペクトル包絡系列~Wo(0),~Wo(1),…,~Wo(N-1)又は以下の式(3)により定義される伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)を生成する。
言い換えれば、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)の一例が、式(2)により定義される伸縮非平滑化パワースペクトル包絡系列~Wo(0),~Wo(1),…,~Wo(N-1)又は式(3)により定義される伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)である。
Figure 2016045462
ここで、補正係数γは予め定められた1以下の定数であり、伸縮非平滑化パワースペクトル包絡系列~Wo(0),~Wo(1),…,~Wo(N-1)の振幅の凹凸を鈍らせる係数、言い換えれば伸縮非平滑化パワースペクトル包絡系列~Wo(0),~Wo(1),…,~Wo(N-1)を平滑化する係数である。伸縮変換を行わない従来的な符号化処理におけるパワースペクトル包絡系列の平滑化に用いるγ、すなわち上述の式(P1)におけるγと同じと考えればよい。
なお、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)に対応するサンプル点列、言い換えれば伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)における各インデックス0,1,…,N-1に対応する周波数の系列は、非線形離散化サンプル点列である。
このようにして、伸縮パワースペクトル包絡系列生成部24は、所定の時間区間ごとの音信号に由来する周波数領域のサンプル列のパワースペクトル包絡を平滑化した包絡を周波数方向に不均等間隔で離散化した系列である伸縮パワースペクトル包絡系列を生成する。
所定の時間区間ごとの音信号に由来する周波数領域のサンプル列とは、この例ではMDCT係数列X(0),X(1),…,X(N-1)のことである。所定の時間区間ごとの音信号に由来する周波数領域のサンプル列として、MDCT係数列X(0),X(1),…,X(N-1)以外の周波数領域のサンプル列を用いてもよい。
伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)は、サンプル点の周波数の間隔が狭いところでは細かい解像度で表現されるため、パワースペクトル包絡の振幅の凹凸の細かい変化も表現することができる。逆に、サンプル点の周波数の間隔が広いところでは粗い解像度で表現されるため、パワースペクトル包絡の大まかな変化のみしか表現されない。一般に、音声音響信号はエネルギーの集中している部分でのパワースペクトル包絡の変化が大きく、それ以外の部分でのパワースペクトル包絡の変化は小さい。よって、エネルギーの集中している周波数領域での隣接するサンプル点間の周波数の間隔がそれ以外の周波数領域での隣接するサンプル点間の周波数の間隔よりも狭いような非線形離散化サンプル点列に対応する周波数領域の入力された音信号のパワーの系列を伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)とすることで、限られたサンプル点列でより正確にパワースペクトルの振幅の凹凸の変化を表現する離散系列を得ることができる。言い換えれば、エネルギーの集中している周波数領域を他の周波数領域よりも細かい解像度で表現するように非線形離散化することで、より正確にパワースペクトルを表現する離散系列を得ることができる。
こうして得られた伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)に基づいて算出したスペクトル包絡値を用いてMDCT係数列を正規化すると、正規化MDCT係数列の大きさの変化が小さくなるため、効率的に符号化できるようになる。
<逆伸縮変換部25>
逆伸縮変換部25には、伸縮パワースペクトル包絡系列生成部24が生成した伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)が入力される。
逆伸縮変換部25は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)を、補間又は線形変換により線形離散化サンプル点列に対応するパワースペクトル包絡系列W(0),W(1),…,W(N-1)に変換する(ステップE5)。
変換されたパワースペクトル包絡系列W(0),W(1),…,W(N-1)は、包絡正規化部26に出力される。
補間によりパワースペクトル包絡系列W(0),W(1),…,W(N-1)を得る場合、逆伸縮変換部25は例えば以下の処理を行う。逆伸縮変換部25は、伸縮疑似パワースペクトル系列生成部22と同様に、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)をsinc関数により補間した曲線(伸縮パワースペクトル包絡をなめらかにつないだ包絡)を求める。そして、その曲線上で線形離散化サンプル点列の各離散化サンプル点に対応する周波数のパワースペクトル包絡値の系列をパワースペクトル包絡系列W(0),W(1),…,W(N-1)として得る。
線形変換によりパワースペクトル包絡系列W(0),W(1),…,W(N-1)を得る場合、逆伸縮変換部25は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)からなるベクトルに予め定められた変換行列Vを左から乗じることでパワースペクトル包絡系列W(0),W(1),…,W(N-1)を生成する。
言い換えれば、逆伸縮変換部25は、以下の式により定義されるパワースペクトル包絡系列W(0),W(1),…,W(N-1)を生成する。
Figure 2016045462
ここで、変換行列Vは、変換行列Uの逆変換を近似する行列であり、非線形離散化サンプル点列から線形離散化サンプル点列へのマッピングを近似する行列である。この変換は、不均等な間隔のサンプル点列を等間隔のサンプル点列に変換するものであり、上述の「伸縮変換」とは逆の関係となるようにサンプル点の間隔を伸縮させるものであることから、「逆伸縮変換」と呼ぶこととする。ただし、変換行列Vが変換行列Uの逆行列を意味するものではない。
変換行列Vは、例えば、逆伸縮で対応する要素の近傍のみ0でない値を持ち、それ以外の成分は0であるような帯状の行列(疎行列)とする。
逆伸縮変換後の線形離散化サンプル点列のある線形離散化サンプル点(以下、「逆伸縮後周波数」と呼ぶ。)は、逆伸縮変換前の非線形離散化サンプル点列の非線形離散化サンプル点のうち逆伸縮後周波数と近い周波数を持つ1以上の非線形離散化サンプル点の周波数の重み付き和で近似できる。言い換えれば、逆伸縮後周波数は、当該逆伸縮後周波数と最も近い周波数の非線形離散化サンプル点の近傍の1以上の非線形離散化サンプル点の周波数の重み付き和で近似できる。
変換行列Vの各行は逆伸縮変換後の線形離散化サンプル点列の各線形離散化サンプル点に対応し、変換行列Vの各列は非線形離散化サンプル点列の非線形離散化サンプル点に対応する。すなわち、変換行列Vの各行は、当該行に対応する線形離散化サンプル点の周波数を表現するための、各非線形離散化サンプル点の周波数についての重みの系列になっている。
上記の性質から、変換行列Vの各行は、当該各行に対応する線形離散化サンプル点の周波数と最も近い周波数の非線形離散化サンプル点に対応する列の近傍要素のみ0でない値とし、残りの要素は0と例えば設定される。これは、線形離散化サンプル点の周波数とは離れた周波数の非線形離散化サンプル点の影響は極めて小さいため0とみなすことができるからである。
上述の「逆伸縮で対応する要素」とは、逆伸縮後周波数に対応する変換行列Vの行の要素の中の、当該逆伸縮後周波数を近似するために用いる非線形離散化サンプル点に対応する列の要素を指す。すなわち、上述の「逆伸縮で対応する要素」とは、変換行列Vの各行の要素の中の、当該各行に対応する逆伸縮後周波数に最も近い周波数の非線形離散化サンプル点に対応する列の近傍の要素である。
変換行列VをN×M行列として、変換行列Vにおける伸縮曲線は、行を横軸とし、列を縦軸と見做した二次元平面において、左上端の成分に対応する点[1,1]から右下端の成分に対応する点[N,M]に向けて単調減少する曲線となる。言い換えると、変換行列Vは以下のような性質を持つ。
変換行列Vの第i行の重心gi’を、
Figure 2016045462
と定義する。V[i,k]は変換行列Vの(i,k)要素を表す。行と列のインデックスは1から開始されるものとする。すると、変換行列Vの各行の重心の系列g1’,g2’,…,gN’はg1’<g2’<…<gN’という関係を満たす。
ただし、変換行列Vにおける伸縮曲線は、変換行列Uの伸縮曲線とは逆の曲がり方の伸縮曲線(逆伸縮曲線)に沿った成分のみ非零の値を持つような疎行列となる。つまり、変換行列Uの伸縮曲線と変換行列Vの伸縮曲線は、行を横軸とし、列を縦軸と見做した二次元平面において、左上端の成分に対応する点[1,1]と右下端の成分に対応する点[N,M]とを結ぶ直線に対してほぼ線対称な形状となる。
例えば、変換行列Uが、その上三角行列に含まれる非零成分の数が、その下三角行列に含まれる非零成分の数よりも少ないような疎行列である場合は、変換行列Vは、その上三角行列に含まれる非零成分の数が、その下三角行列に含まれる非零成分の数よりも多いような疎行列となる。このとき、変換行列Vの各行において、当該各行の非零要素のうち対角要素から最も距離の離れている要素と対角要素との距離(この距離は、列のインデックスがどれだけ離れているかを表す。)を各行のインデックスの伸縮距離としたとき、全インデックスのうちの前半分のインデックスに対する伸縮距離の平均は、後ろ半分のインデックスに対する伸縮距離の平均よりも小さい傾向にある。図8に変換行列Vの例を示す。この例ではN=M=16である。
なお、変換行列Vは、変換行列Uと同様に非負値行列であってもよい。この場合も変換行列Vは各行の重心が上記の性質g1’<g2’<…<gN’を満たす。
<包絡正規化部26>
包絡正規化部26には、周波数領域変換部21が変換したMDCT係数列X(0),X(1),…,X(N-1)及び逆伸縮変換部25が変換したパワースペクトル包絡系列W(0),W(1),…,W(N-1)が入力される。
包絡正規化部26は、パワースペクトル包絡系列W(0),W(1),…,W(N-1)を用いて、周波数領域のサンプル列であるMDCT係数列X(0),X(1),…,X(N-1)を正規化することにより、正規化された周波数領域サンプル列を生成する(ステップE6)。正規化された周波数領域サンプル列とは、この例では正規化MDCT係数列XN(0),XN(1),…,XN(N-1)である。
生成された正規化された周波数領域サンプル列は、符号化部27に出力される。
包絡正規化部26は、例えば、i=0,1,…,N-1として、MDCT係数列X(0),X(1),…,X(N-1)の各係数X(i)をパワースペクトル包絡系列W(0),W(1),…,W(N-1)の各包絡値Wγ(i)の平方根で除算することにより、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)の各係数XN(i)を生成する。すなわち、i=0,1,…,N-1として、XN(i)=X(i)/sqrt(W(i))である。ここで、xを実数としてsqrt(x)はxの平方根を表す。
なお、パワースペクトル包絡系列W(0),W(1),…,W(N-1)は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)に由来するものである。
したがって、包絡正規化部26は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)に基づいて周波数領域のサンプル列であるMDCT係数列X(0),X(1),…,X(N-1)を正規化することにより、正規化された周波数領域サンプル列を生成しているとも言える。
<符号化部27>
符号化部27には、包絡正規化部26が生成した正規化された周波数領域サンプル列が入力される。この例では、正規化された周波数領域サンプル列は、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)である。
符号化部27は、正規化された周波数領域サンプル列を符号化して、その正規化された周波数領域サンプル列に対応する符号を生成する(ステップE7)。
生成された符号は、復号装置に出力される。
符号化部27は、例えば従来と同様に正規化された周波数領域サンプル列に対応する符号を生成する。
すなわち、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)の各係数を利得(グローバルゲイン)gで割り算し、その結果を量子化した整数値による系列である量子化正規化済係数系列XQ(0),XQ(1),…,XQ(N-1)を符号化して得られる符号を整数信号符号とする。符号化部27は、この整数信号符号のビット数が、予め配分されたビット数である配分ビット数B以下、かつ、なるべく大きな値となるような利得gを決定する。そして、符号化部27は、この決定された利得gに対応する利得符号と、この利得符号に対応する利得gで正規化MDCT係数列XN(0),XN(1),…,XN(N-1)の各係数を割り算した結果を量子化した整数値による系列である量子化正規化済係数系列XQ(0),XQ(1),…,XQ(N-1)を符号化して得られる整数信号符号とを生成する。この場合、利得符号と整数信号符号とが、正規化された周波数領域サンプル列に対応する符号となる。
〔変換行列Uと変換行列Vの求め方の例〕
線形離散化サンプル点列から非線形離散化サンプル点列への線形変換を実現する変換行列Uと、非線形離散化サンプル点列から線形離散化サンプル点列への線形変換を実現する変換行列Vとは、例えば予め学習によって求めておくことができる。ここでU,Vの要素はすべて負でないという制約をつける。変換前後のベクトルはパワースペクトルまたはその包絡であるため、すべて正値であるためである。
線形変換を用いてパワースペクトル系列Y(0),Y(1),…,Y(N-1)から伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を得る方法は、sinc関数などにより補間することで伸縮疑似パワースペクトルを求める場合と比較して意図しない変換を防ぐことができるという利点がある。
まず、学習データとして、T個の線形離散化サンプル点から成る線形離散化サンプル点列に基づいて表現されるパワースペクトル系列(Yt(0),…,Yt(N-1))(t=1,2,…,T)の集合Yと、これをsinc関数などにより補間することで得られる非線形離散化サンプル点列に基づいて表現される伸縮疑似パワースペクトル系列(~Yt(0),…,~Yt(N-1))(t=1,2,…,T)の集合~Yを用意しておく。
そして、予め適当な初期値を設定した帯状の行列Uを用いて、UYと~Yとの距離が最小となるように、Uの各成分を更新していくことで、変換行列Uを学習する。
距離としては、線形予測係数が包絡の二乗値と元のパワースペクトルとの板倉齋藤距離が最小となるものであることから、学習時の距離の尺度としても板倉齋藤距離を用いるとよい。すなわち、伸縮変換行列の学習では、以下の式により定義される関数を目的関数として学習を行う。DIS(a|b)はaを基準とするbとの板倉齋藤距離を表す。
Figure 2016045462
変換行列Vは、YとVUYとの板倉齋藤距離が最小となるように、すなわち、以下の式により定義される関数を目的関数として学習を行えばよい。
Figure 2016045462
この最適化問題は、例えば補助関数法により解くことができる。例えば、所定の条件を満たすまで、以下の更新式によりUとVの要素を更新することで最適解に近づけることができる。
Figure 2016045462
ここで、Ui,j (p)とVi,j (p)は、それぞれp回目の繰り返しにより得られた変換行列Vの(i,j)成分、変換行列Vの(i,j)成分を表す。また、Yj,k=Yk(j)、すなわち、学習データYのk番目の疑似パワースペクトル系列におけるj番目の要素を表す。同様に~Yi,k=~Yk(i)であり、学習データ~Yのk番目の疑似パワースペクトル系列におけるi番目の要素を表す。
この更新式から、変換行列Uや変換行列Vのうち初期値が0の要素は、学習後も0のままであるため、計算をする必要がなく、この制約の中での最適化が可能である。また、UとVは帯状の行列であるので、あらかじめ非ゼロのサンプルの位置を指定した変換により、実際の変換のための演算量を大幅に削減できるとともに、学習においても0成分である多くの要素は学習する必要がないため、低コストで学習を行うことができる。また、初期値を設定する際の帯幅を調整することで、変換や学習の演算量をさらに調節することができる。
(第一実施形態の復号)
第一実施形態の符号化装置に対応する復号装置の構成例を図9に示す。第一実施形態の復号装置は、図9に示すように、伸縮線形予測係数復号部31と、伸縮パワースペクトル包絡系列生成部32と、逆伸縮変換部33と、復号部34と、包絡逆正規化部35と、時間領域変換部36とを例えば備えている。この復号装置により実現される第一実施形態の復号方法の各処理の例を図10に示す。
復号装置では、符号化装置による符号化処理に対応する処理で時間領域の復号された音信号が得られる。
復号装置には、符号化装置が出力した、正規化された周波数領域サンプル列に対応する符号及び伸縮線形予測係数符号が少なくとも入力される。以下、正規化された周波数領域サンプル列に対応する符号として、正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号が入力された場合を例に挙げて説明する。
以下、図9の各部について説明する。
<伸縮線形予測係数復号部31>
伸縮線形予測係数復号部31には、符号化装置が出力した伸縮線形予測係数符号が入力される。
伸縮線形予測係数復号部31は、フレームごとに、入力された伸縮線形予測係数符号を例えば従来的な復号技術によって復号して復号伸縮線形予測係数^β1,^β2,…, ^βpを得る(ステップD1)。
得られた復号伸縮線形予測係数^β1,^β2,…,^βpは、伸縮パワースペクトル包絡系列生成部32に出力される。
ここで、従来的な復号技術とは、例えば、線形予測係数符号が量子化された線形予測係数に対応する符号である場合に線形予測係数符号に対応する量子化された線形予測係数を復号された線形予測係数として得る技術、線形予測係数符号が量子化されたLSPパラメータに対応する符号である場合に線形予測係数符号に対応する量子化されたLSPパラメータを復号されたLSPパラメータとして得て、復号されたLSPパラメータを線形予測係数に変換して復号された線形予測係数を得る技術などである。また、量子化された線形予測係数と量子化されたLSPパラメータは互いに変換可能なものであり、入力された予測係数符号と後段での処理において必要な情報に応じて、変換処理を行なえばよいのは周知である。以上から、上記の線形予測係数符号の復号処理と必要に応じて行なう上記の変換処理とを包含したものが「従来的な復号技術による復号」ということになる。なお、ここでは入力される線形予測係数符号が伸縮線形予測係数符号であるが、処理は従来的な復号処理と同様である。
<伸縮パワースペクトル包絡系列生成部32>
伸縮パワースペクトル包絡系列生成部32には、伸縮線形予測係数復号部31が生成した復号伸縮線形予測係数^β1,^β2,…,^βpが入力される。
伸縮パワースペクトル包絡系列生成部32は、復号伸縮線形予測係数^β1,^β2,…,^βpを用いて、符号化装置の伸縮パワースペクトル包絡系列生成部24と同様の処理により、非線形離散化サンプル点列に基づいて表現される伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)を生成する(ステップD2)。
生成された伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)は、逆伸縮変換部33に出力される。
<逆伸縮変換部33>
逆伸縮変換部33には、伸縮パワースペクトル包絡系列生成部32が生成した伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)が入力される。
逆伸縮変換部33は、符号化装置の逆伸縮変換部25と同様の処理により、非線形離散化サンプル点列に基づいて表現される伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)を線形離散化サンプル点列に基づいて表現されるパワースペクトル包絡系列W(0),W(1),…,W(N-1)に変換する(ステップD3)。
変換されたパワースペクトル包絡系列W(0),W(1),…,W(N-1)は、包絡逆正規化部35に出力される。
<復号部34>
復号部34には、符号化装置が出力した正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号が入力される。
復号部34は、フレームごとに、入力された正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号を復号して復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)を生成する(ステップD4)。
生成された復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)は、包絡逆正規化部35に出力される。
例えば、符号化装置でライス符号化を用いた場合には、復号部34は、ライス符号化に対応した復号処理により符号を復号する。
正規化MDCT係数列XN(0),XN(1),…,XN(N-1)に対応する符号として利得符号及び整数信号符号が入力された場合には、復号部34は、整数信号符号を復号することにより得られる復号正規化済係数系列XQ(0),XQ(1),…,XQ(N-1)に利得符号により特定される利得を乗じることにより復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)を生成する。
<包絡逆正規化部35>
包絡逆正規化部35には、逆伸縮変換部33が変換したパワースペクトル包絡系列W(0),W(1),…,W(N-1)及び復号部34が生成した復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)が入力される。
包絡逆正規化部35は、パワースペクトル包絡系列W(0),W(1),…,W(N-1)を用いて、正規化された周波数領域のサンプル列である復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)を逆正規化することにより、復号MDCT係数列^X(0),^X(1),…,^X(N-1)を生成する(ステップD5)。
生成された復号MDCT係数列^X(0),^X(1),…,^X(N-1)は、時間領域変換部36に出力される。
例えば、包絡逆正規化部35は、i=0,1,…,N-1として、復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)の各係数に^XN(i)に、パワースペクトル包絡系列W(0),W(1),…,W(N-1)の各包絡値W(i)の平方根を乗じることにより復号MDCT係数列^X(0),^X(1),…,^X(N-1)を生成する。すなわち、i=0,1,…,N-1として、^X(i)=^XN(i)*sqrt(W(i))である。ここで、xを実数としてsqrt(x)はxの平方根を表す。
なお、パワースペクトル包絡系列W(0),W(1),…,W(N-1)は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)に由来するものである。
したがって、包絡逆正規化部35は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)に基づいて周波数領域のサンプル列である復号正規化MDCT係数列^XN(0),^XN(1),…,^XN(N-1)を逆正規化することにより、周波数領域サンプル列を生成しているとも言える。
<時間領域変換部36>
時間領域変換部36には、包絡逆正規化部35が生成した復号MDCT係数列^X(0),^X(1),…,^X(N-1)が入力される。
時間領域変換部36は、フレームごとに、包絡逆正規化部35で得た復号MDCT係数列を時間領域に変換してフレーム単位の音信号(復号音信号)を得て、(ステップD6)出力する。
[第二実施形態]
(第二実施形態の符号化)
第二実施形態の符号化装置の構成例は、図2に示した第一実施形態の符号化装置の構成例と同様である。
以下、第一実施形態と異なる部分を中心に説明する。第一実施形態と同様の部分については説明を省略する。
第二実施形態の符号化装置は、MDCT係数列X(0),X(1),…,X(N-1)を正規化する際に用いるパワースペクトル包絡系列が異なる。すなわち、非線形離散化サンプル点列に対応する伸縮パワースペクトル包絡を平滑化するときの平滑化方法が異なる。言い換えれば、伸縮平滑化パワースペクトル包絡系列生成部24による伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)の生成方法が異なる。
第一実施形態の符号化装置では、伸縮パワースペクトル包絡系列~Wo(0),~Wo(1),…,~Wo(N-1)の一例である伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)は、線形離散化サンプル点列に対応するパワースペクトル包絡系列を平滑化する従来と同様の方法で、非線形離散化サンプル点列に対応する伸縮疑似パワースペクトル包絡系列を平滑化することにより生成されている。
このようにして生成された非線形離散化サンプル点列に対応する伸縮パワースペクトル包絡系列を線形離散化サンプル点列に対応するパワースペクトル包絡系列に逆伸縮変換すると、線形離散化サンプル点列中の解像度の高い周波数領域では伸縮パワースペクトル包絡系列に対して施した平滑化の効果が相殺され、線形離散化サンプル点列に対応するパワースペクトル包絡系列に逆伸縮変換したときにピークの形が大きく残ってしまうことがある。その結果、ピークの形が大きく残ったパワースペクトル包絡系列を用いて正規化MDCT係数列を求めて符号化することになるので、平滑化効果が十分に得られず、符号化の効率が低下してしまうことがある。
このため、第二実施形態の伸縮パワースペクトル包絡系列生成部24は、逆伸縮変換後のパワースペクトル包絡系列が、線形離散化サンプル点列で均一な解像度で表現されたパワースペクトル包絡を平滑化したときの平滑化パワースペクトル(従来の平滑化パワースペクトル)を近似するものとなるように、非線形離散化サンプル点列の伸縮の度合いg(k)に応じて平滑化の効果を補正する。
具体的には、第二実施形態の伸縮パワースペクトル包絡系列生成部24は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)として、式(3’)により定義される伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)を生成する(ステップE4)。生成された伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)は、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)として逆伸縮変換部25に出力される。
Figure 2016045462
式(3’)により定義される伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)は、g(k)(k=0,1,…,N-1)により補正された伸縮平滑化パワースペクトル包絡系列であることから、式(3’)により定義される伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)のことを、補正された伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)とも呼ぶ。
式(3)と式(3’)とを比較すると、補正係数γnにg(k)が乗じられている点が異なる。g(k)は、非線形離散化サンプル点列の線形離散化サンプル点列からの伸縮の度合いに対応する値であり、例えば以下のように定義される。
Figure 2016045462
f(k)は、非線形離散化サンプル点列でk番目のインデックスに対応するサンプル点の周波数の、線形離散化サンプル点列での相対的な周波数位置を表すものである。したがって、式(3’)は、逆伸縮変換の際に間隔を縮める周波数では、補正値γを等価的に小さくすることを意味する。なお、非線形離散化サンプル点列から線形離散化サンプル点列への変換、すなわち、逆伸縮変換、を実現する行列を変換行列Vとすれば、f(k)(k=0,1,…,N-1)は例えば以下のように表される。
Figure 2016045462
なお、変換行列Vは、変換行列Uと同様に帯状の行列で表現できる。変換行列Vも変換行列Uと同様に、非線形離散化サンプル点列と線形離散化サンプル点列との相関関係から予め学習などにより求めておくことができる。求め方は第一実施形態で説明したものと同様である。なお、離散信号における周波数の非線形変換は不可逆な演算であるため、必ずしもVがUの逆行列の関係にあるものではない。
(第二実施形態の復号)
第二実施形態の復号装置の構成例は、図9に示した第一実施形態の復号装置の構成例と同様である。
第二実施形態の復号装置は、伸縮パワースペクトル包絡系列生成部32が、ステップD2において、伸縮パワースペクトル包絡系列~W(0),~W(1),…,~W(N-1)として、式(3’)により定義される補正された伸縮平滑化パワースペクトル包絡系列~Wγ(0),~Wγ(1),…,~Wγ(N-1)を生成する部分で第一実施形態の復号装置と異なる。
第二実施形態の復号装置は、他の部分については、第一実施形態の復号装置と同様である。
[第三実施形態]
(第三実施形態の符号化)
第三実施形態の符号化装置の構成例を図11に示す。第三実施形態の符号化装置は、図11に示すように、周波数領域変換部21と、伸縮疑似パワースペクトル系列生成部22と、逆伸縮変換部25と、包絡正規化部26と、符号化部27とを、第一実施形態及び第二実施形態の符号化装置と同様に備え、さらに線形予測分析部323と、伸縮パワースペクトル包絡系列生成部324と、伸縮対応平滑化LSP線形変換部328を例えば備えている。線形予測分析部323は、線形予測係数算出部3231と、LSP計算部3232と、LSP符号化部3233とを例えば備えている。この符号化装置により実現される第三実施形態の符号化方法の各処理の例を図12に示す。
以下、図11の各部について、第一実施形態及び第二実施形態と異なる部分を中心に説明する。第一実施形態及び第二実施形態と同様の部分については説明を省略する。
<線形予測分析部323>
線形予測分析部323には、伸縮疑似パワースペクトル系列生成部22が生成した伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)が入力される。
線形予測分析部23は、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を用いて、線形予測係数算出部3231とLSP計算部3232とLSP符号化部3233との処理を実行して、伸縮LSP符号CLfと量子化伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]とを生成し(ステップE3)、出力する。
<線形予測係数算出部3231>
線形予測係数算出部3231には、伸縮疑似パワースペクトル生成部22が生成した伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)が入力される。
線形予測係数算出部3231は、伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を用いて、以下の式により定義される~X(0),~X(1),…,~X(N-1)を線形予測分析して伸縮線形予測係数β12,…,βpを生成する。
Figure 2016045462
生成された伸縮線形予測係数β12,…,βpは、LSP計算部3232に出力される。
<LSP計算部3232>
LSP計算部3232は、線形予測係数算出部3231が生成した伸縮線形予測係数β12,…,βpを受け取り、伸縮線形予測係数β12,…,βpから伸縮LSPパラメータφ[1],φ[2],…,φ[p]を生成する。
生成された伸縮LSPパラメータφ[1],φ[2],…,φ[p]は、LSP符号化部3233に出力される。
<LSP符号化部3233>
LSP符号化部3233は、LSP計算部3232が生成した伸縮LSPパラメータφ[1],φ[2],…,φ[p]を受け取り、伸縮LSPパラメータφ[1],φ[2],…,φ[p]を符号化して、伸縮LSP符号CLfと、伸縮LSP符号に対応する量子化伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]とを生成する。なお、量子化伸縮LSPパラメータは、伸縮LSPパラメータを量子化したものである。「"ITU-T Recommendation G.729", ITU, 1996(参考文献1)」では、伸縮LSPパラメータφ[1],φ[2],…,φ[p]の過去のフレームからの重み付き差分ベクトルを求め、重み付き差分ベクトルを低次側と高次側の2つのサブベクトルに分け、各サブベクトルが2つの符号帳からのサブベクトルの和となるように符号化する方法で符号化しているが、符号化方法には様々な従来技術がある。したがって、伸縮LSPパラメータの符号化には、参考文献1に記載された方法、多段でベクトル量子化する方法、スカラ量子化する方法、これらを組み合わせた方法、などの様々な周知の符号化方法が採用されることがある。
生成された量子化伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]は、伸縮対応平滑化LSP線形変換部328に出力される。
また、生成された伸縮LSP符号CLfは、復号装置に送信される。
<伸縮対応平滑化LSP線形変換部328>
伸縮対応平滑化LSP線形変換部328では、LSPパラメータの性質を利用して、LSP符号化部3233が生成した量子化伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]に近似的な線形変換を施して近似量子化伸縮平滑化LSPパラメータ^φγ[1],^φγ[2],…,^φγ[p]を生成し(ステップE8)、出力する。
まず、LSPパラメータの性質を説明する。
入力された時間領域の音信号から求まる線形予測係数をa[i] [i=1,…,P]とし、周波数方向で均等な間隔のサンプル点をnとしたときの、線形予測係数a[i] [i=1,…,P]に対応するパワースペクトル包絡系列を
Figure 2016045462
とし、線形予測係数a[i] [i=1,…,P]のそれぞれに対してγiを乗算することに対応する平滑化後、すなわち、一般の平滑化後のパワースペクトル包絡系列を
Figure 2016045462
とした場合、線形予測係数a[i] [i=1,…,P]に対応するLSPパラメータの性質として、以下が成り立つ。ここで、exp(・)はネイピア数を底とする指数関数であり、jは虚数単位であり、σ2は予測残差エネルギーである。また、γは補正係数であり、予め定めた1以下の正の整数である。なお、式(5)は式(4)のa[i]をa[i]×γiに置き換えた式であり、式(5)で定義される系列Wγ(1),Wγ(2),…,Wγ(N)は、式(4)で定義される入力された時間領域の音信号のパワースペクトル包絡系列W(1),W(2),…,W(N)の振幅の凹凸に一般の平滑化を施したものに相当する。
線形予測係数a[i] [i=1,…,P]に対応するLSPパラメータをθ[i] [i=1,…,P]として、LSPパラメータ列θ[1],θ[2],…,θ[p]は入力された時間領域の音信号のパワースペクトル包絡と相関性のある周波数領域のパラメータ列である。LSPパラメータ列の各値は入力された時間領域の音信号のパワースペクトル包絡の極値の周波数位置と相関する。θ[i]とθ[i+1]の間の周波数位置にパワースペクトル包絡の極値が存在し、この極値の周りの接線の傾きが急峻であるほどθ[i]とθ[i+1]との間隔(つまり、θ[i+1]-θ[i]の値)が小さくなる。すなわち、パワースペクトル包絡の振幅の凹凸が急峻であるほど、各i(i=1,2,…,p-1)について、θ[i]とθ[i+1]との間隔が不均一になる。逆に、パワースペクトル包絡の凹凸がほとんどない場合は、各iについて、θ[i]とθ[i+1]との間隔が均等間隔に近くなる。
補正係数γが小さいほど、式(5)で定義される一般の平滑化後パワースペクトル包絡系列Wγ(1),Wγ(2),…,Wγ(N)の振幅の凹凸は、式(4)で定義されるパワースペクトル包絡系列W(1),W(2),…,W(N)の振幅の凹凸と比較してなだらかになる。したがって、式(5)で定義される一般の平滑化後のパワースペクトル包絡系列Wγ(1),Wγ(2),…,Wγ(N)に対応するLSPパラメータ、すなわち、線形予測係数列a[1],a[2],…,a[p]の各係数a[i](i=1,…,p)に補正係数γのi乗を乗じた補正済線形予測係数aγ[i]=a[i]×γiの系列をLSPパラメータに変換して得られるLSPパラメータ、をθγ[i](i=1,2,…,p)としたとき、補正係数γの値が小さいほどθγ[i]とθγ[i+1]との間隔が均等間隔に近くなると言える。なお、γの影響がない(γ=0の)ときは、パワースペクトル包絡が平坦な場合に相当する。
補正係数γ=0としたときのLSPパラメータθγ=0[1],θγ=0[2],…,θγ=0[p]は、
Figure 2016045462
となり、すべてのi=1,…,p-1についてθγ=0[i]とθγ=0[i+1]の間隔が等間隔になる。また、γ=1としたとき、LSPパラメータ列θγ=1[1],θγ=1[2],…,θγ=1[p]とLSPパラメータ列θ[1],θ[2],…,θ[p]は等価である。なお、LSPパラメータθγ[i](i=1,2,…,p)は、
0<θγ[1]<θγ[2]…<θγ[p]<π
の性質を満たす。
図13は、補正係数γとLSPパラメータθγ[i](i=1,2,…,p)の関係の一例である。横軸は補正係数γの値であり、縦軸は補正係数γに対応するLSPパラメータθγ[i](i=1,2,…,p)の値を表す。予測次数p=16として、下から順にθγ[1],θγ[2],…,θγ[16]の値を図示したものである。各θγ[i]の値は、ある音声音響信号を線形予測分析して得た線形予測係数列a[1],a[2],…,a[p]の各係数a[i](i=1,…,p)に補正係数γのi乗を乗じた補正済線形予測係数aγ[i]=a[i]×γiの系列を各γの値ごとに求め、その補正済線形予測係数列aγ[1],aγ[2],…,aγ[p]をLSPパラメータに変換して得たものである。なお、γ=1のときのθγ=1[i]はθ[i]と等価である。
図13に示されているように、0<γ<1として、LSPパラメータθγ[i]は、θγ=0[i]とθγ=1[i]の内分点になる。横軸を補正係数γの値とし、縦軸をLSPパラメータの値とする二次元平面において、各LSPパラメータθγ[i]は、局所的に見ればγの増加または減少に対して線形な関係にある。異なる2つの補正係数γ1、γ2(0<γ1<γ2≦1)として、二次元平面上の点(γ1,θγ1[i])と点(γ2,θγ2[i])を結ぶ直線の傾きの大きさは、LSPパラメータ列θγ1[1],θγ1[2],…,θγ1[p]中のθγ1[i]の前後のLSPパラメータ(つまり、θγ1[i-1]とθγ1[i+1])とθγ1[i]との相対的な間隔と相関性がある。具体的には、
Figure 2016045462
である場合、
Figure 2016045462
という性質が成り立ち、
Figure 2016045462
である場合、
Figure 2016045462
という性質が成り立つ。
式(6)(7)は、θγ1[i]がθγ1[i+1]とθγ1[i-1]の中点よりもθγ1[i+1]寄りの場合は、θγ2[i]はさらにθγ2[i+1]寄りの値となることを示す(図14参照)。このことは、横軸をγの値とし、縦軸をLSPパラメータの値とする二次元平面上における点(0,θγ=0[i])と点(γ1,θγ1[i])を結ぶ直線L1の傾きよりも、点(γ1,θγ1[i])と点(γ2,θγ2[i])を結ぶ直線L2の傾きの方が大きいことを意味する(図15参照)。
式(8)(9)は、θγ1[i]がθγ1[i+1]とθγ1[i-1]の中点よりもθγ1[i-1]寄りのときは、θγ2[i]はさらにθγ2[i-1]寄りの値となることを示す。このことは、横軸をγの値とし、縦軸をLSPパラメータの値とする二次元平面上における点(0,θγ=0[i])と点(γ1,θγ1[i])を結ぶ直線の傾きよりも、点(γ1,θγ1[i])と点(γ2,θγ2[i])を結ぶ直線の傾きの方が小さいことを意味する。
以上の性質に基づけば、θγ1[1],θγ1[2],…,θγ1[p]とθγ2[1],θγ2[2],…,θγ2[p]の関係は、Θγ1=(θγ1[1],θγ1[2],…,θγ1[p])Tとし、Θγ2=(θγ2[1],θγ2[2],…,θγ2[p])Tとし、Θγ=0=(θγ=0[1],θγ=0[2],…,θγ=0[p])Tとし、式(10)でモデル化することができる。
Figure 2016045462
ただし、Kは式(11)で定義されるp×p行列である。
Figure 2016045462
ここでは、0<γ1、γ2≦1、かつ、γ1≠γ2である。式(6)〜(9)ではγ1<γ2と仮定して関係性を記述したが、式(10)のモデルではγ1とγ2の大小関係に制限はなく、γ1<γ2であってもγ1>γ2であってもよい。
行列Kは対角成分とその近傍の要素のみ非零の値を持つ帯行列であり、対角成分に対応するLSPパラメータとそれに隣接するLSPパラメータとの間に成り立つ上述の相関関係を表現する行列である。なお、式(11)では帯幅3の帯行列を例示したが、帯幅は3に限定されない。
ここで、
Figure 2016045462
とすれば、
γ2=(~θγ2[1],~θγ2[2],…,~θγ2[p])T
はΘγ2の近似値である。
式(10a)を展開すると以下の式(12)が得られる。
Figure 2016045462
ただし、i=2,…,p-1とする。
横軸をγの値とし、縦軸をLSPパラメータの値とする二次元平面上の点(γ1,θγ1[i])と点(0,θγ=0[i])を結ぶ直線L1の延線上のγ2に対応する縦軸の値、つまり、θγ1[i]とθγ=0[i]を結ぶ直線L1の傾きから直線近似したときのγ2に対応する縦軸の値をθγ2[i]とする(図15参照)。すると、
Figure 2016045462
が成り立つ。γ1>γ2ならば直線補間、γ1<γ2ならば直線外挿を意味する。
式(11)において、
Figure 2016045462
とすれば、~θγ2(i)=θγ2[i]となり、式(10a)のモデルにより得られる~θγ2[i]は、二次元平面上の点(γ1,θγ1[i])と点(0,θγ=0[i])を結ぶ直線により直線近似した場合のγ2に対応するLSPパラメータの値の推定値θγ2[i]と一致する。
ui,viを1以下の正の値として、上述の式(11)において、
Figure 2016045462
とすれば、式(12)は以下のように書き換えることができる。
Figure 2016045462
式(14)は、LSPパラメータ列θγ1[1],θγ1[2],…,θγ1[p]中のi番目のLSPパラメータθγ1[i]の前後のLSPパラメータの値との差(すなわち、θγ1[i]-θγ1[i-1]とθγ1[i+1]-θγ1[i])の重み付けでθγ2[i]の値を補正し、~θγ2[i]を得ることを意味する。つまり、上述の式(6)〜(9)のような相関性が式(10a)の行列Kの帯部分の要素(非零要素)に反映されていることになる。
なお、式(10a)により得られる~θγ2[1],~θγ2[2],…,~θγ2[p]は線形予測係数列a[1]×(γ2),a[2]×(γ2)2,…,a[p]×(γ2)pをLSPパラメータに変換したときのLSPパラメータの値θγ2[1],θγ2[2],…,θγ2[p]の近似値(推定値)である。
また、特にγ2>γ1の場合には、式(13)(14)に示されているように、式(11)の行列Kは対角成分が正の値を持ち、その近傍の要素が負の値を持つ傾向がある。逆に、γ1>γ2の場合には、行列Kは対角成分が負の値を持ち、その近傍の要素が正の値を持つ傾向がある。
行列Kは予め設定しておく行列であり、例えば、学習データを用いて予め学習したものを用いる。行列Kの学習方法については後述する。
ここで、周波数方向で不均等な間隔のサンプル点についてのパワースペクトル包絡系列は、上述の式(2)で定義される伸縮非平滑化パワースペクトル包絡系列である。また、伸縮非平滑化パワースペクトル包絡系列に対応する平滑化後のパワースペクトル包絡系列は、上述の式(3’)等で定義される伸縮平滑化パワースペクトル包絡系列である。上述の式(3’)で補正係数γがng(k)乗されていることから分かる通り、周波数方向での伸縮度合いに応じて、伸縮非平滑化パワースペクトル包絡系列の伸縮非平滑化パワースペクトル包絡系列に対する凸凹の鈍りの度合い、すなわち、平滑化度合い、が変わる。例えば対数関数を用いて伸縮を行った場合、低域は引き伸ばされることから、式(3’)より補正係数γに対する補正が強くなり、平滑化度合いが上がる。一方、高域は縮められることから、補正係数γに対する補正が弱まり、平滑化度合いが下がる。
このγに対する補正は、LSPパラメータの各値が入力された時間領域の音信号のパワースペクトル包絡の極値の周波数位置と相関する事実を用いることにより、上記のLSP線形変換の枠組みで近似することができる。先の対数関数による伸縮の例においては、行列K内で、平滑化度合いの上がる低域と相関を持つ伸縮LSPパラメータ、つまり低次の伸縮LSPパラメータに対応する成分の絶対値を大きくすればよい。逆に、平滑化度合いの下がる高域と相関を持つ伸縮LSPパラメータ、つまり高次の伸縮LSPパラメータに対応する成分の絶対値を小さくすることで平滑化度合いの変化を近似することができる。
一方、行列K内で、平滑化度合いの上がる低域と相関を持つ伸縮LSPパラメータ、つまり低次の伸縮LSPパラメータに対応する成分の絶対値を小さくする、もしくは、平滑化度合いの下がる高域と相関を持つ伸縮LSPパラメータ、つまり高次の伸縮LSPパラメータに対応する成分の絶対値を大きくすることで、低次よりも高次の方がパラメータ値の変更が小さくなるような線形変換としてもよい。
量子化された伸縮LSPパラメータに対しても、同様の性質が成り立つ。つまり、式(10)におけるLSPパラメータ列のベクトルΘγ1とΘγ2を、それぞれ量子化された伸縮LSPパラメータ列のベクトル^Φγ1と^Φγ2に置き換えることができる。具体的には、
γ1=(^φγ1[1],^φγ1[2],…,^φγ1[p])Tとし、
γ2=(^φγ2[1],^φγ2[2],…,^φγ2[p])Tとして、
Figure 2016045462
が成り立つ。
Kが帯行列であるため、式(10)(10a)(10b)の演算に要する計算コストは非常に小さい。
伸縮対応平滑化LSP線形変換部328は、例えば、γ1=1、γ2=γとして(すなわち、γ1の値を1とし、γ2の値を固定値であるγとして)、式(10b)に基づいて、量子化伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]から近似量子化伸縮平滑化LSPパラメータ^φγ[1],^φγ[2],…,^φγ[p]を生成し、出力する。
[行列Kの学習方法]
伸縮対応平滑化LSP線形変換部328で用いる行列Kは以下のような方法により予め求めておき、符号化装置および復号装置内の記憶部に格納しておく。
(step1)予め用意したR個のフレーム単位の音声・音響信号のサンプルデータについて、各サンプルデータを周波数領域変換部21、伸縮疑似パワースペクトル系列生成部22、及び線形予測分析部323と同様の処理をして伸縮線形予測係数を得る。r番目(1≦r≦R)のサンプルデータについて得た伸縮線形予測係数をβ(r)[1],β(r)[2],…,β(r)[p]とし、以下では「r番目のサンプルデータに対応する伸縮線形予測係数列β(r)[1],β(r)[2],…,β(r)[p]」と呼ぶ。
(step2)各rについて、伸縮線形予測係数β(r)[1],β(r)[2],…,β(r)[p]から伸縮LSPパラメータφ(r)[1],φ(r)[2],…,φ(r)[p]を求める。また、伸縮LSPパラメータφ(r)[1],φ(r)[2],…,φ(r)[p]から、LSP符号化部3233と同様の方法で、量子化伸縮LSPパラメータ^φ(r)[1],^φ(r)[2],…,^φ(r)[p]を得る。以下では、
(r) γ1=(^φ(r)[1],^φ(r)[2],…,^φ(r)[p])T
とする。
(step3)各rについて、伸縮線形予測係数β(r)[1],β(r)[2],…,β(r)[p]とγとg(k)とを用いて式(3’)により伸縮平滑化パワースペクトル包絡系列~Wγ (r)(0),~Wγ (r)(1),…,~Wγ (r)(N-1)を得る。次に、各rについて、伸縮平滑化パワースペクトル包絡系列~Wγ (r)(0),~Wγ (r)(1),…,~Wγ (r)(N-1)から、伸縮と平滑化がされた線形予測係数を得る。伸縮平滑化パワースペクトル包絡系列~Wγ (r)(0),~Wγ (r)(1),…,~Wγ (r)(N-1)から伸縮と平滑化がされた線形予測係数を得る方法は、線形予測係数算出部3231が行う伸縮疑似パワースペクトル系列~Y(0),~Y(1),…,~Y(N-1)を用いて伸縮線形予測係数β12,…,βpを得る方法と同様である。次に、各rについて、伸縮と平滑化がされた線形予測係数から、LSP計算部3232と同様の方法でLSPパラメータに変換して伸縮平滑化LSPパラメータφγ (r)[1],φγ (r)[2],…,φγ (r)[p]を求める。さらに、各rについて、伸縮平滑化LSPパラメータφγ (r)[1],φγ (r)[2],…,φγ (r)[p]から、LSP符号化部3233と同様の方法で、量子化伸縮平滑化LSPパラメータ^φγ (r)[1],^φγ (r)[2],…,^φγ (r)[p]を得る。以下では、
(r) γ2=(^φγ (r)[1],^φγ (r)[2],…,^φγ (r)[p])T
とする。
step1〜3により、M組の量子化された伸縮LSPパラメータ列の組(^Φ(r) γ1, ^Φ(r) γ2)が得られる。この集合を学習用データ集合Qとする。
Q={(^Φ(r) γ1, ^Φ(r) γ2)|r=1,…,R}
である。なお、学習用データ集合Qを生成する際に用いる補正係数γの値は全て共通(固定値)とする。
(step4)学習用データQに含まれる各LSPパラメータ列の組(^Φ(r) γ1, ^Φ(r) γ2)について、γ1=1, γ2=γ, ^Φγ1=^Φ(r) γ1, ^Φγ2=^Φ(r) γ2として式(10b)のモデルに代入し、自乗誤差基準で行列Kの係数を学習する。すなわち、行列Kの帯部分の成分を上から順に並べたベクトルを
Figure 2016045462
として、
Figure 2016045462
により、Bを得る。ここで、
Figure 2016045462
である。
なお、行列Kを学習するときにはγの値を固定して行う。すなわち、上記のγ1=1, γ2=γの例であれば、γ1の値を1,γ2の値を固定値であるγとして、行列Kを学習する。ただし、伸縮対応平滑化LSP線形変換部328で用いる行列Kは、符号化装置内で用いられる補正係数γと同じ値を用いて学習されたものでなくてもよい。
例として、対数関数による伸縮を行い、p=16, γ1=1, γ2=0.92として、上記の方法により得た行列に(γ2-γ1)を乗算して得られる行列K(γ2-γ1)の帯部分の各要素の値は以下のようになる。
x1 =-0.90066, y1 = 0.14433,
z2 = 0.087751,x2 =-0.82430, y2= 0.25040,
z3 = 0.160411,x3 =-0.75856, y3= 0.25114,
z4 = 0.19919, x4 =-0.71534, y4= 0.26285,
z5 = 0.21522, x5 =-0.67187, y5= 0.23377,
z6 = 0.20770, x6 =-0.64609, y6= 0.22998,
z7 = 0.19009, x7 =-0.66693, y7= 0.26844,
z8 = 0.14418, x8 =-0.60680, y8= 0.28027,
z9 = 0.15397, x9 =-0.56066, y9= 0.25356,
z10= 0.16542, x10=-0.53646, y10=0.24035,
z11= 0.15644, x11=-0.52384, y11=0.25126,
z12= 0.14787, x12=-0.48204, y12=0.22857,
z13= 0.15112, x13=-0.45085, y13=0.19629,
z14= 0.14692, x14=-0.41358, y14=0.14839,
z15= 0.15744, x15=-0.45656, y15=0.17932,
z16= 0.10929, x16=-0.36787
γ2<γ1であれば、一般に、行列K(γ2-γ1)は、上記の例のように対角成分が負の値を取り、対角行列に隣接する成分が正の値を取る、すなわち、行列Kは、対角成分が正の値を取り、対角行列に隣接する成分が負の値を取る。また、伸縮が対数関数による場合、行列Kの低次のLSPに作用する係数は、上記の例のように高次のLSPに作用する係数に比べ、その絶対値が大きい傾向にある。言い換えると、行列Kの対角要素の左上の成分の絶対値は、右下の成分の絶対値よりも大きい傾向にある。
逆に、行列Kの低次のLSPに作用する係数が、高次のLSPに作用する係数に比べ、その絶対値が小さい傾向にあるものであってもよい。言い換えると、行列Kの対角要素の左上の成分の絶対値は、右下の成分の絶対値よりも小さい傾向にあるものであってもよい。
<伸縮パワースペクトル包絡系列生成部324>
伸縮パワースペクトル包絡系列計算部324は、伸縮対応平滑化LSP線形変換部328から出力された近似量子化伸縮平滑化LSPパラメータ^φγ[1],^φγ[2],…,^φγ[p]を用いて、式(15)により伸縮パワースペクトル包絡系列^W(1),^W(2),…,^W(N)を求めて出力する(ステップE4)。
Figure 2016045462
(第三実施形態の復号)
第三実施形態の符号化装置に対応する復号装置の構成例を図16に示す。第三実施形態の復号装置は、図16に示すように、逆伸縮変換部33と、復号部34と、包絡逆正規化部35と、時間領域変換部36とを、第一実施形態及び第二実施形態の復号装置と同様に備え、さらに伸縮線形予測係数復号部431と、伸縮パワースペクトル包絡系列生成部432と、伸縮対応平滑化LSP線形変換部438とを例えば備えている。この復号装置により実現される第三実施形態の復号方法の各処理の例を図17に示す。
以下、図16の各部について、第一実施形態及び第二実施形態と異なる部分を中心に説明する。第一実施形態及び第二実施形態と同様の部分については説明を省略する。
<伸縮線形予測係数復号部431>
伸縮線形予測係数復号部431は、伸縮LSP符号CLfを受け取り、伸縮LSP符号CLfを復号して復号伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]を得て出力する(ステップD1)。符号化装置が出力した伸縮LSP符号CLfが誤りなく復号装置に入力されていれば、得られる復号伸縮LSPパラメータは、符号化装置のLSP符号化部3233で得られた量子化伸縮LSPパラメータと同じになる。
<伸縮対応平滑化LSP線形変換部438>
伸縮対応平滑化LSP線形変換部438には、伸縮線形予測係数復号部431で得られた復号伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]が入力される。
伸縮対応平滑化LSP線形変換部438は、伸縮対応平滑化LSP線形変換部328と同様の処理により復号伸縮LSPパラメータ^φ[1],^φ[2],…,^φ[p]から近似復号伸縮平滑化LSPパラメータ^φγ[1],^φγ[2],…,^φγ[p]を求めて出力する(ステップD7)。
<伸縮パワースペクトル包絡系列生成部432>
伸縮パワースペクトル包絡系列計算部432は、伸縮パワースペクトル包絡系列計算部324と同様に、近似復号伸縮平滑化LSPパラメータ^φγ[1],^φγ[2],…,^φγ[p]を用いて、上記の式(15)により、伸縮パワースペクトル包絡系列^W(1),^W(2),…,^W(N)を求めて出力する(ステップD2)。
<第三実施形態の効果>
第三実施形態の符号化装置及び復号装置は伸縮パワースペクトル包絡系列生成部において、第一実施形態の符号化装置や復号装置よりも少ない演算量で伸縮パワースペクトル包絡系列を求めることができる。
[第四実施形態]
第三実施形態の符号化装置が備える伸縮対応平滑化LSP線形変換部328、第三実施形態の復号装置が備える伸縮対応平滑化LSP線形変換部438を、独立した周波数領域パラメータ変換装置として構成することも可能である。
以下では、第三実施形態の符号化装置が備える伸縮対応平滑化LSP線形変換部328、第三実施形態の復号装置が備える伸縮対応平滑化LSP線形変換部438を、独立した周波数領域パラメータ変換装置として構成する例について説明する。
<周波数領域パラメータ変換装置>
第四実施形態の周波数領域パラメータ変換装置10は、図18に示すように、パラメータ列変換部20を例えば含み、周波数領域パラメータω[1],ω[2],…,ω[p]を入力とし、変換後周波数領域パラメータ~ω[1],~ω[2],…,~ω[p]を出力する。
入力される周波数領域パラメータω[1],ω[2],…,ω[p]は、所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数に由来する周波数領域パラメータ列である。周波数領域パラメータω[1],ω[2],…,ω[p]は、例えば、従来の符号化方法で用いたLSPパラメータ列θ[1],θ[2],…,θ[p]であってもよいし、量子化済LSPパラメータ列^θ[1],^θ[2],…,^θ[p]であってもよい。さらに、例えば、ISPパラメータ列のような、LSPパラメータと等価な周波数領域パラメータであってもよい。ここで、線形予測係数a[1],a[2],…,a[p]に由来する周波数領域パラメータ列とは、LSPパラメータ列に代表されるような、線形予測係数a[1],a[2],…,a[p]に由来する周波数領域パラメータω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、全ての線形予測係数a[1],a[2],…,a[p]が0である場合には周波数領域パラメータω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列であって、線形予測係数a[1],a[2],…,a[p]の予測次数と同じ個数で表されるものである。または、線形予測係数a[1],a[2],…,a[p]に由来する周波数領域パラメータ列とは、ISPパラメータ列に代表されるような、線形予測係数a[1],a[2],…,a[p+1]に由来する周波数領域パラメータω[1],ω[2]…,ω[p+1]のうちの1次からP次までの周波数領域パラメータω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、全ての線形予測係数が0である場合には周波数領域パラメータω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列であって、線形予測係数a[1],a[2],…,a[p+1]の予測次数と同じ個数で表されるものである。すなわち、所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号のスペクトル包絡に対応する周波数領域パラメータ列である。
なお、LSPはLSFなどと呼ばれることもあり、ISPはISFなどと呼ばれることもある。
周波数領域パラメータ列ω[1],ω[2],…,ω[p]における各ω[i](i=1,2,…,p)は、γ1を1以下の正の定数とし、aγ1[i]=a[i]×(γ1)iとして、aγ1[1],aγ1[2],…,aγ1[p]と等価な周波数領域のパラメータまたはその量子化値であってもよい。また、周波数領域パラメータ列ω[1],ω[2],…,ω[p]における各ω[i](i=1,2,…,p)は、γ1を1以下の正の定数とし音信号に対応する隣接するサンプル点間の周波数の間隔が均等な周波数領域の係数列を線形離散化サンプル点列とし、音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列を非線形離散化サンプル点列とし、線形離散化サンプル点列と非線形離散化サンプル点列のサンプル点数をNとし、非線形離散化サンプル点列でk番目のインデックスに対応するサンプル点の周波数の、上記線形離散化サンプル点列での相対的な周波数位置をf(k)とし、
Figure 2016045462
とし、aγ1[i]=a[i]×(γ1)ig(k)として、aγ1[1],aγ1[2],…,aγ1[p]と等価な周波数領域のパラメータまたはその量子化値であってもよい。
パラメータ列変換部20は、伸縮対応平滑化LSP線形変換部328、438と同様に、LSPパラメータの性質を利用して、周波数領域パラメータ列ω[1],ω[2]…,ω[p-1]に近似的な線形変換を施して変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成する。パラメータ列変換部20は、例えば、各i=1,2,…,pについて、以下のいずれかの方法により、変換後周波数領域パラメータ~ω[i]の値を求める。
1.ω[i]とω[i]に近接する1つまたは複数の周波数領域パラメータとの値の関係に基づく線形変換により変換後周波数領域パラメータ~ω[i]の値を求める。例えば、周波数領域パラメータ列ω[i]よりも変換後周波数領域パラメータ列~ω[i]のほうが、パラメータ値の間隔が均等間隔に近くなるか遠くなり、かつ、低い周波数に対応するパラメータの方が高い周波数に対応するパラメータよりも周波数領域パラメータω[i]と変換後周波数領域パラメータ~ω[i]との差が小さくなるように、線形変換する。または、周波数領域パラメータ列ω[i]よりも変換後周波数領域パラメータ列~ω[i]のほうが、パラメータ値の間隔が均等間隔に近くなるか遠くなり、かつ、高い周波数に対応するパラメータの方が低い周波数に対応するパラメータよりも周波数領域パラメータω[i]と変換後周波数領域パラメータ~ω[i]との差が小さくなるように、線形変換する。周波数領域パラメータ列ω[i]よりも変換後周波数領域パラメータ列~ω[i]のほうが、パラメータ値の間隔が均等間隔に近くなるようにする線形変換は、周波数領域においてパワースペクトル包絡の振幅の凹凸を鈍らせる処理(パワースペクトル包絡を平滑化する処理)に相当する。また、周波数領域パラメータ列ω[i]よりも変換後周波数領域パラメータ列~ω[i]のほうが、パラメータ値の間隔が均等間隔から遠くなるようにする線形変換は、周波数領域においてパワースペクトル包絡の振幅の凹凸を強調する処理(パワースペクトル包絡を逆平滑化する処理)に相当する。また、低い周波数に対応するパラメータの方が高い周波数に対応するパラメータよりも周波数領域パラメータω[i]と変換後周波数領域パラメータ~ω[i]との差が小さくなるようにする線形変換は、所定の時間区間の音信号に対応する周波数領域の係数列において高周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合に相当する。また、高い周波数に対応するパラメータの方が低い周波数に対応するパラメータよりも周波数領域パラメータω[i]と変換後周波数領域パラメータ~ω[i]との差が小さくなるようにする線形変換は、所定の時間区間の音信号に対応する周波数領域の係数列において低周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合に相当する。なお、上記の周波数領域パラメータ列ω[1],ω[2]…,ω[p-1]と変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]においては、低い周波数に対応するパラメータはiの値が小さいパラメータであり、高い周波数に対応するパラメータiの値が大きいパラメータである。
2.ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように~ω[i]を求める。また、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように~ω[i]を求める。これは、所定の時間区間の音信号に対応する周波数領域の係数列において高周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合の、周波数領域においてパワースペクトル包絡の振幅の凹凸を強調する処理(パワースペクトル包絡を逆平滑化する処理)に相当する。もしくは、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように~ω[i]を求める。また、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくように~ω[i]を求める。これは、所定の時間区間の音信号に対応する周波数領域の係数列において低周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合の、周波数領域においてパワースペクトル包絡の振幅の凹凸を強調する処理(パワースペクトル包絡を逆平滑化する処理)に相当する。
3.ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように~ω[i]を求める。また、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように~ω[i]を求める。これは、所定の時間区間の音信号に対応する周波数領域の係数列において高周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合の、周波数領域においてパワースペクトル包絡の振幅の凹凸を鈍らせる処理(パワースペクトル包絡を平滑化する処理)に相当する。もしくは、ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように~ω[i]を求める。また、ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように~ω[i]を求める。これは、所定の時間区間の音信号に対応する周波数領域の係数列において低周波数領域ほど隣接するサンプル点間の周波数の間隔が狭い場合の、周波数領域においてパワースペクトル包絡の振幅の凹凸を鈍らせる処理(パワースペクトル包絡を平滑化する処理)に相当する。
例えば、周波数領域パラメータ列がLSPパラメータ列である場合、パラメータ列変換部20は、下記の式(16)により、変換後周波数領域パラメータ~ω[1],~ω[2],…,~ω[p]を求めて出力する。
Figure 2016045462
ここで、γ1とγ2は1以下の正の係数である。式(16)は、LSPパラメータをモデル化した式(10)において、Θγ1=(ω[1],ω[2],…,ω[p])Tとし、Θγ2=(~ω[1],~ω[2],…,~ω[p])Tとし、
Figure 2016045462
とすることで、導出することができる。この場合、周波数領域パラメータω[1],ω[2],…,ω[p]は、線形予測係数a[1],a[2],…,a[p]の各係数a[i]に係数γ1のi乗を乗じることにより補正した係数列である
a[1]×(γ1),a[2]×(γ1)2,…,a[p]×(γ1)p
と等価な周波数領域のパラメータ列、もしくは、その量子化値である。また、変換後周波数領域パラメータ~ω[1],~ω[2],…,~ω[p]は、線形予測係数a[1],a[2],…,a[p]の各係数a[i]に係数γ2のi乗を乗じることにより補正した係数列である
a[1]×(γ2),a[2]×(γ2)2,…,a[p]×(γ2)p
と等価な周波数領域のパラメータ列を近似する系列となる。
なお、周波数領域パラメータ列がISPパラメータ列である場合には、1次からp+1次に対応するp+1個のパラメータのうちの1次からp次までのp個のパラメータが、LSPパラメータ列の1次からp次までのp個のパラメータと性質が一致するので、上記の説明をp+1次の場合のISPパラメータ列の場合の説明に読み替えることができる。
<第四実施形態の効果>
第四実施形態の周波数領域パラメータ変換装置は、第三実施形態の符号化装置や復号装置と同様に、第一実施形態や第二実施形態の符号化装置や復号装置のような周波数領域パラメータから線形予測係数を介して変換後周波数領域パラメータを求める場合よりも少ない演算量で、周波数領域パラメータから変換後周波数領域パラメータを求めることができる。
[変形例等]
上記周波数領域パラメータ変換方法、符号化方法、復号方法、これらの装置において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、周波数領域パラメータ変換方法による各ステップをコンピュータによって実現する場合、周波数領域パラメータ変換方法の各ステップの処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、周波数領域パラメータ変換方法の各ステップがコンピュータ上で実現される。
同様に、符号化方法による各ステップをコンピュータによって実現する場合、符号化方法の各ステップの処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、符号化方法の各ステップがコンピュータ上で実現される。
同様に、復号方法による各ステップをコンピュータによって実現する場合、復号方法の各ステップの処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、復号方法の各ステップがコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、符号化方法及び復号方法の各ステップは、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
11 周波数領域変換部
12 線形予測分析部
13 パワースペクトル包絡系列生成部
14 包絡正規化部
15 符号化部
21 周波数領域変換部
22 伸縮疑似パワースペクトル系列生成部
23 線形予測分析部
24 伸縮パワースペクトル包絡系列生成部
25 逆伸縮変換部
26 包絡正規化部
27 符号化部
31 伸縮線形予測係数復号部
32 伸縮パワースペクトル包絡系列生成部
33 逆伸縮変換部
34 復号部
35 包絡逆正規化部
36 時間領域変換部
323 線形予測分析部
3231 線形予測係数算出部
3232 LSP計算部
3233 LSP符号化部
324 伸縮パワースペクトル包絡系列生成部
328 伸縮対応平滑化LSP線形変換部
431 伸縮線形予測係数復号部
432 伸縮パワースペクトル包絡系列生成部
438 伸縮対応平滑化LSP線形変換部
10 周波数領域パラメータ変換装置
20 パラメータ列変換部

Claims (20)

  1. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含み、
    上記パラメータ列変換ステップは、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]とω[i]に近接する1つまたは複数の周波数領域パラメータとの値の関係に基づく線形変換により変換後周波数領域パラメータ~ω[i]の値を求める
    周波数領域パラメータ列生成方法。
  2. 請求項1に記載の周波数領域パラメータ列生成方法であって、
    上記線形変換は、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]よりも、上記変換後周波数領域パラメータ列のほうが、パラメータ値の間隔が均等間隔に近くなるか遠くなり、かつ、低い周波数に対応するパラメータの方が高い周波数に対応するパラメータよりも上記周波数領域パラメータと上記変換後周波数領域パラメータとの差が小さくなるような線形変換である
    周波数領域パラメータ列生成方法。
  3. 請求項1に記載の周波数領域パラメータ列生成方法であって、
    上記線形変換は、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]よりも、上記変換後周波数領域パラメータ列のほうが、パラメータ値の間隔が均等間隔に近くなるか遠くなり、かつ、高い周波数に対応するパラメータの方が低い周波数に対応するパラメータよりも上記周波数領域パラメータと上記変換後周波数領域パラメータとの差が小さくなるような線形変換である
    周波数領域パラメータ列生成方法。
  4. pを1以上の整数としω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含み、
    上記パラメータ列変換ステップは、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成方法。
  5. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含み、
    上記パラメータ列変換ステップは、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成方法。
  6. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含み、
    上記パラメータ列変換ステップは、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成方法。
  7. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換ステップを含み、
    上記パラメータ列変換ステップは、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成方法。
  8. pを1以上の整数とし、a[1],a[2],…,a[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列とし、
    ω[1],ω[2]…,ω[p]を、
    上記線形予測係数列a[1],a[2],…,a[p]に由来するLSPパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p]に由来するLSFパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、
    γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、
    次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換ステップを含む
    Figure 2016045462

    周波数領域パラメータ列生成方法。
  9. pを1以上の整数とし、a[1],a[2],…,a[p+1]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する(p+1)次の線形予測係数列とし、
    ω[1],ω[2]…,ω[p+1]を、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来するISPパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来するISFパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、
    γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、
    次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換ステップを含む
    Figure 2016045462

    周波数領域パラメータ列生成方法。
  10. 請求項1から8のいずれかに記載の周波数領域パラメータ列生成方法であって、
    γ1を1以下の正の定数とし、
    上記線形予測係数列をa[1],a[2],…,a[p]とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]における各ω[i](i=1,2,…,p)は、
    aγ1[i]=a[i]×(γ1)iとして、
    aγ1[1],aγ1[2],…,aγ1[p]と等価な周波数領域のパラメータまたはその量子化値、
    または、
    上記音信号に対応する隣接するサンプル点間の周波数の間隔が均等な周波数領域の係数列を線形離散化サンプル点列とし、
    上記音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列を非線形離散化サンプル点列とし、
    上記線形離散化サンプル点列と上記非線形離散化サンプル点列のサンプル点数をNとし、
    上記非線形離散化サンプル点列でk番目のインデックスに対応するサンプル点の周波数の、上記線形離散化サンプル点列での相対的な周波数位置をf(k)とし、
    Figure 2016045462

    とし、
    aγ1[i]=a[i]×(γ1)ig(k)として、
    aγ1[1],aγ1[2],…,aγ1[p]と等価な周波数領域のパラメータまたはその量子化値、
    である
    周波数領域パラメータ列生成方法。
  11. 請求項8または9に記載の周波数領域パラメータ列生成方法であって、
    上記帯行列Kは、対角要素が0以上の値であり、行方向において対角要素に隣接する要素が0以下の値であり、対角要素の左上の成分の絶対値は右下の成分の絶対値よりも大きい
    周波数領域パラメータ列生成方法。
  12. 請求項8または9に記載の周波数領域パラメータ列生成方法であって、
    上記帯行列Kは、対角要素が0以上の値であり、行方向において対角要素に隣接する要素が0以下の値であり、対角要素の左上の成分の絶対値は右下の成分の絶対値よりも小さい
    周波数領域パラメータ列生成方法。
  13. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換部を含み、
    上記パラメータ列変換部は、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]とω[i]に近接する1つまたは複数の周波数領域パラメータとの値の関係に基づく線形変換により変換後周波数領域パラメータ~ω[i]の値を求める
    周波数領域パラメータ列生成装置。
  14. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換部を含み、
    上記パラメータ列変換部は、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成装置。
  15. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換部を含み、
    上記パラメータ列変換部は、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が小さく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が小さく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成装置。
  16. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換部を含み、
    上記パラメータ列変換部は、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が小さいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が小さいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成装置。
  17. pを1以上の整数とし、ω[1],ω[2],…,ω[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列に由来する周波数領域パラメータ列とし、
    上記周波数領域パラメータ列ω[1],ω[2],…,ω[p]を入力として、変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を求めるパラメータ列変換部を含み、
    上記パラメータ列変換部は、
    上記変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]における各~ω[i](i=1,2,…,p)を、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i+1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i+1]に近く、かつ、ω[i+1]-ω[i]よりも~ω[i+1]-~ω[i]の方が値が大きく、かつ、iの値が大きいほど~ω[i]-ω[i]の絶対値が小さくなるように求め、
    ω[i]がω[i+1]とω[i-1]との中点よりもω[i-1]に近い場合には、~ω[i]が~ω[i+1]と~ω[i-1]との中点よりも~ω[i-1]に近く、かつ、ω[i]-ω[i-1]よりも~ω[i]-~ω[i-1]の方が値が大きく、かつ、iの値が大きいほどω[i]-~ω[i]の絶対値が小さくなるように求める
    周波数領域パラメータ列生成装置。
  18. pを1以上の整数とし、a[1],a[2],…,a[p]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する線形予測係数列とし、
    ω[1],ω[2]…,ω[p]を、
    上記線形予測係数列a[1],a[2],…,a[p]に由来するLSPパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p]に由来するLSFパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、
    γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、
    次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換部を含む
    Figure 2016045462

    周波数領域パラメータ列生成装置。
  19. pを1以上の整数とし、a[1],a[2],…,a[p+1]を所定の時間区間の音信号に対応する隣接するサンプル点間の周波数の間隔が不均等な周波数領域の係数列をサンプル点の周波数の間隔が均等であると見做したときの時間領域の信号に対応する(p+1)次の線形予測係数列とし、
    ω[1],ω[2]…,ω[p+1]を、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来するISPパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来するISFパラメータ列、
    上記線形予測係数列a[1],a[2],…,a[p+1]に由来し、かつ、ω[1],ω[2]…,ω[p]の全てが0からπまでの間に存在し、かつ、線形予測係数列に含まれる全ての線形予測係数が0である場合にはω[1],ω[2]…,ω[p]が0からπまでの間に均等間隔に存在する周波数領域パラメータ列、のいずれかとし、
    γ1及びγ2をそれぞれ1以下の正の定数である補正係数とし、Kを予め定められたp×pの帯行列とし、
    次式により定義される変換後周波数領域パラメータ列~ω[1],~ω[2],…,~ω[p]を生成するパラメータ列変換部を含む
    Figure 2016045462

    周波数領域パラメータ列生成装置。
  20. 請求項1から12のいずれかに記載の周波数領域パラメータ列生成方法の各ステップをコンピュータに実行させるためのプログラム。
JP2014171776A 2014-08-26 2014-08-26 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム Active JP6259378B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014171776A JP6259378B2 (ja) 2014-08-26 2014-08-26 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014171776A JP6259378B2 (ja) 2014-08-26 2014-08-26 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016045462A true JP2016045462A (ja) 2016-04-04
JP6259378B2 JP6259378B2 (ja) 2018-01-10

Family

ID=55636048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014171776A Active JP6259378B2 (ja) 2014-08-26 2014-08-26 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6259378B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235243A (ja) * 2005-02-24 2006-09-07 Secom Co Ltd 音響信号分析装置及び音響信号分析プログラム
JP2009251029A (ja) * 2008-04-01 2009-10-29 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
WO2012046685A1 (ja) * 2010-10-05 2012-04-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235243A (ja) * 2005-02-24 2006-09-07 Secom Co Ltd 音響信号分析装置及び音響信号分析プログラム
JP2009251029A (ja) * 2008-04-01 2009-10-29 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
WO2012046685A1 (ja) * 2010-10-05 2012-04-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUHITO KOISHIDA: "A WIDEBAND CELP SPEECH CODER AT 16 KBIT/S BASED ON MEL_GENERALIZED CEPSTRAL ANALYSIS", ACOUSTICS,SPEECH AND SIGNAL PROCESSING,1998. PROCEEDINGS ON THE 1998 IEEE INTERNATIONAL CONFERENCE O, JPN7017003992, 15 March 1998 (1998-03-15), US, pages 161 - 164, ISSN: 0003695781 *
間野一則: "音声の高能率符号化", 信号処理, vol. 2, no. 6, JPN7017003165, 4 March 2008 (2008-03-04), JP, ISSN: 0003655796 *

Also Published As

Publication number Publication date
JP6259378B2 (ja) 2018-01-10

Similar Documents

Publication Publication Date Title
US10720172B2 (en) Encoder for encoding an audio signal, audio transmission system and method for determining correction values
JP6484358B2 (ja) 符号化装置、及びその方法、プログラム、記録媒体
JP6422813B2 (ja) 符号化装置、復号装置、これらの方法及びプログラム
JP6674992B2 (ja) 周期性統合包絡系列生成装置、周期性統合包絡系列生成方法、周期性統合包絡系列生成プログラム、記録媒体
JP6650540B2 (ja) 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム
CN107408390B (zh) 线性预测编码装置、线性预测解码装置、它们的方法以及记录介质
JP2019215587A (ja) 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム、復号プログラム、記録媒体
JP6457552B2 (ja) 符号化装置、復号装置、これらの方法及びプログラム
EP2571170B1 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
JP6259378B2 (ja) 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置及びプログラム
JP6220701B2 (ja) サンプル列生成方法、符号化方法、復号方法、これらの装置及びプログラム
Ramabadran et al. An iterative interpolative transform method for modeling harmonic magnitudes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171208

R150 Certificate of patent or registration of utility model

Ref document number: 6259378

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250