JP3590342B2 - Signal encoding method and apparatus, and recording medium recording signal encoding program - Google Patents
Signal encoding method and apparatus, and recording medium recording signal encoding program Download PDFInfo
- Publication number
- JP3590342B2 JP3590342B2 JP2000318017A JP2000318017A JP3590342B2 JP 3590342 B2 JP3590342 B2 JP 3590342B2 JP 2000318017 A JP2000318017 A JP 2000318017A JP 2000318017 A JP2000318017 A JP 2000318017A JP 3590342 B2 JP3590342 B2 JP 3590342B2
- Authority
- JP
- Japan
- Prior art keywords
- vicinity
- valley
- derivative
- weighting
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、入力信号を時間軸/周波数軸変換して量子化を行う信号符号化方法及び装置に関し、特に、符号化に際して発生する量子化誤差を、人間の耳が知覚しづらいように変形するための聴覚マスキング方法と、この聴覚マスキング方法による信号符号化装置に関する。
【0002】
【従来の技術】
音声・楽音を符号化する従来の信号符号化方法における聴覚マスキング方法としては、入力信号を時間軸上または時間軸/周波数軸変換した上で、線形予測分析方法等によりその入力信号のスペクトル包絡曲線を推定し、その推定された曲線に妥当な変形操作を加えることによってマスキング曲線を求めて聴覚マスキングを行なうという方法があった。あるいは、入力信号を時間軸/周波数軸変換した信号から直接、スペクトル包絡曲線を求め、この曲線に妥当な変形操作を加えることによってマスキング曲線を求めて、聴覚マスキングによる量子化を行なう方法もあった。
【0003】
【発明が解決しようとする課題】
聴覚マスキング方法では、周波数軸上でのマスキングとして、スペクトル包絡曲線の谷付近の量子化雑音を減らし、その代りにスペクトル包絡曲線の山付近の量子化雑音を増加させるようなノイズシェイピングを行うことによって、人間の耳には量子化雑音が聞こえにくいようにすることができる。ここで、上述したような従来法では、スペクトル包絡における山と谷の推定位置が不正確となる場合があったため、ノイズシェイピングが適切に行われずに、結果として符号化再生音の音質が悪い場合があった。
【0004】
そこで本発明の目的は、スペクトル包絡曲線における山と谷の位置を正確に推定することができ、これによって精度の高い聴覚マスキング方法を実行できる信号符号化方法及び装置を提供することにある。
【0005】
【課題を解決するための手段】
本発明は、聴感ベースでの歪みが最小となるように量子化できる信号符号化を実現するためのものであって、上述した課題を解決するために、スペクトル包絡曲線の山と谷の位置を正確に推定し、正確に推定した山と谷の位置から適切なノイズシェイピングを行う手法を取る。スペクトル包絡曲線の山と谷の位置推定は、時間軸/周波数軸変換した信号の正確なスペクトル包絡曲線から必要に応じて、微細な凹凸を取り除き、さらに必要に応じて1階微分、2階微分を求めて、これらの微分値または、微分値の相加平均値から、山と谷の正確な位置を決定する。こうして得られた山と谷の位置において適切な重みづけを行ない、効果的なノイズシェイピングを実現する。
【0006】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。図1は本発明の実施の一形態の信号符号化装置の構成を示すブロック図である。
【0007】
この信号符号化装置は、典型的には音声信号あるいは楽音信号である時系列の入力信号x(t)に対して時間軸/周波数軸変換(T/F変換)を施して周波数軸上の信号列X(n)を得るT/F変換部11と、この信号列X(n)に対してベクトル量子化(VQ)及びスカラー量子化(SQ)を施して量子化インデックスを得る量子化部12を備えている。ここでT/F変換部11は、例えば、MDCT(modified descrete cosine transform;変形離散コサイン変換)などの変換を実行し、X(n)はこの変換によって得られた変換係数列などを指す。さらにこの信号符号化装置では、どの周波数帯域にどれだけの情報量を配分するのかを決定するための“聴覚重み”を算出し、量子化部11での量子化に際し、人間の耳に量子化雑音が聞こえ難いようにこの聴覚重みに基づく聴覚重み付け量子化が行われるようになっている。聴覚重みの算出のために、この信号符号化装置は、信号列X(n)に基づいてスペクトル包絡を算出する包絡算出部13と、算出されたスペクトル包絡に基づいてスペクトルの山と谷の位置を推定する山・谷推定部14と、推定されたスペクトルの山と谷の位置に基づき、情報量の配分が「山の位置で特に小さく」かつ「谷の位置で特に大きく」なるように、山の付近と谷の付近において適切な重み付けを行う重み付け部15と、“聴覚重み”として量子化部12に出力する聴覚重み算出部16と、を備えている。ここで“聴覚重み”の原形としては、スペクトル包絡の逆数を用いている。
【0008】
なお、山、谷については、横軸を周波数軸として信号列X(n)をプロットし、ならした(平滑化した)ときに、周囲に比べて信号列の値が大きいところを山と称し、周囲に比べて値が小さいところを谷と称している。後述するように、平滑化は、例えばある区間長(平均区間長ともいう)での相加平均を算出する(その区間長による移動平均を算出する)ことによって行われているが、このとき、その区間長を変化させることにより、微細な山・谷、やや微細な山・谷、大まかな山・谷の位置などが推定されることになる。ここで相加平均とは、1フレーム内のスペクトルを周波数区間内で平滑化するためのものである。本発明では、平滑化の度合いが異なる山・谷の位置の推定を組み合わせることにより、より精度の高い聴覚マスキングを可能にしている。
【0009】
次に、この信号符号化装置の動作を説明する。
【0010】
時系列の信号として入力する時系列の入力信号x(t)は、T/F変換部11によって周波数軸上の信号列X(n)に変換される。この信号列X(n)は、ベクトル量子化及びスカラー量子化のために量子化部12に供給されるとともに、そのスペクトル包絡を算出するために、包絡算出部13にも送られる。包絡算出部13は、信号列X(n)のスペクトル包絡を算出し、山・谷推定部14は、算出されたスペクトル包絡に基づいて、スペクトルにおける山と谷の位置を推定し、推定した位置を重み付け部15に出力する。重み付け部15は、包絡算出部13において得られたスペクトル包絡の逆数に基づいて、スペクトルの山と谷の位置においてそれぞれ、情報量の配分が「山の位置で特に小さく」、「谷の位置で特に大きく」なるように、山の付近と谷の付近において、適切な情報量重み付けを行う。具体的には、山の付近を高く持ち上げかつ谷の付近を深く下げるか、あるいは、山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて、山・谷の位置へ重み付け操作を行う。重み付け部15には、包絡算出部13からスペクトル包絡曲線が供給されており、重み付け操作が施されたスペクトル包絡曲線が重み付け部15から聴覚重み算出部16に供給される。
【0011】
聴覚重み算出部16は、重み付けされたスペクトル包絡曲線に基づいて量子化用聴覚重みを算出してそれを量子化部12に向けて出力する。その結果、量子化部13は、供給された量子化用聴覚重みを使用して、T/F変換部11からの信号列X(n)に対するベクトル量子化及びスカラー量子化を実行する。これにより、量子化部13から、精度の高い聴覚マスキングがなされた量子化インデックス(出力インデックス)が出力される。
【0012】
以上、この実施の形態の信号符号化装置の基本的動作を説明したが、本発明では、聴覚重み付けの方法として、上述した重み付けの方法と、従来から一般的に用いられている線形予測分析法等によりスペクトル包絡を予測し包絡曲線の山と谷をべき乗演算によりなまらせ重みとする方法とを併用してもよい。
【0013】
次に、この実施の形態における重み付けの過程を詳細を説明する。
【0014】
図2は、スペクトルの山・谷へ重み付けを行う過程を示すブロック図である。ここでは、スペクトル包絡算出部13において得られたスペクトル包絡曲線から、山・谷推定部14において、スペクトルの微細な山・谷の周波数位置を推定し、次にやや微細な山・谷の周波数位置を推定し、というように、この手順を必要な回数だけ繰り返し、最後に、スペクトルの大まかな山・谷の周波数位置を推定する。重み付け部15は、これらの推定された山と谷の付近に対して、各々、妥当な重み関数によって重み付け操作を行う。
【0015】
図3は、包絡算出部13における処理の詳細を示すブロック図である。包絡算出部13は、周波数領域の信号列X(n)に対して相加平均処理を施すことにより、スペクトル包絡曲線を得るものである。図において、相加平均(1)から相加平均(k)までは、それぞれ、区間長が異なる移動平均区間における相加平均である。ここでは、信号列X(n)に対し、まず、第1の相加平均(1)が適用され、その結果Y1(n)に対して第2の相加平均(2)が適用され、さらにその結果Y2(n)に対して第3の相加平均(3)が適用されるというようにして、k回の相加平均を順次行うようにしている。ここでkは1以上の整数の定数である。このようにして得られた各相加平均の結果Y1(n),Y2(n),...,Yk(n)は、それぞれ山・谷推定部14に送られる。各回の相加平均での区間長は、各々の用途に応じて決定されるものであるが、主として、相加平均(1)では平均区間長を短くして微細な山と谷の位置を検出し、相加平均(2)では相加平均(1)よりも平均区間長を長くして大まかな山と谷の位置を検出する。以下、相加平均(k)まで同様の操作とし、各回の相加平均での平均区間長を徐々に長くして行くとよい。
また、前述した“相加平均(k)”の演算は、必要に応じて、平均区間長を変えて複数回実施してもよい。
【0017】
次に、山・谷推定部14での処理を説明する。図4は、山・谷推定部14での処理を説明するブロック図である。
【0018】
山・谷推定部14は、包絡算出部13からの各回の相加平均によるスペクトル包絡を表す係数列Y1(n),Y2(n),...,Yk(n)を入力として、係数列ごとに、以下のようにして山と谷の位置を推定する。すなわち、入力した係数列Yj(n)(1≦j≦k)をまずnで微分して系列Y′j(n)を求め、この系列Y′j(n)に対して適切な区間で相加平均をとり、微細な変動成分を取り除いた系列
【0019】
【外1】
【0020】
を求める。さらにこれをnで再び微分して系列Y″j(n)を求め、この系列Y″j(n)の微細な変動成分を取り除いた系列
【0021】
【外2】
【0022】
を求める。そして、図4中に式で示したように、これらの値の正負からスペクトル包絡曲線の山と谷の位置を推定する。また、前述した、微細な変動成分を取り除くための“相加平均”の演算は、必要に応じて、平均区間長を変えて複数回実施してもよいし、これを実施しなくてもよい。
【0023】
図5は、以上のようにして係数列X(n)からスペクトル包絡の山と谷が検出された様子を例示する図である。ここでは、k=2、すなわち包絡算出部13において2段階に相加平均を求める場合を示している。この図において、平均を取る前の係数列X(n)の絶対値|X(n)|を▲1▼、相加平均(1)による系数列Y1(n)における絶対値|Y1(n)|を▲2▼、相加平均(2)による係数列Y2(n)における絶対値|Y2(n)|を▲3▼とする。相加平均(1)から推定した山の位置をm1,m2,...,m12、谷の位置をV1,V2,...,V11で表し、相加平均(2)から推定した山の位置をM1,M2,M3、谷の位置をV1,V2で表している。ここでは、相加平均(1)での区間長よりも相加平均(2)での区間長を長くしており、▲2▼が微細な山・谷の周波数位置に相当し、▲3▼が大まかな山・谷の周波数位置に相当する。
【0024】
次に、このようにして、複数種類の山・谷の周波数位置が求められたとして、どのように情報量の重み付けを行うかを説明する。図6は、スペクトル包絡曲線の山・谷付近に情報量の重み付けを行った例を示す図である。ここでは、説明を分かりやすくするために、おおまかな波形を使って説明を行う。
【0025】
図6において、あらかじめ推定されたスペクトル包絡曲線▲1▼(|Y2(n)|)の逆数▲2▼(1/|Y2(n)|)を聴覚重みの原形とし、これの山と谷の推定位置付近において、重み関数を使って重み付けを行う。この図の例では、重み付け関数▲4▼を▲2▼に乗算することによって、山と谷の位置で情報量を補正した聴覚重み▲3▼(WL)を作成している。重み付け関数▲4▼及び▲5▼としては、種々の形のものが可能であるが、ここでは、一例として、重み付けを行う区間長が2t、山の中心で0.5倍、山の端で1.0倍、谷の中心で2.0倍、谷の端で1.0倍となるような直線関数による重み付けを行った結果を▲3▼として示している。図6から分かるように、山と谷の正確な位置を推定し、谷の付近に情報量を多くし、山の付近に情報量を少なく割り当る重みを作成することができる。
【0026】
ここでtの値は、例えば、ピッチ周波数を表す山・谷の構造に重み付けしたい場合には100〜200Hz、ホルマント周波数を表す山・谷の構造に重み付けしたい場合には300〜600Hz程度とすることが好ましい。
【0027】
実際には、スペクトル包絡の“微細な曲線”と“おおまかな曲線”の各々の山・谷の付近において、前述した方法により重み付けを行う。例えば、図5に示すようにスペクトル包絡の“微細な曲線”と“おおまかな曲線”の各々について山と谷の位置が推定されている場合には、微細構造を表すスペクトル包絡▲2▼の逆数1/|Y1(n)|を聴覚重みの原形とし、この包絡曲線の山と谷の位置m1,v1,m2,v2,...の付近において、図6と同様にして聴覚重みの原形である1/|Y1(n)|に対して適切な重み付けを行い、さらに、おおまかなスペクトル構造を表す曲線▲3▼の山と谷の位置M1,V1,M2,V2,...の付近において、同様に聴覚重みの原形である1/|Y1(n)|に対して適切な重み付けを行う。
【0028】
山に対する重み付け関数及び谷に対する重み付け関数としては、各種のものが考えられる。図7は、そうした重み付け関数を例示するものである。
【0029】
図7中、(a),(b)はいずれも山に対する重み付け関数の例を示しており、(a)は直線により構成されたもの、(b)は放物線により構成されたものである。いずれも山の中心n=Mの両側にtずつ、合計2tの区間を重み付け区間としている。重み付け関数の値は、重み付け区間の両端(M±t)においては1.0であるものとする。また、山の中心n=Mにおける重みの値αは、通常、0<α<1.0における妥当な定数とすればよい。同様に図7中、(c),(d)は、谷に対する重み付け関数の例を示しており、(c)は直線により構成されたもの、(d)は放物線により構成されたものである。山の場合と同様に、谷に対する重み付け関数も、その値は、重み付け区間の両端(V±t)においては1.0である。また、谷の中心n=Vにおける重みの値βは、通常、β>1.0における妥当な定数を使用する。しかしながら、場合によっては、α>1.0,0<β<1.0とすると効果的なこともある。
【0030】
このようにして聴覚重み付けを行った場合に、量子化雑音は図8に示すように変形される。すなわち、聴覚重み付けを行わない場合には、量子化ノイズは周波数によらずに一定であると考えられるが(図中▲2▼)、入力信号のスペクトル包絡が図中▲1▼に示すようなものであるとすると、上述した聴覚重み付けを行うことにより、ノイズは、図中▲3▼に示すようにその周波数特性が変形され、入力信号のスペクトル特性である▲1▼に隠されて、聴感的に聞こえ難くなる。
【0031】
したがって、従来法よりも精度の高い聴覚マスキングが行なえ、高品質な符号化を行なうことが可能となる。
【0032】
次に、上述した本発明の信号符号化方法を一般的な変換符号化方式の聴覚重み付けに適用した例を説明する。図9はそのような聴覚重み付けを行う信号符号化装置の構成を示している。
【0033】
図9に示す信号符号化装置は、入力信号に対してMDCTを施すMDCT変換部31と、MDCT後の信号のスペクトルを平坦化するスペクトル平坦化部32と、平坦化後のスペクトルに基づいてフレームゲインを正規化し量子化した後、ゲインインデックスを出力するフレームゲイン正規化部33と、正規化されたフレームゲインに基づいて残差成分を量子化(ベクトル量子化あるいはスカラー量子化)し、量子化インデックスを出力する残差成分量子化部34と、MDCT後の信号のスペクトルからスペクトル包絡を推定するスペクトル包絡推定部35と、残差成分量子化部34での量子化に際して情報量重み付けを行うために、推定されたスペクトル包絡から聴覚重みを計算する聴覚重み計算部36と、推定されたスペクトル包絡に基づいてスペクトル情報を量子化しスペクトルインデックスを出力するスペクトル情報量子化部37とを備えている。この信号符号化装置では、MDCT変換部31が図1に示した信号符号化装置のT/F変換部11に相当し、また、スペクトル包絡推定部35は、図1に示す装置の包絡算出部13及び山・谷推定部14で構成され、聴覚重み計算部36は、図1に示す装置の重み付け部15及び聴覚重み算出部16で構成される。
【0034】
本発明の信号符号化方法により、分析フレーム内におけるスペクトルの山と谷を正確かつ細かに分析し、その形に合わせて量子化の際に精度の高い聴覚マスキングを行うことができる。この聴覚マスキングは、ベクトル量子化や、サブバンドスカラー量子化に対して適用できる。
【0035】
さらに図10は、特開平8−44399号公報に開示される符号器及び復号器に本発明の聴覚重み付けを適用した例を示している。図10に示されるものにおいて、符号器110は、入力端子111に与えられた入力信号をフレームに分割するフレーム分割部114と、フレームに時間窓を描ける時間窓掛部115と、時間窓が掛けられたフレームにN次のMDCTを施すMDCT部116と、時間窓が掛けられたフレームに対して線形予測分析を行い予測係数を出力する線形予測分析部117と、予測係数を量子化してインデックスIpを得る量子化部118と、予測係数のスペクトラム概形を求めるスペクトラム概形計算部121と、MDCT部116からのスペクトラム振幅をスペクトラム概形により正規化し残差係数R(F)を得る正規化部122と、残差係数概形ER(F)を計算する残差概形計算部123と、残差係数概形及びスペクトラム概形に基づいて重み付け係数(ベクトルW)を計算する重み計算部124と、重み付け係数に基づいて量子化しインデックスImと量子化小系列ベクトルC(m)を出力する量子化部125と、残差係数R(F)を残差係数概形ER(F)で正規化して微細構造係数を得る残差係数正規化部126と、現フレームの微細構造係数を正規化し正規化微細構造係数X(F)として量子化部125に与えるとともにインデックスIGを出力するパワー正規化部127と、量子化小系列ベクトルC(m)を逆正規化し量子化残差係数Rq(F)を残差概形計算部123に出力する逆正規化部131とを備えている。
【0036】
符号器110において本発明に基づく聴覚重み付けを行うためには、スペクトラム概形計算部121において、従来法に加えてさらに図1に示した信号符号化装置の包絡算出部13及び山・谷推定部14での処理と同様の処理を行わせ、その結果に基づいて、重み計算部124においては、従来法に加えてさらに図1に示した装置の重み付け部15及び聴覚重み算出部16での処理と同様の処理を行い、得られた量子化用聴覚重みを量子化部125に供給するようにすればよい。
【0037】
これに対して復号器150は、インデックスImから正規化微細構造係数を再生する再生部151と、インデックスIGから正規化ゲインを再生する正規化ゲイン再生部152と、正規化微細構造係数を正規化ゲインにより逆正規化して微細構造係数を得るパワー逆正規化部153と、微細構造係数を残差概形ERで逆正規化して残差係数R(F)を再生する残差逆正規化部154と、残差概形ERを計算する残差概形計算部155と、インデックスIpから線形予測係数を再生しスペクトラム概形を計算する再生・スペクトラム概形計算部156と、スペクトラム概形を残差係数R(F)で逆正規化し周波数領域係数を再生する逆正規化部157と、周波数領域係数にフレームごとに逆MDCTを施し時間領域信号を得る逆MDCT部158と、時間領域信号にフレームごとに時間窓を掛ける窓掛部159と、窓掛け出力に対してフレーム重ね合わせを行い再生音響信号を得てこれを出力端子191に出力するフレーム重ね合わせ部161と、を備えている。
【0038】
なお、図10に示す符号器110においては、逆正規化部131を設けることなく、正規化部122の出力のみに基づいて残差概形計算部123が残差係数概形ER(F)とインデックスIQを算出するようにすることが可能であり、この場合、復号器150において残差概形計算部155はインデックスIQに基づいて残差概形ERを計算する。
【0039】
次に、時間領域の符号化方式であるCELP(Code−Excited Linear Prediction)符号化の聴覚マスキングに本発明を適用した例を説明する。CELP符号化では、時間領域で聴覚マスキングが行われるため、本発明に基づく聴覚重み付けを周波数領域で適用し、得られた聴覚重みを時間領域に戻してから量子化に適用する。図11はそのような符号化を行う信号符号化装置の構成を示すブロック図である。
【0040】
図11に示す装置は、入力信号に対してFFT(高速フーリエ変換)を施すFFT部38と、FFT部の出力(周波数領域の信号列)に基づき、スペクトル包絡を推定するスペクトル包絡推定部35と、推定されたスペクトル包絡から聴覚重みを計算する聴覚重み計算部36と、聴覚重みを時間領域に戻すための逆FFT部39と、時間領域の聴覚重みに基づいて入力信号のCELP符号化を行い、インデックスを出力するCELP符号化部40とを備えている。この信号符号化装置においては、FFT部38が図1に示した信号符号化装置のT/F変換部11に相当し、また、スペクトル包絡推定部35は、図1に示す装置の包絡算出部13及び山・谷推定部14で構成され、聴覚重み計算部36は、図1に示す装置の重み付け部15及び聴覚重み算出部16で構成される。
【0041】
さらに図12は、特開平6−282298号公報の図1に開示される音声符号化装置に本発明の聴覚重み付けを適用した例を示している。図12に示される音声符号化装置は、入力端子201を介して入力した音声信号をフレームに分割して線形予測分析を行い、予測係数を決定する予測係数決定部202と、合成フィルタ203と、予測係数を量子化して合成フィルタ203に予測係数を設定する予測係数量子化部204と、複数のピッチ周期ベクトルを記憶する適応符号帳217と、複数の雑音波形ベクトルを記憶する雑音符号帳218と、適応符号帳217から選択されたピッチ周期ベクトルに利得を加える利得部219a及び雑音符号帳218から選択された雑音波形ベクトルに利得を加える利得部219bとを有する利得符号帳219と、利得部219bの過去の出力パワーに基づいて次の雑音波形ベクトルの予測利得を得る予測利得決定部215と、利得部219bの入力側に設けられ選択された雑音波形ベクトルにこの予測利得を加える予測利得部216と、利得部219a、219bからの出力ベクトルを加算して駆動ベクトルとして合成フィルタ203に供給する加算器209と、入力音声ベクトル(入力信号)から合成フィルタ203の出力(合成音声ベクトル)を減算して歪データとして出力する減算器211と、歪データに対して聴覚重み付けを行う聴覚重み付けフィルタ220と、聴覚重み付け後の歪データに基づいて歪パワーを計算し、歪パワーが最小になるように各符号帳217〜219での選択を行う歪パワー計算部212と、符号を出力する符号出力部213と、を備えている。
【0042】
この音声符号化装置において本発明に基づく聴覚重み付けを行う場合には、上述の図11に示した信号符号化装置をここでの聴覚重み付けフィルタ220として、または聴覚重み付けフィルタ220と併用して用いればよい。これにより、歪データに対して、本発明に基づく聴覚重み付けがなされることになる。さらに、ここでは図面を用いては説明しないが、特開平6−282298号公報の図2に開示される音声符号化装置においても、その聴覚重み付けフィルタとして、図11に示した信号符号化装置を上述のように変形したものを使用することができる。
【0043】
以上説明した本発明に基づく信号符号化方法及び装置は、それを実現するための計算機プログラムを、計算機(コンピュータ)に読み込ませ、そのプログラムを実行させることによっても実現できる。信号符号化を行うためのプログラムは、磁気テープやCD−ROMなどの記録媒体によって、あるいは、ネットワークを介して、計算機に読み込まれる。図13は、上述の信号符号化方法を実行する計算機の構成を示すブロック図である。
【0044】
この計算機は、中央処理装置(CPU)21と、プログラムやデータを格納するためのハードディスク装置22と、主メモリ23と、キーボードやマウス、マイクロホンなどの入力装置24と、CRTやスピーカなどの表示装置25と、磁気テープやCD−ROM等の記録媒体27を読み取る読み取り装置26と、ネットワークに接続した通信インタフェース28とから構成されている。ハードディスク装置22、主メモリ23、入力装置24、表示装置25、読み取り装置26及び通信インタフェース28は、いずれも中央処理装置21に接続している。ハードディスク装置22の代わりに、フラッシュROMなどの不揮発性半導体記憶装置を用いてもよい。この計算機は、信号符号化を行うためのプログラムを格納した記録媒体27を読み取り装置26に装着し、記録媒体27からプログラムを読み出してハードディスク装置22に格納し、ハードディスク装置22に格納されたプログラムを中央処理装置21が実行することにより、信号符号化装置として機能するようになる。もちろん、ネットワークを介して、信号符号化を行うためのプログラムをこの計算機にダウンロードするようにしてもよい。
【0045】
【発明の効果】
以上説明したように、本発明によれば、音声・楽音信号を符号化する際に、従来法よりも精度の高い聴覚マスキングが行なえ、高品質な符号化を行なうことが可能となる。具体的には、例えばMDCT変換等によって時系列信号を周波数領域の係数列に変換して量子化する際に、本発明を用いれば、人間の聴覚マスキング特性を利用して、量子化誤差を知覚し難いように、周波数軸上で従来法よりも高精度で配分することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の信号符号化装置の構成を示すブロック図である。
【図2】スペクトルの山・谷へ重み付けを行う過程を示すブロック図である。
【図3】包絡算出部における処理の詳細を示すブロック図である。
【図4】山・谷推定部における処理の詳細を示すブロック図である。
【図5】山・谷推定部により検出された、スペクトラム包絡における山及び谷の様子の一例を示す図である。
【図6】スペクトル包絡の山・谷付近に重み付けを行った例を示す図である。
【図7】(a)〜(d)は、山・谷付近への重み付け関数の例を示す図である。
【図8】聴覚重み付け処理によって量子化雑音がスペクトル包絡にマスキングされる様子を示した図である。
【図9】本発明に基づく信号符号化装置の構成の一例を示すブロック図である。
【図10】本発明に基づく聴覚重み付けが適用される符号器及び復号器の構成の一例を示すブロック図である。
【図11】信号符号化装置の構成の一例を示すブロック図である。
【図12】信号符号化装置の構成の一例を示すブロック図である。
【図13】信号符号化装置を構成するために使用される計算機システムの一例を示すブロック図である。
【符号の説明】
11 T/F変換部
12 量子化部
13 包絡算出部
14 山・谷推定部
15 重み付け部
16 聴覚重み算出部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a signal encoding method and apparatus for performing quantization by transforming an input signal on a time axis / frequency axis, and in particular, transforms a quantization error generated at the time of encoding so that it is difficult for a human ear to perceive. Masking method and a signal encoding device using the hearing masking method.
[0002]
[Prior art]
As an auditory masking method in a conventional signal encoding method for encoding voice / musical sound, an input signal is subjected to a time axis or time axis / frequency axis conversion, and then a spectral envelope curve of the input signal is obtained by a linear prediction analysis method or the like. There is a method in which auditory masking is performed by obtaining a masking curve by estimating the estimated curve and applying an appropriate deformation operation to the estimated curve. Alternatively, there is a method in which a spectrum envelope curve is directly obtained from a signal obtained by converting an input signal into a time axis / frequency axis, and a masking curve is obtained by applying a proper deformation operation to this curve, and quantization is performed by auditory masking. .
[0003]
[Problems to be solved by the invention]
In the auditory masking method, masking on the frequency axis is performed by performing noise shaping such that quantization noise near the valley of the spectrum envelope curve is reduced and quantization noise near the peak of the spectrum envelope curve is increased instead. However, the quantization noise can be hardly heard by a human ear. Here, in the conventional method as described above, since the estimated positions of peaks and valleys in the spectral envelope may be inaccurate, noise shaping is not properly performed, and as a result, the sound quality of the encoded reproduced sound is poor. was there.
[0004]
Accordingly, an object of the present invention is to provide a signal encoding method and apparatus capable of accurately estimating the positions of peaks and valleys in a spectral envelope curve and thereby executing a highly accurate auditory masking method.
[0005]
[Means for Solving the Problems]
The present invention is intended to realize signal encoding that can be quantized so that distortion on an auditory basis is minimized.In order to solve the above-described problem, the positions of peaks and valleys of a spectral envelope curve are determined. It takes a method of accurately estimating and performing appropriate noise shaping from the positions of the peaks and valleys that have been accurately estimated. The position estimation of the peaks and valleys of the spectrum envelope curve is performed by removing fine irregularities as necessary from the accurate spectrum envelope curve of the signal subjected to the time axis / frequency axis conversion, and further performing the first differentiation and the second differentiation as necessary. , And the exact positions of the peaks and valleys are determined from these differential values or the arithmetic mean of the differential values. Appropriate weighting is performed at the positions of the peaks and valleys thus obtained, and effective noise shaping is realized.
[0006]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, a preferred embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.
[0007]
This signal encoding apparatus performs time-axis / frequency-axis conversion (T / F conversion) on a time-series input signal x (t), which is typically a voice signal or a tone signal, to convert a signal on a frequency axis. A T /
[0008]
For the peaks and valleys, the signal sequence X (n) is plotted with the horizontal axis as the frequency axis, and when smoothed (smoothed), a portion where the value of the signal sequence is larger than the surroundings is called a peak, The area where the value is smaller than the surrounding area is called a valley. As described later, the smoothing is performed by, for example, calculating an arithmetic mean (calculating a moving average based on the section length) in a certain section length (also referred to as an average section length). By changing the section length, fine peaks and valleys, slightly fine peaks and valleys, rough positions of peaks and valleys, and the like are estimated. Here, the arithmetic averaging is for smoothing a spectrum in one frame in a frequency section. According to the present invention, more accurate auditory masking is enabled by combining the estimation of the positions of peaks and valleys having different degrees of smoothing.
[0009]
Next, the operation of the signal encoding device will be described.
[0010]
The time-series input signal x (t) input as a time-series signal is converted by the T /
[0011]
The
[0012]
The basic operation of the signal encoding apparatus according to this embodiment has been described above. However, in the present invention, the above-mentioned weighting method and the linear prediction analysis method generally used conventionally are used as the auditory weighting method. For example, a method may be used in which a spectrum envelope is predicted by using the method, and peaks and valleys of the envelope curve are rounded by exponentiation and weighted.
[0013]
Next, the process of weighting in this embodiment will be described in detail.
[0014]
FIG. 2 is a block diagram showing a process of weighting peaks and valleys of a spectrum. Here, from the spectrum envelope curve obtained by the spectrum
[0015]
FIG. 3 is a block diagram illustrating the details of the process in the
In addition, the above-described calculation of the “arithmetic average (k)” may be performed a plurality of times by changing the average section length as needed.
[0017]
Next, processing in the peak /
[0018]
The peak /
[0019]
[Outside 1]
[0020]
Ask for. Further, this is differentiated again by n to obtain a series Y ″ j (N), and the sequence Y ″ j A series from which the minute fluctuation component of (n) has been removed
[0021]
[Outside 2]
[0022]
Ask for. Then, as shown by the equation in FIG. 4, the positions of the peaks and valleys of the spectrum envelope curve are estimated from the positive and negative of these values. Further, the above-described operation of “arithmetic averaging” for removing minute fluctuation components may be performed a plurality of times by changing the average section length, if necessary, or may not be performed. .
[0023]
FIG. 5 is a diagram illustrating a manner in which peaks and valleys of the spectral envelope are detected from the coefficient sequence X (n) as described above. Here, k = 2, that is, the case where the
[0024]
Next, assuming that a plurality of types of frequency positions of peaks and valleys have been obtained in this manner, how to weight the information amount will be described. FIG. 6 is a diagram illustrating an example in which information amounts are weighted near peaks and valleys of a spectral envelope curve. Here, in order to make the explanation easy to understand, the explanation will be made using a rough waveform.
[0025]
In FIG. 6, the spectral envelope curve (1) (| Y 2 (N) |) reciprocal (2) (1 / | Y 2 (N) |) is used as the original form of the auditory weight, and weighting is performed using a weight function near the estimated position of the peak and valley. In the example of this figure, the auditory weight (3) (W) is obtained by multiplying (2) by the weighting function (4) to correct the amount of information at the positions of peaks and valleys. L ) Has been created. As the weighting functions {circle around (4)} and {circle around (5)}, various forms are possible. Here, as an example, the section length to be weighted is 2t, 0.5 times at the center of the mountain, and 1.times. At the edge of the mountain. The result of weighting by a linear function such that it is 0 times, 2.0 times at the center of the valley, and 1.0 times at the end of the valley is shown as (3). As can be seen from FIG. 6, it is possible to estimate the exact positions of the peaks and valleys, create a weight that increases the amount of information near the valley, and reduces the amount of information near the peak.
[0026]
Here, the value of t is, for example, about 100 to 200 Hz when weighting the peak / valley structure representing the pitch frequency, and about 300 to 600 Hz when weighting the peak / valley structure representing the formant frequency. Is preferred.
[0027]
Actually, weighting is performed in the vicinity of the peaks and valleys of the “fine curve” and “rough curve” of the spectral envelope by the above-described method. For example, as shown in FIG. 5, when the positions of the peaks and valleys are estimated for each of the “fine curve” and the “rough curve” of the spectral envelope, the reciprocal of the spectral envelope (2) representing the fine structure is obtained. 1 / | Y 1 (N) | is the original form of the perceptual weight, and the positions m of the peaks and valleys of this envelope curve 1 , V 1 , M 2 , V 2 ,. . . , The original form of the
[0028]
Various functions can be considered as the weighting function for the peak and the weighting function for the valley. FIG. 7 illustrates such a weighting function.
[0029]
In FIG. 7, (a) and (b) show examples of the weighting function for the mountain, where (a) is a straight line and (b) is a parabolic curve. In each case, a section of a total of 2t is set as a weighting section, with t on each side of the center n = M of the mountain. The value of the weighting function is assumed to be 1.0 at both ends (M ± t) of the weighting section. In addition, the value α of the weight at the center of the mountain n = M may be a reasonable constant in the case of 0 <α <1.0. Similarly, in FIGS. 7A and 7B, (c) and (d) show examples of the weighting function for the valley, in which (c) is formed by a straight line and (d) is formed by a parabola. As in the case of the peak, the value of the weighting function for the valley is 1.0 at both ends (V ± t) of the weighting section. In addition, as the weight value β at the center of the valley n = V, an appropriate constant at β> 1.0 is usually used. However, in some cases, setting α> 1.0 and 0 <β <1.0 may be effective.
[0030]
When the auditory weighting is performed in this manner, the quantization noise is transformed as shown in FIG. That is, when the auditory weighting is not performed, the quantization noise is considered to be constant regardless of the frequency ((2) in the figure), but the spectral envelope of the input signal is as shown in (1) in the figure. Assuming that the noise is applied, the above-mentioned auditory weighting is performed, so that the noise has its frequency characteristic deformed as indicated by (3) in the figure and is hidden by (1), which is the spectral characteristic of the input signal. Hard to hear.
[0031]
Therefore, auditory masking with higher accuracy than the conventional method can be performed, and high-quality encoding can be performed.
[0032]
Next, an example in which the above-described signal encoding method of the present invention is applied to auditory weighting of a general transform encoding method will be described. FIG. 9 shows the configuration of a signal encoding device that performs such auditory weighting.
[0033]
The signal encoding device illustrated in FIG. 9 includes an
[0034]
According to the signal encoding method of the present invention, peaks and valleys of a spectrum in an analysis frame can be accurately and finely analyzed, and highly accurate auditory masking can be performed at the time of quantization according to the shape. This auditory masking can be applied to vector quantization and subband scalar quantization.
[0035]
FIG. 10 shows an example in which the auditory weighting of the present invention is applied to the encoder and decoder disclosed in Japanese Patent Application Laid-Open No. 8-44399. 10, the encoder 110 includes a
[0036]
In order to perform the auditory weighting based on the present invention in the encoder 110, in addition to the conventional method, the
[0037]
On the other hand, the decoder 150 m A reproducing
[0038]
In the encoder 110 shown in FIG. 10, without providing the
[0039]
Next, an example in which the present invention is applied to auditory masking of CELP (Code-Excited Linear Prediction) encoding, which is an encoding method in the time domain, will be described. In CELP coding, since auditory masking is performed in the time domain, the auditory weighting according to the present invention is applied in the frequency domain, and the obtained auditory weights are returned to the time domain and then applied to quantization. FIG. 11 is a block diagram illustrating a configuration of a signal encoding device that performs such encoding.
[0040]
The apparatus shown in FIG. 11 includes an
[0041]
FIG. 12 shows an example in which the auditory weighting of the present invention is applied to the speech encoding apparatus disclosed in FIG. 1 of JP-A-6-282298. The speech coding apparatus illustrated in FIG. 12 divides a speech signal input via an
[0042]
When performing the hearing weighting based on the present invention in this speech coding device, the signal coding device shown in FIG. 11 described above may be used as the
[0043]
The above-described signal encoding method and apparatus according to the present invention can also be implemented by causing a computer (computer) to read a computer program for realizing the method and executing the program. A program for performing signal encoding is read into a computer by a recording medium such as a magnetic tape or a CD-ROM, or via a network. FIG. 13 is a block diagram illustrating a configuration of a computer that executes the above-described signal encoding method.
[0044]
The computer includes a central processing unit (CPU) 21, a hard disk device 22 for storing programs and data, a
[0045]
【The invention's effect】
As described above, according to the present invention, when encoding a speech / tone signal, auditory masking with higher accuracy than in the conventional method can be performed, and high-quality encoding can be performed. More specifically, when the time-series signal is converted into a frequency-domain coefficient sequence by, for example, an MDCT transform and quantized, the present invention is used to perceive a quantization error using human auditory masking characteristics. As a result, it is possible to perform the distribution on the frequency axis with higher accuracy than the conventional method.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating a process of weighting peaks and valleys of a spectrum.
FIG. 3 is a block diagram illustrating details of processing in an envelope calculation unit.
FIG. 4 is a block diagram illustrating details of processing in a peak / valley estimating unit;
FIG. 5 is a diagram illustrating an example of a state of peaks and valleys in a spectrum envelope detected by a peak / valley estimating unit.
FIG. 6 is a diagram illustrating an example in which weighting is performed around peaks and valleys of a spectral envelope.
FIGS. 7A to 7D are diagrams illustrating examples of weighting functions for peaks and valleys;
FIG. 8 is a diagram illustrating a state in which quantization noise is masked into a spectral envelope by an auditory weighting process.
FIG. 9 is a block diagram illustrating an example of a configuration of a signal encoding device according to the present invention.
FIG. 10 is a block diagram illustrating an example of a configuration of an encoder and a decoder to which auditory weighting according to the present invention is applied.
FIG. 11 is a block diagram illustrating an example of a configuration of a signal encoding device.
FIG. 12 is a block diagram illustrating an example of a configuration of a signal encoding device.
FIG. 13 is a block diagram illustrating an example of a computer system used to configure the signal encoding device.
[Explanation of symbols]
11 T / F converter
12 Quantization unit
13 Envelope calculation unit
14 Mountain and valley estimator
15 Weighting unit
16 Auditory weight calculator
Claims (6)
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、
前記係数列に基づいてスペクトル包絡を算出する工程と、
前記スペクトル包絡における山・谷の位置を推定する工程と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、
前記量子化用聴覚重みに基づいて量子化を行う工程と、
を有し、
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の1階微分値を求めて2階微分値とする工程と、を有し、
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、
前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化方法。A signal encoding method for performing quantization on an input signal,
Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
Calculating a spectral envelope based on the coefficient sequence;
Estimating the positions of the peaks and valleys in the spectral envelope,
In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
Performing quantization based on the auditory weights for quantization,
Has,
Wherein the step of estimating includes the steps of obtaining a first derivative of the spectral envelope, the steps of the second-order differential value seeking first-order differential value before Symbol first derivatives, a,
The step of weighting the information amount is to raise the vicinity of the hill higher and lower the vicinity of the valley deeply, or to lower the vicinity of the hill lower and lift the vicinity of the valley so as to be shallower, using a weighting function such as to lift the vicinity of the valley to be shallower. Having a step of performing a weighting operation on the position,
If the first-order differential value changes from a positive value to a negative value, and if the second-order differential value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first-order differential value is calculated. Is changed from a negative value to a positive value, and if the second derivative is always a positive value in the vicinity of the change, the frequency is set as a valley position.
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する工程と、Calculating a spectral envelope based on the coefficient sequence;
前記スペクトル包絡における山・谷の位置を推定する工程と、Estimating the positions of the peaks and valleys in the spectral envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
前記量子化用聴覚重みに基づいて量子化を行う工程と、Performing quantization based on the auditory weights for quantization,
を有し、Has,
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の相加平均値を求める工程と、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とする工程と、前記2階微分値の相加平均値を求める工程と、を有し、The step of estimating includes a step of calculating a first derivative of the spectrum envelope, a step of calculating an arithmetic mean of the first derivative, and a step of calculating a first derivative of the arithmetic mean of the first derivative. Calculating a second derivative, and calculating an arithmetic mean of the second derivative,
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、The step of performing the information amount weighting is to raise the vicinity of the hill high and lower the vicinity of the valley deeply, or to lower the vicinity of the hill and raise the vicinity of the valley to be shallow and lift the valley / valley using a weighting function. Having a step of performing a weighting operation on the position,
前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化方法。If the arithmetic mean of the first derivative changes from a positive value to a negative value, and if the arithmetic mean of the second derivative is always negative near the change, the frequency is changed to If the arithmetic mean of the first derivative changes from a negative value to a positive value and the arithmetic mean of the second derivative is always a positive value in the vicinity of the change, For example, a signal encoding method in which the frequency is set as a valley position.
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る変換手段と、
前記係数列に基づいてスペクトル包絡を算出する包絡算出手段と、
前記スペクトル包絡における山・谷の位置を推定する山・谷推定手段と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う重み付け手段と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する聴覚重み算出手段と、
前記量子化用聴覚重みに基づいて量子化を行う量子化手段と、
を有し、
前記重み付け手段は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行い、
前記山・谷推定手段は、前記スペクトル包絡の1階微分値を求め、前記1階微分値の1階微分値を求めて2階微分値とし、前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化装置。A signal encoding device that performs quantization on an input signal,
Conversion means for performing time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
An envelope calculating means for calculating a spectrum envelope based on the coefficient sequence,
Mountain and valley estimating means for estimating the position of the mountain and valley in the spectrum envelope,
In the spectral envelope, weighting means for weighting the amount of information to the estimated position of the peaks and valleys,
Based on the information-weighted spectral envelope, an auditory weight calculation unit that calculates an auditory weight for quantization,
Quantizing means for performing quantization based on the auditory weight for quantization,
Has,
The weighting means weights the positions of the peaks and valleys by using a weighting function that raises the vicinity of the mountain high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and raises the vicinity of the valley to be shallow. Do
The mountain-valley estimating means, a first-order differential value of the spectral envelope required, in search of first-order differential value before Symbol first-order differential value and second-order differential value, before Symbol first-order differential value from a positive value If the second derivative value changes to a negative value and the second derivative value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first derivative value changes from a negative value to a positive value. And if the second derivative is always a positive value in the vicinity of the change, the frequency is set to a valley position.
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る変換手段と、Conversion means for performing time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する包絡算出手段と、An envelope calculating means for calculating a spectrum envelope based on the coefficient sequence,
前記スペクトル包絡における山・谷の位置を推定する山・谷推定手段と、Mountain and valley estimating means for estimating the position of the mountain and valley in the spectrum envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う重み付け手段と、In the spectral envelope, weighting means for weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する聴覚重み算出手段と、Based on the information-weighted spectral envelope, perceptual weight calculating means for calculating perceptual weight for quantization,
前記量子化用聴覚重みに基づいて量子化を行う量子化手段と、Quantizing means for performing quantization based on the auditory weight for quantization,
を有し、Has,
前記重み付け手段は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行い、The weighting means weights the positions of the peaks and valleys by using a weighting function that raises the vicinity of the mountain high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and raises the vicinity of the valley to be shallow. Do
前記山・谷推定手段は、前記スペクトル包絡の1階微分値を求め、前記1階微分値の相加平均値を求め、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とし、前記2階微分値の相加平均値を求め、前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化装置。The peak / valley estimating means obtains a first derivative of the spectrum envelope, obtains an arithmetic mean of the first derivative, and obtains a first derivative of the arithmetic mean of the first derivative. An arithmetic mean of the second-order differential value is obtained, and the arithmetic mean value of the first-order differential value changes from a positive value to a negative value. If the arithmetic mean of the first derivative is always a negative value, the frequency is regarded as a peak position, and the arithmetic mean of the first derivative changes from a negative value to a positive value; If the arithmetic mean value of the second order differential value is always a positive value in the vicinity of, the frequency is set as a valley position.
前記計算機に、
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、
前記係数列に基づいてスペクトル包絡を算出する工程と、
前記スペクトル包絡における山・谷の位置を推定する工程と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、
前記量子化用聴覚重みに基づいて量子化を行う工程と、
を実行させ、
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の1階微分値を求めて2階微分値とする工程と、を有し、
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、
前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化プログラムを記録した記録媒体。A computer-readable recording medium,
In the calculator,
Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
Calculating a spectral envelope based on the coefficient sequence;
Estimating the positions of the peaks and valleys in the spectral envelope,
In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
Performing quantization based on the auditory weights for quantization,
And execute
Wherein the step of estimating includes the steps of obtaining a first derivative of the spectral envelope, the steps of the second-order differential value seeking first-order differential value before Symbol first derivatives, a,
The step of weighting the information amount is to raise the vicinity of the hill higher and lower the vicinity of the valley deeply, or to lower the vicinity of the hill lower and lift the vicinity of the valley so as to be shallower, using a weighting function such as to lift the vicinity of the valley to be shallower. Having a step of performing a weighting operation on the position,
If the first-order differential value changes from a positive value to a negative value, and if the second-order differential value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first-order differential value is calculated. recording medium but changes from a negative value to a positive value, and, if always a positive value the second order derivative in the vicinity of said change, that in which the frequency and location of the valley, to record the signal encoding program .
前記計算機に、In the calculator,
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する工程と、Calculating a spectral envelope based on the coefficient sequence;
前記スペクトル包絡における山・谷の位置を推定する工程と、Estimating the positions of the peaks and valleys in the spectral envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
前記量子化用聴覚重みに基づいて量子化を行う工程と、Performing quantization based on the auditory weights for quantization,
を実行させ、And execute
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の相加平均値を求める工程と、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とする工程と、前記2階微分値の相加平均値を求める工程と、を有し、The step of estimating includes a step of calculating a first derivative of the spectrum envelope, a step of calculating an arithmetic mean of the first derivative, and a step of calculating a first derivative of the arithmetic mean of the first derivative. Calculating a second derivative, and calculating an arithmetic mean of the second derivative,
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、The step of performing the information amount weighting is to raise the vicinity of the hill high and lower the vicinity of the valley deeply, or to lower the vicinity of the hill and raise the vicinity of the valley to be shallow and lift the valley / valley using a weighting function. Having a step of performing a weighting operation on the position,
前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化プログラムを記録した記録媒体。If the arithmetic mean of the first derivative changes from a positive value to a negative value, and if the arithmetic mean of the second derivative is always negative near the change, the frequency is changed to If the arithmetic mean of the first derivative changes from a negative value to a positive value and the arithmetic mean of the second derivative is always a positive value in the vicinity of the change, For example, a recording medium on which a signal encoding program is recorded with its frequency being a valley position.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000318017A JP3590342B2 (en) | 2000-10-18 | 2000-10-18 | Signal encoding method and apparatus, and recording medium recording signal encoding program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000318017A JP3590342B2 (en) | 2000-10-18 | 2000-10-18 | Signal encoding method and apparatus, and recording medium recording signal encoding program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002123298A JP2002123298A (en) | 2002-04-26 |
JP3590342B2 true JP3590342B2 (en) | 2004-11-17 |
Family
ID=18796710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000318017A Expired - Fee Related JP3590342B2 (en) | 2000-10-18 | 2000-10-18 | Signal encoding method and apparatus, and recording medium recording signal encoding program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3590342B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107210042A (en) * | 2015-01-30 | 2017-09-26 | 日本电信电话株式会社 | Code device, decoding apparatus, their method, program and recording medium |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE394774T1 (en) * | 2004-05-19 | 2008-05-15 | Matsushita Electric Ind Co Ltd | CODING, DECODING APPARATUS AND METHOD THEREOF |
JP4761506B2 (en) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | Audio processing method and apparatus, program, and audio system |
JP4556866B2 (en) * | 2005-12-27 | 2010-10-06 | 日本ビクター株式会社 | High efficiency encoding program and high efficiency encoding apparatus |
KR101411900B1 (en) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | Method and apparatus for encoding and decoding audio signal |
JP5047900B2 (en) * | 2008-08-01 | 2012-10-10 | ヤマハ発動機株式会社 | Utterance section detector |
WO2011086923A1 (en) * | 2010-01-14 | 2011-07-21 | パナソニック株式会社 | Encoding device, decoding device, spectrum fluctuation calculation method, and spectrum amplitude adjustment method |
JP6160072B2 (en) | 2012-12-06 | 2017-07-12 | 富士通株式会社 | Audio signal encoding apparatus and method, audio signal transmission system and method, and audio signal decoding apparatus |
CA3029033C (en) | 2013-04-05 | 2021-03-30 | Dolby International Ab | Audio encoder and decoder |
PL3594945T3 (en) * | 2014-05-01 | 2021-05-04 | Nippon Telegraph And Telephone Corporation | Coding of a sound signal |
CN110444216B (en) * | 2014-05-01 | 2022-10-21 | 日本电信电话株式会社 | Decoding device, decoding method, and recording medium |
US11468905B2 (en) * | 2016-09-15 | 2022-10-11 | Nippon Telegraph And Telephone Corporation | Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program |
-
2000
- 2000-10-18 JP JP2000318017A patent/JP3590342B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107210042A (en) * | 2015-01-30 | 2017-09-26 | 日本电信电话株式会社 | Code device, decoding apparatus, their method, program and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP2002123298A (en) | 2002-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10236015B2 (en) | Encoding device and method, decoding device and method, and program | |
US9659573B2 (en) | Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program | |
US9691410B2 (en) | Frequency band extending device and method, encoding device and method, decoding device and method, and program | |
USRE43191E1 (en) | Adaptive Weiner filtering using line spectral frequencies | |
US5706395A (en) | Adaptive weiner filtering using a dynamic suppression factor | |
JP5127754B2 (en) | Signal processing device | |
JP3590342B2 (en) | Signal encoding method and apparatus, and recording medium recording signal encoding program | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
TWI524332B (en) | Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands | |
JP4382808B2 (en) | Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method | |
JP5443547B2 (en) | Signal processing device | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
JP3186013B2 (en) | Acoustic signal conversion encoding method and decoding method thereof | |
JP3349858B2 (en) | Audio coding device | |
JP3390923B2 (en) | Audio processing method | |
WO2001024164A1 (en) | Voice encoder, voice decoder, and voice encoding and decoding method | |
JPH0990998A (en) | Acoustic signal conversion decoding method | |
TW201443888A (en) | Apparatus and method for generating a frequency enhancement signal using an energy limitation operation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20031222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040510 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040819 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3590342 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100827 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100827 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 9 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |