JP3590342B2 - Signal encoding method and apparatus, and recording medium recording signal encoding program - Google Patents

Signal encoding method and apparatus, and recording medium recording signal encoding program Download PDF

Info

Publication number
JP3590342B2
JP3590342B2 JP2000318017A JP2000318017A JP3590342B2 JP 3590342 B2 JP3590342 B2 JP 3590342B2 JP 2000318017 A JP2000318017 A JP 2000318017A JP 2000318017 A JP2000318017 A JP 2000318017A JP 3590342 B2 JP3590342 B2 JP 3590342B2
Authority
JP
Japan
Prior art keywords
vicinity
valley
derivative
weighting
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000318017A
Other languages
Japanese (ja)
Other versions
JP2002123298A (en
Inventor
明夫 神
健弘 守谷
直樹 岩上
岳至 森
和明 千喜良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000318017A priority Critical patent/JP3590342B2/en
Publication of JP2002123298A publication Critical patent/JP2002123298A/en
Application granted granted Critical
Publication of JP3590342B2 publication Critical patent/JP3590342B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、入力信号を時間軸/周波数軸変換して量子化を行う信号符号化方法及び装置に関し、特に、符号化に際して発生する量子化誤差を、人間の耳が知覚しづらいように変形するための聴覚マスキング方法と、この聴覚マスキング方法による信号符号化装置に関する。
【0002】
【従来の技術】
音声・楽音を符号化する従来の信号符号化方法における聴覚マスキング方法としては、入力信号を時間軸上または時間軸/周波数軸変換した上で、線形予測分析方法等によりその入力信号のスペクトル包絡曲線を推定し、その推定された曲線に妥当な変形操作を加えることによってマスキング曲線を求めて聴覚マスキングを行なうという方法があった。あるいは、入力信号を時間軸/周波数軸変換した信号から直接、スペクトル包絡曲線を求め、この曲線に妥当な変形操作を加えることによってマスキング曲線を求めて、聴覚マスキングによる量子化を行なう方法もあった。
【0003】
【発明が解決しようとする課題】
聴覚マスキング方法では、周波数軸上でのマスキングとして、スペクトル包絡曲線の谷付近の量子化雑音を減らし、その代りにスペクトル包絡曲線の山付近の量子化雑音を増加させるようなノイズシェイピングを行うことによって、人間の耳には量子化雑音が聞こえにくいようにすることができる。ここで、上述したような従来法では、スペクトル包絡における山と谷の推定位置が不正確となる場合があったため、ノイズシェイピングが適切に行われずに、結果として符号化再生音の音質が悪い場合があった。
【0004】
そこで本発明の目的は、スペクトル包絡曲線における山と谷の位置を正確に推定することができ、これによって精度の高い聴覚マスキング方法を実行できる信号符号化方法及び装置を提供することにある。
【0005】
【課題を解決するための手段】
本発明は、聴感ベースでの歪みが最小となるように量子化できる信号符号化を実現するためのものであって、上述した課題を解決するために、スペクトル包絡曲線の山と谷の位置を正確に推定し、正確に推定した山と谷の位置から適切なノイズシェイピングを行う手法を取る。スペクトル包絡曲線の山と谷の位置推定は、時間軸/周波数軸変換した信号の正確なスペクトル包絡曲線から必要に応じて、微細な凹凸を取り除き、さらに必要に応じて1階微分、2階微分を求めて、これらの微分値または、微分値の相加平均値から、山と谷の正確な位置を決定する。こうして得られた山と谷の位置において適切な重みづけを行ない、効果的なノイズシェイピングを実現する。
【0006】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。図1は本発明の実施の一形態の信号符号化装置の構成を示すブロック図である。
【0007】
この信号符号化装置は、典型的には音声信号あるいは楽音信号である時系列の入力信号x(t)に対して時間軸/周波数軸変換(T/F変換)を施して周波数軸上の信号列X(n)を得るT/F変換部11と、この信号列X(n)に対してベクトル量子化(VQ)及びスカラー量子化(SQ)を施して量子化インデックスを得る量子化部12を備えている。ここでT/F変換部11は、例えば、MDCT(modified descrete cosine transform;変形離散コサイン変換)などの変換を実行し、X(n)はこの変換によって得られた変換係数列などを指す。さらにこの信号符号化装置では、どの周波数帯域にどれだけの情報量を配分するのかを決定するための“聴覚重み”を算出し、量子化部11での量子化に際し、人間の耳に量子化雑音が聞こえ難いようにこの聴覚重みに基づく聴覚重み付け量子化が行われるようになっている。聴覚重みの算出のために、この信号符号化装置は、信号列X(n)に基づいてスペクトル包絡を算出する包絡算出部13と、算出されたスペクトル包絡に基づいてスペクトルの山と谷の位置を推定する山・谷推定部14と、推定されたスペクトルの山と谷の位置に基づき、情報量の配分が「山の位置で特に小さく」かつ「谷の位置で特に大きく」なるように、山の付近と谷の付近において適切な重み付けを行う重み付け部15と、“聴覚重み”として量子化部12に出力する聴覚重み算出部16と、を備えている。ここで“聴覚重み”の原形としては、スペクトル包絡の逆数を用いている。
【0008】
なお、山、谷については、横軸を周波数軸として信号列X(n)をプロットし、ならした(平滑化した)ときに、周囲に比べて信号列の値が大きいところを山と称し、周囲に比べて値が小さいところを谷と称している。後述するように、平滑化は、例えばある区間長(平均区間長ともいう)での相加平均を算出する(その区間長による移動平均を算出する)ことによって行われているが、このとき、その区間長を変化させることにより、微細な山・谷、やや微細な山・谷、大まかな山・谷の位置などが推定されることになる。ここで相加平均とは、1フレーム内のスペクトルを周波数区間内で平滑化するためのものである。本発明では、平滑化の度合いが異なる山・谷の位置の推定を組み合わせることにより、より精度の高い聴覚マスキングを可能にしている。
【0009】
次に、この信号符号化装置の動作を説明する。
【0010】
時系列の信号として入力する時系列の入力信号x(t)は、T/F変換部11によって周波数軸上の信号列X(n)に変換される。この信号列X(n)は、ベクトル量子化及びスカラー量子化のために量子化部12に供給されるとともに、そのスペクトル包絡を算出するために、包絡算出部13にも送られる。包絡算出部13は、信号列X(n)のスペクトル包絡を算出し、山・谷推定部14は、算出されたスペクトル包絡に基づいて、スペクトルにおける山と谷の位置を推定し、推定した位置を重み付け部15に出力する。重み付け部15は、包絡算出部13において得られたスペクトル包絡の逆数に基づいて、スペクトルの山と谷の位置においてそれぞれ、情報量の配分が「山の位置で特に小さく」、「谷の位置で特に大きく」なるように、山の付近と谷の付近において、適切な情報量重み付けを行う。具体的には、山の付近を高く持ち上げかつ谷の付近を深く下げるか、あるいは、山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて、山・谷の位置へ重み付け操作を行う。重み付け部15には、包絡算出部13からスペクトル包絡曲線が供給されており、重み付け操作が施されたスペクトル包絡曲線が重み付け部15から聴覚重み算出部16に供給される。
【0011】
聴覚重み算出部16は、重み付けされたスペクトル包絡曲線に基づいて量子化用聴覚重みを算出してそれを量子化部12に向けて出力する。その結果、量子化部13は、供給された量子化用聴覚重みを使用して、T/F変換部11からの信号列X(n)に対するベクトル量子化及びスカラー量子化を実行する。これにより、量子化部13から、精度の高い聴覚マスキングがなされた量子化インデックス(出力インデックス)が出力される。
【0012】
以上、この実施の形態の信号符号化装置の基本的動作を説明したが、本発明では、聴覚重み付けの方法として、上述した重み付けの方法と、従来から一般的に用いられている線形予測分析法等によりスペクトル包絡を予測し包絡曲線の山と谷をべき乗演算によりなまらせ重みとする方法とを併用してもよい。
【0013】
次に、この実施の形態における重み付けの過程を詳細を説明する。
【0014】
図2は、スペクトルの山・谷へ重み付けを行う過程を示すブロック図である。ここでは、スペクトル包絡算出部13において得られたスペクトル包絡曲線から、山・谷推定部14において、スペクトルの微細な山・谷の周波数位置を推定し、次にやや微細な山・谷の周波数位置を推定し、というように、この手順を必要な回数だけ繰り返し、最後に、スペクトルの大まかな山・谷の周波数位置を推定する。重み付け部15は、これらの推定された山と谷の付近に対して、各々、妥当な重み関数によって重み付け操作を行う。
【0015】
図3は、包絡算出部13における処理の詳細を示すブロック図である。包絡算出部13は、周波数領域の信号列X(n)に対して相加平均処理を施すことにより、スペクトル包絡曲線を得るものである。図において、相加平均(1)から相加平均(k)までは、それぞれ、区間長が異なる移動平均区間における相加平均である。ここでは、信号列X(n)に対し、まず、第1の相加平均(1)が適用され、その結果Y(n)に対して第2の相加平均(2)が適用され、さらにその結果Y(n)に対して第3の相加平均(3)が適用されるというようにして、k回の相加平均を順次行うようにしている。ここでkは1以上の整数の定数である。このようにして得られた各相加平均の結果Y(n),Y(n),...,Y(n)は、それぞれ山・谷推定部14に送られる。各回の相加平均での区間長は、各々の用途に応じて決定されるものであるが、主として、相加平均(1)では平均区間長を短くして微細な山と谷の位置を検出し、相加平均(2)では相加平均(1)よりも平均区間長を長くして大まかな山と谷の位置を検出する。以下、相加平均(k)まで同様の操作とし、各回の相加平均での平均区間長を徐々に長くして行くとよい。
また、前述した“相加平均(k)”の演算は、必要に応じて、平均区間長を変えて複数回実施してもよい。
【0017】
次に、山・谷推定部14での処理を説明する。図4は、山・谷推定部14での処理を説明するブロック図である。
【0018】
山・谷推定部14は、包絡算出部13からの各回の相加平均によるスペクトル包絡を表す係数列Y(n),Y(n),...,Y(n)を入力として、係数列ごとに、以下のようにして山と谷の位置を推定する。すなわち、入力した係数列Y(n)(1≦j≦k)をまずnで微分して系列Y′(n)を求め、この系列Y′(n)に対して適切な区間で相加平均をとり、微細な変動成分を取り除いた系列
【0019】
【外1】

Figure 0003590342
【0020】
を求める。さらにこれをnで再び微分して系列Y″(n)を求め、この系列Y″(n)の微細な変動成分を取り除いた系列
【0021】
【外2】
Figure 0003590342
【0022】
を求める。そして、図4中に式で示したように、これらの値の正負からスペクトル包絡曲線の山と谷の位置を推定する。また、前述した、微細な変動成分を取り除くための“相加平均”の演算は、必要に応じて、平均区間長を変えて複数回実施してもよいし、これを実施しなくてもよい。
【0023】
図5は、以上のようにして係数列X(n)からスペクトル包絡の山と谷が検出された様子を例示する図である。ここでは、k=2、すなわち包絡算出部13において2段階に相加平均を求める場合を示している。この図において、平均を取る前の係数列X(n)の絶対値|X(n)|を▲1▼、相加平均(1)による系数列Y(n)における絶対値|Y(n)|を▲2▼、相加平均(2)による係数列Y(n)における絶対値|Y(n)|を▲3▼とする。相加平均(1)から推定した山の位置をm,m,...,m12、谷の位置をV,V,...,V11で表し、相加平均(2)から推定した山の位置をM,M,M、谷の位置をV,Vで表している。ここでは、相加平均(1)での区間長よりも相加平均(2)での区間長を長くしており、▲2▼が微細な山・谷の周波数位置に相当し、▲3▼が大まかな山・谷の周波数位置に相当する。
【0024】
次に、このようにして、複数種類の山・谷の周波数位置が求められたとして、どのように情報量の重み付けを行うかを説明する。図6は、スペクトル包絡曲線の山・谷付近に情報量の重み付けを行った例を示す図である。ここでは、説明を分かりやすくするために、おおまかな波形を使って説明を行う。
【0025】
図6において、あらかじめ推定されたスペクトル包絡曲線▲1▼(|Y(n)|)の逆数▲2▼(1/|Y(n)|)を聴覚重みの原形とし、これの山と谷の推定位置付近において、重み関数を使って重み付けを行う。この図の例では、重み付け関数▲4▼を▲2▼に乗算することによって、山と谷の位置で情報量を補正した聴覚重み▲3▼(W)を作成している。重み付け関数▲4▼及び▲5▼としては、種々の形のものが可能であるが、ここでは、一例として、重み付けを行う区間長が2t、山の中心で0.5倍、山の端で1.0倍、谷の中心で2.0倍、谷の端で1.0倍となるような直線関数による重み付けを行った結果を▲3▼として示している。図6から分かるように、山と谷の正確な位置を推定し、谷の付近に情報量を多くし、山の付近に情報量を少なく割り当る重みを作成することができる。
【0026】
ここでtの値は、例えば、ピッチ周波数を表す山・谷の構造に重み付けしたい場合には100〜200Hz、ホルマント周波数を表す山・谷の構造に重み付けしたい場合には300〜600Hz程度とすることが好ましい。
【0027】
実際には、スペクトル包絡の“微細な曲線”と“おおまかな曲線”の各々の山・谷の付近において、前述した方法により重み付けを行う。例えば、図5に示すようにスペクトル包絡の“微細な曲線”と“おおまかな曲線”の各々について山と谷の位置が推定されている場合には、微細構造を表すスペクトル包絡▲2▼の逆数1/|Y(n)|を聴覚重みの原形とし、この包絡曲線の山と谷の位置m,v,m,v,...の付近において、図6と同様にして聴覚重みの原形である1/|Y(n)|に対して適切な重み付けを行い、さらに、おおまかなスペクトル構造を表す曲線▲3▼の山と谷の位置M,V,M,V,...の付近において、同様に聴覚重みの原形である1/|Y(n)|に対して適切な重み付けを行う。
【0028】
山に対する重み付け関数及び谷に対する重み付け関数としては、各種のものが考えられる。図7は、そうした重み付け関数を例示するものである。
【0029】
図7中、(a),(b)はいずれも山に対する重み付け関数の例を示しており、(a)は直線により構成されたもの、(b)は放物線により構成されたものである。いずれも山の中心n=Mの両側にtずつ、合計2tの区間を重み付け区間としている。重み付け関数の値は、重み付け区間の両端(M±t)においては1.0であるものとする。また、山の中心n=Mにおける重みの値αは、通常、0<α<1.0における妥当な定数とすればよい。同様に図7中、(c),(d)は、谷に対する重み付け関数の例を示しており、(c)は直線により構成されたもの、(d)は放物線により構成されたものである。山の場合と同様に、谷に対する重み付け関数も、その値は、重み付け区間の両端(V±t)においては1.0である。また、谷の中心n=Vにおける重みの値βは、通常、β>1.0における妥当な定数を使用する。しかしながら、場合によっては、α>1.0,0<β<1.0とすると効果的なこともある。
【0030】
このようにして聴覚重み付けを行った場合に、量子化雑音は図8に示すように変形される。すなわち、聴覚重み付けを行わない場合には、量子化ノイズは周波数によらずに一定であると考えられるが(図中▲2▼)、入力信号のスペクトル包絡が図中▲1▼に示すようなものであるとすると、上述した聴覚重み付けを行うことにより、ノイズは、図中▲3▼に示すようにその周波数特性が変形され、入力信号のスペクトル特性である▲1▼に隠されて、聴感的に聞こえ難くなる。
【0031】
したがって、従来法よりも精度の高い聴覚マスキングが行なえ、高品質な符号化を行なうことが可能となる。
【0032】
次に、上述した本発明の信号符号化方法を一般的な変換符号化方式の聴覚重み付けに適用した例を説明する。図9はそのような聴覚重み付けを行う信号符号化装置の構成を示している。
【0033】
図9に示す信号符号化装置は、入力信号に対してMDCTを施すMDCT変換部31と、MDCT後の信号のスペクトルを平坦化するスペクトル平坦化部32と、平坦化後のスペクトルに基づいてフレームゲインを正規化し量子化した後、ゲインインデックスを出力するフレームゲイン正規化部33と、正規化されたフレームゲインに基づいて残差成分を量子化(ベクトル量子化あるいはスカラー量子化)し、量子化インデックスを出力する残差成分量子化部34と、MDCT後の信号のスペクトルからスペクトル包絡を推定するスペクトル包絡推定部35と、残差成分量子化部34での量子化に際して情報量重み付けを行うために、推定されたスペクトル包絡から聴覚重みを計算する聴覚重み計算部36と、推定されたスペクトル包絡に基づいてスペクトル情報を量子化しスペクトルインデックスを出力するスペクトル情報量子化部37とを備えている。この信号符号化装置では、MDCT変換部31が図1に示した信号符号化装置のT/F変換部11に相当し、また、スペクトル包絡推定部35は、図1に示す装置の包絡算出部13及び山・谷推定部14で構成され、聴覚重み計算部36は、図1に示す装置の重み付け部15及び聴覚重み算出部16で構成される。
【0034】
本発明の信号符号化方法により、分析フレーム内におけるスペクトルの山と谷を正確かつ細かに分析し、その形に合わせて量子化の際に精度の高い聴覚マスキングを行うことができる。この聴覚マスキングは、ベクトル量子化や、サブバンドスカラー量子化に対して適用できる。
【0035】
さらに図10は、特開平8−44399号公報に開示される符号器及び復号器に本発明の聴覚重み付けを適用した例を示している。図10に示されるものにおいて、符号器110は、入力端子111に与えられた入力信号をフレームに分割するフレーム分割部114と、フレームに時間窓を描ける時間窓掛部115と、時間窓が掛けられたフレームにN次のMDCTを施すMDCT部116と、時間窓が掛けられたフレームに対して線形予測分析を行い予測係数を出力する線形予測分析部117と、予測係数を量子化してインデックスIを得る量子化部118と、予測係数のスペクトラム概形を求めるスペクトラム概形計算部121と、MDCT部116からのスペクトラム振幅をスペクトラム概形により正規化し残差係数R(F)を得る正規化部122と、残差係数概形E(F)を計算する残差概形計算部123と、残差係数概形及びスペクトラム概形に基づいて重み付け係数(ベクトルW)を計算する重み計算部124と、重み付け係数に基づいて量子化しインデックスIと量子化小系列ベクトルC(m)を出力する量子化部125と、残差係数R(F)を残差係数概形E(F)で正規化して微細構造係数を得る残差係数正規化部126と、現フレームの微細構造係数を正規化し正規化微細構造係数X(F)として量子化部125に与えるとともにインデックスIを出力するパワー正規化部127と、量子化小系列ベクトルC(m)を逆正規化し量子化残差係数R(F)を残差概形計算部123に出力する逆正規化部131とを備えている。
【0036】
符号器110において本発明に基づく聴覚重み付けを行うためには、スペクトラム概形計算部121において、従来法に加えてさらに図1に示した信号符号化装置の包絡算出部13及び山・谷推定部14での処理と同様の処理を行わせ、その結果に基づいて、重み計算部124においては、従来法に加えてさらに図1に示した装置の重み付け部15及び聴覚重み算出部16での処理と同様の処理を行い、得られた量子化用聴覚重みを量子化部125に供給するようにすればよい。
【0037】
これに対して復号器150は、インデックスIから正規化微細構造係数を再生する再生部151と、インデックスIから正規化ゲインを再生する正規化ゲイン再生部152と、正規化微細構造係数を正規化ゲインにより逆正規化して微細構造係数を得るパワー逆正規化部153と、微細構造係数を残差概形ERで逆正規化して残差係数R(F)を再生する残差逆正規化部154と、残差概形Eを計算する残差概形計算部155と、インデックスIから線形予測係数を再生しスペクトラム概形を計算する再生・スペクトラム概形計算部156と、スペクトラム概形を残差係数R(F)で逆正規化し周波数領域係数を再生する逆正規化部157と、周波数領域係数にフレームごとに逆MDCTを施し時間領域信号を得る逆MDCT部158と、時間領域信号にフレームごとに時間窓を掛ける窓掛部159と、窓掛け出力に対してフレーム重ね合わせを行い再生音響信号を得てこれを出力端子191に出力するフレーム重ね合わせ部161と、を備えている。
【0038】
なお、図10に示す符号器110においては、逆正規化部131を設けることなく、正規化部122の出力のみに基づいて残差概形計算部123が残差係数概形E(F)とインデックスIを算出するようにすることが可能であり、この場合、復号器150において残差概形計算部155はインデックスIに基づいて残差概形Eを計算する。
【0039】
次に、時間領域の符号化方式であるCELP(Code−Excited Linear Prediction)符号化の聴覚マスキングに本発明を適用した例を説明する。CELP符号化では、時間領域で聴覚マスキングが行われるため、本発明に基づく聴覚重み付けを周波数領域で適用し、得られた聴覚重みを時間領域に戻してから量子化に適用する。図11はそのような符号化を行う信号符号化装置の構成を示すブロック図である。
【0040】
図11に示す装置は、入力信号に対してFFT(高速フーリエ変換)を施すFFT部38と、FFT部の出力(周波数領域の信号列)に基づき、スペクトル包絡を推定するスペクトル包絡推定部35と、推定されたスペクトル包絡から聴覚重みを計算する聴覚重み計算部36と、聴覚重みを時間領域に戻すための逆FFT部39と、時間領域の聴覚重みに基づいて入力信号のCELP符号化を行い、インデックスを出力するCELP符号化部40とを備えている。この信号符号化装置においては、FFT部38が図1に示した信号符号化装置のT/F変換部11に相当し、また、スペクトル包絡推定部35は、図1に示す装置の包絡算出部13及び山・谷推定部14で構成され、聴覚重み計算部36は、図1に示す装置の重み付け部15及び聴覚重み算出部16で構成される。
【0041】
さらに図12は、特開平6−282298号公報の図1に開示される音声符号化装置に本発明の聴覚重み付けを適用した例を示している。図12に示される音声符号化装置は、入力端子201を介して入力した音声信号をフレームに分割して線形予測分析を行い、予測係数を決定する予測係数決定部202と、合成フィルタ203と、予測係数を量子化して合成フィルタ203に予測係数を設定する予測係数量子化部204と、複数のピッチ周期ベクトルを記憶する適応符号帳217と、複数の雑音波形ベクトルを記憶する雑音符号帳218と、適応符号帳217から選択されたピッチ周期ベクトルに利得を加える利得部219a及び雑音符号帳218から選択された雑音波形ベクトルに利得を加える利得部219bとを有する利得符号帳219と、利得部219bの過去の出力パワーに基づいて次の雑音波形ベクトルの予測利得を得る予測利得決定部215と、利得部219bの入力側に設けられ選択された雑音波形ベクトルにこの予測利得を加える予測利得部216と、利得部219a、219bからの出力ベクトルを加算して駆動ベクトルとして合成フィルタ203に供給する加算器209と、入力音声ベクトル(入力信号)から合成フィルタ203の出力(合成音声ベクトル)を減算して歪データとして出力する減算器211と、歪データに対して聴覚重み付けを行う聴覚重み付けフィルタ220と、聴覚重み付け後の歪データに基づいて歪パワーを計算し、歪パワーが最小になるように各符号帳217〜219での選択を行う歪パワー計算部212と、符号を出力する符号出力部213と、を備えている。
【0042】
この音声符号化装置において本発明に基づく聴覚重み付けを行う場合には、上述の図11に示した信号符号化装置をここでの聴覚重み付けフィルタ220として、または聴覚重み付けフィルタ220と併用して用いればよい。これにより、歪データに対して、本発明に基づく聴覚重み付けがなされることになる。さらに、ここでは図面を用いては説明しないが、特開平6−282298号公報の図2に開示される音声符号化装置においても、その聴覚重み付けフィルタとして、図11に示した信号符号化装置を上述のように変形したものを使用することができる。
【0043】
以上説明した本発明に基づく信号符号化方法及び装置は、それを実現するための計算機プログラムを、計算機(コンピュータ)に読み込ませ、そのプログラムを実行させることによっても実現できる。信号符号化を行うためのプログラムは、磁気テープやCD−ROMなどの記録媒体によって、あるいは、ネットワークを介して、計算機に読み込まれる。図13は、上述の信号符号化方法を実行する計算機の構成を示すブロック図である。
【0044】
この計算機は、中央処理装置(CPU)21と、プログラムやデータを格納するためのハードディスク装置22と、主メモリ23と、キーボードやマウス、マイクロホンなどの入力装置24と、CRTやスピーカなどの表示装置25と、磁気テープやCD−ROM等の記録媒体27を読み取る読み取り装置26と、ネットワークに接続した通信インタフェース28とから構成されている。ハードディスク装置22、主メモリ23、入力装置24、表示装置25、読み取り装置26及び通信インタフェース28は、いずれも中央処理装置21に接続している。ハードディスク装置22の代わりに、フラッシュROMなどの不揮発性半導体記憶装置を用いてもよい。この計算機は、信号符号化を行うためのプログラムを格納した記録媒体27を読み取り装置26に装着し、記録媒体27からプログラムを読み出してハードディスク装置22に格納し、ハードディスク装置22に格納されたプログラムを中央処理装置21が実行することにより、信号符号化装置として機能するようになる。もちろん、ネットワークを介して、信号符号化を行うためのプログラムをこの計算機にダウンロードするようにしてもよい。
【0045】
【発明の効果】
以上説明したように、本発明によれば、音声・楽音信号を符号化する際に、従来法よりも精度の高い聴覚マスキングが行なえ、高品質な符号化を行なうことが可能となる。具体的には、例えばMDCT変換等によって時系列信号を周波数領域の係数列に変換して量子化する際に、本発明を用いれば、人間の聴覚マスキング特性を利用して、量子化誤差を知覚し難いように、周波数軸上で従来法よりも高精度で配分することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の信号符号化装置の構成を示すブロック図である。
【図2】スペクトルの山・谷へ重み付けを行う過程を示すブロック図である。
【図3】包絡算出部における処理の詳細を示すブロック図である。
【図4】山・谷推定部における処理の詳細を示すブロック図である。
【図5】山・谷推定部により検出された、スペクトラム包絡における山及び谷の様子の一例を示す図である。
【図6】スペクトル包絡の山・谷付近に重み付けを行った例を示す図である。
【図7】(a)〜(d)は、山・谷付近への重み付け関数の例を示す図である。
【図8】聴覚重み付け処理によって量子化雑音がスペクトル包絡にマスキングされる様子を示した図である。
【図9】本発明に基づく信号符号化装置の構成の一例を示すブロック図である。
【図10】本発明に基づく聴覚重み付けが適用される符号器及び復号器の構成の一例を示すブロック図である。
【図11】信号符号化装置の構成の一例を示すブロック図である。
【図12】信号符号化装置の構成の一例を示すブロック図である。
【図13】信号符号化装置を構成するために使用される計算機システムの一例を示すブロック図である。
【符号の説明】
11 T/F変換部
12 量子化部
13 包絡算出部
14 山・谷推定部
15 重み付け部
16 聴覚重み算出部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a signal encoding method and apparatus for performing quantization by transforming an input signal on a time axis / frequency axis, and in particular, transforms a quantization error generated at the time of encoding so that it is difficult for a human ear to perceive. Masking method and a signal encoding device using the hearing masking method.
[0002]
[Prior art]
As an auditory masking method in a conventional signal encoding method for encoding voice / musical sound, an input signal is subjected to a time axis or time axis / frequency axis conversion, and then a spectral envelope curve of the input signal is obtained by a linear prediction analysis method or the like. There is a method in which auditory masking is performed by obtaining a masking curve by estimating the estimated curve and applying an appropriate deformation operation to the estimated curve. Alternatively, there is a method in which a spectrum envelope curve is directly obtained from a signal obtained by converting an input signal into a time axis / frequency axis, and a masking curve is obtained by applying a proper deformation operation to this curve, and quantization is performed by auditory masking. .
[0003]
[Problems to be solved by the invention]
In the auditory masking method, masking on the frequency axis is performed by performing noise shaping such that quantization noise near the valley of the spectrum envelope curve is reduced and quantization noise near the peak of the spectrum envelope curve is increased instead. However, the quantization noise can be hardly heard by a human ear. Here, in the conventional method as described above, since the estimated positions of peaks and valleys in the spectral envelope may be inaccurate, noise shaping is not properly performed, and as a result, the sound quality of the encoded reproduced sound is poor. was there.
[0004]
Accordingly, an object of the present invention is to provide a signal encoding method and apparatus capable of accurately estimating the positions of peaks and valleys in a spectral envelope curve and thereby executing a highly accurate auditory masking method.
[0005]
[Means for Solving the Problems]
The present invention is intended to realize signal encoding that can be quantized so that distortion on an auditory basis is minimized.In order to solve the above-described problem, the positions of peaks and valleys of a spectral envelope curve are determined. It takes a method of accurately estimating and performing appropriate noise shaping from the positions of the peaks and valleys that have been accurately estimated. The position estimation of the peaks and valleys of the spectrum envelope curve is performed by removing fine irregularities as necessary from the accurate spectrum envelope curve of the signal subjected to the time axis / frequency axis conversion, and further performing the first differentiation and the second differentiation as necessary. , And the exact positions of the peaks and valleys are determined from these differential values or the arithmetic mean of the differential values. Appropriate weighting is performed at the positions of the peaks and valleys thus obtained, and effective noise shaping is realized.
[0006]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, a preferred embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.
[0007]
This signal encoding apparatus performs time-axis / frequency-axis conversion (T / F conversion) on a time-series input signal x (t), which is typically a voice signal or a tone signal, to convert a signal on a frequency axis. A T / F converter 11 for obtaining a sequence X (n), and a quantizer 12 for performing a vector quantization (VQ) and a scalar quantization (SQ) on the signal sequence X (n) to obtain a quantization index. It has. Here, the T / F conversion unit 11 performs a conversion such as a modified discrete cosine transform (MDCT), and X (n) indicates a conversion coefficient sequence obtained by the conversion. Further, the signal encoding apparatus calculates an “auditory weight” for determining how much information amount is to be allocated to which frequency band, and when the quantization is performed by the quantization unit 11, the quantization is performed by the human ear. Perceptual weighting quantization based on this perceptual weight is performed so that noise is hard to hear. In order to calculate the perceptual weight, the signal encoding apparatus includes an envelope calculator 13 that calculates a spectrum envelope based on the signal sequence X (n), and positions of peaks and valleys of the spectrum based on the calculated spectrum envelope. Based on the peak and valley positions of the estimated spectrum, such that the distribution of the information amount is “particularly small at the peak position” and “particularly large at the valley position”. The apparatus includes a weighting unit 15 that performs appropriate weighting in the vicinity of a mountain and a valley, and an auditory weight calculator 16 that outputs to the quantizer 12 as “auditory weight”. Here, the reciprocal of the spectral envelope is used as the original form of the “auditory weight”.
[0008]
For the peaks and valleys, the signal sequence X (n) is plotted with the horizontal axis as the frequency axis, and when smoothed (smoothed), a portion where the value of the signal sequence is larger than the surroundings is called a peak, The area where the value is smaller than the surrounding area is called a valley. As described later, the smoothing is performed by, for example, calculating an arithmetic mean (calculating a moving average based on the section length) in a certain section length (also referred to as an average section length). By changing the section length, fine peaks and valleys, slightly fine peaks and valleys, rough positions of peaks and valleys, and the like are estimated. Here, the arithmetic averaging is for smoothing a spectrum in one frame in a frequency section. According to the present invention, more accurate auditory masking is enabled by combining the estimation of the positions of peaks and valleys having different degrees of smoothing.
[0009]
Next, the operation of the signal encoding device will be described.
[0010]
The time-series input signal x (t) input as a time-series signal is converted by the T / F converter 11 into a signal sequence X (n) on the frequency axis. The signal sequence X (n) is supplied to the quantization unit 12 for vector quantization and scalar quantization, and is also sent to the envelope calculation unit 13 to calculate the spectrum envelope. The envelope calculator 13 calculates the spectrum envelope of the signal sequence X (n), and the peak / valley estimator 14 estimates the positions of the peaks and valleys in the spectrum based on the calculated spectrum envelope, and estimates the estimated positions. Is output to the weighting unit 15. Based on the reciprocal of the spectrum envelope obtained by the envelope calculation unit 13, the weighting unit 15 determines that the information amount distribution is “particularly small at the peak position” and “at the valley position” at the peak and valley positions of the spectrum, respectively. Appropriate information amount weighting is performed in the vicinity of the peak and the valley so as to be “particularly large”. Specifically, the position of the valley / valley is raised using a weight function that raises the vicinity of the mountain high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and raises the vicinity of the valley so that it becomes shallow. Weighting operation. The weighting unit 15 is supplied with the spectrum envelope curve from the envelope calculation unit 13, and the spectrum envelope curve on which the weighting operation has been performed is supplied from the weighting unit 15 to the auditory weight calculation unit 16.
[0011]
The auditory weight calculator 16 calculates an auditory weight for quantization based on the weighted spectral envelope curve, and outputs it to the quantizer 12. As a result, the quantization unit 13 performs vector quantization and scalar quantization on the signal sequence X (n) from the T / F conversion unit 11 using the supplied auditory weights for quantization. As a result, a quantization index (output index) subjected to highly accurate auditory masking is output from the quantization unit 13.
[0012]
The basic operation of the signal encoding apparatus according to this embodiment has been described above. However, in the present invention, the above-mentioned weighting method and the linear prediction analysis method generally used conventionally are used as the auditory weighting method. For example, a method may be used in which a spectrum envelope is predicted by using the method, and peaks and valleys of the envelope curve are rounded by exponentiation and weighted.
[0013]
Next, the process of weighting in this embodiment will be described in detail.
[0014]
FIG. 2 is a block diagram showing a process of weighting peaks and valleys of a spectrum. Here, from the spectrum envelope curve obtained by the spectrum envelope calculation unit 13, the peak / valley estimating unit 14 estimates the frequency position of the fine peak / valley of the spectrum, and then the frequency position of the slightly fine peak / valley. This procedure is repeated as many times as necessary, and finally the rough frequency positions of peaks and valleys in the spectrum are estimated. The weighting unit 15 performs a weighting operation on each of the estimated peaks and valleys by using an appropriate weighting function.
[0015]
FIG. 3 is a block diagram illustrating the details of the process in the envelope calculation unit 13. The envelope calculation unit 13 obtains a spectrum envelope curve by performing arithmetic averaging on the signal sequence X (n) in the frequency domain. In the figure, arithmetic averages (1) to (k) are arithmetic averages in moving average sections having different section lengths. Here, first, the first arithmetic mean (1) is applied to the signal sequence X (n), and as a result Y 1 A second arithmetic mean (2) is applied to (n) and the result Y 2 The third arithmetic averaging (3) is applied to (n), so that k arithmetic averaging is sequentially performed. Here, k is an integer constant of 1 or more. Result Y of each arithmetic mean obtained in this way 1 (N), Y 2 (N),. . . , Y k (N) are sent to the peak / valley estimating unit 14, respectively. The section length in each arithmetic averaging is determined according to each application, but mainly in the arithmetic averaging (1), the average section length is shortened to detect fine peaks and valleys. In the arithmetic averaging (2), the average section length is made longer than in the arithmetic averaging (1), and rough positions of peaks and valleys are detected. Hereinafter, the same operation is performed up to the arithmetic averaging (k), and the average section length in each arithmetic averaging may be gradually increased.
In addition, the above-described calculation of the “arithmetic average (k)” may be performed a plurality of times by changing the average section length as needed.
[0017]
Next, processing in the peak / valley estimating unit 14 will be described. FIG. 4 is a block diagram illustrating a process performed by the peak / valley estimating unit 14.
[0018]
The peak / valley estimating unit 14 calculates the coefficient sequence Y representing the spectral envelope by the arithmetic averaging of each time from the envelope calculating unit 13. 1 (N), Y 2 (N),. . . , Y k Using (n) as an input, the positions of peaks and valleys are estimated for each coefficient sequence as follows. That is, the input coefficient sequence Y j (N) (1 ≦ j ≦ k) is first differentiated by n to obtain a series Y ′ j (N), and the sequence Y ′ j A series obtained by taking the arithmetic mean in an appropriate section for (n) and removing fine fluctuation components
[0019]
[Outside 1]
Figure 0003590342
[0020]
Ask for. Further, this is differentiated again by n to obtain a series Y ″ j (N), and the sequence Y ″ j A series from which the minute fluctuation component of (n) has been removed
[0021]
[Outside 2]
Figure 0003590342
[0022]
Ask for. Then, as shown by the equation in FIG. 4, the positions of the peaks and valleys of the spectrum envelope curve are estimated from the positive and negative of these values. Further, the above-described operation of “arithmetic averaging” for removing minute fluctuation components may be performed a plurality of times by changing the average section length, if necessary, or may not be performed. .
[0023]
FIG. 5 is a diagram illustrating a manner in which peaks and valleys of the spectral envelope are detected from the coefficient sequence X (n) as described above. Here, k = 2, that is, the case where the envelope calculation unit 13 calculates the arithmetic mean in two stages is shown. In this figure, the absolute value | X (n) | of the coefficient sequence X (n) before taking the average is {1}, and the series Y of the arithmetic mean (1) 1 Absolute value | Y in (n) 1 (N) | is (2), coefficient sequence Y by arithmetic mean (2) 2 Absolute value | Y in (n) 2 (N) | is set to (3). The position of the mountain estimated from the arithmetic mean (1) is m 1 , M 2 ,. . . , M 12 , The valley position is V 1 , V 2 ,. . . , V 11 And the position of the mountain estimated from the arithmetic mean (2) 1 , M 2 , M 3 , The valley position is V 1 , V 2 It is represented by Here, the section length in the arithmetic mean (2) is longer than the section length in the arithmetic mean (1), and (2) corresponds to a fine frequency position of peaks and valleys, and (3) Correspond roughly to the frequency positions of the peaks and valleys.
[0024]
Next, assuming that a plurality of types of frequency positions of peaks and valleys have been obtained in this manner, how to weight the information amount will be described. FIG. 6 is a diagram illustrating an example in which information amounts are weighted near peaks and valleys of a spectral envelope curve. Here, in order to make the explanation easy to understand, the explanation will be made using a rough waveform.
[0025]
In FIG. 6, the spectral envelope curve (1) (| Y 2 (N) |) reciprocal (2) (1 / | Y 2 (N) |) is used as the original form of the auditory weight, and weighting is performed using a weight function near the estimated position of the peak and valley. In the example of this figure, the auditory weight (3) (W) is obtained by multiplying (2) by the weighting function (4) to correct the amount of information at the positions of peaks and valleys. L ) Has been created. As the weighting functions {circle around (4)} and {circle around (5)}, various forms are possible. Here, as an example, the section length to be weighted is 2t, 0.5 times at the center of the mountain, and 1.times. At the edge of the mountain. The result of weighting by a linear function such that it is 0 times, 2.0 times at the center of the valley, and 1.0 times at the end of the valley is shown as (3). As can be seen from FIG. 6, it is possible to estimate the exact positions of the peaks and valleys, create a weight that increases the amount of information near the valley, and reduces the amount of information near the peak.
[0026]
Here, the value of t is, for example, about 100 to 200 Hz when weighting the peak / valley structure representing the pitch frequency, and about 300 to 600 Hz when weighting the peak / valley structure representing the formant frequency. Is preferred.
[0027]
Actually, weighting is performed in the vicinity of the peaks and valleys of the “fine curve” and “rough curve” of the spectral envelope by the above-described method. For example, as shown in FIG. 5, when the positions of the peaks and valleys are estimated for each of the “fine curve” and the “rough curve” of the spectral envelope, the reciprocal of the spectral envelope (2) representing the fine structure is obtained. 1 / | Y 1 (N) | is the original form of the perceptual weight, and the positions m of the peaks and valleys of this envelope curve 1 , V 1 , M 2 , V 2 ,. . . , The original form of the auditory weight 1 / | Y 1 (N) | is appropriately weighted, and the positions M of peaks and valleys of a curve (3) representing a rough spectral structure 1 , V 1 , M 2 , V 2 ,. . . 1 / | Y which is also the original form of the auditory weight 1 (N) |
[0028]
Various functions can be considered as the weighting function for the peak and the weighting function for the valley. FIG. 7 illustrates such a weighting function.
[0029]
In FIG. 7, (a) and (b) show examples of the weighting function for the mountain, where (a) is a straight line and (b) is a parabolic curve. In each case, a section of a total of 2t is set as a weighting section, with t on each side of the center n = M of the mountain. The value of the weighting function is assumed to be 1.0 at both ends (M ± t) of the weighting section. In addition, the value α of the weight at the center of the mountain n = M may be a reasonable constant in the case of 0 <α <1.0. Similarly, in FIGS. 7A and 7B, (c) and (d) show examples of the weighting function for the valley, in which (c) is formed by a straight line and (d) is formed by a parabola. As in the case of the peak, the value of the weighting function for the valley is 1.0 at both ends (V ± t) of the weighting section. In addition, as the weight value β at the center of the valley n = V, an appropriate constant at β> 1.0 is usually used. However, in some cases, setting α> 1.0 and 0 <β <1.0 may be effective.
[0030]
When the auditory weighting is performed in this manner, the quantization noise is transformed as shown in FIG. That is, when the auditory weighting is not performed, the quantization noise is considered to be constant regardless of the frequency ((2) in the figure), but the spectral envelope of the input signal is as shown in (1) in the figure. Assuming that the noise is applied, the above-mentioned auditory weighting is performed, so that the noise has its frequency characteristic deformed as indicated by (3) in the figure and is hidden by (1), which is the spectral characteristic of the input signal. Hard to hear.
[0031]
Therefore, auditory masking with higher accuracy than the conventional method can be performed, and high-quality encoding can be performed.
[0032]
Next, an example in which the above-described signal encoding method of the present invention is applied to auditory weighting of a general transform encoding method will be described. FIG. 9 shows the configuration of a signal encoding device that performs such auditory weighting.
[0033]
The signal encoding device illustrated in FIG. 9 includes an MDCT conversion unit 31 that performs MDCT on an input signal, a spectrum flattening unit 32 that flattens the spectrum of a signal after MDCT, and a frame based on the flattened spectrum. After normalizing and quantizing the gain, the frame gain normalizing unit 33 that outputs a gain index, and quantizes (vector quantization or scalar quantization) the residual component based on the normalized frame gain, and performs quantization. A residual component quantization unit 34 for outputting an index, a spectrum envelope estimation unit 35 for estimating a spectrum envelope from a spectrum of the signal after MDCT, and an information weighting in performing quantization in the residual component quantization unit 34 A hearing weight calculator 36 for calculating a hearing weight from the estimated spectrum envelope, and a Spectral information have and a spectral information quantization unit 37 which outputs a spectrum index by quantizing. In this signal encoding device, the MDCT conversion unit 31 corresponds to the T / F conversion unit 11 of the signal encoding device shown in FIG. 1, and the spectrum envelope estimating unit 35 is an envelope calculation unit of the device shown in FIG. 13 and the peak / valley estimator 14, and the auditory weight calculator 36 is comprised of the weighter 15 and the auditory weight calculator 16 of the apparatus shown in FIG.
[0034]
According to the signal encoding method of the present invention, peaks and valleys of a spectrum in an analysis frame can be accurately and finely analyzed, and highly accurate auditory masking can be performed at the time of quantization according to the shape. This auditory masking can be applied to vector quantization and subband scalar quantization.
[0035]
FIG. 10 shows an example in which the auditory weighting of the present invention is applied to the encoder and decoder disclosed in Japanese Patent Application Laid-Open No. 8-44399. 10, the encoder 110 includes a frame dividing unit 114 that divides an input signal given to the input terminal 111 into frames, a time window hanging unit 115 that can draw a time window on a frame, and a time window hanging unit. MDCT unit 116 that performs an N-order MDCT on the obtained frame, linear prediction analysis unit 117 that performs a linear prediction analysis on the frame to which the time window has been applied, and outputs a prediction coefficient, and an index I that quantizes the prediction coefficient. p , A spectrum shape calculation unit 121 for calculating a spectrum shape of a prediction coefficient, and a normalization unit for normalizing the spectrum amplitude from the MDCT unit 116 by the spectrum shape to obtain a residual coefficient R (F). 122 and the residual coefficient approximate form E R (F), a residual approximation calculator 123, a weight calculator 124 that calculates a weighting coefficient (vector W) based on the residual coefficient outline and the spectrum outline, and a quantization and index based on the weighting coefficient. I m And a quantization unit 125 that outputs a quantized small sequence vector C (m) and a residual coefficient R (F) that is a residual coefficient approximate form E R (F), a residual coefficient normalization unit 126 that obtains a fine structure coefficient by normalization, a fine structure coefficient of the current frame is normalized and given to the quantization unit 125 as a normalized fine structure coefficient X (F), and an index I G And a power normalizing unit 127 that denormalizes the quantized small sequence vector C (m) and outputs a quantized residual coefficient R q (F) to the residual approximate calculation unit 123.
[0036]
In order to perform the auditory weighting based on the present invention in the encoder 110, in addition to the conventional method, the spectrum shape calculator 121 further includes an envelope calculator 13 and a peak / valley estimator of the signal coding apparatus shown in FIG. 14 is performed, and based on the result, in addition to the conventional method, the weight calculation unit 124 further performs processing in the weighting unit 15 and the auditory weight calculation unit 16 of the apparatus shown in FIG. The same processing as described above may be performed, and the obtained auditory weight for quantization may be supplied to the quantization unit 125.
[0037]
On the other hand, the decoder 150 m A reproducing unit 151 for reproducing a normalized fine structure coefficient from G A normalization gain reproducing unit 152 for reproducing a normalized gain from a power factor, a power denormalization unit 153 for denormalizing a normalized fine structure coefficient by a normalization gain to obtain a fine structure coefficient, and a residual approximate shape A residual inverse normalizing unit 154 for inverse normalization by the ER to reproduce a residual coefficient R (F); R 155 that calculates the residual p A reproduction / spectrum shape calculation unit 156 for regenerating a linear prediction coefficient from and calculating a spectrum outline, and an inverse normalization unit 157 for denormalizing the spectrum outline with a residual coefficient R (F) and reproducing a frequency domain coefficient. An inverse MDCT unit 158 for performing an inverse MDCT on the frequency domain coefficient for each frame to obtain a time domain signal, a windowing unit 159 for applying a time window to the time domain signal for each frame, and performing frame superposition on the windowed output. And a frame superimposing section 161 for obtaining a reproduced audio signal and outputting the signal to an output terminal 191.
[0038]
In the encoder 110 shown in FIG. 10, without providing the inverse normalization unit 131, the residual approximate shape calculation unit 123 uses the residual coefficient approximate shape E based on only the output of the normalization unit 122. R (F) and index I Q In this case, in the decoder 150, the residual approximate calculation unit 155 calculates the index I Q Residual E based on R Is calculated.
[0039]
Next, an example in which the present invention is applied to auditory masking of CELP (Code-Excited Linear Prediction) encoding, which is an encoding method in the time domain, will be described. In CELP coding, since auditory masking is performed in the time domain, the auditory weighting according to the present invention is applied in the frequency domain, and the obtained auditory weights are returned to the time domain and then applied to quantization. FIG. 11 is a block diagram illustrating a configuration of a signal encoding device that performs such encoding.
[0040]
The apparatus shown in FIG. 11 includes an FFT unit 38 that performs an FFT (Fast Fourier Transform) on an input signal, a spectrum envelope estimation unit 35 that estimates a spectrum envelope based on an output (frequency-domain signal sequence) of the FFT unit, A perceptual weight calculating unit 36 for calculating perceptual weight from the estimated spectral envelope, an inverse FFT unit 39 for returning the perceptual weight to the time domain, and performing CELP encoding of the input signal based on the perceptual weight in the time domain. , And a CELP encoding unit 40 that outputs an index. In this signal encoding device, the FFT unit 38 corresponds to the T / F conversion unit 11 of the signal encoding device shown in FIG. 1, and the spectrum envelope estimating unit 35 is an envelope calculating unit of the device shown in FIG. 13 and the peak / valley estimating unit 14, and the auditory weight calculating unit 36 includes the weighting unit 15 and the auditory weight calculating unit 16 of the apparatus shown in FIG.
[0041]
FIG. 12 shows an example in which the auditory weighting of the present invention is applied to the speech encoding apparatus disclosed in FIG. 1 of JP-A-6-282298. The speech coding apparatus illustrated in FIG. 12 divides a speech signal input via an input terminal 201 into frames, performs linear prediction analysis, and determines a prediction coefficient, a prediction coefficient determination unit 202, a synthesis filter 203, A prediction coefficient quantization unit 204 that quantizes the prediction coefficients and sets the prediction coefficients in the synthesis filter 203; an adaptive codebook 217 that stores a plurality of pitch period vectors; and a noise codebook 218 that stores a plurality of noise waveform vectors. A gain codebook 219 having a gain section 219a for adding gain to the pitch period vector selected from the adaptive codebook 217 and a gain section 219b for adding gain to the noise waveform vector selected from the noise codebook 218; A prediction gain determination unit 215 for obtaining a prediction gain of the next noise waveform vector based on the past output power of A prediction gain unit 216 provided on the input side for adding the prediction gain to a selected noise waveform vector, an adder 209 for adding an output vector from the gain units 219a and 219b and supplying the resultant to the synthesis filter 203 as a drive vector; A subtractor 211 that subtracts the output (synthesized speech vector) of the synthesis filter 203 from the input speech vector (input signal) and outputs the resulting data as distortion data; an auditory weighting filter 220 that performs auditory weighting on the distortion data; And a code output unit 213 that calculates a distortion power based on the distortion data and selects each of the codebooks 217 to 219 so as to minimize the distortion power, and a code output unit 213 that outputs a code. ing.
[0042]
When performing the hearing weighting based on the present invention in this speech coding device, the signal coding device shown in FIG. 11 described above may be used as the hearing weighting filter 220 here or in combination with the hearing weighting filter 220. Good. Thus, the auditory weighting based on the present invention is performed on the distortion data. Further, although not described here with reference to the drawings, in the speech encoding apparatus disclosed in FIG. 2 of JP-A-6-282298, the signal encoding apparatus shown in FIG. Those modified as described above can be used.
[0043]
The above-described signal encoding method and apparatus according to the present invention can also be implemented by causing a computer (computer) to read a computer program for realizing the method and executing the program. A program for performing signal encoding is read into a computer by a recording medium such as a magnetic tape or a CD-ROM, or via a network. FIG. 13 is a block diagram illustrating a configuration of a computer that executes the above-described signal encoding method.
[0044]
The computer includes a central processing unit (CPU) 21, a hard disk device 22 for storing programs and data, a main memory 23, an input device 24 such as a keyboard, a mouse, and a microphone, and a display device such as a CRT and a speaker. 25, a reading device 26 for reading a recording medium 27 such as a magnetic tape or a CD-ROM, and a communication interface 28 connected to a network. The hard disk device 22, main memory 23, input device 24, display device 25, reading device 26, and communication interface 28 are all connected to the central processing unit 21. Instead of the hard disk device 22, a nonvolatile semiconductor storage device such as a flash ROM may be used. The computer attaches a recording medium 27 storing a program for performing signal encoding to a reading device 26, reads the program from the recording medium 27, stores the program in the hard disk device 22, and executes the program stored in the hard disk device 22. The central processing unit 21 functions as a signal encoding device when executed. Of course, a program for performing signal encoding may be downloaded to this computer via a network.
[0045]
【The invention's effect】
As described above, according to the present invention, when encoding a speech / tone signal, auditory masking with higher accuracy than in the conventional method can be performed, and high-quality encoding can be performed. More specifically, when the time-series signal is converted into a frequency-domain coefficient sequence by, for example, an MDCT transform and quantized, the present invention is used to perceive a quantization error using human auditory masking characteristics. As a result, it is possible to perform the distribution on the frequency axis with higher accuracy than the conventional method.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a signal encoding device according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating a process of weighting peaks and valleys of a spectrum.
FIG. 3 is a block diagram illustrating details of processing in an envelope calculation unit.
FIG. 4 is a block diagram illustrating details of processing in a peak / valley estimating unit;
FIG. 5 is a diagram illustrating an example of a state of peaks and valleys in a spectrum envelope detected by a peak / valley estimating unit.
FIG. 6 is a diagram illustrating an example in which weighting is performed around peaks and valleys of a spectral envelope.
FIGS. 7A to 7D are diagrams illustrating examples of weighting functions for peaks and valleys;
FIG. 8 is a diagram illustrating a state in which quantization noise is masked into a spectral envelope by an auditory weighting process.
FIG. 9 is a block diagram illustrating an example of a configuration of a signal encoding device according to the present invention.
FIG. 10 is a block diagram illustrating an example of a configuration of an encoder and a decoder to which auditory weighting according to the present invention is applied.
FIG. 11 is a block diagram illustrating an example of a configuration of a signal encoding device.
FIG. 12 is a block diagram illustrating an example of a configuration of a signal encoding device.
FIG. 13 is a block diagram illustrating an example of a computer system used to configure the signal encoding device.
[Explanation of symbols]
11 T / F converter
12 Quantization unit
13 Envelope calculation unit
14 Mountain and valley estimator
15 Weighting unit
16 Auditory weight calculator

Claims (6)

入力信号に対して量子化を行う信号符号化方法であって、
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、
前記係数列に基づいてスペクトル包絡を算出する工程と、
前記スペクトル包絡における山・谷の位置を推定する工程と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、
前記量子化用聴覚重みに基づいて量子化を行う工程と、
を有し、
前記推定する工程、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の1階微分値を求めて2階微分値とする工程と、を有し、
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、
前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化方法。
A signal encoding method for performing quantization on an input signal,
Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
Calculating a spectral envelope based on the coefficient sequence;
Estimating the positions of the peaks and valleys in the spectral envelope,
In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
Performing quantization based on the auditory weights for quantization,
Has,
Wherein the step of estimating includes the steps of obtaining a first derivative of the spectral envelope, the steps of the second-order differential value seeking first-order differential value before Symbol first derivatives, a,
The step of weighting the information amount is to raise the vicinity of the hill higher and lower the vicinity of the valley deeply, or to lower the vicinity of the hill lower and lift the vicinity of the valley so as to be shallower, using a weighting function such as to lift the vicinity of the valley to be shallower. Having a step of performing a weighting operation on the position,
If the first-order differential value changes from a positive value to a negative value, and if the second-order differential value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first-order differential value is calculated. Is changed from a negative value to a positive value, and if the second derivative is always a positive value in the vicinity of the change, the frequency is set as a valley position.
入力信号に対して量子化を行う信号符号化方法であって、A signal encoding method for performing quantization on an input signal,
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する工程と、Calculating a spectral envelope based on the coefficient sequence;
前記スペクトル包絡における山・谷の位置を推定する工程と、Estimating the positions of the peaks and valleys in the spectral envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
前記量子化用聴覚重みに基づいて量子化を行う工程と、Performing quantization based on the auditory weights for quantization,
を有し、Has,
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の相加平均値を求める工程と、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とする工程と、前記2階微分値の相加平均値を求める工程と、を有し、The step of estimating includes a step of calculating a first derivative of the spectrum envelope, a step of calculating an arithmetic mean of the first derivative, and a step of calculating a first derivative of the arithmetic mean of the first derivative. Calculating a second derivative, and calculating an arithmetic mean of the second derivative,
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、The step of performing the information amount weighting is to raise the vicinity of the hill high and lower the vicinity of the valley deeply, or to lower the vicinity of the hill and raise the vicinity of the valley to be shallow and lift the valley / valley using a weighting function. Having a step of performing a weighting operation on the position,
前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化方法。If the arithmetic mean of the first derivative changes from a positive value to a negative value, and if the arithmetic mean of the second derivative is always negative near the change, the frequency is changed to If the arithmetic mean of the first derivative changes from a negative value to a positive value and the arithmetic mean of the second derivative is always a positive value in the vicinity of the change, For example, a signal encoding method in which the frequency is set as a valley position.
入力信号に対して量子化を行う信号符号化装置であって、
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る変換手段と、
前記係数列に基づいてスペクトル包絡を算出する包絡算出手段と、
前記スペクトル包絡における山・谷の位置を推定する山・谷推定手段と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う重み付け手段と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する聴覚重み算出手段と、
前記量子化用聴覚重みに基づいて量子化を行う量子化手段と、
を有し、
前記重み付け手段は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行い、
前記山・谷推定手段は、前記スペクトル包絡の1階微分値を求め、前記1階微分値の1階微分値を求めて2階微分値とし、前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化装置。
A signal encoding device that performs quantization on an input signal,
Conversion means for performing time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
An envelope calculating means for calculating a spectrum envelope based on the coefficient sequence,
Mountain and valley estimating means for estimating the position of the mountain and valley in the spectrum envelope,
In the spectral envelope, weighting means for weighting the amount of information to the estimated position of the peaks and valleys,
Based on the information-weighted spectral envelope, an auditory weight calculation unit that calculates an auditory weight for quantization,
Quantizing means for performing quantization based on the auditory weight for quantization,
Has,
The weighting means weights the positions of the peaks and valleys by using a weighting function that raises the vicinity of the mountain high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and raises the vicinity of the valley to be shallow. Do
The mountain-valley estimating means, a first-order differential value of the spectral envelope required, in search of first-order differential value before Symbol first-order differential value and second-order differential value, before Symbol first-order differential value from a positive value If the second derivative value changes to a negative value and the second derivative value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first derivative value changes from a negative value to a positive value. And if the second derivative is always a positive value in the vicinity of the change, the frequency is set to a valley position.
入力信号に対して量子化を行う信号符号化装置であって、A signal encoding device that performs quantization on an input signal,
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る変換手段と、Conversion means for performing time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する包絡算出手段と、An envelope calculating means for calculating a spectrum envelope based on the coefficient sequence,
前記スペクトル包絡における山・谷の位置を推定する山・谷推定手段と、Mountain and valley estimating means for estimating the position of the mountain and valley in the spectrum envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う重み付け手段と、In the spectral envelope, weighting means for weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する聴覚重み算出手段と、Based on the information-weighted spectral envelope, perceptual weight calculating means for calculating perceptual weight for quantization,
前記量子化用聴覚重みに基づいて量子化を行う量子化手段と、Quantizing means for performing quantization based on the auditory weight for quantization,
を有し、Has,
前記重み付け手段は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行い、The weighting means weights the positions of the peaks and valleys by using a weighting function that raises the vicinity of the mountain high and lowers the vicinity of the valley deeply, or lowers the vicinity of the mountain and raises the vicinity of the valley to be shallow. Do
前記山・谷推定手段は、前記スペクトル包絡の1階微分値を求め、前記1階微分値の相加平均値を求め、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とし、前記2階微分値の相加平均値を求め、前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化装置。The peak / valley estimating means obtains a first derivative of the spectrum envelope, obtains an arithmetic mean of the first derivative, and obtains a first derivative of the arithmetic mean of the first derivative. An arithmetic mean of the second-order differential value is obtained, and the arithmetic mean value of the first-order differential value changes from a positive value to a negative value. If the arithmetic mean of the first derivative is always a negative value, the frequency is regarded as a peak position, and the arithmetic mean of the first derivative changes from a negative value to a positive value; If the arithmetic mean value of the second order differential value is always a positive value in the vicinity of, the frequency is set as a valley position.
計算機が読取り可能な記録媒体であって、
前記計算機に、
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、
前記係数列に基づいてスペクトル包絡を算出する工程と、
前記スペクトル包絡における山・谷の位置を推定する工程と、
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、
前記量子化用聴覚重みに基づいて量子化を行う工程と、
を実行させ、
前記推定する工程、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の1階微分値を求めて2階微分値とする工程と、を有し、
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、
前記1階微分値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値が常に正の値ならば、その周波数を谷の位置とする、信号符号化プログラムを記録した記録媒体。
A computer-readable recording medium,
In the calculator,
Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
Calculating a spectral envelope based on the coefficient sequence;
Estimating the positions of the peaks and valleys in the spectral envelope,
In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
Performing quantization based on the auditory weights for quantization,
And execute
Wherein the step of estimating includes the steps of obtaining a first derivative of the spectral envelope, the steps of the second-order differential value seeking first-order differential value before Symbol first derivatives, a,
The step of weighting the information amount is to raise the vicinity of the hill higher and lower the vicinity of the valley deeply, or to lower the vicinity of the hill lower and lift the vicinity of the valley so as to be shallower, using a weighting function such as to lift the vicinity of the valley to be shallower. Having a step of performing a weighting operation on the position,
If the first-order differential value changes from a positive value to a negative value, and if the second-order differential value is always a negative value in the vicinity of the change, the frequency is regarded as a peak position, and the first-order differential value is calculated. recording medium but changes from a negative value to a positive value, and, if always a positive value the second order derivative in the vicinity of said change, that in which the frequency and location of the valley, to record the signal encoding program .
計算機が読取り可能な記録媒体であって、A computer-readable recording medium,
前記計算機に、In the calculator,
前記入力信号に対して時間軸/周波数軸変換を行って周波数軸上の係数列を得る工程と、Performing a time axis / frequency axis conversion on the input signal to obtain a coefficient sequence on a frequency axis;
前記係数列に基づいてスペクトル包絡を算出する工程と、Calculating a spectral envelope based on the coefficient sequence;
前記スペクトル包絡における山・谷の位置を推定する工程と、Estimating the positions of the peaks and valleys in the spectral envelope,
前記スペクトル包絡において、推定された山・谷の位置へ情報量重み付けを行う工程と、In the spectral envelope, a step of weighting the amount of information to the estimated position of the peaks and valleys,
情報量重み付けされたスペクトル包絡に基づいて、量子化用聴覚重みを算出する工程と、Calculating the auditory weight for quantization based on the information-weighted spectral envelope;
前記量子化用聴覚重みに基づいて量子化を行う工程と、Performing quantization based on the auditory weights for quantization,
を実行させ、And execute
前記推定する工程は、前記スペクトル包絡の1階微分値を求める工程と、前記1階微分値の相加平均値を求める工程と、前記1階微分値の相加平均値の1階微分値を求めて2階微分値とする工程と、前記2階微分値の相加平均値を求める工程と、を有し、The step of estimating includes a step of calculating a first derivative of the spectrum envelope, a step of calculating an arithmetic mean of the first derivative, and a step of calculating a first derivative of the arithmetic mean of the first derivative. Calculating a second derivative, and calculating an arithmetic mean of the second derivative,
前記情報量重み付けを行う工程は、山の付近を高く持ち上げ谷の付近を深く下げるか、または山の付近を低く下げ谷の付近を浅くなるように持ち上げるような重み関数を用いて山・谷の位置へ重み付け操作を行う工程を有し、The step of performing the information amount weighting is to raise the vicinity of the hill high and lower the vicinity of the valley deeply, or to lower the vicinity of the hill and raise the vicinity of the valley to be shallow and lift the valley / valley using a weighting function. Having a step of performing a weighting operation on the position,
前記1階微分値の相加平均値が正の値から負の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に負の値ならば、その周波数を山の位置とし、前記1階微分値の相加平均値が負の値から正の値に変化し、かつ、該変化の近傍で前記2階微分値の相加平均値が常に正の値ならば、その周波数を谷の位置とする、信号符号化プログラムを記録した記録媒体。If the arithmetic mean of the first derivative changes from a positive value to a negative value, and if the arithmetic mean of the second derivative is always negative near the change, the frequency is changed to If the arithmetic mean of the first derivative changes from a negative value to a positive value and the arithmetic mean of the second derivative is always a positive value in the vicinity of the change, For example, a recording medium on which a signal encoding program is recorded with its frequency being a valley position.
JP2000318017A 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program Expired - Fee Related JP3590342B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000318017A JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000318017A JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Publications (2)

Publication Number Publication Date
JP2002123298A JP2002123298A (en) 2002-04-26
JP3590342B2 true JP3590342B2 (en) 2004-11-17

Family

ID=18796710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000318017A Expired - Fee Related JP3590342B2 (en) 2000-10-18 2000-10-18 Signal encoding method and apparatus, and recording medium recording signal encoding program

Country Status (1)

Country Link
JP (1) JP3590342B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107210042A (en) * 2015-01-30 2017-09-26 日本电信电话株式会社 Code device, decoding apparatus, their method, program and recording medium

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE394774T1 (en) * 2004-05-19 2008-05-15 Matsushita Electric Ind Co Ltd CODING, DECODING APPARATUS AND METHOD THEREOF
JP4761506B2 (en) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 Audio processing method and apparatus, program, and audio system
JP4556866B2 (en) * 2005-12-27 2010-10-06 日本ビクター株式会社 High efficiency encoding program and high efficiency encoding apparatus
KR101411900B1 (en) * 2007-05-08 2014-06-26 삼성전자주식회사 Method and apparatus for encoding and decoding audio signal
JP5047900B2 (en) * 2008-08-01 2012-10-10 ヤマハ発動機株式会社 Utterance section detector
WO2011086923A1 (en) * 2010-01-14 2011-07-21 パナソニック株式会社 Encoding device, decoding device, spectrum fluctuation calculation method, and spectrum amplitude adjustment method
JP6160072B2 (en) 2012-12-06 2017-07-12 富士通株式会社 Audio signal encoding apparatus and method, audio signal transmission system and method, and audio signal decoding apparatus
CA3029033C (en) 2013-04-05 2021-03-30 Dolby International Ab Audio encoder and decoder
PL3594945T3 (en) * 2014-05-01 2021-05-04 Nippon Telegraph And Telephone Corporation Coding of a sound signal
CN110444216B (en) * 2014-05-01 2022-10-21 日本电信电话株式会社 Decoding device, decoding method, and recording medium
US11468905B2 (en) * 2016-09-15 2022-10-11 Nippon Telegraph And Telephone Corporation Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107210042A (en) * 2015-01-30 2017-09-26 日本电信电话株式会社 Code device, decoding apparatus, their method, program and recording medium

Also Published As

Publication number Publication date
JP2002123298A (en) 2002-04-26

Similar Documents

Publication Publication Date Title
US10236015B2 (en) Encoding device and method, decoding device and method, and program
US9659573B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9691410B2 (en) Frequency band extending device and method, encoding device and method, decoding device and method, and program
USRE43191E1 (en) Adaptive Weiner filtering using line spectral frequencies
US5706395A (en) Adaptive weiner filtering using a dynamic suppression factor
JP5127754B2 (en) Signal processing device
JP3590342B2 (en) Signal encoding method and apparatus, and recording medium recording signal encoding program
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
TWI524332B (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP4382808B2 (en) Method for analyzing fundamental frequency information, and voice conversion method and system implementing this analysis method
JP5443547B2 (en) Signal processing device
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
JP3186013B2 (en) Acoustic signal conversion encoding method and decoding method thereof
JP3349858B2 (en) Audio coding device
JP3390923B2 (en) Audio processing method
WO2001024164A1 (en) Voice encoder, voice decoder, and voice encoding and decoding method
JPH0990998A (en) Acoustic signal conversion decoding method
TW201443888A (en) Apparatus and method for generating a frequency enhancement signal using an energy limitation operation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20031222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040510

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040819

R150 Certificate of patent or registration of utility model

Ref document number: 3590342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080827

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090827

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100827

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110827

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120827

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees