JP3984021B2 - Speech / acoustic signal encoding method and electronic apparatus - Google Patents

Speech / acoustic signal encoding method and electronic apparatus Download PDF

Info

Publication number
JP3984021B2
JP3984021B2 JP2001328061A JP2001328061A JP3984021B2 JP 3984021 B2 JP3984021 B2 JP 3984021B2 JP 2001328061 A JP2001328061 A JP 2001328061A JP 2001328061 A JP2001328061 A JP 2001328061A JP 3984021 B2 JP3984021 B2 JP 3984021B2
Authority
JP
Japan
Prior art keywords
signal
weight information
encoding
distortion
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001328061A
Other languages
Japanese (ja)
Other versions
JP2003131699A (en
Inventor
公生 三関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001328061A priority Critical patent/JP3984021B2/en
Publication of JP2003131699A publication Critical patent/JP2003131699A/en
Application granted granted Critical
Publication of JP3984021B2 publication Critical patent/JP3984021B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声/音響信号の符号化方法及び電子装置に関するものである。
【0002】
【従来の技術】
音声信号を圧縮符号化する方法としてCELP(Code-Excited Linear Prediction)方式が知られている[“Code-Excited Linear Prediction(CELP):High-quality Speech at Very Low Rates”Proc.ICASSP'85,25,1.1.pp.937−940,1985年]。
【0003】
CELP方式では、音声信号を合成フィルタとこれを駆動する音源信号に分けてモデル化している。符号化後の合成音声信号は音源信号を合成フィルタに通過させることにより生成される。
【0004】
音源信号は、過去の音源信号を格納する適応符号帳から生成される適応符号ベクトルと、雑音符号帳から生成される雑音符号ベクトルという2つの符号ベクトルを結合することにより生成される。
【0005】
適応符号ベクトルは主に有声音区間の音源信号の特徴であるピッチ周期による波形の繰返しを表わす役割がある。一方、雑音符号ベクトルは適応符号ベクトルでは表わしきれない音源信号に含まれる成分を補う役割を持ち、合成音声信号をより自然なものにするために用いられている。
【0006】
CELP方式では、音源信号の符号化は聴覚重み付けられた音声信号のレベルで歪を評価することにより、符号化歪が知覚されにくくなるようにしている点に特徴がある。符号化歪が知覚されにくくなるのは、音声信号のスペクトルの形状に符号化歪のスペクトルがマスクされるように聴覚重み付けが行なわれるためで、周波数マスキングを利用している。この場合の聴覚重み特性は、符号化区間毎に音声信号から求め、同一の符号化区間の中では同じ聴覚重み特性を用いて音源信号の符号化を行なっている。
【0007】
ここで符号化ビットレートを例えば音声信号の場合、4kbit/s程度にまで低下させると、音源信号を表現するために割り当てられるビット数が不足するため、符号化による歪が音として知覚されるようになる。結果として音がかすれたり、雑音が混じるなどの音質の劣化が顕著となってしまう。
【0008】
このためビットレートを低下させても高品質な合成音声を生成できる高効率の符号化が求められている。このような要求は音響信号の符号化についても同様である。
【0009】
【発明が解決しようとする課題】
上記したように従来の音声/音響信号の符号化方法では、聴覚重み特性は符号化区間毎に音声信号から求め、符号化区間の中で同じ聴覚重み特性を用いて音源信号の符号化を行なっているため、低ビットレートでは高品質の合成音声が得難いという問題点があった。
【0010】
本発明は以上の点を考慮してなされたもので、低ビットレートでも高品質な音声信号/音響信号を生成できる音声/音響信号の符号化方法及び電子装置を提供することにある。
【0011】
【課題を解決するための手段】
上記の目的を達成するために、本発明の第1の態様は、音源信号を合成フィルタに通過させることにより合成音信号を生成する音声/音響信号の符号化方法であって、入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号の大きいサンプル位置において合成音信号と目標とする音信号との歪をより小さくするための位置重み情報を取得する重み情報取得ステップと、合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した重み情報を用いて重み付けして評価する評価ステップと、前記評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップと
を具備する。
【0012】
また、本発明の第2の態様は、音源信号を合成フィルタに通過させることにより合成音信号を生成する音声/音響信号の符号化方法であって、入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号の振幅または振幅の大きさを代表する関数値の評価を行う第1の評価ステップと、前記第1の評価ステップによる振幅または関数値の大きいサンプル位置において、歪をより小さくするための位置重み情報を取得する重み情報取得ステップと、合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した位置重み情報を用いて重み付けして評価する第2の評価ステップと、前記第2の評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップとを具備する。
【0013】
また、本発明の第3の態様は、音源信号を合成フィルタに通過させることによる合成音信号を生成する音声/音響信号の符号化方法であって、入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号の振幅または振幅の大きさを代表する関数値を評価し、前記振幅または関数値が大きいサンプル位置に関して、大きな重み値に相当する第1の位置重み情報を取得し、前記振幅または関数値が小さいサンプル位置に関して、前記第1の位置重み情報と異なる、小さな重み値に相当する第2の位置重み情報を取得する重み情報取得ステップと、合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した前記第1及び第2の重み情報を用いて重み付けして評価する評価ステップと、前記評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップとを具備する。
【0014】
また、本発明の第4の態様は、第1から第3のいずれか1つの態様において、前記音源信号のパラメータは、前記音源信号を求めるために用いられる適応符号帳または雑音符号帳を探索するための情報である。
【0015】
また、本発明の第5の態様は、第1から第のいずれか1つの態様において、前記入力信号から得られる時系列信号は、予測残差信号、当該予測残差信号の模擬信号のいずれかである。
【0016】
また、本発明の第6の態様は、第1から第5のいずれか1つの態様において、前記位置重み情報と聴覚重みとを用いて前記音源信号のパラメータを選択する。
【0017】
また、本発明の第7の態様は、電子装置であって、音声/音響信号を入力するための入力部と、前記入力部を介して入力された音声/音響信号に対して符号化処理を施す符号化部と、前記符号化部で符号化された音声/音響信号を送信する送信部と、符号化された音声/音響信号を受信する受信部と、前記受信部を介して受信された音声/音響信号に対して復号化処理を施す復号化部と、前記復号化部で復号化された音声/音響信号を出力する出力部と、を具備し、前記符号化部は、第1の態様から第6の態様のいずれか1つに記載の符号化方法を実行する。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。
【0019】
図1は、本発明の音声/音響信号の符号化方法の骨子となる構成をブロック図に表したものである。ここでは音声信号のCELP符号化に本発明を適用した例を説明することにする。
【0020】
マイクなどの音声入力手段(図示せず)から入力された音声はA/D変換を施されて離散的な音声信号として入力端子100から所定の時間区間毎に入力される。通常この時間区間は10〜30ms程度の長さが用いられ、フレーム長と呼ばれることがある。
【0021】
CELP方式では音声の生成過程のモデルとして声帯信号を音源信号に対応させ、声道が表すスペクトル包絡特性を合成フィルタにより表し、音源信号を合成フィルタに入力させ、合成フィルタの出力で音声信号を表現する。本発明は、入力音声信号と合成音声信号との波形歪みが聴覚的に小さくなるように音源信号の符号化を行うところはCELP方式と同じであるが、符号帳探索で用いる波形歪みの計算に位置重みを導入している点が従来と異なる。
【0022】
すなわち、ここで説明する本発明によるCELP符号化は、スペクトルパラメータ符号帳探索部911、適応符号帳探索部912、雑音符号帳探索部913、ゲイン符号帳探索部914のほかに、残差信号計算部120と位置重み制御部910とを用いて符号化を行なう。各符号帳探索部で探索されたインデックス情報は符号化データ出力部915から音声符号化データとして出力される。
【0023】
以下に、図1の音声符号化の中の個々の符号帳探索部の機能について説明して行く。
【0024】
スペクトルパラメータ符号帳探索部911は入力端子100から音声信号をフレーム毎に入力し、予め用意しているスペクトルパラメータ符号帳を探索して、入力された音声信号のスペクトル包絡をより良く表現することのできる符号帳のインデックス(スペクトルパラメータ符号)Aを選択し、このインデックスを符号化データ出力部915へ出力する。通常、CELP方式ではスペクトル包絡を符号化する際に用いるスペクトルパラメータとしてLSP(Line Spectrum Pair)パラメータを用いるが、これに限られるものではなく、スペクトル包絡を表現できるパラメータであれば他のパラメータも有効である。
【0025】
残差信号計算部120は音声信号とスペクトルパラメータ符号帳探索部911からのスペクトルパラメータを用いて残差信号を計算する。具体例としては、スペクトルパラメータをLPC係数に変換し、これを用いた予測フィルタA(z)で音声信号をフィルタリングすることにより予測残差信号r(n)を求める。予測残差信号r(n)の詳細な求め方は公知なので、ここでは説明を省略する。予測残差信号は残差信号と呼ばれることもある。以降の説明では残差信号と呼ぶことにする。
【0026】
位置重み制御部910は音声信号から得られた残差信号をもとに位置重みを求め、これを適応符号帳探索部912、雑音符号帳探索部913、ゲイン符号帳探索部914にそれぞれ出力すると共に、それぞれの符号帳で位置重みが歪み評価値に反映されるように各符号帳の探索部912,913,914を制御する。
【0027】
図2及び図3は、本実施形態の方法により音声信号から位置重みを求める手順を説明するための図である。
【0028】
図2(A)は符号化前の音声信号の離散波形例である。同図ではサンプル位置n=iの音声信号の波形振幅をs(i)と表している。図2(B)は残差信号計算部120において図2(A)の音声信号から求めた残差信号の波形例である。残差信号は音声信号を予測したときの誤差信号であるから、残差信号の振幅が他に比べて大きな位置は予測によって十分表現できなかった位置であるということができる。そしてその位置は、他の振幅が小さな位置に比べ、予測によって表現できない音声の特徴がより多く含まれている位置であると考えられる。従って、残差信号の振幅が他に比べて大きな位置を他の位置より精度良く(即ち歪みを少なく)符号化する仕組みを音源信号の符号化に導入することにより、より高品質の合成音声を提供することが可能となる。
【0029】
本発明は、残差信号を基に、その特徴をとらえることにより、どの位置で歪みをより小さくするべきかを分析し、そのような位置では歪み評価のペナルティーが大きくなるように、位置重みを相対的に大きく設定する。
【0030】
ここでは図2(C)を参照しながら、残差信号から位置重みを設定する方法の一例を説明する。同図では、残差信号の各位置における絶対値振幅と所定の方法で決まるしきい値49とを比較し、その大小関係で位置重みを設定する最も簡単な方法を示している。すなわち、各位置における残差信号の絶対値振幅がしきい値49よりも小さいならば位置重みを相対的に小さく設定し、逆に、絶対値振幅がしきい値49よりも大きいならば位置重みを相対的に大きく設定する。実際、図2(C)の例では、50で示す絶対値振幅はしきい値49よりも小さいのでこの位置の位置重みは相対的に小さく設定され、51で示す絶対値振幅はしきい値49よりも大きいのでこの位置の位置重みは相対的に大きく設定される。
【0031】
なお、しきい値は、例えば、残差信号の2乗和平均の平方根や絶対値平均を基に決めることができる。残差信号の振幅を正規化したものを用いて位置重みを設定するのであれば、しきい値はほぼ固定値とすることが可能であるが、これに限られるものではない。
【0032】
図3(A)はこの結果得られる位置重みv(n)の例を示す。この例では、位置重みv(n)はすべて同一の極性(この図ではすべて正:v(n)>0)を持っている。このことは、位置重みがサンプル位置nに対して決まる重み関数であることを示している。サンプル位置nはサンプリングされた時系列信号の位置nを示すものであるから、本発明で言う位置nとは、時間n、または時刻nと考えてよい。従って、位置に関する重みv(n)は対象とする符号化の区間内のサンプル位置に関する位置重みであると言えるし、この区間内で定義される時刻nに関する時間重み(または時刻重み)であると言ってもよい。このような時間位置に関する重み付けは、時系列信号の個々のサンプル毎に乗じるように定義される重み付けであって、従来の聴覚重み付けで用いるフィルタ演算や畳み込み演算によって実現される重み付けとは全く異なる重み付けである。
【0033】
図3(B)は残差信号の絶対値振幅が非常に小さい位置での位置重みをより小さな値に設定する方法も取り入れ、位置重みの大きさを3種類に設定した例である。例えば、同図で位置重みv(21)の値が図3(A)のv(21)の値より小さくなっているのは、位置n=21での残差信号の絶対値振幅が非常に小さいことを反映している。
【0034】
位置重みの別な設定方法としては、残差信号r(n)または残差信号を正規化した信号を用いて、その絶対値を量子化したものを位置重みv(n)とすることができる。即ち、v(n)=Q[abs(r(n))]とする。ここで、abs( )は絶対値を表す関数、Q[x]は所定の量子化器Qにxを入力したときの量子化出力を表す。量子化出力が2値の量子化器を用いる構成にした場合は、図3(A)と同様に2種類の大きさの位置重み設定をすることができる。同様に、量子化出力が3値の量子化器を用いる構成にした場合は、図3(B)と同様に3種類の大きさの位置重み設定をすることができる。位置重みの大きさの設定の種類は4種類以上であってもよい。
【0035】
また、別な位置重みの設定方法としては、r(n)の代わりに残差信号の2乗信号{r(n)}2を用いて上記の例に示した方法で位置重みを設定することも可能である。
【0036】
このように位置重みの設定方法としては様々なものが考えられるが、要は、位置毎の重要度を位置重みに反映できるような仕組みになっていればよく、どのような位置重みの決め方であっても本発明に含まれる。
【0037】
ここで図1に戻って説明を続ける。
【0038】
適応符号帳探索部912は音源信号の中のピッチ周期で繰り返す成分を表現するために用いる。CELP方式では、符号化された過去の音源信号を所定の長さだけ適応符号帳として格納し、これを音声符号化部と音声復号化部の両方で持つことにより、指定されたピッチ周期に対応して繰り返す信号を適応符号帳から引き出すことができる構造になっている。適応符号帳では符号帳からの出力信号とピッチ周期が一対一に対応するためピッチ周期を適応符号帳のインデックスに対応させることができる。
【0039】
このような構造の下、適応符号帳探索部912では、符号帳からの出力信号を合成フィルタで合成したときの合成信号と目標とする音声信号との歪みを、位置重み制御部910からの位置重みで重み付けしたレベルで評価し、その歪みが小さくなるようなピッチ周期を探索する。そして、探索されたインデックス(適応符号)Lを符号化データ出力部915へ出力する。上記の重み付けは、位置重みと従来の聴覚重みの両方を用いることでより効果的に歪みが聞こえにくい符号を選択することができる効果がある。
【0040】
雑音符号帳探索部913は音源信号の中の雑音的な成分を表現するために用いる。CELP方式では、音源信号の雑音成分は雑音符号帳を用いて表される。指定されたインデックスに対応して雑音符号帳から雑音的な信号あるいはパルス的な信号を引き出すことができる構造になっている。
【0041】
なお、本実施形態では雑音符号帳と書き表すが、この符号帳が表わす雑音信号は必ずしもいわゆる雑音的なものである必要のないことは言うまでもない。例えば、雑音符号帳が代数符号帳(Algebraic Codebook)のようにパルス的な音源信号を生成する符号帳であっても構わない。代数符号帳は予め定められた数のパルスの振幅を+1,−1に限定し、パルスの位置情報と極性情報の組合せで符号ベクトルを表わす符号帳である。
【0042】
代数符号帳の特徴としては、符号ベクトルそのものを直接には格納する必要がないため符号帳を表わすメモリ量が少なくて済み、符号ベクトルを選択するための計算量が少ないにもかかわらず、比較的高品質に音源情報に含まれる雑音成分を表わすことができることが挙げられる。このように音源信号の符号化に代数符号帳を用いるものはACELP方式、ACELPベースの方式と呼ばれ、比較的歪の少ない合成音声が得られることが知られている。
【0043】
このような構造の下、雑音符号帳探索部913では、符号帳からの出力信号を用いて再生される合成音声信号と雑音符号帳探索部913において目標となる音声信号との歪みを、位置重み制御部910からの位置重みで重み付けしたレベルで評価し、その歪みが小さくなるようなインデックス(雑音符号)Cを探索する。
【0044】
位置重みv(n)を用いて雑音符号帳のインデックス(雑音符号)を選択するための方法の一例は、以下の歪みDvを最小とする雑音符号ベクトルckのインデックスkを選択することである。
【0045】
Dv=Σ[v(n){X(n)−gHck(n)}]2 (1)
ここでX(n)は目標信号、gはゲイン、Hは合成音声信号を生成するためのインパルス応答行列、ck(n)は雑音符号ベクトルの位置nにおける要素である。このように定義すると、再生される合成音声信号はgHck(n)で表すことができる。従来法では目標信号と再生される合成音声信号との誤差信号{X(n)−gHck(n)}の2乗和が最小となるように雑音符号ベクトルckのインデックスkを選択するという原理に基づいて符号選択を行なっている。
【0046】
ここでは、目標信号と再生される合成音声信号との誤差信号{X(n)−gHck(n)}の位置n毎に位置重みv(n)を乗じた、位置重み付きの誤差(位置重み付きの歪み)v(n){X(n)−gHck(n)}の2乗和が最小となるように雑音符号ベクトルckのインデックスkを選択する。この際、使用する位置重みは、残差信号から求める方法もあるが、音声信号や聴覚重み付けられた音声信号から求めた位置重みを使用することもできる。
【0047】
残差信号の代わりに残差信号に比較的近い形状を有する模擬信号を用いることができる。このような残差信号の模擬信号としては、例えば、適応符号ベクトルが考えられ、適応符号ベクトルを残差信号の代わりに用いて位置重みを求めることも有効である。
【0048】
そして、探索された雑音符号Cを符号化データ出力部915へ出力する。上記の重み付けは、位置重みと従来の聴覚重み付けを組み合わせることでより効果的に歪みが聞こえにくい符号を選択することができる効果がある。
【0049】
次にゲイン符号帳探索部914は音源信号のゲイン成分を表現するために用いる。典型的なCELP方式では、ピッチ成分に用いるゲインと雑音成分に用いるゲインの2種類のゲインをゲイン符号帳探索部914で符号化する。符号帳探索においては、符号帳から引き出されるゲイン候補を用いて再生される合成音声信号と目標とする音声信号との歪みを、位置重み制御部910からの位置重みで重み付けしたレベルで評価し、その歪みが小さくなるようなインデックス(ゲイン符号)Gを探索する。そして、探索されたゲイン符号Gを符号化データ出力部915へ出力する。上記の重み付けは、位置重みと従来の聴覚重みの両方を用いることでより効果的に歪みが聞こえにくい符号を選択することができる効果がある。
【0050】
符号化データ部915は符号化データを音声符号化データとして出力する。
【0051】
ここでは適応符号帳探索、雑音符号帳探索、ゲイン符号帳探索の3つの符号帳の探索のそれぞれに位置重みを用いる方法を説明したが、本発明はこれに限られるものではなく、様々な変形例が可能であることはいうまでもない。例えば、雑音符号帳探索にだけ位置重みを用いる方法も有効である。
【0052】
以上で図1の音声符号化の説明を終わる。
【0053】
図4は本発明の一実施形態に係る符号化方法を説明するためのフローチャートである。
【0054】
所定の符号化区間毎に音声信号を入力し(ステップS1)、スペクトルパラメータ符号帳探索を行ない(ステップS2)、音声信号から残差信号を求める(ステップS3)。次に、求めた残差信号の各振幅値r(n)の相対的な大小関係に応じ、各位置nの位置重みv(n)を設定する(ステップS4)。そして、位置重みv(n)を用いて適応符号帳探索を行ない(ステップS5)、次に、位置重みv(n)を用いて雑音(代数)符号帳探索を行ない(ステップS6)、位置重みv(n)を用いてゲイン符号帳探索を行なう(ステップS7)。
【0055】
最後に、上記の探索により得られた符号A,L,C,Gを出力(ステップS8)する。そして次の符号化区間の符号化が必要かどうかを判断し(ステップS9)、必要がなければ符号化の処理を終了する。
【0056】
なお、上記したステップS4の処理の具体的な方法の一例は以下のようになる。
【0057】
r(n)からしきい値THを計算し、
|r(n)|>TH ならば v(n)=k1
|r(n)|≦TH ならば v(n)=k2
ここで、k1、k2はk1>k2>0
なる関係にすると絶対値振幅が大きい位置に大きな位置重みk1が設定されることになる。k1=k2とすると位置重みを用いないことになる。また、しきい値THは1種類としたが、TH1、TH2を使うなどして複数種類のしきい値を使ってより細かく位置重みの値を設定する方法も効果がある。
【0058】
以上で図4のフローチャートの説明を終わる。
【0059】
なお、本発明は、符号化側で行なうパラメータの符号選択に用いる重み付けに関するものなので、符号化で得られた各パラメータの符号を用いた復号化の方法は従来と同様である。ここでは図5を用いて復号化方法について簡単に説明する。
【0060】
図5において、符号化部からの符号化データは入力端子160から入力され、符号化データ分離部19において各符号A,L,C,Gに分離される。スペクトルパラメータ復号部14は、符号Aを基にスペクトルパラメータを再生する。適応音源復号部11は、符号Lを基に適応符号ベクトルを再生する。雑音音源復号部12は、符号Cを基に雑音符号ベクトルを再生する。ゲイン復号部13は、符号Gを基に、ゲインを再生する。音源再生部15では再生された適応符号ベクトル、雑音符号ベクトル、ゲインを用いて音源信号を再生する。
【0061】
合成フィルタ16は、スペクトルパラメータ復号部14で再生されたスペクトルパラメータを用いて合成フィルタを構成し、これに音源再生部15からの音源信号を通過させることにより、合成音声信号を生成する。ポストフィルタ17は、この合成音声信号に含まれる符号化歪みを整形して聞きやすい音となるようにするポストフィルタリング処理を行う。処理された合成音声信号は出力端子195から出力される。
【0062】
【発明の効果】
請求項1に記載の発明によれば、位置重みをパラメータの符号選択に導入することで重要な位置での符号化歪みが少なくなるような符号選択を行なうことができる。
【0063】
また、請求項2に記載の発明によれば、入力信号から得られる信号に基づいて位置重みを適応的に設定することができる。
【0064】
また、請求項3に記載の発明によれば、特定の位置だけに位置重みを用いるので、すべての位置に位置重みを設定する手間が不要となり、これによって計算量が減少する。
【0065】
また、請求項4に記載の発明によれば、請求項1から3のいずれか1つの発明の効果に加えて、位置重み付けの導入により、CELP系の音源信号の符号化においてピッチパルスなど音源信号の特徴がうまく表現できない問題を克服できる。
【0066】
また、請求項5に記載の発明によれば、請求項2から4のいずれか1つに記載の発明の効果が得られる。
【0067】
また、請求項6に記載の発明によれば、請求項1から5のいずれか1つの発明の効果に加えて、位置重みと従来の聴覚重みの両方を用いることで、より効果的に歪みが聞こえにくい符号を選択することができる。
【0068】
また、請求項7に記載の発明によれば、請求項1から6のいずれか1つの発明の効果が得られる。
【図面の簡単な説明】
【図1】本発明の音声/音響信号の符号化方法の骨子となる構成を示すブロック図である。
【図2】本実施形態の方法により音声信号から位置重みを求める手順を説明するための図(その1)である。
【図3】本実施形態の方法により音声信号から位置重みを求める手順を説明するための図(その2)である。
【図4】本発明の一実施形態に係る符号化方法を説明するためのフローチャートである。
【図5】復号化方法について説明するための図である。
【符号の説明】
100 入力端子
120 残差信号計算部
150 符号化データ
910 位置重み制御部
911 スペクトルパラメータ符号帳探索部
912 適応符号帳探索部
913 雑音符号帳探索部
914 ゲイン符号帳探索部
915 符号化データ出力部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio / acoustic signal encoding method and an electronic apparatus.
[0002]
[Prior art]
A CELP (Code-Excited Linear Prediction) system is known as a method for compressing and encoding an audio signal [“Code-Excited Linear Prediction (CELP): High-quality Speech at Very Low Rates” Proc.ICASSP'85, 25 1.1. pp. 937-940, 1985].
[0003]
In the CELP method, a speech signal is modeled by dividing it into a synthesis filter and a sound source signal for driving the synthesis filter. The encoded synthesized speech signal is generated by passing the sound source signal through a synthesis filter.
[0004]
The excitation signal is generated by combining two code vectors of an adaptive code vector generated from an adaptive code book that stores past excitation signals and a noise code vector generated from a noise code book.
[0005]
The adaptive code vector has a role of representing a repetition of a waveform with a pitch period, which is a characteristic of a sound source signal in a voiced sound section. On the other hand, the noise code vector has a role of supplementing components included in the sound source signal that cannot be represented by the adaptive code vector, and is used to make the synthesized speech signal more natural.
[0006]
The CELP system is characterized in that encoding of a sound source signal makes it difficult to perceive encoding distortion by evaluating distortion at the level of an audio signal weighted by auditory weight. The reason why the encoding distortion becomes difficult to perceive is because auditory weighting is performed so that the spectrum of the encoding distortion is masked in the shape of the spectrum of the audio signal, and frequency masking is used. The auditory weight characteristic in this case is obtained from the speech signal for each encoding section, and the sound source signal is encoded using the same auditory weight characteristic in the same encoding section.
[0007]
Here, when the encoding bit rate is reduced to, for example, about 4 kbit / s in the case of an audio signal, the number of bits allocated to express the sound source signal is insufficient, so that distortion due to encoding is perceived as sound. become. As a result, the deterioration of sound quality such as sound fading or noise mixing becomes remarkable.
[0008]
For this reason, there is a need for highly efficient encoding that can generate high-quality synthesized speech even when the bit rate is reduced. Such a requirement applies to the encoding of an acoustic signal.
[0009]
[Problems to be solved by the invention]
As described above, in the conventional speech / acoustic signal encoding method, the auditory weight characteristic is obtained from the speech signal for each encoding section, and the sound source signal is encoded using the same auditory weight characteristic in the encoding section. Therefore, there is a problem that it is difficult to obtain high-quality synthesized speech at a low bit rate.
[0010]
The present invention has been made in view of the above points, and it is an object of the present invention to provide a speech / acoustic signal encoding method and an electronic apparatus that can generate a high-quality speech signal / acoustic signal even at a low bit rate.
[0011]
[Means for Solving the Problems]
In order to achieve the above object, a first aspect of the present invention is an audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter, the input signal For the time series signal corresponding to the component that could not be predicted, , To reduce distortion between synthesized sound signal and target sound signal A weight information acquisition step for acquiring position weight information, an evaluation step for evaluating the distortion of the synthesized sound signal and the target sound signal by weighting using the weight information acquired in the weight information acquisition step, and the evaluation A code selection step for performing code selection of parameters of the sound source signal so that distortion between the synthesized sound signal and the target sound signal is reduced based on the evaluation result of the step;
It comprises.
[0012]
According to a second aspect of the present invention, there is provided an audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter. A time series signal corresponding to a component that could not be predicted for Amplitude or amplitude of time series signal Representing the size of A first evaluation step for evaluating a function value and a large amplitude or function value by the first evaluation step To reduce distortion at the sample position A weight information acquisition step for acquiring position weight information, and a second evaluation step for weighting and evaluating distortion between the synthesized sound signal and the target sound signal using the position weight information acquired in the weight information acquisition step. And a code selection step of selecting a code of a parameter of the sound source signal so as to reduce distortion between the synthesized sound signal and the target sound signal based on the evaluation result in the second evaluation step.
[0013]
According to a third aspect of the present invention, there is provided an audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter. A time series signal corresponding to a component that could not be predicted for Time-series signal amplitude or Represents the magnitude of the amplitude Evaluate the function value and with respect to the sample position where the amplitude or function value is large Corresponds to the weight value The first position weight information is obtained, and the first position weight information is obtained with respect to the sample position having a small amplitude or function value. Corresponds to a small weight value different from A weight information acquisition step for acquiring second position weight information, and a distortion between the synthesized sound signal and the target sound signal are weighted using the first and second weight information acquired in the weight information acquisition step. And a code selection step for selecting a code of a parameter of the sound source signal so that distortion between the synthesized sound signal and the target sound signal is reduced based on the evaluation result of the evaluation step. To do.
[0014]
According to a fourth aspect of the present invention, in any one of the first to third aspects, the parameter of the excitation signal searches for an adaptive codebook or a noise codebook used for obtaining the excitation signal. It is information for.
[0015]
Further, the fifth aspect of the present invention is the first to the first 4 In any one of the aspects, the time-series signal obtained from the input signal is either a prediction residual signal or a simulation signal of the prediction residual signal.
[0016]
According to a sixth aspect of the present invention, in any one of the first to fifth aspects, the parameter of the sound source signal is selected using the position weight information and the auditory weight.
[0017]
According to a seventh aspect of the present invention, there is provided an electronic device, comprising: an input unit for inputting a voice / acoustic signal; and an encoding process performed on the voice / acoustic signal input via the input unit. An encoding unit that performs the transmission, a transmission unit that transmits the audio / acoustic signal encoded by the encoding unit, a reception unit that receives the encoded audio / acoustic signal, and the reception unit received via the reception unit A decoding unit that performs a decoding process on the audio / acoustic signal; and an output unit that outputs the audio / acoustic signal decoded by the decoding unit. The encoding unit includes: The encoding method according to any one of the sixth to sixth aspects is executed.
[0018]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
[0019]
FIG. 1 is a block diagram showing the main structure of the speech / acoustic signal encoding method of the present invention. Here, an example in which the present invention is applied to CELP coding of an audio signal will be described.
[0020]
A voice input from a voice input means (not shown) such as a microphone is subjected to A / D conversion and is input as a discrete voice signal from the input terminal 100 at predetermined time intervals. Usually, this time interval has a length of about 10 to 30 ms and is sometimes called a frame length.
[0021]
In the CELP system, the vocal cord signal is made to correspond to the sound source signal as a model of the speech generation process, the spectral envelope characteristic represented by the vocal tract is represented by the synthesis filter, the sound source signal is input to the synthesis filter, and the speech signal is expressed by the output of the synthesis filter To do. The present invention is the same as the CELP method in that the sound source signal is encoded so that the waveform distortion between the input voice signal and the synthesized voice signal is aurally small, but the calculation of the waveform distortion used in the codebook search is performed. The point which introduces position weight is different from the past.
[0022]
That is, the CELP coding according to the present invention described here is not limited to the spectrum parameter codebook search unit 911, the adaptive codebook search unit 912, the noise codebook search unit 913, and the gain codebook search unit 914, but also calculates a residual signal. Coding is performed using the unit 120 and the position weight control unit 910. The index information searched by each codebook search unit is output from the encoded data output unit 915 as audio encoded data.
[0023]
The functions of the individual codebook search units in the speech encoding shown in FIG. 1 will be described below.
[0024]
The spectrum parameter codebook search unit 911 inputs a speech signal from the input terminal 100 for each frame, searches a spectrum parameter codebook prepared in advance, and better expresses the spectrum envelope of the input speech signal. A possible codebook index (spectrum parameter code) A is selected, and this index is output to the encoded data output unit 915. Usually, in the CELP method, an LSP (Line Spectrum Pair) parameter is used as a spectrum parameter used for encoding a spectrum envelope. However, the present invention is not limited to this, and other parameters can be used as long as they can express the spectrum envelope. It is.
[0025]
The residual signal calculation unit 120 calculates a residual signal using the speech signal and the spectral parameters from the spectral parameter codebook search unit 911. As a specific example, a prediction residual signal r (n) is obtained by converting a spectral parameter into an LPC coefficient and filtering a speech signal with a prediction filter A (z) using the LPC coefficient. Since the detailed method of obtaining the prediction residual signal r (n) is known, the description thereof is omitted here. The prediction residual signal is sometimes called a residual signal. In the following description, it will be called a residual signal.
[0026]
The position weight control unit 910 obtains a position weight based on the residual signal obtained from the speech signal, and outputs the position weight to the adaptive codebook search unit 912, the noise codebook search unit 913, and the gain codebook search unit 914, respectively. At the same time, the search units 912, 913, and 914 of each codebook are controlled so that the position weight is reflected in the distortion evaluation value in each codebook.
[0027]
2 and 3 are diagrams for explaining the procedure for obtaining the position weight from the audio signal by the method of the present embodiment.
[0028]
FIG. 2A shows an example of a discrete waveform of a speech signal before encoding. In the figure, the waveform amplitude of the audio signal at the sample position n = i is represented as s (i). FIG. 2B is an example of a waveform of the residual signal obtained from the audio signal of FIG. Since the residual signal is an error signal when a speech signal is predicted, it can be said that a position where the amplitude of the residual signal is larger than the others is a position that could not be expressed sufficiently by prediction. The position is considered to be a position that includes more speech features that cannot be expressed by prediction than other positions with small amplitudes. Therefore, by introducing a mechanism for encoding a position where the amplitude of the residual signal is larger than other positions more accurately than other positions (that is, with less distortion) in encoding the sound source signal, a higher quality synthesized speech can be obtained. It becomes possible to provide.
[0029]
In the present invention, by analyzing the characteristics of the residual signal based on the residual signal, it is analyzed at which position the distortion should be reduced, and the position weight is set so that the distortion evaluation penalty becomes large at such a position. Set relatively large.
[0030]
Here, an example of a method for setting the position weight from the residual signal will be described with reference to FIG. In the figure, the simplest method for comparing the absolute value amplitude at each position of the residual signal with the threshold value 49 determined by a predetermined method and setting the position weight based on the magnitude relationship is shown. That is, if the absolute value amplitude of the residual signal at each position is smaller than the threshold value 49, the position weight is set relatively small. Conversely, if the absolute value amplitude is larger than the threshold value 49, the position weight is set. Is set relatively large. In fact, in the example of FIG. 2C, since the absolute value amplitude indicated by 50 is smaller than the threshold value 49, the position weight at this position is set relatively small, and the absolute value amplitude indicated by 51 is the threshold value 49. Therefore, the position weight at this position is set to be relatively large.
[0031]
The threshold value can be determined based on, for example, the square root average of the residual signal or the average absolute value of the residual signal. If the position weight is set using the normalized amplitude of the residual signal, the threshold value can be set to a substantially fixed value, but is not limited thereto.
[0032]
FIG. 3A shows an example of the position weight v (n) obtained as a result. In this example, the position weights v (n) all have the same polarity (all positive in this figure: v (n)> 0). This indicates that the position weight is a weight function determined with respect to the sample position n. Since the sample position n indicates the position n of the sampled time series signal, the position n referred to in the present invention may be considered as time n or time n. Therefore, it can be said that the weight v (n) related to the position is a position weight related to the sample position in the target coding section, and is a time weight (or time weight) related to the time n defined in this section. I can say that. Such weighting relating to the time position is a weighting defined so as to be multiplied for each sample of the time series signal, and is completely different from the weighting realized by the filter operation or the convolution operation used in the conventional auditory weighting. It is.
[0033]
FIG. 3B is an example in which a method of setting the position weight at a position where the absolute value amplitude of the residual signal is very small is adopted to a smaller value, and the size of the position weight is set to three types. For example, in the figure, the position weight v (21) is smaller than the value of v (21) in FIG. 3A because the absolute value amplitude of the residual signal at position n = 21 is very large. Reflects the smallness.
[0034]
As another method of setting the position weight, the position weight v (n) can be obtained by quantizing the absolute value using the residual signal r (n) or a signal obtained by normalizing the residual signal. . That is, v (n) = Q [abs (r (n))]. Here, abs () represents a function representing an absolute value, and Q [x] represents a quantized output when x is input to a predetermined quantizer Q. When the quantizer output is configured to use a binary quantizer, position weights of two kinds of sizes can be set as in FIG. Similarly, in the case of using a quantizer with a three-value quantization output, three types of position weights can be set in the same manner as in FIG. There may be four or more types of position weight magnitude settings.
[0035]
As another method for setting the position weight, the square signal {r (n)} of the residual signal is used instead of r (n). 2 It is also possible to set the position weight by using the method shown in the above example.
[0036]
As described above, there are various methods for setting the position weight. In short, it is only necessary to have a mechanism that can reflect the importance of each position in the position weight. Even if it exists, it is included in this invention.
[0037]
Here, returning to FIG. 1, the description will be continued.
[0038]
The adaptive codebook search unit 912 is used to represent a component that repeats at a pitch period in the sound source signal. In the CELP method, the encoded past sound source signal is stored as an adaptive codebook for a predetermined length, and this is held in both the speech encoding unit and the speech decoding unit, thereby supporting the specified pitch period. Thus, the signal can be extracted from the adaptive codebook. In the adaptive codebook, since the output signal from the codebook and the pitch period correspond one to one, the pitch period can correspond to the index of the adaptive codebook.
[0039]
Under such a structure, adaptive codebook search section 912 uses distortion from position weight control section 910 as the distortion between the synthesized signal and the target speech signal when the output signal from the codebook is synthesized by the synthesis filter. Evaluation is performed at a level weighted by a weight, and a pitch period is searched so that the distortion is reduced. Then, the searched index (adaptive code) L is output to the encoded data output unit 915. The above weighting has an effect of selecting a code that is more effective in preventing distortion by using both the position weight and the conventional auditory weight.
[0040]
The noise codebook search unit 913 is used to represent a noisy component in the sound source signal. In the CELP system, the noise component of the sound source signal is expressed using a noise codebook. The structure is such that a noisy signal or a pulse-like signal can be extracted from the noise codebook corresponding to the specified index.
[0041]
In the present embodiment, it is written as a noise codebook, but it goes without saying that the noise signal represented by this codebook is not necessarily so-called noise. For example, the noise codebook may be a codebook that generates a pulsed excitation signal such as an algebraic codebook. The algebraic codebook is a codebook in which the amplitude of a predetermined number of pulses is limited to +1 and −1 and a code vector is represented by a combination of pulse position information and polarity information.
[0042]
As a feature of the algebraic codebook, since it is not necessary to store the code vector itself directly, the memory amount representing the codebook is small, and the calculation amount for selecting the code vector is relatively small. The noise component contained in sound source information can be expressed with high quality. As described above, what uses an algebraic codebook for encoding a sound source signal is called an ACELP system or an ACELP-based system, and it is known that synthesized speech with relatively little distortion can be obtained.
[0043]
Under such a structure, the noise codebook search unit 913 calculates the distortion between the synthesized speech signal reproduced using the output signal from the codebook and the target speech signal in the noise codebook search unit 913 by using position weights. Evaluation is performed at a level weighted by the position weight from the control unit 910, and an index (noise code) C that reduces the distortion is searched.
[0044]
One example of a method for selecting a noise codebook index (noise code) using the position weight v (n) is to select the index k of the noise code vector ck that minimizes the following distortion Dv.
[0045]
Dv = Σ [v (n) {X (n) −gHck (n)}] 2 (1)
Here, X (n) is a target signal, g is a gain, H is an impulse response matrix for generating a synthesized speech signal, and ck (n) is an element at position n of the noise code vector. If defined in this way, the synthesized speech signal to be reproduced can be represented by gHck (n). In the conventional method, the index k of the noise code vector ck is selected so that the square sum of the error signal {X (n) -gHck (n)} between the target signal and the synthesized speech signal to be reproduced is minimized. Based on this, code selection is performed.
[0046]
Here, an error with a position weight (position weight) obtained by multiplying a position weight v (n) for each position n of the error signal {X (n) −gHck (n)} between the target signal and the synthesized speech signal to be reproduced. The index k of the random code vector ck is selected so that the sum of squares of (additional distortion) v (n) {X (n) −gHck (n)} is minimized. At this time, the position weight to be used may be obtained from the residual signal, but the position weight obtained from the audio signal or the audio signal subjected to auditory weighting can also be used.
[0047]
Instead of the residual signal, a simulated signal having a shape relatively close to the residual signal can be used. As such a residual signal simulation signal, for example, an adaptive code vector is conceivable, and it is also effective to obtain a position weight by using the adaptive code vector instead of the residual signal.
[0048]
The searched noise code C is output to the encoded data output unit 915. The above weighting has an effect of selecting a code in which distortion is less likely to be heard more effectively by combining position weighting and conventional auditory weighting.
[0049]
Next, the gain codebook search unit 914 is used to express the gain component of the excitation signal. In a typical CELP system, the gain codebook search unit 914 encodes two types of gains, a gain used for pitch components and a gain used for noise components. In the codebook search, the distortion between the synthesized speech signal reproduced using the gain candidates extracted from the codebook and the target speech signal is evaluated at a level weighted by the position weight from the position weight control unit 910, An index (gain code) G that reduces the distortion is searched. The searched gain code G is output to the encoded data output unit 915. The above weighting has an effect of selecting a code that is more effective in preventing distortion by using both the position weight and the conventional auditory weight.
[0050]
The encoded data unit 915 outputs the encoded data as audio encoded data.
[0051]
Here, the method of using position weights for each of the three codebook searches of adaptive codebook search, noise codebook search, and gain codebook search has been described. However, the present invention is not limited to this, and various modifications are possible. It goes without saying that examples are possible. For example, a method using position weights only for noise codebook search is also effective.
[0052]
This is the end of the description of speech encoding in FIG.
[0053]
FIG. 4 is a flowchart for explaining an encoding method according to an embodiment of the present invention.
[0054]
A speech signal is input for each predetermined coding section (step S1), a spectrum parameter codebook search is performed (step S2), and a residual signal is obtained from the speech signal (step S3). Next, the position weight v (n) of each position n is set according to the relative magnitude relationship of the obtained amplitude values r (n) of the residual signal (step S4). Then, an adaptive codebook search is performed using the position weight v (n) (step S5), and then a noise (algebraic) codebook search is performed using the position weight v (n) (step S6). A gain codebook search is performed using v (n) (step S7).
[0055]
Finally, the codes A, L, C, and G obtained by the above search are output (step S8). Then, it is determined whether or not encoding of the next encoding section is necessary (step S9). If it is not necessary, the encoding process is terminated.
[0056]
An example of a specific method of the process in step S4 described above is as follows.
[0057]
a threshold TH is calculated from r (n),
If | r (n) |> TH, then v (n) = k1
If | r (n) | ≦ TH, then v (n) = k2.
Here, k1 and k2 are k1>k2> 0.
In this relationship, a large position weight k1 is set at a position where the absolute value amplitude is large. If k1 = k2, the position weight is not used. Further, although one threshold value TH is used, a method of setting the position weight value more finely using a plurality of types of threshold values by using TH1 and TH2 is also effective.
[0058]
This is the end of the description of the flowchart of FIG.
[0059]
Since the present invention relates to weighting used for parameter selection on the encoding side, the decoding method using the code of each parameter obtained by encoding is the same as the conventional method. Here, the decoding method will be briefly described with reference to FIG.
[0060]
In FIG. 5, the encoded data from the encoding unit is input from the input terminal 160 and is separated into the respective codes A, L, C, and G by the encoded data separation unit 19. The spectrum parameter decoding unit 14 reproduces the spectrum parameter based on the code A. The adaptive excitation decoding unit 11 reproduces an adaptive code vector based on the code L. The noise source decoding unit 12 reproduces a noise code vector based on the code C. The gain decoding unit 13 reproduces the gain based on the code G. The sound source reproduction unit 15 reproduces a sound source signal using the reproduced adaptive code vector, noise code vector, and gain.
[0061]
The synthesis filter 16 constitutes a synthesis filter using the spectrum parameters reproduced by the spectrum parameter decoding unit 14 and passes a sound source signal from the sound source reproduction unit 15 to generate a synthesized speech signal. The post filter 17 performs a post filtering process for shaping the coding distortion included in the synthesized speech signal so that the sound becomes easy to hear. The processed synthesized speech signal is output from the output terminal 195.
[0062]
【The invention's effect】
According to the first aspect of the present invention, it is possible to perform code selection such that encoding distortion at an important position is reduced by introducing position weights into parameter code selection.
[0063]
According to the second aspect of the present invention, it is possible to adaptively set the position weight based on the signal obtained from the input signal.
[0064]
According to the third aspect of the present invention, since position weights are used only at specific positions, it is not necessary to set position weights at all positions, thereby reducing the amount of calculation.
[0065]
According to the fourth aspect of the present invention, in addition to the effect of any one of the first to third aspects, a sound source signal such as a pitch pulse is used in encoding a CELP-type sound source signal by introducing position weighting. Overcoming the problem that the characteristics of can not be expressed well.
[0066]
Further, according to the invention described in claim 5, the effect of the invention described in any one of claims 2 to 4 is obtained.
[0067]
According to the invention of claim 6, in addition to the effect of any one of claims 1 to 5, distortion is more effectively achieved by using both position weights and conventional auditory weights. It is possible to select a code that is difficult to hear.
[0068]
Moreover, according to the invention of Claim 7, the effect of any one of Claims 1 to 6 can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a basic configuration of a speech / acoustic signal encoding method according to the present invention.
FIG. 2 is a diagram (No. 1) for explaining a procedure for obtaining a position weight from an audio signal by the method of the present embodiment;
FIG. 3 is a diagram (No. 2) for explaining a procedure for obtaining a position weight from an audio signal by the method of the present embodiment;
FIG. 4 is a flowchart for explaining an encoding method according to an embodiment of the present invention.
FIG. 5 is a diagram for explaining a decoding method;
[Explanation of symbols]
100 input terminals
120 Residual signal calculator
150 encoded data
910 Position weight control unit
911 Spectral parameter codebook search unit
912 Adaptive codebook search unit
913 Noise codebook search unit
914 Gain codebook search unit
915 Encoded data output unit

Claims (7)

音源信号を合成フィルタに通過させることにより合成音信号を生成する音声/音響信号の符号化方法であって、
入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号のパワーの大きいサンプル位置において合成音信号と目標とする音信号との歪をより小さくするための位置重み情報を取得する重み情報取得ステップと、
合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した重み情報を用いて重み付けして評価する評価ステップと、
前記評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップと
を具備することを特徴とする音声/音響信号の符号化方法。
An audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter,
A time series signal corresponding to a component that could not be predicted with respect to the input signal is obtained, and at the sample position where the power of the time series signal is large , the distortion between the synthesized sound signal and the target sound signal is further reduced. A weight information acquisition step for acquiring position weight information;
An evaluation step in which the distortion of the synthesized sound signal and the target sound signal is evaluated by weighting using the weight information acquired in the weight information acquisition step;
And a code selection step of selecting a code of a parameter of the sound source signal so that distortion between the synthesized sound signal and the target sound signal is reduced based on a result of the evaluation in the evaluation step. A method for encoding an acoustic signal.
音源信号を合成フィルタに通過させることにより合成音信号を生成する音声/音響信号の符号化方法であって、
入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号の振幅または振幅の大きさを代表する関数値の評価を行う第1の評価ステップと、
前記第1の評価ステップによる振幅または関数値の大きいサンプル位置において、歪をより小さくするための位置重み情報を取得する重み情報取得ステップと、
合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した位置重み情報を用いて重み付けして評価する第2の評価ステップと、
前記第2の評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップと
を具備することを特徴とする音声/音響信号の符号化方法。
An audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter,
A first evaluation step for obtaining a time-series signal corresponding to a component that could not be predicted for the input signal , and evaluating a function value representative of the amplitude or the magnitude of the amplitude of the time-series signal;
A weight information acquisition step of acquiring position weight information for reducing distortion at a sample position having a large amplitude or function value in the first evaluation step;
A second evaluation step of evaluating distortion of the synthesized sound signal and the target sound signal by weighting using the position weight information acquired in the weight information acquisition step;
A code selection step of selecting a code of a parameter of the sound source signal so that distortion between the synthesized sound signal and the target sound signal is reduced based on a result of the evaluation in the second evaluation step. Encoding method of voice / acoustic signal.
音源信号を合成フィルタに通過させることによる合成音信号を生成する音声/音響信号の符号化方法であって、
入力信号に対して予測しきれなかった成分に相当する時系列信号を求め、この時系列信号の振幅または振幅の大きさを代表する関数値を評価し、前記振幅または関数値が大きいサンプル位置に関して、大きな重み値に相当する第1の位置重み情報を取得し、前記振幅または関数値が小さいサンプル位置に関して、前記第1の位置重み情報と異なる、小さな重み値に相当する第2の位置重み情報を取得する重み情報取得ステップと、
合成音信号と目標とする音信号との歪を、前記重み情報取得ステップにおいて取得した前記第1及び第2の重み情報を用いて重み付けして評価する評価ステップと、
前記評価ステップによる評価の結果に基づいて合成音信号と目標とする音信号との歪が小さくなるように音源信号のパラメータの符号選択を行う符号選択ステップと
を具備することを特徴とする音声/音響信号の符号化方法。
An audio / acoustic signal encoding method for generating a synthesized sound signal by passing a sound source signal through a synthesis filter,
A time series signal corresponding to a component that could not be predicted with respect to the input signal is obtained, a function value representative of the amplitude or the magnitude of the amplitude of the time series signal is evaluated, and the sample position with the large amplitude or function value First position weight information corresponding to a large weight value is acquired, and second position weight information corresponding to a small weight value, which is different from the first position weight information, with respect to a sample position having a small amplitude or function value A weight information acquisition step for acquiring
An evaluation step of weighting and evaluating distortion of the synthesized sound signal and the target sound signal using the first and second weight information acquired in the weight information acquisition step;
And a code selection step of selecting a code of a parameter of the sound source signal so that distortion between the synthesized sound signal and the target sound signal is reduced based on a result of the evaluation in the evaluation step. A method for encoding an acoustic signal.
前記音源信号のパラメータは、前記音源信号を求めるために用いられる適応符号帳または雑音符号帳を探索するための情報であることを特徴とする請求項1から3のいずれか1つに記載の音声/音響信号の符号化方法。  The voice according to any one of claims 1 to 3, wherein the parameter of the sound source signal is information for searching an adaptive codebook or a noise codebook used for obtaining the sound source signal. / Encoding method of acoustic signal. 前記入力信号から得られる時系列信号は、予測残差信号、当該予測残差信号の模擬信号のいずれかであることを特徴とする請求項1からのいずれか1つに記載の音声/音響信号の符号化方法。Time-series signal obtained from the input signal, the prediction residual signal, a voice / sound according to claim 1, one of the 4, characterized in that any of the simulated signal of the predictive residual signal Signal encoding method. 前記位置重み情報と聴覚重みとを用いて前記音源信号のパラメータを選択することを特徴とする請求項1から5のいずれか1つに記載の音声/音響信号の符号化方法。  6. The speech / acoustic signal encoding method according to claim 1, wherein a parameter of the sound source signal is selected using the position weight information and auditory weight. 音声/音響信号を入力するための入力部と、
前記入力部を介して入力された音声/音響信号に対して符号化処理を施す符号化部と、
前記符号化部で符号化された音声/音響信号を送信する送信部と、
符号化された音声/音響信号を受信する受信部と、
前記受信部を介して受信された音声/音響信号に対して復号化処理を施す復号化部と、
前記復号化部で復号化された音声/音響信号を出力する出力部と、
を具備し
前記符号化部は、請求項1から6のいずれか1つに記載の符号化方法を実行することを特徴とする電子装置。
An input unit for inputting voice / acoustic signals;
An encoding unit that performs an encoding process on a voice / acoustic signal input via the input unit;
A transmission unit for transmitting the voice / acoustic signal encoded by the encoding unit;
A receiver for receiving the encoded voice / acoustic signal;
A decoding unit that performs a decoding process on the voice / acoustic signal received through the receiving unit;
An output unit for outputting the voice / acoustic signal decoded by the decoding unit;
An electronic apparatus, wherein the encoding unit executes the encoding method according to any one of claims 1 to 6.
JP2001328061A 2001-10-25 2001-10-25 Speech / acoustic signal encoding method and electronic apparatus Expired - Fee Related JP3984021B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001328061A JP3984021B2 (en) 2001-10-25 2001-10-25 Speech / acoustic signal encoding method and electronic apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001328061A JP3984021B2 (en) 2001-10-25 2001-10-25 Speech / acoustic signal encoding method and electronic apparatus

Publications (2)

Publication Number Publication Date
JP2003131699A JP2003131699A (en) 2003-05-09
JP3984021B2 true JP3984021B2 (en) 2007-09-26

Family

ID=19144194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001328061A Expired - Fee Related JP3984021B2 (en) 2001-10-25 2001-10-25 Speech / acoustic signal encoding method and electronic apparatus

Country Status (1)

Country Link
JP (1) JP3984021B2 (en)

Also Published As

Publication number Publication date
JP2003131699A (en) 2003-05-09

Similar Documents

Publication Publication Date Title
CN100369112C (en) Variable rate speech coding
EP0409239B1 (en) Speech coding/decoding method
JP4005359B2 (en) Speech coding and speech decoding apparatus
JP3094908B2 (en) Audio coding device
US9972325B2 (en) System and method for mixed codebook excitation for speech coding
JP2002268686A (en) Voice coder and voice decoder
JPH0944195A (en) Voice encoding device
JP3531780B2 (en) Voice encoding method and decoding method
JP3308764B2 (en) Audio coding device
JP3199142B2 (en) Method and apparatus for encoding excitation signal of speech
JPH0782360B2 (en) Speech analysis and synthesis method
JPH0854898A (en) Voice coding device
JP3984021B2 (en) Speech / acoustic signal encoding method and electronic apparatus
JP3583945B2 (en) Audio coding method
JP3984048B2 (en) Speech / acoustic signal encoding method and electronic apparatus
JP2946525B2 (en) Audio coding method
JP3490325B2 (en) Audio signal encoding method and decoding method, and encoder and decoder thereof
JP2956068B2 (en) Audio encoding / decoding system
JP3552201B2 (en) Voice encoding method and apparatus
JP3089967B2 (en) Audio coding device
JPH028900A (en) Voice encoding and decoding method, voice encoding device, and voice decoding device
JP3192051B2 (en) Audio coding device
JP2853170B2 (en) Audio encoding / decoding system
JP2003323200A (en) Gradient descent optimization of linear prediction coefficient for speech coding
JP2658438B2 (en) Audio coding method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070705

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130713

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees