JP4905262B2 - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム - Google Patents

音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム Download PDF

Info

Publication number
JP4905262B2
JP4905262B2 JP2007152816A JP2007152816A JP4905262B2 JP 4905262 B2 JP4905262 B2 JP 4905262B2 JP 2007152816 A JP2007152816 A JP 2007152816A JP 2007152816 A JP2007152816 A JP 2007152816A JP 4905262 B2 JP4905262 B2 JP 4905262B2
Authority
JP
Japan
Prior art keywords
excitation signal
signal
unit
speech
excitation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007152816A
Other languages
English (en)
Other versions
JP2008304775A (ja
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2007152816A priority Critical patent/JP4905262B2/ja
Publication of JP2008304775A publication Critical patent/JP2008304775A/ja
Application granted granted Critical
Publication of JP4905262B2 publication Critical patent/JP4905262B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、励起信号標本を用いて音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。
携帯電話機等においては、例えば8kbpsや16kbpsといった低ビットレート通信に対応するために、音声を符号化することによる情報量圧縮技術が必要となる。音声符号化方法としては、例えば、ITU−T勧告G.729に示される方法が知られている。該勧告に係る音声符号化方法においては、基本的には、音声信号に予測分析を施して予測係数を算出し、音声再生に最適な励起信号を符号帳から探索した後に、符号化が実行される。予測分析としては、例えば、線型予測分析や、MLSA(Mel Log Spectrum Approximation)分析が知られている(例えば、非特許文献1参照。)。
今井聖著、「音声信号処理」、POD版、森北出版株式会社、2005年4月、p.169−200
上述の方法による再生音声の品質を向上させるために、符号帳に掲載する励起信号のバリエーションを増やすことが考えられる。このようにすれば、入力音声信号に予測分析を施したときの残差信号に近い信号が符号帳に掲載されている確率が高くなるからである。
しかしながら、このようにすることには、次の3つの問題点がある。すなわち、第一に、符号帳に多数の励起信号サンプルを掲載すると、音声符号化装置及び音声復号装置の記憶ユニットの記憶容量を圧迫してしまうことである。このことは、例えば携帯電話機の場合のように、装置が小型であることが必要とされるために大型の大容量記憶ユニットを搭載することができない場合に問題となる。第二に、符号帳に多数の励起信号サンプルを掲載すると、それだけ多くのサンプルのうちから最適のものを検索しなければならないため、音声符号化装置の演算ユニットに大きな負荷がかかってしまうことである。このことは、携帯電話機におけるリアルタイム通話を阻害したり、安価で一般的な演算ユニットを用いて装置を製造することを困難にしたりしてしまう。また、演算ユニットへの大きな負荷は、消費電力の増加の原因ともなり、電池で動作するポータブル機器の動作時間が短くなってしまうことも問題である。第三に、符号帳に多数の励起信号サンプルを掲載すると、それらのサンプルを相互に区別するために各サンプルに付さねばならない識別番号の桁数も増加し、また、複数のサンプルを組み合わせることにより励起信号を構成する場合にはどのサンプルに基づいてどのように構成したかを特定するための情報もいっそう複雑化する。つまり、音声符号化装置から、該装置がどのサンプルをどのように選択したかを音声復号装置に伝えるために多くのビット数が必要となってしまう。このことは、音声符号化装置及び音声復号装置を低ビットレート通信のために用いたい場合に問題となる。
よって、符号帳のサイズを維持しつつ、再生音声の品質を向上させる音声符号化装置及び音声復号装置が必要とされている。
本発明は上記実情に鑑みてなされたものであり、符号帳を用いた音声圧縮復元において、励起信号標本の個数を増加させずに再生音声の品質を向上させた、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。
上記目的を達成するために、本発明の第1の観点に係る音声符号化装置は、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析部と、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記予測分析部が算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、前記励起信号片記憶部に記憶されている励起信号片に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定部と、
前記予測分析部が算出した予測係数と前記励起信号決定部が求めた疑似励起信号特定用データとを符号化する符号化部と、
を備える。
予測分析の単位となる所定の時間長を有する区間に細分した場合、入力音声は、区間毎にその具体的な値は異なるものの一定の周波数以下の周波数成分を含まない場合がある。よって、符号帳に掲載できる信号標本の個数が限られている場合には、様々な周波数を境に低域成分がカットされている複数の信号標本を符号帳に掲載すると、信号標本の個数の割に再生音声の品質が高くなる。
前記励起信号片記憶部は、例えば、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の雑音信号を励起信号片として記憶する。
前記励起信号片記憶部は、例えば、それぞれに0からN(Nは、所定の自然数、以降同じ。)−1までのうちのいずれかの識別用番号が付された信号であって所定の上限周波数に該識別用番号を乗じた後にNで除した結果である周波数をカットオフ周波数とし該カットオフ周波数以下の周波数成分を含まないN個の信号を励起信号片として記憶する。
上述の区間毎の具体的な値の出現はあらゆる周波数に対して存在するため、カットオフ周波数の間隔が一定になるような複数の信号標本を符号帳に掲載すると効率が良い。
前記励起信号決定部は、例えば、前記励起信号片記憶部に記憶されている励起信号片を1個特定するか又は複数個組み合わせるかすることにより前記疑似励起信号の候補である試行用励起信号を生成するときの前記励起信号片の特定結果又は組み合わせ方を試行用励起信号生成方針として決定する試行方針決定部と、前記試行方針決定部が決定した試行用励起信号生成方針に従って前記励起信号片記憶部に記憶されている励起信号片を1個特定するか又は複数個組み合わせるかすることにより前記試行用励起信号を生成する励起信号生成部と、前記予測分析部が算出した予測係数により定義され、前記試行用励起信号が入力されることにより音声信号を合成する合成フィルタ部と、を備え、前記合成フィルタ部が合成した音声信号により前記入力音声信号が所定の許容誤差範囲内で再現される場合に、該合成フィルタ部に入力された試行用励起信号が前記励起信号生成部により生成された際に前記試行方針決定部により決定された試行用励起信号生成方針を前記疑似励起信号特定用データとする。
処理の高速化を図るため試行時間を短縮したい場合には、許容誤差を大きめに設定しておけば、符号帳に掲載された信号標本から生成され得る励起信号を全ては試行しなくても、ある程度高品質の音声を再生することができる。
前記励起信号決定部は、例えば、有限個の試行用励起信号生成方針を決定する、ことを特徴とし、前記励起信号生成部は、前記試行方針決定部が決定した有限個の試行用励起信号生成方針に従って有限個の前記試行用励起信号を生成する、ことを特徴とし、前記励起信号決定部は、前記励起信号生成部が生成した有限個の試行用励起信号が前記合成フィルタ部に入力されることにより該合成フィルタ部が合成した有限個の音声信号のうちから前記入力音声信号に最も近い音声信号である疑似音声信号を決定し、該疑似音声信号が合成されるに際して該合成フィルタ部に入力された試行用励起信号を前記疑似励起信号とする。
符号帳に掲載された信号標本全てを試行の対象として最適な励起信号を決定するので、与えられた符号帳に基づいて再生され得る音声のうち最も高品質の音声が再生される。
上記目的を達成するために、本発明の第2の観点に係る音声復号装置は、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信部と、
前記受信部が受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号部と、
前記復号部が生成した励起信号特定用データを前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより励起信号を生成する励起信号生成部と、
前記復号部が生成した予測係数と前記励起信号生成部が生成した励起信号とから音声信号を生成する音声再生部と、
を備える。
上記目的を達成するために、本発明の第3の観点に係る音声符号化方法は、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
から構成される。
上記目的を達成するために、本発明の第4の観点に係る音声復号方法は、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
から構成される。
上記目的を達成するために、本発明の第5の観点に係るプログラムは、
コンピュータに、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
を実行させる。
上記目的を達成するために、本発明の第6の観点に係るプログラムは、
コンピュータに、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
を実行させる。
本発明によれば、符号帳を用いる音声圧縮復元を、高い効率で行うことができる。
以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。
なお、理解を容易にするために、音声符号化装置には、予測分析の単位となる所定の時間長に対応する時間帯に渡ってのみ、すなわち1フレームに渡ってのみ、音声信号が入力されたものとする。かかる音声信号に予測分析が施されると、一組の予測係数が生成される。一組の予測係数は、予測分析が行われたフレームにおける合成フィルタを定義する。以下にいう励起信号片は、1フレームに対応する時間だけ持続する信号である。たまたま、元の音声信号の残差信号に近い励起信号片が上述の合成フィルタに入力された場合には、合成フィルタは、元の音声信号に近い音声信号を合成し出力する結果となる。
携帯電話機を用いた会話のように、実際には、いくつものフレームに渡る音声信号が音声符号化装置に入力される。この場合についても、フレーム1個ずつについて順次処理が進行すると考えることにより、以下の説明はそのままあてはまる。
図1に、本発明の実施の形態に係る音声符号化装置1の機能構成を示す。
音声符号化装置1は、予測分析部11と、励起信号片記憶部13aと、励起信号決定部15と、符号化部17と、を備える。音声符号化装置1は、マイクロフォン295と、A/D変換部293と、送信部21と、をさらに備える。また、励起信号決定部15は、励起信号生成部151aと、励起信号特定用データ生成部153と、合成フィルタ部155aと、比較部157と、スイッチ開閉部159と、を備える。
マイクロフォン295は、音声符号化装置1のユーザが発した音声をアナログ入力音声信号として収集し、A/D変換部293に引き渡す。A/D変換部293は、引き渡されたアナログ入力音声信号を、例えばサンプリング周波数8kHzでサンプリングすることにより、デジタル入力音声信号に変換して、予測分析部11と、励起信号決定部15の中の比較部157と、に引き渡す。予測分析部11は、引き渡されたデジタル入力音声信号に例えば線型予測分析等の予測分析を施すことにより、予測係数を求める。予測分析部11が求めた予測係数は、符号化部17に送られて符号化の対象となる他に、励起信号決定部15の中の合成フィルタ部155aを定義する。ここでいう定義とは、合成フィルタの具体的な仕様が、予測係数によって定まることを指す。
励起信号片記憶部13aは、複数の励起信号片を記憶しており、励起信号決定部15の中の励起信号生成部151aが試行用励起信号を生成する際に参照される。ここで励起信号片とは、既に述べたように、1フレームに対応する時間だけ持続する信号である。励起信号片記憶部13aは、かかる励起信号片が複数格納されたデータベースであり、符号帳と呼ばれる。
励起信号決定部15は、全体としては、A/D変換部293から入力されたデジタル入力信号に適した疑似励起信号特定用データを決定し、それを符号化部17に送る機能を有する。かかる決定に際し、励起信号決定部15は、予測分析部11が求めた予測係数と、励起信号片記憶部13aに格納されている励起信号片と、を参照する。
励起信号決定部15の中の励起信号特定用データ生成部153は、同じく励起信号決定部15の中の励起信号生成部151aに、励起信号生成部151aが励起信号片記憶部13aを参照することにより試行用励起信号を生成することができるようにするための、励起信号特定用データを送る。励起信号特定用データは、より具体的には、励起信号片記憶部13aに格納されている複数の励起信号片のうちから、例えば特定の1個の励起信号片をそのまま又は特定の利得係数を乗じた上で試行用励起信号とするとの指示であったり、あるいは例えば特定の複数個の励起信号片を重ね合わせたものを試行用励起信号とするとの指示であったり、さらには例えば特定の単数又は複数の励起信号片に特定の利得係数を乗じたものと別の特定の単数又は複数の励起信号片に別の特定の利得係数を乗じたものとを重ね合わせたものを試行用励起信号にするとの指示であったりする。つまり、励起信号片記憶部に格納された励起信号片のそれぞれに識別用番号が付されているとすれば、1個の励起信号特定用データは、試行用励起信号の材料として選択されるべき励起信号片の識別番号や、選択された各励起信号片に乗じられるべき利得係数等を含むのであって、励起信号生成部151aが励起信号片記憶部13aを参照しつつ1個の試行用励起信号を生成するための必要にして十分なデータである。
後述するように、最終的には、励起信号特定用データ生成部153が生成する励起信号特定用データのうちの1個が、疑似励起信号特定用データとして励起信号決定部15から出力される。そして、これも後述するように、励起信号特定用データ生成部153は、疑似励起信号特定用データとして選択されるのに適した試行用励起信号がいかなる信号であるかが決定されるまで、様々なバリエーションの励起信号特定用データを生成し続け、試行錯誤を繰り返す。励起信号特定用データ生成部153は、かかる試行錯誤のために必要な、上述のバリエーションをもたらすための手順を記憶している。つまり、励起信号片記憶部13aに格納された励起信号片にそれぞれ0からN(Nは、所定の自然数、以降同じ。)−1までのうちのいずれかの識別用番号が付されているとすれば、励起信号特定用データ生成部153は、例えば、まず識別番号0が付された励起信号片をそのまま試行用励起信号とするように指示する励起信号特定用データを生成し、必要に応じて以下順次識別番号の昇順に(N−1)番までの各励起信号片を指定する励起信号特定用データを生成し、なおも必要ならば、その後、所定の規則に従って、上述のように複数の励起信号片の組み合わせや、各励起信号片に利得係数を乗じた上での重ね合わせ等を指示内容とする励起信号特定用データを生成する。
励起信号特定用データ生成部153が記憶する上述の手順は、携帯電話機等の用途に求められるリアルタイム通信を阻害しないよう高速に行うべきという要請と、励起信号片記憶部13aに記憶されている励起信号片をできるだけ有効に活用することによりできる限り入力音声に忠実に音声を再生すべきという要請と、の兼ね合いを考慮しつつ、利用可能なハードウェア資源を見極めて、定めることが望ましい。また、複数パラメータの同時最適化を最小のステップで実現するための任意の既知の数値計算手法を上述の手順に導入して、処理の高速化を図ってもよい。
励起信号生成部151aは、励起信号特定用データ生成部153から引き渡された励起信号特定用データの指示に従って、励起信号片記憶部13aを参照しそれに格納されている励起信号片を検索して取得し該励起信号片に利得係数による乗算や重ね合わせ等を施すことにより、試行用励起信号を生成する。
励起信号決定部15の中の合成フィルタ部155aは、前述のとおり予測分析部11が求めた予測係数により定義される。かかる定義により仕様の定まった合成フィルタ部155aに、励起信号生成部151aが生成した試行用励起信号が入力されると、合成フィルタ部155aは、試行用デジタル音声信号を合成して出力する。
原理的には、合成フィルタ部155aに入力される試行用励起信号が、A/D変換部293が生成したデジタル入力音声信号の残差信号とたまたま一致した場合、合成フィルタ部155aが合成して出力した試行用デジタル音声信号は、デジタル入力音声信号を完全に再現した信号となる。音声の符号化及び復号の過程における音声品質の維持という観点からは、そのようになるのが最も理想的である。励起信号特定用データ生成部153が上述のように様々なバリエーションの試行用励起信号の生成の指示を励起信号生成部151aに与えるのは、試行用デジタル音声信号ができるだけデジタル入力音声信号を忠実に再現する結果となるような試行用励起信号を、試行錯誤により見つけ出すためである。そして、そのように見つけ出された試行用励起信号の、励起信号片からの生成の仕方を指示するデータが、疑似励起信号特定用データとして、符号化部17による符号化及び送信部21による音声復号装置への送信の対象となる。
合成フィルタ部155aが合成して出力した試行用デジタル音声信号は、励起信号決定部15の中の比較部157に入力される。比較部157には、A/D変換部293からデジタル入力音声信号も入力される。上述のように最適な試行用励起信号の生成の仕方を決定するのに役立てるために、比較部157は、これら2個の入力信号を比較して、どの程度似ているか、評価する。評価には、定量的な手法であれば、任意の既知の手法を用いてよい。
なお、図には示していないが、合成フィルタ部155aが合成して出力した試行用デジタル音声信号は、新たな励起信号片として、励起信号片記憶部13aの記憶容量が許容する限り、励起信号片記憶部13aに追加的に格納されてもよい。このようにすると、励起信号特定用データ生成部153が多様な励起信号特定用データを生成するための手順がより複雑になる可能性はあるものの、励起信号片記憶部13aに記憶されている励起信号片自体が多様化するので、いっそう適切な疑似励起信号特定用データが励起信号決定部15から出力されることが期待される。
励起信号片記憶部13a全体を上述のように符号帳と呼ぶ場合には、符号帳のうち、後から追加された励起信号片から構成される部分を指して適応符号帳と呼ぶことが多い。なお、元から用意されている励起信号片としては、雑音信号が採用される場合が多いので、符号帳のうち、元から存在する励起信号片から構成される部分は、雑音符号帳と呼ばれることが多い。適応符号帳が生成された場合には、音声復号装置が音声再生に支障をきたさないよう、適応符号帳が生成された旨と、適用符号帳の内容とが、音声復号装置に伝達されるようにする。
比較部157は、試行用デジタル音声信号がデジタル入力音声信号に十分に近いと判別した場合は、励起信号決定部15の中のスイッチ開閉部159に、その中に設けられたスイッチ(図示せず。)を閉じるよう命令する。それ以外の場合は、比較部157は、該スイッチを開く命令を出し続けて、該スイッチを開いたままの状態を維持する。スイッチ開閉部159は、励起信号特定用データ生成部153から出力される励起信号特定用データが伝達されるための経路のうち、励起信号特定用データ生成部153と符号化部17とを結ぶ経路の途中に設けられたものであり、その中の上述のスイッチが閉じられると該経路がつながり、スイッチが開かれると該経路が切断される。つまり、スイッチが閉じられると、励起信号特定用データ生成部153から符号化部17に励起信号特定用データが引き渡され、スイッチが開かれると、引き渡されない。
比較部157により試行用デジタル音声信号がデジタル入力音声信号に十分に近いと判別された場合、すなわち、その時点で試行に用いられている試行用デジタル音声信号がデジタル入力音声信号に十分に似ている場合には、該試行用デジタル音声信号が合成フィルタ部155aにより合成される際に用いられた試行用励起信号を励起信号生成部151aに生成させている励起信号特定用データが、疑似励起信号特定用データとしてふさわしいということである。よって、かかる場合は、スイッチ開閉部159が、励起信号特定用データ生成部153と符号化部17とを結ぶ経路をつないで、該時点での励起信号特定用データが疑似励起信号特定用データとして符号化部17に引き渡されるようにする。
一方、比較部157により試行用デジタル音声信号がデジタル入力音声信号に十分に近いとは判別されなかった場合、比較部157は、スイッチ開閉部159に対して、引き続きスイッチ開閉部の中のスイッチを開き続けるよう命令するとともに、励起信号特定用データ生成部153に、新たな励起信号特定用データを生成するよう指示する命令である励起信号特定用データ変更命令を与える。かかる命令を受けた励起信号特定用データ生成部153は、既に述べた記憶されている所定の手順に従って、まだ試行していないバリエーションの試行用励起信号をもたらすような励起信号特定用データを生成し、励起信号生成部151aに送り、試行を繰り返す。
このようにして、励起信号決定部15は、疑似励起信号特定用データを出力し、符号化部17に引き渡す。上述のような試行錯誤を経ている以上、疑似励起信号特定用データに基づいて生成される試行用励起信号は、デジタル入力音声信号の残差信号に、一致することはまれであるにしても、よく似ていることは期待される。疑似励起信号特定用データに基づいて生成される試行用励起信号がデジタル入力音声信号の残差信号に似ているほど、音声符号化及び復号の過程での音声品質の劣化が少なく、高品質音声再生に資する。
符号化部17は、予測分析部11が求めた予測係数と、励起信号決定部15から出力された疑似励起信号特定用データと、を受け取り、これらをまとめて任意の既知の手法により符号化し、その結果である符号を、送信部21に引き渡す。送信部21は、符号化部17から引き渡された符号を、音声符号化装置に送信する。かかる送信は、本実施の形態においては、符号を電気的搬送波に重畳して電波として送信する無線通信手法によるものとするが、有線通信手法によってもよいし、その他の任意の既知の手法によってもよい。
図2に、本発明の実施の形態に係る音声復号装置2の機能構成を示す。
音声復号装置2は、励起信号片記憶部13bと、受信部33と、復号部35と、励起信号生成部151bと、音声再生部39と、を備える。音声再生部39は、合成フィルタ部155bと、D/A変換部393と、スピーカ395と、を備える。
励起信号片記憶部13bは、音声符号化装置1の励起信号片記憶部13a(図1)と同じ機能を有する。励起信号生成部151bは、音声符号化装置1の励起信号生成部151a(図1)と同じ機能を有する。合成フィルタ部155bは、音声符号化装置1の合成フィルタ部155a(図1)と同じ機能を有する。
図2に示す受信部33は、図1に示す音声符号化装置1の送信部21が発した、符号が重畳された電波を受信して該符号を取り出す。図2の受信部33は、該符号を復号部35に引き渡す。復号部35は、図1の音声符号化装置の符号化部17が符号化の際に用いた所定の符号化方法と対をなす復号方法により、該符号を復号する。既に図1を参照して説明したことから明らかなように、該符号は、予測係数及び疑似励起信号特定用データが符号化されたものであるから、図2の復号部35が、受信部33から受け取った符号を復号すると、予測係数及び疑似励起信号特定用データが生成される。
復号部35が生成した予測係数と疑似励起信号特定用データのうち、後者は、励起信号生成部151bに引き渡される。励起信号生成部151bは、受け取った疑似励起信号特定用データの指示内容に従って、励起信号片記憶部13bから必要な励起信号片を取得し、取得した励起信号に必要に応じて加工を施すことにより、疑似励起信号を生成する。励起信号生成部151bは、生成した疑似励起信号を、音声再生部39に、より詳細には、音声再生部39の中の合成フィルタ部155bに、引き渡す。一方、復号部35が生成した予測係数は、音声再生部39の中の合成フィルタ部155bを定義するために用いられる。
音声再生部39は、励起信号生成部151bから出力された疑似励起信号を、復号部35が生成した予測係数を参照することにより、音声復号装置2のユーザが聞き取ることのできる音波に変換する。音声再生部39の中の合成フィルタ部155bは、復号部35により生成された予測係数により自らの仕様を定義する。励起信号生成部151bが生成した疑似励起信号が合成フィルタ部155bに入力されると、図1の音声符号化装置の予測分析部11で行われた予測分析と対をなす合成操作が該疑似励起信号に施される結果、デジタル入力音声信号に近い信号であることが期待される信号が合成され出力される。以下では図2の合成フィルタ部155bが出力するこの信号をデジタル出力音声信号と呼ぶ。このデジタル出力音声信号はD/A変換部393に送られる。D/A変換部393は、合成フィルタ部155bから送られたデジタル出力音声信号をD/A変換した結果であるアナログ音声信号を、スピーカ395に引き渡す。スピーカ395は、引き渡されたアナログ音声信号を、音声復号装置2のユーザが聞き取ることのできる音波に変換する。
図3に示すように、本実施の形態においては、ユーザにとっての利便性を確保する観点から、図1に示した音声符号化装置1と、図2に示した音声復号装置2と、は、物理的には、ひとまとまりの装置すなわち音声符号化兼復号装置3として統合され、単一の筺体に収納されているものとする。音声符号化兼復号装置3の典型的な例としては、携帯電話機が挙げられる。
音声符号化兼復号装置3は、CPU(Central Processing Unit)41と、ROM(Read Only Memory)43と、記憶部45と、音声処理部51と、無線通信部53と、操作キー入力内容処理部55と、を備え、これらは、システムバス61により相互に接続されている。システムバス61は、命令やデータを転送するための伝送経路である。
CPU41は、システムバス61を介して、ROM43、記憶部45、音声処理部51、無線通信部53、及び、操作キー入力内容処理部55を制御し、付随して、これらとの間でデータの授受を行う。CPU41は、例えば、ROM43に格納されている音声符号化又は音声復号のための動作プログラムを読み込み、該動作プログラムに記述された指示に従って、記憶部45からデータを受け取って所定の演算を施してから記憶部45に該演算の結果を格納する。ROM43には、CPU41を動作させるための上述の動作プログラム等が格納されている。また、ROM41には、上述の符号帳のうち、雑音符号帳に相当する部分に含まれる雑音信号がデジタルデータとして格納されていてもよい。記憶部45は、RAM(Random Access Memory)451と、ハードディスク453と、を備える。記憶部45は、例えば、音声符号化及び復号の過程で生成される各種信号を、デジタルデータとして格納する。
音声符号化兼復号装置3は、マイクロフォン295と、スピーカ395と、アンテナ533と、操作キー553と、をさらに備える。マイクロフォン295は、図1に示されたものと同じものであり、音声符号化を望むユーザの音声を収集し、音声処理部51に引き渡す。スピーカ395は、図2に示されたものと同じものであり、音声復号を望むユーザのために、音声処理部51から引き渡された再生音声データに基づいて再生音声を発する。音声符号化兼復号装置3が図1の音声符号化装置1として機能する場合、図3のアンテナ533は、無線通信部53から引き渡された電気信号に基づいて、符号が重畳された電波を、図2の音声復号装置2として機能する別の音声符号化兼復号装置3に向けて発する。図3の音声符号化兼復号装置3が図2の音声復号装置2として機能する場合、図3のアンテナ533は、図1の音声符号化装置1として機能する別の音声符号化兼復号装置3のアンテナ533から発せられた電波を捉え、該電波に対応する電気信号を無線通信部53に引き渡す。図3の操作キー553は、あらかじめ与えられている各種初期設定値をユーザの判断により変更する場合や、音声符号化を望むユーザが、通話の相手方であるユーザが所持する音声符号化兼復号装置3を特定するための情報、例えば携帯電話機の場合であれば電話番号を、入力する場合等に、用いられる。操作キー553の各キーには所定のキーコードが割り当てられており、ユーザが操作キー553を操作すると、操作キー入力内容処理部55は操作キー553からかかる操作に対応する信号を受け取り該信号を解析してかかるキーコードを割り出し、それをCPU41にシステムバス61を介して伝達する。こうして、ユーザの意図がCPU41の動作に反映される。
CPU41は、ROM43に格納された動作プログラムに従い記憶部45等と協同して動作することにより、図1及び図2に示された各ブロックとして機能する。図3の音声処理部51にはA/Dコンバータ及びD/Aコンバータが内蔵されている(図示せず。)ため、CPU41は、特に、図1のA/D変換部293及び図2のD/A変換部393として機能する場合は、図3の音声処理部51と密接に協同して動作する。また、図3の無線通信部53には符号を搬送波に重畳する装置や符号が重畳された搬送波から符号を取り出す装置が内蔵されている(図示せず。)ため、CPU41は、特に、図1の送信部21及び図2の受信部33として機能する場合は、図3の無線通信部53と密接に協同して動作する。
以下では、図1を参照して機能構成の観点から説明した励起信号決定部15の動作を、フローチャートにまとめ、処理の流れという観点から説明する。図1を参照して既に言及したように、かかる処理の流れは、符号化の高速性を重視するか、元の音声に対する再生音声の忠実性を重視するか、により、差異が生じ得る。以下では、前者を重視した場合の典型的な処理の流れを図4を参照しつつ説明してから、後者を重視した場合の典型的な処理の流れを図5を参照しつつ説明する。
なお、両者の相違は相対的な相違に過ぎず、同じ技術的思想の範囲に含まれる。以下では理解を容易にするために、それぞれの場合について端的に例示するだけであり、両者の中間に位置づけられる処理の流れも考え得るし、あるいは、両者を併用したり状況に応じて使い分けたりするといったバリエーションも考え得る。
図4は、疑似励起信号特定用データを求める処理の一例を示すフローチャートである。
図3のCPU41は、励起信号特定用データを所定のデータに初期化し(図4のステップS11)、図3のROM43又は記憶部45から、励起信号特定用データの指示内容に従って試行用励起信号を生成するために必要な素材である励起信号片を、CPUに内臓されているレジスタ(図示せず。)にロードする(図4のステップS13)。CPU41は続いて、励起信号特定用データの指示内容に従って、図4のステップS13でロードした素材である励起信号片に、必要に応じて利得係数を乗じたり重ね合わせ処理を施したりする等の加工を行うことにより、試行用励起信号を生成する(ステップS15)。CPU41はさらに、生成した試行用励起信号を図1の合成フィルタ部155aに通すことに相当する演算を実行することにより、試行用デジタル音声信号を生成し(図4のステップS17)、生成した試行用デジタル音声信号がデジタル入力音声信号に”十分に類似する”か否かを判別する(ステップS19)。
ステップS19における判別が可能となるためには、2個の信号がどのくらい類似しているかを定量的に決定する評価方法、及び、該評価方法による類似の度合いの指標となる値が具体的にいくら以上であれば”十分に類似する”といえるのか、を、あらかじめ定めておく必要がある。評価方法については、任意の既知の手法を用いてよい。類似の度合いの指標を、以下では、類似度と言うことにする。この類似度が具体的にいくら以上であれば”十分に類似する”といえるのかについての閾値として、小さい値を採用するほど、処理の高速化に資するかわりに再生音声の品質が低下する。かかる小さい値の採用は、換言すれば、”十分に類似する”という判断の基準を甘く設定することだからである。閾値は、こうしたことを念頭において、例えば、実験に基づく経験則から決定することが好適である。
”十分に類似する”とは判別されなかった場合(ステップS19;No)、別の試行用励起信号を試すために、励起信号特定用データを変更してから(ステップS21)、ステップS13に戻る。”十分に類似する”と判別された場合(ステップS19;Yes)、この時点での励起信号特定用データを疑似励起信号特定用データに決定して(ステップS23)、処理を終了する。
かかる処理の流れによれば、試行されなかった励起信号特定用データの中に、ステップS23で疑似励起信号特定用データに決定された励起信号特定用データよりもさらに疑似励起信号特定用データにふさわしいものがあった可能性も残るため、音声の忠実な再生という面では不利である。しかしその一方で、図1の励起信号特定用データ生成部153が生成し得るあらゆる励起信号特定用データについての試行を行い尽くすよりもかなり前に、処理が終了する確率が高いので、処理の高速化を図ることができる。
図5は、疑似励起信号特定用データを求める処理の別の一例を示すフローチャートである。
図5に示すステップS31、ステップS33、ステップS35、ステップS37は、それぞれ、既に図4に示したステップS11、ステップS13、ステップS15、ステップS17と、同じである。
続くステップS39では、CPU41は、試行用励起信号とデジタル入力音声信号との類似度を求める。さらに、ステップS41では、CPU41は、類似度を、励起信号特定用データの関数として、記憶部45に格納する。
その後、ステップS43では、CPU41は、図1の励起信号特定用データ生成部153が生成し得る全ての励起信号特定用データについて類似度を求めたか否かを判別する。まだ全ての励起信号特定用データについての類似度を求めてはいないと判別された場合(図5のステップS43;No)、CPU41は、まだ試行していない励起信号特定用データについて試行するために、励起信号特定用データを変更してから(ステップS45)、ステップS33に戻る。全ての励起信号特定用データについて類似度を求めたと判別された場合(ステップS43;Yes)、CPU41は、記憶部に格納されている、励起信号特定用データの関数としての類似度を、全て検索し、類似度同士の大小を比較し、最大の類似度をもたらす励起信号特定用データを見つけ出し、該励起信号特定用データを疑似励起信号特定用データとする決定を行ってから(ステップS47)、処理を終了する。
かかる処理の流れによれば、ステップS43やステップS45等により形成されるループ処理の存在から明らかなように、図1の励起信号特定用データ生成部153が生成し得るあらゆる励起信号特定用データについての試行を行い尽くす。よって、図4を参照して先に説明した処理に比べると、ほとんどの場合、処理に要する時間が長くなる。そのかわりに、あらゆる試行用励起信号が試行の対象として網羅されるので、図1の励起信号片記憶部13aに記憶された情報から導かれ得る試行用励起信号のうちで音声再生に最適なものを特定する情報が疑似励起信号特定用データとされる結果となるため、音声の忠実な再生という面では有利である。
以下では、本実施の形態に係る音声符号化装置1の励起信号片記憶部13a(図1)に記憶される励起信号片がどのようなものであるかについて、図6を参照しつつ、説明する。なお、既に述べたとおり、本実施の形態に係る音声復号装置2の励起信号片記憶部13b(図2)は、上述の励起信号片記憶部13aと同じ機能を有する。また、励起信号片記憶部13a及び13bは、物理的には、本実施の形態に係る音声符号化兼復号装置3のROM43又は記憶部45(図3)の記憶領域の一部に相当する。
ROM43又は記憶部45の記憶領域が圧迫されることを防止する観点、CPU41(図3)に過剰な演算負荷をかけないようにする観点、及び、音声符号化側から音声復号側への単位時間あたりの伝達情報量を減少させる観点からは、励起信号片記憶部13a及び13bに記憶される励起信号片を少なくすべきである。
一方で、音声符号化装置1(図1)に入力される音声を、できるだけ高い品質を維持した状態で音声復号装置2により再生するためには、励起信号片記憶部13a及び13bに記憶される励起信号片を多くすべきである。そのほうが、試行用励起信号に豊富なバリエーションをもたらすことができるので、デジタル入力音声信号の残差信号と比較した場合の類似度が大きい試行用励起信号を特定する情報が疑似励起信号特定用データとして決定されるからである。
これらふたつの要請は矛盾するので、両者を両立させることは、原理的には不可能である。しかしながら、励起信号片1個あたりの再生音声品質という概念を導入し、これをある種のコストパフォーマンスと考えた場合、該コストパフォーマンスを向上させる余地はある。本実施の形態においては、以下に述べるように、ハイ・コストパフォーマンスが実現されるように励起信号片記憶部13aが構成されている。
ここまで、フレーム1個についての処理を述べてきたが、以下では理解をさらに容易にするために、励起信号片記憶部13a及び13bは4個の励起信号片だけを格納することができ、CPU41は1フレームあたり4個の励起信号片についての演算であれば負荷なく処理することができ、音声符号化装置1と音声復号装置2とが符号の授受に用いる電波の帯域は1フレームに対応する時間につき2ビットを疑似励起信号特定用データの伝達のために用いることができるような帯域である、とする。加えて、図1の励起信号特定用データ生成部153は、4個の励起信号特定用データを生成するものとし、それぞれの励起信号特定用データは、上述の4個の励起信号片のうちの特定の1個を試行用励起信号とするとの指示だけを内容とするデータであるとする。つまり、上述の4個の励起信号片のひとつひとつが、そのまま、試行用励起信号として扱われるものとする。このように簡略化した場合だけ考慮しても、本発明の本質の理解にはさしつかえない。
また、考慮する励起信号片が4個だけに限られた上述のような状況において、様々な周期性を有する信号についてまで検討することは、説明をいたずらに複雑化させ理解を困難にするだけなので、励起信号片としては、雑音信号だけを考慮するものとする。
なお、このことは、上述のように励起信号片記憶部13a及び13bを雑音符号帳と適応符号帳とから構成されるものとして捉えた場合には、固定の雑音符号帳に掲載する雑音信号としてどのようなものを選択すればコストパフォーマンスが高くなるか、を考慮することに相当する。
図6の右下の点線で囲まれた部分は、特段の考慮はなされずに、つまり例えばランダムに、選択された4個の励起信号片である雑音信号R(A)、R(B)、R(C)、及び、R(D)から構成される励起信号記憶部13a及び13bを模式的に示したものである。以下ではこれらの雑音信号の集合を雑音符号帳71と称する。
雑音符号帳71には、1フレームに対応する時間に渡り持続する雑音信号R(A)の時間依存性が、デジタルデータとして格納されている。雑音符号帳71には、このように、実際には、信号の具体的な時間依存性が格納されているのであるが、図6では、雑音信号R(A)が特徴を有さないホワイトノイズであることを示すために、そのスペクトルが、強度が周波数によらない一定値をとるようなものであることを、模式的に示してある。紙面の都合により省略したが、雑音信号R(B)、R(C)、及び、R(D)も、スペクトルとして表示すれば、雑音信号R(A)の場合と同様になる。ただし、時間の関数としてのこれら4個の雑音信号は、少しずつであるにしても相互に異なるものであるから、厳密には、これら4個の雑音信号のスペクトルが全て同じになるわけではない。雑音符号帳71の中に描かれたスペクトルは、あくまでも、単に、雑音信号になんら特段の作為が施されていないことを強調するための模式図にすぎない。
雑音符号帳71においては、図6に雑音特定用データと称して示されているように、2桁の2進数"00"、"01"、"10"、及び、"11"が、それぞれ、雑音信号R(A)、R(B)、R(C)、及び、R(D)に付されており、この雑音特定用データにより、雑音符号帳71に格納されている雑音信号が相互に区別できるようになっている。この雑音特定用データは、そのまま、疑似励起信号特定用データとして用いられることとする。これが可能なのは、上述のとおり、励起信号片1個がそのまま試行用励起信号1個として扱われることとしたからである。つまり、疑似励起信号特定用データは、このように各励起信号片に付された番号で足りる。また、2桁の2進数は情報量としては2ビットであるから、先に述べた、音声符号化装置1と音声復号装置2とが符号の授受に用いる電波の帯域は1フレームに対応する時間につき2ビットを疑似励起信号特定用データの伝達のために用いることができるものである、という条件を満たす。
このような雑音符号帳71を採用しても、もちろん、音声符号化及び復号は可能である。しかし、同じ4個の雑音信号が格納されるにしても、上述のように例えばランダムに選択された雑音信号が格納された雑音符号帳71が用いられるよりも、音声信号の特徴を考慮して選択された4個の雑音信号が格納された励起信号記憶部13a及び13bが用いられるほうが、再生音声の品質が高くなる。このように再生音声の高品質化が図られた形態の一例が、本実施の形態である。
本実施の形態における励起信号片記憶部13a及び13bを、図6の左側に鎖線で囲んで示す。以下ではこれを、雑音符号帳73と称する。
図1の音声符号化装置1、図2の音声復号装置2、及び、図3の音声符号化兼復号装置3の製造段階において、次のことを行う。すなわち、図1のA/D変換部293が採用するサンプリング周波数の半分程度の周波数を上限周波数として、カットオフ周波数が周波数軸上で等間隔になるような、励起信号片の個数と同じ個数のハイパスフィルタを用意する。例えば、A/D変換部293が採用するサンプリング周波数が8kHzである場合は、図6の右上に描いたようなグラフを想定して、カットオフ周波数がそれぞれ0kHz、1.2kHz、2.4kHz、3.6kHzである4個のハイパスフィルタを用意する。雑音符号帳71に格納されている雑音信号R(A)を、これら4個のハイパスフィルタに通すことにより、4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)を生成する。なお、ここでは、雑音信号の表記法は、次のようなものである。すなわち、括弧の中の最初の「A」は、該雑音が雑音信号R(A)を起源とするものであることを意味し、次の"kHz"の部分は、カットオフ周波数を意味する。
生成したこれら4個の雑音信号を雑音符号帳73としてまとめて、励起信号片記憶部13a及び13bに格納する。物理的には、図3に示すROM43に、雑音符号帳73に相当するデータが書き込まれる。その際、これら4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)には、図6の雑音符号帳73の中に示したように、それぞれに、雑音特定用データとして、2桁の2進数"00"、"01"、"10"、及び、"11"が付される。
図6では、雑音符号帳73の中に、各雑音信号のスペクトルが模式的に示されている。つまり、各雑音信号をスペクトルとして表現した場合、各スペクトルは、カットオフ周波数以下の成分を有さない一方、カットオフ周波数よりも高い周波数については、ホワイトノイズと同様に、周波数に依存しない一定の強度を有する。
このように構成された雑音符号帳73を励起信号片記憶部13a及び13bとして採用した、本実施の形態に係る音声符号化装置1、音声復号装置2、及び、音声符号化兼復号装置3は、雑音符号帳71が採用された音声符号化及び復号装置に比べて、記憶されている励起信号片の個数が等しいにもかかわらず、高品質の音声再生を可能とする。すなわち、高いコストパフォーマンスを実現する。
1フレームに対応する時間区間に細分した場合、入力音声は、時間区間毎にその具体的な値は異なるものの一定の周波数以下の周波数成分を含まない場合がある。よって、特に、符号帳に掲載できる雑音信号の個数が諸般の事情により限られている場合、例えばここで説明しているように4個に限られている場合には、様々な周波数を境に低域成分がカットされている複数の雑音信号を符号帳に掲載すると、無作為に選択した同じ個数の雑音信号を掲載する場合に比べて、信号標本の個数の割に、再生音声の品質が高くなる。また、前記一定の周波数がたまたま0kHzであった場合、すなわち、前記時間区間の間の入力音声が直流成分を含む場合に備えて、励起信号片としてカットオフ周波数が0kHzの雑音信号が存在することが望ましいので、本実施の形態では、雑音符号帳73には雑音信号R(A、0kHz)が励起信号片として含まれている。カットオフ周波数が0kHzのフィルタを通された信号は元のままであるから、雑音符号帳73に格納されているこの雑音信号R(A、0kHz)は、雑音符号帳71に格納されている雑音信号R(A)そのものであり、雑音信号R(A)は、既に述べたとおり、特段の作為を施されていない雑音信号であるから、雑音信号R(A、0kHz)は、上述の、励起信号片として存在することが望ましい雑音信号としての条件を満たしている。
本実施の形態に係る図1の音声符号化装置1、図2の音声復号装置2、及び、図3の音声符号化兼復号装置3においては、各フレームについて疑似励起信号として選択される励起信号片は、多くの場合、該フレームに対応する時間区分における入力音声が含む最低周波数成分の周波数に近いカットオフ周波数成分を有する雑音信号である。つまり例えば、あるフレームに対応する時間区分における入力音声信号が含む最低周波数成分の周波数が1000Hzであれば、多くの場合、雑音信号R(A、1.2kHz)が疑似励起信号として選択される結果となるし、入力音声信号が含む最低周波数成分の周波数が3700Hzであれば、多くの場合、雑音信号R(A、3.6kHz)が選択される。そして、かかる選択が行われることによってこそ、本実施の形態に特有の効果が最も顕著に発現する。ただし、図4及び図5を参照して説明した類似度には様々な定義が考えられることや、たまたまある時間区分で入力音声が特異的な特徴を有することがある場合も考えられるので、上述の選択が行われない場合がある可能性はある。本実施の形態は、かかる事態が生じる場合を除外するものではない。かかる事態は例外的なものであり、連続するある程度多数の前記時間区分が連なった時間帯、典型的には人間同士の会話において音声が言語としての意味をなす程度の長さの時間帯を全体的に考えれば、本実施の形態の効果は確実に発現すると期待されるからである。
このように、本実施の形態によれば、雑音符号帳に掲載される雑音信号を、カットオフ周波数が低域から高域の間で順次切り替わっていくハイパスフィルタを通した雑音信号とする。これにより、入力音声の残差信号のうちの雑音的な部分の特徴を、雑音符号帳の容量及び通信ビットレートの割には効果的に表現することが可能となる。したがって、本実施の形態によれば、雑音符号帳の容量や通信ビットレートに制約がある場合でも、該制約の影響が極力排除され再生される音声の聴覚上の音質が高く維持されるような音声符号化及び復号が可能となる。
雑音符号帳73に格納する各雑音信号のカットオフ周波数は、上述のように、A/D変換部293が採用するサンプリング周波数の半分程度の周波数を上限周波数として、カットオフ周波数が周波数軸上で等間隔に並ぶように決めた。
上限周波数をサンプリング周波数の半分程度とした理由は、それ以上高い周波数を上限周波数とすることが、離散データに関する数学的原理上、格別の効果をもたらさないからである。
カットオフ周波数を、周波数軸上で等間隔に並ぶように決定する理由は、1フレームに対応する時間区間毎に定まる、入力音声の最低周波数成分の周波数の値の出現頻度分布が、周波数に対して概ね一様となるので、カットオフ周波数の間隔が一定になるような複数の信号標本を符号帳に掲載すると効率が良いためである。なお、諸般の制約条件が緩いために励起信号片記憶部13aにより多くの励起信号片を格納する余地があるならば、再生音声品質をいっそう向上させるために、前記出現頻度がわずかであれ高いことが実験等により判明した帯域については、該帯域に対応した励起信号片を特に手厚く格納するようにしてもよい。具体的には、例えば、該帯域でのみ、他の帯域に比べてより小刻みにカットオフ周波数を相違させるようにした励起信号片を格納することが考えられる。
なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。
例えば、図3に示される音声符号化兼復号装置3として携帯電話機を想定して説明したが、PHS(Personal Handyphone System)や、PDA(Personal Digital Assistants)、あるいは一般的なパーソナルコンピュータには、本発明を容易に適用することができる。すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。
また、図6を参照した上記の説明においては、励起信号片記憶部13a及び13bに格納される励起信号片の集合として、1個の雑音信号R(A)に由来する4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)から構成される雑音符号帳73が採用されるとした。しかし、全ての励起信号片が同一の信号を起源としなければならないわけではない。よって、例えば、図7に模式的に示したように、カットオフ周波数が0kHzの雑音信号を雑音信号R(A)から生成し、カットオフ周波数が1.2kHzの雑音信号を雑音信号R(A)とは別の雑音信号R(B)から生成し、カットオフ周波数が2.4kHzの雑音信号をさらに別の雑音信号R(C)から生成し、カットオフ周波数が3.6kHzの雑音信号をさらにまた別の雑音信号R(D)から生成して、結局、雑音信号R(A、0kHz)、R(B、1.2kHz)、R(C、2.4kHz)、及び、R(D、3.6kHz)から構成される雑音符号帳75を、雑音符号帳73のかわりに採用してもよい。なお、図6及び図7の雑音符号帳71の中の雑音信号R(A)、R(B)、R(C)、及び、R(D)は、いずれも、1フレームに対応する時間長だけ持続する雑音信号であるが、これらが乱数発生器等により個別に生成される必要はなく、十分長い時間に渡って持続する雑音信号のうちから、1フレームに対応する時間長に相当する重複しない部分を4個選んで、該部分を切り出すことにより4個の雑音信号を生成してもよい。
また、図6を参照した上記の説明においては、音声符号化及び復号装置を製造する段階で、雑音符号帳に掲載する雑音信号を決定したが、励起信号片をより多彩にすることが許容される場合には、製造段階では図6及び図7に示す雑音符号帳71を図3のROM43に書き込んでもよい。この場合は、製造段階で、カットオフ周波数が可変のハイパスフィルタにデジタル信号を通すことに相当する演算をCPU41に行わせる動作プログラムを、ROM43にさらに書き込んでおく。そして、音声符号化及び復号装置の動作時に、該ハイパスフィルタを機能させることにより、ROMに書き込まれてある雑音信号に基づいて、図3の記憶部45に、図6の雑音符号帳73又は図7の雑音符号帳75を展開して、適宜利用する。
本発明の実施の形態に係る音声符号化装置の機能構成を示す図である。 本発明の実施の形態に係る音声復号装置の機能構成を示す図である。 本発明の実施の形態に係る音声符号化兼復号装置の物理的な構成を示す図である。 疑似励起信号特定用データを求める処理の流れの一例を示す図である。 疑似励起信号特定用データを求める処理の流れの別の一例を示す図である。 本発明の実施の形態に係る励起信号片記憶部に格納される励起信号片の一例を模式的に示す図である。 本発明の実施の形態に係る励起信号片記憶部に格納される励起信号片の別の一例を模式的に示す図である。
符号の説明
1・・・音声符号化装置、2・・・音声復号装置、3・・・音声符号化兼復号装置、11・・・予測分析部、13a・・・励起信号片記憶部、13b・・・励起信号片記憶部、15・・・励起信号決定部、17・・・符号化部、21・・・送信部、33・・・受信部、35・・・復号部、39・・・音声再生部、41・・・CPU、43・・・ROM、45・・・記憶部、51・・・音声処理部、53・・・無線通信部、55・・・操作キー入力内容処理部、61・・・システムバス、71・・・雑音符号帳、73・・・雑音符号帳、75・・・雑音符号帳、151a・・・励起信号生成部、151b・・・励起信号生成部、153・・・励起信号特定用データ生成部、155a・・・合成フィルタ部、155b・・・合成フィルタ部、157・・・比較部、159・・・スイッチ開閉部、293・・・A/D変換部、295・・・マイクロフォン、393・・・D/A変換部、395・・・スピーカ、451・・・RAM、453・・・ハードディスク、533・・・アンテナ、553・・・操作キー

Claims (10)

  1. 入力音声信号に予測分析を施すことにより予測係数を算出する予測分析部と、
    それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
    前記予測分析部が算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、前記励起信号片記憶部に記憶されている励起信号片に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定部と、
    前記予測分析部が算出した予測係数と前記励起信号決定部が求めた疑似励起信号特定用データとを符号化する符号化部と、
    を備える音声符号化装置。
  2. 前記励起信号片記憶部は、
    それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の雑音信号を励起信号片として記憶する、
    ことを特徴とする請求項1に記載の音声符号化装置。
  3. 前記励起信号片記憶部は、
    それぞれに0からN(Nは、所定の自然数、以降同じ。)−1までのうちのいずれかの識別用番号が付された信号であって所定の上限周波数に該識別用番号を乗じた後にNで除した結果である周波数をカットオフ周波数とし該カットオフ周波数以下の周波数成分を含まないN個の信号を励起信号片として記憶する、
    ことを特徴とする請求項1又は2に記載の音声符号化装置。
  4. 前記励起信号決定部は、
    前記励起信号片記憶部に記憶されている励起信号片を1個特定するか又は複数個組み合わせるかすることにより前記疑似励起信号の候補である試行用励起信号を生成するときの前記励起信号片の特定結果又は組み合わせ方を試行用励起信号生成方針として決定する試行方針決定部と、
    前記試行方針決定部が決定した試行用励起信号生成方針に従って前記励起信号片記憶部に記憶されている励起信号片を1個特定するか又は複数個組み合わせるかすることにより前記試行用励起信号を生成する励起信号生成部と、
    前記予測分析部が算出した予測係数により定義され、前記試行用励起信号が入力されることにより音声信号を合成する合成フィルタ部と、
    を備え、
    前記合成フィルタ部が合成した音声信号により前記入力音声信号が所定の許容誤差範囲内で再現される場合に、該合成フィルタ部に入力された試行用励起信号が前記励起信号生成部により生成された際に前記試行方針決定部により決定された試行用励起信号生成方針を前記疑似励起信号特定用データとする、
    ことを特徴とする請求項1乃至3の何れか1項に記載の音声符号化装置。
  5. 前記試行方針決定部は、
    有限個の試行用励起信号生成方針を決定する、
    ことを特徴とし、
    前記励起信号生成部は、
    前記試行方針決定部が決定した有限個の試行用励起信号生成方針に従って有限個の前記試行用励起信号を生成する、
    ことを特徴とし、
    前記励起信号決定部は、
    前記励起信号生成部が生成した有限個の試行用励起信号が前記合成フィルタ部に入力されることにより該合成フィルタ部が合成した有限個の音声信号のうちから前記入力音声信号に最も近い音声信号である疑似音声信号を決定し、該疑似音声信号が合成されるに際して該合成フィルタ部に入力された試行用励起信号を前記疑似励起信号とする、
    ことを特徴とする請求項4に記載の音声符号化装置。
  6. それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
    前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信部と、
    前記受信部が受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号部と、
    前記復号部が生成した励起信号特定用データを前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより励起信号を生成する励起信号生成部と、
    前記復号部が生成した予測係数と前記励起信号生成部が生成した励起信号とから音声信号を生成する音声再生部と、
    を備える音声復号装置。
  7. 入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
    前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
    前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
    から構成される音声符号化方法。
  8. それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
    前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
    前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
    前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
    から構成される音声復号方法。
  9. コンピュータに、
    入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
    前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
    前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
    を実行させるプログラム。
  10. コンピュータに、
    それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
    前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
    前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
    前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
    を実行させるプログラム。
JP2007152816A 2007-06-08 2007-06-08 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム Expired - Fee Related JP4905262B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007152816A JP4905262B2 (ja) 2007-06-08 2007-06-08 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007152816A JP4905262B2 (ja) 2007-06-08 2007-06-08 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2008304775A JP2008304775A (ja) 2008-12-18
JP4905262B2 true JP4905262B2 (ja) 2012-03-28

Family

ID=40233551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007152816A Expired - Fee Related JP4905262B2 (ja) 2007-06-08 2007-06-08 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP4905262B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05150800A (ja) * 1991-11-30 1993-06-18 Fujitsu Ltd 音声符号器
JPH05273998A (ja) * 1992-03-30 1993-10-22 Toshiba Corp 音声符号化装置
JP3749838B2 (ja) * 2001-07-13 2006-03-01 日本電信電話株式会社 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体
JP3785363B2 (ja) * 2001-12-27 2006-06-14 松下電器産業株式会社 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法

Also Published As

Publication number Publication date
JP2008304775A (ja) 2008-12-18

Similar Documents

Publication Publication Date Title
EP2209114B1 (en) Speech coding/decoding apparatus/method
CN101091206B (zh) 语音编码装置和语音编码方法
JP2021525905A (ja) 低ビットレート符号化オーディオの増強を制御する方法及び機器
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
KR19980028284A (ko) 음성신호재생방법 및 장치, 음성복호화방법 및 장치, 음성합성방법 및 장치와 휴대용 무선단말장치
JP5519230B2 (ja) オーディオエンコーダ及び音信号処理システム
JP2011516901A (ja) 受信機を使用するコンテキスト抑圧のためのシステム、方法、および装置
JP4464707B2 (ja) 通信装置
JP4445328B2 (ja) 音声・楽音復号化装置および音声・楽音復号化方法
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
TR201906190T4 (tr) Frekansı geliştirilmiş bir ses sinyalinin üretilmesi için dekoder, dekode işlemine ilişkin yöntem, enkode edilmiş bir sinyalin üretilmesi için enkoder ve kompakt seçimi yan bilgisinin enkode edilmesine ilişkin yöntem.
JP4789430B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
CN115485769A (zh) 动态范围减小的域中增强多声道音频的方法、装置和系统
WO2006046587A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JPWO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US8036390B2 (en) Scalable encoding device and scalable encoding method
JP4905262B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2004301954A (ja) 音響信号の階層符号化方法および階層復号化方法
JP2005114813A (ja) オーディオ信号再生装置及び再生方法
Choudhary et al. Study and performance of amr codecs for gsm
JP5098458B2 (ja) 音声符号化装置、音声符号化方法、及び、プログラム
Sinha Speech compression overview
JP2013076796A (ja) 音声復号装置及び音声復号方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4905262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees