JP4905262B2

JP4905262B2 - 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Info

Publication number: JP4905262B2
Application number: JP2007152816A
Authority: JP
Inventors: 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2007-06-08
Filing date: 2007-06-08
Publication date: 2012-03-28
Anticipated expiration: 2027-06-08
Also published as: JP2008304775A

Description

本発明は、励起信号標本を用いて音声圧縮復元を実行する際に必要となる、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムに関する。

携帯電話機等においては、例えば8kbpsや16kbpsといった低ビットレート通信に対応するために、音声を符号化することによる情報量圧縮技術が必要となる。音声符号化方法としては、例えば、ＩＴＵ−Ｔ勧告Ｇ．７２９に示される方法が知られている。該勧告に係る音声符号化方法においては、基本的には、音声信号に予測分析を施して予測係数を算出し、音声再生に最適な励起信号を符号帳から探索した後に、符号化が実行される。予測分析としては、例えば、線型予測分析や、ＭＬＳＡ（Mel Log Spectrum Approximation）分析が知られている（例えば、非特許文献１参照。）。

今井聖著、「音声信号処理」、ＰＯＤ版、森北出版株式会社、２００５年４月、ｐ．１６９−２００

上述の方法による再生音声の品質を向上させるために、符号帳に掲載する励起信号のバリエーションを増やすことが考えられる。このようにすれば、入力音声信号に予測分析を施したときの残差信号に近い信号が符号帳に掲載されている確率が高くなるからである。

しかしながら、このようにすることには、次の３つの問題点がある。すなわち、第一に、符号帳に多数の励起信号サンプルを掲載すると、音声符号化装置及び音声復号装置の記憶ユニットの記憶容量を圧迫してしまうことである。このことは、例えば携帯電話機の場合のように、装置が小型であることが必要とされるために大型の大容量記憶ユニットを搭載することができない場合に問題となる。第二に、符号帳に多数の励起信号サンプルを掲載すると、それだけ多くのサンプルのうちから最適のものを検索しなければならないため、音声符号化装置の演算ユニットに大きな負荷がかかってしまうことである。このことは、携帯電話機におけるリアルタイム通話を阻害したり、安価で一般的な演算ユニットを用いて装置を製造することを困難にしたりしてしまう。また、演算ユニットへの大きな負荷は、消費電力の増加の原因ともなり、電池で動作するポータブル機器の動作時間が短くなってしまうことも問題である。第三に、符号帳に多数の励起信号サンプルを掲載すると、それらのサンプルを相互に区別するために各サンプルに付さねばならない識別番号の桁数も増加し、また、複数のサンプルを組み合わせることにより励起信号を構成する場合にはどのサンプルに基づいてどのように構成したかを特定するための情報もいっそう複雑化する。つまり、音声符号化装置から、該装置がどのサンプルをどのように選択したかを音声復号装置に伝えるために多くのビット数が必要となってしまう。このことは、音声符号化装置及び音声復号装置を低ビットレート通信のために用いたい場合に問題となる。

よって、符号帳のサイズを維持しつつ、再生音声の品質を向上させる音声符号化装置及び音声復号装置が必要とされている。

本発明は上記実情に鑑みてなされたものであり、符号帳を用いた音声圧縮復元において、励起信号標本の個数を増加させずに再生音声の品質を向上させた、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラムを提供することを目的とする。

上記目的を達成するために、本発明の第１の観点に係る音声符号化装置は、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析部と、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記予測分析部が算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、前記励起信号片記憶部に記憶されている励起信号片に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定部と、
前記予測分析部が算出した予測係数と前記励起信号決定部が求めた疑似励起信号特定用データとを符号化する符号化部と、
を備える。

予測分析の単位となる所定の時間長を有する区間に細分した場合、入力音声は、区間毎にその具体的な値は異なるものの一定の周波数以下の周波数成分を含まない場合がある。よって、符号帳に掲載できる信号標本の個数が限られている場合には、様々な周波数を境に低域成分がカットされている複数の信号標本を符号帳に掲載すると、信号標本の個数の割に再生音声の品質が高くなる。

前記励起信号片記憶部は、例えば、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の雑音信号を励起信号片として記憶する。

前記励起信号片記憶部は、例えば、それぞれに０からＮ（Ｎは、所定の自然数、以降同じ。）−１までのうちのいずれかの識別用番号が付された信号であって所定の上限周波数に該識別用番号を乗じた後にＮで除した結果である周波数をカットオフ周波数とし該カットオフ周波数以下の周波数成分を含まないＮ個の信号を励起信号片として記憶する。

上述の区間毎の具体的な値の出現はあらゆる周波数に対して存在するため、カットオフ周波数の間隔が一定になるような複数の信号標本を符号帳に掲載すると効率が良い。

前記励起信号決定部は、例えば、前記励起信号片記憶部に記憶されている励起信号片を１個特定するか又は複数個組み合わせるかすることにより前記疑似励起信号の候補である試行用励起信号を生成するときの前記励起信号片の特定結果又は組み合わせ方を試行用励起信号生成方針として決定する試行方針決定部と、前記試行方針決定部が決定した試行用励起信号生成方針に従って前記励起信号片記憶部に記憶されている励起信号片を１個特定するか又は複数個組み合わせるかすることにより前記試行用励起信号を生成する励起信号生成部と、前記予測分析部が算出した予測係数により定義され、前記試行用励起信号が入力されることにより音声信号を合成する合成フィルタ部と、を備え、前記合成フィルタ部が合成した音声信号により前記入力音声信号が所定の許容誤差範囲内で再現される場合に、該合成フィルタ部に入力された試行用励起信号が前記励起信号生成部により生成された際に前記試行方針決定部により決定された試行用励起信号生成方針を前記疑似励起信号特定用データとする。

処理の高速化を図るため試行時間を短縮したい場合には、許容誤差を大きめに設定しておけば、符号帳に掲載された信号標本から生成され得る励起信号を全ては試行しなくても、ある程度高品質の音声を再生することができる。

前記励起信号決定部は、例えば、有限個の試行用励起信号生成方針を決定する、ことを特徴とし、前記励起信号生成部は、前記試行方針決定部が決定した有限個の試行用励起信号生成方針に従って有限個の前記試行用励起信号を生成する、ことを特徴とし、前記励起信号決定部は、前記励起信号生成部が生成した有限個の試行用励起信号が前記合成フィルタ部に入力されることにより該合成フィルタ部が合成した有限個の音声信号のうちから前記入力音声信号に最も近い音声信号である疑似音声信号を決定し、該疑似音声信号が合成されるに際して該合成フィルタ部に入力された試行用励起信号を前記疑似励起信号とする。

符号帳に掲載された信号標本全てを試行の対象として最適な励起信号を決定するので、与えられた符号帳に基づいて再生され得る音声のうち最も高品質の音声が再生される。

上記目的を達成するために、本発明の第２の観点に係る音声復号装置は、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信部と、
前記受信部が受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号部と、
前記復号部が生成した励起信号特定用データを前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより励起信号を生成する励起信号生成部と、
前記復号部が生成した予測係数と前記励起信号生成部が生成した励起信号とから音声信号を生成する音声再生部と、
を備える。

上記目的を達成するために、本発明の第３の観点に係る音声符号化方法は、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
から構成される。

上記目的を達成するために、本発明の第４の観点に係る音声復号方法は、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
から構成される。

上記目的を達成するために、本発明の第５の観点に係るプログラムは、
コンピュータに、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
を実行させる。

上記目的を達成するために、本発明の第６の観点に係るプログラムは、
コンピュータに、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
を実行させる。

本発明によれば、符号帳を用いる音声圧縮復元を、高い効率で行うことができる。

以下、本発明の実施の形態に係る音声符号化装置及び音声復号装置について詳細に説明する。

なお、理解を容易にするために、音声符号化装置には、予測分析の単位となる所定の時間長に対応する時間帯に渡ってのみ、すなわち１フレームに渡ってのみ、音声信号が入力されたものとする。かかる音声信号に予測分析が施されると、一組の予測係数が生成される。一組の予測係数は、予測分析が行われたフレームにおける合成フィルタを定義する。以下にいう励起信号片は、１フレームに対応する時間だけ持続する信号である。たまたま、元の音声信号の残差信号に近い励起信号片が上述の合成フィルタに入力された場合には、合成フィルタは、元の音声信号に近い音声信号を合成し出力する結果となる。

携帯電話機を用いた会話のように、実際には、いくつものフレームに渡る音声信号が音声符号化装置に入力される。この場合についても、フレーム１個ずつについて順次処理が進行すると考えることにより、以下の説明はそのままあてはまる。

図１に、本発明の実施の形態に係る音声符号化装置１の機能構成を示す。

音声符号化装置１は、予測分析部１１と、励起信号片記憶部１３ａと、励起信号決定部１５と、符号化部１７と、を備える。音声符号化装置１は、マイクロフォン２９５と、Ａ／Ｄ変換部２９３と、送信部２１と、をさらに備える。また、励起信号決定部１５は、励起信号生成部１５１ａと、励起信号特定用データ生成部１５３と、合成フィルタ部１５５ａと、比較部１５７と、スイッチ開閉部１５９と、を備える。

マイクロフォン２９５は、音声符号化装置１のユーザが発した音声をアナログ入力音声信号として収集し、Ａ／Ｄ変換部２９３に引き渡す。Ａ／Ｄ変換部２９３は、引き渡されたアナログ入力音声信号を、例えばサンプリング周波数8kHzでサンプリングすることにより、デジタル入力音声信号に変換して、予測分析部１１と、励起信号決定部１５の中の比較部１５７と、に引き渡す。予測分析部１１は、引き渡されたデジタル入力音声信号に例えば線型予測分析等の予測分析を施すことにより、予測係数を求める。予測分析部１１が求めた予測係数は、符号化部１７に送られて符号化の対象となる他に、励起信号決定部１５の中の合成フィルタ部１５５ａを定義する。ここでいう定義とは、合成フィルタの具体的な仕様が、予測係数によって定まることを指す。

励起信号片記憶部１３ａは、複数の励起信号片を記憶しており、励起信号決定部１５の中の励起信号生成部１５１ａが試行用励起信号を生成する際に参照される。ここで励起信号片とは、既に述べたように、１フレームに対応する時間だけ持続する信号である。励起信号片記憶部１３ａは、かかる励起信号片が複数格納されたデータベースであり、符号帳と呼ばれる。

励起信号決定部１５は、全体としては、Ａ／Ｄ変換部２９３から入力されたデジタル入力信号に適した疑似励起信号特定用データを決定し、それを符号化部１７に送る機能を有する。かかる決定に際し、励起信号決定部１５は、予測分析部１１が求めた予測係数と、励起信号片記憶部１３ａに格納されている励起信号片と、を参照する。

励起信号決定部１５の中の励起信号特定用データ生成部１５３は、同じく励起信号決定部１５の中の励起信号生成部１５１ａに、励起信号生成部１５１ａが励起信号片記憶部１３ａを参照することにより試行用励起信号を生成することができるようにするための、励起信号特定用データを送る。励起信号特定用データは、より具体的には、励起信号片記憶部１３ａに格納されている複数の励起信号片のうちから、例えば特定の１個の励起信号片をそのまま又は特定の利得係数を乗じた上で試行用励起信号とするとの指示であったり、あるいは例えば特定の複数個の励起信号片を重ね合わせたものを試行用励起信号とするとの指示であったり、さらには例えば特定の単数又は複数の励起信号片に特定の利得係数を乗じたものと別の特定の単数又は複数の励起信号片に別の特定の利得係数を乗じたものとを重ね合わせたものを試行用励起信号にするとの指示であったりする。つまり、励起信号片記憶部に格納された励起信号片のそれぞれに識別用番号が付されているとすれば、１個の励起信号特定用データは、試行用励起信号の材料として選択されるべき励起信号片の識別番号や、選択された各励起信号片に乗じられるべき利得係数等を含むのであって、励起信号生成部１５１ａが励起信号片記憶部１３ａを参照しつつ１個の試行用励起信号を生成するための必要にして十分なデータである。

後述するように、最終的には、励起信号特定用データ生成部１５３が生成する励起信号特定用データのうちの１個が、疑似励起信号特定用データとして励起信号決定部１５から出力される。そして、これも後述するように、励起信号特定用データ生成部１５３は、疑似励起信号特定用データとして選択されるのに適した試行用励起信号がいかなる信号であるかが決定されるまで、様々なバリエーションの励起信号特定用データを生成し続け、試行錯誤を繰り返す。励起信号特定用データ生成部１５３は、かかる試行錯誤のために必要な、上述のバリエーションをもたらすための手順を記憶している。つまり、励起信号片記憶部１３ａに格納された励起信号片にそれぞれ０からＮ（Ｎは、所定の自然数、以降同じ。）−１までのうちのいずれかの識別用番号が付されているとすれば、励起信号特定用データ生成部１５３は、例えば、まず識別番号０が付された励起信号片をそのまま試行用励起信号とするように指示する励起信号特定用データを生成し、必要に応じて以下順次識別番号の昇順に（Ｎ−１）番までの各励起信号片を指定する励起信号特定用データを生成し、なおも必要ならば、その後、所定の規則に従って、上述のように複数の励起信号片の組み合わせや、各励起信号片に利得係数を乗じた上での重ね合わせ等を指示内容とする励起信号特定用データを生成する。

励起信号特定用データ生成部１５３が記憶する上述の手順は、携帯電話機等の用途に求められるリアルタイム通信を阻害しないよう高速に行うべきという要請と、励起信号片記憶部１３ａに記憶されている励起信号片をできるだけ有効に活用することによりできる限り入力音声に忠実に音声を再生すべきという要請と、の兼ね合いを考慮しつつ、利用可能なハードウェア資源を見極めて、定めることが望ましい。また、複数パラメータの同時最適化を最小のステップで実現するための任意の既知の数値計算手法を上述の手順に導入して、処理の高速化を図ってもよい。

励起信号生成部１５１ａは、励起信号特定用データ生成部１５３から引き渡された励起信号特定用データの指示に従って、励起信号片記憶部１３ａを参照しそれに格納されている励起信号片を検索して取得し該励起信号片に利得係数による乗算や重ね合わせ等を施すことにより、試行用励起信号を生成する。

励起信号決定部１５の中の合成フィルタ部１５５ａは、前述のとおり予測分析部１１が求めた予測係数により定義される。かかる定義により仕様の定まった合成フィルタ部１５５ａに、励起信号生成部１５１ａが生成した試行用励起信号が入力されると、合成フィルタ部１５５ａは、試行用デジタル音声信号を合成して出力する。

原理的には、合成フィルタ部１５５ａに入力される試行用励起信号が、Ａ／Ｄ変換部２９３が生成したデジタル入力音声信号の残差信号とたまたま一致した場合、合成フィルタ部１５５ａが合成して出力した試行用デジタル音声信号は、デジタル入力音声信号を完全に再現した信号となる。音声の符号化及び復号の過程における音声品質の維持という観点からは、そのようになるのが最も理想的である。励起信号特定用データ生成部１５３が上述のように様々なバリエーションの試行用励起信号の生成の指示を励起信号生成部１５１ａに与えるのは、試行用デジタル音声信号ができるだけデジタル入力音声信号を忠実に再現する結果となるような試行用励起信号を、試行錯誤により見つけ出すためである。そして、そのように見つけ出された試行用励起信号の、励起信号片からの生成の仕方を指示するデータが、疑似励起信号特定用データとして、符号化部１７による符号化及び送信部２１による音声復号装置への送信の対象となる。

合成フィルタ部１５５ａが合成して出力した試行用デジタル音声信号は、励起信号決定部１５の中の比較部１５７に入力される。比較部１５７には、Ａ／Ｄ変換部２９３からデジタル入力音声信号も入力される。上述のように最適な試行用励起信号の生成の仕方を決定するのに役立てるために、比較部１５７は、これら2個の入力信号を比較して、どの程度似ているか、評価する。評価には、定量的な手法であれば、任意の既知の手法を用いてよい。

なお、図には示していないが、合成フィルタ部１５５ａが合成して出力した試行用デジタル音声信号は、新たな励起信号片として、励起信号片記憶部１３ａの記憶容量が許容する限り、励起信号片記憶部１３ａに追加的に格納されてもよい。このようにすると、励起信号特定用データ生成部１５３が多様な励起信号特定用データを生成するための手順がより複雑になる可能性はあるものの、励起信号片記憶部１３ａに記憶されている励起信号片自体が多様化するので、いっそう適切な疑似励起信号特定用データが励起信号決定部１５から出力されることが期待される。

励起信号片記憶部１３ａ全体を上述のように符号帳と呼ぶ場合には、符号帳のうち、後から追加された励起信号片から構成される部分を指して適応符号帳と呼ぶことが多い。なお、元から用意されている励起信号片としては、雑音信号が採用される場合が多いので、符号帳のうち、元から存在する励起信号片から構成される部分は、雑音符号帳と呼ばれることが多い。適応符号帳が生成された場合には、音声復号装置が音声再生に支障をきたさないよう、適応符号帳が生成された旨と、適用符号帳の内容とが、音声復号装置に伝達されるようにする。

比較部１５７は、試行用デジタル音声信号がデジタル入力音声信号に十分に近いと判別した場合は、励起信号決定部１５の中のスイッチ開閉部１５９に、その中に設けられたスイッチ（図示せず。）を閉じるよう命令する。それ以外の場合は、比較部１５７は、該スイッチを開く命令を出し続けて、該スイッチを開いたままの状態を維持する。スイッチ開閉部１５９は、励起信号特定用データ生成部１５３から出力される励起信号特定用データが伝達されるための経路のうち、励起信号特定用データ生成部１５３と符号化部１７とを結ぶ経路の途中に設けられたものであり、その中の上述のスイッチが閉じられると該経路がつながり、スイッチが開かれると該経路が切断される。つまり、スイッチが閉じられると、励起信号特定用データ生成部１５３から符号化部１７に励起信号特定用データが引き渡され、スイッチが開かれると、引き渡されない。

比較部１５７により試行用デジタル音声信号がデジタル入力音声信号に十分に近いと判別された場合、すなわち、その時点で試行に用いられている試行用デジタル音声信号がデジタル入力音声信号に十分に似ている場合には、該試行用デジタル音声信号が合成フィルタ部１５５ａにより合成される際に用いられた試行用励起信号を励起信号生成部１５１ａに生成させている励起信号特定用データが、疑似励起信号特定用データとしてふさわしいということである。よって、かかる場合は、スイッチ開閉部１５９が、励起信号特定用データ生成部１５３と符号化部１７とを結ぶ経路をつないで、該時点での励起信号特定用データが疑似励起信号特定用データとして符号化部１７に引き渡されるようにする。

一方、比較部１５７により試行用デジタル音声信号がデジタル入力音声信号に十分に近いとは判別されなかった場合、比較部１５７は、スイッチ開閉部１５９に対して、引き続きスイッチ開閉部の中のスイッチを開き続けるよう命令するとともに、励起信号特定用データ生成部１５３に、新たな励起信号特定用データを生成するよう指示する命令である励起信号特定用データ変更命令を与える。かかる命令を受けた励起信号特定用データ生成部１５３は、既に述べた記憶されている所定の手順に従って、まだ試行していないバリエーションの試行用励起信号をもたらすような励起信号特定用データを生成し、励起信号生成部１５１ａに送り、試行を繰り返す。

このようにして、励起信号決定部１５は、疑似励起信号特定用データを出力し、符号化部１７に引き渡す。上述のような試行錯誤を経ている以上、疑似励起信号特定用データに基づいて生成される試行用励起信号は、デジタル入力音声信号の残差信号に、一致することはまれであるにしても、よく似ていることは期待される。疑似励起信号特定用データに基づいて生成される試行用励起信号がデジタル入力音声信号の残差信号に似ているほど、音声符号化及び復号の過程での音声品質の劣化が少なく、高品質音声再生に資する。

符号化部１７は、予測分析部１１が求めた予測係数と、励起信号決定部１５から出力された疑似励起信号特定用データと、を受け取り、これらをまとめて任意の既知の手法により符号化し、その結果である符号を、送信部２１に引き渡す。送信部２１は、符号化部１７から引き渡された符号を、音声符号化装置に送信する。かかる送信は、本実施の形態においては、符号を電気的搬送波に重畳して電波として送信する無線通信手法によるものとするが、有線通信手法によってもよいし、その他の任意の既知の手法によってもよい。

図２に、本発明の実施の形態に係る音声復号装置２の機能構成を示す。

音声復号装置２は、励起信号片記憶部１３ｂと、受信部３３と、復号部３５と、励起信号生成部１５１ｂと、音声再生部３９と、を備える。音声再生部３９は、合成フィルタ部１５５ｂと、Ｄ／Ａ変換部３９３と、スピーカ３９５と、を備える。

励起信号片記憶部１３ｂは、音声符号化装置１の励起信号片記憶部１３ａ（図１）と同じ機能を有する。励起信号生成部１５１ｂは、音声符号化装置１の励起信号生成部１５１ａ（図１）と同じ機能を有する。合成フィルタ部１５５ｂは、音声符号化装置１の合成フィルタ部１５５ａ（図１）と同じ機能を有する。

図２に示す受信部３３は、図１に示す音声符号化装置１の送信部２１が発した、符号が重畳された電波を受信して該符号を取り出す。図２の受信部３３は、該符号を復号部３５に引き渡す。復号部３５は、図１の音声符号化装置の符号化部１７が符号化の際に用いた所定の符号化方法と対をなす復号方法により、該符号を復号する。既に図１を参照して説明したことから明らかなように、該符号は、予測係数及び疑似励起信号特定用データが符号化されたものであるから、図２の復号部３５が、受信部３３から受け取った符号を復号すると、予測係数及び疑似励起信号特定用データが生成される。

復号部３５が生成した予測係数と疑似励起信号特定用データのうち、後者は、励起信号生成部１５１ｂに引き渡される。励起信号生成部１５１ｂは、受け取った疑似励起信号特定用データの指示内容に従って、励起信号片記憶部１３ｂから必要な励起信号片を取得し、取得した励起信号に必要に応じて加工を施すことにより、疑似励起信号を生成する。励起信号生成部１５１ｂは、生成した疑似励起信号を、音声再生部３９に、より詳細には、音声再生部３９の中の合成フィルタ部１５５ｂに、引き渡す。一方、復号部３５が生成した予測係数は、音声再生部３９の中の合成フィルタ部１５５ｂを定義するために用いられる。

音声再生部３９は、励起信号生成部１５１ｂから出力された疑似励起信号を、復号部３５が生成した予測係数を参照することにより、音声復号装置２のユーザが聞き取ることのできる音波に変換する。音声再生部３９の中の合成フィルタ部１５５ｂは、復号部３５により生成された予測係数により自らの仕様を定義する。励起信号生成部１５１ｂが生成した疑似励起信号が合成フィルタ部１５５ｂに入力されると、図１の音声符号化装置の予測分析部１１で行われた予測分析と対をなす合成操作が該疑似励起信号に施される結果、デジタル入力音声信号に近い信号であることが期待される信号が合成され出力される。以下では図２の合成フィルタ部１５５ｂが出力するこの信号をデジタル出力音声信号と呼ぶ。このデジタル出力音声信号はＤ／Ａ変換部３９３に送られる。Ｄ／Ａ変換部３９３は、合成フィルタ部１５５ｂから送られたデジタル出力音声信号をＤ／Ａ変換した結果であるアナログ音声信号を、スピーカ３９５に引き渡す。スピーカ３９５は、引き渡されたアナログ音声信号を、音声復号装置２のユーザが聞き取ることのできる音波に変換する。

図３に示すように、本実施の形態においては、ユーザにとっての利便性を確保する観点から、図１に示した音声符号化装置１と、図２に示した音声復号装置２と、は、物理的には、ひとまとまりの装置すなわち音声符号化兼復号装置３として統合され、単一の筺体に収納されているものとする。音声符号化兼復号装置３の典型的な例としては、携帯電話機が挙げられる。

音声符号化兼復号装置３は、ＣＰＵ（Central Processing Unit）４１と、ＲＯＭ（Read Only Memory）４３と、記憶部４５と、音声処理部５１と、無線通信部５３と、操作キー入力内容処理部５５と、を備え、これらは、システムバス６１により相互に接続されている。システムバス６１は、命令やデータを転送するための伝送経路である。

ＣＰＵ４１は、システムバス６１を介して、ＲＯＭ４３、記憶部４５、音声処理部５１、無線通信部５３、及び、操作キー入力内容処理部５５を制御し、付随して、これらとの間でデータの授受を行う。ＣＰＵ４１は、例えば、ＲＯＭ４３に格納されている音声符号化又は音声復号のための動作プログラムを読み込み、該動作プログラムに記述された指示に従って、記憶部４５からデータを受け取って所定の演算を施してから記憶部４５に該演算の結果を格納する。ＲＯＭ４３には、ＣＰＵ４１を動作させるための上述の動作プログラム等が格納されている。また、ＲＯＭ４１には、上述の符号帳のうち、雑音符号帳に相当する部分に含まれる雑音信号がデジタルデータとして格納されていてもよい。記憶部４５は、ＲＡＭ（Random Access Memory）４５１と、ハードディスク４５３と、を備える。記憶部４５は、例えば、音声符号化及び復号の過程で生成される各種信号を、デジタルデータとして格納する。

音声符号化兼復号装置３は、マイクロフォン２９５と、スピーカ３９５と、アンテナ５３３と、操作キー５５３と、をさらに備える。マイクロフォン２９５は、図１に示されたものと同じものであり、音声符号化を望むユーザの音声を収集し、音声処理部５１に引き渡す。スピーカ３９５は、図２に示されたものと同じものであり、音声復号を望むユーザのために、音声処理部５１から引き渡された再生音声データに基づいて再生音声を発する。音声符号化兼復号装置３が図１の音声符号化装置１として機能する場合、図３のアンテナ５３３は、無線通信部５３から引き渡された電気信号に基づいて、符号が重畳された電波を、図２の音声復号装置２として機能する別の音声符号化兼復号装置３に向けて発する。図３の音声符号化兼復号装置３が図２の音声復号装置２として機能する場合、図３のアンテナ５３３は、図１の音声符号化装置１として機能する別の音声符号化兼復号装置３のアンテナ５３３から発せられた電波を捉え、該電波に対応する電気信号を無線通信部５３に引き渡す。図３の操作キー５５３は、あらかじめ与えられている各種初期設定値をユーザの判断により変更する場合や、音声符号化を望むユーザが、通話の相手方であるユーザが所持する音声符号化兼復号装置３を特定するための情報、例えば携帯電話機の場合であれば電話番号を、入力する場合等に、用いられる。操作キー５５３の各キーには所定のキーコードが割り当てられており、ユーザが操作キー５５３を操作すると、操作キー入力内容処理部５５は操作キー５５３からかかる操作に対応する信号を受け取り該信号を解析してかかるキーコードを割り出し、それをＣＰＵ４１にシステムバス６１を介して伝達する。こうして、ユーザの意図がＣＰＵ４１の動作に反映される。

ＣＰＵ４１は、ＲＯＭ４３に格納された動作プログラムに従い記憶部４５等と協同して動作することにより、図１及び図２に示された各ブロックとして機能する。図３の音声処理部５１にはＡ／Ｄコンバータ及びＤ／Ａコンバータが内蔵されている（図示せず。）ため、ＣＰＵ４１は、特に、図１のＡ／Ｄ変換部２９３及び図２のＤ／Ａ変換部３９３として機能する場合は、図３の音声処理部５１と密接に協同して動作する。また、図３の無線通信部５３には符号を搬送波に重畳する装置や符号が重畳された搬送波から符号を取り出す装置が内蔵されている（図示せず。）ため、ＣＰＵ４１は、特に、図１の送信部２１及び図２の受信部３３として機能する場合は、図３の無線通信部５３と密接に協同して動作する。

以下では、図１を参照して機能構成の観点から説明した励起信号決定部１５の動作を、フローチャートにまとめ、処理の流れという観点から説明する。図１を参照して既に言及したように、かかる処理の流れは、符号化の高速性を重視するか、元の音声に対する再生音声の忠実性を重視するか、により、差異が生じ得る。以下では、前者を重視した場合の典型的な処理の流れを図４を参照しつつ説明してから、後者を重視した場合の典型的な処理の流れを図５を参照しつつ説明する。

なお、両者の相違は相対的な相違に過ぎず、同じ技術的思想の範囲に含まれる。以下では理解を容易にするために、それぞれの場合について端的に例示するだけであり、両者の中間に位置づけられる処理の流れも考え得るし、あるいは、両者を併用したり状況に応じて使い分けたりするといったバリエーションも考え得る。

図４は、疑似励起信号特定用データを求める処理の一例を示すフローチャートである。

図３のＣＰＵ４１は、励起信号特定用データを所定のデータに初期化し（図４のステップＳ１１）、図３のＲＯＭ４３又は記憶部４５から、励起信号特定用データの指示内容に従って試行用励起信号を生成するために必要な素材である励起信号片を、ＣＰＵに内臓されているレジスタ（図示せず。）にロードする（図４のステップＳ１３）。ＣＰＵ４１は続いて、励起信号特定用データの指示内容に従って、図４のステップＳ１３でロードした素材である励起信号片に、必要に応じて利得係数を乗じたり重ね合わせ処理を施したりする等の加工を行うことにより、試行用励起信号を生成する（ステップＳ１５）。ＣＰＵ４１はさらに、生成した試行用励起信号を図１の合成フィルタ部１５５ａに通すことに相当する演算を実行することにより、試行用デジタル音声信号を生成し（図４のステップＳ１７）、生成した試行用デジタル音声信号がデジタル入力音声信号に”十分に類似する”か否かを判別する（ステップＳ１９）。

ステップＳ１９における判別が可能となるためには、2個の信号がどのくらい類似しているかを定量的に決定する評価方法、及び、該評価方法による類似の度合いの指標となる値が具体的にいくら以上であれば”十分に類似する”といえるのか、を、あらかじめ定めておく必要がある。評価方法については、任意の既知の手法を用いてよい。類似の度合いの指標を、以下では、類似度と言うことにする。この類似度が具体的にいくら以上であれば”十分に類似する”といえるのかについての閾値として、小さい値を採用するほど、処理の高速化に資するかわりに再生音声の品質が低下する。かかる小さい値の採用は、換言すれば、”十分に類似する”という判断の基準を甘く設定することだからである。閾値は、こうしたことを念頭において、例えば、実験に基づく経験則から決定することが好適である。

”十分に類似する”とは判別されなかった場合（ステップＳ１９；Ｎｏ）、別の試行用励起信号を試すために、励起信号特定用データを変更してから（ステップＳ２１）、ステップＳ１３に戻る。”十分に類似する”と判別された場合（ステップＳ１９；Ｙｅｓ）、この時点での励起信号特定用データを疑似励起信号特定用データに決定して（ステップＳ２３）、処理を終了する。

かかる処理の流れによれば、試行されなかった励起信号特定用データの中に、ステップＳ２３で疑似励起信号特定用データに決定された励起信号特定用データよりもさらに疑似励起信号特定用データにふさわしいものがあった可能性も残るため、音声の忠実な再生という面では不利である。しかしその一方で、図１の励起信号特定用データ生成部１５３が生成し得るあらゆる励起信号特定用データについての試行を行い尽くすよりもかなり前に、処理が終了する確率が高いので、処理の高速化を図ることができる。

図５は、疑似励起信号特定用データを求める処理の別の一例を示すフローチャートである。

図５に示すステップＳ３１、ステップＳ３３、ステップＳ３５、ステップＳ３７は、それぞれ、既に図４に示したステップＳ１１、ステップＳ１３、ステップＳ１５、ステップＳ１７と、同じである。

続くステップＳ３９では、ＣＰＵ４１は、試行用励起信号とデジタル入力音声信号との類似度を求める。さらに、ステップＳ４１では、ＣＰＵ４１は、類似度を、励起信号特定用データの関数として、記憶部４５に格納する。

その後、ステップＳ４３では、ＣＰＵ４１は、図１の励起信号特定用データ生成部１５３が生成し得る全ての励起信号特定用データについて類似度を求めたか否かを判別する。まだ全ての励起信号特定用データについての類似度を求めてはいないと判別された場合（図５のステップＳ４３；Ｎｏ）、ＣＰＵ４１は、まだ試行していない励起信号特定用データについて試行するために、励起信号特定用データを変更してから（ステップＳ４５）、ステップＳ３３に戻る。全ての励起信号特定用データについて類似度を求めたと判別された場合（ステップＳ４３；Ｙｅｓ）、ＣＰＵ４１は、記憶部に格納されている、励起信号特定用データの関数としての類似度を、全て検索し、類似度同士の大小を比較し、最大の類似度をもたらす励起信号特定用データを見つけ出し、該励起信号特定用データを疑似励起信号特定用データとする決定を行ってから（ステップＳ４７）、処理を終了する。

かかる処理の流れによれば、ステップＳ４３やステップＳ４５等により形成されるループ処理の存在から明らかなように、図１の励起信号特定用データ生成部１５３が生成し得るあらゆる励起信号特定用データについての試行を行い尽くす。よって、図４を参照して先に説明した処理に比べると、ほとんどの場合、処理に要する時間が長くなる。そのかわりに、あらゆる試行用励起信号が試行の対象として網羅されるので、図１の励起信号片記憶部１３ａに記憶された情報から導かれ得る試行用励起信号のうちで音声再生に最適なものを特定する情報が疑似励起信号特定用データとされる結果となるため、音声の忠実な再生という面では有利である。

以下では、本実施の形態に係る音声符号化装置１の励起信号片記憶部１３ａ（図１）に記憶される励起信号片がどのようなものであるかについて、図６を参照しつつ、説明する。なお、既に述べたとおり、本実施の形態に係る音声復号装置２の励起信号片記憶部１３ｂ（図２）は、上述の励起信号片記憶部１３ａと同じ機能を有する。また、励起信号片記憶部１３ａ及び１３ｂは、物理的には、本実施の形態に係る音声符号化兼復号装置３のＲＯＭ４３又は記憶部４５（図３）の記憶領域の一部に相当する。

ＲＯＭ４３又は記憶部４５の記憶領域が圧迫されることを防止する観点、ＣＰＵ４１（図３）に過剰な演算負荷をかけないようにする観点、及び、音声符号化側から音声復号側への単位時間あたりの伝達情報量を減少させる観点からは、励起信号片記憶部１３ａ及び１３ｂに記憶される励起信号片を少なくすべきである。

一方で、音声符号化装置１（図１）に入力される音声を、できるだけ高い品質を維持した状態で音声復号装置２により再生するためには、励起信号片記憶部１３ａ及び１３ｂに記憶される励起信号片を多くすべきである。そのほうが、試行用励起信号に豊富なバリエーションをもたらすことができるので、デジタル入力音声信号の残差信号と比較した場合の類似度が大きい試行用励起信号を特定する情報が疑似励起信号特定用データとして決定されるからである。

これらふたつの要請は矛盾するので、両者を両立させることは、原理的には不可能である。しかしながら、励起信号片1個あたりの再生音声品質という概念を導入し、これをある種のコストパフォーマンスと考えた場合、該コストパフォーマンスを向上させる余地はある。本実施の形態においては、以下に述べるように、ハイ・コストパフォーマンスが実現されるように励起信号片記憶部１３ａが構成されている。

ここまで、フレーム1個についての処理を述べてきたが、以下では理解をさらに容易にするために、励起信号片記憶部１３ａ及び１３ｂは4個の励起信号片だけを格納することができ、ＣＰＵ４１は1フレームあたり4個の励起信号片についての演算であれば負荷なく処理することができ、音声符号化装置１と音声復号装置２とが符号の授受に用いる電波の帯域は1フレームに対応する時間につき2ビットを疑似励起信号特定用データの伝達のために用いることができるような帯域である、とする。加えて、図１の励起信号特定用データ生成部１５３は、4個の励起信号特定用データを生成するものとし、それぞれの励起信号特定用データは、上述の4個の励起信号片のうちの特定の1個を試行用励起信号とするとの指示だけを内容とするデータであるとする。つまり、上述の4個の励起信号片のひとつひとつが、そのまま、試行用励起信号として扱われるものとする。このように簡略化した場合だけ考慮しても、本発明の本質の理解にはさしつかえない。

また、考慮する励起信号片が4個だけに限られた上述のような状況において、様々な周期性を有する信号についてまで検討することは、説明をいたずらに複雑化させ理解を困難にするだけなので、励起信号片としては、雑音信号だけを考慮するものとする。

なお、このことは、上述のように励起信号片記憶部１３ａ及び１３ｂを雑音符号帳と適応符号帳とから構成されるものとして捉えた場合には、固定の雑音符号帳に掲載する雑音信号としてどのようなものを選択すればコストパフォーマンスが高くなるか、を考慮することに相当する。

図６の右下の点線で囲まれた部分は、特段の考慮はなされずに、つまり例えばランダムに、選択された4個の励起信号片である雑音信号R(A)、R(B)、R(C)、及び、R(D)から構成される励起信号記憶部１３ａ及び１３ｂを模式的に示したものである。以下ではこれらの雑音信号の集合を雑音符号帳７１と称する。

雑音符号帳７１には、1フレームに対応する時間に渡り持続する雑音信号R(A)の時間依存性が、デジタルデータとして格納されている。雑音符号帳７１には、このように、実際には、信号の具体的な時間依存性が格納されているのであるが、図６では、雑音信号R(A)が特徴を有さないホワイトノイズであることを示すために、そのスペクトルが、強度が周波数によらない一定値をとるようなものであることを、模式的に示してある。紙面の都合により省略したが、雑音信号R(B)、R(C)、及び、R(D)も、スペクトルとして表示すれば、雑音信号R(A)の場合と同様になる。ただし、時間の関数としてのこれら4個の雑音信号は、少しずつであるにしても相互に異なるものであるから、厳密には、これら4個の雑音信号のスペクトルが全て同じになるわけではない。雑音符号帳７１の中に描かれたスペクトルは、あくまでも、単に、雑音信号になんら特段の作為が施されていないことを強調するための模式図にすぎない。

雑音符号帳７１においては、図６に雑音特定用データと称して示されているように、2桁の2進数"00"、"01"、"10"、及び、"11"が、それぞれ、雑音信号R(A)、R(B)、R(C)、及び、R(D)に付されており、この雑音特定用データにより、雑音符号帳７１に格納されている雑音信号が相互に区別できるようになっている。この雑音特定用データは、そのまま、疑似励起信号特定用データとして用いられることとする。これが可能なのは、上述のとおり、励起信号片1個がそのまま試行用励起信号1個として扱われることとしたからである。つまり、疑似励起信号特定用データは、このように各励起信号片に付された番号で足りる。また、2桁の2進数は情報量としては2ビットであるから、先に述べた、音声符号化装置１と音声復号装置２とが符号の授受に用いる電波の帯域は1フレームに対応する時間につき2ビットを疑似励起信号特定用データの伝達のために用いることができるものである、という条件を満たす。

このような雑音符号帳７１を採用しても、もちろん、音声符号化及び復号は可能である。しかし、同じ4個の雑音信号が格納されるにしても、上述のように例えばランダムに選択された雑音信号が格納された雑音符号帳７１が用いられるよりも、音声信号の特徴を考慮して選択された4個の雑音信号が格納された励起信号記憶部１３ａ及び１３ｂが用いられるほうが、再生音声の品質が高くなる。このように再生音声の高品質化が図られた形態の一例が、本実施の形態である。

本実施の形態における励起信号片記憶部１３ａ及び１３ｂを、図６の左側に鎖線で囲んで示す。以下ではこれを、雑音符号帳７３と称する。

図１の音声符号化装置１、図２の音声復号装置２、及び、図３の音声符号化兼復号装置３の製造段階において、次のことを行う。すなわち、図１のＡ／Ｄ変換部２９３が採用するサンプリング周波数の半分程度の周波数を上限周波数として、カットオフ周波数が周波数軸上で等間隔になるような、励起信号片の個数と同じ個数のハイパスフィルタを用意する。例えば、Ａ／Ｄ変換部２９３が採用するサンプリング周波数が8kHzである場合は、図６の右上に描いたようなグラフを想定して、カットオフ周波数がそれぞれ0kHz、1.2kHz、2.4kHz、3.6kHzである4個のハイパスフィルタを用意する。雑音符号帳７１に格納されている雑音信号R(A)を、これら4個のハイパスフィルタに通すことにより、4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)を生成する。なお、ここでは、雑音信号の表記法は、次のようなものである。すなわち、括弧の中の最初の「A」は、該雑音が雑音信号R(A)を起源とするものであることを意味し、次の"kHz"の部分は、カットオフ周波数を意味する。

生成したこれら4個の雑音信号を雑音符号帳７３としてまとめて、励起信号片記憶部１３ａ及び１３ｂに格納する。物理的には、図３に示すＲＯＭ４３に、雑音符号帳７３に相当するデータが書き込まれる。その際、これら4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)には、図６の雑音符号帳７３の中に示したように、それぞれに、雑音特定用データとして、2桁の2進数"00"、"01"、"10"、及び、"11"が付される。

図６では、雑音符号帳７３の中に、各雑音信号のスペクトルが模式的に示されている。つまり、各雑音信号をスペクトルとして表現した場合、各スペクトルは、カットオフ周波数以下の成分を有さない一方、カットオフ周波数よりも高い周波数については、ホワイトノイズと同様に、周波数に依存しない一定の強度を有する。

このように構成された雑音符号帳７３を励起信号片記憶部１３ａ及び１３ｂとして採用した、本実施の形態に係る音声符号化装置１、音声復号装置２、及び、音声符号化兼復号装置３は、雑音符号帳７１が採用された音声符号化及び復号装置に比べて、記憶されている励起信号片の個数が等しいにもかかわらず、高品質の音声再生を可能とする。すなわち、高いコストパフォーマンスを実現する。

１フレームに対応する時間区間に細分した場合、入力音声は、時間区間毎にその具体的な値は異なるものの一定の周波数以下の周波数成分を含まない場合がある。よって、特に、符号帳に掲載できる雑音信号の個数が諸般の事情により限られている場合、例えばここで説明しているように4個に限られている場合には、様々な周波数を境に低域成分がカットされている複数の雑音信号を符号帳に掲載すると、無作為に選択した同じ個数の雑音信号を掲載する場合に比べて、信号標本の個数の割に、再生音声の品質が高くなる。また、前記一定の周波数がたまたま0kHzであった場合、すなわち、前記時間区間の間の入力音声が直流成分を含む場合に備えて、励起信号片としてカットオフ周波数が0kHzの雑音信号が存在することが望ましいので、本実施の形態では、雑音符号帳７３には雑音信号R(A、0kHz）が励起信号片として含まれている。カットオフ周波数が0kHzのフィルタを通された信号は元のままであるから、雑音符号帳７３に格納されているこの雑音信号R(A、0kHz)は、雑音符号帳７１に格納されている雑音信号R(A)そのものであり、雑音信号R(A)は、既に述べたとおり、特段の作為を施されていない雑音信号であるから、雑音信号R(A、0kHz）は、上述の、励起信号片として存在することが望ましい雑音信号としての条件を満たしている。

本実施の形態に係る図１の音声符号化装置１、図２の音声復号装置２、及び、図３の音声符号化兼復号装置３においては、各フレームについて疑似励起信号として選択される励起信号片は、多くの場合、該フレームに対応する時間区分における入力音声が含む最低周波数成分の周波数に近いカットオフ周波数成分を有する雑音信号である。つまり例えば、あるフレームに対応する時間区分における入力音声信号が含む最低周波数成分の周波数が1000Hzであれば、多くの場合、雑音信号R(A、1.2kHz)が疑似励起信号として選択される結果となるし、入力音声信号が含む最低周波数成分の周波数が3700Hzであれば、多くの場合、雑音信号R(A、3.6kHz)が選択される。そして、かかる選択が行われることによってこそ、本実施の形態に特有の効果が最も顕著に発現する。ただし、図４及び図５を参照して説明した類似度には様々な定義が考えられることや、たまたまある時間区分で入力音声が特異的な特徴を有することがある場合も考えられるので、上述の選択が行われない場合がある可能性はある。本実施の形態は、かかる事態が生じる場合を除外するものではない。かかる事態は例外的なものであり、連続するある程度多数の前記時間区分が連なった時間帯、典型的には人間同士の会話において音声が言語としての意味をなす程度の長さの時間帯を全体的に考えれば、本実施の形態の効果は確実に発現すると期待されるからである。

このように、本実施の形態によれば、雑音符号帳に掲載される雑音信号を、カットオフ周波数が低域から高域の間で順次切り替わっていくハイパスフィルタを通した雑音信号とする。これにより、入力音声の残差信号のうちの雑音的な部分の特徴を、雑音符号帳の容量及び通信ビットレートの割には効果的に表現することが可能となる。したがって、本実施の形態によれば、雑音符号帳の容量や通信ビットレートに制約がある場合でも、該制約の影響が極力排除され再生される音声の聴覚上の音質が高く維持されるような音声符号化及び復号が可能となる。

雑音符号帳７３に格納する各雑音信号のカットオフ周波数は、上述のように、Ａ／Ｄ変換部２９３が採用するサンプリング周波数の半分程度の周波数を上限周波数として、カットオフ周波数が周波数軸上で等間隔に並ぶように決めた。

上限周波数をサンプリング周波数の半分程度とした理由は、それ以上高い周波数を上限周波数とすることが、離散データに関する数学的原理上、格別の効果をもたらさないからである。

カットオフ周波数を、周波数軸上で等間隔に並ぶように決定する理由は、1フレームに対応する時間区間毎に定まる、入力音声の最低周波数成分の周波数の値の出現頻度分布が、周波数に対して概ね一様となるので、カットオフ周波数の間隔が一定になるような複数の信号標本を符号帳に掲載すると効率が良いためである。なお、諸般の制約条件が緩いために励起信号片記憶部１３ａにより多くの励起信号片を格納する余地があるならば、再生音声品質をいっそう向上させるために、前記出現頻度がわずかであれ高いことが実験等により判明した帯域については、該帯域に対応した励起信号片を特に手厚く格納するようにしてもよい。具体的には、例えば、該帯域でのみ、他の帯域に比べてより小刻みにカットオフ周波数を相違させるようにした励起信号片を格納することが考えられる。

なお、この発明は、上記実施形態に限定されず、種々の変形及び応用が可能である。上述のハードウェア構成やブロック構成、フローチャートは例示であって、限定されるものではない。

例えば、図３に示される音声符号化兼復号装置３として携帯電話機を想定して説明したが、ＰＨＳ（Personal Handyphone System）や、ＰＤＡ（Personal Digital Assistants）、あるいは一般的なパーソナルコンピュータには、本発明を容易に適用することができる。すなわち、上記実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。

また、図６を参照した上記の説明においては、励起信号片記憶部１３ａ及び１３ｂに格納される励起信号片の集合として、1個の雑音信号R(A)に由来する4個の雑音信号R(A、0kHz)、R(A、1.2kHz)、R(A、2.4kHz)、及び、R(A、3.6kHz)から構成される雑音符号帳７３が採用されるとした。しかし、全ての励起信号片が同一の信号を起源としなければならないわけではない。よって、例えば、図７に模式的に示したように、カットオフ周波数が0kHzの雑音信号を雑音信号R(A)から生成し、カットオフ周波数が1.2kHzの雑音信号を雑音信号R(A)とは別の雑音信号R(B)から生成し、カットオフ周波数が2.4kHzの雑音信号をさらに別の雑音信号R(C)から生成し、カットオフ周波数が3.6kHzの雑音信号をさらにまた別の雑音信号R(D)から生成して、結局、雑音信号R(A、0kHz)、R(B、1.2kHz)、R(C、2.4kHz)、及び、R(D、3.6kHz)から構成される雑音符号帳７５を、雑音符号帳７３のかわりに採用してもよい。なお、図６及び図７の雑音符号帳７１の中の雑音信号R(A)、R(B)、R(C)、及び、R(D)は、いずれも、1フレームに対応する時間長だけ持続する雑音信号であるが、これらが乱数発生器等により個別に生成される必要はなく、十分長い時間に渡って持続する雑音信号のうちから、1フレームに対応する時間長に相当する重複しない部分を4個選んで、該部分を切り出すことにより4個の雑音信号を生成してもよい。

また、図６を参照した上記の説明においては、音声符号化及び復号装置を製造する段階で、雑音符号帳に掲載する雑音信号を決定したが、励起信号片をより多彩にすることが許容される場合には、製造段階では図６及び図７に示す雑音符号帳７１を図３のＲＯＭ４３に書き込んでもよい。この場合は、製造段階で、カットオフ周波数が可変のハイパスフィルタにデジタル信号を通すことに相当する演算をＣＰＵ４１に行わせる動作プログラムを、ＲＯＭ４３にさらに書き込んでおく。そして、音声符号化及び復号装置の動作時に、該ハイパスフィルタを機能させることにより、ＲＯＭに書き込まれてある雑音信号に基づいて、図３の記憶部４５に、図６の雑音符号帳７３又は図７の雑音符号帳７５を展開して、適宜利用する。

本発明の実施の形態に係る音声符号化装置の機能構成を示す図である。本発明の実施の形態に係る音声復号装置の機能構成を示す図である。本発明の実施の形態に係る音声符号化兼復号装置の物理的な構成を示す図である。疑似励起信号特定用データを求める処理の流れの一例を示す図である。疑似励起信号特定用データを求める処理の流れの別の一例を示す図である。本発明の実施の形態に係る励起信号片記憶部に格納される励起信号片の一例を模式的に示す図である。本発明の実施の形態に係る励起信号片記憶部に格納される励起信号片の別の一例を模式的に示す図である。

符号の説明

１・・・音声符号化装置、２・・・音声復号装置、３・・・音声符号化兼復号装置、１１・・・予測分析部、１３ａ・・・励起信号片記憶部、１３ｂ・・・励起信号片記憶部、１５・・・励起信号決定部、１７・・・符号化部、２１・・・送信部、３３・・・受信部、３５・・・復号部、３９・・・音声再生部、４１・・・ＣＰＵ、４３・・・ＲＯＭ、４５・・・記憶部、５１・・・音声処理部、５３・・・無線通信部、５５・・・操作キー入力内容処理部、６１・・・システムバス、７１・・・雑音符号帳、７３・・・雑音符号帳、７５・・・雑音符号帳、１５１ａ・・・励起信号生成部、１５１ｂ・・・励起信号生成部、１５３・・・励起信号特定用データ生成部、１５５ａ・・・合成フィルタ部、１５５ｂ・・・合成フィルタ部、１５７・・・比較部、１５９・・・スイッチ開閉部、２９３・・・Ａ／Ｄ変換部、２９５・・・マイクロフォン、３９３・・・Ｄ／Ａ変換部、３９５・・・スピーカ、４５１・・・ＲＡＭ、４５３・・・ハードディスク、５３３・・・アンテナ、５５３・・・操作キー

Claims

入力音声信号に予測分析を施すことにより予測係数を算出する予測分析部と、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記予測分析部が算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、前記励起信号片記憶部に記憶されている励起信号片に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定部と、
前記予測分析部が算出した予測係数と前記励起信号決定部が求めた疑似励起信号特定用データとを符号化する符号化部と、
を備える音声符号化装置。
前記励起信号片記憶部は、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の雑音信号を励起信号片として記憶する、
ことを特徴とする請求項１に記載の音声符号化装置。
前記励起信号片記憶部は、
それぞれに０からＮ（Ｎは、所定の自然数、以降同じ。）−１までのうちのいずれかの識別用番号が付された信号であって所定の上限周波数に該識別用番号を乗じた後にＮで除した結果である周波数をカットオフ周波数とし該カットオフ周波数以下の周波数成分を含まないＮ個の信号を励起信号片として記憶する、
ことを特徴とする請求項１又は２に記載の音声符号化装置。
前記励起信号決定部は、
前記励起信号片記憶部に記憶されている励起信号片を１個特定するか又は複数個組み合わせるかすることにより前記疑似励起信号の候補である試行用励起信号を生成するときの前記励起信号片の特定結果又は組み合わせ方を試行用励起信号生成方針として決定する試行方針決定部と、
前記試行方針決定部が決定した試行用励起信号生成方針に従って前記励起信号片記憶部に記憶されている励起信号片を１個特定するか又は複数個組み合わせるかすることにより前記試行用励起信号を生成する励起信号生成部と、
前記予測分析部が算出した予測係数により定義され、前記試行用励起信号が入力されることにより音声信号を合成する合成フィルタ部と、
を備え、
前記合成フィルタ部が合成した音声信号により前記入力音声信号が所定の許容誤差範囲内で再現される場合に、該合成フィルタ部に入力された試行用励起信号が前記励起信号生成部により生成された際に前記試行方針決定部により決定された試行用励起信号生成方針を前記疑似励起信号特定用データとする、
ことを特徴とする請求項１乃至３の何れか１項に記載の音声符号化装置。
前記試行方針決定部は、
有限個の試行用励起信号生成方針を決定する、
ことを特徴とし、
前記励起信号生成部は、
前記試行方針決定部が決定した有限個の試行用励起信号生成方針に従って有限個の前記試行用励起信号を生成する、
ことを特徴とし、
前記励起信号決定部は、
前記励起信号生成部が生成した有限個の試行用励起信号が前記合成フィルタ部に入力されることにより該合成フィルタ部が合成した有限個の音声信号のうちから前記入力音声信号に最も近い音声信号である疑似音声信号を決定し、該疑似音声信号が合成されるに際して該合成フィルタ部に入力された試行用励起信号を前記疑似励起信号とする、
ことを特徴とする請求項４に記載の音声符号化装置。
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号を励起信号片として記憶する励起信号片記憶部と、
前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信部と、
前記受信部が受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号部と、
前記復号部が生成した励起信号特定用データを前記励起信号片記憶部に記憶されている励起信号片と共に用いることにより励起信号を生成する励起信号生成部と、
前記復号部が生成した予測係数と前記励起信号生成部が生成した励起信号とから音声信号を生成する音声再生部と、
を備える音声復号装置。
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
から構成される音声符号化方法。
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
から構成される音声復号方法。
コンピュータに、
入力音声信号に予測分析を施すことにより予測係数を算出する予測分析ステップと、
前記予測分析ステップにより算出した予測係数を用いて音声合成を行った場合に前記入力音声信号が所定の許容誤差範囲内で再現される励起信号である疑似励起信号を、それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本に基づいて特定するための情報である疑似励起信号特定用データを求める励起信号決定ステップと、
前記予測分析ステップにより算出した予測係数と前記励起信号決定ステップにより求めた疑似励起信号特定用データとを符号化する符号化ステップと、
を実行させるプログラム。
コンピュータに、
それぞれに異なるカットオフ周波数が定められておりかつ該カットオフ周波数以下の周波数成分を含まない複数の信号標本と共に用いることにより特定の励起信号の生成を可能とする情報である励起信号特定用データと予測係数とが符号化された結果である符号を受け取る受信ステップと、
前記受信ステップにより受け取った符号を復号することにより前記励起信号特定用データと前記予測係数とを生成する復号ステップと、
前記復号ステップにより生成した励起信号特定用データを前記複数の信号標本と共に用いることにより励起信号を生成する励起信号生成ステップと、
前記復号ステップにより生成した予測係数と前記励起信号生成ステップにより生成した励起信号とから音声信号を生成する音声再生ステップと、
を実行させるプログラム。